JP2009146158A - 文書分類装置の余分構造減退方法 - Google Patents

文書分類装置の余分構造減退方法 Download PDF

Info

Publication number
JP2009146158A
JP2009146158A JP2007322635A JP2007322635A JP2009146158A JP 2009146158 A JP2009146158 A JP 2009146158A JP 2007322635 A JP2007322635 A JP 2007322635A JP 2007322635 A JP2007322635 A JP 2007322635A JP 2009146158 A JP2009146158 A JP 2009146158A
Authority
JP
Japan
Prior art keywords
hierarchical structure
node
classification
partial
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007322635A
Other languages
English (en)
Other versions
JP4895988B2 (ja
Inventor
Kiyoshi Nitta
清 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007322635A priority Critical patent/JP4895988B2/ja
Publication of JP2009146158A publication Critical patent/JP2009146158A/ja
Application granted granted Critical
Publication of JP4895988B2 publication Critical patent/JP4895988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類に階層構造を用いる際、事例集合の割り当てにより、同一階層の複数のノードに同じ事例集合が割り当てられることがたびたび起こる。従来手法では、前記同じ事例集合は削除せざるを得なかった。しかし、前記削除により、文書分類装置の性能の低下などの問題がおきていた。
【解決手段】本発明は、前記余分構造を減退させる方法において、文書分類に用いる階層構造中から複数の類似階層構造を検出し、その中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定し、削除決定された部分階層構造から取得した事例集合を、削除しない部分階層構造の対応するノードに含まれる事例集合に追加し、削除決定された部分階層構造を削除することを特徴とする文書分類装置の余分構造減退方法である。

【選択図】 図10

Description

本発明は、階層構造を持つ文書分類装置において、より精度よく文書分類を行うための方法に関するものである。
インターネットの検索技術においては、古くからWebページのURLをカテゴリ毎に分類した階層構造を用いて検索が行われてきた。このカテゴリに登録された文書やネット上の文書を自動的に分類する手法が検討されている。例えば、kNNやSVM等のマルチクラス分類による方法、kNNを組み合わせたSVMパチンコ分類等の機械学習方法を用いた分類手法が主流となっている。
まず、階層構造は、複数のノードと枝からなる。各ノードには任意の概念が付与されている。任意のノードは、自身が持つ概念に対する下位概念を持つノードを、自身の下位のノードとし、自らを上位ノードとする。そして、枝が、上位ノードと下位ノードの関係にあるノード同士を結び付けることで、階層構造が構成される。一例として、『金融と投資』という概念(カテゴリ)が付与されたノードと、『株式』という概念(カテゴリ)が付与されたノードと、がある。前記例においては、『金融と投資』という概念は『株式』という概念の上位概念にあたる。したがって、『金融と投資』という概念が付与されたノードと『株式』という概念が付与されたノードとの間には、『金融と投資』という概念が付与されたノードを上位ノードとし、『株式』という概念が付与されたノードを下位ノードとする階層構造が成立する。
前記階層構造を用いた典型的なものの一例として、インターネット上のディレクトリ型検索エンジンがあげられる。図24は、インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノード(2401)を上位ノードとした階層構造の例である。『金融と投資』という概念が付与されたノード(2401)は、『株式』という概念が付与されたノード(2404)や『家計』という概念が付与されたノード(2405)などに対する上位ノードである。逆に、『株式』という概念が付与されたノード(2404)や『家計』という概念が付与されたノード(2405)は『金融と投資』という概念が付与されたノード(2401)に対する下位ノードである。前記上位ノードと下位ノードは枝(2402)により結びつけられている。同様に、『株式』という概念が付与されたノード(2404)と、『市況』という概念が付与されたノード(2406)との間には、上位ノードと下位ノードの関係が成立する。このように、階層構造においては、下位階層にいくにつれてノードに付与される概念が狭くなっていく。
実際に、インターネット上のディレクトリ型検索エンジンにおいては、各ノードには、各ノードに付与された概念により構成されたホームページやウェブ文書が、人手によりリンク付けされている。たとえば、『A証券』という概念を持つノード(2407)には、A証券に関する内容を含むホームページ(2408)がリンク付けされている。そして、前記検索エンジンのユーザが『A証券』に関して検索したい場合、ユーザはまず複数の上位ノードの中から、『A証券』という概念の上位概念に相当する『金融と投資』という概念が付与されたノード(2401)を選択する。次に前記ユーザは、『金融と投資』という概念に対する下位概念である『株式』や『家計』などの概念を持つノードの中から、『A証券』という概念の上位概念に相当する『株式』という概念が付与されたノード(2404)を選択する。このようにして前記ユーザは、階層構造の下位階層へと進むにつれて、より狭い範疇からなる概念が付与されたノードを選択していくことで、最終的には、『A証券』という概念を含むノード(2407)にたどり着く。ユーザは『A証券』という概念を含むノード(2407)にたどり着くことで、『A証券』に関するホームページやウェブ文書(2408)を閲覧することができる。
文書分類に階層構造が用いられる場合においては、しばしば既存の階層構造が用いられることがある。既存の階層構造とは、インターネット上のディレクトリ型検索エンジンに用いられている階層構造などのことである。
図24に例示した、インターネット上のディレクトリ型検索エンジンに用いられている階層構造を、文書分類に用いた例を以下に記す。前記例において、分類対象となる文書は、各ノードに既に貼り付けられている事例集合をもとに分類される。ここで、事例集合とは、各ノードにリンク付けされているホームページやウェブ文書のことである。たとえば、『A証券』という概念を含むノード(2407)においては、『A証券』に関するホームページやウェブ文書(2408)が事例集合に相当する。
この事例集合は、文書分類が行われる前に、前記事例集合が貼り付けられているノードの一階層上位のノード(2412)に割り当てられる(2409)(2410)(2411)。割り当てる、とは、コピーして貼り付けるようなことである。したがって、割り当て作業が行われることにより、元のノードから事例集合が切り取られるというわけではない。そして、前記一階層上位のノード(2412)(2425)に割り当てられた事例集合(2413)(2416)、および、前記一階層上位のノード(2412)(2425)にすでに貼り付けられている事例集合(2414)(2417)は、さらに一階層上位のノード(2406)に割り当てられる(2415)(2418)。このような割り当て作業を繰り返すことで、上位ノードである、『金融と投資』という概念が付与されたノード(2401)には、下位ノードに貼り付けられていた全ての事例集合(2419)(2426)が割り当てられる。
次に、割り当て作業の終了した階層構造において、前記階層構造の各ノードに割り当てられた事例集合は形態素解析にかけられる。そして、各事例集合からは、前記各事例集合に含まれるキーワード(2420)(2427〜2430)が抽出される。
そして、分類対象である文書は前記キーワードを元に、機械学習による分類器により分類される。即ち、各ノードには、そのノードの概念(カテゴリ)に所属するか否かを判定する機械学習による分類器が設定され、この分類器により例えば、前記キーワードを手がかりとした分類が行われる。図24(a)において、『金融と投資』という概念が付与されたノード(2401)の事例集合には『A証券』『幹事引受業務』というキーワードが含まれ、『A証券における幹事引受業務の評価』という文章を含んでいる文書X(2421)が分類対象である場合、ノードのキーワードに基づいて前記文書Xが分類器により分類されて、最終的に『A証券』という概念が付与されたノード(2407)に分類される(2424)。
特許3880504号 特開2005−266866号
既存の階層構造内の、各ノード間のリンク関係、および、ノードにどのような事例集合を貼り付けるかについては、人手によりメンテナンスされている。図25は、ディレクトリ型検索エンジンに用いられている階層構造の概念を例示する図である。この図においては、最下位層のノードk(2501)には事例集合Aが、ノードm(2502)には事例集合Bが、ノードn(2503)には事例集合Cが、ノードi(2504)およびq(2505)には事例集合Dが、ノードj(2506)およびr(2507)には事例集合Eが、貼り付けられている。そして、事例集合の割り当て作業により、前記最下位層に対する上位層であるノードs(2508)には事例集合A、B、Cが、ノードh(2509)には事例集合D、Eが、ノードp(2510)には事例集合D、Eが、ノードg(2511)には事例集合A、B、C、D、Eがそれぞれ割り当てられる。ここで、図25に係る階層構造においては、ノードs(2508)からは、ノードg(2511)だけでなくノードo(2512)へとリンクが張られている(2513)。このように、ディレクトリ型検索エンジンに用いられている階層構造においては、前記検索エンジンの利便性を高めるため、任意のノードから複数の上位ノードに対しリンクを張っていることがある。したがって、図25においては、ノードo(2512)には事例集合A、B、Cが割り当てられてしまう。また、ノードp(2510)には、事例集合D、Eが割り当てられているため、ノードo(2512)にはさらに事例集合D、Eが割り当てられてしまう。これは、ノードh、i、jからなる階層構造の一部分X(2516)と、ノードp、q、rからなる階層構造の一部分Y(2517)とにおいて、それぞれ対応するノードに同じ事例集合が割り当てられているからである。このように、既存の階層構造においては、前記階層構造中の一部分の各ノードに対する事例集合の配置と、同じ事例集合の配置をしている部分が複数ある、という状況がたびたび起こる。結果、ノードg(2511)とノードo(2512)には、同じ事例集合A、B、C、D、Eが割り当てられてしまう。この階層構造を文書分類器に用いる場合において、たとえば事例集合AおよびDに類似する内容を持つ文書A'(2514)、およびD'(2515)をこの文書分類器にかけると、前記文書はノードg(2511)とノードo(2512)のいずれにも分類されてしまうという状況が招来する。つまり、既存の階層構造を文書分類に用いる場合、割り当て作業を行った際に、同一階層中の複数のノードに共通の事例集合が割り当てられる状態が招来することで、文書によっては、前記同一階層中の複数のノードのいずれにも分類されてしまうという、文書分類器として矛盾した状態が招来する。すなわち、既存の階層構造は、機械学習手法を用いて文書分類を行う文書分類装置にはあまり適さない構造である。従来までは、この問題を解決するために、同一階層中の複数のノードに割り当てられた事例集合を、階層構造中から全て削除していた。しかし、前記事例集合の削除により、機械学習による文書分類器の分類精度の低下が起きたり、分類クラスの削除を余儀なくされるなどの問題がおきる。
そこで、本件発明に係る文書分類装置の余分構造減退方法を提案する。具体的には、第一の発明は、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類の論理的分類構造である階層構造を取得し、取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を検出し、検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定し、決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得し、取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加し、削除対象として決定された部分階層構造を文書分類のための階層構造から削除することを特徴とする文書分類装置の余分構造減退方法である。
第二の発明は、第一の発明において、類似階層構造検出方法が、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの類似の判断については、各ノードの分類ラベルの比較を分類ラベル文字列が完全一致するかにより判断する手法と、分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する手法と、分類ラベルの意味が一致するかにより判断する手法と、のいずれかの手法にて実行する文書分類装置の余分構造減退方法である。
第三の発明は、第二の発明において、類似階層構造検出を、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行うことを特徴とする文書分類装置の余分構造減退方法である。
第四の発明は、第一の発明にかかる文書分類装置である。第五の発明は、第二の発明にかかる文書分類装置である。第六の発明は、第三の発明にかかる文書分類装置である。
本件発明により、事例集合の総数を極端に減少させることなく、階層構造を用いた文書分類を行うことができる。すなわち、本件発明により、機械学習手法による文書分類において、分類精度の低下しない階層構造を形成することができる。
以下に、本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。なお、以下の実施形態と請求項の関係は次の通りである。
実施形態1は、主に請求項1、および、4などについて説明する。
実施形態2は、主に請求項2、および、5などについて説明する。
実施形態3は、主に請求項3、および、6などについて説明する。
<<実施形態1>>
まず最初に実施形態1について説明する。
<実施形態1の概要>
実施形態1は、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類の大規模階層構造の中から、部分階層構造であって、類似しているものを抽出し、類似しているものの一方を削除し、他方を残すという、余分構造減退方法に関するものである。
<発明の構成>
実施形態1は、図6に示すように、階層構造取得ステップ(S0602)と、類似階層構造検出ステップ(S0603)と、決定ステップ(S0604)と、事例集合取得ステップ(S0605)と、追加ステップ(S0606)と、削除ステップ(S0607)と、からなる。
以下、これらの各ステップについて、説明していく。
まず最初に、本実施形態の余分構造減退方法の機能であるが、図1に示す通りとなる。図1は、文書分類をこの構造を利用する場合の概要を示すものである。図中、A(0101)、B(0102)、C(0103)と書かれているものは本論理的分類構造の階層構造を形成するノードに該当し、各ノードにはラベルという名前がつけられている。また、ノードBとノードCにはそれぞれ事例集合1(0104)、事例集合2(0105)が貼り付けられており、例えばノードBには「国民年金の不払いにより・・・」という事例集合が貼り付けられている。また、ノードCには「投資信託のパフォーマンス・・・」という事例集合が貼り付けられている。例えばノードAに対して図1に示すように「サブプライム問題による投資信託はそのパフォーマンスが・・・」という文章(0106)を分類するために投入したとする。そうすると、この文書に含まれているキーワードと事例集合1(0104)または事例集合2(0105)に含まれているキーワードとの類似性、一致性を判断し、この文章はノードBまたはノードCに対して分類されるように計算機によって処理される。
例えば本例の場合には、分類されるべき文書(0106)に投資信託という言葉とパフォーマンスという言葉が入っており、事例集合1(0104)にはそのような言葉が入っていないのに対して、事例集合2(0105)には同じ言葉が含まれているため、分類されるべき文章はノードAからノードCに対して分配される(0107)ことになる。このように、本件実施形態でいうところの論理的分類構造とはノードを定め、そのノードをいわゆる樹状構造などに配置し、上位から下位に向かって概念をより狭くしていくように事例集合を各ノードに対して配置したものである。
ここでノードは例えば図2に示すように構成されている。図2は本実施形態の論理的分類構造の各ノードを示しているものである。本図に示すように頂上にあるノード(0201)は1、その配下にあるノード(0202)(0203)は例えばN(1,1)、N(1,2)というように上位ノードの識別数字を左詰めで記載していくような法則を採用している。
例えば、第3層の一番左側(0204)は上位ノードがN(1,1)であるのでN(1,1,1)などと記載されるようになる。本明細書全体を通じてノードを特に識別して表示する場合にはこのようなルールに従って表示する。また文書分類のための論理的分類構造の特徴は、下位ノードが決まればその上位ノードが決まるという論理構造になっている点にもある。
ただし場合によっては下位ノードが二つの上位ノードに対して分岐している場合もあり、本明細書における論理的分類構造である階層構造にはそのような場合も含むものとする。
前述したように分類されるべき文書は上位階層の情報にあるノードから下方にあるノードに向かって各ノードに対して貼り付けられている事例集合を利用して分類されていく。図3は事例集合が各ノードに対してどのように割り当てられているかを例示するものである。ここでは1階層分(2層のノードからなっている)の階層構造として上位が「金融」であり下位に「年金」および「投資信託」というラベルを貼り付けられたノード(0301〜0303)が存在するものとして説明する。
年金というラベルが貼り付けられたノード(0302)に対しては、そのラベルにふさわしい事例集合1(0304)が貼り付けられており、また投資信託というラベルが貼り付けられたノード(0303)には、その投資信託というラベルにふさわしい事例集合2(0305)が貼り付けられている。これらの事例集合の貼り付け、すなわち割り当てて関連付ける処理は人間の手作業によって行われる。
ここで、金融というラベルは年金および投資信託という言葉の上位概念に該当する言葉である。そして、ラベル「年金」のノード(0302)に貼り付けられている事例集合1(0304)およびラベル「投資信託」のノード(0303)に貼り付けられている事例集合2(0305)はその上位ノードである「金融」というラベルが貼り付けられているノード(0301)に対してさらに割り当てられるようになる。なぜならば、金融というノード(0301)にさらに上位ノードから分配されてきた分類されるべき文書が、下位ノードに最適に分類されるためには、まず年金もしくは投資信託に該当する分類されるべき文書が「金融」というノード(0301)に分配されなければならず、「金融」というノード(0301)にそのような文書が配分されるようにするために、下位ノードの「年金」および「投資信託」というノード(0302)(0303)に貼り付けられている事例集合(0304)(0305)が上位ノードに貼り付けられるのである。この下位ノードの事例集合の上位ノードへの貼り付けは文書分類装置にて自動的に行われる。つまり、文書分類のための事例集合の貼り付けは下位ノードに対しては手作業で行われるのに対し、上位ノードへは自動的に行われる。また、「金融」という上位概念が、「年金」および「投資信託」という下位概念を意味的に包含するため、下位ノードの事例が上位ノードの事例に含まれていることがある。このような場合は、事例集合の割り当ての際、下位ノードに張り付けられている事例集合が、上位ノードにすでに貼り付けられている事例集合を上書きする形で、割り当てが行われる。
次に類似構造の定義について説明する。本実施形態については類似構造を厳密には定義しないが、例えば一例としてラベルが同一であるという場合である。図4に示すように「年金」というノード(0401)の下位にある「政府見解」、「金融庁見解」、「内閣見解」というラベルを張り付けられたノード(0402〜0404)の階層構造と、「投資信託」というノード(0405)の下にある「政府見解」、「金融庁見解」、「内閣見解」というラベルを張り付けられたノード(0406〜0408)は同一の関係にある。従って、図4に示す階層構造中、類似する階層構造としては「年金」というノード(0401)の下の「政府見解」、「金融庁見解」、「内閣見解」のラベルがはりつけられたノード(0402〜0404)からなる部分階層構造と、「投資信託」というノード(0405)の下にある「政府見解」、「金融庁見解」、「内閣見解」のラベルがはりつけられたノード(0406〜0408)からなる部分階層構造が該当する。
さて、以上によって本件発明が対象とする論理的分類構造のおおまかな特徴を説明したので、以下に各ステップについて詳細に説明していくこととする。
まず最初のステップは階層構造取得ステップである。
「階層構造取得ステップ」とは、図5にあるような階層構造データを取得することによって行われる。このような階層構造データは本件発明外である文書分類装置の文書分類のためのデータとして格納されているものを取得してくることにある。この図に示すように、階層構造データとは例えばノードのデータ(0501)と事例集合のデータ(0502)などからなっている。ノードのデータ(0501)はここにあるようにN(1)というノードを識別するデータ(0503)とそれにセミコロンで続く「金融」というラベル(0504)とさらにそれにセミコロンで続く事例集合識別のためのIDを一行に記載したもの(0505)(0506)を各ノードについて複数行記載することで構成される。
また事例集合データ(0502)は事例集合を識別するためのデータ(0507)をまず記載し、それにセミコロンで続けてそれぞれの事例集合の内容を示す文書を識別するID(0508)を記載していく。例えば事例集合1という事例集合ID(0508)についてはJ011.doc、J012.doc、さらにJ013.docという文書が関連付けられている。これら「doc」という拡張子で示されるファイル名は文書ファイルの識別情報を示しており、これらの文書ファイルが事例集合に該当するものである。このような形で論理的分類構造全体の階層構造データが全ノードについて取得されることで本件発明の階層構造取得ステップが終了する。
次に取得した階層構造から類似階層構造を検出するステップが必要となる。
「類似階層構造検出ステップ」は具体的には図7に示すようなアルゴリズムによって処理される。図7について説明すると、まず最初にLに1を代入し、何階層分からなる部分階層構造を取得するか決定する(S0701)。次にL+1階層から構成される部分階層構造のうちの全てのノードを抽出する(S0702)。さらに抽出されたノードで構成される階層構造同士の対応ノードを取得する(S0703)。さらに取得された対応ノード同士の類似性を判断する(S0704)。対応ノードは、部分階層構造として取得するノード群のうち最上位のノードと、そのノードの配下につらなる下位の階層のノードとをそれぞれ比較する。下位の階層のノードは1層だけとは限らず、2層、3層、それ以上があり得る。各対応するノードどうしの類似性判断は、例えば分類ラベルが同一であるか共通であるかなどで判断される。しかし、本実施形態ではこれに限られず、事例集合の類似性でノードの類似性を判断してもよい。事例集合の類似性は、事例集合に含まれる単語を抽出して、抽出された単語の類似性を判断したり、抽出される単語同士のつながりの類似性を判断してもよい。この技術に関しては従来技術を利用することができる。
一のノードについて類似性がある、すなわち類似であると判断された場合には次に対応するノードについても判断を行い、結局全てのノードが類似しているか判断し(S0705)、対応している全てが類似であると判断された場合にはこれら対応しているノードを有する二つの部分階層構造は類似階層構造として記録される(S0706)。大きな部分階層構造は小さな部分階層構造を包含するのでたとえば三階層のノードから構成される比較的大きな部分階層構造が類似であると判断される場合には、当然にそれに含まれている二階層の部分階層構造も類似であると判断されるが、この場合には結果として最も大きい部分階層構造を類似関係にある部分階層構造であるとの結果を得るように構成すればよい。また、処理を終了するか否かの判断については、処理対象である階層構造が、L+2の部分階層構造を持つ場合処理を続行し、持たない場合は処理を終了する、などとすればよい。
このような形で類似階層構造検出ステップが行われるが、対応するノードはノードデータによって識別され、各対応するノードに貼り付けられているラベルはノードデータ中に記載されているラベルによって識別される。図8はその抽出結果として類似している3点からなる部分階層構造を示すもの(0801)である。図8に示す抽出結果データによればN(1,1)とN(1,2)は対応しており(0802)、N(1,1,1)とN(1,2,1)は対応しており(0803)、N(1,1,3)とN(1,2,2)は対応している(0804)ということを示している。ここでいう対応とは同一または類似していることを指し、結果としてN(1,1)―N(1,1,1)―N(1,1,3)からなる部分階層構造(三点からなる三角形のもの)と、N(1,2)―N(1,2,1)―N(1,2,2)からなる部分階層構造(同じく三点からなる三角形のもの)とは類似関係にあるということが判明する。以上説明したものが類似階層構造検出ステップである。
次に決定ステップの説明をする。
「決定ステップ」とは、検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造を決定するステップである。この決定方法は設計事項ということができるが、例えば削除する方と削除しない方とを決定するために、各ノードに貼り付けられている事例集合の数を比較することが考えられる。その結果事例集合の数が多い部分階層構造の方を残す方、少ない部分階層構造の方を削除する方とすることが出来る。
または、サンプルとなる所定数(たとえば100文書)の分類すべき文章を投入し、その結果いずれの部分階層構造に対してより多くの文書が分類されるかを検出することによって削除する方と削除されない方を決定することが出来る。この場合には削除されない方に多くの文章が分類されるとするのが好ましい。なお、このように部分階層構造が類似でもそのパフォーマンスに差が出るのは実際には貼り付けられている事例集合に差があるからである。もちろん事例集合も含めてまったく同一である場合には両部分階層構造のパフォーマンス自体は全く同じであるが、より上位階層のノードに貼り付けられている事例集合の差によってやはり文書の分類結果には差が出ることとなる。
次に、事例集合取得ステップを説明する。
「事例集合取得ステップ」とは決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得するステップである。例えば図9に示すように削除されるべき階層構造がN(1,2)、N(1,2,1)、N(1,2,2)からなる部分階層構造であるとすれば、これら3つのノードに貼り付けられている事例集合を取得することになる。
次に追加ステップについて説明する。
「追加ステップ」とは取得した事例集合を削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加するステップである。本追加ステップを説明する図を図10に示す。
図10では先ほど説明した例に従って「金融庁見解」ラベルのノード(1001)、「内閣見解」ラベルのノード(1002)に対してそれぞれ事例集合(1003〜1005)が割り当てられている。実線で示している事例集合の貼り付け状態が削除前の状態であり、点線(1006)で示している事例集合の貼り付け状態、すなわち事例集合Cの移動が削除後、論理和処理が行われた状態である。「年金」ラベルがはりつけられているノード(1007)の下位ノードにある部分階層構造に関しては「金融庁見解」ラベルのノード(1001)に対して事例集合A(1003)、A(1005)が貼り付けられており、「内閣見解」ラベルのノード(1002)についてはB(1004)が貼り付けられている。
一方で「投資信託」ラベルがはりつけられているノード(1008)の下位ノードの「金融庁見解」ラベルのノード(1009)には事例集合C(1010)、C(1011)が貼り付けられており、「内閣見解」ラベルのノード(1012)には事例集合D(1013)が貼り付けられている。
これら事例集合を観察すれば事例集合A(1003)は、「国民の資産をいかに効率的に・・・」という事例集合であり、事例集合C(1010)は「国民の資産をいかに効率的に・・・」という事例集合であり、事例集合A(1003)と事例集合C(1010)は等しい。また同様に判断すれば事例集合B(1004)と事例集合D(1013)が等しいということも判明する。一方、「投資信託」のラベルがはりつけられたノード(1008)の下位ノードである「金融庁見解」ラベルのノード(1009)にある事例集合C(1011)は、「いわゆるサブプライム問題で脆弱となったリスクヘッジシステムの・・・」という事例集合であり、これと同じ事例集合は「年金」ラベルのノード(1007)の下位ノードである「金融庁見解」ラベルのノード(1001)には貼り付けられていない。したがって、削除される側の部分階層構造が「投資信託」ラベルノード(1008)の下位の「政府見解」、「金融庁見解」、「内閣見解」ラベルの下位ノードからなる部分階層構造であるとすれば、それらに貼り付けられている事例集合C(1010)とD(1013)は削除され、C(1011)については「年金」ラベルノード(1007)の下位ノードにある「金融庁見解」ラベルのノード(1001)の事例集合として移動(コピー)される(1014)ことになる。このようにして事例集合を一つも失うことなく冗長なノードを階層構造から削除することができ、階層構造を効率的に減退することが可能となる。
最後に削除ステップである。
「削除ステップ」は前記説明したように、削除決定された部分階層構造を、文書分類のための階層構造から削除するステップである。計算機の内部構造的には、階層構造から削除する処理は、文書分類のための事例集合を削除することによって行えるし、あるいはデータの中からそれらのノードを定義するデータを削除することによっても行える。これは設計者が適切な手法を選択すればよい。
次に本実施形態1を計算機として構成する場合の例を図11に示す。
図11は本件発明における余分構造減退装置についての機能ブロック図である。図11にあるように余分構造減退装置(1101)は「階層構造取得部」(1102)、「類似階層構造検出部」(1103)、「決定部」(1104)、「事例集合取得部」(1105)、「追加部」(1106)、「削除部」(1107)からなっている。
余分構造減退装置(1101)外部に蓄えられている階層構造データ(1108)が階層構造取得部(1102)に対して入力され、階層構造取得部は階層構造データを取得する。
次に階層構造取得部(1102)が取得した階層構造データ(1109)の中から、類似階層構造検出部(1103)が類似階層構造を抽出する。抽出結果(1110)は決定部に利用される。
決定部(1104)では抽出された結果、類似関係にある部分階層構造があればそのうちのいずれかを先に説明したようなロジックに従って削除する決定を行う。その決定結果(1111)は事例集合取得部に渡される。事例集合取得部(1105)では決定結果(1111)に従って削除される部分階層構造に貼り付けられている事例集合を取得する。
論理和の作業は追加部(1106)によって行われ、新たな事例集合が各ノードについて生成される。また、削除部(1107)によって削除すると決定されたノードに貼り付けられている事例集合は削除され、またはノードのデータ自体が削除される。追加部によって新たに形成された論理的分類構造のデータは新階層構造データ(1112)として外部に取得されるように出力される。
なお、図11で示す余分構造減退装置のハードウェアを示すのが図12である。
図12はCPU(1201)とハードディスクドライブ(1202)、メインメモリ(1203)、I/O(1204)などからなる計算機に、どのように発明を実現するためのデータが格納されているかを示すものである。この図にあるように、メインメモリには階層構造取得プログラム(1205)、類似階層構造検出プログラム(1206)、決定プログラム(1207)、事例集合取得プログラム(1208)、追加プログラム(1209)、削除プログラム(1210)が展開される。
階層構造取得プログラム(1205)はI/O(1204)を介して外部から階層構造データ(1211)を取得し、取得した階層構造データはメインメモリのデータ領域に格納される。次に格納された階層構造データ(1212)を用いて、メインメモリに展開されている類似階層構造検出プログラム(1206)が演算を行いその結果抽出結果データ(1213)をメインメモリのデータ領域に格納する。抽出結果データ(1213)に従って決定プログラム(1207)が演算を行い、いずれの部分階層構造を削除対象とするか決定する。その結果、決定結果データ(1214)がデータ領域に格納される。データ領域に格納された決定結果データ(1214)にしたがって事例集合取得プログラム(1208)が取得した事例集合データ(前)(1215)を追加プログラム(1209)および削除プログラム(1210)によって演算して変更する。その結果生まれるのが事例集合データ(後)(1216)と記載されているものである。なお、追加プログラム(1209)、削除プログラム(1210)が機能するにあたって事例集合データ(前)(1215)の部分から追加事例集合データ(1217)および削除事例集合データ(1218)が演算の結果出力され、データ領域に格納され事例集合データ(後)(1216)を生成するために用いられる。以上のようにして事例集合データ(後)(1216)が生成されると、このデータと最初に取得した階層構造データ(1212)とに基づいて新たな階層構造データ(1219)が作成されI/O(1204)から外部に対して出力されるようになる。本件発明の余分構造減退装置はこのようにして機能するものである。
<実施形態1:効果>
本件発明によって、従来は余分な論理的分類構造中の階層構造を削除するために共通する事例集合を削除するなどして事例集合を無駄に使用していたが、このような無駄な削除をすることなく、事例集合を有効に活用して、機械学習の精度の低下を招くことなく効率のよい階層構造の減退を行うことが出来るようになった。
<<実施形態2>>
<実施形態2の概要>
次に、実施形態2について説明する。
<実施形態2の概要>
本実施形態にかかる文書分類装置の余分構造減退方法は、実施形態1中の類似階層構造検出ステップが複数のサブステップのうちのいずれか一つを使うことによって類似階層構造の検出を行うというものである。具体的に複数のサブステップとは完全一致判断ステップ、または分離判断ステップ、または意味判断ステップである。
<実施形態2:構成>
実施形態2の構成は基本的に実施形態1の構成と同一であり、実施形態1の構成中、類似階層構造検出ステップが分類ラベルの比較において完全一致判断ステップ、または分離判断ステップ、または意味判断ステップを有する余分構造減退方法である。
以下各サブステップについて図13を参照しながら説明する。図13はこの分類ラベルの意味の一致判断について説明をしたものである。
<実施形態2:サブステップの説明>
図13の例1は例えば金融庁見解というラベルが1のノードに貼り付けられており、他のノードにも金融庁見解とラベルが貼り付けられている。この場合にはラベル同士を比較した結果、これを完全一致として判断するものである。この判断は文字列を単純に比較することでおこなわれる。このように文字列が完全に一致しているか判断することで、類似階層構造の検出を行うものを完全一致判断ステップという。
例2に示すのは一のノードに貼り付けられているラベルが「金融庁見解」であり、他のノードに貼り付けられているラベルは「金融庁の見解」である。前者と後者の違いは金融庁という3文字の後に「の」が入っていないか、入っているかの違いである。この場合「金融庁見解」というのは「金融庁の見解」を短縮したものであり、両者は形態素解析などによりその文言を分離して判断することで同一または類似であるということが明らかになる。このように分類ラベルを句読点その他で分離して、文字列を比較することでそれらの分離したものが部分的に一致するか、あるいは一致しないかで判断するものを分離判断ステップという。類似階層構造検出ステップにおいては、このような分離判断ステップをサブステップとして有している。
例3に示すのは意味判断ステップを示すものであり、ある一のノードには「金融庁の見解」、他の一のノードには「金融企画庁所見」がラベルとして貼り付けられている。この場合、両者の意味を比較することによって意味が一致すると判断して、類似階層構造を検出するものである。この2つのラベルの場合には「金融」の部分は共通であるが、その後の「庁見解」と「企画庁所見」という部分において相違する。しかしながら類義語辞典などを用いて「見解」と「所見」ないしは「金融庁」と「金融企画庁」が同義語であるということが判断されれば、これらは意味が一致するというふうに判断することができる。
このように分類ラベルの意味を一致するかどうか判断することにより類似階層構造検出ステップを意味判断サブステップとして有しているものが三つ目の技術である。このように実施形態2の場合には類似階層構造検出ステップとして上記に説明した、いずれか3つのステップのうち1つを採用することで類似階層構造検出ステップでの類似を判断することとする。
図14で示すのは本実施形態の余分構造減退装置における機能ブロック図である。実施形態1における機能ブロック図との相違は類似階層構造検出部(1401)において「完全一致判断手段」(1402)、「分離判断手段」(1403)、「意味判断手段」(1404)の3つの判断手段が備えられていることである。つまり余分構造減退装置の実施形態2のものでは、これら3つの手段のうちいずれか1つを使うことができるようになっている。また本実施形態にはこれらの3つを常に含むものだけが含まれるのではなく、いずれか一つが含まれるものであってもよいということは言うまでもない。尚その他の構造に関しては実施形態1と同一であるので説明は省略する。
また図15に示すのは本実施形態の余分構造減退方法を実現するための計算機のハードウェア構成である。原則として実施形態1のものと同様であるが、相違点は類似階層構造検出プログラム(1501)がさらに完全一致判断サブプログラム(1502)、分離判断サブプログラム(1503)、意味判断サブプログラム(1504)を持っている点である。その他の構成については同一であるので説明は省略する。
図16は本実施形態の処理フローを示すものである。基本的には実施形態1の処理フローと同一であるが、類似階層構造検出ステップ(S1601)において3つのサブステップのうちいずれか一つを使うように処理される点において実施形態1と異なる。その他については実施形態1と同一になるので説明を省略する。
また図17はさらに類似階層構造を検出するための詳細なステップについて示すものである。基本的にはこれについても実施形態1と共通であり、相違する点は類似性を判断するステップ(S1701)において前記3つのサブステップのいずれかが利用されるようになっている点である。
以上が実施形態2の構成である。
<実施形態2の効果>
論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、実施形態2を採用することにより、分類ラベルが一致する場合のみでなく、分離して判断することで一致するとされる場合、あるいは意味が一致すると判断される場合にも類似階層構造の検出が行われる。従って、前記階層構造中の余分な構造を減退する際に、広い範囲で余分な構造を減退するができ、形式的に同一であるもののみならず、実質的に同一の部分階層構造まで減退することができて、効果的である。以上が実施形態2の説明である。
<<実施形態3>>
<実施形態3の概要>
実施形態3は、前記類似階層構造検出ステップが、分類ラベルであって類似すると判断されるものは反復して出現するかを各規模の部分階層構造ごとにソートして判断する点に特徴を有するものである。本実施形態は実施形態2を基本としている。
<実施形態3の構成>
実施形態3は実施形態2を基本とし、さらに、類似階層構造検出ステップが部分階層構造ソートステップを有する点に特徴がある。以下、この点について詳細に説明する。
図18は、本実施形態における部分階層構造ソートステップを具体的に示すものである。図18に示すように、先ずL階層の階層構造を取得する(S1801)。ここでいうL階層とは、1階層からその分類階層構造が有する最大のL−1階層までのいずれか一の値であるL階層の階層構造を取得する。この取得についてはすでに実施形態1で述べたと同様の階層構造データを取得する。次に、取得した階層構造のノードを所定のルール、たとえば上位から昇順で並べる(S1802)。次に、並べた順に分類ラベルIDを並べる(S1803)。次に、複数の分類階層構造間で、分類ラベルIDの並べ順が一致するかどうか判断する(S1804)。なお、ここでいう分類ラベルIDとは、分類ラベルの文字列そのものであってもかまわない。並び順が一致する場合には、一致する階層構造同士は類似するものとして記録される(S1805)。そして、想定される組み合わせを全て試したか否かに応じて図18の処理フローを終了する。
図19は、並び順が同一であるか、ということを判断する際の処理を説明するための図である。ここでは、各ノードの丸の中に書かれているL、L等が分類ラベルIDである。ノードN(1)(1901)は分類ラベルL、ノードN(1,1)(1902)には分類ラベルL、ノードN(1,1,1)(1903)には分類ラベルL、ノードN(1,1,1,1)(1904)には分類ラベルL、ノードN(1,1,1,2)(1905)には分類ラベルL、ノードN(1,1,1,3)(1906)には分類ラベルLが貼り付けられている。また、ノードN(1,2)(1907)には分類ラベルL、ノードN(1,2,1)(1908)には分類ラベルL、ノードN(1,2,1,1)(1909)には分類ラベルL、ノードN(1,2,1,2)(1910)には分類ラベルLが貼り付けられている。この図を見てわかるように、分類ラベルLがノードN(1,1,1)(1903)とノードN(1,2,1)(1908)で共通であり、さらにそれぞれの下位のノードの階にある分類ラベルLと分類ラベルLが、ノードN(1,1,1,1)(1904)とノードN(1,2,1,1)(1909)、さらにノードN(1,1,1,3)(1906)とN(1,2,1,2)(1910)において共通である。つまり、この類似階層構造は、ノードN(1,1,1)(1903)、ノードN(1,1,1,1)(1904)、ノードN(1,1,1,3)(1906)からなる部分階層構造と、ノードN(1,2,1)(1908)、ノードN(1,2,1,1)(1909)、ノードN(1,2,1,2)(1910)からなる部分階層構造が、同一であることを示している。
以上のようなことを判断するために、具体的にどのような処理を行うかを、図20を用いて説明する。まず、ノードの組み合わせ順列(2001)をすべて求める。1層(ノード2層からなっているもの)からなるものに関しては、N(1,1,1)−N(1,1,1,1)−N(1,1,1,2)を結んでできる三角形のもの、N(1,1,1)−N(1,1,1,1)−N(1,1,1,3)を結んでできる三角形のもの、その他順次図面中に記すようなものがあげられる。またこの図面中では、1階層分のもの、すなわち、上位層と下位層からなっているものについてのみ示したが、実際には2階層以上のものについても同じような処理を行う。1階層のもの、2階層のもの、3階層のもの、というように、部分階層構造を求め、それぞれをN階層ごとに分類することを、本実施形態においては『ソートする』という風に表現する。たとえば1階層のもの、すなわち、2階層のノードからなっている部分階層構造についてソートをした場合には、図20に示すようなものが、図19の階層構造の中から選べる。そして、ソートされた各ノードに張り付けられているラベルを順に並べたものが、図20の『L−L−L』などである。図20のラベル順列(2002)の列には、L−L−L、L−L−L、L−L−L、などと、左側の列のノード組合せ順列に対応したラベルの順列が記載されている。次に、このラベルの順列のうち、同一のものを見つける作業をコンピュータの演算により行う。図20の例ではラベルの組み合わせとして「L−L−L」が、ノード組み合わせ順列の上から3つ目(2003)と5つ目(2004)に表れている。つまりこの2つのノードの組み合わせからなる部分階層構造においては、ラベルの順列が同じ順番で出てくる。つまり、この2つのノードは類似階層構造、さらにいえば一致する階層構造であるといえる。このように、ラベルの順列を見ることによって、類似階層構造であるかどうかを判断していくのが本実施形態の特徴である。なおここではラベルの順列で説明したが、上位と下位を区別すればラベルの組み合わせで同一であるかどうかを判断することとしても同じである。
本実施形態の処理の流れを別の観点から示すのが図21である。図21に示す処理のフローは、実施形態1、2と基本的には共通するが、類似階層構造検出ステップ(S2101)がラベルの反復出現をソートして判断する。すなわち、部分階層構造の規模に応じてノードをソートし、その選択されたノード順にラベルを並べることによって、類似しているノードをラベルの反復検出という手段によって行う。その他の点については実施形態1、2と共通である。
また図22に示すのは、本実施形態の余分構造減退装置の機能ブロック図である。基本的には実施形態1、2と共通であるが、本実施形態の特徴点は、類似階層構造検出部(2201)において部分階層構造ソート手段(2202)を有する点にある。部分階層構造ソート手段の機能は、前記したように、部分階層構造の規模ごとにノード集合を集め、そのノード集合の順にラベルを配置して、同じ反復順位でラベルが出てくる部分を見つける点にある。
図23は、図22の機能ブロック図の、さらに具体的なハードウェア図である。基本的には実施形態1、2と共通であるが、相違点は、類似階層構造検出プログラム(2301)において、部分階層構造ソートサブプログラム(2302)を有する点にある。
<実施形態3の効果>
以上のように、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、実施形態3を採用することにより、簡単に部分階層構造同士の類似性を判断することができる。また、このようなアルゴリズムは計算機にとって非常に向いているものであり、短時間かつ高い精度で間違いなく類似階層構造を見つけることに寄与する。
文書分類に階層構造を利用する場合の概要を示す図 実施形態1における論理的分類構造の各ノードを示す図 事例集合が各ノードに対してどのように割り当てられているか示す図 類似構造の一例を示す図 階層構造データの概念図 実施形態1の処理の流れを説明する図 実施形態1において、類似階層構造検出ステップにおける処理の流れを構成するアルゴリズムの一例を示す図 抽出結果データの概念図 決定結果データの概念図 追加ステップを説明する図 実施形態1における余分構造減退装置の機能ブロック図 実施形態1に係る余分構造減退装置を実現するための計算機のハードウェア構成図 実施形態2の各サブステップにおける、分類ラベルの類似性判断の方法例を示す図 実施形態2における余分構造減退装置の機能ブロック図 実施形態2に係る余分構造減退方法を実現するための計算機のハードウェア構成図 実施形態2の処理の流れを説明する図 実施形態2における類似階層構造を検出するための詳細なステップ図 実施形態3における部分階層構造ソートステップを具体的に示す図 実施形態3における、並び順が同一であるか、ということを判断する際の処理を説明するための図 分類ラベルの並び順が同一であるか否かを判断するために、具体的にどのような処理を行うかを説明する図 実施形態3の処理の流れを説明する図 実施形態3における余分構造減退装置の機能ブロック図 実施形態3に係る余分構造減退方法を実現するための計算機のハードウェア構成図 インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図(a) インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図(b) インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図(c) ディレクトリ型検索エンジンに用いられている階層構造の概念を例示する図
符号の説明
1001 『金融庁見解』という分類ラベルのノード
1002 『内閣見解』という分類ラベルのノード
1003 事例集合A
1004 事例集合B
1005 事例集合A
1006 事例集合Cの論理和処理が行われた状態
1007 『年金』という分類ラベルのノード
1008 『投資信託』という分類ラベルのノード
1009 『金融庁見解』という分類ラベルのノード
1010 事例集合C
1011 事例集合C
1012 『内閣見解』という分類ラベルのノード
1013 事例集合D
1014 事例集合のコピー

Claims (6)

  1. 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、
    文書分類の論理的分類構造である階層構造を取得する階層構造取得ステップと、
    取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を検出する類似階層構造検出ステップと、
    検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定ステップと、
    決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得ステップと、
    取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加ステップと、
    削除対象として決定された部分階層構造を文書分類のための階層構造から削除する削除ステップと、
    を有する文書分類装置の余分構造減退方法。
  2. 類似階層構造検出ステップは、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
    分類ラベル文字列が完全一致するかにより判断する完全一致判断ステップ、
    分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断ステップと、
    分類ラベルの意味が一致するかにより判断する意味判断ステップ
    のいずれかのサブステップにて実行する請求項1に記載の文書分類装置の余分構造減退方法。
  3. 類似階層構造検出ステップは、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソートステップをさらに有する請求項2に記載の文書分類装置の余分構造減退方法。
  4. 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる装置において、
    文書分類装置の論理的分類構造である階層構造を取得する階層構造取得部と、
    取得した階層構造の中から類似構造をなす複数の部分階層構造を検出する類似階層構造検出部と、
    検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定部と、
    決定部にて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得部と、
    取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加部と、
    削除対象として決定された部分階層構造を文書分類装置の文書分類のための階層構造から削除する削除部と、
    を有する文書分類装置の余分構造減退装置。
  5. 類似階層構造検出部は、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
    分類ラベル文字列が完全一致するかにより判断する完全一致判断手段、
    分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断手段、
    分類ラベルの意味が一致するかにより判断する意味判断手段、
    のいずれか一を有する請求項4に記載の文書分類装置の余分構造減退装置。
  6. 類似階層構造検出部は、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソート手段をさらに有する請求項5に記載の文書分類装置の余分構造減退装置。
JP2007322635A 2007-12-13 2007-12-13 文書分類装置の余分構造減退方法 Active JP4895988B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007322635A JP4895988B2 (ja) 2007-12-13 2007-12-13 文書分類装置の余分構造減退方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007322635A JP4895988B2 (ja) 2007-12-13 2007-12-13 文書分類装置の余分構造減退方法

Publications (2)

Publication Number Publication Date
JP2009146158A true JP2009146158A (ja) 2009-07-02
JP4895988B2 JP4895988B2 (ja) 2012-03-14

Family

ID=40916695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007322635A Active JP4895988B2 (ja) 2007-12-13 2007-12-13 文書分類装置の余分構造減退方法

Country Status (1)

Country Link
JP (1) JP4895988B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012064204A (ja) * 2010-08-18 2012-03-29 Canon Inc 情報処理装置、情報処理方法およびプログラム
US10311867B2 (en) 2015-03-20 2019-06-04 Kabushiki Kaisha Toshiba Tagging support apparatus and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012064204A (ja) * 2010-08-18 2012-03-29 Canon Inc 情報処理装置、情報処理方法およびプログラム
US10311867B2 (en) 2015-03-20 2019-06-04 Kabushiki Kaisha Toshiba Tagging support apparatus and method

Also Published As

Publication number Publication date
JP4895988B2 (ja) 2012-03-14

Similar Documents

Publication Publication Date Title
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US9355171B2 (en) Clustering of near-duplicate documents
US10445359B2 (en) Method and system for classifying media content
CN102402584B (zh) 多语言文本中的语言识别
Urvoy et al. Tracking web spam with html style similarities
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US7937338B2 (en) System and method for identifying document structure and associated metainformation
US20070230787A1 (en) Method for automated processing of hard copy text documents
CN107463548B (zh) 短语挖掘方法及装置
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110427884A (zh) 文档篇章结构识别方法、装置、设备和存储介质
Sivakumar Effectual web content mining using noise removal from web pages
CN116738988A (zh) 文本检测方法、计算机设备和存储介质
US20200012722A1 (en) System for real-time expression of semantic mind map, and operation method therefor
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
JP2000200287A (ja) 文書検索装置
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
Hamdi et al. Machine learning vs deterministic rule-based system for document stream segmentation
Klampfl et al. Reconstructing the logical structure of a scientific publication using machine learning
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
JP4394517B2 (ja) 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
El-Barbary Arabic news classification using field association words

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111220

R150 Certificate of patent or registration of utility model

Ref document number: 4895988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350