JP4332161B2 - 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 - Google Patents

語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 Download PDF

Info

Publication number
JP4332161B2
JP4332161B2 JP2006085915A JP2006085915A JP4332161B2 JP 4332161 B2 JP4332161 B2 JP 4332161B2 JP 2006085915 A JP2006085915 A JP 2006085915A JP 2006085915 A JP2006085915 A JP 2006085915A JP 4332161 B2 JP4332161 B2 JP 4332161B2
Authority
JP
Japan
Prior art keywords
domain
vocabulary
category
vector
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006085915A
Other languages
English (en)
Other versions
JP2006302269A (ja
Inventor
浩司 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006085915A priority Critical patent/JP4332161B2/ja
Publication of JP2006302269A publication Critical patent/JP2006302269A/ja
Application granted granted Critical
Publication of JP4332161B2 publication Critical patent/JP4332161B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、第1のドメインの文書を分類するカテゴリに従って第2のドメインの文書を分類する文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置関し、特に、低コストで高精度の分類を行うことができる文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置に関するものである。なお、ここでは、第1のドメインの文書として特許文書を、第2のドメインの文書として論文を例として説明を行う。すなわち、論文を特許分類(IPC)に従って分類する場合について説明する。
文書を分類する文書分類手法には様々なものがあるが、分類済みの正解データから分類ルールを学習し、それを使って分類する手法が効率の面から広く用いられている(例えば、特許文献1参照。)。そこで、かかる手法を用いて、論文を特許分類(IPC)に従って分類しようとすると、その手順は、以下の二つの手順のうちのいずれかになる。
1.特許文書を正解データとする場合
(1)学習器を用いて正解データ(特許文書)から分類ルールを作成する
(2)分類ルールを用いて論文を分類する
2.IPCを論文に付与したものを正解データとする場合
(1)論文をIPCに従い、人手で分類する
(2)学習器を用いて正解データ(論文)から分類ルールを作成する
(3)分類ルールを用いて論文を分類する
特開2002−222083号公報
しかしながら、特許文書を正解データとする場合には、IPCに従って分類された特許は大量に存在するが、特許と論文では語彙が違う(言葉の使われ方が違う)ため、特許から学習しても論文はうまく分類できないことがあるという問題がある。また、IPCを論文に付与したものを正解データとする場合には、IPCに従って分類された論文の正解を予め作るコストが高く、大量の分類済特許を有効利用できないという問題がある。
一般的に言うと、ドメインAのカテゴリにドメインBの事例を分類する場合に、ドメインAのカテゴリに分類されたドメインAの事例が大量にあっても、AとBのドメインが異なるため、ドメインAにあらかじめ分類されている文書が有効利用できず、改めてドメインBの文書を用いて正解事例を作らなければならないという問題がある。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、低コストで高精度の分類を行うことができる文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明に係る語彙ねじれ解消プログラムは、複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出手順と、前記語彙抽出手順により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算手順と、前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算手順と、前記変換規則計算手順により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、をコンピュータに実行させることを特徴とする。
この請求項1の発明によれば、第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納し、各カテゴリに対応させて格納した複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納し、第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納し格納した変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。
また、請求項2の発明に係る語彙ねじれ解消方法は、複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置による語彙ねじれ解消方法であって、前記語彙ねじれ解消装置が、前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出工程と、前記語彙抽出工程により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算工程と、前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算工程と、前記変換規則計算工程により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、を実行することを特徴とする。
この請求項2の発明によれば、第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納し、各カテゴリに対応させて格納した複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納し、第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納し格納した変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。
また、請求項3の発明に係る語彙ねじれ解消装置は、複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、を備えことを特徴とする。
この請求項3の発明によれば、第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、各カテゴリについて抽出した複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを第1のドメインおよび第2のドメインにおいて計算し、カテゴリごとに計算した代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、計算した変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。
請求項1、2および3の発明によれば、代表語彙ベクトルを正確に変換するので、他の語彙ベクトルも高精度で変換することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置の好適な実施例を詳細に説明する。
まず、本実施例に係る文書分類装置による文書分類の概要について説明する。本実施例に係る文書分類装置は、ドメインA(特許)のカテゴリ(IPC)にドメインBの文書(論文)を分類する。このために、本実施例に係る文書分類装置は、ドメインAに属する文書を、ドメインBで用いられている語彙で表現される様に一旦変換し、擬似の正解データ(ドメインBの語彙でありながらドメインAのカテゴリを有するもの)として、これを学習/分類に用いる。これにより、大量に存在するドメインAの文書をドメインBの正解として利用することができ、人手で作るドメインBの正解の必要量を減らすことができる。
具体的には、本実施例に係る文書分類装置は、以下の手順で文書の分類を行う。
(1)ドメインBのうちの少数の文書をドメインAのカテゴリに従って人手で分類する。
(2)(1)で分類したドメインBの文書およびドメインAのカテゴリで分類したドメインAの文書を用いて、ドメインAで用いられている語彙をドメインBで用いられている語彙に変換する語彙変換ルール(座標変換ルール)Mを計算する。
(3)Mを用いてドメインAの文書を、ドメインBの文書に変換する。この変換で得られた文書は、分類体系はドメインAのもの、語彙はドメインBのもの、になっている。
(4)(3)で変換された文書を正解として学習させることで、ドメインBの文書をドメインAの分類体系へ分類する分類ルールを得る。
(5)(4)で得た分類ルールを用いてドメインBの文書をドメインAのカテゴリに分類する。
このように、本実施例に係る文書分類装置は、ドメインBの語彙でありながらドメインAのカテゴリを有するものを正解データとして分類ルールを生成することによって、分類精度を向上することができる。
次に、本実施例に係る文書分類装置の構成について説明する。図1は、本実施例に係る文書分類装置の構成を示す機能ブロック図である。同図に示すように、この文書分類装置100は、特徴抽出部111と、特徴ベクトル記憶部112と、カテゴリ代表点計算部113と、カテゴリ代表点記憶部114と、座標変換ルール計算部115と、座標変換ルール記憶部116と、座標変換部117と、分類ルール生成部118と、分類ルール記憶部119と、カテゴリ判定部120とを有する。
特徴抽出部111は、文書を入力してその特徴を抽出し、特徴ベクトルを生成して特徴ベクトル記憶部112に格納する処理部である。図2は、特徴抽出部111による特徴抽出処理を説明するための説明図である。
同図に示すように、この特徴抽出部111は、入力した文書の形態素解析を行って文書を単語に分割し、文書中に現れた単語の数を数える。そして、単語wi(1≦i≦m:mは語彙数)の頻度fiを要素とする特徴ベクトルを出力する。すなわち、この特徴抽出部111は、全ての語彙の出現頻度を座標軸とする特徴空間における特徴ベクトルを生成する。
なお、本実施例では、この特徴抽出部111は、特許文書、論文および分類対象論文を入力し、それぞれに対する特徴ベクトルを出力する。ここで、特許文書および論文は、分類ルールを生成するための学習に使われる特徴ベクトルの生成に用いる学習用文書であり、文書とともに文書のカテゴリが正解として与えられる。例えば、図2では、カテゴリXが正解として与えられた学習用の文書から「事例」、「特徴」などの単語の出現数が数えられて特徴ベクトルが生成される。また、分類対象論文は、文書分類装置100によりIPCの分類が判定される対象の論文である。
また、ここでは、文書の形態素解析を行って単語の出現数を数える場合について説明したが、文書からキーワードを抽出するなど他の手法を用いて特徴ベクトルを生成することもできる。
特徴ベクトル記憶部112は、特徴抽出部111によって生成された特徴ベクトルを記憶する記憶部である。すなわち、この特徴ベクトル記憶部112は、特許文書から生成された特許文書の特徴ベクトル、論文から生成された論文の特徴ベクトル、および分類対象論文から生成された分類対象論文の特徴ベクトルを記憶する。また、この特徴ベクトル記憶部112は、座標変換部117によって特許文書の特徴ベクトルが特許ドメインから論文ドメインに座標変換が行われた特徴ベクトルである座標変換済特徴ベクトルを記憶する。なお、この特徴ベクトル記憶部112は、特徴ベクトルが生成された文書にカテゴリが付与されている場合には、そのカテゴリとともに特徴ベクトルを記憶する。
カテゴリ代表点計算部113は、各ドメインの各カテゴリについて、複数の文書それぞれから生成された複数の特徴ベクトルを用いて各ドメインの各カテゴリを代表する代表特徴ベクトルを計算し、カテゴリ代表点記憶部114に格納する処理部である。ここで、各カテゴリの代表特徴ベクトルは、特徴空間において各カテゴリの代表点に対応する。
図3は、カテゴリ代表点計算部113による代表点計算処理を説明するための説明図である。同図に示すように、このカテゴリ代表点計算部113は、n個の特徴ベクトルのi番目の要素f1_i、f2_i、...、fn_iの平均値fc_iを要素とする代表特徴ベクトルを生成する。なお、ここでは、特徴ベクトル間の単純平均によって代表特徴ベクトルを計算することとしたが、加重平均など他の手法を用いて代表特徴ベクトルを計算することもできる。
カテゴリ代表点記憶部114は、カテゴリ代表点計算部113によって特許ドメインおよび論文ドメインの全てのカテゴリについて計算された代表特徴ベクトルを記憶する記憶部である。
座標変換ルール計算部115は、特許ドメインの代表特徴ベクトルと論文ドメインの代表特徴ベクトルを用いて、特許文書の特徴ベクトルを特許ドメインから論文ドメインに変換するルールを計算し、座標変換ルール記憶部116に格納する処理部である。
図4は、座標変換ルール計算部115の動作概念を説明するための動作概念図である。同図に示すように、座標変換ルール計算部115は、ドメインAの特徴空間の特徴ベクトルをドメインBの特徴空間の特徴ベクトルに変換する座標変換ルールMを計算する。
図5は、座標変換ルール計算部115により計算される座標変換ルールMの具体例を示す図である。同図に示すように、特許ドメインの各カテゴリの代表特徴ベクトルpj(1≦j≦l:lはカテゴリ数)を縦ベクトルとして並べた行列をP=(p1,p2,...,pl)とし、論文ドメインの代表特徴ベクトルqj(1≦j≦l:lはカテゴリ数)を縦ベクトルとして並べた行列をQ=(q1,q2,...,ql)とすると、
Q=MP
となるMがその座標変換ルールになる。
すなわち、Mは、特許ドメインの特徴空間で各カテゴリの代表特徴ベクトルに対応する代表点を論文ドメインの特徴空間の各カテゴリの代表点に移動する。例えば、カテゴリ「表示装置」の特許ドメインの特徴空間における代表点(0.8,3.2,1.4,...)は、Mによって論文ドメインの特徴空間における代表点(2.8,0.2,5.2,...)に移動される。
ここで、特許ドメインの特徴空間の代表点が論文ドメインの特徴空間の代表点に厳密に移動される必要はなく、何らかの近似計算により、特許ドメインの特徴空間の代表点が論文ドメインの特徴空間の代表点に大体写像されるという方法でも良い。
また、Mは以下のようにして求めることができる。
M=QP-1=Q(PTP)-1T
ここで、Tは転置(Transpose)を表し、行列Pの転置行列PTでは、各要素pijがPのpjiに一致する。例えば、
Figure 0004332161
とした場合、
Figure 0004332161
となる。
なお、図4において、各カテゴリの特許文書群の特徴ベクトルは代表点の周辺の点に対応し、それらの点は、Mによって代表点と同様に特許ドメインの特徴空間から論文ドメインの特徴空間へ移動される。
座標変換ルール記憶部116は、特許文書の特徴ベクトルを特許ドメインから論文ドメインに変換するルールを記憶する記憶部であり、具体的には、座標変換ルール計算部115によって代表特徴ベクトルから計算された座標変換ルールMを記憶する。
座標変換部117は、座標変換ルール計算部115によって計算された座標変換ルールを用いて、特許文書から生成された特徴ベクトルを論文ドメインの特徴ベクトルに変換し、座標変換済特徴ベクトルとして特徴ベクトル記憶部112に格納する処理部である。すなわち、この座標変換部117は、特許ドメインの文書の語彙を論文ドメインの語彙に変換した特徴ベクトルを生成する。
図6は、座標変換部117の動作概念を説明するための動作概念図である。同図に示すように、この座標変換部117は、特許ドメインの特徴空間において特徴ベクトルに対応する点を論文ドメインの特徴空間の点に移動する。
なお、移動された点に対応する特徴ベクトルは、分類ルールを作成する場合の正解データとして分類ルール生成部118によって使用される。ただし、このようにして作成された正解データは、人手によって作成される正解データと完全には一致しない疑似正解データである。
図7は、座標変換部117による座標変換を説明するための説明図である。同図に示すように、この座標変換部117は、特許ドメインの特徴空間における文書の座標、すなわち特徴ベクトルaと行列Mの掛け算を行って論文ドメインにおける特徴ベクトルbを出力する。
図8は、座標変換部117による座標変換の具体例を示す図である。同図に示すように、この座標変換部117は、特許文書の特徴ベクトルa=(0,5,1,...)に行列Mを掛けることによって、論文の特徴空間に変換された特許文書の特徴ベクトルb=(4.8,1.1,5.2,...)を生成する。
分類ルール生成部118は、座標変換部117により論文ドメインの特徴ベクトルに変換された特許ドメインの特徴ベクトルと特徴ベクトルに対応する特許文書のカテゴリを正解データとして用いて、論文をIPCのカテゴリに分類する分類ルールを生成し、分類ルール記憶部119に格納する処理部である。
この分類ルール生成部118が、特許ドメインの特徴ベクトルの代わりに、論文ドメインの特徴ベクトルに変換された特許ドメインの特徴ベクトルを正解データとして用いて、論文をIPCのカテゴリに分類する分類ルールを生成することによって、論文を高精度でIPCのカテゴリに分類することができる。
分類ルール記憶部119は、分類ルール生成部118により生成された分類ルールを記憶する記憶部である。この分類ルール記憶部119に記憶された分類ルールは、カテゴリ判定部120により使用される。
カテゴリ判定部120は、分類ルール生成部128が生成した分類ルールを用いて、判定対象論文の特徴ベクトルから判定対象論文のカテゴリを判定し、判定結果を出力する処理部である。
なお、分類ルール生成部118とカテゴリ判定部120のペアの具体的な実現手法については、Bayesアルゴリズム、決定木アルゴリズム、SVM、boosting、Nearest Neighbor法(NN法)、判別分析など多数の手法が開発されているが、ここでは、NN法を例として説明する。
図9は、NN法を説明するための説明図である。同図に示すように、分類ルール生成部118は、正解として4つの特徴ベクトルsi(1≦i≦4)ならびに対応するカテゴリ「Int」および「Hard」を入力し、それらを分類ルールとして保存する。ここで、「Int」はInterfaceを示し、「Hard」はHardwareを示している。すなわち、この例では、文書のカテゴリがInterfaceであるかHardwareであるかを分類する。
そして、特徴抽出部111がカテゴリを判定したい文書から「コンピュータ」、「ディスプレー」などのキーワードの頻度を数えて特徴ベクトルを抽出し、抽出した特徴ベクトルと記憶した特徴ベクトルsiとの距離を計算する。そして、距離が一番近い特徴ベクトルに対応するカテゴリを判定結果として出力する。この例では、距離が「2.6」で一番近い特徴ベクトル「s1」に対応するカテゴリ「Int」が判定結果として出力される。
次に、本実施例に係る文書分類装置100による文書分類処理の処理手順について説明する。図10は、本実施例に係る文書分類装置100による文書分類処理の処理手順を示す処理フロー図である。
同図に示すように、この文書分類装置100は、特徴抽出部111が、大量のカテゴリ(IPC)つき特許文書を読み込んで特徴ベクトルを生成する一方で、少量のカテゴリつき論文を読み込んで特徴ベクトルを生成する(ステップS101)。ここで、少量とは、例えば300件を示す。
そして、カテゴリ代表点計算部113が、特許ドメインおよび論文ドメインにおいて、特徴ベクトルから各カテゴリの代表点を計算し(ステップS102)、座標変換ルール計算部115が、特許ドメインおよび論文ドメインの代表点を用いて特許ドメインの特徴空間から論文ドメインの特徴空間への座標変換ルールMを計算する(ステップS103)。
そして、座標変換部117が、座標変換ルールMを用いて、特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに座標変換し(ステップS104)、分類ルール生成部118が、論文ドメインに変換された特許ドメインの特徴ベクトルと特徴ベクトルに対応する特許文献のカテゴリとを正解として用いて分類ルールを生成する(ステップS105)。
一方、特徴抽出部111は、カテゴリを判定したい論文から特徴ベクトルを生成する(ステップS106)。そして、カテゴリ判定部120が、分類ルールを用いて、カテゴリを判定したい論文の特徴ベクトルからその論文のカテゴリを判定する(ステップS107)。
このように、座標変換部117が特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに座標変換し、分類ルール生成部118が論文ドメインに座標変換された特許ドメインの特徴ベクトルを用いて分類ルールを生成することによって、論文のカテゴリを精度良く判定することを可能とする分類ルールを生成することができる。
次に、本実施例に係る文書分類装置100と従来の文書分類装置との間の文書分類処理の差異について図11および図12を用いて説明する。図11および図12は、本実施例に係る文書分類装置100と従来の文書分類装置との間の文書分類処理の差異を示す図(1)および(2)である。
図11において、網掛け部分は、本実施例に係る文書分類装置100の文書分類処理に含まれ、従来の文書分類装置の文書分類処理には含まれない処理を示す。すなわち、従来の文書分類装置は、特許ドメインの特徴ベクトルを論文ドメインに変換することなく、そのまま使って分類ルールを生成する。その結果、特許と論文では語彙が違うため、論文を精度良く分類することができない。
また、図12に示す従来の文書分類装置は、論文ドメインの特徴ベクトルを用いて分類ルールを作成する。このとき、論文にはIPCがつけられていないため手作業で論文にIPCをつけて正解データを作成する必要があり、大量の正解データを作成するためのコストが高くなる。したがって、少量の正解データから分類ルールを作成することとなり、分類精度を良くすることができない。
このように、本実施例に係る文書分類装置100は、IPCがつけられた特許文書は大量にあることを利用して正解データの作成コストを低く抑えるとともに、論文ドメインの語彙に変換された特許文書を用いて分類ルールを作成することによって分類精度を向上することができる。
上述してきたように、本実施例では、特徴抽出部111が特許ドメインおよび論文ドメインにおいて特徴ベクトルを生成し、カテゴリ代表点計算部113が特許ドメインおよび論文ドメインにおいて各カテゴリの代表特徴ベクトルを計算し、座標変換ルール計算部115が特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに変換する座標変換ルールを代表特徴ベクトルを用いて生成し、座標変換部117が座標変換ルールを用いて特許ドメインの特徴ベクトルを論文ドメインに変換し、分類ルール生成部118が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて分類ルールを作成し、カテゴリ判定部120が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて作成された分類ルールに基づいて判定対象論文のカテゴリを判定することとしたので、精度良くカテゴリを判定することができる。
また、論文ドメインの特徴ベクトルは、代表特徴ベクトルを計算するためだけに用いるので数が少なくてすみ、正解データ用に大量のIPCつき論文を用意する必要がなくなるため、低コストで正解データを作成することができる。
なお、本実施例では、論文をIPCで分類する場合について説明したが、本発明はこれに限定されるものではなく、例えば、Webページを図書分類(UDC)に分類する場合、ニュースのスクリプトを新聞記事のカテゴリに分類する場合、日本語の新聞を英語の新聞向けに開発されたカテゴリに分類する場合、B社のオークションに出品されている商品をA社の商品オークションのカテゴリに分類する場合などにも同様に適用することができる。
ところで、上記実施例では、文書のカテゴリを判定する文書分類装置100について説明したが、文書分類装置100の機能の一部を用いて、ある座標空間のベクトルを別の座標空間のベクトルに変換するベクトル変換装置を得ることができる。
図13は、かかるベクトル変換装置を説明するための説明図である。同図に示すように、文書分類装置100の機能のうち、カテゴリ代表点計算部113によるカテゴリ代表点計算機能と、座標変換ルール計算部115による座標変換ルール計算機能と、座標変換部117による座標変換機能を利用することによって、同一のカテゴリ体系に分類される異なるドメイン間でベクトルを変換するベクトル変換装置を得ることができる。
同様に、文書分類装置100の機能の一部を用いて、語彙のねじれを解消する語彙ねじれ解消装置を得ることもできる。図14は、かかる語彙ねじれ解消装置を説明するための説明図である。
同図に示すように、文書分類装置100の機能のうち、特徴抽出部111による文書からの特徴ベクトル抽出機能と、カテゴリ代表点計算部113によるカテゴリ代表点計算機能と、座標変換ルール計算部115による座標変換ルール計算機能と、座標変換部117による座標変換機能を利用することによって、同一のカテゴリ体系に分類される異なるドメイン間で文書の語彙のねじれを解消する語彙ねじれ解消装置を得ることができる。
また、本実施例では、文書分類装置について説明したが、文書分類装置が有する構成をソフトウェアによって実現することで、同様の機能を有する文書分類プログラムを得ることができる。そこで、この文書分類プログラムを実行するコンピュータについて説明する。
図15は、本実施例に係る文書分類プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ200は、RAM210と、CPU220と、HDD230と、LANインタフェース240と、入出力インタフェース250と、DVDドライブ260とを有する。
RAM210は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU220は、RAM210からプログラムを読み出して実行する中央処理装置である。
HDD230は、プログラムやデータを格納するディスク装置であり、LANインタフェース240は、コンピュータ200をLAN経由で他のコンピュータに接続するためのインタフェースである。
入出力インタフェース250は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ260は、DVDの読み書きを行う装置である。
そして、このコンピュータ200において実行される文書分類プログラム211は、DVDに記憶され、DVDドライブ260によってDVDから読み出されてコンピュータ200にインストールされる。
あるいは、この文書分類プログラム211は、LANインタフェース240を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ200にインストールされる。
そして、インストールされた文書分類プログラム211は、HDD230に記憶され、RAM210に読み出されてCPU220によって文書分類プロセス221として実行される。
(付記1)第1のドメインの文書を分類するカテゴリに従って第2のドメインの文書を分類する文書分類プログラムであって、
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手順と、
前記分類規則生成手順により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手順と、
をコンピュータに実行させることを特徴とする文書分類プログラム。
(付記2)第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手順とをさらにコンピュータに実行させ、
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記1に記載の文書分類プログラム。
(付記3)前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出手順と、
前記特徴抽出手順により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手順とをさらにコンピュータに実行させ、
前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記2に記載の文書分類プログラム。
(付記4)前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第1のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算手順により第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記3に記載の文書分類プログラム。
(付記5)前記特徴抽出手順は、文書中に現れる単語の出現数を特徴ベクトルとして抽出することを特徴とする付記3または4に記載の文書分類プログラム。
(付記6)前記特徴抽出手順は、第2のドメインと比較して多くの第1のドメインの文書を用いて多くの特徴ベクトルを抽出し、
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いることによって、第2のドメインから直接抽出された特徴ベクトルより多くの数の特徴ベクトルを用いて、第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記3、4または5に記載の文書分類プログラム。
(付記7)複数のカテゴリに分類される第1のドメインのベクトルを該複数のカテゴリに分類される第2のドメインのベクトルに変換するベクトル変換プログラムであって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手順と、
前記代表ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とするベクトル変換プログラム。
(付記8)複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手順と、
前記語彙抽出手順により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。
(付記9)第1のドメインの文書を分類するカテゴリに従って第2のドメインの文書を分類する文書分類方法であって、
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成工程と、
前記分類規則生成工程により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類工程と、
を含んだことを特徴とする文書分類方法。
(付記10)第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換工程とをさらに含み、
前記分類規則生成工程は、前記変換工程により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記9に記載の文書分類方法。
(付記11)前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出工程と、
前記特徴抽出工程により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算工程とをさらに含み、
前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記10に記載の文書分類方法。
(付記12)前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第1のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算工程により第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記11に記載の文書分類方法。
(付記13)複数のカテゴリに分類される第1のドメインのベクトルを該複数のカテゴリに分類される第2のドメインのベクトルに変換するベクトル変換方法であって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算工程と、
前記代表ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換工程と、
を含んだことを特徴とするベクトル変換方法。
(付記14)複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消方法であって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出工程と、
前記語彙抽出工程により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
を含んだことを特徴とする語彙ねじれ解消方法。
(付記15)第1のドメインの文書を分類するカテゴリに従って第2のドメインの文書を分類する文書分類装置であって、
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手段と、
を備えたことを特徴とする文書分類装置。
(付記16)第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手段とをさらに備え、
前記分類規則生成手段は、前記変換手段により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記15に記載の文書分類装置。
(付記17)前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出手段と、
前記特徴抽出手段により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手段とをさらに備え、
前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記16に記載の文書分類装置。
(付記18)前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第1のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算手段により第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記17に記載の文書分類装置。
(付記19)複数のカテゴリに分類される第1のドメインのベクトルを該複数のカテゴリに分類される第2のドメインのベクトルに変換するベクトル変換装置であって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手段と、
前記代表ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手段と、
を備えことを特徴とするベクトル変換装置。
(付記20)複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。
以上のように、本発明に係る語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置は、文書の分類などに有用であり、特に、使用される語彙が異なる分野のカテゴリで文書を分類する場合に適している。
本実施例に係る文書分類装置の構成を示す機能ブロック図である。 特徴抽出部による特徴抽出処理を説明するための説明図である。 カテゴリ代表点計算部による代表点計算処理を説明するための説明図である。 座標変換ルール計算部の動作概念を説明するための動作概念図である。 座標変換ルール計算部により計算される座標変換ルールの具体例を示す図である。 座標変換部の動作概念を説明するための動作概念図である。 座標変換部による座標変換を説明するための説明図である。 座標変換部による座標変換の具体例を示す図である。 NN法を説明するための説明図である。 本実施例に係る文書分類装置による文書分類処理の処理手順を示す処理フロー図である。 本実施例に係る文書分類装置と従来の文書分類装置との間の文書分類処理の差異を示す図(1)である。 本実施例に係る文書分類装置と従来の文書分類装置との間の文書分類処理の差異を示す図(2)である。 ベクトル変換装置を説明するための説明図である。 語彙ねじれ解消装置を説明するための説明図である。 本実施例に係る文書分類プログラムを実行するコンピュータの構成を示す機能ブロック図である。
符号の説明
100 文書分類装置
111 特徴抽出部
112 特徴ベクトル記憶部
113 カテゴリ代表点計算部
114 カテゴリ代表点記憶部
115 座標変換ルール計算部
116 座標変換ルール記憶部
117 座標変換部
118 分類ルール生成部
119 分類ルール記憶部
120 カテゴリ判定部
200 コンピュータ
210 RAM
211 文書分類プログラム
220 CPU
221 文書分類プロセス
230 HDD
240 LANインタフェース
250 入出力インタフェース
260 DVDドライブ

Claims (3)

  1. 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
    前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出手順と、
    前記語彙抽出手順により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算手順と、
    前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算手順と、
    前記変換規則計算手順により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
    をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。
  2. 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置による語彙ねじれ解消方法であって、
    前記語彙ねじれ解消装置が、
    前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出工程と、
    前記語彙抽出工程により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算工程と、
    前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算工程と、
    前記変換規則計算工程により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
    を実行することを特徴とする語彙ねじれ解消方法。
  3. 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
    前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
    前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
    前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
    前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
    を備えたことを特徴とする語彙ねじれ解消装置。
JP2006085915A 2006-03-27 2006-03-27 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 Expired - Fee Related JP4332161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006085915A JP4332161B2 (ja) 2006-03-27 2006-03-27 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006085915A JP4332161B2 (ja) 2006-03-27 2006-03-27 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005122298A Division JP4332129B2 (ja) 2005-04-20 2005-04-20 文書分類プログラム、文書分類方法および文書分類装置

Publications (2)

Publication Number Publication Date
JP2006302269A JP2006302269A (ja) 2006-11-02
JP4332161B2 true JP4332161B2 (ja) 2009-09-16

Family

ID=37470429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006085915A Expired - Fee Related JP4332161B2 (ja) 2006-03-27 2006-03-27 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置

Country Status (1)

Country Link
JP (1) JP4332161B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5164209B2 (ja) * 2008-06-20 2013-03-21 日本電信電話株式会社 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
KR102045574B1 (ko) * 2018-02-13 2019-11-18 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법

Also Published As

Publication number Publication date
JP2006302269A (ja) 2006-11-02

Similar Documents

Publication Publication Date Title
JP4332129B2 (ja) 文書分類プログラム、文書分類方法および文書分類装置
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
US7099819B2 (en) Text information analysis apparatus and method
JP5755655B2 (ja) 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
US20100324883A1 (en) Trans-lingual representation of text documents
Dulá An algorithm for data envelopment analysis
JP4711761B2 (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
JP4170296B2 (ja) 事例分類装置および方法
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
JP4332161B2 (ja) 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
CN117195877A (zh) 一种电子病历的词向量生成方法、系统、设备及存储介质
JP6436086B2 (ja) 分類辞書生成装置、分類辞書生成方法及びプログラム
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
US20230267175A1 (en) Systems and methods for sample efficient training of machine learning models
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
JP2011008634A (ja) パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2006302268A (ja) ベクトル変換プログラム、ベクトル変換方法およびベクトル変換装置
CN112990383A (zh) 对抗样本的生成方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090616

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090619

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees