JP2002202983A - 分類への帰属度計算基準作成方法及び装置 - Google Patents

分類への帰属度計算基準作成方法及び装置

Info

Publication number
JP2002202983A
JP2002202983A JP2000401947A JP2000401947A JP2002202983A JP 2002202983 A JP2002202983 A JP 2002202983A JP 2000401947 A JP2000401947 A JP 2000401947A JP 2000401947 A JP2000401947 A JP 2000401947A JP 2002202983 A JP2002202983 A JP 2002202983A
Authority
JP
Japan
Prior art keywords
membership
calculation
document
degree
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000401947A
Other languages
English (en)
Other versions
JP3701197B2 (ja
Inventor
Takao Fukushige
貴雄 福重
Yuji Sugano
祐司 菅野
Yasuki Iizuka
泰樹 飯塚
Koichi Tamatoshi
公一 玉利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000401947A priority Critical patent/JP3701197B2/ja
Priority to US10/028,816 priority patent/US6704905B2/en
Priority to CNB011454083A priority patent/CN1193310C/zh
Publication of JP2002202983A publication Critical patent/JP2002202983A/ja
Application granted granted Critical
Publication of JP3701197B2 publication Critical patent/JP3701197B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 ユーザによる試行錯誤を減らし、効率的に帰
属度計算基準を作成する装置を提供する。 【解決手段】 一つ以上の文書からなる文書集合中の各
文書に対して、一つ以上の分類からなる分類集合中の各
分類への帰属度を計算するための帰属度計算基準を作成
する帰属度計算基準作成装置において、帰属度計算基準
の初期値を適用して帰属度計算部3で各文書の各分類に
対する帰属度を計算し、この帰属度計算結果から、評価
対象選択基準に基づいて評価の対象を選択し、計算結果
評価部6で選択した評価対象の文書に対して当該分類に
対する帰属度を付与し直す。この帰属度計算結果に対す
る評価結果を利用して帰属度計算基準再計算部8が帰属
度計算基準を再計算し、再計算した帰属度計算基準によ
って元の帰属度計算基準を更新し、さらに、更新した帰
属度計算基準を適用して各文書の各分類に対する帰属度
を計算し、以降の手順を繰り返すことにより帰属度計算
基準を作成するようにしている。高精度の帰属度計算基
準を効率的に作成することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を分類への帰
属度に応じて分類する際の帰属度計算基準を作成する方
法と、その装置に関し、特に、帰属度計算基準の効率的
な作成を可能にするものである。
【従来の技術】従来、新聞記事などの文書を分類する場
合に、特開平11−53394号公報や特開2000−
194723号公報に見られるように、ベクトル空間法
を用いて文書を分類する方法が知られている。
【0002】ベクトル空間法では、例えば、辞書のt個
の索引語の各々TiにベクトルViを対応させてt次元
のベクトル空間を定義し、各文書Drを、索引語の出現
頻度に基づいて、次のように文書ベクトルで表現する。
【0003】 Dr=Σ ar i・Vi (Σはi=1からtまで加算) ここで、係数ar iは、文書ベクトルの長さを1に正規化
した状態での、文書Drにおける索引語Tiの頻度を表
す値である。図4では、文書番号11934の文書を、
文書ベクトルの各軸の値で表示した場合を示している。
【0004】ベクトル空間法を用いる文書分類方法で
は、この文書ベクトルと、分類の基準となる基準ベクト
ルとの内積を求めたり、双方のベクトルの距離を算出す
ることにより、文書ベクトルと基準ベクトルとの類似度
を計算し、この類似度の大きさから、文書がその分類に
帰属するかどうかを判定する。
【0005】なお、文書ベクトルを並べて作った文書・
単語行列を、特異値分解により低階数近似し、ベクトル
の次元を小さくしても良い。この場合、文書ベクトルの
各要素は、単語そのものの頻度ではなく、重みつきの単
語の集合に対する、当該文書の関連性の強さとなるが、
分類において距離を求めたり、内積を求めたりする操作
は、同様に行うことができる。
【0006】この場合、分類の基準ベクトルの決め方
や、分類に含める類似度の大きさ(閾値)の決め方によ
り、文書がその分類に帰属するかどうかが変わってく
る。この分類の基準ベクトルや類似度の閾値を帰属度計
算基準と呼ぶ。この帰属度計算基準が的確に設定されて
いなければ、各文書を正しく分類することはできない。
【0007】
【発明が解決しようとする課題】従来、この帰属度計算
基準を作成する方法としては、まず、予め設定した帰属
度計算基準で文書を分類し、その結果を見て帰属度計算
基準を手直しし、この試行錯誤を、満足できる分類に行
き着くまで繰り返すと云う方法が専ら採られている。帰
属度計算基準を手直しする方法としては、ユーザが直接
手直しする方法と、システムの分類結果をユーザが修正
し、機械学習によってシステムが帰属度計算基準を再計
算する方法とがあった。
【0008】しかし、ユーザが直接手直しする方法の場
合、数多くある設定値のうち、どれをどのように直せば
よいか、ユーザに明らかでなく、また、システムの分類
結果をユーザが修正する場合でも、数多くある分類結果
のうち、どれを選んで正誤を判定すれば良いのか、ユー
ザに明らかでなかった。そのため、帰属度計算基準の修
正は手間が掛かり、また、必ずしも常によい結果に辿り
つくとは限らない作業であった。
【0009】本発明は、こうした従来の問題点を解決す
るものであり、ユーザによる試行錯誤を減らし、効率的
に帰属度計算基準を作成する方法を提供し、また、ユー
ザの帰属度計算基準の作成を支援する装置を提供し、さ
らに、この帰属度計算基準を用いて文書を分類する方法
及び装置を提供することを目的としている。
【0010】
【課題を解決するための手段】そこで、本発明では、一
つ以上の文書からなる文書集合中の各文書に対して、一
つ以上の分類からなる分類集合中の各分類への帰属度を
計算するための帰属度計算基準を作成する帰属度計算基
準作成装置において、帰属度計算基準作成に用いる文書
集合を保持する文書集合保持手段と、初期状態では帰属
度計算基準の初期値を保持し、帰属度計算基準が更新さ
れるごとに、更新された帰属度計算基準を保持する帰属
度計算基準保持手段と、前記文書集合保持手段に保持さ
れた各文書に対して、前記帰属度計算基準保持手段に保
持された帰属度計算基準を適用して、各分類に対する帰
属度を計算する帰属度計算手段と、前記帰属度計算手段
により計算された各文書の各分類に対する帰属度計算結
果を保持する帰属度計算結果保持手段と、前記帰属度計
算結果保持手段に保持された帰属度計算結果から評価の
対象とする計算結果を選択するための計算結果選択基準
を保持する評価対象選択基準保持手段と、前記評価対象
選択基準保持手段に保持される評価対象選択基準の一つ
に基づいて前記帰属度計算結果保持手段に保持される帰
属度計算結果の一部を評価対象として選択する評価対象
選択手段と、前記評価対象選択手段により選択された帰
属度計算結果を評価し、評価対象の文書に対して当該分
類に対する帰属度を付与し直す計算結果評価手段と、前
記計算結果評価手段による評価結果を保持する評価結果
保持手段と、少なくとも前記評価結果保持手段に保持さ
れる帰属度計算結果の評価結果を利用して帰属度計算基
準を再計算する帰属度計算基準再計算手段と、前記帰属
度計算基準再計算手段により再計算された帰属度計算基
準再計算結果を保持する帰属度計算基準再計算結果保持
手段と、前記帰属度計算基準再計算結果保持手段に保持
された帰属度計算基準によって前記帰属度計算基準保持
手段に保持された帰属度計算基準を更新する帰属度計算
基準更新手段とを設け、帰属度計算結果に対する評価に
よって帰属度計算基準を更新することを繰り返すことに
より帰属度計算基準を作成するようにしている。
【0011】そのため、高精度の帰属度計算基準を効率
的に作成することができる。
【0012】
【発明の実施の形態】(第1の実施形態)第1の実施形
態の帰属度計算基準作成装置は、GUI(graphical us
er interface)を利用して、帰属度計算結果を評価する
ユーザの動作を支援する。
【0013】この装置は、図1に示すように、帰属度計
算基準の作成に用いる文書集合を保持する文書集合保持
部1と、帰属度計算基準の初期値を作成する帰属度計算
基準初期値作成部15と、帰属度計算基準の初期値や更新
された帰属度計算基準を保持する帰属度計算基準保持部
13と、帰属度計算基準作成対象の分類を指定する対象分
類指定部2と、文書集合保持部1に保持された各文書に
対して、帰属度計算基準保持部13に保持された帰属度計
算基準を適用して、指定された分類に対する帰属度を計
算する帰属度計算部3と、帰属度計算部3の帰属度計算
結果と文書ベクトルや各文書に関する諸データとを合わ
せて保持する帰属度計算結果保持部4と、帰属度計算結
果を評価するための計算結果を選択する基準(評価対象
選択基準)が保持された評価対象選択基準保持部12と、
ユーザが評価対象選択基準を指定する評価対象選択基準
指定部11と、ユーザが評価対象選択基準指定部11から指
定した評価対象選択基準に対応する帰属度計算結果を表
示する帰属度計算結果表示部10と、指定された評価対象
選択基準に基づいて帰属度計算結果保持部4に保持され
た帰属度計算結果の中から評価対象となる帰属度計算結
果を選択する評価対象選択部5と、評価対象選択部5に
より選択された帰属度計算結果をユーザが評価し、評価
対象の文書に対して帰属度を付与し直す計算結果評価部
6と、計算結果評価部6による評価結果を保持する評価
結果保持部7と、評価結果保持部7に保持された帰属度
計算結果の評価結果を利用して帰属度計算基準を再計算
する帰属度計算基準再計算部8と、帰属度計算基準再計
算部8が再計算した帰属度計算基準再計算結果を保持す
る帰属度計算基準再計算結果保持部9と、帰属度計算基
準再計算結果保持部9によって保持された帰属度計算基
準で帰属度計算基準保持部13に保持された帰属度計算基
準を置きかえる帰属度計算基準更新部14とを備えてい
る。
【0014】この装置は、図2のフロー図に示すよう
に、まず、帰属度計算基準の初期値を適用して、文書集
合保持部1に保持された文書に対し、分類への帰属度を
計算する。ユーザは、その中の一部の文書を対象に、帰
属度を評価して帰属度を付け直す。このとき、装置は、
各種の情報を提供して、ユーザが帰属度計算基準の更新
に資する文書を選択できるように支援する。
【0015】ユーザが評価対象の文書の帰属度を付与す
ると、装置は、その評価結果に基づいて帰属度計算基準
を更新する。また、帰属度計算基準が更新されると、そ
れを用いて、各文書に対する分類への帰属度が計算さ
れ、さらに、評価、帰属度計算基準の更新、の手順が、
満足できる評価が得られるまで繰り返される。
【0016】この装置の動作について、図2のフロー図
に従って詳しく説明する。文書集合保持部1には、図4
に示すように、帰属度計算基準の作成に供する各文書の
文書ベクトルが格納されている。各文書ベクトルの長さ
は1に規格化されている。図4は「根室本線と三陸鉄道
で列車が脱線」と云う見出しの記事の文書ベクトルを示
している。
【0017】ステップ1:ユーザは、対象分類指定部2
から、帰属度計算基準を作成しようとする分類名を入力
する。ここでは「列車の脱線」と云う分類名を入力した
ものとする。 ステップ2:帰属度計算基準初期値作成部15から、分類
「列車の脱線」の帰属度計算基準の初期値となる基準ベ
クトルと帰属度の閾値とが与えられる。分類の基準ベク
トルは、この分類に帰属する各文書の平均ベクトルによ
り設定する。平均ベクトルは、対象の文書ベクトルの単
純平均を取り、ベクトルの長さが1となるように正規化
して算出する。図5に、分類「列車の脱線」の平均ベク
トルを例示している。
【0018】但し、初期値における平均ベクトルは、正
確なものである必要は無く(今後の評価、帰属度計算基
準の更新の繰り返しで精度が向上するため)、ユーザが
この分類に帰属すると推定した1つの文書の文書ベクト
ルや、複数の文書の平均ベクトル、あるいは、対象文書
すべてについての平均ベクトルなどを用いることができ
る。
【0019】帰属度の閾値は、帰属度のランク別に与え
る。ここでは、図6に示すように、帰属度を1(帰属す
る)と0(帰属しない)の二ランクに分けるものとし、
平均ベクトルと各文書ベクトルとの距離を小さい順に並
べたとき、40%のラインを閾値として、0〜40%の
範囲に入る文書を帰属度1に、40〜100%の範囲に
入る文書を帰属度0に振り分けるものとする。
【0020】なお、帰属度のランクは、10段階や10
0段階など、多段階に設定しても良い。また、閾値の決
め方は、ユーザが任意に指定することができ、平均ベク
トルと各文書ベクトルとの距離の絶対順位や、距離の値
そのもの、あるいは距離の偏差値などを用いて指定して
も良い。また、距離の代わりに、平均ベクトルと各文書
ベクトルとの内積など、ベクトル空間法でよく用いられ
る量を使用することもできる。
【0021】また、閾値として、文書集合保持部1に保
持された文書全体中の当該分類に属する文書(「正
解」)の割合(の関数)を用いても良い。この場合、最
初の段階では、正解の数は分からないので、ユーザが適
当に推定し(そのためのサンプル提示を行っても良
い)、評価の進行に従って、正解の割合を更新し、それ
に伴って、帰属度計算基準の再計算時に、閾値を更新す
るようにしてもよい。
【0022】帰属度計算基準初期値作成部15で作成され
た帰属度計算基準の初期値は帰属度計算基準保持部13に
格納される。
【0023】ステップ3:帰属度計算部3は、帰属度計
算基準保持部13に格納された帰属度計算基準を用いて、
文書集合保持部1に保持された各文書の帰属度を計算す
る。帰属度の計算は(式1)によって行われる。 score(doc,cat)=scorecat(d(doc,cat)) (式1) ここで、score(doc,cat):文書docの分類catへの帰属度 scorecat(d):分類catにおける距離dの文書の帰属度 d(doc,cat):文書docと分類catとの距離 d(doc,cat)は、(式2)から求める。 d(doc,cat)=√(Σ(doci−m(cat)i2) (式2) (Σはi=1からdimまで加算) ここで、dim:文書ベクトルの次元(=平均ベクトルの
次元) doci:文書docのベクトル第i軸の値 m(cat)i:分類catの平均ベクトルの第i軸の値 例えば、文書11934(図4)の分類「列車の脱線」
(図5)の距離は、 d(11934,列車の脱線)=√{(0.159713−0.43559
5)2+(0.004751−0.012305)2+‥+(0.015522−0.0
00806)2} =0.90 となる。
【0024】図3は、帰属度計算の処理手順を示してい
る。 ステップ10:各文書のベクトルの、平均ベクトルとの距
離を求める。 ステップ11:距離の小さい順に並べた文書番号リストを
作る。 ステップ12:閾値(40%)を基に、帰属度1とすべき
文書数d(1)を求める。 ステップ13:距離の小さい順に、d(1)番目までの文書
を帰属度1とする。 ステップ14:最後の文書と同じ距離の文書があれば、そ
れらについても帰属度1とする。 ステップ15:残りの文書は、帰属度0とする。
【0025】ここでは、ステップ12のd(1)番目の文書
における平均ベクトルとの距離が0.81であったとす
る。文書11934の分類「列車の脱線」への帰属度
は、文書11934と分類「列車の脱線」の平均ベクト
ルとの距離0.90が0.81より大きいため、 score(11934,列車の脱線)=0 となる。
【0026】帰属度計算部3による帰属度計算の結果
は、帰属度計算結果保持部4で保持される。また、帰属
度計算結果保持部4には、文書ベクトルや各文書に関す
る諸データも合わせて保持される。
【0027】ステップ4:ユーザは、計算結果を評価す
るために、評価対象とする文書を選択するための評価対
象選択基準を評価対象選択基準指定部11から指定する。
【0028】図7は、帰属度計算結果表示部10のGUI
により表示される評価対象選択基準指定画面を示してい
る。評価対象選択基準指定部11からの評価対象選択基準
の指定は、この画面上で、評価対象選択基準を指定する
操作によって行われる。
【0029】この評価対象選択基準指定画面の「分類
名」には、対象の分類名を入力する。「評価対象数」に
は、入力された分類への帰属度を計算した文書数が帰属
度計算結果保持部4から取得されて表示される。
【0030】「選び方」は、評価対象とする文書の選び
方を指定し、「距離が近い順」を指定した場合は、距離
が近い順に連続して、指定した個数の文書が評価対象と
して選択され、「距離が遠い順」を指定した場合は、距
離が遠い順に連続して、指定した個数の文書が評価対象
として選択される。また、他の条件(例えば、軸に関す
る条件)と組み合わせた場合は、他の条件を満たすもの
の中から、距離が近い順、あるいは遠い順に、指定した
個数の文書が評価対象として選択される。また、「選び
方」は、「範囲指定」で選ぶことも可能であり、評価対
象の「選び方」としては、「距離が近い順」「距離が遠
い順」「範囲指定」のうちのどれかを選択する。なお、
「距離が近い順」または「距離が遠い順」を選択したと
きは、帰属度計算結果保持部4に保持された計算結果が
表示される場合に、選択した順で表示される。
【0031】範囲指定の「グラフ表示」は、グラフを利
用した評価対象選択画面を表示するときに選択する。
「距離指定」は、評価対象選択基準として、距離の範囲
を指定し、その範囲に含まれる文書の計算結果を表示す
るときに選択する。この距離の範囲はグラフ上で指定す
ることができ、グラフ上で指定した距離の範囲に対応す
る区間の数値が連動して表示される。
【0032】「軸指定」は、評価対象選択基準として、
ベクトル軸と、その軸上の値の範囲とを指定し、その範
囲に含まれる文書の計算結果を表示するときに選択す
る。この値の範囲はグラフ上で指定することができ、グ
ラフ上で指定した値の範囲に対応する区間の数値が連動
して表示される。
【0033】「確信度指定」は、評価対象選択基準とし
て、後述するように、文書が分類に属すかどうかを確率
的手法で求めたときの確率(確信度)の範囲を指定し、
その範囲に含まれる文書の計算結果を表示するときに選
択する。この確信度の範囲はグラフ上で指定することが
でき、グラフ上で指定した確信度の範囲に対応する区間
の数値が連動して表示される。
【0034】「値指定」は、グラフ上のスケールを数値
で表示する場合に選択し、「偏差値指定」は、グラフ上
のスケールを偏差値で表示する場合に選択する。「分布
関数指定」は、評価対象選択基準として、評価対象の文
書数を分布関数に従って指定する場合に選択する。この
とき、「選択」ボタンを押すと、適用する分布関数の選
択画面が表示される。
【0035】「評価済みの文書」は、帰属度計算基準の
更新と帰属度計算結果の評価とを繰り返す場合に、その
評価対象に評価済みの文書を「含める」か「含めない」
か「評価済みのみ」とするかを指定する。「評価対象取
得」は、この画面で指定した評価対象選択基準に従って
評価対象を取得する場合に押す。また、「オプション設
定」は、複数の評価対象選択基準を組み合わせて評価対
象を限定するような場合に選択する。
【0036】こうした様々な評価対象選択基準は、評価
対象選択基準保持部12に保持されており、この評価対象
選択基準保持部12の情報を反映して、帰属度計算結果表
示部10がGUIにより図7の評価対象選択基準指定画面
を生成する。評価対象選択基準としては、さらに、「分
類××に関して、帰属度が一定範囲にある文書を選択す
る」とか、「分類××に関して、帰属度が上位○位であ
る文書を選択する」とか、「分類××に関して、帰属度
順に○文書おきの文書を選択する」などの基準を設ける
ことも可能である。
【0037】ステップ5:図7の画面上で、評価対象選
択基準を指定した後、「評価対象取得」ボタンを押し、
評価対象を選択する評価対象選択画面を表示する。図8
は、図7の評価対象選択基準指定画面で、「距離が近い
順」「グラフ表示」及び「値指定」を指定して、「距離
指定」を選択したときの評価対象選択画面を示してい
る。
【0038】この画面には、X軸に距離の値、Y軸に文
書数を表すグラフが表示され、X軸に沿って、範囲の最
小値及び最大値を示す矢印が表示される。この矢印はマ
ウスをドラッグして移動することができ、この矢印のX
軸上の位置を示す距離の値が対象区間として表示され、
この区間に含まれる文書数が区間内文書数として表示さ
れる。なお、評価対象選択基準指定画面で「偏差値指
定」を選択した場合には、X軸上の数値が偏差値とな
る。
【0039】また、画面上には、指定した分類での帰属
度ごとの文書数が表示される。また、「文書表示」ボタ
ンが表示され、このボタンを押すと、選択している範囲
の文書が一覧表示される。
【0040】また、図9は、図7の評価対象選択基準指
定画面で「グラフ表示」及び「値指定」を指定して、第
18軸の「軸指定」を選択したときの評価対象選択画面
を示している。グラフ表示のX軸は第18軸の値であ
り、グラフとして、全体の文書の分布と帰属度1の文書
の分布とが表示されている。それぞれのグラフは色を変
えて表示しても良い。
【0041】また、図10は、図7の評価対象選択基準
指定画面上で「分布関数指定」を指定して選択ボタンを
押したときの分布関数選択画面を示している。この分布
関数選択画面の「一様選択」「左優先」「右優先」「両
端重視」及び「中央重視」の各分布関数は評価対象選択
基準保持部12に保持されている。また、「自由指定」の
分布関数は、ユーザがGUIにより分布関数の型を編集
することができる。
【0042】図7の評価対象選択基準指定画面で「グラ
フ表示」、「値指定」及び「分布関数指定」を指定して
「距離指定」を選択し、また、分布関数選択画面上で
「左優先」の分布関数を選択したとすると、図8の矢印
で指定した指定区間から取得する文書数は、グラフで表
示するその区間の文書数そのものでは無く、前記文書数
に左優先の分布関数を乗じて算出される。
【0043】図11は、この関係を説明している。図1
1(a)は、指定区間の文書数を示し、図11(b)
は、選択された左優先の分布関数を示している。指定区
間内の相対位置xの文書からの取得数は、次の(式3)
により設定される。 指定区間内の相対位置xの文書からの取得数 ={(相対位置xの全文書数×相対位置xでの分布関数の値) /Σ(相対位置x'の全文書数×相対位置x'での分布関数の値)} ×指定された取得総数 ={N(x)・p(x)/Σ(N(x')・p(x')}×指定された取得総数 (Σはx’について加算) (式3) 図12には、左優先の分布関数を使って、指定区間の文
書数から文書取得数を算出した実例を示している。
【0044】なお、ここでは、分布関数の値を対応する
位置の文書数に乗じて、取得文書数を決定したが、対応
する位置の文書数に依らず、分布関数の形のみによっ
て、取得文書数を決定するようにしても良い。
【0045】また、評価対象とした文書の分布が、指定
した形になるように、新たな対象を選ぶようにしてもよ
い。例えば、これまで選んだ対象が、現在の基準で上位
に偏っているような場合、分布関数として一様(フラッ
トな)関数を指定し、今回評価の対象となる文書を加え
た結果が、現在の基準で偏りのない(一様)分布になる
ように(即ち、今回の評価対象の選択では、下位の文書
を多く選ぶように)してもよい。
【0046】また、評価対象選択画面には、図13に示
すように、評価が既に行われた文書と評価が行われてい
ない文書とを区別して表示しても良い。図13では、帰
属度1と帰属度0とに区分し、帰属度1が付与されてい
る文書の中で、評価の結果として帰属度1が付与された
文書を判定1とし、帰属度0が付与されている文書の中
で、評価の結果として帰属度0が付与された文書を判定
0とし、これまで評価対象となっていない文書を未判定
とし、また、評価入力画面や文書一覧で選択中の文書を
判定中として、各文書数を表示している。
【0047】評価対象選択画面の「文書表示」を押す
と、図14に示すように、評価対象選択画面で選択され
た文書の文書番号、距離及び見出しが一覧表示される。
図14(a)は、左優先分布関数を選択し、且つ、文書
取得総数を10文書としたときの一覧表示画面を示し、
図14(b)は、分布関数指定を行わずに上位から10
文書を選択した場合の一覧表示画面を示している。左優
先の分布関数指定を行う場合(図14(a))には、距
離の大きい正解も含まれるが、分布関数指定を行わない
場合には、距離の小さい正解だけが選択される。
【0048】ステップ6:ユーザは、一覧表示された文
書を個々に参照し、帰属度の適否を評価する。図15
は、評価入力画面を示している。見出しをクリックする
と、図16に示すように、本文が別ウィンドウに表示さ
れる。ユーザは、この文書が分類「列車の脱線」に属す
と評価した場合は評価入力画面(図12)の評価欄に1
を入れ、属さないと評価した場合は0を入れる。なお、
既に評価が付けられている場合には、その評価が評価欄
に表示される。
【0049】この評価入力画面の「OK」を押すと、評
価が入力されているもののみ、評価結果保持部7に保持
される。
【0050】なお、帰属度計算結果表示部10は、単に計
算結果の文書を表示するブラウザとして利用することも
可能であり、この場合、評価入力画面から見出しをクリ
ックして本文を表示させる。また、評価欄には評価を入
れずに「OK」を押す。
【0051】評価結果保持部7には、図17に示すよう
に、評価結果が蓄積される。同じ文書の同じ分類に対す
る評価結果は上書きされる。評価入力画面(図15)で
評価結果が空欄のままのデータは蓄積されない。なお、
評価が明示的に与えられなかった文書については、現在
の帰属度計算結果の値をそのまま評価としても良い。そ
の場合、文書表示時に、あらかじめ評価欄に帰属度計算
結果を表示しておくのが良い。
【0052】ステップ7:また、ユーザは、計算結果に
全て満足したときは、帰属度計算基準の作成処理を終了
する。 ステップ8:ユーザが評価を行い、その評価結果が入力
された場合には、帰属度計算基準再計算部8は、評価結
果保持部7に保持された文書の文書ベクトルを用いて分
類の平均ベクトルを再計算する。分類Cの平均ベクトル
の第i成分をμCiとすると、(式4)により算出する。 μCi=mCi/√(ΣmCj 2) (式4) (Σはjについて加算) ここで、mCiは、分類Cに属すという評価結果が評価結
果保持部7に保持されている文書の文書ベクトルにおけ
る第i成分の平均である。なお、この場合、帰属度に応
じて重み付きで平均を取っても良い。
【0053】分類「列車の脱線」の平均ベクトルが再計
算の前後で図18のように変化したとする。帰属度計算
基準再計算部8は、再計算した帰属度計算基準を帰属度
計算基準再計算結果保持部9に格納し、帰属度計算基準
更新部14は、帰属度計算基準保持部13に保持された帰属
度計算基準を、帰属度計算基準再計算結果保持部9に格
納された帰属度計算基準で更新する。次いで、ステップ
3以降の手順を繰り返す。
【0054】帰属度計算部3は、更新された帰属度計算
基準を用いて、図3の手順で各文書の帰属度を再計算す
る。このとき、閾値(40%)に対応する新たな平均ベ
クトルとの距離が0.85になったとする。文書119
34(図4)の分類「列車の脱線」の距離は、 d(11934,列車の脱線)=√{(0.159713−0.174962)
2+(0.004751−0.005654)2+‥+(0.015522+0.00114
2)2} =0.80 となり、0.80<0.85であるため、 score(11934,列車の脱線)=1 となる。
【0055】このように、この装置では、GUIを利用
して、帰属度計算結果表示部10が提示する画面上で様々
な評価対象基準を指定し、種々の観点から帰属度計算結
果を見直すことができる。そのため、帰属度計算基準を
効率的、且つ、正確に更新することが可能である。
【0056】なお、以上の説明では、分類の平均ベクト
ルの値を一意に決まるものとしてきたが、平均ベクトル
自体、ある中心の周りの一定の範囲に確率的に分布する
としてもよい。この場合、各文書から分類の平均までの
距離も、確率的に分布することになり、各文書が各分類
に属すかどうかも確率的な値となる。この確率を確信度
として表す。
【0057】一般に、一つの分類について考えた場合で
も、文書によって、分類の平均との距離の分布形状は異
なり得る。また、平均の分布の中心との距離(これまで
平均との距離としてきた値)が等しい文書間において
も、分布の形状は異なり得る。図19(a)(b)は、
平均ベクトルμの中心μ^との距離d^が等しい文書
A、Bにおいて、平均ベクトルとの距離の分布が異なる
場合を示している。図19(b)では、分かり易くする
ため、二次元の座標で、文書Aの座標位置をxa、文書
Bの座標位置をxbで表し、平均ベクトルμの分布を斜
線を引いた楕円で表している。このように平均ベクトル
の分布がX1軸方向に細長い楕円状に一様に分布してい
る場合、xa、xbは、共に楕円の中心μ^から等距離
にあるが、X2軸方向に離れたxaから楕円内の各点へ
の距離は、比較的狭い範囲に収まるのに対して、X1軸
方向に離れたxbから楕円内の各点への距離は、広い範
囲に分布する。文書A、Bにおける平均ベクトルとの距
離の分布は図19(a)のようになる。
【0058】いま、分類Cに属すための閾値となる距離
が、距離d0の位置に来たとする。文書A、Bそれぞれ
の分類Cの平均ベクトルへの距離がd0以下になる確率
は、図19(a)の各面積から、図19(c)のように
なるので、分類Cに属す確信度は、図19(d)に示す
ように、文書Aでは0.8、文書Bでは0.67とな
る。この場合、d^はd0より小さいので、帰属度では
共に1と表される。
【0059】このように、確信度を用いることにより、
各文書の分類に対する状態を高精度に表すことができ
る。この確信度に基づいて評価対象を選択する場合は、
評価対象選択基準指定画面から「確信度指定」を選択す
る。また、帰属度計算基準再計算部8は、(式4)によ
り分類の平均ベクトルを再計算したとき、(式4)で求
めた値の周囲に平均ベクトルが確率的に分布しているも
のとして平均ベクトルを設定する。
【0060】また、帰属度計算基準の一部として、分類
間の帰属度に関する制約を規定することができる。例え
ば、分類「列車の脱線」への帰属度が1なら、分類「話
や行為の脱線」に対する帰属度を0にする、と云うよう
な制約である。このような分類間の帰属度に関する制約
は、式に記述(前述の例では(「話や行為の脱線」に対
する帰属度=0 if 「列車の脱線」==1)と云う式に記
述)し、分類間制約関係エディタを使って、帰属度計算
基準保持部13や計算結果評価部6に入力され、保持され
る。この場合、計算結果評価部6は、ユーザがある文書
に関して、分類「列車の脱線」に対する帰属度を1と評
価したとき、前記制約に基づいて、その文書の分類「話
や行為の脱線」に対する評価結果を自動的に0と決定す
る。
【0061】図20には、このように分類に対する評価
が他の分類に対する評価と連動する場合の例を示してい
る。
【0062】計算結果評価部6は、ある文書のある分類
に対する評価が入力されたとき、保持する制約を参照
し、当該文書の関連する分類に対する評価を計算し、そ
れを以って同等の評価が入力されたものと見なす。な
お、このとき、計算結果評価部6は、ユーザに確認を求
めたり、メッセージを出すようにしても良い。また、既
入力の評価と矛盾が生じる場合をチェックし、このとき
だけユーザに確認を求めるようにしても良い。
【0063】こうした制約としては、評価が相補的な場
合のほか、評価が継承される場合などがある。こうした
制約を帰属度計算基準の一部として設定することによ
り、ユーザの評価回数を減らすことができる。
【0064】(第2の実施形態)第2の実施形態の帰属
度計算基準作成装置は、図21に示すように、文書間の
類似度を計算する文書類似度計算部16を備えている。そ
の他の構成は第1の実施形態(図1)と変わりがない。
【0065】この装置では、評価対象選択基準指定部11
が、類似度計算の核となる元文書の文書番号を文書類似
度計算部16に渡す。文書類似度計算部16は、文書集合保
持部1から各文書の文書ベクトルを取得して、元文書と
その他の文書との類似度、即ち、文書ベクトル間の距離
を算出する。次いで、文書類似度計算部16は、帰属度計
算結果保持部4に保持された各文書の帰属度を参照し、
元文書と異なる帰属度が付された文書については、元文
書との類似度が高い(距離が近い)順に並べ、また、元
文書と同一の帰属度が付された文書については、元文書
との類似度が低い(距離が遠い)順に並べて評価対象選
択部5に渡す。評価対象選択部5は、文書類似度計算部
16から渡された文書類似度計算結果に含まれる文書数を
所定数に絞って評価対象とする。
【0066】図22は、文書類似度計算結果を基に選択
された評価対象を例示している。ここでは、元文書(文
書番号85590)の帰属度の評価が1であるため、元
文書との類似度が高くて、帰属度0と判定されている文
書が類似度の高い順に表示され、また、元文書との類似
度が低くて、帰属度1と判定されている文書が類似度の
低い順に表示されている。
【0067】ユーザは、この評価対象の帰属度を見直
す。この場合、元文書と類似しているのに帰属度が異な
るものや、元文書と類似していないのに帰属度が一致す
るものは、帰属度の判定が間違っている可能性が高い。
従って、この評価対象を見直すことにより、効率的に帰
属度計算基準を改善することができる。
【0068】また、ユーザは、評価対象選択画面で、分
類に属する文書の中から帰属度の境界に最も近い文書を
元文書として選択し、あるいは、分類に属しない文書の
中から帰属度の境界に最も近い文書を元文書として選択
し、その文書番号を評価対象選択基準指定部11より文書
類似度計算部16に渡すようにしても良い。こうした手順
を踏むことによって帰属度計算基準の改善を一層効率化
することができる。
【0069】(第3の実施形態)第3の実施形態の帰属
度計算基準作成装置は、図23に示すように、前回の帰
属度計算結果と今回の帰属度計算結果とを比較する帰属
度計算結果比較部17を備えている。その他の構成は第1
の実施形態(図1)と変わりがない。
【0070】この装置の帰属度計算結果比較部17は、帰
属度計算結果保持部4に格納された帰属度計算結果を保
持し、帰属度計算基準が更新され、帰属度計算結果保持
部4に新たな帰属度計算結果が格納されると、帰属度計
算結果保持部4から新たな帰属度計算結果を読み出し、
帰属度計算基準の更新前後における帰属度計算結果を比
較して評価対象選択部5に提示する。
【0071】図24は、帰属度計算結果比較部17の比較
結果に基づいて、帰属度計算結果表示部10に表示される
画面例を示している。グラフには、更新前の帰属度1の
文書、及び更新前の帰属度0の文書が、更新後の距離に
おいてどのように分布しているかが表示されている。グ
ラフ上、更新前の帰属度1の文書であって更新後の帰属
度の境界より右にある文書は、更新により帰属度が1か
ら0に変わった文書であり、逆に、更新前の帰属度0の
文書であって更新後の帰属度の境界より左にある文書
は、更新により帰属度が0から1に変わった文書であ
る。このように、帰属度計算基準の更新で帰属度が変化
した文書や、変化しなかった文書を、グラフやチェック
ボタンを選択して画面上に表示させることができる。
【0072】また、図25は、帰属度計算結果比較部17
の比較結果に基づいて、帰属度計算結果表示部10に表示
される他の画面例を示している。グラフには、帰属度計
算基準の更新前と更新後とに分けて、文書集合全体、評
価1の文書及び評価2の文書の文書数の分布が表示され
ている。このグラフから、評価対象の選択範囲や評価終
了の時期などを判断することができる。
【0073】(第4の実施形態)第4の実施形態の帰属
度計算基準作成装置は、図26に示すように、文書集合
からキーワードを抽出するキーワード生成部19と、文書
集合保持部1に保持された文書を指定された条件で検索
する文書検索部18とを備えている。その他の構成は第1
の実施形態(図1)と変わりがない。
【0074】図27は、この装置の評価対象選択基準指
定画面を示している。この画面は、第1の実施形態の同
一画面(図7)と比べて、検索条件の入力画面と、キー
ワードの提示領域とを備えている点が相違している。
【0075】ユーザが、評価対象選択基準指定画面上
で、「距離指定」や「軸指定」により範囲指定を行い、
また、評価済みの文書を「含める」「含めない」または
「評価済みのみ」を指定して、キーワードの提示領域を
クリックすると、キーワード生成部19は、指定に従っ
て、範囲指定された評価済みの文書、または帰属度計算
が行われた文書から、特徴的なキーワードを抽出する。
抽出されたキーワードは、評価対象選択基準指定画面の
キーワードの提示領域に表示される。
【0076】ユーザが、表示されたキーワードを検索条
件に指定して、検索を指示すると、文書検索部18は、こ
の検索条件で文書集合保持部1に保持された文書を検索
し、検索結果を評価対象選択部5に渡す。評価対象選択
部5は、文書検索部18が検索した文書を評価対象とし、
ユーザは、この評価対象の帰属度を評価する。
【0077】このように、この装置では、キーワードを
利用して帰属度計算基準の更新を効率化することができ
る。
【0078】また、例えば、特定の軸の成分を調べたと
きに、評価1の文書群での平均と、評価0の文書群での
平均とが大きく離れている場合、それぞれの平均のまわ
りの文書からキーワードを提示させ、その内容を確認し
て、軸の重みを重くしたり、軽くしたりすることなども
できる。
【0079】(第5の実施形態)第5の実施形態の帰属
度計算基準作成装置は、図28に示すように、各分類の
帰属度計算基準の適合性を評価する帰属度計算基準評価
部20を備えている。その他の構成は第1の実施形態(図
1)と変わりがない。
【0080】この装置では、帰属度計算部3が、ユーザ
による帰属度の評価済みの文書を対象として、帰属度計
算基準に基づいて帰属度を計算する。帰属度計算基準評
価部20は、この帰属度計算結果と、ユーザが評価した帰
属度とを照合して、各分類の帰属度計算基準の有効性を
評価する。
【0081】この評価の基準には、次の(式5)で示す
評価的中率を用いる。 評価的中率=(評価と帰属度計算結果とが一致している文書数)/(評価 が与えられている文書数) (式5) 各分類の帰属度計算基準を作成する過程で、帰属度計算
基準評価部20により、この評価的中率を調べる。そし
て、評価的中率が低い分類に対して、優先して帰属度計
算基準を改善し、全体の分類力レベルの早期底上げを図
る。
【0082】図29は、この場合の手順を示している。 ステップ20:いくつかの分類に対して、分類名を指定し
て、それぞれ、ある程度まで帰属度計算基準を作成す
る。 ステップ21:帰属度計算基準評価部20により、各分類の
帰属度計算基準を評価する。 ステップ22:分類名と判別的中率とをユーザに示し、帰
属度計算基準を改良する分類名を指定させる。 ステップ23:指定された分類に対して、帰属度計算基準
を改良する。
【0083】なお、評価的中率が低い分類を検索し、そ
の分類を廃止するために、この評価的中率を用いること
も可能である。
【0084】このように、この装置では、帰属度計算基
準評価部20の評価結果に基づいて、帰属度計算基準の改
善に注力すべき分類を絞り込むことが可能になり、帰属
度計算基準作成作業を効率化し、高精度の帰属度計算基
準を生成することが可能になる。
【0085】(第6の実施形態)第6の実施形態の帰属
度計算基準作成装置は、図30に示すように、ベクトル
軸の有効性を表す情報を生成する帰属度計算基準再計算
支援部21と、ユーザの指示に基づいて帰属度計算基準の
再計算を制御する帰属度計算基準再計算制御部22とを備
えている。その他の構成は第1の実施形態(図1)と変
わりがない。 この装置では、帰属度計算基準再計算支
援部21から、ベクトルの各次元を表す軸が分類にどの程
度役立っているかを示す情報が提示され、ユーザは、こ
の情報を参照して、帰属度計算基準再計算制御部22か
ら、分類に使用する次元数を絞り、また、有効性に応じ
た各次元への重み付けを行う。
【0086】典型的な作成方法においては、文書ベクト
ルのベクトル成分である軸は、単語に対応し、そのベク
トル成分の値は、その単語の出現頻度に対応している。
この装置では、分類の帰属度計算基準として相応しくな
い、差別化の機能が薄い単語をユーザが除外できる。こ
の単語を「素性」と云い、単語の出現頻度に相当するベ
クトル成分の値を「素性の値」と云うことにする。
【0087】帰属度計算基準再計算支援部21は、評価結
果保持部7に保持されたユーザの評価済みの各文書、あ
るいは、帰属度計算結果保持部4に保持された帰属度計
算が行われた各文書の軸番号に対応する素性の値を取得
し、各軸番号ごとに、且つ、帰属度別に、素性の値の分
散を計算する。
【0088】図31は、帰属度計算基準再計算支援部21
の計算結果が表示された画面を示している。ここでは、
ユーザにより帰属度1と評価された文書、及び、帰属度
0と評価された文書の各々を対象として、軸ごとの分散
が計算されており、分散値とその軸番号とが、分散値の
小さい順に表示され、また、その中から選択された軸番
号477の分散がグラフ表示されている。
【0089】また、図32は、帰属度計算基準再計算支
援部21の計算結果が表示された他の画面を示している。
ここでは、横軸に帰属度1の文書を対象とする素性の値
の分散値を表示し、縦軸に帰属度0の文書を対象とする
素性の値の分散値を表示するグラフに、各軸ごとの分散
値がプロットされている。この点をポインタで選択する
と、該当する軸の軸番号、縦軸での分散値及び横軸での
分散値が数値で表示される。
【0090】ユーザは、こうした表示から、分散値が小
さく、且つ、帰属度1における分散と帰属度0における
分散とが重なり合わない素性を有効性が高い素性として
認識することができ、逆に、帰属度1における分散と帰
属度0における分散とが重なり合う素性を有効性が低い
素性として認識することができる。
【0091】帰属度計算基準再計算支援部21では、ま
た、各素性の有効性を定量化するために、各素性の重み
(軸の重み)を計算する。
【0092】軸の重みを計算する計算式は、種々設定す
ることができる。 (例1) 軸iの重みwi=1/(帰属度1と判定された文書の第i成分の標準偏差) (式6) (例2) 軸iの重みwi=|(帰属度1と判定された文書の第i成分の平均) −(帰属度0と判定された文書の第i成分の平均)| /(帰属度1と判定された文書の第i成分の標準偏差) (式7) (例3) 軸iの重みwi=|(帰属度1と判定された文書の第i成分の平均) −(帰属度0と判定された文書の第i成分の平均)| /(帰属度1と判定された文書の第i成分の標準偏差)+ (帰属度0と判定された文書の第i成分の標準偏差) (式8) ここで、(例1)は、帰属度1の文書における素性の分
散のみに着目して軸の重みを求めている。(例2)で
は、さらに、帰属度1の文書の素性と帰属度0の文書の
素性との平均離間距離を勘案している。(例3)では、
さらに、この離間距離を、帰属度0の文書における素性
の分散を勘案して評価している。
【0093】図33には、帰属度1及び帰属度0に判定
された文書の各素性の値の平均値及び分散値とともに、
(式6)(式7)(式8)のそれぞれで算出した軸の重
みを対比して示している。
【0094】(式7)で求めた軸の重みは、帰属度計算
基準の平均ベクトルの成分として取り込む有効性の高い
素性を選定するための基準に適している。また、(式
6)で求めた軸の重みは、距離計算に使用する重みとし
て適している。
【0095】ユーザが、(式7)で求めた軸の重みを参
考に、帰属度計算基準の平均ベクトルの成分に使用する
素性を指定すると、帰属度計算基準再積算制御部22は、
その指示に従って帰属度計算基準再計算部8における帰
属度計算基準の再計算を制御する。
【0096】また、ユーザが、帰属度計算基準の平均ベ
クトル成分の素性に対して、(式6)による重み付けを
指示すると、帰属度計算基準再積算制御部22は、帰属度
計算基準再計算支援部21から得た各素性に対する重みの
計算値を帰属度計算基準再計算部8に出力し、帰属度計
算基準再計算部8は、重み付き平均ベクトルを計算す
る。重み付き平均ベクトルμは、平均ベクトルの第i成
分に重みwiを掛け、全体の長さが1になるように正規
化して求めることができる。この重みは、帰属度計算基
準のパラメータとして帰属度計算基準保持部13で保持さ
れる。
【0097】また、重みを使った距離計算では、各文書
dの文書ベクトルの第i成分に重みwiを掛け、全体の
長さが1になるように正規化して重み付き文書ベクトル
xdを生成し、この重み付き文書ベクトルxdと、前記重
み付き平均ベクトルμとの通常の距離を算出し、これを
文書ベクトルと分類の平均ベクトルとの重み付き距離と
する。
【0098】このように、帰属度計算基準の平均ベクト
ルの成分として、有効性が高い素性のみを、その有効性
に応じた重みを付けて用いることにより、高精度の帰属
度計算基準を作成することが可能になる。
【0099】(第7の実施形態)第7の実施形態では、
文書検索で求めた文書集合を用いて帰属度計算基準を作
成する装置について説明する。
【0100】この装置は、図34に示すように、文書が
蓄積された文書DB23と、文書DB23の文書を検索する
文書検索部24と、検索条件を入力する検索条件入力部25
とを備えている。その他の構成は第1の実施形態(図
1)と変わりがない。
【0101】図35に、この装置の動作フローを示して
いる。 ステップ30:ユーザは、検索条件入力部25から検索条件
を入力する。図36は、検索条件入力部25の検索条件入
力画面を示している。ユーザは、この画面から「分類
名」「絞込み条件」及び「文書取得条件」を入力する。 ステップ31:文書検索部24は、絞込み条件及び文書取得
条件として入力された「脱線」及び「列車」と云う語を
含む文書を文書DB23から検索し、文書集合保持部1に
保持された文書集合に追加する。 ステップ32:検索条件として絞り込み条件が入力されて
いる場合は、 ステップ33:その絞り込み条件と、入力された分類名と
が、帰属度計算基準初期値作成部15を通じて帰属度計算
基準保持部13に送られ、その分類に対応付けた帰属度計
算基準として登録される。図37は、登録された帰属度
計算基準を示している。 ステップ34:さらに文書集合を拡張する場合は、ステッ
プ30からの手順を繰り返す。文書集合を拡張しない場合
は、 ステップ35:帰属度計算基準の作成が行われる。
【0102】この帰属度計算基準の作成において、帰属
度計算部3は、検索条件入力部25から登録された帰属度
計算基準を含めずに帰属度を計算し、次いで、検索条件
入力部25から登録された検索条件により帰属度を求め、
双方の帰属度を合成して最終的な帰属度を得る。検索条
件からの帰属度の求め方や、合成の仕方は、任意に別途
定めることができる。
【0103】ここでは、検索条件によって求める帰属度
は、検索条件の語「脱線」を本文中に含む文書では帰属
度1、そうでなければ帰属度0とする。また、合成は、
検索条件を含めずに求めた帰属度(ベクトル空間法によ
り求めた帰属度)と、検索条件から求めた帰属度との最
小値を最終的な帰属度として合成するものとする。
【0104】この合成の関係を、図38に示している。
こうした合成を行うことにより、例えば、脱線以外の列
車の事故に関する文書のように、「脱線」と云う文字は
含まないが、他の語の出現状況が脱線事故の文書と似て
いる文書では、「脱線」と云う文字列の検索条件から求
める帰属度が0になり、最終的な帰属度は0になる。ま
た、行為の行き過ぎを意味する「脱線」と云う文字を含
むが、脱線事故の文書とは他の語の使い方が異なる文書
では、「脱線」と「列車」の両方を含む文書で作られる
(距離を使った)分類基準での帰属度が0になり、最終
的な帰属度は0になる。「列車」では無く「電車」と云
う表現を用いて「脱線」事故が記述されている文書の場
合には、「列車」と「電車」の違いはあるものの、他の
語の使い方は大差ないため、分類基準からの帰属度は
(1)になり、結果の帰属度も1になる。
【0105】このように、この装置では、文書検索を使
って文書集合を求めることができ、また、この文書検索
時の検索式を帰属度計算基準に継承することができる。
【0106】この装置では、分類ごとに検索条件を変え
ることにより、文書集合保持部に分類ごとの文書を集め
て帰属度計算基準を作成することができる。
【0107】なお、検索条件の内、文書取得条件は、文
書取得のみに使う検索条件であり、帰属度計算基準には
影響を与えない。
【0108】また、この例では、検索結果を、指定した
語句を含むか含まないかの二段階に区別しているが、例
えば、指定した語句の包含数などに応じて多段階に区分
し、一定の段階の文書のみを検索結果に含めるようにし
ても良い。また、検索条件は、文字列だけでなく、文字
列を使った正規表現や、書誌事項などを使用することも
できる。
【0109】また、一つの分類に対して、文書取得用の
条件として指定する語を変えて複数の文書集合を取得
し、各文書集合からそれぞれ分類基準を作成して帰属度
計算基準保持部に保持(格納)し、実際の分類時の帰属
度の計算では、各分類基準から計算した帰属度のうち最
も大きいものを、検索条件を含めずに求めた帰属度とし
て利用するようにしてもよい。例えば、「脱線」と云う
分類に関して、「列車」と云う文字を含む文書で作った
分類基準と、「電車」と云う文字を含む文書で作った分
類基準とを持ち、実際の分類時の帰属度は各々の分類基
準を用いて計算し、そのうち、大きい方を帰属度として
採用するようにしても良い。
【0110】(第8の実施形態)第8の実施形態では、
作成した帰属度計算基準を用いて、文書の分類に対する
帰属度を計算する装置について説明する。
【0111】この装置は、図39に示すように、文書を
蓄積する文書DB23と、帰属度計算基準を保持する帰属
度計算基準保持部13と、文書DB23に蓄積された文書を
検索条件に従って検索する文書検索部24と、文書の帰属
度を計算する帰属度計算部3と、帰属度計算部3の計算
結果を保持する帰属度計算結果保持部4と、帰属度計算
結果を出力する帰属度計算結果出力部26とを備えてい
る。
【0112】図40は、この装置の動作フローを示して
いる。 ステップ40:帰属度計算基準保持部13に保持された帰属
度計算基準に検索条件が付随している場合には、 ステップ41:文書検索部24は、文書DB23から取り出し
た文書が、帰属度計算基準保持部13から取得した検索条
件を満たしているかどうか識別し、満たさないときは、 ステップ44:帰属度を0とする。
【0113】また、ステップ41において、検索条件を満
たしているときは、 ステップ42:帰属度計算部3は、帰属度計算基準保持部
13から取得した分類の帰属度計算基準を用いて、対象文
書の文書ベクトルと当該分類の平均ベクトルとの重み付
き距離を求め、 ステップ43:帰属度に関する距離の閾値を参照し、距離
から帰属度を計算し、 ステップ44:帰属度を出力する。
【0114】この装置は、対象となる文書DB中の各文
書に対して、各分類に対する帰属度を上記手順で計算
し、出力する。
【0115】なお、この手順では、検索条件からの帰属
度を、検索条件を満たしたとき1、満たさないとき0と
して、検索条件から求めた帰属度と、ベクトル空間法で
求めた帰属度との最小値を最終的な帰属度としている。
なお、各実施形態で示した構成を幾つか組み合わせて実
施することも勿論可能である。
【0116】
【発明の効果】以上の説明から明らかなように、本発明
の帰属度計算基準作成方法及び帰属度計算基準作成装置
では、ユーザの試行錯誤を減らし、効率的に、且つ、高
精度に帰属度計算基準を作成することができる。
【図面の簡単な説明】
【図1】第1の実施形態の帰属度計算基準作成装置の構
成を示すブロック図、
【図2】第1の実施形態の帰属度計算基準作成装置の動
作を示すフロー図、
【図3】第1の実施形態の帰属度計算基準作成装置の帰
属度計算手順を示すフロー図、
【図4】第1の実施形態の帰属度計算基準作成装置の文
書集合保持部に保持される文書ベクトルを示す図、
【図5】第1の実施形態の帰属度計算基準作成装置の帰
属度計算基準保持部に保持される平均ベクトルを示す
図、
【図6】第1の実施形態の帰属度計算基準作成装置の帰
属度計算基準保持部に保持される帰属度を決める閾値を
示す図、
【図7】第1の実施形態の帰属度計算基準作成装置の評
価対象選択基準指定画面例、
【図8】第1の実施形態の帰属度計算基準作成装置の評
価対象選択画面例、
【図9】第1の実施形態の帰属度計算基準作成装置の評
価対象選択画面例、
【図10】第1の実施形態の帰属度計算基準作成装置の
分布関数選択画面例、
【図11】第1の実施形態の帰属度計算基準作成装置で
の分布関数を利用した選択を説明する図、
【図12】第1の実施形態の帰属度計算基準作成装置で
の分布関数を利用した選択例、
【図13】第1の実施形態の帰属度計算基準作成装置の
評価対象選択画面の変形例、
【図14】第1の実施形態の帰属度計算基準作成装置で
の選択結果を示す図、
【図15】第1の実施形態の帰属度計算基準作成装置の
評価入力画面例、
【図16】第1の実施形態の帰属度計算基準作成装置の
文書表示画面例、
【図17】第1の実施形態の帰属度計算基準作成装置の
評価結果保持部で保持される評価結果を示す図、
【図18】第1の実施形態の帰属度計算基準作成装置で
の帰属度計算基準再計算結果を示す図、
【図19】第1の実施形態の帰属度計算基準作成装置で
の確信度を説明する図、
【図20】第1の実施形態の帰属度計算基準作成装置で
の分類に対する評価が他の分類に対する評価と連動する
例を示す図、
【図21】第2の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図22】第2の実施形態の帰属度計算基準作成装置の
文書類似度計算結果の表示画面例、
【図23】第3の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図24】第3の実施形態の帰属度計算基準作成装置で
の帰属度推移表示例、
【図25】第3の実施形態の帰属度計算基準作成装置で
の評価結果の推移表示例、
【図26】第4の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図27】第4の実施形態の帰属度計算基準作成装置の
評価対象選択基準指定画面例、
【図28】第5の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図29】第5の実施形態の帰属度計算基準作成装置の
動作を示すフローク図、
【図30】第6の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図31】第6の実施形態の帰属度計算基準作成装置で
の軸選定のための表示例、
【図32】第6の実施形態の帰属度計算基準作成装置で
の軸選定のための表示例、
【図33】第6の実施形態の帰属度計算基準作成装置で
の重み計算例、
【図34】第7の実施形態の帰属度計算基準作成装置の
構成を示すブロック図、
【図35】第7の実施形態の帰属度計算基準作成装置の
動作を示すフローク図、
【図36】第7の実施形態の帰属度計算基準作成装置の
検索条件入力画面例、
【図37】第7の実施形態の帰属度計算基準作成装置の
検索条件登録状態を示す図、
【図38】第7の実施形態の帰属度計算基準作成装置で
の帰属度計算を示す図、
【図39】第8の実施形態の帰属度計算装置の構成を示
すブロック図、
【図40】第8の実施形態の帰属度計算装置の動作を示
すフロー図である。
【符号の説明】
1 文書集合保持部 2 対象分類指定部 3 帰属度計算部 4 帰属度計算結果保持部 5 評価対象選択部 6 計算結果評価部 7 評価結果保持部 8 帰属度計算基準再計算部 9 帰属度計算基準再計算結果保持部 10 帰属度計算結果表示部 11 評価対象選択基準指定部 12 評価対象選択基準保持部 13 帰属度計算基準保持部 14 帰属度計算基準更新部 15 帰属度計算基準初期値作成部 16 文書類似度計算部 17 帰属度計算結果比較部 18 文書検索部 19 キーワード生成部 20 帰属度計算基準評価部 21 帰属度計算基準再計算支援部 22 帰属度計算基準再計算制御部 23 文書DB 24 文書検索部 25 検索条件入力部 26 帰属度計算結果出力部
フロントページの続き (72)発明者 飯塚 泰樹 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 玉利 公一 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 NR12 PP23 PQ02 PQ46 PR06 QM08 QP05 5E501 AC18 AC36 BA05 EA05 EA07 EB05 FA03 FA14 FA46

Claims (44)

    【特許請求の範囲】
  1. 【請求項1】 一つ以上の文書からなる文書集合中の各
    文書に対して、一つ以上の分類からなる分類集合中の各
    分類への帰属度を計算するための帰属度計算基準を作成
    する帰属度計算基準作成装置であって、 帰属度計算基準作成に用いる文書集合を保持する文書集
    合保持手段と、 初期状態では帰属度計算基準の初期値を保持し、前記帰
    属度計算基準が更新されるごとに、更新された前記帰属
    度計算基準を保持する帰属度計算基準保持手段と、 前記文書集合保持手段に保持された各文書に対して、前
    記帰属度計算基準保持手段に保持された帰属度計算基準
    を適用して、各分類に対する帰属度を計算する帰属度計
    算手段と、 前記帰属度計算手段により計算された各文書の各分類に
    対する帰属度計算結果を保持する帰属度計算結果保持手
    段と、 前記帰属度計算結果保持手段に保持された帰属度計算結
    果から評価の対象とする計算結果を選択するための計算
    結果選択基準を保持する評価対象選択基準保持手段と、 前記評価対象選択基準保持手段に保持される評価対象選
    択基準の一つに基づいて前記帰属度計算結果保持手段に
    保持される帰属度計算結果の一部を評価対象として選択
    する評価対象選択手段と、 前記評価対象選択手段により選択された帰属度計算結果
    を評価し、評価対象の文書に対して当該分類に対する帰
    属度を付与し直す計算結果評価手段と、 前記計算結果評価手段による評価結果を保持する評価結
    果保持手段と、 少なくとも前記評価結果保持手段に保持される帰属度計
    算結果の評価結果を利用して帰属度計算基準を再計算す
    る帰属度計算基準再計算手段と、 前記帰属度計算基準再計算手段により再計算された帰属
    度計算基準再計算結果を保持する帰属度計算基準再計算
    結果保持手段と、 前記帰属度計算基準再計算結果保持手段に保持された帰
    属度計算基準によって前記帰属度計算基準保持手段に保
    持された帰属度計算基準を更新する帰属度計算基準更新
    手段とを備え、 帰属度計算結果に対する評価によって帰属度計算基準を
    更新することを繰り返すことにより帰属度計算基準を作
    成することを特徴とする帰属度計算基準作成装置。
  2. 【請求項2】 前記帰属度計算基準再計算手段は、前記
    評価結果保持手段に帰属度評価結果が保持されている文
    書と分類との組の当該評価結果を、評価結果が保持され
    ていない組の帰属度計算結果よりも優先させて帰属度計
    算基準の再計算を行うことを特徴とする請求項1に記載
    の帰属度計算基準作成装置。
  3. 【請求項3】 前記計算結果評価手段は、前記帰属度計
    算基準中に分類間の帰属度に関する制約が記述されてい
    る場合に、前記分類間の一方の分類への評価結果が与え
    られた文書に対して、前記分類間の他方の分類への評価
    として、前記制約により決定された値を与えることを特
    徴とする請求項1に記載の帰属度計算基準作成装置。
  4. 【請求項4】 前記評価対象選択基準保持手段が複数の
    前記評価結果選択基準を保持し、複数の前記評価結果選
    択基準の中から、ユーザにその一つを選択させ、且つ、
    詳細なパラメータを指定させる機能を持つ評価対象選択
    基準指定手段を備え、前記評価対象選択手段は、前記評
    価対象選択基準指定手段を通じてユーザが指定した評価
    対象選択基準を用いて前記評価対象を選択することを特
    徴とする請求項1に記載の帰属度計算基準作成装置。
  5. 【請求項5】 前記評価対象選択基準指定手段は、ユー
    ザから帰属度計算で用いられた各文書の素性の名と素性
    値の範囲との指定を受け取り、前記評価対象選択手段
    は、指定された素性に関する素性値が指定された範囲内
    にある文書に対する帰属度計算結果を評価対象とするこ
    とを特徴とする請求項4に記載の帰属度計算基準作成装
    置。
  6. 【請求項6】 前記評価対象選択基準指定手段は、ユー
    ザから文書集合に対する指定と、素性値として数値を取
    る素性に対する素性値の範囲の指定とを受け取り、前記
    範囲が、素性値から前記文書集合における当該素性の素
    性値の平均を引いた値を前記文書集合における当該素性
    の素性値の標準偏差で割った値により指定されているこ
    とを特徴とする請求項5に記載の帰属度計算基準作成装
    置。
  7. 【請求項7】 前記帰属度計算手段は、計算結果におい
    て文書の分類に対する帰属度と共に当該計算結果に対す
    る確信度を付与し、前記評価対象選択基準指定手段は、
    ユーザから確信度に関する範囲の指定を受け取り、前記
    評価対象選択手段は、指定された範囲の確信度を持つ帰
    属度計算結果を評価対象とすることを特徴とする請求項
    4に記載の帰属度計算基準作成装置。
  8. 【請求項8】 文書間の類似度を計算する文書類似度計
    算手段を備え、前記評価対象選択基準指定手段は、ユー
    ザから文書に関する指定と類似度の範囲に関する指定と
    を受け取り、前記評価対象選択手段は、指定された文書
    と指定された範囲内の類似度とを持つ文書に対する帰属
    度計算結果を評価対象とすることを特徴とする請求項4
    に記載の帰属度計算基準作成装置。
  9. 【請求項9】 前記評価対象選択基準指定手段は、ユー
    ザから、分類名と帰属度の範囲と類似度の範囲とに関す
    る指定を受け取り、前記評価対象選択手段は、評価結果
    において当該分類に対する帰属度の範囲が指定された範
    囲内にある文書に対して、指定された範囲内の類似度を
    持つ文書のうち、帰属度計算により計算された当該分類
    に対する帰属度が、指定された範囲内にない文書に対す
    る帰属度計算結果を評価対象とすることを特徴とする請
    求項8に記載の帰属度計算基準作成装置。
  10. 【請求項10】 前記帰属度計算結果保持手段の内容を
    視覚的に表示し、ユーザが帰属度計算結果の一部をGU
    Iを通じて範囲指定できる帰属度計算結果表示手段を備
    え、前記評価対象選択手段は、前記帰属度計算結果表示
    手段のGUIによるユーザの範囲指定と前記評価対象選
    択基準指定手段によって指定された評価対象選択基準と
    を組み合わせて評価対象を選択することを特徴とする請
    求項4に記載の帰属度計算基準作成装置。
  11. 【請求項11】 前記帰属度計算結果表示手段は、前記
    評価対象選択基準指定手段における評価対象選択基準の
    指定状況に連動して表示結果を変化させることを特徴と
    する請求項10に記載の帰属度計算基準作成装置。
  12. 【請求項12】 前記帰属度計算結果表示手段は、前記
    評価対象選択手段により選択された帰属度計算結果を識
    別可能な方法で表示し、さらに前記計算結果評価手段に
    よる評価が行われていない評価対象と、各時点で評価が
    行われている評価対象と、評価が終了した評価対象とを
    識別可能な方法で表示し、さらに、評価が終了した評価
    対象については、評価によって与えられた帰属度の範囲
    に応じて、識別可能な方法で表示することを特徴とする
    請求項11に記載の帰属度計算基準作成装置。
  13. 【請求項13】 前記計算結果評価手段は、帰属度計算
    結果の評価において、前記帰属度計算結果表示手段によ
    り表示されている評価対象をユーザがGUIを利用して
    一つ一つ選択したとき、選択された評価対象の帰属度計
    算結果を評価することを特徴とする請求項12に記載の
    帰属度計算基準作成装置。
  14. 【請求項14】 前記帰属度計算結果表示手段は、前記
    帰属度計算結果評価手段の評価の過程で、各時点におい
    て評価対象として選択されている帰属度計算結果に対応
    する文書の各素性値や文書の文字列自体を、前記帰属度
    計算結果表示手段による選択と連動して表示することを
    特徴とする請求項12に記載の帰属度計算基準作成装
    置。
  15. 【請求項15】 帰属度計算基準の更新時において、更
    新前の帰属度計算結果と、更新後の帰属度計算結果とを
    比較する帰属度計算結果比較手段を備え、前記評価対象
    選択手段は、前記帰属度計算結果比較手段による比較結
    果と前記評価対象選択基準指定手段によって指定された
    評価対象選択基準とを組み合わせて評価対象を選択する
    ことを特徴とする請求項4に記載の帰属度計算基準作成
    装置。
  16. 【請求項16】 前記評価対象選択基準保持手段は、前
    記評価結果選択基準として分布関数を保持し、前記評価
    対象選択手段は、前記評価対象選択基準指定手段を通じ
    てユーザが指定した分布関数に対応する数の前記評価対
    象を選択することを特徴とする請求項4に記載の帰属度
    計算基準作成装置。
  17. 【請求項17】 帰属度計算基準の更新時において、更
    新前の帰属度計算結果と、更新後の帰属度計算結果とを
    比較する帰属度計算結果比較手段を備え、前記帰属度計
    算結果表示手段は、帰属度計算基準の更新前と更新後の
    帰属度計算結果及び前記帰属度計算結果比較手段により
    得られる比較結果を視覚的に表示することを特徴とする
    請求項10に記載の帰属度計算基準作成装置。
  18. 【請求項18】 前記帰属度計算結果表示手段は、前記
    評価結果保持手段に評価結果が保持されている文書に対
    する帰属度計算結果、及び、帰属度計算基準の更新前後
    における帰属度計算結果の変化を視覚的に表示すること
    を特徴とする請求項17に記載の帰属度計算基準作成装
    置。
  19. 【請求項19】 分類に対する帰属度計算基準の適合度
    を計算して結果を表示する帰属度計算基準評価手段を備
    え、前記帰属度計算手段は、各分類に対して、前記評価
    結果保持手段に当該分類に関する帰属度評価結果が保持
    されている文書に対して、評価結果が保持されていない
    文書に対して行われる帰属度計算方法と同じ方法により
    帰属度を計算し、前記帰属度計算基準評価手段は、前記
    帰属度計算手段が計算した値と、前記評価結果保持手段
    に保持されている帰属度評価結果とを比較して、分類別
    の帰属度計算基準の適合度を出力することを特徴とする
    請求項4に記載の帰属度計算基準作成装置。
  20. 【請求項20】 前記評価対象選択基準指定手段は、前
    記帰属度計算基準評価手段から、各分類に対する帰属度
    計算基準の適合度を受け取り、前記評価対象選択基準指
    定手段に、帰属度計算基準の適合度の範囲を指定して、
    帰属度計算基準の適合度が指定した範囲にある分類に対
    する帰属度計算結果を評価対象として提示することを特
    徴とする請求項19に記載の帰属度計算基準作成装置。
  21. 【請求項21】 前記帰属度計算基準再計算手段による
    帰属度計算基準の再計算をユーザの指示に基づいて制御
    する帰属度計算基準再計算制御手段を備え、ユーザが、
    前記帰属度計算基準再計算手段による帰属度計算基準の
    再計算を直接制御できるようにしたことを特徴とする請
    求項1に記載の帰属度計算基準作成装置。
  22. 【請求項22】 前記帰属度計算基準保持手段に保持さ
    れた帰属度計算基準と、前記帰属度計算結果保持手段に
    保持された帰属度計算結果と、前記評価結果保持手段に
    保持された評価結果とを参照し、帰属度計算基準再計算
    に利用するための情報を生成して提示する帰属度再計算
    支援手段を備え、前記帰属度計算基準再計算制御手段か
    らの帰属度計算基準再計算の制御を支援することを特徴
    とする請求項21に記載の帰属度計算基準作成装置。
  23. 【請求項23】 前記帰属度再計算支援手段は、帰属度
    再計算結果を用いた場合の帰属度計算結果を求めて、前
    記帰属度計算結果保持手段に保持されている帰属度計算
    結果との比較を行った結果を提示し、前記帰属度計算基
    準更新手段は、前記帰属度再計算制御手段が、ユーザか
    ら帰属度再計算結果の利用指示を受けた場合にのみ、前
    記帰属度計算基準保持手段の内容を更新することを特徴
    とする請求項22に記載の帰属度計算基準作成装置。
  24. 【請求項24】 前記帰属度再計算支援手段は、各文書
    の持つ各素性に対して、各分類への帰属度計算における
    有効度を計算して提示し、前記帰属度計算基準再計算制
    御手段は、各分類への帰属度計算において各素性を使用
    するかどうかを指定することを特徴とする請求項23に
    記載の帰属度計算基準作成装置。
  25. 【請求項25】 前記帰属度計算基準再計算制御手段
    は、各分類への帰属度計算において使用すると指定した
    素性のうち、値として数値を取る素性について素性ごと
    に重みを指定し、前記帰属度計算手段は、帰属度計算に
    おいて、当該素性の未編集の値の代わりに、前記の重み
    を掛けた値を用いることを特徴とする請求項24に記載
    の帰属度計算基準作成装置。
  26. 【請求項26】 前記帰属度再計算支援手段は、各素性
    に対して、前記文書集合保持手段に保持されている各文
    書の取る値の分布及び、前記評価結果保持手段に評価結
    果が保持されている文書に対する当該素性の各分類への
    帰属度評価結果別の分布とを視覚的に提示することを特
    徴とする請求項25に記載の帰属度計算基準作成装置。
  27. 【請求項27】 前記帰属度再計算支援手段は、各分類
    への帰属度計算において各素性値の未編集値に掛ける重
    みの候補を提示し、重みの候補が一定の値以下になるよ
    うな素性に関しては、帰属度計算において利用しないこ
    とを提案することを特徴とする請求項25に記載の帰属
    度計算基準作成装置。
  28. 【請求項28】 前記帰属度再計算支援手段は、前記帰
    属度再計算制御手段から重みの範囲が指定されると、帰
    属度計算において素性値の未編集値に掛ける重みの候補
    が指定された範囲内にある素性の一覧を提示し、前記帰
    属度再計算制御手段は、ユーザの指示を受けて前記一覧
    から重みを編集する素性を選択することを特徴とする請
    求項25に記載の帰属度計算基準作成装置。
  29. 【請求項29】 前記帰属度再計算支援手段は、重みの
    候補の値に関する素性名の分布を視覚的に表示し、ユー
    ザがGUIを使って前記表示から素性名を選択すると、
    前記帰属度再計算制御手段は、それに従って重みを編集
    する素性を選択することを特徴とする請求項25に記載
    の帰属度計算基準作成装置。
  30. 【請求項30】 一つ以上の文書を含む文書データベー
    スと、前記文書データベースに対する文書検索条件をユ
    ーザから取得する検索条件指定手段と、ユーザの指定に
    従って前記文書データベースに対して文書検索を行い、
    その結果に基づいて前記文書データベースから文書集合
    を取得する文書検索手段とを備え、前記文書検索手段に
    より取得された文書集合を前記文書集合保持手段に保持
    する文書集合とすることを特徴とする請求項1に記載の
    帰属度計算基準作成装置。
  31. 【請求項31】 前記検索条件指定手段から、帰属度計
    算基準作成の対象となる各分類ごとに独自の検索条件を
    指定して前記文書集合保持手段に保持する文書集合を変
    え、当該分類の帰属度計算基準として、当該検索条件を
    充足しない文書に対しては当該分類に対する帰属度を0
    にするという制約つきで帰属度計算基準の作成を行うこ
    とを特徴とする請求項30に記載の帰属度計算基準作成
    装置。
  32. 【請求項32】 前記検索条件指定手段から、帰属度計
    算基準作成の対象となる各分類ごとに、一つ以上の検索
    条件を指定し、各検索条件に従って前記文書検索手段が
    得た文書集合を基に、当該分類の帰属度計算基準とし
    て、当該検索条件を充足しない文書に対しては当該分類
    に対する帰属度を0にするという制約つきで帰属度計算
    基準の作成を行い、作成された各帰属度計算基準を、最
    大値をとるという演算によって結合した結果を当該分類
    に対する帰属度計算基準とすることを特徴とする請求項
    30に記載の帰属度計算基準作成装置。
  33. 【請求項33】 前記検索条件指定手段から、帰属度計
    算基準作成の対象となる一つの分類に対して異なる検索
    条件を指定し、各検索条件に従って前記文書検索手段が
    得た文書集合を基に、当該分類に関する複数の帰属度計
    算基準の作成を行い、作成された各帰属度計算基準を適
    用して計算した帰属度の最大値を当該分類に対する帰属
    度とすることを特徴とする請求項30に記載の帰属度計
    算基準作成装置。
  34. 【請求項34】 請求項1から請求項33のいずれかの
    帰属度計算基準作成装置により作成した帰属度計算基準
    を保持した帰属度計算基準保持手段と、帰属度計算対象
    となる文書を取得する文書入力手段と、前記文書入力手
    段により取得された文書に対して、前記帰属度計算基準
    保持手段に保持された帰属度計算基準を適用して各分類
    に対する帰属度を計算する帰属度計算手段と、前記帰属
    度計算手段により計算された帰属度を出力する帰属度出
    力手段を備え、与えられた文書の、各分類への帰属度計
    算結果をもって文書分類結果とすることを特徴とする文
    書分類装置。
  35. 【請求項35】 一つ以上の文書からなる文書集合中の
    各文書に対して、一つ以上の分類からなる分類集合中の
    各分類への帰属度を計算するための帰属度計算基準を作
    成する帰属度計算基準作成方法であって、 帰属度計算基準の初期値を適用して各文書の各分類に対
    する帰属度を計算し、この帰属度計算結果から、評価対
    象選択基準に基づいて評価の対象を選択し、選択した評
    価対象の文書に対して当該分類に対する帰属度を付与し
    直し、この帰属度計算結果に対する評価結果を利用して
    帰属度計算基準を再計算し、再計算した帰属度計算基準
    によって元の帰属度計算基準を更新し、さらに、更新し
    た帰属度計算基準を適用して各文書の各分類に対する帰
    属度を計算し、以降の手順を繰り返すことにより帰属度
    計算基準を作成することを特徴とする帰属度計算基準作
    成方法。
  36. 【請求項36】 前記評価対象選択基準として、帰属度
    計算で用いた各文書の素性の名と素性値の範囲とを指定
    し、指定した素性に関する素性値が指定した範囲内にあ
    る文書に対する帰属度計算結果を評価対象とすることを
    特徴とする請求項35に記載の帰属度計算基準作成方
    法。
  37. 【請求項37】 前記評価対象選択基準として、文書集
    合と、素性値として数値を取る素性に対する素性値の範
    囲とを指定し、前記範囲を、素性値から前記文書集合に
    おける当該素性の素性値の平均を引いた値を前記文書集
    合における当該素性の素性値の標準偏差で割った値によ
    り指定することを特徴とする請求項35に記載の帰属度
    計算基準作成方法。
  38. 【請求項38】 前記帰属度を、確率を示す確信度によ
    って付与し、前記評価対象を確信度で指定することを特
    徴とする請求項35に記載の帰属度計算基準作成方法。
  39. 【請求項39】 所定文書との類似度が高く且つ付与さ
    れた帰属度が前記文書と異なる文書の帰属度計算結果、
    または、所定文書との類似度が低く且つ付与された帰属
    度が前記文書と一致する文書の帰属度計算結果を前記評
    価対象とすることを特徴とする請求項35に記載の帰属
    度計算基準作成方法。
  40. 【請求項40】 前記帰属度計算基準の更新の前後で付
    与された帰属度が異なる文書の帰属度計算結果を前記評
    価対象とすることを特徴とする請求項35に記載の帰属
    度計算基準作成方法。
  41. 【請求項41】 素性に対する重みとして、分類への帰
    属度が一定の範囲内にあると評価された文書の当該素性
    の値から求めた標準偏差の逆数を採用し、前記分類への
    帰属度計算において、値として数値を取る素性の未編集
    値に前記重みを掛けることを特徴とする請求項35に記
    載の帰属度計算基準作成方法。
  42. 【請求項42】 素性に対する重みとして、分類への帰
    属度が一定の範囲内にあると評価された文書の集合甲の
    当該素性の値から求めた平均と、当該分類への帰属度が
    当該範囲内にないと評価された文書の集合乙の当該素性
    の値から求めた平均との差の絶対値を、甲の当該素性の
    値から求めた標準偏差で割った値を採用し、前記分類へ
    の帰属度計算において、値として数値を取る素性の未編
    集値に前記重みを掛けることを特徴とする請求項35に
    記載の帰属度計算基準作成方法。
  43. 【請求項43】 前記重みが所定値以下の素性を、帰属
    度計算基準から除外することを特徴とする請求項42に
    記載の帰属度計算基準作成方法。
  44. 【請求項44】 素性に対する重みとして、分類への帰
    属度が一定の範囲内にあると評価された文書の集合甲の
    当該素性の値から求めた平均と、当該分類への帰属度が
    当該範囲内にないと評価された文書の集合乙の当該素性
    の値から求めた平均との差の絶対値を、甲の当該素性の
    値から求めた標準偏差と乙の当該素性の値から求めた標
    準偏差との和で割った値を採用し、前記分類への帰属度
    計算において、値として数値を取る素性の未編集値に前
    記重みを掛けることを特徴とする請求項35に記載の帰
    属度計算基準作成方法。
JP2000401947A 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置 Expired - Lifetime JP3701197B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000401947A JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置
US10/028,816 US6704905B2 (en) 2000-12-28 2001-12-28 Text classifying parameter generator and a text classifier using the generated parameter
CNB011454083A CN1193310C (zh) 2000-12-28 2001-12-28 文本分类参数生成器和使用所生成参数的文本分类器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000401947A JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置

Publications (2)

Publication Number Publication Date
JP2002202983A true JP2002202983A (ja) 2002-07-19
JP3701197B2 JP3701197B2 (ja) 2005-09-28

Family

ID=18866314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000401947A Expired - Lifetime JP3701197B2 (ja) 2000-12-28 2000-12-28 分類への帰属度計算基準作成方法及び装置

Country Status (3)

Country Link
US (1) US6704905B2 (ja)
JP (1) JP3701197B2 (ja)
CN (1) CN1193310C (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119507A1 (ja) * 2004-06-03 2005-12-15 Japan Science And Technology Agency 行列の高速高精度特異値分解方法、プログラムおよび装置
JP2007305048A (ja) * 2006-05-15 2007-11-22 Mitsubishi Electric Information Systems Corp 影響因子推定装置及び影響因子推定プログラム
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
JP2009129279A (ja) * 2007-11-26 2009-06-11 Yahoo Japan Corp 機械学習装置及び機械学習方法
JP2009251796A (ja) * 2008-04-03 2009-10-29 Asahi Kasei Corp 文書データ区分装置およびその方法とプログラム
JP2009271671A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US8135704B2 (en) 2005-03-11 2012-03-13 Yahoo! Inc. System and method for listing data acquisition
JP2013511084A (ja) * 2009-11-10 2013-03-28 アリババ グループ ホールディング リミテッド クラスタ化方法およびシステム
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2023018716A (ja) * 2021-07-28 2023-02-09 カシオ計算機株式会社 情報処理方法、情報処理装置及びプログラム

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
US8132250B2 (en) * 2002-03-08 2012-03-06 Mcafee, Inc. Message profiling systems and methods
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
JP2004094728A (ja) * 2002-09-02 2004-03-25 Hitachi Ltd 情報配信方法、その装置及びそのプログラム
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US20050137912A1 (en) * 2003-03-31 2005-06-23 Rao R. B. Systems and methods for automated classification of health insurance claims to predict claim outcome
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
US7333985B2 (en) * 2003-12-15 2008-02-19 Microsoft Corporation Dynamic content clustering
US8635690B2 (en) 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
US7984047B2 (en) * 2005-04-12 2011-07-19 Jesse David Sukman System for extracting relevant data from an intellectual property database
US9792359B2 (en) 2005-04-29 2017-10-17 Entit Software Llc Providing training information for training a categorizer
US9047290B1 (en) * 2005-04-29 2015-06-02 Hewlett-Packard Development Company, L.P. Computing a quantification measure associated with cases in a category
US7593904B1 (en) 2005-06-30 2009-09-22 Hewlett-Packard Development Company, L.P. Effecting action to address an issue associated with a category based on information that enables ranking of categories
US8719073B1 (en) 2005-08-25 2014-05-06 Hewlett-Packard Development Company, L.P. Producing a measure regarding cases associated with an issue after one or more events have occurred
US8612844B1 (en) * 2005-09-09 2013-12-17 Apple Inc. Sniffing hypertext content to determine type
US7797282B1 (en) 2005-09-29 2010-09-14 Hewlett-Packard Development Company, L.P. System and method for modifying a training set
US7437338B1 (en) 2006-03-21 2008-10-14 Hewlett-Packard Development Company, L.P. Providing information regarding a trend based on output of a categorizer
US7668789B1 (en) 2006-03-30 2010-02-23 Hewlett-Packard Development Company, L.P. Comparing distributions of cases over groups of categories
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US8214497B2 (en) 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
US8700675B2 (en) * 2007-02-19 2014-04-15 Sony Corporation Contents space forming apparatus, method of the same, computer, program, and storage media
US9374242B2 (en) * 2007-11-08 2016-06-21 Invention Science Fund I, Llc Using evaluations of tentative message content
US20080320088A1 (en) * 2007-06-19 2008-12-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Helping valuable message content pass apparent message filtering
US8984133B2 (en) * 2007-06-19 2015-03-17 The Invention Science Fund I, Llc Providing treatment-indicative feedback dependent on putative content treatment
US8682982B2 (en) * 2007-06-19 2014-03-25 The Invention Science Fund I, Llc Preliminary destination-dependent evaluation of message content
US8065404B2 (en) * 2007-08-31 2011-11-22 The Invention Science Fund I, Llc Layering destination-dependent content handling guidance
US8082225B2 (en) * 2007-08-31 2011-12-20 The Invention Science Fund I, Llc Using destination-dependent criteria to guide data transmission decisions
JP2009093552A (ja) * 2007-10-11 2009-04-30 Fujitsu Ltd 情報収集プログラム、情報収集装置及び方法
US7930389B2 (en) * 2007-11-20 2011-04-19 The Invention Science Fund I, Llc Adaptive filtering of annotated messages or the like
US8364693B2 (en) * 2008-06-13 2013-01-29 News Distribution Network, Inc. Searching, sorting, and displaying video clips and sound files by relevance
US20100325372A1 (en) * 2009-06-17 2010-12-23 Housty Oswin E Parallel training of dynamic random access memory channel controllers
US9213756B2 (en) * 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US8140567B2 (en) 2010-04-13 2012-03-20 Microsoft Corporation Measuring entity extraction complexity
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
CN102033949B (zh) * 2010-12-23 2012-02-29 南京财经大学 基于修正的k近邻文本分类方法
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
CN102622373B (zh) * 2011-01-31 2013-12-11 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
US9323769B2 (en) * 2011-03-23 2016-04-26 Novell, Inc. Positional relationships between groups of files
JP5714472B2 (ja) * 2011-11-30 2015-05-07 株式会社日立製作所 製品情報管理装置、方法、及びプログラム
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US9589184B1 (en) * 2012-08-16 2017-03-07 Groupon, Inc. Method, apparatus, and computer program product for classification of documents
KR102110281B1 (ko) * 2012-09-07 2020-05-13 아메리칸 케미칼 소사이어티 자동화된 작성물 평가기
US20140280152A1 (en) * 2013-03-15 2014-09-18 Samsung Electronics Co., Ltd. Computing system with relationship model mechanism and method of operation thereof
US20150006545A1 (en) * 2013-06-27 2015-01-01 Kodak Alaris Inc. System for ranking and selecting events in media collections
JP6292911B2 (ja) * 2014-02-07 2018-03-14 キヤノン株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
US10089589B2 (en) * 2015-01-30 2018-10-02 Sap Se Intelligent threshold editor
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN108090218B (zh) * 2017-12-29 2022-08-23 北京百度网讯科技有限公司 基于深度强化学习的对话系统生成方法和装置
CN108628971B (zh) * 2018-04-24 2021-11-12 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN113555110B (zh) * 2021-07-15 2024-06-25 北京鹰瞳科技发展股份有限公司 一种训练多疾病转诊模型的方法及设备
FR3137472A1 (fr) * 2022-07-01 2024-01-05 Orange Procédé d’appariement d’un ensemble à évaluer et d’une liste de référence, moteur d’appariement et programme d’ordinateur correspondants.

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5671333A (en) 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
JPH1153394A (ja) 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194723A (ja) 1998-12-25 2000-07-14 Just Syst Corp 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119507A1 (ja) * 2004-06-03 2005-12-15 Japan Science And Technology Agency 行列の高速高精度特異値分解方法、プログラムおよび装置
US8306361B2 (en) 2004-06-03 2012-11-06 Japan Science And Technology Agency High-speed high-accuracy matrix singular value decomposition method, program, and device
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US8135704B2 (en) 2005-03-11 2012-03-13 Yahoo! Inc. System and method for listing data acquisition
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
JP2007305048A (ja) * 2006-05-15 2007-11-22 Mitsubishi Electric Information Systems Corp 影響因子推定装置及び影響因子推定プログラム
JP4495691B2 (ja) * 2006-05-15 2010-07-07 三菱電機インフォメーションシステムズ株式会社 影響因子推定装置及び影響因子推定プログラム
JP2009129279A (ja) * 2007-11-26 2009-06-11 Yahoo Japan Corp 機械学習装置及び機械学習方法
JP2009251796A (ja) * 2008-04-03 2009-10-29 Asahi Kasei Corp 文書データ区分装置およびその方法とプログラム
JP2009271671A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2013511084A (ja) * 2009-11-10 2013-03-28 アリババ グループ ホールディング リミテッド クラスタ化方法およびシステム
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
US9563652B2 (en) 2015-03-31 2017-02-07 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
JPWO2016157467A1 (ja) * 2015-03-31 2017-04-27 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
US10204153B2 (en) 2015-03-31 2019-02-12 Fronteo, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2023018716A (ja) * 2021-07-28 2023-02-09 カシオ計算機株式会社 情報処理方法、情報処理装置及びプログラム
JP7351324B2 (ja) 2021-07-28 2023-09-27 カシオ計算機株式会社 情報処理方法、情報処理装置及びプログラム

Also Published As

Publication number Publication date
US20020152051A1 (en) 2002-10-17
CN1363899A (zh) 2002-08-14
CN1193310C (zh) 2005-03-16
JP3701197B2 (ja) 2005-09-28
US6704905B2 (en) 2004-03-09

Similar Documents

Publication Publication Date Title
JP2002202983A (ja) 分類への帰属度計算基準作成方法及び装置
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
WO2019195042A1 (en) Intelligent question answering using machine reading comprehension
CN109299245B (zh) 知识点召回的方法和装置
US7110996B2 (en) System and method for determining numerical representations for categorical data fields and data processing system
CN103425727B (zh) 上下文语音查询扩大方法和系统
US20060155688A1 (en) Database search system
CN110120001B (zh) 一种基于知识图谱库与记忆曲线结合提分的方法及系统
US20060155687A1 (en) Portable database search agent processing system
US11538567B2 (en) Expert report editor
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
WO2016076790A1 (en) Method and system for profiling job candidates
JPH05101107A (ja) 適合率を用いた絞り込みデータ検索装置及び方法
JP2007148118A (ja) 音声対話システム
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
JP5189413B2 (ja) 音声データ検索システム
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法
US8271485B2 (en) Reply generation apparatus and method and program for causing computer to function as reply generating apparatus
CN111914154B (zh) 一种智能搜索导向系统及方法
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2023060984A (ja) 情報処理装置および情報処理方法
US20090037487A1 (en) Prioritizing documents
JP2005128961A (ja) データベース検索装置、データベース検索方法およびプログラム
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100722

Year of fee payment: 5