JPH0816620A - データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム - Google Patents

データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム

Info

Publication number
JPH0816620A
JPH0816620A JP7022697A JP2269795A JPH0816620A JP H0816620 A JPH0816620 A JP H0816620A JP 7022697 A JP7022697 A JP 7022697A JP 2269795 A JP2269795 A JP 2269795A JP H0816620 A JPH0816620 A JP H0816620A
Authority
JP
Japan
Prior art keywords
data
character string
keyword
derivative word
classification tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7022697A
Other languages
English (en)
Inventor
Yasufumi Sakakibara
康文 榊原
Takeshi Koshiba
健史 小柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7022697A priority Critical patent/JPH0816620A/ja
Priority to US08/408,304 priority patent/US5787426A/en
Publication of JPH0816620A publication Critical patent/JPH0816620A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 適切なキーワード又は派生語を自動的に抽出
可能とし、また、辞書を必要とすることなく、キーワー
ド又は派生語の抽出結果に基づいて文字データを分類す
ることにより適切なシソーラスを構築可能とすることを
目的とする。 【構成】 手段1は、文字データの事例の集合から、派
生語代表文字列候補を生成する。手段2は、派生語代表
文字列候補に関する分類属性の評価を文字データの事例
に対して行うことで、派生語代表文字列を1つの内部ノ
ードにラベル付けする。また、手段2は、選択された派
生語代表文字列に関する分類属性の評価を文字データの
事例に対して行うことで、各文字データの事例を順次分
類し、データ分類木3を生成する。手段4は、データ分
類木3を用いて新たな文字データを分類する。手段5
は、所望の文字データのデータ分類木3上でのパス上に
存在する各内部ノードにラベル付けられた派生語代表文
字列又はその派生語代表文字列の否定語の連語として、
所望の文字データのシソーラスを自動的に構築する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワード又は派生語
の抽出技術、及びその技術により抽出されたキーワード
又は派生語の関係を示すデータ分類木に基づいて文字デ
ータを分類すると共にシソーラスを構築する技術に関す
る。
【0002】
【従来の技術】近年、コンピュータ技術の導入によっ
て、文献などの文書型データベースや、フルテキスト型
データベースが普及してきており、大量の文字データが
電子化されつつある。そして、これに伴い、文字データ
の情報検索技術の確立が要求されている。
【0003】このような文字データの検索においては、
キーワード又は派生語を用いて検索を行う方法が最も一
般的である。この場合に、効率が良く正確で洩れの少な
い検索を行うためには、キーワード又は派生語を適切に
抽出し、それに基づいて文字データを分類することによ
り、文字データの類語・関連語の辞書すなわちシソーラ
スを構築する作業が必要とされる。
【0004】しかし、これらの作業は高度に専門的な行
為であり、かなりの労力を必要とする。そこで、これら
の作業をコンピュータによって支援するための、キーワ
ード又は派生語を抽出する技術、それに基づいて文字デ
ータを分類する技術、及びその分類結果に基づいてシソ
ーラスを自動的に構築する技術の確立が期待されてい
る。
【0005】まず、キーワード又は派生語を抽出するた
めの従来技術としては、下記に示されるものがある。 (a) 文字データによって表現される文書を単語単位に区
切って書き、区切られた単語の中からキーワード又は派
生語が抽出される。
【0006】(b) 文字データを分類するためのキーワー
ド又は派生語等の属性(分類属性と呼ぶ)を、データベ
ース・辞書等から引用する方法。 この方法では、分類に用いられるキーワード又は派生語
等が辞書等から適当に選択されて利用される。この方法
は、キーワード又は派生語を抽出するための最も一般的
な方法である。
【0007】(c) キーワード又は派生語等の分類属性を
文字データ内における各語句の出現頻度に基づいて抽出
する方法。 この方法では、重要な語句が文字データによって表現さ
れる文書中で使用される頻度が多いという前提に基づい
て、各語句の発生回数の累計が算出され、その結果に基
づいて各語句の重要度が決定され、キーワード又は派生
語等の分類属性が抽出される。
【0008】(d) 分類属性に不要な属性が排除された残
りの分類属性を利用する方法。 この方法では、利用者が作成した不要属性リスト(例え
ば、不要語辞書)が参照されることにより、分類属性候
補(例えばキーワード候補)から不要属性(例えば、不
要語)が排除される。
【0009】次に、キーワード又は派生語の抽出結果に
基づいて文字データを分類することにより、シソーラス
を構築するための従来技術としては、下記に示されるも
のがある。
【0010】(A) 自然言語処理技術を用いて抽出された
キーワード又は派生語の意味解析を行い、それぞれのキ
ーワード又は派生語の間の関連を見つける方法。 (B) 抽出されたキーワード又は派生語に対して統計的処
理を行い、それぞれのキーワード又は派生語の間の相関
を見つける方法。
【0011】この方法は、同一の文の中に現れるキーワ
ードの間には関連があるという前提に基づいている。
【0012】
【発明が解決しようとする課題】しかし、前述したキー
ワード又は派生語を抽出するための(a) 〜(d) の従来技
術のうち、まず、(a) の従来技術は、次のような問題点
を有している。
【0013】(i) 文書を単語単位に区切って記述する作
業が人手によって行われるため、データ分類の自動化が
実質的に不可能である。次に、前述したキーワード又は
派生語を抽出するための(b) の従来技術は、次のような
問題点を有している。
【0014】(i) 抽出されるべきキーワード又は派生語
の中にデータベース又は辞書に登録されていないものが
ある場合、そのようなキーワード又は派生語を抽出する
ことが困難である。
【0015】(ii) キーワード又は派生語に関する高度
に専門的な知識を駆使してデータベース又は辞書を予め
作成する必要があり、多くの労力を要する。 (iii) キーワード又は派生語の性質が、例えば日本語か
ら英語というように変化した場合に、データベース又は
辞書を作り直す、あるいは入手しなおす必要がある。
【0016】続いて、前述したキーワード又は派生語を
抽出するための(c) の従来技術は、次のような問題点を
有している。 (i) 発生頻度が高い語句には、一般的で分類属性に適さ
ない語句(例えば、"the" 又は"and" など)が多く、逆
に、発生頻度が低くても重要な語句は少なくない。特
に、専門分野においてはこの傾向が強い。従って、(c)
の従来技術では、上述のような事実が正しく評価されな
い。
【0017】最後に、前述したキーワード又は派生語を
抽出するための(d) の従来技術は、次のような問題点を
有している。 (i) 1つの属性が分類属性に必要であるか不要であるか
という判断は利用者の直観に依存しているため、分類属
性の抽出結果の中に検索意図と合わない情報が多く含ま
れている可能性がある。
【0018】(ii) 不要と判断され易い属性には一般的
なものが多いため、非常に多くの属性が抽出されて、処
理効率に悪影響が及ぶ恐れがある。一方、キーワード又
は派生語の抽出結果に基づいて文字データを分類するこ
とによってシソーラスを構築するための前述した(A) と
(B) の従来技術のうち、まず、(A) の従来技術は、次の
ような問題点を有している。
【0019】(i) 自然言語処理技術はまだ発展途上段階
にあり、実用的なレベルにはない。また、自然言語処理
は、大きな辞書を必要とするため、シソーラスという辞
書を構築するために、また辞書を必要とするという矛盾
を含んでいる。
【0020】更に、(B) の従来技術は、次のような問題
点を有している。 (i) 同一の文の中に現れるキーワードには、類語という
意味において全く関係のないものが多く含まれている。
また、異なる文の中に現れるキーワードにも、関連のあ
るものは多い。このように、統計的処理だけを行って類
語や関連語を見つけるという方法には、限界がある。
【0021】本発明は、適切なキーワード又は派生語を
自動的に抽出可能とし、また、辞書を必要とすることな
く、キーワード又は派生語の抽出結果に基づいて文字デ
ータを分類することにより適切なシソーラスを構築可能
とすることを目的とする。
【0022】
【課題を解決するための手段】図1は、本発明の第1の
態様のブロック図である。まず、図1の派生語代表文字
列候補生成手段1は、系列的に表現できる文字データの
事例の集合から、文字データを分類するための派生語代
表文字列候補を生成する。
【0023】この派生語代表文字列候補生成手段1は、
例えば、文字データの事例の集合から、所定の範囲内の
文字数を有する全ての部分文字列を、派生語代表文字列
候補として生成する、図1のデータ分類木生成手段2
は、文字データの事例のそれぞれが生成された派生語代
表文字列候補又はその派生語を部分文字列として含むか
否かという分類属性の評価を行いながらその評価結果に
基づいて生成された派生語代表文字列候補から派生語代
表文字列を選択して1つの内部ノードにラベル付けす
る。これと共に、データ分類木生成手段2は、文字デー
タの事例のそれぞれが選択された派生語代表文字列又は
その派生語を部分文字列として含むか否かという分類属
性の評価を行いながらその評価結果に基づいて文字デー
タの事例のそれぞれを順次分類してゆく。この結果、デ
ータ分類木生成手段2は、内部ノードに派生語代表文字
列がラベル付けされた二進木であるデータ分類木3を生
成する。
【0024】このデータ分類木生成手段2は、例えば、
派生語代表文字列候補又は派生語代表文字列の語尾を所
定の規則に従って変形する変形手段と、その変形手段に
よって得られる文字列を派生語代表文字列候補又は派生
語代表文字列の派生語として抽出する派生語抽出手段と
を有する。
【0025】また、上述のデータ分類木生成手段2は、
例えば、次の(a) 〜(f) の処理を実行することによりデ
ータ分類木3を生成する、 (a) 入力された文字データの事例の集合において、文字
データの事例に付加されているラベルが同一でない割合
が所定の閾値以下であるか、又は、入力された文字デー
タの事例の集合における事例の数が所定の閾値以下であ
るかを判定する。
【0026】(b) (a) の条件が満足される場合に、入力
された文字データの事例の集合において最も事例数が多
い同一のラベルを、データ分類木3の1つの葉ノードの
ラベルとして出力して処理を停止する。
【0027】(c) (a) の条件が満足されない場合に、生
成された派生語代表文字列の候補のうちから、入力され
た文字データの事例のそれぞれが前記生成された派生語
代表文字列候補又はその派生語を部分文字列として含む
か否かという分類属性の評価を含む所定の評価の結果が
最も良く、かつ最長の派生語代表文字列候補を派生語代
表文字列として選択する。
【0028】(d) 文字データの事例のそれぞれが(c) の
処理により選択された派生語代表文字列又はその派生語
を部分文字列として含むか否かという分類属性の評価を
行いながらその評価結果に基づいて文字データの事例の
それぞれを順次分類する。
【0029】(e) (d) の処理により分類された文字デー
タの事例の集合のそれぞれにつき、(a) 〜(d) の処理を
再帰的に繰り返し実行する。 (f) (e) の処理が停止した時点で、(c) の処理により選
択された派生語代表文字列が1つの内部ノードのラベル
として設定され、(e) の処理の結果出力されるラベル又
はラベル群がその1つの内部ノードに接続する部分木の
ラベル又はラベル群として設定されたラベル又はラベル
群を出力して処理を停止する。
【0030】次に、図1のデータ分類手段4は、データ
分類木3上の1つの内部ノードである根ノードを起点と
して、データ分類木3上の各内部ノードにおいて、入力
された文字データがその内部ノードにラベル付けされて
いる派生語代表文字列又はその派生語を部分文字列とし
て含むか否かという分類属性の評価を行いながらその評
価結果に基づいて分岐動作を実行し、最終的に到達した
データ分類木3上の葉ノードにラベル付けされている分
類クラスに、入力された文字データを分類する。
【0031】図1のシソーラス構築手段5は、所望の文
字データの事例のシソーラスを、データ分類木3上の根
ノードから所望の文字データの事例が属する分類クラス
がラベル付けされたデータ分類木3上の葉ノードに至る
パス上に存在するそれぞれの内部ノードにラベル付けら
れた派生語代表文字列又はその派生語代表文字列の否定
語の連語として構築する。
【0032】続いて、図2は、本発明の第2の態様のブ
ロック図である。まず、図2のキーワード候補生成手段
1′は、系列的に表現できる文字データの事例の集合か
ら、文字データを分類するためのキーワード候補を生成
する。キーワードには、派生語代表文字列も含まれる。
【0033】図2の選言生成手段6は、生成されたキー
ワード候補、又はそのキーワード候補の論理和としてキ
ーワード候補の選言を生成する。このキーワード候補生
成手段1′は、例えば、文字データの事例の集合から、
所定の範囲内の文字数を有する全ての部分文字列を、キ
ーワード候補として生成する、図2のデータ分類木生成
手段2′は、文字データの事例のそれぞれが生成された
キーワード候補の選言を構成する少なくとも1つのキー
ワード候補と適合するか否かという分類属性の評価を行
いながらその評価結果に基づき生成されたキーワード候
補の選言からキーワードの選言を選択して1つの内部ノ
ードにラベル付けする。これと共に、データ分類木生成
手段2′は、文字データの事例のそれぞれが選択された
キーワードの選言を構成する少なくとも1つのキーワー
ドと適合するか否かという分類属性の評価を行いながら
その評価結果に基づいて文字データの事例のそれぞれを
順次分類してゆく。この結果、データ分類木生成手段
2′は、内部ノードにキーワードの選言がラベル付けさ
れた二進木であるデータ分類木3′を生成する。
【0034】このデータ分類木生成手段2′は、例えば
次の(a)'〜(f)'の処理を実行することによりデータ分類
木3′を生成する、 (a)'入力された文字データの事例の集合において、文字
データの事例に付加されているラベルが同一でない割合
が所定の閾値以下であるか、又は、入力された文字デー
タの事例の集合における事例の数が所定の閾値以下であ
るかを判定する。
【0035】(b)'(a)'の条件が満足される場合に、入力
された文字データの事例の集合において最も事例数が多
い同一のラベルを、データ分類木3′の1つの葉ノード
のラベルとして出力して処理を停止する。
【0036】(c)'(a)'の条件が満足されない場合に、生
成されたキーワード候補の選言のうちから、入力された
文字データの事例のそれぞれが生成されたキーワード候
補の選言を構成する少なくとも1つのキーワード候補に
適合するか否かという分類属性の評価を含む所定の評価
の結果が最も良く、かつ最長のキーワード候補の選言を
キーワードの選言として選択する。
【0037】(d)'文字データの事例のそれぞれが(c)'の
処理により選択されたキーワードの選言を構成する少な
くとも1つのキーワードに適合するか否かという分類属
性の評価を行いながらその評価結果に基づいて文字デー
タの事例のそれぞれを順次分類する。
【0038】(e)'(d)'の処理により分類された文字デー
タの事例の集合のそれぞれにつき、(a)'〜(d)'の処理を
再帰的に繰り返し実行する。 (f)'(e)'の処理が停止した時点で、(c)'の処理により選
択されたキーワードの選言が1つの内部ノードのラベル
として設定され、(e)'の処理の結果出力されるラベル又
はラベル群がその1つの内部ノードに接続する部分木の
ラベル又はラベル群として設定されたラベル又はラベル
群を出力して処理を停止する。
【0039】次に、図2のデータ分類手段4′は、デー
タ分類木3′上の1つの内部ノードである根ノードを起
点として、データ分類木3′上の各内部ノードにおい
て、入力された文字データがその内部ノードにラベル付
けされているキーワードの選言を構成する少なくとも1
つのキーワードに適合するか否かという分類属性の評価
を行いながらその評価結果に基づき分岐動作を実行し、
最終的に到達したデータ分類木3′上の葉ノードにラベ
ル付けされている分類クラスに、入力された文字データ
を分類する。
【0040】図2のシソーラス構築手段5′は、データ
分類木3′上の根ノード又は各内部ノードにラベル付け
されたキーワードの選言毎に、その選言を構成するキー
ワード群をシソーラスとして構築する。
【0041】ここで、“所定の文字データがキーワード
(キーワード候補)と適合するか否か”とは、キーワー
ド(キーワード候補)が通常の文字列である場合には、
所定の文字データがキーワードを部分文字列として含む
か否かということを意味し、キーワード(キーワード候
補)が例えば派生語代表文字列(派生語代表文字列候
補)である場合には、所定の文字データがキーワード又
はその派生語を部分文字列として含むか否かということ
を意味する。
【0042】
【作用】まず、本発明の第1の態様の作用について説明
する。図1の派生語代表文字列候補生成手段1は、学習
の対象となる文字データの事例の集合から、派生語代表
文字列候補を生成する。この場合に、意味処理等のデー
タに特有の性質に関する処理は行われずに、例えば、文
字データの事例の集合から所定の範囲内の文字数を有す
る全ての部分文字列が派生語代表文字列候補として生成
されることが可能となる。
【0043】次に、図1のデータ分類木生成手段2は、
派生語代表文字列候補に関する分類属性の評価を文字デ
ータの事例に対して行うことにより、適切な派生語代表
文字列を1つの内部ノードにラベル付けすることができ
る。これと共に、データ分類木生成手段2は、選択され
た派生語代表文字列に関する分類属性の評価を文字デー
タの事例に対して行うことによって、文字データの事例
のそれぞれを順次分類し、データ分類木3を生成するこ
とができる。派生語代表文字列(派生語代表文字列候
補)に関する分類属性の評価では、派生語代表文字列
(派生語代表文字列候補)だけではなく、その文字列の
派生語が、文字データの事例に部分文字列として含まれ
るか否かが評価される。この派生語は、本発明において
は、例えば、派生語代表文字列(派生語代表文字列候
補)の語尾を所定の規則に従って変形することにより、
意味関係等を検査することなく形式的に決定することが
できる。また、データ分類木生成手段2は、例えば、前
述した(a) 〜(f) の処理をコンピュータ等を用いて実行
することにより、データ分類木3を自動的に生成するこ
とができる。
【0044】上述のようにしてデータ分類木3が生成さ
れることにより、文法的知識を利用したり、意味処理を
利用することなく、派生語代表文字列を抽出することが
できる。
【0045】次に、図1のデータ分類手段4は、生成さ
れたデータ分類木3上のパスを根ノードから順にたどる
ことにより、最終的に到達したデータ分類木3上の葉ノ
ードにラベル付けされている分類クラスに、入力された
新しい未知の文字データの事例を分類することができ
る。
【0046】また、図1のシソーラス構築手段5は、所
望の文字データの事例のシソーラスを、その文字データ
がデータ分類木3上でたどるパス上に存在するそれぞれ
の内部ノードにラベル付けられた派生語代表文字列又は
その派生語代表文字列の否定語の連語として自動的に構
築することができる。
【0047】次に、本発明の第2の態様の作用について
説明する。図2のキーワード候補生成手段1′は、学習
の対象となる文字データの事例の集合から、キーワード
候補を生成する。この場合、本発明の第1の態様の場合
と同様に、意味処理等のデータに特有の性質に関する処
理は行われずに、例えば、文字データの事例の集合から
所定の範囲内の文字数を有する全ての部分文字列がキー
ワード候補として生成されることが可能となる。
【0048】次に、図2の選言生成手段6は、生成され
たキーワード候補、又はそのキーワード候補の論理和と
してキーワード候補の選言を生成する。次に、図2のデ
ータ分類木生成手段2′は、キーワード候補の選言に関
する分類属性の評価を文字データの事例に対して行うこ
とにより、適切なキーワードの選言を1つの内部ノード
にラベル付けすることができる。これと共に、データ分
類木生成手段2′は、選択されたキーワードの選言に関
する分類属性の評価を文字データの事例に対して行うこ
とによって、文字データの事例のそれぞれを順次分類
し、データ分類木3′を生成することができる。このよ
うなキーワードの選言がデータ分類木3′の根ノード又
は内部ノードにラベル付けされることによって、生成さ
れるデータ分類木3′上で、関連語同士を適切にグルー
プ化することができ、データ分類処理の性能を向上させ
ることができる。また、本発明の第1の態様の場合と同
様に、データ分類木生成手段2′は、例えば、前述した
(a)'〜(f)'の処理をコンピュータ等を用いて実行するこ
とにより、データ分類木3′を自動的に生成することが
できる。
【0049】上述のようにしてデータ分類木3′が生成
されることにより、文法的知識を利用したり、意味処理
を利用することなく、キーワードの選言を抽出すること
ができる。
【0050】次に、図2のデータ分類手段4′は、図1
のデータ分類手段4と同様に、生成されたデータ分類木
3′上のパスを根ノードから順にたどることによって、
最終的に到達したデータ分類木3′上の葉ノードにラベ
ル付けされている分類クラスに、入力された新しい未知
の文字データの事例を分類することができる。
【0051】また、図2のシソーラス構築手段5′は、
データ分類木3′上の根ノード又は各内部ノードにラベ
ル付けされたキーワードの選言毎に、その選言を構成す
るキーワード群をシソーラスとして簡単に構築すること
ができる。
【0052】
【実施例】以下、図面を参照しながら、本発明の実施例
につき詳細に説明する。第1の実施例 まず、本発明の第1の実施例の前提となる、決定木を用
いたデータ分類方法について説明する(ここでは、上記
決定木をデータ分類木という)。
【0053】このデータ分類木は、図3に示されるよう
に、各内部ノード(図3の矩形で囲まれた部分)に派生
語を代表する文字列(以下、派生語代表文字列という)
がラベル付けされ、各葉ノード(図3の楕円形で囲まれ
た部分)にデータの分類クラスがラベル付けされた二分
木である。
【0054】このデータ分類木を用いて各事例を分類
し、分類クラスを決定するためには、次のような方法が
用いられる。図3において、1つの事例は、データ分類
木の根ノード(“theory of ”がラベル付けされた内部
ノード)から1つの葉ノードへの、ユニークなパスを決
定する。即ち、各内部ノードにおいて、与えられた事例
が、そのノードにラベル付けされている派生語代表文字
列又はそれの派生語を部分文字列として含んでいるなら
ば(即ち、同じ派生語関係にある文字列を含んでいるな
らば)、与えられた事例は右の枝をたどる。逆に、各内
部ノードにおいて、与えられた事例が、そのノードにラ
ベル付けされている派生語代表文字列又はそれの派生語
を部分文字列として含んでいなければ、与えられた事例
は左の枝をたどる。
【0055】上述の処理の結果、与えられた事例がたど
り着いた葉ノードにラベル付けされているクラス名が、
その事例が分類されるクラスとなる。例えば、図3にお
いて、与えられた事例がラベル“theory of ”を部分文
字列として含んでいるなら、その事例は、そのラベルが
付加された内部ノードから出力される右の枝をたどり、
更に、上記事例がラベル“algebra ”を部分文字列とし
て含んでいるなら、その事例は、そのラベルが付加され
た内部ノードから出力される右の枝をたどる。この結
果、“数理科学”が、上記事例が分類されるクラスとな
る。
【0056】また、上記事例がラベル“algebra ”を部
分文字列として含んでいないなら、その事例は、そのラ
ベルが付加された内部ノードから出力される左の枝をた
どることになる。この結果、“情報”が、上記事例が分
類されるクラスとなる。
【0057】上述のように、図3に示されるようなデー
タ分類木は、入力された文字列に派生語代表文字列又は
その派生語が含まれるか否かという分類属性を処理する
決定木ということができる。
【0058】図4は、本発明の第1の実施例のシステム
の全体構成を示す図である。まず、データ入力部11
は、ユーザに、事例とその分類クラスの組の集合を、入
力させる。
【0059】例えば、入力データが図書データである場
合には、“Advanced InformationSystem Engineerin
g”、“システムの科学”のように、本の表題とその分
類項目の組が、データ入力部11から入力される。
【0060】以下の説明では、上述した1つ1つの組を
“事例(example )”、組の集合を“サンプル”と呼
ぶ。派生語代表文字列候補生成部12は、サンプルの中
の事例から、派生語代表文字列の候補を生成する。この
派生語代表文字列候補生成部12は、指定された長さの
範囲内の文字列の全ての部分文字列を、派生語代表文字
列の候補として生成する。このような候補生成方法が採
用されることにより、意味処理等の、データに特有な性
質に関する処理を行う必要がなくなり、意味処理のため
の辞書や、品詞判定を行うためのパーザを用意する必要
がなくなる。このため、システムの軽量化を図ることが
できる。
【0061】データ分類木生成/分類部13は、データ
分類木生成部13aと、データ分類部13bとから構成
されている。まず、データ分類木生成部13aは、派生
語代表文字列候補生成部12で生成された派生語代表文
字列の候補のリストを用いて、後述するアルゴリズムに
基づいて、データ分類木を学習する。
【0062】データ分類木生成部13aによって用いら
れるアルゴリズムは、下記の文献で提案された手法を用
いてデータ分類木を生成するものである。Yasubumi Sak
akibara. "Algorithmic learning of formal language
and decision tree." Research Report IIAS-RR-91-22
E, IIAS-SIS, FUJITSU LABORATORIESLTD., 1991.上述の
アルゴリズムは、以下に示される特徴を有している。
【0063】 このアルゴリズムで扱われる分類属性
は、派生語代表文字列の候補リストに含まれる文字列又
はそれの派生語を含むか否かという属性である。 分類属性を分類するための評価関数Evalとして、以
下に示される文献に記載されるエントロピー関数が使用
される。
【0064】J.Ross Quinlan. "Induction of decision
tree." Machine Learning 1(1),PP.81-106,1986 このアルゴリズムは、サンプル中のデータに含まれ
るノイズ(正確には分類ノイズ)に強い。
【0065】上記アルゴリズムでは、データの分類時に
発生する分類ノイズと呼ばれる分類エラーに対処するた
め、ノイズの割合に対応する枝刈り値(後述する)が入
力され、その枝刈り値に基づいてデータの分類が制御さ
れる。
【0066】なお、上述のアルゴリズムにおいて使用さ
れる評価関数Evalは、上述のに示される評価関数に限
定されるものではなく、その他の関数を利用することも
できる。
【0067】次に、問い合せ部(Query )14は、デー
タ分類木生成部13aによるデータ分類木の学習のため
のトレーニングデータとしては用いられなかった新しい
事例について、データ分類部13bに対して問合せを行
う。データ分類部13bは、問い合わせ部14から問い
合わせがあると、上記データ分類木に従って、問合せが
行われた新しい事例を分類し、その分類経過及び分類結
果を、利用者に提示する。
【0068】シソーラス構築部15は、データ分類木生
成部13aにおいて学習されたデータ分類木を利用し
て、分類クラスと、所定の文字列又はそれの派生語を含
むか否かという分類属性と、の関係を抽出することによ
り、シソーラスを構築し、それを利用者に提示する。
【0069】第1の実施例では、1つの事例のシソーラ
スは、上記データ分類木上の根ノードから上記事例が属
する分類クラスがラベル付けされた上記データ分類木上
の葉ノードに至るパス上に存在する内部ノードにラベル
付けられた派生語代表文字列又はその派生語代表文字列
の否定語の連語として表現される。この場合、上記事例
が、上記各内部ノードから出力される右の枝をたどると
き(即ち、同じ派生語関係にある文字列を含んでいるな
らば)、その内部ノードにラベル付けされた派生語代表
文字列が上記連語に挿入され、上記各内部ノードから出
力される左の枝をたどるとき(即ち、同じ派生語関係に
ある文字列を含んでいないならば)、その内部ノードに
ラベル付けされた派生語代表文字列の否定語が上記連語
に挿入される。
【0070】次に、図4の構成を有する第1の実施例の
システムにおける派生語代表文字列の抽出処理、及びそ
の抽出結果に基づくデータ分類処理について説明する。
第1の実施例において用いられたサンプルは、ある図書
館に保管されている566冊の洋書の本の表題とその本
の分類項目を組とするデータである。図5は、第1の実
施例において入力されるサンプルの一例(一部分)を示
している。各事例は、“分類項目の番号!表題”という
データフォーマットを有している。図6は、上述の図書
館で使用されている分類項目のリストとそれに関する説
明を示した図である。
【0071】図5に示されるサンプルの各事例が図4の
入力部11によって派生語代表文字列候補生成部12に
入力されると、派生語代表文字列候補生成部12は、入
力された事例の表題に含まれる所定の文字数以内の文字
数を有する部分文字列を、派生語代表文字列候補として
出力する。
【0072】図7は、派生語代表文字列候補生成部12
によって生成された、図5に示されるサンプルの各事例
に対応する派生語代表文字列候補の一例を示す図であ
る。第1の実施例では、4文字以上30文字以下の文字
数を有する部分文字列が、派生語代表文字列候補として
出力される。
【0073】以上のようにして、文法的知識を利用する
ことなく、派生語代表文字列候補を生成することができ
る。次に、データ分類木生成部13aは、派生語代表文
字列候補生成部12によって生成された派生語代表文字
列候補のリストを用いて、次のようにしてデータ分類木
を学習する。
【0074】ここでまず、データ分類木の学習アルゴリ
ズムにおいて使用される派生語関係を、意味的にではな
く形式的に定義する方法について説明する。文字列u,
vが互いに派生語であるという関係が定義される場合、
本実施例においては、辞書等を参照して派生語が定義さ
れるのではなく、文字列のマッチングに基づいて、下記
に示されるように派生語が定義される。
【0075】(a) len(min(u,v)) <4のとき、即ち、文
字列u,vのうち、短い方の文字列の長さが4文字より
短いときには、u=vの場合に、文字列u,vは互いに
派生語である。ここで、文字列u,vのうち、min(u,v)
は短い方の文字列であり、max(u,v)は長い方の文字列で
ある。また、len(min(u,v)) は、文字列min(u,v)の文字
数を表わす。
【0076】(b) len(min(u,v)) =4のとき、即ち、文
字列u,vのうち、短い方の文字列の長さが4文字に等
しいときは、次の数1式が成立する場合に、文字列u,
vは互いに派生語である。。
【0077】
【数1】
【0078】ここで、εは長さ0の文字(文字がないこ
とを示す)、Σは長さ1の任意の文字の集合、Σ2 は長
さ2の任意の文字列の集合、Σ3 は長さ3の任意の文字
列の集合、Σ* は長さが任意の文字列の集合である。従
って、文字列u,vの長さが共に4文字である場合、又
は文字列u,vのうち長さが4文字である短い方の文字
列の末尾に長さが1又は2文字の任意の文字列tを加え
て得られる長さが5又は6文字の文字列が他方の文字列
と等しい場合に、文字列u,vは互いに派生語である。
【0079】(c) len(min(u,v)) >4のとき、即ち、文
字列u,vのうち、短い方の文字列の長さが4文字より
大きいときは、次の数2式の関係を有する文字列s′に
対し、下記の数3式の関係が成り立つ場合に、文字列
u,vは互いに派生語である。
【0080】
【数2】
【0081】
【数3】
【0082】これより、文字列u,vのうち短い方の文
字列ls=en(min(u,v))の末尾から長さ1文字の任意の
文字列aを取り去って得られる文字列s′が他方の文字
列と等しい場合、又は文字列s′の末尾に長さが1、
2、又は3文字の任意の文字列tを加えて得られる文字
列が他方の文字列と等しい場合に、文字列u,vは互い
に派生語である。
【0083】以上の派生語の定義によれば、例えば、"b
ook"と"books" は互いに派生語であり、"study" と"stu
dies" も互いに派生語となる。このような派生語の形式
的な定義を用いることにより、データ分類木の学習過程
において、適切な派生語を自動的に抽出することが可能
となる。
【0084】次に、データ分類木の学習アルゴリズムに
おいて用いられる二値属性である分類属性を以下のよう
に定義する。即ち、文字列vに関する分類属性をKv
表記したとき、分類属性Kv は、長さが任意の文字列の
集合Σ* の要素を引数とする述語である。つまり、長さ
が任意の文字列の集合Σ* に含まれる文字列uに対する
文字列vに関する分類属性をKv (u)としたとき、K
v (u)は以下の意味を有する。
【0085】Kv (u)が真 ←→“文字列uは、文字
列v又はそれと互いに派生語関係にある文字列を、部分
文字列として含んでいる。”例えば、文字列u=“Adva
ncedInformation System Engineering"に対する文字列
v=“Information System"に関する分類属性K
v (u)は、真となる。
【0086】図4のデータ分類木生成部13aは、前述
した派生語の定義と、上述した分類属性の定義に基づい
て、派生語代表文字列候補生成部12で生成された派生
語代表文字列候補について、次のようにして派生語代表
文字列を選択し、データ分類木を生成する。
【0087】図8は、第1の実施例における学習アルゴ
リズムを示す動作フローチャートである。図8の動作フ
ローチャートにおいては、以下に示される記法を使用す
ることとする。
【0088】事例 : ペア(w,l)を意味する。
wは文字列、lは分類クラスのラベルである。図5の例
においては、表題が文字列wに対応し、分類項目の番号
が分類クラスのラベルlに対応する。
【0089】サンプル : Sと表記する。これは、事
例の有限集合である。 また、記号Xv 1 ,Xv 0 ,及びD(X,c)を、以下
の数4式、数5式、及び数6式で定義する。
【0090】
【数4】
【0091】
【数5】
【0092】
【数6】
【0093】即ち、文字列vに関する分類属性K
v (w)が真であるサンプルXに含まれる事例(w,
l)の集合をXv 1 と定義し、分類属性Kv (w)が偽
であるサンプルXに含まれる事例(w,l)の集合がX
v 0 と定義される。換言するならば、文字列v又はそれ
と派生語関係にある文字列を部分文字列として含むサン
プルX中の事例(w,l)の集合がXv 1 、文字列v又
はそれと派生語関係にある文字列を部分文字列として含
まないサンプルX中の事例(w,l)の集合がXv 0
定義される。また、サンプルXにおいて、分類クラスの
ラベルlがラベルcに等しい事例(w,l)の数をD
(X,c)と定義する。
【0094】更に、図8の動作フローチャートにおいて
使用される評価関数Eval(v,X)を、次の数7式で定
義する。
【0095】
【数7】
【0096】ここで、mは分類クラスの数、l1
2 ,・・・,lm は各分類クラスのラベルであり、|
X|,|Xv 1 |,|Xv 0 |は、各集合X,Xv 1
v 0 に属する事例の数である。
【0097】以下に、図8の動作フローチャートの処理
について順次説明する。まず、図4の派生語代表文字列
候補生成部12は、ユーザがデータ入力部11を用いて
入力したサンプルSから派生語代表文字列候補vを抽出
する。その場合に、派生語代表文字列候補生成部12
は、同時に入力される文字列長に関するパラメータKl
min とKlmax (本実施例では、Klmin =4、Kl
max =30に設定される)を用いることにより、以下の
数8式で示されるようにして、派生語代表文字列候補v
の集合κを抽出する。
【0098】
【数8】
【0099】即ち、入力されたサンプルSに含まれる事
例(w,l)の文字列w(図5の表題が対応する)の部
分文字列であって、文字数がKlmin 以上Klmax 以下
(本実施例では4文字以上30文字以下)である部分文
字列vの集合κが、派生語代表文字列候補のリストとし
て抽出される。
【0100】これにより、図7又は図8に例示されるa
b,bc,cd,・・・のように、派生語代表文字列候
補の集合κが抽出される。このように、派生語代表文字
列候補生成部12は、文法的知識を利用することなく、
指定された長さの部分文字列の全てをキーワードの派生
語代表文字列の候補として生成するため、特別な辞書や
パーザを必要としない。
【0101】次に、データ分類木生成部13aは、副手
続き CalcTree(S,κ,nsrt,prnrt)として、以下に示され
るステップS1〜S11の処理を実行することにより、
その副手続きCalcTreeの計算結果としてデータ分類木T
を生成する。以下の説明においては、入力サンプルSを
サンプルXに置き換えて説明する。
【0102】副手続きCalcTreeは、入力サンプルに属す
る事例の集合を、後述するようにして選択された派生語
代表文字列又はそれと派生語関係にある文字列を部分文
字列として含む事例の集合と含まない集合とに分類する
手続きである。これにより、1つの派生語代表文字列を
ラベルとする1つの内部ノード(図3の矩形で囲まれた
部分)に接続する1組の二分木が生成される。この場合
に、副手続きCalcTreeでは、二分された2つの集合のそ
れぞれを入力とする2つの副手続きCalcTreeが再帰的に
呼び出され、それらの副手続きCalcTreeの中で更に2つ
の副手続きCalcTreeが再帰的に呼び出される。この結
果、データ分類木の枝が葉ノード(図3の楕円形で囲ま
れた部分)に向かって次々に延びてゆく。そして、再帰
的に呼び出された下位の副手続きCalcTreeが順次終了
し、最初に呼び出された副手続きCalcTreeが終了する時
点において、最初の入力サンプルX=Sに対応するデー
タ分類木Tが完成することになる。
【0103】副手続き CalcTree(X,κ,nsrt,prnrt)にお
いて、まず、ステップS1〜S6の一連の処理は、入力
サンプルXに属する事例の集合を更に分類することを中
止するための処理である。
【0104】始めに、データ分類木生成部13aは、ス
テップS1において、次式を満たすラベルT=liが存
在するか否かを検査する。
【0105】
【数9】
【0106】ここで、数6式より、D(X,li)は、
入力サンプルXにおいて、それぞれの事例(w,l)に
付加されている分類クラスのラベルl(図5の分類項目
の番号が対応する)が或るラベルliに等しい事例の数
を示している。従って、ステップS1では、入力サンプ
ルXにおいて、同一のラベルliをそれぞれの分類クラ
スのラベルとして有する事例以外の事例の数の割合が所
定の割合nsrt以下となるか否か、換言するならば、入力
サンプルXに属する事例の大部分が共通のラベルliを
有するか否かが検査される。上述した割合nsrtは、分類
ノイズと呼ばれ、本実施例では、nsrt=0.2である。
【0107】この結果、ステップS1の条件が満足され
ステップS2の判定がYESとなると、データ分類木生
成部13aは、ステップS3で、入力サンプルXに属す
る事例の集合を更に分類すること、即ち、データ分類木
の枝を更に延ばすことを中止し、副手続きCalcTreeの計
算結果としてT=liを出力し、その副手続きを停止す
る。この値T=liが、1つの葉ノード(図3の楕円形
で囲まれた部分)にラベル付けされた分類クラス名とな
る。
【0108】一方、ステップS1の条件が満足されずス
テップS2の判定がNOとなると、データ分類木生成部
13aは、ステップS4において、入力サンプルXの数
が所定値prnrt 以下となるか否か、換言するならば、あ
る枝に分類された入力サンプルXの数が少なくなってし
まったか否かを検査する。上述した所定値prnrt は、枝
刈り値と呼ばれ、本実施例では、prnrt=5 である。
【0109】この結果、ステップS4の条件が満足され
ステップS5の判定がYESとなると、データ分類木生
成部13aは、ステップS6で、入力サンプルXに属す
る事例の集合を更に分類すること、即ち、データ分類木
の枝を更に延ばすことを中止し、次式を満たすラベルl
k、即ち、同一のラベルをそれぞれの分類クラスのラベ
ルとして有する事例の数が最大となるようなラベルlk
を、副手続きCalcTreeの計算結果Tとして出力し、その
副手続きを停止する。
【0110】
【数10】
【0111】この値T=lkも、ステップS3の場合と
同様に、1つの葉ノード(図3の楕円形で囲まれた部
分)にラベル付けされた分類クラス名となる。ステップ
S2及びS5の条件が共に満足されず、ステップS5の
判定がNOであった場合、即ち、入力サンプルXに属す
る事例の集合を更に分類すべきである(データ分類木の
枝を更に延ばすべきである)と判定したならば、データ
分類木生成部13aは、ステップS7〜S13の一連の
処理を実行する。
【0112】始めに、データ分類木生成部13aは、ス
テップS7で、入力サンプルXに対してinformative で
ある全ての派生語代表文字列候補vにつき、前述した数
7式で定義される評価関数Eval(v,X)を計算する。
ここで、“入力サンプルXに対してinformative な派生
語代表文字列候補v”とは、入力サンプルXに属する事
例(w,l)の集合が、分類属性Kv (w)が真である
集合Xv 1 (数4式)と、分類属性Kv (w)が偽であ
る集合Xv 0 (数5式)とに分類される場合において、
集合Xv 1 が空(empty )でなくかつ集合Xv 0 も空で
ないような派生語代表文字列候補vをいう。また、評価
関数Eval(v,X)の計算においては、入力サンプルX
に属する事例の集合を、派生語代表文字列候補vに関す
る分類属性Kv が真である集合Xv 1 と分類属性Kv
偽である集合Xv 0 とに二分する処理を実行する必要が
ある(数7式参照)。この分割処理は、後述するステッ
プS11の具体的な処理であるケース1〜5の処理とし
て実行される。
【0113】次に、データ分類木生成部13aは、ステ
ップS8で、上述のステップS7において、サンプルX
に対してinformative な派生語代表文字列候補vが存在
したか否かを判定する。
【0114】そして、サンプルXに対してinformative
な派生語代表文字列候補vが存在せずステップS8の判
定がNOとなった場合には、データ分類木生成部13a
は、ステップS9で、副手続きCalcTreeの計算結果Tと
して、エラー“bad ”を出力する。即ち、この場合に
は、適切なデータ分類木Tが生成されなかったことにな
る。
【0115】一方、サンプルXに対してinformative な
派生語代表文字列候補vが存在しステップS8の判定が
YESとなった場合は、データ分類木生成部13aは、
ステップS10において、ステップS7で計算された評
価関数Eval(v,X)の値が最小でかつ文字列長が最大
である派生語代表文字列候補vを、派生語代表文字列v
cとして選択する。
【0116】続いて、データ分類木生成部13aは、ス
テップS11で、派生語代表文字列候補vの集合κから
上述の派生語代表文字列vcを取り除くと共に、現在実
行している副手続きCalcTreeにおける入力サンプルXに
属する事例の集合を、派生語代表文字列vcに関する分
類属性Kvcが真である集合Xvc 1 と分類属性Kvcが偽で
ある集合Xvc 0 とに二分する。即ち、このステップS1
1においては、入力サンプルXに属する事例の集合が、
派生語代表文字列vc又はそれと派生語関係にある文字
列を部分文字列として含む集合Xvc 1 と、派生語代表文
字列vc又はそれと派生語関係にある文字列を部分文字
列として含まない集合Xvc 0 とに分類される。
【0117】このステップS11の処理について、前述
した派生語の形式的な定義に基づいて、より具体的に説
明する。第1のケースとして、派生語代表文字列vcの
長さが4文字より短い場合は、前述した派生語の形式的
な定義(a) に基づいて、入力サンプルXに属する事例の
集合が、派生語代表文字列vcそのものを部分文字列と
して含む集合Xvc 1 と、それ以外の集合Xvc 0 とに分類
される。
【0118】第2のケースとして、派生語代表文字列v
cの長さが4文字に等しい場合は、前述した派生語の形
式的な定義(b) 及び(a) に基づいて、入力サンプルXに
属する事例の集合が、派生語代表文字列vc、或いは、
文字列vcの末尾に長さが1又は2文字の任意の文字列
を加えて得られる文字列、を部分文字列として含む集合
vc 1 と、それ以外の集合Xvc 0 とに分類される。
【0119】第3のケースとして、派生語代表文字列v
cの長さが5文字に等しい場合は、前述した派生語の形
式的な定義(c) 及び(b) に基づいて、入力サンプルXに
属する事例の集合が、派生語代表文字列vc、或いは、
文字列vcの末尾から1文字を取り去って得られる文字
列、或いは、文字列vcの末尾から1文字を取り去って
得られる文字列に長さが1、2、又は3文字の任意の文
字列を加えて得られる文字列、を部分文字列として含む
集合Xvc 1 と、それ以外の集合Xvc 0 とに分類される。
【0120】第4のケースとして、派生語代表文字列v
cの長さが6文字に等しい場合は、前述した派生語の形
式的な定義(c) 及び(b) に基づいて、入力サンプルXに
属する事例の集合が、派生語代表文字列vc、或いは、
文字列vcの末尾から1文字を取り去って得られる文字
列に長さが1、2又は3文字の任意の文字列を加えて得
られる文字列、或いは、文字列vcの末尾から2文字を
取り去って得られる文字列、或いは、文字列vcの末尾
から2文字を取り去って得られる文字列に長さが1文字
の任意の文字列を加えて得られる文字列、を部分文字列
として含む集合Xvc 1 と、それ以外の集合Xvc 0 とに分
類される。
【0121】第5のケースとして、派生語代表文字列v
cの長さが7文字以上の場合は、前述した派生語の形式
的な定義(c) に基づいて、入力サンプルXに属する事例
の集合が、派生語代表文字列vc、或いは、文字列vc
の末尾から3文字を取り去って得られる文字列に長さが
1文字の任意の文字列を加えて得られる文字列、或い
は、文字列vcの末尾から2文字を取り去って得られる
文字列に長さが1文字の任意の文字列を加えて得られる
文字列、或いは、文字列vcの末尾から1文字を取り去
って得られる文字列、を部分文字列として含む集合Xvc
1 と、それ以外の集合Xvc 0 とに分類される。
【0122】上述したようにして、ステップS11で、
入力サンプルXに属する事例の集合が、派生語代表文字
列vc又はそれと派生語関係にある文字列を部分文字列
として含む集合Xvc 1 と、それ以外の集合Xvc 0 とに分
類される。これにより、1つの派生語代表文字列vcを
ラベルとする1つの内部ノード(図3の矩形で囲まれた
部分)に接続する1組の二分木が生成されたことにな
る。
【0123】続いて、データ分類木生成部13aは、ス
テップS12において、上述の2つの集合Xvc 1 とXvc
0 のそれぞれを入力とする2つの副手続きCalcTree(Xvc
1 ,κ,nsrt,prnrt)とCalcTree(Xvc 0 , κ,nsrt,prnrt)
とを再帰的に呼び出し、それらの手続きを実行する。
【0124】上述した2つの副手続きCalcTreeの計算結
果T0 及びT1 が定まると、データ分類木生成部13a
は、ステップS13で、派生語代表文字列vcが根ノー
ド又は内部ノードのラベル、T0 がそのノードに接続す
る左部分木のラベル(群)、T1 がそのノードに接続す
る右部分木のラベル(群)として設定された出力ラベル
群Tを出力し、ステップS13の処理が含まれる副手続
きを停止する。
【0125】この場合、上述のそれぞれの副手続きCalc
Treeの計算結果T0 又はT1 は、それぞれの副手続きCa
lcTreeがステップS1又はS6の処理が実行されること
によって停止した場合には、それぞれ、葉ノード(図3
の楕円形で囲まれた部分)にラベル付けされた分類クラ
ス名のラベルを示している。一方、それぞれの副手続き
CalcTreeがそれらが更に別の2つの副手続きCalcTreeを
再帰的に呼び出した後にステップS13の処理が実行さ
れることによって停止した場合には、上述の2つの副手
続きCalcTreeの計算結果T0 又はT1 は、それぞれ、根
ノード又は内部ノード(図3の矩形で囲まれた部分)に
ラベル付けされた派生語代表文字列と、そのノードに接
続する左部分木のラベル(群)と、そのノードに接続す
る左部分木のラベル(群)とからなる出力ラベル群を示
している。
【0126】従って、再帰的に呼び出された下位の副手
続きCalcTreeが順次停止し、最初に呼び出された副手続
きCalcTreeが終了する時点において、その副手続きCalc
Treeが出力する出力ラベル群が、最初の入力サンプルX
=Sに対応するデータ分類木Tを示していることにな
る。
【0127】上述したアルゴリズムに基づくデータ分類
木の生成動作を、図9の説明図に基づいて説明する。上
述のように、集合Xvc 1 とXvc 0 のそれぞれについて副
手続きCalcTreeの計算が実行された結果、まず、図8の
ステップS3又はS6で、集合Xvc 0 についてラベルT
0 が定まると、図9に示されるように、根ノードのラベ
ルが派生語代表文字列vc、左部分木を構成する葉ノー
ドのラベルがラベルT0 である、データ分類木の左側部
分が、生成される。
【0128】一方、集合Xvc 1 について副手続きCalcTr
eeの計算が実行されたときに、ステップS1とS4の条
件が共に満足されず、次の派生語代表文字列vc1 が次
の内部ノードのラベルとして選択されると、その選択さ
れた派生語代表文字列vc1集合Xvc 1 が更に二分さ
れ、その結果得られる2つの集合のそれぞれについて副
手続きCalcTreeが更に再帰的に実行される。
【0129】その結果、それらの再帰的に実行される副
手続きCalcTreeのステップS3又はS6で、集合Xvc 1
を二分して得られるそれぞれの集合について、ラベルT
10,T11が定まると、データ分類木の右側部分において
は、内部ノードのラベルが派生語代表文字列vc1 、そ
の内部ノードの左部分木を構成する葉ノードのラベルが
10、その内部ノードの右部分木を構成する葉ノードの
ラベルがT11となり、図9に示すデータ分類木が生成さ
れる。
【0130】以上のようにして図4のデータ分類木生成
部13aがデータ分類木を生成した後、利用者が、問い
合わせ部14を用いて、データ分類木生成部13aによ
るデータ分類木の学習のためのトレーニングデータとし
ては用いられなかった新しい事例について、データ分類
部13bに対して問合せを行う。これに対して、データ
分類部13bは、生成されているデータ分類木に従っ
て、問合せが行われた新しい事例を分類し、その分類経
過及び分類結果を、利用者に提示する。
【0131】これにより、利用者は、分類したい事例が
データ分類木により分類される過程を視覚的に把握する
ことができる。図10は、本実施例において、前述した
図5に示されるサンプルから生成されたデータ分類木の
一部を示す図である。
【0132】図10から明らかなように、空白文字が単
語の区切りであるという処理を行っていないにもかかわ
らず、単語として意味の通る文字列が抽出されているこ
とがわかる。
【0133】図11は、上述のようにして生成されたデ
ータ分類木により、5番の分類項目(生物科学、図6参
照)に分類される事例の一部を示したものである。図1
1において、第1番目の事例として示される本は明らか
に5番の分類項目に分類されるべきであり、予め与えら
れた分類項目番号2番は誤っている。この結果から、本
実施例では、分類ノイズが適切に処理されていることが
分かる。
【0134】また、上述のようにして生成されたデータ
分類木のパス情報に基づき、シソーラス構築部15は、
前述した図3に示される手法でデータ分類木をたどり、
各内部ノードにラベル付けされた派生語代表文字列又は
その派生語代表文字列の否定の連言として、シソーラス
を構築し、それを利用者に提示する。
【0135】即ち、1つの事例のシソーラスは、上記デ
ータ分類木上の根ノードからその事例が属する分類クラ
スがラベル付けされた上記データ分類木上の葉ノードに
至るパス上に存在する内部ノードにラベル付けられた派
生語代表文字列又はその派生語代表文字列の否定語の連
語として表現される。この場合、上記事例が、上記各内
部ノードから出力される右の枝をたどるとき(即ち、同
じ派生語関係にある文字列を含んでいるならば)、その
内部ノードにラベル付けされた派生語代表文字列が上記
連語に挿入され、上記各内部ノードから出力される左の
枝をたどるとき(即ち、同じ派生語関係にある文字列を
含んでいないならば)、その内部ノードにラベル付けさ
れた派生語代表文字列の否定語が上記連語に挿入され
る。
【0136】図10に示されるデータ分類木の例におい
ては、シソーラス構築部15は、事例“教育”及び事例
“生物”について、例えば、下記のようなシソーラスを
生成する。
【0137】教育・・・“DYNAMICAL"かつ“SYSTEMS"か
つ(“DYNAMICAL SYSTEMS"でない) 生物・・・“NEURAL"かつ(“NEURAL NETWORKS"ではな
い) 上記のように、分類クラスと派生語が、データに関して
の知識を利用せずに、適切に関係付けられていることが
分かる。第2の実施例 以下に、第2の実施例について説明する。第2の実施例
も、第1の実施例の場合と同様に、データ分類木を生成
する。第2の実施例が第1の実施例と異なる点は、デー
タ分類木の各ノードには、派生語代表文字列ではなく、
キーワードと、2つのキーワードを論理和によって結合
したものと、からなるキーワードの選言(Disjunction
)がラベル付けされる点である。
【0138】即ち、第2の実施例におけるデータ分類木
は、図12又は図13に示されるように、各内部ノード
(図12又は図13の矩形で囲まれた部分)にキーワー
ドの選言がラベル付けされ、各葉ノード(図12又は図
13の円形で囲まれた部分)にデータの分類クラスがラ
ベル付けされた二分木である。
【0139】このデータ分類木を用いて各事例を分類
し、分類クラスを決定するためには、次のような方法が
用いられる。例えば図12において、1つの事例は、デ
ータ分類木の根ノード(選言:“論文集∨講演集”がラ
ベル付けされたノード)から1つの葉ノードへの、ユニ
ークなパスを決定する。即ち、各内部ノードにおいて、
与えられた事例が、そのノードにラベル付けされている
キーワードの選言を構成する少なくとも1つのキーワー
ドを部分文字列として含んでいるならば、与えられた事
例は右の枝をたどる。逆に、各内部ノードにおいて、与
えられた事例が、そのノードにラベル付けされているキ
ーワードの選言を構成するキーワードを1つも部分文字
列として含んでいなければ、与えられた事例は左の枝を
たどる。
【0140】上述の処理の結果、与えられた事例がたど
り着いた葉ノードにラベル付けされているクラス名が、
その事例が分類されるクラスとなる。例えば、図12に
おいて、与えられた事例“離散事象システム研究会講演
論文集”は、選言:“論文集∨講演集”を構成するキー
ワード“論文集”を部分文字列として含んでいるため、
その事例は、その選言が付加された根ノードから出力さ
れる右の枝をたどり、更に上記事例は、選言:“システ
ム”を構成するキーワード“システム”を部分文字列と
して含んでいるため、その事例は、その選言が付加され
た内部ノードから出力される右の枝をたどる。この結
果、ラベル“4”が、上記事例が分類されるクラスとな
る。
【0141】また、例えば、図13で、与えられた事例
“aabcac”は、選言:“ab∨ca”を構成する
キーワード“ab”を部分文字列として含んでいるた
め、その事例は、その選言が付加された根ノードから出
力される右の枝をたどり、続いて、上記事例は、選言:
“bbc∨bab”を構成するキーワードを部分文字列
として含んでいないため、その事例は、その選言が付加
された内部ノードから出力される左の枝をたどり、更
に、上記事例は、選言:“cac”を構成するキーワー
ド“cac”を部分文字列として含んでいるため、その
事例は、その選言が付加された内部ノードから出力され
る右の枝をたどる。この結果、ラベル“1”が、上記事
例が分類されるクラスとなる。
【0142】上述したように、キーワードの選言が根ノ
ード又は内部ノードにラベル付けされ、データ分類木
が、入力された文字列にキーワードの選言を構成する少
なくとも1つのキーワードが含まれるか否かという分類
属性を処理することにより、より適切なデータ分類木を
生成することが可能となる。なお、第2の実施例では、
キーワードの選言が根ノード又は内部ノードのラベルと
して扱われるが、第1の実施例で扱われた派生語代表文
字列の選言が根ノード又は内部ノードのラベルとして扱
われてもよい。この場合には、データ分類木は、入力さ
れた文字列に派生語代表文字列の選言を構成する少なく
とも1つの派生語代表文字列又はその派生語が含まれる
か否かという分類属性を処理することになる。以下の記
載においては、説明の簡単のため、データ分類木は一般
的なキーワードの選言を扱うものとする。
【0143】図14は、本発明の第2の実施例のシステ
ムの全体構成を示す図である。第2の実施例に関する図
14と第1の実施例に関する前述した図4とで、ダッシ
ュ記号を除いて同じ番号が付与されている部分は、基本
的に、同様の機能を有する。図14の構成が図4の構成
と大きく異なる点は、キーワード候補からキーワード候
補の選言を生成し、それをデータ分類木生成部13a′
に入力させるための選言生成部21が新たに設けられて
いる点である。
【0144】まず、データ入力部11′は、第1の実施
例の場合と同様に、ユーザに、事例とその分類クラスの
組の集合を、入力させる。キーワード候補生成部12′
は、サンプルの中の事例から、キーワードの候補を生成
する。このキーワード候補生成部12′は、指定された
長さの範囲内の文字列の全ての部分文字列を、キーワー
ドの候補として生成する。
【0145】選言生成部21は、キーワード候補生成部
12′が生成したキーワード候補の選言を生成する。デ
ータ分類木生成/分類部13′は、データ分類木生成部
13a′と、データ分類部13b′とから構成されてい
る。
【0146】まず、データ分類木生成部13a′は、選
言生成部21で生成されたキーワード候補の選言のリス
トを用いて、後述するアルゴリズムに基づいて、データ
分類木を学習する。
【0147】次に、問い合せ部(Query )14′は、デ
ータ分類木生成部13a′によるデータ分類木の学習の
ためのトレーニングデータとしては用いられなかった新
しい事例につき、データ分類部13b′に対して問合せ
を行う。データ分類部13b′は、問い合わせ部14′
から問い合わせがあると、上記データ分類木に従って、
問合せが行われた新しい事例を分類し、その分類経過及
び分類結果を、利用者に提示する。
【0148】シソーラス構築部15′は、データ分類木
生成部13a′において学習されたデータ分類木の各根
ノード又は内部ノードにラベル付けされた選言毎に、そ
の選言を構成するキーワード群をシソーラスとして構築
し、それを利用者に提示する。このように、第2の実施
例では、データ分類木が生成された時点でシソーラスが
自動的に構築されることが特徴である。
【0149】次に、図14の構成を有する第2の実施例
のシステムにおけるキーワード候補の抽出処理、キーワ
ード候補の選言の抽出処理、及びその抽出結果に基づく
データ分類処理につき説明する。
【0150】第2の実施例において用いられるサンプル
及び分類項目のリストは、第1の実施例の場合と同様
の、図5及び図6に示されるようなものである。図5に
示されるサンプルの各事例が図14の入力部11′によ
ってキーワード候補生成部12′に入力されると、キー
ワード候補生成部12′は、図4の派生語代表文字列候
補生成部12の場合と同様に、入力された事例の表題に
含まれる所定の文字数以内の文字数を有する部分文字列
を、キーワード候補として出力する。この結果生成され
るキーワード候補は、第1の実施例の場合と同様の、図
7に示されるようなものである。なお、第2の実施例で
は、3文字以上12文字以下の文字数を有する部分文字
列が、キーワード候補として出力される。このようにし
て、文法的知識を利用することなく、キーワード候補を
生成することができる。
【0151】次に、選言生成部21は、キーワード候補
生成部12′が生成したキーワード候補の選言の集合
(リスト)を生成する。ここで、“キーワード候補の選
言の集合”とは、サンプルに属する事例から生成された
キーワード候補のうちの任意の2つを選択してそれらを
論理和によって結合したものと、各キーワード候補その
ものとからなる集合をいう。
【0152】続いて、データ分類木生成部13a′は、
選言生成部21によって生成されたキーワード候補の選
言のリストを用いて、次のようにしてデータ分類木を学
習する。
【0153】始めに、第2の実施例におけるデータ分類
木の学習アルゴリズムで用いられる分類属性を以下のよ
うに定義する。即ち、長さが任意の文字列の集合Σ*
含まれる文字列uに対する選言rに関する分類属性をK
r (u)としたとき、Kr (u)は以下の意味を有す
る。
【0154】Kr (u)が真 ←→“文字列uは、選言
rを構成するキーワードの少なくとも1つを、部分文字
列として含んでいる。”例えば、文字列u=“離散事象
システム研究会講演論文集”に対し、選言“論文集∨講
演集”に関する分類属性Kr (u)は、真となる(図1
2参照)。
【0155】図14のデータ分類木生成部13a′は、
上述した分類属性の定義に基づき、選言生成部21で生
成されたキーワード候補の選言について、次のようにし
てキーワードの選言を選択し、データ分類木を生成す
る。
【0156】図15は、第2の実施例における学習アル
ゴリズムを示す動作フローチャートである。第2の実施
例に関する図15と第1の実施例に関する前述した図8
とで、ダッシュ記号を除いて同じ番号が付与されている
ステップは、基本的に、同様の機能を有する。
【0157】図15の動作フローチャートにおいて、記
号Xr 1 及びXr 0 を、以下の数11式及び数12式で
定義する。
【0158】
【数11】
【0159】
【数12】
【0160】これらの記号Xr 1 及びXr 0 に関する定
義は、第1の実施例における前述した記号Xv 1 及びX
v 0 に関する数4式及び数5式による定義に対応してい
る。即ち、選言rに関する分類属性Kr (w)が真であ
るサンプルXに含まれる事例(w,l)の集合をXr 1
と定義し、分類属性Kr (w)が偽であるサンプルXに
含まれる事例(w,l)の集合がXr 0 と定義される。
換言するならば、選言rを構成する少なくとも1つのキ
ーワードを部分文字列として含むサンプルX中の事例
(w,l)の集合がXr 1 、選言rを構成するどのキー
ワードも部分文字列としては含まないサンプルX中の事
例(w,l)の集合がXr 0 と定義される。
【0161】また、記号D(X,c)は、第1の実施例
の場合と同様に、前述した数6式によって定義され、サ
ンプルXにおいて、分類クラスのラベルlがラベルcに
等しい事例(w,l)の数を示す。
【0162】更に、図15の動作フローチャートで使用
される評価関数Eval(r,X)を、次の数13式で定義
する。
【0163】
【数13】
【0164】この評価関数Eval(r,X)に関する定義
は、第1の実施例における前述した評価関数Eval(v,
X)に関する数7式による定義に対応している。以下
に、図15の動作フローチャートの処理について順次説
明する。
【0165】まず、図14のキーワード候補生成部1
2′は、ユーザがデータ入力部11′を用いて入力した
サンプルSからキーワード候補vを抽出する。その場
合、このキーワード候補生成部12′は、第1の実施例
における派生語代表文字列候補生成部12と同様にし
て、同時に入力される文字列長に関するパラメータKl
minとKlmax (第2の実施例では、Klmin =3、K
max =12に設定される)を用いることにより、前述
した数8式で示されるようにして、キーワード候補vの
集合κを抽出する。即ち、入力されたサンプルSに含ま
れる事例(w,l)の文字列w(図5の表題が対応す
る)の部分文字列であって、文字数がKlmin 以上Kl
max 以下(本実施例では4文字以上30文字以下)であ
る部分文字列vの集合κが、キーワード候補のリストと
して抽出される。
【0166】次に、図14の選言生成部21は、キーワ
ード候補生成部12′が生成したキーワード候補の選言
の集合(リスト)を、次の数14式に基づいて生成す
る。
【0167】
【数14】
【0168】即ち、上述の集合κに含まれるキーワード
候補のうちの任意の2つを選択してそれらを論理和によ
って結合したものと、各キーワード候補そのものとから
なる集合が、キーワード候補の選言の集合djとして生成
される。
【0169】次に、データ分類木生成部13a′は、副
手続き CalcTree(S,dj,nsrt,prnrt)として、以下に示さ
れるステップS1′〜S11′の処理を実行することに
よって、その副手続きCalcTreeの計算結果としてデータ
分類木Tを生成する。以下の説明においては、入力サン
プルSをサンプルXに置き換えて説明する。
【0170】副手続きCalcTreeは、入力サンプルに属す
る事例の集合を、後述するようにして選択されたキーワ
ードの選言を構成する少なくとも1つのキーワードを部
分文字列として含む事例の集合と含まない集合とに分割
する手続きである。これにより、1組のキーワードの選
言をラベルとする1つの内部ノード(図12又は図13
の矩形で囲まれた部分)に接続する1組の二分木が生成
される。この場合に、副手続きCalcTreeでは、第1の実
施例の場合と同様にして、二分された2つの集合のそれ
ぞれを入力とする2つの副手続きCalcTreeが再帰的に呼
び出され、それらの副手続きCalcTreeの中で更に2つの
副手続きCalcTreeが再帰的に呼び出される。この結果、
データ分類木の枝が葉ノード(図12又は図13の円形
で囲まれた部分)に向かって次々に延びてゆく。そし
て、再帰的に呼び出された下位の副手続きCalcTreeが順
次終了し、最初に呼び出された副手続きCalcTreeが終了
する時点において、最初の入力サンプルX=Sに対応す
るデータ分類木Tが完成することになる。
【0171】副手続き CalcTree(X,dj,nsrt,prnrt)にお
いて、始めに、ステップS1′〜S6′の一連の処理
は、第1の実施例に関する図8のステップS1〜S6の
一連の処理と同様の処理であり、入力サンプルXに属す
る事例の集合を更に分割することを中止するための処理
である。
【0172】ステップS2′及びS5′の条件が共に満
足されず、ステップS5′の判定がNOであった場合、
即ち、入力サンプルXに属する事例の集合を更に分割す
べきである(データ分類木の枝を更に延ばすべきであ
る)と判定したなら、データ分類木生成部13a′は、
ステップS7′〜S13′の一連の処理を実行する。
【0173】始めに、データ分類木生成部13a′は、
ステップS7′で、入力サンプルXに対してinformativ
e である全てのキーワード候補の選言rにつき、前述し
た数13式で定義される評価関数Eval(r,X)を計算
する。ここで、“入力サンプルXに対してinformative
なキーワード候補の選言r”とは、入力サンプルXに属
する事例(w,l)の集合が、分類属性Kr (w)が真
である集合Xr 1 (数11式)と、分類属性Kr (w)
が偽である集合Xr 0 (数12式)とに分類される場合
において、集合Xr 1 が空(empty )でなくかつ集合X
r 0 も空でないようなキーワード候補の選言rをいう。
また、評価関数Eval(r,X)の計算においては、入力
サンプルXに属する事例の集合を、キーワード候補の選
言rに関する分類属性Kr が真である集合Xr 1 と分類
属性Kr が偽である集合Xr 0 とに二分する処理を実行
する必要がある(数13式参照)。この分割処理は、後
述するステップS11′で実行される処理と同様の処理
として実行される。
【0174】次に、データ分類木生成部13a′は、ス
テップS8′で、上述のステップS7′において、サン
プルXに対してinformative なキーワード候補の選言r
が存在したか否かを判定する。
【0175】そして、サンプルXに対してinformative
なキーワード候補の選言rが存在せずステップS8′の
判定がNOとなった場合には、データ分類木生成部13
a′は、ステップS9′で、副手続きCalcTreeの計算結
果Tとして、エラー“bad ”を出力する。即ち、この場
合には、適切なデータ分類木Tが生成されなかったこと
になる。
【0176】一方、サンプルXに対しinformative なキ
ーワード候補の選言rが存在しステップS8′の判定が
YESとなった場合は、データ分類木生成部13a′
は、ステップS10′において、ステップS7′で計算
された評価関数Eval(r,X)の値が最小でかつ全体の
文字列長が最大であるキーワード候補の選言rを、キー
ワードの選言rgとして選択する。
【0177】続いて、データ分類木生成部13a′は、
ステップS11′で、キーワード候補の選言rの集合dj
から上述のキーワードの選言rgを取り除くと共に、現
在実行している副手続きCalcTreeにおける入力サンプル
Xに属する事例の集合を、キーワードの選言rgに関す
る分類属性Krgが真である集合Xrg 1 と分類属性Kvc
偽である集合Xrg 0 とに二分する。即ち、このステップ
S11′では、入力サンプルXに属する事例の集合が、
キーワードの選言rgを構成する少なくとも1つのキー
ワードを部分文字列として含む集合Xrg 1 と、キーワー
ドの選言rgを構成するどのキーワードも部分文字列と
しては含まない集合Xrg 0 とに分割される。
【0178】なお、選言は、キーワードの一例である派
生語代表文字列の選言であってもよい。この場合には、
第1の実施例で説明した図8のステップS11の処理と
同様のアルゴリズムに基づいて、入力Xに属する事例の
集合が、選言rgを構成する少なくとも1つの派生語代
表文字列又はその派生語を部分文字列として含む集合X
rg 1 と、選言rgを構成するどの派生語代表文字列又は
その派生語も部分文字列としては含まない集合Xrg 0
に分類されることになる。
【0179】上述したようにして、ステップS11′
で、入力サンプルXに属する事例の集合が、キーワード
の選言rgを構成する少なくとも1つのキーワードを部
分文字列として含む集合Xrg 1 と、それ以外の集合Xrg
0 とに分割される。この結果、1組のキーワードの選言
rgをラベルとする1つの内部ノード(図12又は図1
3の矩形で囲まれた部分)に接続する1組の二分木が生
成されたことになる。
【0180】続いて、データ分類木生成部13a′は、
ステップS12′で、上述した2つの集合Xrg 1 とXrg
0 のそれぞれを入力とする2つの副手続きCalcTree(Xrg
1 ,dj,nsrt,prnrt)とCalcTree(Xrg 0 , dj,nsrt,prnrt)
とを再帰的に呼び出し、それらの手続きを実行する。
【0181】上述した2つの副手続きCalcTreeの計算結
果T0 及びT1 が定まると、データ分類木生成部13
a′は、ステップS13′において、キーワードの選言
rgが根ノード又は内部ノードのラベル、T0 がそのノ
ードに接続する左部分木のラベル(群)、T1 がそのノ
ードに接続する右部分木のラベル(群)として設定され
た出力ラベル群Tを出力し、ステップS13′の処理が
含まれる副手続きを停止する。
【0182】この場合、上述のそれぞれの副手続きCalc
Treeの計算結果T0 又はT1 は、それぞれの副手続きCa
lcTreeがステップS1′又はS6′の処理が実行される
ことによって停止した場合には、それぞれ、葉ノード
(図12又は図13の円形で囲まれた部分)にラベル付
けされた分類クラス名のラベルを示している。一方、そ
れぞれの副手続きCalcTreeがそれらが更に別の2つの副
手続きCalcTreeを再帰的に呼び出した後にステップS1
3′の処理が実行されることによって停止した場合に
は、上述の2つの副手続きCalcTreeの計算結果T0 又は
1 は、それぞれ、根ノード又は内部ノード(図12又
は図13の矩形で囲まれた部分)にラベル付けされたキ
ーワードと、そのノードに接続する左部分木のラベル
(群)と、そのノードに接続する左部分木のラベル
(群)とからなる出力ラベル群とを示している。
【0183】従って、再帰的に呼び出された下位の副手
続きCalcTreeが順次停止し、最初に呼び出された副手続
きCalcTreeが終了する時点において、その副手続きCalc
Treeが出力する出力ラベル群が、最初の入力サンプルX
=Sに対応するデータ分類木Tを示していることにな
る。
【0184】以上のようにして図14のデータ分類木生
成部13a′がデータ分類木を生成した後、利用者が、
問い合わせ部14′を用いて、データ分類木生成部13
a′によるデータ分類木の学習のためのトレーニングデ
ータとしては用いられなかった新しい事例について、デ
ータ分類部13b′に対して問合せを行う。これに対し
て、データ分類部13b′は、生成されているデータ分
類木に従って、問合せが行われた新しい事例を分類し、
その分類経過及び分類結果を、利用者に提示する。
【0185】また、上述のようにして生成されたデータ
分類木について、シソーラス構築部15′は、根ノード
又は各内部ノードにラベル付けされた選言毎に、その選
言を構成するキーワード群をシソーラスとして構築し、
それを利用者に提示する。
【0186】即ち、根ノード又は内部ノードに2つのキ
ーワード群からなる選言がラベル付けされた場合、それ
らのラベル付けは、データ分類において選言を用いた方
が優位であるとの判断に基づいて行われたものである。
このことは、選言を構成する2つのキーワードの間には
強い関連があることを示している。従って、選言を構成
するキーワード群をシソーラスとして構築することは、
妥当である。
【0187】図16は、第2の実施例によって生成され
たデータ分類木から生成されるシソーラス(関連語)の
例を示した図である。このように、適切なシソーラスが
生成されていることがわかる。
【0188】以上説明した第2の実施例においては、デ
ータ分類木の各ノードにラベル付けされる選言として、
2つのキーワードを論理和によって結合したものが使用
されたが、システムの性能が許す限り、3つ以上の複数
のキーワードを論理和によって結合したものを選言とし
て用いてもよい。
【0189】
【発明の効果】本発明の第1の態様は、以下のような効
果を有する。まず、文字データの分類処理が文字データ
の文法構造等の性質が既知であるか未知であるかに依存
しないので、文字データに関する性質を用いた処理を行
う必要がなく、システムを軽量化することが可能とな
る。
【0190】次に、文字データの分類処理が文字データ
の性質を利用しないので、その分類処理が入力された文
字データの性質に依存せず、汎用性がある。また、分類
規則の表現であるデータ分類木がデータに関する意味を
構築しているので、データの文法構造や意味的なものが
未知な場合において、そのデータのシソーラスを自動的
に構築することが可能となる。
【0191】更に、派生語代表文字列の抽出に帰納的な
方法を用いているので、与えるデータの量が多い程、よ
り適切な派生語代表文字列を抽出することが可能とな
る。上述したように、本発明の第1の態様によれば、文
字データの検索を効率的に行うことができ、学習の結果
として出力されたデータ分類木によって、新しい未知の
文字データの事例を今までの学習結果に従って適切に分
類することが可能となる。
【0192】次に、本発明の第2の態様は、以下のよう
な効果を有する。まず、キーワードの選言がデータ分類
木の根ノード又は内部ノードにラベル付けされることに
より、生成されるデータ分類木上で、関連語同士を適切
にグループ化することができ、データ分類処理の性能を
向上させることが可能となる。
【0193】また、データ分類木上の根ノード又は各内
部ノードにラベル付けされたキーワードの選言毎に、そ
の選言を構成するキーワード群をシソーラスとして簡単
に構築することが可能となる。
【図面の簡単な説明】
【図1】本発明のブロック図(その1)である。
【図2】本発明のブロック図(その2)である。
【図3】第1の実施例におけるデータ分類木の一例を示
す図である。
【図4】本発明の第1の実施例のシステムの全体構成を
示す図である。
【図5】入力されるサンプルの一例(一部分)を示す図
である。
【図6】入力されるサンプルの分類項目のリストとそれ
に関する説明図である。
【図7】生成された派生語代表文字列候補の一例を示す
図である。
【図8】第1の実施例における学習アルゴリズムを示す
フローチャートである。
【図9】図8の学習アルゴリズムにより生成されるデー
タ分類木の一例を示す図である。
【図10】図5の入力サンプルから生成されたデータ分
類木の一部を示す図である。
【図11】分類項目の5番に分類されるものの一部を示
す図である。
【図12】第2の実施例におけるデータ分類木の一例を
示す図である。
【図13】第2の実施例におけるデータ分類木の説明図
である。
【図14】本発明の第2の実施例のシステムの全体構成
を示す図である。
【図15】第2の実施例における学習アルゴリズムを示
すフローチャートである。
【図16】第2の実施例において学習されたデータ分類
木から抽出された関連語の一部を示す図である。
【符号の説明】
1 派生語代表文字列候補生成手段 2、2′ データ分類木生成手段 3、3′ データ分類木 4、4′ データ分類手段 5、5′ シソーラス構築手段 1′ キーワード候補生成手段 6 選言生成手段

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 内部ノードに派生語代表文字列がラベル
    付けされた二進木であるデータ分類木を記憶するデータ
    分類木記憶手段と、 前記データ分類木上の1つの内部ノードである根ノード
    を起点として、前記データ分類木上の各内部ノードにお
    いて、入力された文字データが該内部ノードにラベル付
    けされている派生語代表文字列又はその派生語を部分文
    字列として含むか否かという分類属性の評価を行いなが
    ら該評価結果に基づいて分岐動作を実行し、最終的に到
    達した前記データ分類木上の葉ノードにラベル付けされ
    ている分類クラスに前記入力された文字データを分類す
    るデータ分類手段と、 を有することを特徴とするデータ分類装置。
  2. 【請求項2】 系列的に表現できる文字データの事例の
    集合から、前記文字データを分類するための派生語代表
    文字列候補を生成する派生語代表文字列候補生成手段
    と、 前記文字データの事例のそれぞれが前記生成された派生
    語代表文字列候補又はその派生語を部分文字列として含
    むか否かという分類属性の評価を行いながら該評価結果
    に基づいて前記生成された派生語代表文字列候補から派
    生語代表文字列を選択して1つの内部ノードにラベル付
    けすると共に、前記文字データの事例のそれぞれが前記
    選択された派生語代表文字列又はその派生語を部分文字
    列として含むか否かという分類属性の評価を行いながら
    該評価結果に基づいて前記文字データの事例のそれぞれ
    を順次分類してゆくことにより、前記内部ノードに前記
    派生語代表文字列がラベル付けされた二進木であるデー
    タ分類木を生成するデータ分類木生成手段と、 を有することを特徴とするデータ分類木生成装置。
  3. 【請求項3】 前記派生語代表文字列候補生成手段は、
    前記文字データの事例の集合から、所定の範囲内の文字
    数を有する全ての部分文字列を、前記派生語代表文字列
    候補として生成する、 ことを特徴とする請求項2に記載のデータ分類木生成装
    置。
  4. 【請求項4】 前記データ分類木生成手段は、 前記派生語代表文字列候補又は前記派生語代表文字列の
    語尾を所定の規則に従って変形する変形手段と、 該変形手段によって得られる文字列を前記派生語代表文
    字列候補又は前記派生語代表文字列の派生語として抽出
    する派生語抽出手段と、 を有することを特徴とする請求項2又は3の何れか1項
    に記載のデータ分類木生成装置。
  5. 【請求項5】 前記データ分類木生成手段は、次の(a)
    〜(f) の処理を実行することにより前記データ分類木を
    生成する、 (a) 入力された前記文字データの事例の集合において、
    前記文字データの事例に付加されているラベルが同一で
    ない割合が所定の閾値以下であるか、又は、前記入力さ
    れた文字データの事例の集合における事例の数が所定の
    閾値以下であるかを判定し、 (b) 前記(a) の条件が満足される場合に、前記入力され
    た文字データの事例の集合において最も事例数が多い同
    一のラベルを、前記データ分類木の1つの葉ノードのラ
    ベルとして出力して処理を停止し、 (c) 前記(a) の条件が満足されない場合に、前記生成さ
    れた前記派生語代表文字列の候補のうちから、前記入力
    された文字データの事例のそれぞれが前記生成された派
    生語代表文字列候補又はその派生語を部分文字列として
    含むか否かという分類属性の評価を含む所定の評価の結
    果が最も良く、かつ最長の派生語代表文字列候補を派生
    語代表文字列として選択し、 (d) 前記文字データの事例のそれぞれが前記(c) の処理
    により選択された派生語代表文字列又はその派生語を部
    分文字列として含むか否かという分類属性の評価を行い
    ながら該評価結果に基づいて前記文字データの事例のそ
    れぞれを順次分類し、 (e) 前記(d) の処理により分類された前記文字データの
    事例の集合のそれぞれについて、前記(a) 〜(d) の処理
    を再帰的に繰り返し実行し、 (f) 前記(e) の処理が停止した時点で、前記(c) の処理
    により選択された派生語代表文字列が1つの前記内部ノ
    ードのラベルとして設定され、前記(e)の処理の結果出
    力されるラベル又はラベル群が該1つの内部ノードに接
    続する部分木のラベル又はラベル群として設定されたラ
    ベル又はラベル群を出力して処理を停止する、 ことを特徴とする請求項2乃至4の何れか1項に記載の
    データ分類木生成装置。
  6. 【請求項6】 内部ノードに派生語代表文字列がラベル
    付けされた二進木であるデータ分類木を用いたシソーラ
    ス構築装置であって、 所望の文字データの事例のシソーラスを、前記データ分
    類木上の根ノードから前記所望の文字データの事例が属
    する分類クラスがラベル付けされた前記データ分類木上
    の葉ノードに至るパス上に存在するそれぞれの前記内部
    ノードにラベル付けられた派生語代表文字列又はその派
    生語代表文字列の否定語の連語として構築するシソーラ
    ス構築手段を有する、 ことを特徴とするシソーラス構築装置。
  7. 【請求項7】 系列的に表現できる文字データの事例の
    集合から、前記文字データを分類するための派生語代表
    文字列候補を生成する派生語代表文字列候補生成手段
    と、 前記文字データの事例のそれぞれが前記生成された派生
    語代表文字列候補又はその派生語を部分文字列として含
    むか否かという分類属性の評価を行いながら該評価結果
    に基づいて前記生成された派生語代表文字列候補から派
    生語代表文字列を選択して1つの内部ノードにラベル付
    けすると共に、前記文字データの事例のそれぞれが前記
    選択された派生語代表文字列又はその派生語を部分文字
    列として含むか否かという分類属性の評価を行いながら
    該評価結果に基づいて前記文字データの事例のそれぞれ
    を順次分類してゆくことにより、前記内部ノードに前記
    派生語代表文字列がラベル付けされた二進木であるデー
    タ分類木を生成するデータ分類木生成手段と、 からなるデータ分類木生成装置と、 該データ分類木生成装置によって生成されたデータ分類
    木上の1つの内部ノードである根ノードを起点として、
    前記データ分類木上の各内部ノードにおいて、入力され
    た文字データが該内部ノードにラベル付けされている派
    生語代表文字列又はその派生語を部分文字列として含む
    か否かという分類属性の評価を行いながら該評価結果に
    基づいて分岐動作を実行し、最終的に到達した前記デー
    タ分類木上の葉ノードにラベル付けされている分類クラ
    スに前記入力された文字データを分類するデータ分類手
    段を有するデータ分類装置と、 を有することを特徴とするデータ処理システム。
  8. 【請求項8】 系列的に表現できる文字データの事例の
    集合から、前記文字データを分類するための派生語代表
    文字列候補を生成する派生語代表文字列候補生成手段
    と、 前記文字データの事例のそれぞれが前記生成された派生
    語代表文字列候補又はその派生語を部分文字列として含
    むか否かという分類属性の評価を行いながら該評価結果
    に基づいて前記生成された派生語代表文字列候補から派
    生語代表文字列を選択して1つの内部ノードにラベル付
    けすると共に、前記文字データの事例のそれぞれが前記
    選択された派生語代表文字列又はその派生語を部分文字
    列として含むか否かという分類属性の評価を行いながら
    該評価結果に基づいて前記文字データの事例のそれぞれ
    を順次分類してゆくことにより、前記内部ノードに前記
    派生語代表文字列がラベル付けされた二進木であるデー
    タ分類木を生成するデータ分類木生成手段と、 からなるデータ分類木生成装置と、 該データ分類木生成装置によって生成されたデータ分類
    木上の1つの内部ノードである根ノードを起点として、
    前記データ分類木上の各内部ノードにおいて、入力され
    た文字データが該内部ノードにラベル付けされている派
    生語代表文字列又はその派生語を部分文字列として含む
    か否かという分類属性の評価を行いながら該評価結果に
    基づいて分岐動作を実行し、最終的に到達した前記デー
    タ分類木上の葉ノードにラベル付けされている分類クラ
    スに前記入力された文字データを分類するデータ分類手
    段を有するデータ分類装置と、 所望の文字データの事例のシソーラスを、前記データ分
    類木生成装置によって生成された前記データ分類木上の
    根ノードから前記所望の文字データの事例が属する分類
    クラスがラベル付けされた前記データ分類木上の葉ノー
    ドに至るパス上に存在するそれぞれの前記内部ノードに
    ラベル付けられた派生語代表文字列又はその派生語代表
    文字列の否定語の連語として構築するシソーラス構築手
    段を有するシソーラス構築装置と、 を有することを特徴とするデータ処理システム。
  9. 【請求項9】 入力された文字列の語尾を所定の規則に
    従って変形する変形手段と、 該変形手段によって得られる文字列を前記派生語代表文
    字列候補又は前記派生語代表文字列の派生語として抽出
    する派生語抽出手段と、 を有することを特徴とする派生語抽出装置。
  10. 【請求項10】 内部ノードに派生語代表文字列がラベ
    ル付けされた二進木であるデータ分類木を記憶し、 前記データ分類木上の1つの内部ノードである根ノード
    を起点として、前記データ分類木上の各内部ノードにお
    いて、入力された文字データが該内部ノードにラベル付
    けされている派生語代表文字列又はその派生語を部分文
    字列として含むか否かという分類属性の評価を行いなが
    ら該評価結果に基づいて分岐動作を実行し、 最終的に到達した前記データ分類木上の葉ノードにラベ
    ル付けされている分類クラスに前記入力された文字デー
    タを分類する、 ことを特徴とするデータ分類方法。
  11. 【請求項11】 系列的に表現できる文字データの事例
    の集合から、前記文字データを分類するための派生語代
    表文字列候補を生成し、 前記文字データの事例のそれぞれが前記生成された派生
    語代表文字列候補又はその派生語を部分文字列として含
    むか否かという分類属性の評価を行いながら該評価結果
    に基づいて前記生成された派生語代表文字列候補から派
    生語代表文字列を選択して1つの内部ノードにラベル付
    けすると共に、前記文字データの事例のそれぞれが前記
    選択された派生語代表文字列又はその派生語を部分文字
    列として含むか否かという分類属性の評価を行いながら
    該評価結果に基づいて前記文字データの事例のそれぞれ
    を順次分類してゆくことによって、前記内部ノードに前
    記派生語代表文字列がラベル付けされた二進木であるデ
    ータ分類木を生成する、 ことを特徴とするデータ分類木生成方法。
  12. 【請求項12】 次の(a) 〜(f) の処理を実行すること
    により前記データ分類木を生成する、 (a) 入力された前記文字データの事例の集合において、
    前記文字データの事例に付加されているラベルが同一で
    ない割合が所定の閾値以下であるか、又は、前記入力さ
    れた文字データの事例の集合における事例の数が所定の
    閾値以下であるかを判定し、 (b) 前記(a) の条件が満足される場合に、前記入力され
    た文字データの事例の集合において最も事例数が多い同
    一のラベルを、前記データ分類木の1つの葉ノードのラ
    ベルとして出力して処理を停止し、 (c) 前記(a) の条件が満足されない場合に、前記生成さ
    れた前記派生語代表文字列の候補のうちから、前記入力
    された文字データの事例のそれぞれが前記生成された派
    生語代表文字列候補又はその派生語を部分文字列として
    含むか否かという分類属性の評価を含む所定の評価の結
    果が最も良く、かつ最長の派生語代表文字列候補を派生
    語代表文字列として選択し、 (d) 前記文字データの事例のそれぞれが前記(c) の処理
    により選択された派生語代表文字列又はその派生語を部
    分文字列として含むか否かという分類属性の評価を行い
    ながら該評価結果に基づいて前記文字データの事例のそ
    れぞれを順次分類し、 (e) 前記(d) の処理により分類された前記文字データの
    事例の集合のそれぞれについて、前記(a) 〜(d) の処理
    を再帰的に繰り返し実行し、 (f) 前記(e) の処理が停止した時点で、前記(c) の処理
    により選択された派生語代表文字列が1つの前記内部ノ
    ードのラベルとして設定され、前記(e)の処理の結果出
    力されるラベル又はラベル群が該1つの内部ノードに接
    続する部分木のラベル又はラベル群として設定されたラ
    ベル又はラベル群を出力して処理を停止する、 ことを特徴とする請求項11に記載のデータ分類木生成
    方法。
  13. 【請求項13】 内部ノードに派生語代表文字列がラベ
    ル付けされた二進木であるデータ分類木を用いたシソー
    ラス構築方法であって、 所望の文字データの事例のシソーラスを、前記データ分
    類木上の根ノードから前記所望の文字データの事例が属
    する分類クラスがラベル付けされた前記データ分類木上
    の葉ノードに至るパス上に存在するそれぞれの前記内部
    ノードにラベル付けられた派生語代表文字列又はその派
    生語代表文字列の否定語の連語として構築する、 ことを特徴とするシソーラス構築方法。
  14. 【請求項14】 入力された文字列の語尾を所定の規則
    に従って変形し、その結果得られる文字列を前記派生語
    代表文字列候補又は前記派生語代表文字列の派生語とし
    て抽出する、 ことを特徴とする派生語抽出方法。
  15. 【請求項15】 内部ノードにキーワードの選言がラベ
    ル付けされた二進木であるデータ分類木を記憶するデー
    タ分類木記憶手段と、 前記データ分類木上の1つの内部ノードである根ノード
    を起点として、前記データ分類木上の各内部ノードにお
    いて、入力された文字データが該内部ノードにラベル付
    けされているキーワードの選言を構成する少なくとも1
    つのキーワードに適合するか否かという分類属性の評価
    を行いながら該評価結果に基づき分岐動作を実行し、最
    終的に到達した前記データ分類木上の葉ノードにラベル
    付けされている分類クラスに前記入力された文字データ
    を分類するデータ分類手段と、 を有することを特徴とするデータ分類装置。
  16. 【請求項16】 系列的に表現できる文字データの事例
    の集合から、前記文字データを分類するためのキーワー
    ド候補を生成するキーワード候補生成手段と、 前記生成されたキーワード候補、又は該キーワード候補
    の論理和としてキーワード候補の選言を生成する選言生
    成手段と、 前記文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補と適合するか否かという分類属性の評価を行いな
    がら該評価結果に基づいて前記生成されたキーワード候
    補の選言からキーワードの選言を選択して1つの内部ノ
    ードにラベル付けすると共に、前記文字データの事例の
    それぞれが前記選択されたキーワードの選言を構成する
    少なくとも1つのキーワードと適合するか否かという分
    類属性の評価を行いながら該評価結果に基づいて前記文
    字データの事例のそれぞれを順次分類してゆくことによ
    り、前記内部ノードに前記キーワードの選言がラベル付
    けされた二進木であるデータ分類木を生成するデータ分
    類木生成手段と、 を有することを特徴とするデータ分類木生成装置。
  17. 【請求項17】 前記キーワード候補生成手段は、前記
    文字データの事例の集合から、所定の範囲内の文字数を
    有する全ての部分文字列を、前記キーワード候補として
    生成する、 ことを特徴とする請求項16に記載のデータ分類木生成
    装置。
  18. 【請求項18】 前記データ分類木生成手段は、次の
    (a)'〜(f)'の処理を実行することにより前記データ分類
    木を生成する、 (a)'入力された前記文字データの事例の集合において、
    前記文字データの事例に付加されているラベルが同一で
    ない割合が所定の閾値以下であるか、又は、前記入力さ
    れた文字データの事例の集合における事例の数が所定の
    閾値以下であるかを判定し、 (b)'前記(a)'の条件が満足される場合に、前記入力され
    た文字データの事例の集合において最も事例数が多い同
    一のラベルを、前記データ分類木の1つの葉ノードのラ
    ベルとして出力して処理を停止し、 (c)'前記(a)'の条件が満足されない場合に、前記生成さ
    れた前記キーワード候補の選言のうちから、前記入力さ
    れた文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補に適合するか否かという分類属性の評価を含む所
    定の評価の結果が最も良く、かつ最長のキーワード候補
    の選言をキーワードの選言として選択し、 (d)'前記文字データの事例のそれぞれが前記(c)'の処理
    により選択されたキーワードの選言を構成する少なくと
    も1つのキーワードに適合するか否かという分類属性の
    評価を行いながら該評価結果に基づいて前記文字データ
    の事例のそれぞれを順次分類し、 (e)'前記(d)'の処理により分類された前記文字データの
    事例の集合のそれぞれについて、前記(a)'〜(d)'の処理
    を再帰的に繰り返し実行し、 (f)'前記(e)'の処理が停止した時点で、前記(c)'の処理
    により選択されたキーワードの選言が1つの前記内部ノ
    ードのラベルとして設定され、前記(e)'の処理の結果出
    力されるラベル又はラベル群が該1つの内部ノードに接
    続する部分木のラベル又はラベル群として設定されたラ
    ベル又はラベル群を出力して処理を停止する、 ことを特徴とする請求項16又は17の何れか1項に記
    載のデータ分類木生成装置。
  19. 【請求項19】 根ノード又は各内部ノードに1つ又は
    キーワードの選言がラベル付けされた二進木であるデー
    タ分類木を用いたシソーラス構築装置であって、 前記データ分類木上の根ノード又は各内部ノードにラベ
    ル付けされたキーワードの選言毎に、その選言を構成す
    るキーワード群をシソーラスとして構築するシソーラス
    構築手段を有する、 ことを特徴とするシソーラス構築装置。
  20. 【請求項20】 系列的に表現できる文字データの事例
    の集合から、前記文字データを分類するためのキーワー
    ド候補を生成するキーワード候補生成手段と、 前記生成されたキーワード候補、又は該キーワード候補
    の論理和としてキーワード候補の選言を生成する選言生
    成手段と、 前記文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補と適合するか否かという分類属性の評価を行いな
    がら該評価結果に基づいて前記生成されたキーワード候
    補の選言からキーワードの選言を選択して1つの内部ノ
    ードにラベル付けすると共に、前記文字データの事例の
    それぞれが前記選択されたキーワードの選言を構成する
    少なくとも1つのキーワードと適合するか否かという分
    類属性の評価を行いながら該評価結果に基づいて前記文
    字データの事例のそれぞれを順次分類してゆくことによ
    り、前記内部ノードに前記キーワードの選言がラベル付
    けされた二進木であるデータ分類木を生成するデータ分
    類木生成手段と、 からなるデータ分類木生成装置と、 該データ分類木生成装置によって生成されたデータ分類
    木上の1つの内部ノードである根ノードを起点として、
    前記データ分類木上の各内部ノードにおいて、入力され
    た文字データが該内部ノードにラベル付けされているキ
    ーワードの選言を構成する少なくとも1つのキーワード
    に適合するか否かという分類属性の評価を行いながら該
    評価結果に基づき分岐動作を実行し、最終的に到達した
    前記データ分類木上の葉ノードにラベル付けされている
    分類クラスに前記入力された文字データを分類するデー
    タ分類手段を有するデータ分類装置と、 を有することを特徴とするデータ処理システム。
  21. 【請求項21】 系列的に表現できる文字データの事例
    の集合から、前記文字データを分類するためのキーワー
    ド候補を生成するキーワード候補生成手段と、 前記生成されたキーワード候補、又は該キーワード候補
    の論理和としてキーワード候補の選言を生成する選言生
    成手段と、 前記文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補と適合するか否かという分類属性の評価を行いな
    がら該評価結果に基づいて前記生成されたキーワード候
    補の選言からキーワードの選言を選択して1つの内部ノ
    ードにラベル付けすると共に、前記文字データの事例の
    それぞれが前記選択されたキーワードの選言を構成する
    少なくとも1つのキーワードと適合するか否かという分
    類属性の評価を行いながら該評価結果に基づいて前記文
    字データの事例のそれぞれを順次分類してゆくことによ
    り、前記内部ノードに前記キーワードの選言がラベル付
    けされた二進木であるデータ分類木を生成するデータ分
    類木生成手段と、 からなるデータ分類木生成装置と、 該データ分類木生成装置によって生成されたデータ分類
    木上の1つの内部ノードである根ノードを起点として、
    前記データ分類木上の各内部ノードにおいて、入力され
    た文字データが該内部ノードにラベル付けされているキ
    ーワードの選言を構成する少なくとも1つのキーワード
    に適合するか否かという分類属性の評価を行いながら該
    評価結果に基づき分岐動作を実行し、最終的に到達した
    前記データ分類木上の葉ノードにラベル付けされている
    分類クラスに前記入力された文字データを分類するデー
    タ分類手段を有するデータ分類装置と、 前記データ分類木生成装置によって生成されたデータ分
    類木上の根ノード又は各内部ノードにラベル付けされた
    キーワードの選言毎に、その選言を構成するキーワード
    群をシソーラスとして構築するシソーラス構築手段を有
    するシソーラス構築装置と、 を有することを特徴とするデータ処理システム。
  22. 【請求項22】 内部ノードにキーワードの選言がラベ
    ル付けされた二進木であるデータ分類木を記憶し、 前記データ分類木上の1つの内部ノードである根ノード
    を起点として、前記データ分類木上の各内部ノードにお
    いて、入力された文字データが該内部ノードにラベル付
    けされているキーワードの選言を構成する少なくとも1
    つのキーワードに適合するか否かという分類属性の評価
    を行いながら該評価結果に基づき分岐動作を実行し、 最終的に到達した前記データ分類木上の葉ノードにラベ
    ル付けされている分類クラスに前記入力された文字デー
    タを分類する、 ことを特徴とするデータ分類方法。
  23. 【請求項23】 系列的に表現できる文字データの事例
    の集合から、前記文字データを分類するためのキーワー
    ド候補を生成し、 前記生成されたキーワード候補、又は該キーワード候補
    の論理和としてキーワード候補の選言を生成し、 前記文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補と適合するか否かという分類属性の評価を行いな
    がら該評価結果に基づいて前記生成されたキーワード候
    補の選言からキーワードの選言を選択して1つの内部ノ
    ードにラベル付けすると共に、前記文字データの事例の
    それぞれが前記選択されたキーワードの選言を構成する
    少なくとも1つのキーワードと適合するか否かという分
    類属性の評価を行いながら該評価結果に基づいて前記文
    字データの事例のそれぞれを順次分類してゆくことによ
    り、前記内部ノードに前記キーワードの選言がラベル付
    けされた二進木であるデータ分類木を生成する、 ことを特徴とするデータ分類木生成方法。
  24. 【請求項24】 次の(a)'〜(f)'の処理を実行すること
    により前記データ分類木を生成する、 (a)'入力された前記文字データの事例の集合において、
    前記文字データの事例に付加されているラベルが同一で
    ない割合が所定の閾値以下であるか、又は、前記入力さ
    れた文字データの事例の集合における事例の数が所定の
    閾値以下であるかを判定し、 (b)'前記(a)'の条件が満足される場合に、前記入力され
    た文字データの事例の集合において最も事例数が多い同
    一のラベルを、前記データ分類木の1つの葉ノードのラ
    ベルとして出力して処理を停止し、 (c)'前記(a)'の条件が満足されない場合に、前記生成さ
    れた前記キーワード候補の選言のうちから、前記入力さ
    れた文字データの事例のそれぞれが前記生成されたキー
    ワード候補の選言を構成する少なくとも1つのキーワー
    ド候補に適合するか否かという分類属性の評価を含む所
    定の評価の結果が最も良く、かつ最長のキーワード候補
    の選言をキーワードの選言として選択し、 (d)'前記文字データの事例のそれぞれが前記(c)'の処理
    により選択されたキーワードの選言を構成する少なくと
    も1つのキーワードに適合するか否かという分類属性の
    評価を行いながら該評価結果に基づいて前記文字データ
    の事例のそれぞれを順次分類し、 (e)'前記(d)'の処理により分類された前記文字データの
    事例の集合のそれぞれについて、前記(a)'〜(d)'の処理
    を再帰的に繰り返し実行し、 (f)'前記(e)'の処理が停止した時点で、前記(c)'の処理
    により選択されたキーワードの選言が1つの前記内部ノ
    ードのラベルとして設定され、前記(e)'の処理の結果出
    力されるラベル又はラベル群が該1つの内部ノードに接
    続する部分木のラベル又はラベル群として設定されたラ
    ベル又はラベル群を出力して処理を停止する、 ことを特徴とする請求項23に記載のデータ分類木生成
    装置。
  25. 【請求項25】 根ノード又は各内部ノードに1つ又は
    キーワードの選言がラベル付けされた二進木であるデー
    タ分類木を用いたシソーラス構築方法であって、 該データ分類木上の根ノード又は各内部ノードにラベル
    付けされたキーワードの選言毎に、その選言を構成する
    キーワード群をシソーラスとして構築する、ことを特徴
    とするシソーラス構築方法。
JP7022697A 1994-04-28 1995-02-10 データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム Withdrawn JPH0816620A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7022697A JPH0816620A (ja) 1994-04-28 1995-02-10 データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
US08/408,304 US5787426A (en) 1994-04-28 1995-03-22 Data sorting, data sorting tree creating, derivative extracting and thesaurus creating apparatus and method, or data processing system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9151794 1994-04-28
JP6-91517 1994-04-28
JP7022697A JPH0816620A (ja) 1994-04-28 1995-02-10 データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム

Publications (1)

Publication Number Publication Date
JPH0816620A true JPH0816620A (ja) 1996-01-19

Family

ID=26359961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7022697A Withdrawn JPH0816620A (ja) 1994-04-28 1995-02-10 データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム

Country Status (2)

Country Link
US (1) US5787426A (ja)
JP (1) JPH0816620A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
US6282509B1 (en) 1997-11-18 2001-08-28 Fuji Xerox Co., Ltd. Thesaurus retrieval and synthesis system
CN116628125A (zh) * 2023-04-14 2023-08-22 湘南学院 一种临床影像诊断报告关键词提取方法与辅助装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
EP1004200B8 (en) * 1998-05-22 2005-12-28 Koninklijke Philips Electronics N.V. Recording arrangement having keyword detection means
US6466902B1 (en) * 1998-12-28 2002-10-15 Sony Corporation Method and apparatus for dictionary sorting
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US20030105622A1 (en) * 2001-12-03 2003-06-05 Netbytel, Inc. Retrieval of records using phrase chunking
US20050289159A1 (en) * 2004-06-29 2005-12-29 The Boeing Company Web-enabled real-time link selection apparatus and method
US7899665B2 (en) * 2004-08-20 2011-03-01 International Business Machines Corporation Methods and systems for detecting the alphabetic order used by different languages
US20060101015A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Automated collation creation
US20060100857A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Custom collation tool
US8090736B1 (en) * 2004-12-30 2012-01-03 Google Inc. Enhancing search results using conceptual document relationships
US8019714B2 (en) * 2005-12-12 2011-09-13 Qin Zhang Thinking system and method
US7930319B2 (en) * 2008-01-10 2011-04-19 Qin Zhang Search method and system using thinking system
JP2007226370A (ja) * 2006-02-22 2007-09-06 Fujitsu Ltd 情報公開制御方法及び装置、並びに情報公開制御指示方法
US8176080B2 (en) * 2009-03-06 2012-05-08 Hewlett-Packard Development Company, L.P. Desensitizing character strings
US20150268931A1 (en) * 2014-03-20 2015-09-24 Avlino, Inc. Predictive Sorting of Data Elements
CN107688614B (zh) * 2017-08-04 2018-08-10 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274505A (en) * 1990-05-29 1993-12-28 Ichikoh Industries, Ltd. Electrical remote-control mirror assembly

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282509B1 (en) 1997-11-18 2001-08-28 Fuji Xerox Co., Ltd. Thesaurus retrieval and synthesis system
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
CN116628125A (zh) * 2023-04-14 2023-08-22 湘南学院 一种临床影像诊断报告关键词提取方法与辅助装置
CN116628125B (zh) * 2023-04-14 2024-01-30 湘南学院 一种临床影像诊断报告关键词提取方法与辅助装置

Also Published As

Publication number Publication date
US5787426A (en) 1998-07-28

Similar Documents

Publication Publication Date Title
US11989519B2 (en) Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
CN109684448B (zh) 一种智能问答方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107038229B (zh) 一种基于自然语义分析的用例提取方法
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
JPH0816620A (ja) データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN110532328B (zh) 一种文本概念图构造方法
CN108491385B (zh) 一种基于依存关系的教学领域本体自动生成方法与装置
CN114020768A (zh) 中文自然语言的sql语句生成模型的构建方法及应用
US20220004545A1 (en) Method of searching patent documents
US20210350125A1 (en) System for searching natural language documents
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
Kashmira et al. Generating entity relationship diagram from requirement specification based on nlp
CN113792123B (zh) 一种基于数据驱动的领域知识图谱构建方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Manjari Extractive summarization of Telugu documents using TextRank algorithm
CN113221559A (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020507