JP2007052744A

JP2007052744A - 分類ルール作成支援方法

Info

Publication number: JP2007052744A
Application number: JP2005239194A
Authority: JP
Inventors: Hiroya Inakoshi; 宏弥稲越; Kanji Uchino; 寛治内野; Daigo Inoue; 大悟井上; Hirokazu Hanno; 宏和半野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-08-19
Filing date: 2005-08-19
Publication date: 2007-03-01
Anticipated expiration: 2025-08-19
Also published as: CN1916895A; CN101430704A; US20070043690A1; JP4429236B2; US8176050B2

Abstract

【課題】
新規のデータ項目に対する分類ルールを適切に生成する。
【解決手段】
本分類ルール作成支援方法は、新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出するステップと、特徴パターンを、新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップとを含む。このようにすれば、分類ルールの候補となる特徴パターンが自動的に生成され、さらに例えば第１の集合から、これから適用すべき分類ルールとして特定の特徴パターンを選択させることができるようになる。
【選択図】図１

Description

本発明は、データ項目に対する分類ルールの作成を支援するための技術に関する。

従来、利用者が作成する分類ルールによってデータ項目を分類する際に、以下のような問題があった。

（１）データ追加に伴うルールの追加修正
分類すべきデータ項目は次々に追加されるのが通常である。このような場合には、一度作り上げた分類ルールだけでは追加されるデータ項目を分類できないため、随時新たなルールの追加や既存ルールの修正が必要となる。しかしながら、分類に有効なルールを作成するのは容易ではない。

（２）分類ルールと分類済みデータの整合性
ルールの追加修正により、データが以前とは異なったカテゴリに帰結するとき、ルールは分類済データに対して矛盾すると言い、このようなルールを矛盾ルールと呼ぶ。データ項目をカテゴリツリーの配下に分類するディレクトリ型検索サービスにおいては、ルールベースの更新前後で分類結果が同一であることを保証する手段を有することが望まれる。そのため、追加修正したルールが、既に分類済みのデータを以前とは異なったカテゴリに帰結すること、すなわち矛盾がないかを検証し、もし矛盾を生じる場合には、このルールを再び修正することを繰り返す。このような検証の作業コストは高く、矛盾が発生しないルールを自動生成する技術が望まれている。

（３）分類ルール間の整合性
追加修正したルールとそれ以外のルールが、既知のデータ項目を異なるカテゴリに帰結させる場合、すなわち競合ルールが生成される場合があり得る。例えば「ＰかつＱならばＣ１に分類する」というルールと、「ＰかつＲならばＣ２に分類する」というルールは、「ＰかつＱかつＲ」というデータ項目をそれぞれＣ１及びＣ２に分類する。Ｃ１とＣ２が異なる時、最初のルールと２番目のルールとは競合ルールである。ルールベースは、各データ項目を最終的に唯一のカテゴリに帰結させる必要があるため、競合が発生する場合にはこれを解消する手段が必要である。このため、ルールの評価順を予め定めておき、最初にマッチしたルールを用いて帰結先のカテゴリを決定する方法（ファーストマッチ方式）などがよく知られている。しかしながら、競合ルールが多数となると、分類先カテゴリはルールの適用順に強く影響されることになり、個別のルールの妥当性の判断が困難になる。そのため、できるだけ競合ルールを作らないことが重要であるが、一般的には困難である。

なお、例えば特開２００２−１５７２６２号公報には、分類体系が客観的で複雑な場合、利用者が登録したい分類ルールが真に妥当か否かを評価するための情報を利用者に提示するための技術が開示されている。具体的には、分類ルールに基づいて電子文書をカテゴリに分類する文書分類システムにおける分類ルール定義支援方法では、入力装置を介して利用者によって入力された分類ルールを複数の分類済み電子文書に適用することによって当該分類ルールがどの程度信頼性があり、分類精度の向上あるいは維持にどの程度貢献するかを計算し、計算結果を出力装置を介して利用者に報知するものである。しかし、分類ルールの候補を作成する機能を有していないので、ユーザ側で分類体系及び電子文書の特徴を習熟する必要があり、熟練していないユーザにとって分類ルールを作成するのは非常に困難である。また、新たに作成するルールだけを考慮するだけでは既存のルールと競合が発生する場合があるが、本公報ではこの点につき考慮されていない。
特開２００２−１５７２６２号公報

以上のように従来技術では、新規のデータ項目に対する適切な分類ルールを生成することができず、さらに既存分類ルールとの競合を解消することもできない。

従って、本発明の目的は、新規のデータ項目に対する分類ルールを適切に生成するための支援技術を提供することである。

本発明に係る分類ルール作成支援方法は、新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、記憶装置に格納された新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、特徴パターン格納部に格納された特徴パターンを、記憶装置に格納された新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップとを含む。

このようにすれば、分類ルールの候補となる特徴パターンが自動的に生成され、さらに例えば第１の集合から、これから適用すべき分類ルールとして特定の特徴パターンを選択させることができるようになる。

また、本発明において、データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、記憶装置に格納された新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップをさらに含むようにしてもよい。また、第１の集合が、第１のグループと第２のグループとを有し、当該第１のグループが、第１の特定の条件と記憶装置に格納されている新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ特徴パターン格納部に格納されている特徴パターンのグループであり、抽出分類ルール格納部には、第１の特定の条件を充足する分類ルールが格納されており、第２のグループが、第１のグループのいずれにも属しない特徴パターンのグループであるようにしてもよい。さらに、第２の集合が、第２の特定の条件と記憶装置に格納されている新規のデータ項目のカテゴリとは異なるカテゴリとを有し且つ特徴パターン格納部に格納されている特徴パターンの第３のグループを有し、抽出分類ルール格納部には、第２の特定の条件を充足する分類ルールが格納されているようにしてもよい。このようにすれば、特徴パターンの性質及び関係、分類ルール格納部に格納されている分類ルールとの関係などが整理された形で提示できるようになる。また、提示されたことにより、競合の解消を行うこともできる。

さらに、上で述べたグループ化ステップが、抽出分類ルール格納部に格納されており且つ第１のグループに対応する分類ルールの第４のグループを生成するステップを含むようにしてもよい。

また、本発明において、第１のグループに属する特徴パターンの数が当該第１のグループに関連する第３のグループに属する特徴パターンの数に関する条件を満たす場合には、第１のグループに属する特徴パターンの条件を否定ルールを含む条件に変更するステップと、第３のグループに属する特徴パターンの数が当該第３のグループに関連する第１のグループに属する特徴パターンの数に関する条件を満たす場合には、第３のグループに属する特徴パターンの条件を否定ルールを含む条件に変更するステップとをさらに含むようにしてもよい。このような処理を行うことによって、ルール数が減少し、ユーザが把握しやすいルールベースを構築することができる。なお、否定ルール化によって単純化されたルールは、その条件部が将来追加される商品データを充足する可能性が高くなるという、将来にわたる有効性が期待される。

さらに、本発明において、第１の集合と第２の集合と抽出分類ルール格納部に格納されいる全ての分類ルールから第４のグループに属する分類ルールを除外した第３の集合とに含まれる特徴パターンの特徴素に基づき当該パターンのスコアを算出し、特徴パターンに対応してグループデータ格納部に格納するステップをさらに含むようにしても良い。このようにすれば、ユーザに提示する優先度を決定したり、分類ルールとして採用する優先度を決定することができるようになる。

また、本発明において、第１の集合に含まれる特徴パターンをユーザに提示するステップと、ユーザから特徴パターンの指定を受け付けるステップと、指定された特徴パターンを分類ルール格納部に格納するステップと、指定された特徴パターンが属する第１のグループに関連する第３のグループを特定し、当該第３のグループに含まれる特徴パターンを分類ルール格納部に格納するステップと、指定された特徴パターンが属する第１のグループに対応する第４のグループを特定し、当該第４のグループに属する分類ルールを分類ルール格納部から除外するステップとをさらに含むようにしてもよい。このようにすれば、分類ルール格納部を適切に更新することができるようになる。

さらに、本発明において、グループデータ格納部に格納された、特徴パターンのスコアの順に、正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまでグループデータ格納部に格納された特徴パターンを分類ルール格納部に登録するステップをさらに含むようにしても良い。これにより、自動的に新たな分類ルールを生成することができる。

本発明に係る方法をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークを介してディジタル信号にて頒布される場合もある。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。

本発明によれば、新規のデータ項目に対する分類ルールを適切に生成することができるようになる。

図１に本発明の一実施の形態に係る分類ルール生成支援装置の機能ブロック図を示す。本実施の形態では、データ項目として商品データを取り扱う例を示すが、取り扱うデータ項目については商品データに限定されるものではない。本実施の形態に係る分類ルール生成支援装置は、新規商品の商品名及び正解カテゴリの対の入力をユーザから受け付ける商品データ入力部１と、入力されたデータを格納する新規商品データ格納部３と、既に入力されている商品名及び分類データ（カテゴリ）の対が登録されている正解データＤＢ９と、新規商品データ格納部３と正解データＤＢ９とに格納されたデータを用いて以下で説明する特徴パターンを生成する特徴パターン抽出部５と、特徴パターン抽出部５により生成された特徴パターンのデータを格納する特徴パターン格納部１５と、既存の分類ルールのデータを格納する分類ルールＤＢ１１と、新規商品データ格納部３と分類ルールＤＢ１１とに格納されたデータを用いて新規商品に関連する分類ルールを抽出する分類ルール抽出部７と、分類ルール抽出部７により抽出された分類ルールのデータを格納する抽出分類ルール格納部１３と、特徴パターン格納部１５と抽出分類ルール格納部１３とに格納されたデータを用いて競合解消テーブルの生成などの処理を実施するグループ化処理部１７と、グループ化処理部１７の処理結果である競合解消テーブルなどを格納する処理結果データ格納部１９と、処理結果データ格納部１９及び正解データＤＢ９に格納されているデータを用いて分類ルールの条件部の条件否定化及びスコア計算などを行う分類ルール生成処理部２３と、処理結果データ格納部１９と正解データＤＢ９とに格納されているデータを用いて分類ルールＤＢ１１への登録処理などを実施する分類ルール登録処理部２１とを有する。

図２に正解データＤＢ９に格納されているデータの一例を示す。図２の例では、商品名に対応してカテゴリが登録されている。商品名は、単純な商品の名称だけではなくキャッチフレーズのような商品名の場合もある。カテゴリについては、予め定められているカテゴリツリーにおける該当ノードの名称及びカテゴリコード（図示せず）を含む。

図３に分類ルールＤＢ１１に格納されているデータの一例を示す。図３の例では、条件部に対応して帰結部（カテゴリ）が登録されている。条件部は、１のキーワードにより構成される条件、複数のキーワードをＡＮＤで組み合わせることにより構成される条件などを含む。複数のキーワードの間に設けられたスペースはＡＮＤ結合であることを表す。また、複数のＡＮＤ結合ルールを用いることで、ＯＲを含むルールを表すことができる。なお、キーワードについては、否定化、すなわち”¬”（ＮＯＴ）を含む場合もある。

次に図４乃至図１７を用いて図１に示した分類ルール生成支援装置の処理について説明する。まず、分類ルール生成支援装置の商品データ入力部１は、ユーザに対して新規商品の商品名及び正解カテゴリの入力を促し、ユーザから新規商品の商品名及び正解カテゴリの入力を受け付け、新規商品データ格納部３に格納する（図４：ステップＳ１）。例えば図５に示すような画面を表示し、ユーザに対して入力を促す。図５の例では、商品名の入力欄と、正解カテゴリの入力欄と、実行ボタンとが含まれる。ユーザは、これらの入力欄に入力し、実行ボタンをクリックすると以下の処理が実行される。本実施の形態では、新規商品を１件毎に入力するものとする。

次に、特徴パターン抽出部５は、正解データＤＢ９から、新規商品データ格納部３に格納されている新規商品の商品名の特徴素からなる特徴パターンを全て抽出して特徴パターン集合Ｐを構成して、特徴パターン格納部１５に格納する（ステップＳ３）。特徴パターンは、例えばエマージングパターン（Emerging Pattern）である。エマージングパターンは、発生頻度がカテゴリ間で顕著に変化するパターンである。特徴素を例えば形態素解析によって抽出する。例えば図６に示すように、クラスＰとして９つのレコード、クラスＮとして５つのレコードが含まれるものとする。図６の例では、天気（outlook）、気温（temp.）、湿度（humidity）、風（windy）といった気象データが取り扱われており、見通しについてはovercast、rain、またsunnyのいずれか、気温についてはhot、mild、またはcoolのいずれか、湿度についてはhigh、low、またはnormalのいずれか、風についてはtrue又はfalseのいずれかである。この場合、｛sunny, mild, high, true｝という特徴素からなり且つ図６のデータから抽出されるエマージングパターンは、”sunny” ” mild” ”true”＝＞Ｐ、”sunny” ”high”＝＞Ｎ、”sunny” ”mild” ”high”＝＞Ｎ、”sunny” ”high” ”true”＝＞Ｎとなる。なお、エマージングパターンの具体的な抽出方法については、"The Space of Jumping Emerging Patterns and Its Incremental Maintenance Algorithms", Jinyan Li, et al., Int'l Conf. on Machine Learning 2000, pp551-558、"DeEPs: A New Instance-based Discovery and Classification System", Jinyan Li, et al., July 16, 2001, Machine Learning Vol. 54. No. 2, pp.99-124. 等を参照のこと。

このようにエマージングパターンを利用して、ルールベースの更新作業を支援するというアイデアは従来存在しておらず、専門家でも生成が難しい分類ルールの候補を自動的に生成することができるようになる。

例えば、新規商品の商品名が「ブルガリアから届いたローズジャムおしゃれなバラの味と香りをあなたに」である場合、「ブルガリア」「ローズ」「ジャム」「バラ」「味」「香り」「あなた」が特徴素として抽出される。そして、正解データＤＢ９から、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」、「ピンク」且つ「ローズ」及び正解カテゴリ「花束・バラ」からなる特徴パターンと、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが抽出されたものとする。

新規商品の商品名が「その他英会話／単語増田式学習メソッドラクして覚える英単語」である場合には、「英会話」「単語」「学習」「英単語」「増田」が特徴素として抽出される。そして正解データＤＢ９から、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「単語」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「増田」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「メソッド」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンとが抽出されたものとする。

また、分類ルール抽出部７は、分類ルールＤＢ１１から、新規商品データ格納部３に格納されている新規商品の商品名を条件部が充足する分類ルールを全て抽出して分類ルール集合Ｓを構成し、抽出分類ルール格納部１３に格納する（ステップＳ５）。分類ルールＤＢ１１に登録されている全ての分類ルールを新規商品の商品名に適用して、当該新規商品の商品名を条件部が充足するならば当該分類ルールで分類ルール集合Ｓを構成する。

例えば、新規商品の商品名が「ブルガリアから届いたローズジャムおしゃれなバラの味と香りをあなたに」である場合には、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールと、条件部「バラ」且つ（∧）「ローズ」及び帰結部「花束・バラ」を含む分類ルールとが抽出されるものとする。

また、新規商品の商品名が「その他英会話／単語増田式学習メソッドラクして覚える英単語」である場合には、条件部「英単語」及び帰結部「教育」を含む分類ルールと、条件部「学習」及び帰結部「辞書・翻訳」を含む分類ルールとが抽出されるものとする。

そして、グループ化処理部１７は、抽出分類ルール格納部１３及び特徴パターン格納部１５に格納されたデータを用いて、競合解消処理を実施する（ステップＳ７）。この処理については、図７乃至図１０を用いて詳細に説明する。本競合解消処理は、競合解消テーブルを生成し、分類ルールの競合状態を容易に把握することができるようにするために実行される。グループ化処理部１７は、特徴パターン格納部１５に格納されている特徴パターン集合Ｐから、１つの特徴パターンｐ＝＞ｃ（ｐは１又は複数のキーワードの集合、ｃは正解カテゴリ）を取り出す（ステップＳ２１）。例えば、上で述べた第１の具体例において、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンを取り出したものとする。

そうすると、特徴パターンｐ＝＞ｃのパターンｐを充足する分類ルールからなる、分類ルール集合Ｓの部分集合Ｓ（ｐ）を抽出し、処理結果データ格納部１９に格納する（ステップＳ２３）。上で述べた第１の具体例においてキーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンが抽出されている場合には、部分集合Ｓ（ｐ）としては条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールが抽出される。なお、充足の定義については図８を用いて詳細に説明する。

図８では、一番外側の矩形が全商品を含む全体Ｕを表しており、左側の円が商品名に「ブルガリア」を含む商品の集合Ａを表しており、右側の円が商品名に「ジャム」を含む商品の集合Ｂを表しており、下の円が商品名に「ローズ」を含む商品の集合を表している。また、集合Ａ乃至Ｃに対応する円には相互に重なりが存在しており、集合Ａに対応する円と集合Ｂに対応する円とが重なった部分を領域ｄとすると、領域ｄに含まれる商品は、商品名が「ブルガリア」且つ「ジャム」と言う条件を満たす商品の集合である。この領域ｄは、集合Ａに対応する円に含まれる。このように図８のような図形上において分類ルールの条件部に相当する領域（この例では集合Ａに対応する円）が、パターンｐに相当する領域（この例では領域ｄ）を含む関係にある時、「充足する」という。

また、分類ルールが「ブルガリア」且つ「¬ローズ」＝＞「アロマ」であり、特徴パターンが「ジャム」且つ「ブルガリア」＝＞「ジャム」とする。「ジャム」且つ「ブルガリア」という条件を満たす商品の集合は上で述べたように領域ｄに対応する。一方、「ブルガリア」且つ「¬ローズ」という条件を満たす商品の集合は、集合Ａに対応する円から領域ｅを除外した領域に対応する。すなわち、集合Ａに対応する円と集合Ｃに対応する円との重複部分を、集合Ａに対応する円から除外した領域に対応する。このように集合Ａに対応する円から領域ｅを除外した領域は、パターンｐに相当する領域ｄを必ずしも含まない。従って、分類ルールが「ブルガリア」且つ「¬ローズ」＝＞「アロマ」の条件部は、パターンｐを充足するとは言えない。

グループ化処理部１７は、部分集合Ｓ（ｐ）が空であるか判断する（ステップＳ２５）。部分集合Ｓ（ｐ）が空であれば、集合Ｆ_φに、ステップＳ２１で取り出した特徴パターンｐ＝＞ｃを追加する（ステップＳ２７）。第１の具体例においては、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンがステップＳ２７で取り出された場合には、本特徴パターンのパターンｐを充足する分類ルールは存在しないので、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンは集合Ｆ_φに追加される。集合Ｆ_φのデータは処理結果データ格納部１９に格納される。そしてステップＳ３３に移行する。

一方、部分集合Ｓ（ｐ）が空ではない場合には、分類ルールの部分集合Ｓ（ｐ）から１つの分類ルールＬ＝＞Ｒを取り出す（ステップＳ２９）。上で述べた例では、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールが取り出される。そして、特徴パターンｐ＝＞ｃの正解カテゴリｃ＝分類ルールＬ＝＞Ｒの帰結部Ｒであれば、集合Ｔ_L=＞RにステップＳ２１で取り出された特徴パターンｐ＝＞ｃを追加し、特徴パターンｐ＝＞ｃの正解カテゴリｃ≠分類ルールの帰結部Ｒであれば、集合Ｆ_L=＞Rに特徴パターンｐ＝＞ｃを追加する（ステップＳ３１）。上で述べた例では、分類ルールの帰結部「アロマ」に対して、特徴パターンの正解カテゴリは「ジャム」なので、ｃ≠Ｒである。従って、集合Ｆ_L=＞Rに特徴パターンｐ＝＞ｃを追加する。なお、特徴パターンｐ＝＞ｃが、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンである場合にはｃ＝Ｒであるから、集合Ｔ_L=＞Rに当該特徴パターンｐ＝＞ｃを追加する。集合Ｆ_L=＞R及び集合Ｔ_L=＞Rのデータは、処理結果データ格納部１９に格納される。

図７の説明に戻って、部分集合Ｓ（ｐ）内の全ての分類ルールを処理したか判断する（ステップＳ３３）。未処理の分類ルールが存在している場合にはステップＳ２９に戻る。一方、部分集合Ｓ（ｐ）内の全ての分類ルールを処理した場合には、特徴パターン集合Ｐ内の全ての特徴パターンを処理したか判断する（ステップＳ３５）。特徴パターン集合Ｐ内に未処理の特徴パターンが存在する場合にはステップＳ２１に戻る。

このような処理を実施することにより、上で述べた第１の具体例については図９の競合解消テーブルとなる。図９の例では、集合Ｆ_φには、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが含まれる。条件部（Ｌ）が「ブルガリア」及び帰結部（Ｒ）が「アロマ」である分類ルールに対応する集合Ｔ_{ブルガリア＝＞アロマ}には、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンが含まれる。さらに分類ルール「ブルガリア」＝＞「アロマ」に対応する集合Ｆ_{ブルガリア＝＞アロマ}は、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンとを含む。さらに、条件部（Ｌ）が「バラ」且つ「ローズ」及び帰結部（Ｒ）が「花束・バラ」である分類ルールに対応する集合Ｔ_{バラローズ＝＞花束・バラ}は、キーワード「バラ」、「ピンク」且つ「ローズ」及び正解カテゴリ「花束・バラ」からなる特徴パターンを含む。さらに分類ルール「バラ」「ローズ」＝＞「ジャム」に対応する集合Ｆ_{バラローズ＝＞花束・バラ}は、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンを含む。

上で述べた第２の例の場合には、図１０の競合解消テーブルとなる。図１０の例では、集合Ｆ_φは、キーワード「単語」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「増田」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「メソッド」及び正解カテゴリ「教育」からなる特徴パターンとを含む。条件部（Ｌ）が「学習」及び帰結部（Ｒ）が「辞書・翻訳」である分類ルールに対応する集合Ｔ_{学習＝＞辞書・翻訳}は、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンとを含む。さらに分類ルール「学習」＝＞「辞書・翻訳」に対応する集合Ｆ_{学習＝＞辞書・翻訳}は、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンを含む。

このような競合解消テーブルにおいて、分類ルールＬ＝＞Ｒと相反パターンの列における対応する集合Ｆ_L＝＞Rとは競合するルールであって、それらが両方とも分類ルールＤＢ１１に含まれると、分類ルールに優先度を設定しない場合には誤分類が発生する。但し、分類ルールＬ＝＞Ｒに代って、整合パターンの列における対応する集合Ｔ_L＝＞Rを採用すれば、競合は解消される。

図９や図１０に示した競合解消テーブル自体をユーザに提示して、分類ルールの競合状態を提示するようにしても良い。上で述べた意味を理解していれば、例えば相反パターンの列において適切な特徴パターンを選択して分類ルールＤＢ１１に追加すると共に、整合パターンの列における対応する特徴パターンをさらに選択して分類ルールＤＢ１１に追加し、さらに分類ルールの列における対応する分類ルールを分類ルールＤＢ１１から除外するように指示する。その他、競合解消に必要な指示を行うことも可能となる。

なお、相反パターンの列に含まれる特徴パターンを第１の集合、整合パターンの列に含まれる特徴パターンを第２の集合に分類するだけでも、特徴パターンの性質を理解した上で、分類ルールＤＢ１１に追加の指示を行うことができるようになる。

図４の説明に戻って、分類ルール生成処理部２３は、処理結果データ格納部１９に格納されているデータを用いて分類ルール生成処理を実施する（ステップＳ９）。この処理については、図１１及び図１２を用いて詳細に説明する。

まず第１の分類ルール生成処理を図１１を用いて説明する。分類ルール生成処理部２３は、処理結果データ格納部１９に格納されているデータに基づき、分類ルールＬ＝＞Ｒを１つ特定する（ステップＳ４１）。そして、分類ルールＬ＝＞Ｒに対応する集合Ｔ_L＝＞R及び集合Ｆ_L＝＞Rに属する特徴パターンを処理結果データ格納部１９において特定し、｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜であるか判断する（ステップＳ４３）。｜Ｔ_L＝＞R｜は、集合Ｔ_L＝＞Rに含まれる特徴パターンの数、｜Ｆ_L＝＞R｜は、集合Ｆ_L＝＞Rに含まれる特徴パターンの数を表す。例えば予め閾値を用意しておき、それらの差が当該閾値以上となっているか判断する。

｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜という条件が満たされていれば、集合Ｆ_L＝＞Rの否定ルール化を行う（ステップＳ４５）。例えば、条件部（Ｌ）が「ブルガリア」及び帰結部（Ｒ）が「アロマ」である分類ルールＬ＝＞Ｒを処理対象とすると、上で述べたように、対応する集合Ｆ_L＝＞Rの特徴パターンの数｜Ｆ_L＝＞R｜＝４となる。また、対応する集合Ｔ_L＝＞Rの特徴パターンの数｜Ｔ_L＝＞R｜＝１となるので、ステップＳ４３の条件を満たすとする。そうすると、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンとを否定ルール化することになる。ここではキーワード「ブルガリア」は共通するが、もう一つのキーワードはばらばらである。但し、対応する集合Ｔ_L＝＞Rにはキーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンが含まれるので、商品名に「オイル」が使用されていると正解カテゴリが「アロマ」となってしまう。従って、「ブルガリア」を含んでいても「オイル」を含まない特徴パターンでなければ、競合なしに採用できない。本ステップでは、集合Ｔ_L＝＞Rの特徴パターンに含まれる「オイル」を否定化したものを用いて、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンを生成する。図９に示されているＦ_{ブルガリア＝＞アロマ}には４つの特徴パターンが含まれていたが、否定ルール化されたことにより新しく生成された特徴パターン集合に置換される。

このように否定ルール化を実施することにより、ルールの数は低減されるため人間に分かりやすいルールベースの構築が可能となる。また、否定ルール化により将来追加される商品データを条件部が充足する可能性が高くなることが期待できるため、将来における有用性が高まるという期待もある。

一方、｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜という条件が満たされなければステップＳ４７に移行する。ステップＳ４５の後に又はステップＳ４３で条件が満たされなかった場合には、全ての分類ルールＬ＝＞Ｒについて処理が完了したか判断する（ステップＳ４７）。未処理が存在する場合にはステップＳ４１に戻る。

一方、全ての分類ルールＬ＝＞Ｒを処理した場合には、分類ルール生成処理部２３は、集合Ｆ_L＝＞R及びＦ_φで分類ルール候補集合Ｆを構成し、当該分類ルール候補集合Ｆのデータを処理結果データ格納部１９に格納する（ステップＳ４９）。

また、分類ルール生成処理部２３は、分類ルール候補集合Ｆに含まれる特徴素（キーワード）ｖの出現頻度score(v)を正解データＤＢ９から算出し、記憶装置に格納する（ステップＳ５１）。例えば「ブルガリア」「オイル」「ジャム」などのキーワード毎に出現頻度を算出する。

そして、分類ルール生成処理部２３は、分類ルール候補集合Ｆに含まれる特徴パターンｐ＝＞ｃを特定する（ステップＳ５３）。そして、Score(p＝＞c)＝Σ_pscore(v)を算出する（ステップＳ５５）。このステップでは、パターンｐに含まれるキーワードvのscore(v)の総和を算出する。そして、分類ルール候補集合Ｆ内の全ての特徴パターンを処理したか判断する（ステップＳ５７）。分類ルール候補集合Ｆ内に未処理の特徴パターンが存在する場合にはステップＳ５３に戻る。一方、分類ルール候補集合Ｆ内の全ての特徴パターンを処理した場合には、Score(p＝＞c)の大きい順に分類ルール候補集合Ｆ内の特徴パターンをソートし、その結果を処理結果データ格納部１９に格納する（ステップＳ５９）。そして元の処理に戻る。

このように、否定ルール化及び分類ルール候補集合Ｆ内の特徴パターンの優先度付けが行われる。なお、図１１の処理フローでは、相反パターンに該当する特徴パターンのみを否定ルール化の対象となっている。これは、以下の処理でユーザが選択する特徴パターンが、相反パターンに該当する特徴パターンであるためである。

なお、図１１ではなく図１２のような処理を分類ルール生成処理として実行するようにしても良い。すなわち、分類ルール生成処理部２３は、処理結果データ格納部１９に格納されているデータに基づき、分類ルールＬ＝＞Ｒを１つ特定する（ステップＳ６１）。そして、分類ルールＬ＝＞Ｒに対応する集合Ｔ_L＝＞R及び集合Ｆ_L＝＞Rに属する特徴パターンを処理結果データ格納部１９において特定し、｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜であるか判断する（ステップＳ６３）。

｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜という条件が満たされていれば、集合Ｆ_L＝＞Rの否定ルール化を行う（ステップＳ６５）。一方、｜Ｔ_L＝＞R｜≪｜Ｆ_L＝＞R｜という条件が満たされなければステップＳ６７に移行する。ステップＳ６５の後に又はステップＳ６３で条件が満たされなかった場合には、全ての分類ルールＬ＝＞Ｒについて処理が完了したか判断する（ステップＳ６７）。未処理が存在する場合にはステップＳ６１に戻る。

一方、全ての分類ルールＬ＝＞Ｒを処理している場合には、分類ルール生成処理部２３は、処理結果データ格納部１９に格納されているデータに基づき、分類ルールＬ＝＞Ｒを１つ特定する（ステップＳ６９）。そして、分類ルールＬ＝＞Ｒに対応する集合Ｔ_L＝＞R及び集合Ｆ_L＝＞Rに属する特徴パターンを処理結果データ格納部１９において特定し、｜Ｔ_L＝＞R｜≫｜Ｆ_L＝＞R｜であるか判断する（ステップＳ７１）。

｜Ｔ_L＝＞R｜≫｜Ｆ_L＝＞R｜という条件が満たされていれば、集合Ｔ_L＝＞Rの否定ルール化を行う（ステップＳ７３）。上で述べた第２の例では、集合Ｔ_L＝＞Rには、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンとが含まれる。一方、対応する集合Ｆ_L＝＞Rは、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンとを含む。従って、キーワード「学習」は共通するが、さらにキーワード「英会話」が含まれる場合には、正解カテゴリが「教育」となってしまう。そこで、「英会話」を否定化することによって、集合Ｔ_L＝＞Rをキーワード「学習」且つ「¬英会話」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンを含む集合とする。図１０に示されているＴ_{学習＝＞辞書・翻訳}には５つの特徴パターンが含まれていたが、否定ルール化されたことにより新しく生成された特徴パターン集合に置換される。

一方、｜Ｔ_L＝＞R｜≫｜Ｆ_L＝＞R｜という条件が満たされなければステップＳ７５に移行する。ステップＳ７３の後に又はステップＳ７１で条件が満たされなかった場合には、全ての分類ルールＬ＝＞Ｒについて処理が完了したか判断する（ステップＳ７５）。未処理が存在する場合にはステップＳ６９に戻る。

全ての分類ルールＬ＝＞Ｒを処理した場合には、分類ルール生成処理部２３は、集合Ｆ_L＝＞R及びＦ_φで分類ルール候補集合Ｆを構成し、また全ての集合Ｔ_L＝＞Rで分類ルール候補集合Ｔを構成し、また既存の全分類ルール集合Ｓから全競合ルール集合Ｇを除外して分類ルール候補集合（Ｓ−Ｇ）を構成し、さらに集合ＦとＴと（Ｓ−Ｇ）の和集合である分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔを構成し、当該分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔのデータを処理結果データ格納部１９に格納する（ステップＳ７７）。なお、上で述べた、分類ルール候補集合Ｆ、分類ルール候補集合Ｔ及び全競合ルール集合Ｇは以下に示すとおりである。また、上でも述べたように、分類ルール候補集合ＦにはＦ_φが含まれている。

また、分類ルール生成処理部２３は、分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔに含まれる特徴素（キーワード）ｖの出現頻度score(v)を正解データＤＢ９から算出し、記憶装置に格納する（ステップＳ７９）。

そして、分類ルール生成処理部２３は、分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔに含まれる特徴パターンｐ＝＞ｃを特定する（ステップＳ８１）。そして、Score(p＝＞c)＝Σ_pscore(v)を算出し、処理に係る特徴パターンｐ＝＞ｃに対応して処理結果データ格納部１９に格納する（ステップＳ８３）。このステップでは、パターンｐに含まれるキーワードvのscore(v)の総和を算出する。そして、分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔ内の全ての特徴パターンを処理したか判断する（ステップＳ８５）。分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔ内に未処理の特徴パターンが存在する場合にはステップＳ８１に戻る。一方、分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔ内の全ての特徴パターンを処理した場合には、Score(p＝＞c)の順に分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔ内の特徴パターンをソートし、その結果を処理結果データ格納部１９に格納する（ステップＳ８７）。そして元の処理に戻る。

このように、否定ルール化及び分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔ内の特徴パターンの優先度付けが行われる。なお、図１２の処理フローでは、相反パターン及び整合パターンに該当する特徴パターンを否定ルール化を行っている。これは、以下の処理で分類ルールＤＢ１１に登録する特徴パターンが、整合パターン又は相反パターンに該当する特徴パターンであるためである。

図１１の例でも図１２の例でも集合Ｆ_φ及びＦ_L＝＞Rに含まれる特徴パターンをソートしていたが、集合Ｆ_L＝＞Rを優先順位付けするようにしても良い。

図４の説明に戻って、次に分類ルール登録処理部２１は、処理結果データ格納部１９を用いて分類ルール登録処理を実施し、分類ルールＤＢ１１を更新する（ステップＳ１１）。この処理については、図１３乃至図１６を用いて詳細に説明する。

図１３に分類ルール登録処理の第１の例を示す。この処理は図１１の処理の後に実施する。但し、ステップＳ４１乃至ステップＳ４７については省略することが可能である。分類ルール登録処理部２１は、処理結果データ格納部１９に格納されている分類ルール候補集合Ｆの特徴パターンをScore(p＝＞c)に基づくソート順に列挙して、ユーザに選択を促すように表示装置に表示する（ステップＳ９１）。上で述べた第１の例では、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが列挙される。ユーザは、列挙されている特徴パターンのうち、分類ルールＤＢ１１に登録すべき特徴パターンを選択する。

そして、分類ルール登録処理部２１は、ユーザから特徴パターンｐ＝＞ｃの選択を受け付ける（ステップＳ９３）。そして、処理結果データ格納部１９における分類ルール候補集合Ｆから、選択された特徴パターンｐ＝＞ｃを除外する（ステップＳ９５）。また、処理結果データ格納部１９において、選択された特徴パターンｐ＝＞ｃが属する集合Ｆ_L＝＞Rを探索する（ステップＳ９７）。そして、集合Ｆ_L＝＞Rに対応する分類ルールＬ＝＞Ｒを特定し、競合ルールとして分類ルールＤＢ１１から除外する（ステップＳ９９）。なお、既に除外されている場合もあるので、その場合には本ステップをスキップする。また、集合Ｆ_φの中から選択した場合には、対応する分類ルールＬ＝＞Ｒは存在しないので、スキップする。

また、対応する集合Ｔ_L＝＞Rに属する特徴パターンを全て分類ルールＤＢ１１に追加登録する（ステップＳ１０１）。本ステップも既に追加登録されている場合にはスキップする。また、集合Ｆ_φの中から選択した場合には、対応するＴ_L＝＞Rは存在しないので、スキップする。さらに、選択特徴パターンｐ＝＞ｃを分類ルールＤＢ１１に追加登録する（ステップＳ１０３）。

例えば上で述べた第１の例において、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンが選択された場合には、この特徴パターンを分類ルールＤＢ１１に追加登録すると共に、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールを分類ルールＤＢ１１から除外する。また、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンを分類ルールＤＢ１１に追加登録する。

その後、ユーザが特徴パターンの選択を終了するように指示したか判断する（ステップＳ１０５）。特徴パターンの選択を終了するように指示していない場合にはステップＳ９１に戻る。一方、ユーザが特徴パターンの選択を終了するように指示した場合には、元に処理に戻る。

このように、相反パターンに係る特徴パターンのうちユーザが必要と考える特徴パターンについては分類ルールＤＢ１１に追加し、競合を生ずる既登録の分類ルールを除外し、対応する整合パターンに係る特徴パターンを追加する。そうすれば、新規商品の追加の際に、分類ルールの優先順位付け無しに且つ競合を生ずることなく分類ルールＤＢ１１を更新することができるようになる。

なお図１３には示されていないが、新規商品の商品名及び正解カテゴリは、正解データＤＢ９に登録される。

また、図１１の処理の後に、図１４に示すような処理を行うようにしてもよい。但し、図１１のステップＳ４１乃至ステップＳ４７について省略することが可能である。すなわち、分類ルール登録処理部２１は、処理結果データ格納部１９において、対応する集合Ｆ_L＝＞Rが空ではない分類ルールの集合Ｓ（ｐ）に属する分類ルールＬ＝＞Ｒを特定し、当該分類ルールＬ＝＞Ｒを全て分類ルールＤＢ１１から除外する（ステップＳ１１１）。

また、処理結果データ格納部１９において、削除された競合ルールＬ＝＞Ｒに対応する集合Ｔ_L＝＞Rに属する特徴パターンを特定し、全て分類ルールＤＢ１１に追加登録する（ステップＳ１１３）。

その後、処理結果データ格納部１９に格納されている分類ルール候補集合Ｆの特徴パターンをScore(p＝＞c)に基づくソート順に列挙して、ユーザに選択を促すように表示装置に表示する（ステップＳ１１５）。そして、ユーザから特徴パターンｐ＝＞ｃの選択を受け付け（ステップＳ１１７）、選択特徴パターンｐ＝＞ｃを分類ルールＤＢ１１に追加登録する（ステップＳ１１９）。

そして、ユーザが特徴パターンの選択を終了するように指示したか判断する（ステップＳ１２１）。特徴パターンの選択を終了するように指示していない場合にはステップＳ１１７に戻る。一方、ユーザが特徴パターンの選択を終了するように指示した場合には、元に処理に戻る。

このように、矛盾を生じている分類ルールを除外して、除外した結果必要となる整合パターンに係る特徴パターンを追加して、相反パターンに係る特徴パターンについてはユーザの指示に応じて登録する。このような処理を行っても、分類ルールＤＢ１１において分類ルールの優先順位付けを行うこと無しに且つ競合を生ずることなく、新商品に対応することが可能な分類ルールが蓄積されるようになる。

なお、分類ルール候補集合Ｆから、選択特徴パターンを除外する処理を行う場合にはステップＳ１２１からステップＳ１１５に戻るようにしてもよい。

次に、図１５及び図１６を用いて分類ルール登録処理の第３の例を示す。なお。本処理については図１２の処理によって分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔが生成される場合における処理である。なお、本処理フローは上で述べた２つの例とは異なり、分類ルールＤＢ１１に登録する分類ルールの選択を人手によらず自動的に行うためのものである。また、図１２の処理によって算出されるスコアScoreは、処理の順番を定めている。

第３の例では、スコア順に分類ルールを追加する方法を採用し、分類ルールの追加が、ルールベースの精度向上に貢献しなくなったところでルール追加を停止する。これにより、スコアが高いルールを含み、かつ精度が極大なルールベースを構築する。まず、分類ルール登録処理部２１は、正解データＤＢ９に含まれる全正解データを集合Ｕ、最も商品数が多いカテゴリδに属する正解データを集合Ｄと分類する（ステップＳ１３１）。本実施の形態では、カテゴリδをデフォルトカテゴリとし、いずれのルールによっても分類されないデータは、このカテゴリδに分類されるものとする。また、初期的に、未分類データ集合Ｗ（＝Ｕ）を構成する（ステップＳ１３３）。このような分類のためのデータについては、作業用の記憶領域に格納される。さらに、Ｘ＝φ，Ｙ＝φ，Ｚ＝φと設定する（ステップＳ１３５）。なお、Ｘは、分類ルールによる分類が正解となる商品の集合、Ｙは、分類ルールによる分類が不正解となる商品の集合、Ｚは、これから生成される分類ルールの集合である。Ｘ∪Ｙは分類済商品の集合を表す。

また、分類ルール登録処理部２１は、preErr＝（｜Ｙ｜＋｜Ｗ−Ｄ｜）／｜Ｕ｜を算出し、記憶装置に格納する（ステップＳ１３７）。なお、｜Ｙ｜は集合Ｙに属する要素数（サイズ）を表す。同様に、｜Ｗ−Ｄ｜は、集合Ｗと集合Ｄの差集合Ｗ−Ｄに属する要素数であり、｜Ｕ｜は集合Ｕの要素数である。なお、本ステップにおいて算出されるpreErrは初期的なエラー率であって、集合Ｙ＝φであるからカテゴリδに含まれない商品については誤分類されるものとして算出したエラー率となる。

次に、分類ルール登録処理部２１は、処理結果データ格納部１９に格納されている分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔに属する特徴パターンｐ＝＞ｃをScore(p＝＞c)の高い順に１つ取り出す（ステップＳ１３９）。そして、正解データＤＢ９から、ステップＳ１３９で取り出した特徴パターンｐ＝＞ｃの条件部ｐを充足する商品を全て取り出して集合Ｅを構成する（ステップＳ１４１）。集合Ｅのデータは、例えば作業用の記憶領域に格納する。

さらに、分類ルール登録処理部２１は、商品ｅを集合Ｅから１つ取り出し（ステップＳ１４３）、ｅ∈Ｗであるか判断する（ステップＳ１４５）。すなわち、商品ｅが既に追加済みのルールにより分類済みか否かを判断する。商品ｅが未分類データ集合Ｗに属していない場合には、端子Ｂを介して図１６のステップＳ１５５に移行する。一方商品ｅが未分類データ集合Ｗに属している場合には、端子Ａを介して図１６のステップＳ１４７に移行する。

そして、分類ルール登録処理部２１は、ステップＳ１３９で取り出された特徴パターンｐ＝＞ｃを集合Ｚに加え（Ｚ＝Ｚ∪｛ｐ＝＞ｃ｝）、未分類データ集合Ｗから商品ｅを取り除く（Ｗ＝Ｗ−｛ｅ｝）（ステップＳ１４７）。集合Ｚに特徴パターンを追加登録する順番は優先度順になるため、集合Ｚ内でもこの順序は保持される。また、ステップＳ１３９で取り出された特徴パターンｐ＝＞ｃによる商品ｅの分類先カテゴリが当該商品ｅの本来の分類先カテゴリｃと一致するか判断する（ステップＳ１４９）。一致しない場合には、誤分類となるので、商品ｅを集合Ｙに追加する（ステップＳ１５１）。一方、一致する場合には、特徴パターンが正しい分類を行ったことになるので、商品ｅを集合Ｘに追加する（ステップＳ１５３）。

その後、分類ルール登録処理部２１は、集合Ｅの全ての商品ｅを処理したか判断する（ステップＳ１５５）。もし未処理の商品ｅが集合Ｅ内に存在する場合には端子Ｃを介して図１５のステップＳ１４３に戻る。一方、未処理の商品ｅが集合Ｅ内に存在しない場合には、エラー率Ｅｒｒ＝（｜Ｙ｜＋｜Ｗ−Ｄ｜）／｜Ｕ｜を算出し、記憶装置に格納する（ステップＳ１５７）。なお、集合Ｗに属する商品は集合Ｄに属するものがあり、集合Ｅに属する商品は集合Ｄに属するものがある。従って、集合Ｅの処理によって｜Ｙ｜が増加しても、その増加よりも｜Ｗ−Ｄ｜の減少が小さい場合がある。例えば、集合Ｗから商品ｅを除外することになっても、当該商品ｅが集合Ｄにも属している場合は、集合Ｗと集合Ｄの差集合Ｗ−Ｄに属する商品数は減少しない。

そして、Ｅｒｒ＞ＰｒｅＥｒｒであるか判断する（ステップＳ１５９）。もし、ＰｒｅＥｒｒよりＥｒｒが増加している場合には、ステップＳ１３９で特定された特徴パターンｐ＝＞ｃを集合Ｚから取り除き（ステップＳ１６３）、元の処理に戻る。一方、ＥｒｒがＰｒｅＥｒｒ以下である場合には、ｐｒｅＥｒｒ＝Ｅｒｒと設定する（ステップＳ１６１）。そして、分類ルール候補集合（Ｓ−Ｇ）∪Ｆ∪Ｔに属する全ての特徴パターンを処理したか判断する（ステップＳ１６５）。未処理が存在する場合には端子Ｄを介してステップＳ１３９に戻る。

このようにエラー率が増加するまで特徴パターンを分類ルールとして集合Ｚに追加してゆく。そしてステップＳ１６５で全ての特徴パターンを処理したと判断された場合には、集合Ｚで分類ルールＤＢ１１を更新する（ステップＳ１６７）。

以上述べたような処理を実施することにより、新たな商品を適切に取り扱うことができる分類ルールを作成することができるようになる。

以上本発明の実施の形態を説明したが、本発明はこれに限定されない。すなわち、上では否定ルール化を行うような処理フローを示したが、必ず否定ルール化を行わなければならないわけではない。否定ルール化を行わない場合には、例えば図１５及び図１６のために競合解消テーブルを生成せずとも良い。

また、図１に示した機能ブロック図は必ずしも実際のプログラムモジュールに対応するものではない。

さらに、上で述べたようにスタンドアロン形式で構成しても良いし、１又は複数のサーバにより上で述べた機能を実現し、ネットワークに接続された端末から新規商品のデータをサーバに登録するといったように構成してもよい。

また、図１３及び図１４においてユーザに提示する画面は、例えば図１７に示すようなものであっても良い。図１３及び図１４の説明では、Scoreの値に応じて列挙するだけであったが、図１７に示すように、新規商品の商品名を形態素解析した結果である「キーワード抽出結果」及び正解カテゴリのコードと、分類ルールＤＢ１１における、当該新規商品の商品名を正しく分類できるルールの検索結果である分類ルール検索結果（この例では「なし」）と、集合Ｆ_φ（新分類ルール生成）と、集合Ｆ_φ以外の競合解消テーブルとを含むようにしてもよい。この場合、ユーザは、分類ルールＤＢ１１に登録すべきルールをクリックして、分類ルールＤＢ１１に登録させる。

さらに、分類ルール生成支援装置は、図１８に示すようなコンピュータ装置であって、メモリ２５０１（記憶装置）とＣＰＵ２５０３（処理装置）とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

（付記１）
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップと、
を含み、コンピュータに実行される分類ルール作成支援方法。

（付記２）
データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップ、
をさらに含み、
前記第１の集合が、第１のグループと第２のグループとを有し、
前記第１のグループが、第１の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンのグループであり、
前記抽出分類ルール格納部には、前記第１の特定の条件を充足する分類ルールが格納されており、
前記第２のグループが、前記第１のグループのいずれにも属しない特徴パターンのグループであり、
前記第２の集合が、第２の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリとは異なるカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンの第３のグループを有し、
前記抽出分類ルール格納部には、前記第２の特定の条件を充足する分類ルールが格納されている
付記１記載の分類ルール作成支援方法。

（付記３）
前記グループ化ステップが、
前記抽出分類ルール格納部に格納されており且つ前記第１のグループに対応する前記分類ルールの第４のグループを生成するステップ
を含む
付記２記載の分類ルール作成支援方法。

（付記４）
前記第１のグループに属する前記特徴パターンの数が当該第１のグループに関連する前記第３のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第１のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップ
をさらに含む付記２記載の分類ルール作成支援方法。

（付記５）
前記第１のグループに属する前記特徴パターンの数が当該第１のグループに関連する前記第３のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第１のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
前記第３のグループに属する前記特徴パターンの数が当該第３のグループに関連する前記第１のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第３のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
をさらに含む付記２記載の分類ルール作成支援方法。

（付記６）
前記第１の集合に含まれる前記特徴パターンの特徴素に基づき当該特徴パターンのスコアを算出し、前記特徴パターンに対応して前記グループデータ格納部に格納するステップ
をさらに含む付記２記載の分類ルール作成支援方法。

（付記７）
前記第１の集合と第２の集合と前記抽出分類ルール格納部に格納されいる全ての前記分類ルールから前記第１のグループに対応する前記分類ルールを除外した第３の集合とに含まれる前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記グループデータ格納部に格納するステップ
をさらに含む付記５記載の分類ルール作成支援方法。

（付記８）
前記第４のグループに属する分類ルールを前記分類ルール格納部から除外する場合には、当該第４のグループに関連する第３のグループに属する特徴パターンを前記分類ルール格納部に格納するステップ、
をさらに含む付記３記載の分類ルール作成支援方法。

（付記９）
前記第１の集合に含まれる前記特徴パターンをユーザに提示するステップと、
前記ユーザから特徴パターンの指定を受け付けるステップと、
指定された前記特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第１のグループに関連する第３のグループを特定し、当該第３のグループに含まれる特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第１のグループに対応する第４のグループを特定し、当該第４のグループに属する分類ルールを前記分類ルール格納部から除外するステップと、
をさらに含む付記３記載の分類ルール作成支援方法。

（付記１０）
前記第４のグループに含まれる分類ルールを前記分類ルール格納部から除外するステップと、
前記第４のグループに関連する第３のグループを特定し、当該第３のグループに含まれる特徴パターンを前記分類ルール格納部に格納するステップと、
前記第１の集合に含まれる前記特徴パターンをユーザに提示するステップと、
前記ユーザから特徴パターンの指定を受け付けるステップと、
指定された前記特徴パターンを前記分類ルール格納部に格納するステップと、
をさらに含む付記３記載の分類ルール作成支援方法。

（付記１１）
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録するステップ
をさらに含む付記７記載の分類ルール作成支援方法。

（付記１２）
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、
前記特徴パターン格納部に格納されている前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記特徴パターン格納部に格納するステップと、
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録するステップと、
を含み、コンピュータに実行される分類ルール作成支援方法。

（付記１３）
付記１乃至１２のいずれか１つ記載の分類ルール作成支援方法をコンピュータに実行させるためのプログラム。

（付記１４）
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納する手段と、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納する手段と、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とに分類し、分類結果をグループデータ格納部に格納する分類手段と、
を有する分類ルール作成支援装置。

（付記１５）
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納する手段と、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納する手段と、
前記特徴パターン格納部に格納されている前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記特徴パターン格納部に格納する手段と、
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録する手段と、
を有する分類ルール作成支援装置。

本発明の実施の形態の機能ブロック図である。正解データＤＢに格納されるデータの一例を示す図である。分類ルールＤＢに格納されるデータの一例を示す図である。本発明の実施の形態におけるメイン処理フローを示す図である。新規商品データの入力画面例を示す図である。エマージングパターンを説明するための図である。競合解消処理の処理フローの一例を示す図である。充足の定義を説明するための図である。競合解消テーブルの第１の例を示す図である。競合解消テーブルの第２の例を示す図である。分類ルール生成処理の処理フローの第１の例を示す図である。分類ルール生成処理の処理フローの第２の例を示す図である。分類ルール登録処理の処理フローの第１の例を示す図である。分類ルール登録処理の処理フローの第２の例を示す図である。分類ルール登録処理の処理フローの第３の例を示す図である。分類ルール登録処理の処理フローの第３の例を示す図である。分類ルール登録処理の処理フローの第１及び第２の例において表示される画面の他の例を示す図である。コンピュータの機能ブロック図である。

符号の説明

１商品データ入力部３新規商品データ格納部５特徴パターン抽出部
７分類ルール抽出部９正解データＤＢ１１分類ルールＤＢ
１３抽出分類ルール格納部１５特徴パターン格納部
１７グループ化処理部１９処理結果データ格納部
２１分類ルール登録処理部２３分類ルール生成処理部

Claims

新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップと、
を含み、コンピュータに実行される分類ルール作成支援方法。
データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップ、
をさらに含み、
前記第１の集合が、第１のグループと第２のグループとを有し、
前記第１のグループが、第１の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンのグループであり、
前記抽出分類ルール格納部には、前記第１の特定の条件を充足する分類ルールが格納されており、
前記第２のグループが、前記第１のグループのいずれにも属しない特徴パターンのグループであり、
前記第２の集合が、第２の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリとは異なるカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンの第３のグループを有し、
前記抽出分類ルール格納部には、前記第２の特定の条件を充足する分類ルールが格納されており、
前記グループ化ステップが、
前記抽出分類ルール格納部に格納されており且つ前記第１のグループに対応する前記分類ルールの第４のグループを生成するステップ
を含む請求項１記載の分類ルール作成支援方法。
前記第１の集合に含まれる前記特徴パターンをユーザに提示するステップと、
前記ユーザから特徴パターンの指定を受け付けるステップと、
指定された前記特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第１のグループに関連する第３のグループを特定し、当該第３のグループに含まれる特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第１のグループに対応する第４のグループを特定し、当該第４のグループに属する分類ルールを前記分類ルール格納部から除外するステップと、
をさらに含む請求項２記載の分類ルール作成支援方法。
データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップ、
をさらに含み、
前記第１の集合が、第１のグループと第２のグループとを有し、
前記第１のグループが、第１の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンのグループであり、
前記抽出分類ルール格納部には、前記第１の特定の条件を充足する分類ルールが格納されており、
前記第２のグループが、前記第１のグループのいずれにも属しない特徴パターンのグループであり、
前記第２の集合が、第２の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリとは異なるカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンの第３のグループを有し、
前記抽出分類ルール格納部には、前記第２の特定の条件を充足する分類ルールが格納されており、
前記第１のグループに属する前記特徴パターンの数が当該第１のグループに関連する前記第３のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第１のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
前記第３のグループに属する前記特徴パターンの数が当該第３のグループに関連する前記第１のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第３のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
前記第１の集合と第２の集合と前記抽出分類ルール格納部に格納されいる全ての前記分類ルールから前記抽出分類ルール格納部に格納されており且つ前記第１のグループに対応する前記分類ルールを除外した第３の集合とに含まれる前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記グループデータ格納部に格納するステップと、
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで前記グループデータ格納部に格納された前記特徴パターンを前記分類ルール格納部に登録するステップと、
をさらに含む請求項１記載の分類ルール作成支援方法。
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納する手段と、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納する手段と、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第１の集合と合致しない第２の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納する分類手段と、
を有する分類ルール作成支援装置。