JP4429236B2 - 分類ルール作成支援方法 - Google Patents

分類ルール作成支援方法 Download PDF

Info

Publication number
JP4429236B2
JP4429236B2 JP2005239194A JP2005239194A JP4429236B2 JP 4429236 B2 JP4429236 B2 JP 4429236B2 JP 2005239194 A JP2005239194 A JP 2005239194A JP 2005239194 A JP2005239194 A JP 2005239194A JP 4429236 B2 JP4429236 B2 JP 4429236B2
Authority
JP
Japan
Prior art keywords
classification rule
storage unit
feature pattern
feature
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005239194A
Other languages
English (en)
Other versions
JP2007052744A (ja
Inventor
宏弥 稲越
寛治 内野
大悟 井上
宏和 半野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005239194A priority Critical patent/JP4429236B2/ja
Priority to US11/281,956 priority patent/US8176050B2/en
Priority to CNA2005101319068A priority patent/CN1916895A/zh
Priority to CNA2008101781455A priority patent/CN101430704A/zh
Publication of JP2007052744A publication Critical patent/JP2007052744A/ja
Application granted granted Critical
Publication of JP4429236B2 publication Critical patent/JP4429236B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ項目に対する分類ルールの作成を支援するための技術に関する。
従来、利用者が作成する分類ルールによってデータ項目を分類する際に、以下のような問題があった。
(1)データ追加に伴うルールの追加修正
分類すべきデータ項目は次々に追加されるのが通常である。このような場合には、一度作り上げた分類ルールだけでは追加されるデータ項目を分類できないため、随時新たなルールの追加や既存ルールの修正が必要となる。しかしながら、分類に有効なルールを作成するのは容易ではない。
(2)分類ルールと分類済みデータの整合性
ルールの追加修正により、データが以前とは異なったカテゴリに帰結するとき、ルールは分類済データに対して矛盾すると言い、このようなルールを矛盾ルールと呼ぶ。データ項目をカテゴリツリーの配下に分類するディレクトリ型検索サービスにおいては、ルールベースの更新前後で分類結果が同一であることを保証する手段を有することが望まれる。そのため、追加修正したルールが、既に分類済みのデータを以前とは異なったカテゴリに帰結すること、すなわち矛盾がないかを検証し、もし矛盾を生じる場合には、このルールを再び修正することを繰り返す。このような検証の作業コストは高く、矛盾が発生しないルールを自動生成する技術が望まれている。
(3)分類ルール間の整合性
追加修正したルールとそれ以外のルールが、既知のデータ項目を異なるカテゴリに帰結させる場合、すなわち競合ルールが生成される場合があり得る。例えば「PかつQならばC1に分類する」というルールと、「PかつRならばC2に分類する」というルールは、「PかつQかつR」というデータ項目をそれぞれC1及びC2に分類する。C1とC2が異なる時、最初のルールと2番目のルールとは競合ルールである。ルールベースは、各データ項目を最終的に唯一のカテゴリに帰結させる必要があるため、競合が発生する場合にはこれを解消する手段が必要である。このため、ルールの評価順を予め定めておき、最初にマッチしたルールを用いて帰結先のカテゴリを決定する方法(ファーストマッチ方式)などがよく知られている。しかしながら、競合ルールが多数となると、分類先カテゴリはルールの適用順に強く影響されることになり、個別のルールの妥当性の判断が困難になる。そのため、できるだけ競合ルールを作らないことが重要であるが、一般的には困難である。
なお、例えば特開2002−157262号公報には、分類体系が客観的で複雑な場合、利用者が登録したい分類ルールが真に妥当か否かを評価するための情報を利用者に提示するための技術が開示されている。具体的には、分類ルールに基づいて電子文書をカテゴリに分類する文書分類システムにおける分類ルール定義支援方法では、入力装置を介して利用者によって入力された分類ルールを複数の分類済み電子文書に適用することによって当該分類ルールがどの程度信頼性があり、分類精度の向上あるいは維持にどの程度貢献するかを計算し、計算結果を出力装置を介して利用者に報知するものである。しかし、分類ルールの候補を作成する機能を有していないので、ユーザ側で分類体系及び電子文書の特徴を習熟する必要があり、熟練していないユーザにとって分類ルールを作成するのは非常に困難である。また、新たに作成するルールだけを考慮するだけでは既存のルールと競合が発生する場合があるが、本公報ではこの点につき考慮されていない。
特開2002−157262号公報
以上のように従来技術では、新規のデータ項目に対する適切な分類ルールを生成することができず、さらに既存分類ルールとの競合を解消することもできない。
従って、本発明の目的は、新規のデータ項目に対する分類ルールを適切に生成するための支援技術を提供することである。
本発明に係る分類ルール作成支援方法は、新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、記憶装置に格納された新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、特徴パターン格納部に格納された特徴パターンを、記憶装置に格納された新規のデータ項目のカテゴリに合致しない第1の集合と合致する第2の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップとを含む。
このようにすれば、分類ルールの候補となる特徴パターンが自動的に生成され、さらに例えば第1の集合から、これから適用すべき分類ルールとして特定の特徴パターンを選択させることができるようになる。
また、本発明において、データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、記憶装置に格納された新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップをさらに含むようにしてもよい。また、第1の集合が、第1のグループ有し、当該第1のグループが、第1の特定の条件と記憶装置に格納されている新規のデータ項目のカテゴリと異なるカテゴリとを有し且つ特徴パターン格納部に格納されている特徴パターンのグループであり、抽出分類ルール格納部には、第1の特定の条件を充足する分類ルールが格納されようにしてもよい。さらに、第2の集合が、第2の特定の条件と記憶装置に格納されている新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ特徴パターン格納部に格納されている特徴パターンの第3のグループを有し、抽出分類ルール格納部には、第2の特定の条件を充足する分類ルールが格納されているようにしてもよい。このようにすれば、特徴パターンの性質及び関係、分類ルール格納部に格納されている分類ルールとの関係などが整理された形で提示できるようになる。また、提示されたことにより、競合の解消を行うこともできる。
さらに、上で述べたグループ化ステップが、抽出分類ルール格納部に格納されており且つ第1のグループに対応する分類ルールの第4のグループを生成するステップを含むようにしてもよい。
また、本発明において、第1のグループに属する特徴パターンの数が当該第1のグループに関連する第3のグループに属する特徴パターンの数に関する条件を満たす場合には、第1のグループに属する特徴パターンの条件を否定ルールを含む条件に変更するステップと、第3のグループに属する特徴パターンの数が当該第3のグループに関連する第1のグループに属する特徴パターンの数に関する条件を満たす場合には、第3のグループに属する特徴パターンの条件を否定ルールを含む条件に変更するステップとをさらに含むようにしてもよい。このような処理を行うことによって、ルール数が減少し、ユーザが把握しやすいルールベースを構築することができる。なお、否定ルール化によって単純化されたルールは、その条件部が将来追加される商品データを充足する可能性が高くなるという、将来にわたる有効性が期待される。
さらに、本発明において、第1の集合と第2の集合と抽出分類ルール格納部に格納されいる全ての分類ルールから第4のグループに属する分類ルールを除外した第3の集合とに含まれる特徴パターンの特徴素に基づき当該パターンのスコアを算出し、特徴パターンに対応してグループデータ格納部に格納するステップをさらに含むようにしても良い。このようにすれば、ユーザに提示する優先度を決定したり、分類ルールとして採用する優先度を決定することができるようになる。
また、本発明において、第1の集合に含まれる特徴パターンをユーザに提示するステップと、ユーザから特徴パターンの指定を受け付けるステップと、指定された特徴パターンを分類ルール格納部に格納するステップと、指定された特徴パターンが属する第1のグループに関連する第3のグループを特定し、当該第3のグループに含まれる特徴パターンを分類ルール格納部に格納するステップと、指定された特徴パターンが属する第1のグループに対応する第4のグループを特定し、当該第4のグループに属する分類ルールを分類ルール格納部から除外するステップとをさらに含むようにしてもよい。このようにすれば、分類ルール格納部を適切に更新することができるようになる。
さらに、本発明において、グループデータ格納部に格納された、特徴パターンのスコアの順に、正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまでグループデータ格納部に格納された特徴パターンを分類ルール格納部に登録するステップをさらに含むようにしても良い。これにより、自動的に新たな分類ルールを生成することができる。
本発明に係る方法をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークを介してディジタル信号にて頒布される場合もある。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。
本発明によれば、新規のデータ項目に対する分類ルールを適切に生成することができるようになる。
図1に本発明の一実施の形態に係る分類ルール生成支援装置の機能ブロック図を示す。本実施の形態では、データ項目として商品データを取り扱う例を示すが、取り扱うデータ項目については商品データに限定されるものではない。本実施の形態に係る分類ルール生成支援装置は、新規商品の商品名及び正解カテゴリの対の入力をユーザから受け付ける商品データ入力部1と、入力されたデータを格納する新規商品データ格納部3と、既に入力されている商品名及び分類データ(カテゴリ)の対が登録されている正解データDB9と、新規商品データ格納部3と正解データDB9とに格納されたデータを用いて以下で説明する特徴パターンを生成する特徴パターン抽出部5と、特徴パターン抽出部5により生成された特徴パターンのデータを格納する特徴パターン格納部15と、既存の分類ルールのデータを格納する分類ルールDB11と、新規商品データ格納部3と分類ルールDB11とに格納されたデータを用いて新規商品に関連する分類ルールを抽出する分類ルール抽出部7と、分類ルール抽出部7により抽出された分類ルールのデータを格納する抽出分類ルール格納部13と、特徴パターン格納部15と抽出分類ルール格納部13とに格納されたデータを用いて競合解消テーブルの生成などの処理を実施するグループ化処理部17と、グループ化処理部17の処理結果である競合解消テーブルなどを格納する処理結果データ格納部19と、処理結果データ格納部19及び正解データDB9に格納されているデータを用いて分類ルールの条件部の条件否定化及びスコア計算などを行う分類ルール生成処理部23と、処理結果データ格納部19と正解データDB9とに格納されているデータを用いて分類ルールDB11への登録処理などを実施する分類ルール登録処理部21とを有する。
図2に正解データDB9に格納されているデータの一例を示す。図2の例では、商品名に対応してカテゴリが登録されている。商品名は、単純な商品の名称だけではなくキャッチフレーズのような商品名の場合もある。カテゴリについては、予め定められているカテゴリツリーにおける該当ノードの名称及びカテゴリコード(図示せず)を含む。
図3に分類ルールDB11に格納されているデータの一例を示す。図3の例では、条件部に対応して帰結部(カテゴリ)が登録されている。条件部は、1のキーワードにより構成される条件、複数のキーワードをANDで組み合わせることにより構成される条件などを含む。複数のキーワードの間に設けられたスペースはAND結合であることを表す。また、複数のAND結合ルールを用いることで、ORを含むルールを表すことができる。なお、キーワードについては、否定化、すなわち”¬”(NOT)を含む場合もある。
次に図4乃至図17を用いて図1に示した分類ルール生成支援装置の処理について説明する。まず、分類ルール生成支援装置の商品データ入力部1は、ユーザに対して新規商品の商品名及び正解カテゴリの入力を促し、ユーザから新規商品の商品名及び正解カテゴリの入力を受け付け、新規商品データ格納部3に格納する(図4:ステップS1)。例えば図5に示すような画面を表示し、ユーザに対して入力を促す。図5の例では、商品名の入力欄と、正解カテゴリの入力欄と、実行ボタンとが含まれる。ユーザは、これらの入力欄に入力し、実行ボタンをクリックすると以下の処理が実行される。本実施の形態では、新規商品を1件毎に入力するものとする。
次に、特徴パターン抽出部5は、正解データDB9から、新規商品データ格納部3に格納されている新規商品の商品名の特徴素からなる特徴パターンを全て抽出して特徴パターン集合Pを構成して、特徴パターン格納部15に格納する(ステップS3)。特徴パターンは、例えばエマージングパターン(Emerging Pattern)である。エマージングパターンは、発生頻度がカテゴリ間で顕著に変化するパターンである。特徴素を例えば形態素解析によって抽出する。例えば図6に示すように、クラスPとして9つのレコード、クラスNとして5つのレコードが含まれるものとする。図6の例では、天気(outlook)、気温(temp.)、湿度(humidity)、風(windy)といった気象データが取り扱われており、天気についてはovercast、rain、またsunnyのいずれか、気温についてはhot、mild、またはcoolのいずれか、湿度についてはhigh、low、またはnormalのいずれか、風についてはtrue又はfalseのいずれかである。この場合、{sunny, mild, high, true}という特徴素からなり且つ図6のデータから抽出されるエマージングパターンは、”sunny” ” mild” ”true”=>P、”sunny” ”high”=>N、”sunny” ”mild” ”high”=>N、”sunny” ”high” ”true”=>Nとなる。なお、エマージングパターンの具体的な抽出方法については、"The Space of Jumping Emerging Patterns and Its Incremental Maintenance Algorithms", Jinyan Li, et al., Int'l Conf. on Machine Learning 2000, pp551-558、"DeEPs: A New Instance-based Discovery and Classification System", Jinyan Li, et al., July 16, 2001, Machine Learning Vol. 54. No. 2, pp.99-124. 等を参照のこと。
このようにエマージングパターンを利用して、ルールベースの更新作業を支援するというアイデアは従来存在しておらず、専門家でも生成が難しい分類ルールの候補を自動的に生成することができるようになる。
例えば、新規商品の商品名が「ブルガリアから届いたローズジャム おしゃれなバラの味と香りをあなたに」である場合、「ブルガリア」「ローズ」「ジャム」「バラ」「味」「香り」「あなた」が特徴素として抽出される。そして、正解データDB9から、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」、「ピンク」且つ「ローズ」及び正解カテゴリ「花束・バラ」からなる特徴パターンと、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが抽出されたものとする。
新規商品の商品名が「その他英会話/単語 増田式学習メソッド ラクして覚える英単語」である場合には、「英会話」「単語」「学習」「英単語」「増田」が特徴素として抽出される。そして正解データDB9から、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「単語」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「増田」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「メソッド」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンとが抽出されたものとする。
また、分類ルール抽出部7は、分類ルールDB11から、新規商品データ格納部3に格納されている新規商品の商品名を条件部が充足する分類ルールを全て抽出して分類ルール集合Sを構成し、抽出分類ルール格納部13に格納する(ステップS5)。分類ルールDB11に登録されている全ての分類ルールを新規商品の商品名に適用して、当該新規商品の商品名を条件部が充足するならば当該分類ルールで分類ルール集合Sを構成する。
例えば、新規商品の商品名が「ブルガリアから届いたローズジャム おしゃれなバラの味と香りをあなたに」である場合には、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールと、条件部「バラ」且つ(∧)「ローズ」及び帰結部「花束・バラ」を含む分類ルールとが抽出されるものとする。
また、新規商品の商品名が「その他英会話/単語 増田式学習メソッド ラクして覚える英単語」である場合には、条件部「英単語」及び帰結部「教育」を含む分類ルールと、条件部「学習」及び帰結部「辞書・翻訳」を含む分類ルールとが抽出されるものとする。
そして、グループ化処理部17は、抽出分類ルール格納部13及び特徴パターン格納部15に格納されたデータを用いて、競合解消処理を実施する(ステップS7)。この処理については、図7乃至図10を用いて詳細に説明する。本競合解消処理は、競合解消テーブルを生成し、分類ルールの競合状態を容易に把握することができるようにするために実行される。グループ化処理部17は、特徴パターン格納部15に格納されている特徴パターン集合Pから、1つの特徴パターンp=>c(pは1又は複数のキーワードの集合、cは正解カテゴリ)を取り出す(ステップS21)。例えば、上で述べた第1の具体例において、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンを取り出したものとする。
そうすると、特徴パターンp=>cのパターンpを充足する分類ルールからなる、分類ルール集合Sの部分集合S(p)を抽出し、処理結果データ格納部19に格納する(ステップS23)。上で述べた第1の具体例においてキーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンが抽出されている場合には、部分集合S(p)としては条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールが抽出される。なお、充足の定義については図8を用いて詳細に説明する。
図8では、一番外側の矩形が全商品を含む全体Uを表しており、左側の円が商品名に「ブルガリア」を含む商品の集合Aを表しており、右側の円が商品名に「ジャム」を含む商品の集合Bを表しており、下の円が商品名に「ローズ」を含む商品の集合を表している。また、集合A乃至Cに対応する円には相互に重なりが存在しており、集合Aに対応する円と集合Bに対応する円とが重なった部分を領域dとすると、領域dに含まれる商品は、商品名が「ブルガリア」且つ「ジャム」と言う条件を満たす商品の集合である。この領域dは、集合Aに対応する円に含まれる。このように図8のような図形上において分類ルールの条件部に相当する領域(この例では集合Aに対応する円)が、パターンpに相当する領域(この例では領域d)を含む関係にある時、「充足する」という。
また、分類ルールが「ブルガリア」且つ「¬ローズ」=>「アロマ」であり、特徴パターンが「ジャム」且つ「ブルガリア」=>「ジャム」とする。「ジャム」且つ「ブルガリア」という条件を満たす商品の集合は上で述べたように領域dに対応する。一方、「ブルガリア」且つ「¬ローズ」という条件を満たす商品の集合は、集合Aに対応する円から領域eを除外した領域に対応する。すなわち、集合Aに対応する円と集合Cに対応する円との重複部分を、集合Aに対応する円から除外した領域に対応する。このように集合Aに対応する円から領域eを除外した領域は、パターンpに相当する領域dを必ずしも含まない。従って、分類ルールが「ブルガリア」且つ「¬ローズ」=>「アロマ」の条件部は、パターンpを充足するとは言えない。
グループ化処理部17は、部分集合S(p)が空であるか判断する(ステップS25)。部分集合S(p)が空であれば、集合Fφに、ステップS21で取り出した特徴パターンp=>cを追加する(ステップS27)。第1の具体例においては、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンがステップS27で取り出された場合には、本特徴パターンのパターンpを充足する分類ルールは存在しないので、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンは集合Fφに追加される。集合Fφのデータは処理結果データ格納部19に格納される。そしてステップS33に移行する。
一方、部分集合S(p)が空ではない場合には、分類ルールの部分集合S(p)から1つの分類ルールL=>Rを取り出す(ステップS29)。上で述べた例では、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールが取り出される。そして、特徴パターンp=>cの正解カテゴリc=分類ルールL=>Rの帰結部Rであれば、集合TL=>RにステップS21で取り出された特徴パターンp=>cを追加し、特徴パターンp=>cの正解カテゴリc≠分類ルールの帰結部Rであれば、集合FL=>Rに特徴パターンp=>cを追加する(ステップS31)。上で述べた例では、分類ルールの帰結部「アロマ」に対して、特徴パターンの正解カテゴリは「ジャム」なので、c≠Rである。従って、集合FL=>Rに特徴パターンp=>cを追加する。なお、特徴パターンp=>cが、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンである場合にはc=Rであるから、集合TL=>Rに当該特徴パターンp=>cを追加する。集合FL=>R及び集合TL=>Rのデータは、処理結果データ格納部19に格納される。
図7の説明に戻って、部分集合S(p)内の全ての分類ルールを処理したか判断する(ステップS33)。未処理の分類ルールが存在している場合にはステップS29に戻る。一方、部分集合S(p)内の全ての分類ルールを処理した場合には、特徴パターン集合P内の全ての特徴パターンを処理したか判断する(ステップS35)。特徴パターン集合P内に未処理の特徴パターンが存在する場合にはステップS21に戻る。
このような処理を実施することにより、上で述べた第1の具体例については図9の競合解消テーブルとなる。図9の例では、集合Fφには、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが含まれる。条件部(L)が「ブルガリア」及び帰結部(R)が「アロマ」である分類ルールに対応する集合Tブルガリア=>アロマには、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンが含まれる。さらに分類ルール「ブルガリア」=>「アロマ」に対応する集合Fブルガリア=>アロマは、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンとを含む。さらに、条件部(L)が「バラ」且つ「ローズ」及び帰結部(R)が「花束・バラ」である分類ルールに対応する集合Tバラ ローズ=>花束・バラは、キーワード「バラ」、「ピンク」且つ「ローズ」及び正解カテゴリ「花束・バラ」からなる特徴パターンを含む。さらに分類ルール「バラ」「ローズ」=>「花束・バラ」に対応する集合Fバラ ローズ=>花束・バラは、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンを含む。
上で述べた第2の例の場合には、図10の競合解消テーブルとなる。図10の例では、集合Fφは、キーワード「単語」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「増田」及び正解カテゴリ「教育」からなる特徴パターンと、キーワード「メソッド」及び正解カテゴリ「教育」からなる特徴パターンとを含む。条件部(L)が「学習」及び帰結部(R)が「辞書・翻訳」である分類ルールに対応する集合T学習=>辞書・翻訳は、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンとを含む。さらに分類ルール「学習」=>「辞書・翻訳」に対応する集合F学習=>辞書・翻訳は、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンを含む。
このような競合解消テーブルにおいて、分類ルールL=>Rと相反パターンの列における対応する集合FL=>Rとは競合するルールであって、それらが両方とも分類ルールDB11に含まれると、分類ルールに優先度を設定しない場合には誤分類が発生する。但し、分類ルールL=>Rに代って、整合パターンの列における対応する集合TL=>Rを採用すれば、競合は解消される。
図9や図10に示した競合解消テーブル自体をユーザに提示して、分類ルールの競合状態を提示するようにしても良い。上で述べた意味を理解していれば、例えば相反パターンの列において適切な特徴パターンを選択して分類ルールDB11に追加すると共に、整合パターンの列における対応する特徴パターンをさらに選択して分類ルールDB11に追加し、さらに分類ルールの列における対応する分類ルールを分類ルールDB11から除外するように指示する。その他、競合解消に必要な指示を行うことも可能となる。
なお、相反パターンの列に含まれる特徴パターンを第1の集合、整合パターンの列に含まれる特徴パターンを第2の集合に分類するだけでも、特徴パターンの性質を理解した上で、分類ルールDB11に追加の指示を行うことができるようになる。
図4の説明に戻って、分類ルール生成処理部23は、処理結果データ格納部19に格納されているデータを用いて分類ルール生成処理を実施する(ステップS9)。この処理については、図11及び図12を用いて詳細に説明する。
まず第1の分類ルール生成処理を図11を用いて説明する。分類ルール生成処理部23は、処理結果データ格納部19に格納されているデータに基づき、分類ルールL=>Rを1つ特定する(ステップS41)。そして、分類ルールL=>Rに対応する集合TL=>R及び集合FL=>Rに属する特徴パターンを処理結果データ格納部19において特定し、|TL=>R|≪|FL=>R|であるか判断する(ステップS43)。|TL=>R|は、集合TL=>Rに含まれる特徴パターンの数、|FL=>R|は、集合FL=>Rに含まれる特徴パターンの数を表す。例えば予め閾値を用意しておき、それらの差が当該閾値以上となっているか判断する。
|TL=>R|≪|FL=>R|という条件が満たされていれば、集合FL=>Rの否定ルール化を行う(ステップS45)。例えば、条件部(L)が「ブルガリア」及び帰結部(R)が「アロマ」である分類ルールL=>Rを処理対象とすると、上で述べたように、対応する集合FL=>Rの特徴パターンの数|FL=>R|=4となる。また、対応する集合TL=>Rの特徴パターンの数|TL=>R|=1となるので、ステップS43の条件を満たすとする。そうすると、キーワード「ジャム」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」且つ「ブルガリア」及び正解カテゴリ「ジャム」からなる特徴パターンとを否定ルール化することになる。ここではキーワード「ブルガリア」は共通するが、もう一つのキーワードはばらばらである。但し、対応する集合TL=>Rにはキーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンが含まれるので、商品名に「オイル」が使用されていると正解カテゴリが「アロマ」となってしまう。従って、「ブルガリア」を含んでいても「オイル」を含まない特徴パターンでなければ、競合なしに採用できない。本ステップでは、集合TL=>Rの特徴パターンに含まれる「オイル」を否定化したものを用いて、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンを生成する。図9に示されているFブルガリア=>アロマには4つの特徴パターンが含まれていたが、否定ルール化されたことにより新しく生成された特徴パターン集合に置換される。
このように否定ルール化を実施することにより、ルールの数は低減されるため人間に分かりやすいルールベースの構築が可能となる。また、否定ルール化により将来追加される商品データを条件部が充足する可能性が高くなることが期待できるため、将来における有用性が高まるという期待もある。
一方、|TL=>R|≪|FL=>R|という条件が満たされなければステップS47に移行する。ステップS45の後に又はステップS43で条件が満たされなかった場合には、全ての分類ルールL=>Rについて処理が完了したか判断する(ステップS47)。未処理が存在する場合にはステップS41に戻る。
一方、全ての分類ルールL=>Rを処理した場合には、分類ルール生成処理部23は、集合FL=>R及びFφで分類ルール候補集合Fを構成し、当該分類ルール候補集合Fのデータを処理結果データ格納部19に格納する(ステップS49)。
また、分類ルール生成処理部23は、分類ルール候補集合Fに含まれる特徴素(キーワード)vの出現頻度score(v)を正解データDB9から算出し、記憶装置に格納する(ステップS51)。例えば「ブルガリア」「オイル」「ジャム」などのキーワード毎に出現頻度を算出する。
そして、分類ルール生成処理部23は、分類ルール候補集合Fに含まれる特徴パターンp=>cを特定する(ステップS53)。そして、Score(p=>c)=Σpscore(v)を算出する(ステップS55)。このステップでは、パターンpに含まれるキーワードvのscore(v)の総和を算出する。そして、分類ルール候補集合F内の全ての特徴パターンを処理したか判断する(ステップS57)。分類ルール候補集合F内に未処理の特徴パターンが存在する場合にはステップS53に戻る。一方、分類ルール候補集合F内の全ての特徴パターンを処理した場合には、Score(p=>c)の大きい順に分類ルール候補集合F内の特徴パターンをソートし、その結果を処理結果データ格納部19に格納する(ステップS59)。そして元の処理に戻る。
このように、否定ルール化及び分類ルール候補集合F内の特徴パターンの優先度付けが行われる。なお、図11の処理フローでは、相反パターンに該当する特徴パターンのみを否定ルール化の対象とている。これは、以下の処理でユーザが選択する特徴パターンが、相反パターンに該当する特徴パターンであるためである。
なお、図11ではなく図12のような処理を分類ルール生成処理として実行するようにしても良い。すなわち、分類ルール生成処理部23は、処理結果データ格納部19に格納されているデータに基づき、分類ルールL=>Rを1つ特定する(ステップS61)。そして、分類ルールL=>Rに対応する集合TL=>R及び集合FL=>Rに属する特徴パターンを処理結果データ格納部19において特定し、|TL=>R|≪|FL=>R|であるか判断する(ステップS63)。
|TL=>R|≪|FL=>R|という条件が満たされていれば、集合FL=>Rの否定ルール化を行う(ステップS65)。一方、|TL=>R|≪|FL=>R|という条件が満たされなければステップS67に移行する。ステップS65の後に又はステップS63で条件が満たされなかった場合には、全ての分類ルールL=>Rについて処理が完了したか判断する(ステップS67)。未処理が存在する場合にはステップS61に戻る。
一方、全ての分類ルールL=>Rを処理している場合には、分類ルール生成処理部23は、処理結果データ格納部19に格納されているデータに基づき、分類ルールL=>Rを1つ特定する(ステップS69)。そして、分類ルールL=>Rに対応する集合TL=>R及び集合FL=>Rに属する特徴パターンを処理結果データ格納部19において特定し、|TL=>R|≫|FL=>R|であるか判断する(ステップS71)。
|TL=>R|≫|FL=>R|という条件が満たされていれば、集合TL=>Rの否定ルール化を行う(ステップS73)。上で述べた第2の例では、集合TL=>Rには、キーワード「英語」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「電子」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「システム」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「セット」且つ「学習」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンと、キーワード「学習」且つ「辞典」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンとが含まれる。一方、対応する集合FL=>Rは、キーワード「英会話」且つ「学習」及び正解カテゴリ「教育」からなる特徴パターンとを含む。従って、キーワード「学習」は共通するが、さらにキーワード「英会話」が含まれる場合には、正解カテゴリが「教育」となってしまう。そこで、「英会話」を否定化することによって、集合TL=>Rをキーワード「学習」且つ「¬英会話」及び正解カテゴリ「辞書・翻訳」からなる特徴パターンを含む集合とする。図10に示されているT学習=>辞書・翻訳には5つの特徴パターンが含まれていたが、否定ルール化されたことにより新しく生成された特徴パターン集合に置換される。
一方、|TL=>R|≫|FL=>R|という条件が満たされなければステップS75に移行する。ステップS73の後に又はステップS71で条件が満たされなかった場合には、全ての分類ルールL=>Rについて処理が完了したか判断する(ステップS75)。未処理が存在する場合にはステップS69に戻る。
全ての分類ルールL=>Rを処理した場合には、分類ルール生成処理部23は、集合FL=>R及びFφで分類ルール候補集合Fを構成し、また全ての集合TL=>Rで分類ルール候補集合Tを構成し、また既存の全分類ルール集合Sから全競合ルール集合Gを除外して分類ルール候補集合(S−G)を構成し、さらに集合FとTと(S−G)の和集合である分類ルール候補集合(S−G)∪F∪Tを構成し、当該分類ルール候補集合(S−G)∪F∪Tのデータを処理結果データ格納部19に格納する(ステップS77)。なお、上で述べた、分類ルール候補集合F、分類ルール候補集合T及び全競合ルール集合Gは以下に示すとおりである。また、上でも述べたように、分類ルール候補集合FにはFφが含まれている。
Figure 0004429236
Figure 0004429236
Figure 0004429236
また、分類ルール生成処理部23は、分類ルール候補集合(S−G)∪F∪Tに含まれる特徴素(キーワード)vの出現頻度score(v)を正解データDB9から算出し、記憶装置に格納する(ステップS79)。
そして、分類ルール生成処理部23は、分類ルール候補集合(S−G)∪F∪Tに含まれる特徴パターンp=>cを特定する(ステップS81)。そして、Score(p=>c)=Σpscore(v)を算出し、処理に係る特徴パターンp=>cに対応して処理結果データ格納部19に格納する(ステップS83)。このステップでは、パターンpに含まれるキーワードvのscore(v)の総和を算出する。そして、分類ルール候補集合(S−G)∪F∪T内の全ての特徴パターンを処理したか判断する(ステップS85)。分類ルール候補集合(S−G)∪F∪T内に未処理の特徴パターンが存在する場合にはステップS81に戻る。一方、分類ルール候補集合(S−G)∪F∪T内の全ての特徴パターンを処理した場合には、Score(p=>c)の順に分類ルール候補集合(S−G)∪F∪T内の特徴パターンをソートし、その結果を処理結果データ格納部19に格納する(ステップS87)。そして元の処理に戻る。
このように、否定ルール化及び分類ルール候補集合(S−G)∪F∪T内の特徴パターンの優先度付けが行われる。なお、図12の処理フローでは、相反パターン及び整合パターンに該当する特徴パターン否定ルール化を行っている。これは、以下の処理で分類ルールDB11に登録する特徴パターンが、整合パターン又は相反パターンに該当する特徴パターンであるためである。
図11の例でも図12の例でも集合Fφ及びFL=>Rに含まれる特徴パターンをソートしていたが、集合FL=>Rを優先順位付けするようにしても良い。
図4の説明に戻って、次に分類ルール登録処理部21は、処理結果データ格納部19を用いて分類ルール登録処理を実施し、分類ルールDB11を更新する(ステップS11)。この処理については、図13乃至図16を用いて詳細に説明する。
図13に分類ルール登録処理の第1の例を示す。この処理は図11の処理の後に実施する。但し、ステップS41乃至ステップS47については省略することが可能である。分類ルール登録処理部21は、処理結果データ格納部19に格納されている分類ルール候補集合Fの特徴パターンをScore(p=>c)に基づくソート順に列挙して、ユーザに選択を促すように表示装置に表示する(ステップS91)。上で述べた第1の例では、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「ローズ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「ジャム」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「バラ」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「あなた」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ジャム」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンと、キーワード「バラ」、「ローズ」且つ「香り」及び正解カテゴリ「ジャム」からなる特徴パターンとが列挙される。ユーザは、列挙されている特徴パターンのうち、分類ルールDB11に登録すべき特徴パターンを選択する。
そして、分類ルール登録処理部21は、ユーザから特徴パターンp=>cの選択を受け付ける(ステップS93)。そして、処理結果データ格納部19における分類ルール候補集合Fから、選択された特徴パターンp=>cを除外する(ステップS95)。また、処理結果データ格納部19において、選択された特徴パターンp=>cが属する集合FL=>Rを探索する(ステップS97)。そして、集合FL=>Rに対応する分類ルールL=>Rを特定し、競合ルールとして分類ルールDB11から除外する(ステップS99)。なお、既に除外されている場合もあるので、その場合には本ステップをスキップする。また、集合Fφの中から選択した場合には、対応する分類ルールL=>Rは存在しないので、スキップする。
また、対応する集合TL=>Rに属する特徴パターンを全て分類ルールDB11に追加登録する(ステップS101)。本ステップも既に追加登録されている場合にはスキップする。また、集合Fφの中から選択した場合には、対応するTL=>Rは存在しないので、スキップする。さらに、選択特徴パターンp=>cを分類ルールDB11に追加登録する(ステップS103)。
例えば上で述べた第1の例において、キーワード「ブルガリア」且つ「¬オイル」及び正解カテゴリ「ジャム」からなる特徴パターンが選択された場合には、この特徴パターンを分類ルールDB11に追加登録すると共に、条件部「ブルガリア」及び帰結部「アロマ」を含む分類ルールを分類ルールDB11から除外する。また、キーワード「オイル」且つ「ブルガリア」及び正解カテゴリ「アロマ」からなる特徴パターンを分類ルールDB11に追加登録する。
その後、ユーザが特徴パターンの選択を終了するように指示したか判断する(ステップS105)。特徴パターンの選択を終了するように指示していない場合にはステップS91に戻る。一方、ユーザが特徴パターンの選択を終了するように指示した場合には、元に処理に戻る。
このように、相反パターンに係る特徴パターンのうちユーザが必要と考える特徴パターンについては分類ルールDB11に追加し、競合を生ずる既登録の分類ルールを除外し、対応する整合パターンに係る特徴パターンを追加する。そうすれば、新規商品の追加の際に、分類ルールの優先順位付け無しに且つ競合を生ずることなく分類ルールDB11を更新することができるようになる。
なお図13には示されていないが、新規商品の商品名及び正解カテゴリは、正解データDB9に登録される。
また、図11の処理の後に、図14に示すような処理を行うようにしてもよい。但し、図11のステップS41乃至ステップS47について省略することが可能である。すなわち、分類ルール登録処理部21は、処理結果データ格納部19において、対応する集合FL=>Rが空ではない分類ルールの集合S(p)に属する分類ルールL=>Rを特定し、当該分類ルールL=>Rを全て分類ルールDB11から除外する(ステップS111)。
また、処理結果データ格納部19において、削除された競合ルールL=>Rに対応する集合TL=>Rに属する特徴パターンを特定し、全て分類ルールDB11に追加登録する(ステップS113)。
その後、処理結果データ格納部19に格納されている分類ルール候補集合Fの特徴パターンをScore(p=>c)に基づくソート順に列挙して、ユーザに選択を促すように表示装置に表示する(ステップS115)。そして、ユーザから特徴パターンp=>cの選択を受け付け(ステップS117)、選択特徴パターンp=>cを分類ルールDB11に追加登録する(ステップS119)。
そして、ユーザが特徴パターンの選択を終了するように指示したか判断する(ステップS121)。特徴パターンの選択を終了するように指示していない場合にはステップS117に戻る。一方、ユーザが特徴パターンの選択を終了するように指示した場合には、元に処理に戻る。
このように、矛盾を生じている分類ルールを除外して、除外した結果必要となる整合パターンに係る特徴パターンを追加して、相反パターンに係る特徴パターンについてはユーザの指示に応じて登録する。このような処理を行っても、分類ルールDB11において分類ルールの優先順位付けを行うこと無しに且つ競合を生ずることなく、新商品に対応することが可能な分類ルールが蓄積されるようになる。
なお、分類ルール候補集合Fから、選択特徴パターンを除外する処理を行う場合にはステップS121からステップS115に戻るようにしてもよい。
次に、図15及び図16を用いて分類ルール登録処理の第3の例を示す。なお。本処理については図12の処理によって分類ルール候補集合(S−G)∪F∪Tが生成される場合における処理である。なお、本処理フローは上で述べた2つの例とは異なり、分類ルールDB11に登録する分類ルールの選択を人手によらず自動的に行うためのものである。また、図12の処理によって算出されるスコアScoreは、処理の順番を定めている。
第3の例では、スコア順に分類ルールを追加する方法を採用し、分類ルールの追加が、ルールベースの精度向上に貢献しなくなったところでルール追加を停止する。これにより、スコアが高いルールを含み、かつ精度が極大なルールベースを構築する。まず、分類ルール登録処理部21は、正解データDB9に含まれる全正解データを集合U、最も商品数が多いカテゴリδに属する正解データを集合Dと分類する(ステップS131)。本実施の形態では、カテゴリδをデフォルトカテゴリとし、いずれのルールによっても分類されないデータは、このカテゴリδに分類されるものとする。また、初期的に、未分類データ集合W(=U)を構成する(ステップS133)。このような分類のためのデータについては、作業用の記憶領域に格納される。さらに、X=φ,Y=φ,Z=φと設定する(ステップS135)。なお、Xは、分類ルールによる分類が正解となる商品の集合、Yは、分類ルールによる分類が不正解となる商品の集合、Zは、これから生成される分類ルールの集合である。X∪Yは分類済商品の集合を表す。
また、分類ルール登録処理部21は、preErr=(|Y|+|W−D|)/|U|を算出し、記憶装置に格納する(ステップS137)。なお、|Y|は集合Yに属する要素数(サイズ)を表す。同様に、|W−D|は、集合Wと集合Dの差集合W−Dに属する要素数であり、|U|は集合Uの要素数である。なお、本ステップにおいて算出されるpreErrは初期的なエラー率であって、集合Y=φであるからカテゴリδに含まれない商品については誤分類されるものとして算出したエラー率となる。
次に、分類ルール登録処理部21は、処理結果データ格納部19に格納されている分類ルール候補集合(S−G)∪F∪Tに属する特徴パターンp=>cをScore(p=>c)の高い順に1つ取り出す(ステップS139)。そして、正解データDB9から、ステップS139で取り出した特徴パターンp=>cの条件部pを充足する商品を全て取り出して集合Eを構成する(ステップS141)。集合Eのデータは、例えば作業用の記憶領域に格納する。
さらに、分類ルール登録処理部21は、商品eを集合Eから1つ取り出し(ステップS143)、e∈Wであるか判断する(ステップS145)。すなわち、商品eが既に追加済みのルールにより分類済みか否かを判断する。商品eが未分類データ集合Wに属していない場合には、端子Bを介して図16のステップS155に移行する。一方商品eが未分類データ集合Wに属している場合には、端子Aを介して図16のステップS147に移行する。
そして、分類ルール登録処理部21は、ステップS139で取り出された特徴パターンp=>cを集合Zに加え(Z=Z∪{p=>c})、未分類データ集合Wから商品eを取り除く(W=W−{e})(ステップS147)。集合Zに特徴パターンを追加登録する順番は優先度順になるため、集合Z内でもこの順序は保持される。また、ステップS139で取り出された特徴パターンp=>cによる商品eの分類先カテゴリが当該商品eの本来の分類先カテゴリcと一致するか判断する(ステップS149)。一致しない場合には、誤分類となるので、商品eを集合Yに追加する(ステップS151)。一方、一致する場合には、特徴パターンが正しい分類を行ったことになるので、商品eを集合Xに追加する(ステップS153)。
その後、分類ルール登録処理部21は、集合Eの全ての商品eを処理したか判断する(ステップS155)。もし未処理の商品eが集合E内に存在する場合には端子Cを介して図15のステップS143に戻る。一方、未処理の商品eが集合E内に存在しない場合には、エラー率Err=(|Y|+|W−D|)/|U|を算出し、記憶装置に格納する(ステップS157)。なお、集合Wに属する商品は集合Dに属するものがあり、集合Eに属する商品は集合Dに属するものがある。従って、集合Eの処理によって|Y|が増加しても、その増加よりも|W−D|の減少が小さい場合がある。例えば、集合Wから商品eを除外することになっても、当該商品eが集合Dにも属している場合は、集合Wと集合Dの差集合W−Dに属する商品数は減少しない。
そして、Err>PreErrであるか判断する(ステップS159)。もし、PreErrよりErrが増加している場合には、ステップS139で特定された特徴パターンp=>cを集合Zから取り除き(ステップS163)、元の処理に戻る。一方、ErrがPreErr以下である場合には、preErr=Errと設定する(ステップS161)。そして、分類ルール候補集合(S−G)∪F∪Tに属する全ての特徴パターンを処理したか判断する(ステップS165)。未処理が存在する場合には端子Dを介してステップS139に戻る。
このようにエラー率が増加するまで特徴パターンを分類ルールとして集合Zに追加してゆく。そしてステップS165で全ての特徴パターンを処理したと判断された場合には、集合Zで分類ルールDB11を更新する(ステップS167)。
以上述べたような処理を実施することにより、新たな商品を適切に取り扱うことができる分類ルールを作成することができるようになる。
以上本発明の実施の形態を説明したが、本発明はこれに限定されない。すなわち、上では否定ルール化を行うような処理フローを示したが、必ず否定ルール化を行わなければならないわけではない。否定ルール化を行わない場合には、例えば図15及び図16のために競合解消テーブルを生成せずとも良い。
また、図1に示した機能ブロック図は必ずしも実際のプログラムモジュールに対応するものではない。
さらに、上で述べたようにスタンドアロン形式で構成しても良いし、1又は複数のサーバにより上で述べた機能を実現し、ネットワークに接続された端末から新規商品のデータをサーバに登録するといったように構成してもよい。
また、図13及び図14においてユーザに提示する画面は、例えば図17に示すようなものであっても良い。図13及び図14の説明では、Scoreの値に応じて列挙するだけであったが、図17に示すように、新規商品の商品名を形態素解析した結果である「キーワード抽出結果」及び正解カテゴリのコードと、分類ルールDB11における、当該新規商品の商品名を正しく分類できるルールの検索結果である分類ルール検索結果(この例では「なし」)と、集合Fφ(新分類ルール生成)と、集合Fφ以外の競合解消テーブルとを含むようにしてもよい。この場合、ユーザは、分類ルールDB11に登録すべきルールをクリックして、分類ルールDB11に登録させる。
さらに、分類ルール生成支援装置は、図18に示すようなコンピュータ装置であって、メモリ2501(記憶装置)とCPU2503(処理装置)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
(付記1)
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致しない第1の集合と合致する第2の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップと、
を含み、コンピュータに実行される分類ルール作成支援方法。
(付記2)
データ項目に対する条件部と対応するカテゴリとから構成される分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップ、
をさらに含み、
前記第1の集合が、第1のグループ有し、
前記第1のグループが、第1の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリと異なるカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンのグループであり、
前記抽出分類ルール格納部には、前記第1の特定の条件を充足する分類ルールが格納されており、
記第2の集合が、第2の特定の条件と前記記憶装置に格納されている前記新規のデータ項目のカテゴリと一致するカテゴリとを有し且つ前記特徴パターン格納部に格納されている特徴パターンの第3のグループを有し、
前記抽出分類ルール格納部には、前記第2の特定の条件を充足する分類ルールが格納されている
付記1記載の分類ルール作成支援方法。
(付記3)
前記グループ化ステップが、
前記抽出分類ルール格納部に格納されており且つ前記第1のグループに対応する前記分類ルールの第4のグループを生成するステップ
を含む
付記2記載の分類ルール作成支援方法。
(付記4)
前記第1のグループに属する前記特徴パターンの数が当該第1のグループに関連する前記第3のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第1のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップ
をさらに含む付記2記載の分類ルール作成支援方法。
(付記5)
前記第1のグループに属する前記特徴パターンの数が当該第1のグループに関連する前記第3のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第1のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
前記第3のグループに属する前記特徴パターンの数が当該第3のグループに関連する前記第1のグループに属する前記特徴パターンの数に関する条件を満たす場合には、前記第3のグループに属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
をさらに含む付記2記載の分類ルール作成支援方法。
(付記6)
前記第1の集合に含まれる前記特徴パターンの特徴素に基づき当該特徴パターンのスコアを算出し、前記特徴パターンに対応して前記グループデータ格納部に格納するステップ
をさらに含む付記2記載の分類ルール作成支援方法。
(付記7)
前記第1の集合と第2の集合と前記抽出分類ルール格納部に格納されいる全ての前記分類ルールから前記第1のグループに対応する前記分類ルールを除外した第3の集合とに含まれる前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記グループデータ格納部に格納するステップ
をさらに含む付記5記載の分類ルール作成支援方法。
(付記8)
前記第4のグループに属する分類ルールを前記分類ルール格納部から除外する場合には、当該第4のグループに関連する第3のグループに属する特徴パターンを前記分類ルール格納部に格納するステップ、
をさらに含む付記3記載の分類ルール作成支援方法。
(付記9)
前記第1の集合に含まれる前記特徴パターンをユーザに提示するステップと、
前記ユーザから特徴パターンの指定を受け付けるステップと、
指定された前記特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第1のグループに関連する第3のグループを特定し、当該第3のグループに含まれる特徴パターンを前記分類ルール格納部に格納するステップと、
指定された前記特徴パターンが属する第1のグループに対応する第4のグループを特定し、当該第4のグループに属する分類ルールを前記分類ルール格納部から除外するステップと、
をさらに含む付記3記載の分類ルール作成支援方法。
(付記10)
前記第4のグループに含まれる分類ルールを前記分類ルール格納部から除外するステップと、
前記第4のグループに関連する第3のグループを特定し、当該第3のグループに含まれる特徴パターンを前記分類ルール格納部に格納するステップと、
前記第1の集合に含まれる前記特徴パターンをユーザに提示するステップと、
前記ユーザから特徴パターンの指定を受け付けるステップと、
指定された前記特徴パターンを前記分類ルール格納部に格納するステップと、
をさらに含む付記3記載の分類ルール作成支援方法。
(付記11)
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録するステップ
をさらに含む付記7記載の分類ルール作成支援方法。
(付記12)
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、
前記特徴パターン格納部に格納されている前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記特徴パターン格納部に格納するステップと、
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録するステップと、
を含み、コンピュータに実行される分類ルール作成支援方法。
(付記13)
付記1乃至12のいずれか1つ記載の分類ルール作成支援方法をコンピュータに実行させるためのプログラム。
(付記14)
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納する手段と、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納する手段と、
前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第1の集合と合致しない第2の集合とに分類し、分類結果をグループデータ格納部に格納する分類手段と、
を有する分類ルール作成支援装置。
(付記15)
新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納する手段と、
データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納する手段と、
前記特徴パターン格納部に格納されている前記特徴パターンの特徴素に基づき当該パターンのスコアを算出し、前記特徴パターンに対応して前記特徴パターン格納部に格納する手段と、
前記グループデータ格納部に格納された、前記特徴パターンのスコアの順に、前記正解データ格納部に格納されているデータ項目の誤分類の数に応じて変化し且つ予め算式が定義されているエラー率が増加するまで、前記グループデータ格納部に格納された前記特徴パターンを新規の分類ルールとして前記分類ルール格納部に登録する手段と、
を有する分類ルール作成支援装置。
本発明の実施の形態の機能ブロック図である。 正解データDBに格納されるデータの一例を示す図である。 分類ルールDBに格納されるデータの一例を示す図である。 本発明の実施の形態におけるメイン処理フローを示す図である。 新規商品データの入力画面例を示す図である。 エマージングパターンを説明するための図である。 競合解消処理の処理フローの一例を示す図である。 充足の定義を説明するための図である。 競合解消テーブルの第1の例を示す図である。 競合解消テーブルの第2の例を示す図である。 分類ルール生成処理の処理フローの第1の例を示す図である。 分類ルール生成処理の処理フローの第2の例を示す図である。 分類ルール登録処理の処理フローの第1の例を示す図である。 分類ルール登録処理の処理フローの第2の例を示す図である。 分類ルール登録処理の処理フローの第3の例を示す図である。 分類ルール登録処理の処理フローの第3の例を示す図である。 分類ルール登録処理の処理フローの第1及び第2の例において表示される画面の他の例を示す図である。 コンピュータの機能ブロック図である。
符号の説明
1 商品データ入力部 3 新規商品データ格納部 5 特徴パターン抽出部
7 分類ルール抽出部 9 正解データDB 11 分類ルールDB
13 抽出分類ルール格納部 15 特徴パターン格納部
17 グループ化処理部 19 処理結果データ格納部
21 分類ルール登録処理部 23 分類ルール生成処理部

Claims (6)

  1. 新規のデータ項目記憶装置に格納するステップと、
    前記記憶装置に格納された前記新規のデータ項目の特徴素で、データ項目と当該データ項目のカテゴリとを対応付けて格納する正解データ格納部を検索し、前記新規のデータ項目の特徴素と一致する語句を含むデータ項目を特定し、前記一致する語句を含む条件と特定された前記データ項目に対応するカテゴリとを含む特徴パターンを徴パターン格納部に格納するステップと、
    データ項目に対する条件部と対応するカテゴリとを含む分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納するステップと、
    前記特徴パターン格納部に格納されている各前記特徴パターンについて、(a)当該特徴パターンの条件を条件部が充足する1又は複数の特定の分類ルールを前記抽出分類ルール格納部から抽出し、(b)抽出された前記特定の分類ルールのカテゴリと当該特徴パターンのカテゴリとが異なる場合には当該特徴パターンを当該特定の分類ルールについての第1の集合F L=>R に追加し、(c)抽出された前記特定の分類ルールのカテゴリと当該特徴パターンのカテゴリとが一致する場合には当該特徴パターンを当該特定の分類ルールについての第2の集合T L=>R に追加することによって、前記特徴パターン格納部に格納されている前記特徴パターンをグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップと、
    前記グループデータ格納部に格納されている前記特定の分類ルールの少なくとも一部を前記分類ルール格納部から取り除くと共に、取り除かれた前記特定の分類ルールについての前記第2の集合T L=>R に属する全ての特徴パターンと、前記第1の集合F L=>R に属する特徴パターンの少なくとも一部とを前記分類ルール格納部に登録する登録ステップと、
    を含み、コンピュータに実行される分類ルール作成支援方法。
  2. 前記グループ化ステップが、
    (d)前記特定の分類ルールが抽出されなかった場合には当該特徴パターンを第3の集合F φ に追加するステップ
    を含み、
    前記登録ステップにおいて、
    前記第1の集合F L=>R 又は前記第3の集合F φ に属する特徴パターンの少なくとも一部を前記分類ルール格納部に登録する
    ことを特徴とする請求項1記載の分類ルール作成支援方法。
  3. 前記グループデータ格納部に格納されている各前記特定の分類ルールについて、前記第1の集合F L=>R に属する前記特徴パターンの数と前記第2の集合T L=>R に属する前記特徴パターンの数との差が所定の閾値以上であるか判断する判断ステップと、
    前記判断ステップの判断結果が肯定的である特定の分類ルールについて、前記第1の集合F L=>R に属する前記特徴パターンの条件を否定ルールを含む条件に変更するステップと、
    をさらに含む請求項1記載の分類ルール作成支援方法。
  4. 前記登録ステップが、
    前記集合Fφ及び前記第1の集合FL=>Rに属する前記特徴パターンをユーザに提示するステップと、
    前記ユーザから前記特徴パターンの選択を受け付けるステップと、
    選択された前記特徴パターンを前記分類ルール格納部に登録するステップと、
    前記グループデータ格納部において、選択された前記特徴パターンが属する第1の集合FL=>Rを探索する探索ステップと、
    前記探索ステップにおいて検出された第1の集合FL=>Rに対応する特定の分類ルールを、前記分類ルール格納部から取り除くステップと、
    取り除かれた前記特定の分類ルールについての第2の集合TL=>Rに属する全ての特徴パターンを、前記分類ルール格納部に登録するステップと、
    を含む請求項記載の分類ルール作成支援方法。
  5. 前記登録ステップが、
    前記グループデータ格納部から、前記特徴パターンを含む前記第1の集合FL=>Rに対応する特定の分類ルールを特定し、当該特定の分類ルールを前記分類ルール格納部から取り除くステップと、
    取り除かれた前記特定の分類ルールについての第2の集合TL=>Rに属する全ての特徴パターンを、前記分類ルール格納部に登録するステップと、
    前記集合Fφ及び前記第1の集合FL=>Rに属する前記特徴パターンをユーザに提示するステップと、
    前記ユーザから前記特徴パターンの選択を受け付けるステップと、
    選択された前記特徴パターンを前記分類ルール格納部に登録するステップと、
    を含む請求項記載の分類ルール作成支援方法。
  6. 新規のデータ項目記憶装置に格納する手段と、
    前記記憶装置に格納された前記新規のデータ項目の特徴素で、データ項目と当該データ項目のカテゴリとを対応付けて格納する正解データ格納部を検索し、前記新規のデータ項目の特徴素と一致する語句を含むデータ項目を特定し、前記一致する語句を含む条件と特定された前記データ項目に対応するカテゴリとを含む特徴パターンを徴パターン格納部に格納する手段と、
    データ項目に対する条件部と対応するカテゴリとを含む分類ルールを格納する分類ルール格納部から、前記記憶装置に格納された前記新規のデータ項目を条件部が充足する分類ルールを抽出し、抽出分類ルール格納部に格納する手段と、
    前記特徴パターン格納部に格納されている各前記特徴パターンについて、(a)当該特徴パターンの条件を条件部が充足する1又は複数の特定の分類ルールを前記抽出分類ルール格納部から抽出し、(b)抽出された前記特定の分類ルールのカテゴリと当該特徴パターンのカテゴリとが異なる場合には当該特徴パターンを当該特定の分類ルールについての第1の集合F L=>R に追加し、(c)抽出された前記特定の分類ルールのカテゴリと当該特徴パターンのカテゴリとが一致する場合には当該特徴パターンを当該特定の分類ルールについての第2の集合T L=>R に追加することによって、前記特徴パターン格納部に格納されている前記特徴パターンをグループ化し、グループ化した結果をグループデータ格納部に格納する分類手段と、
    前記グループデータ格納部に格納されている前記特定の分類ルールの少なくとも一部を前記分類ルール格納部から取り除くと共に、取り除かれた前記特定の分類ルールについての前記第2の集合T L=>R に属する全ての特徴パターンと、前記第1の集合F L=>R に属する特徴パターンの少なくとも一部とを前記分類ルール格納部に登録する登録手段と、
    を有する分類ルール作成支援装置。
JP2005239194A 2005-08-19 2005-08-19 分類ルール作成支援方法 Expired - Fee Related JP4429236B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005239194A JP4429236B2 (ja) 2005-08-19 2005-08-19 分類ルール作成支援方法
US11/281,956 US8176050B2 (en) 2005-08-19 2005-11-17 Method and apparatus of supporting creation of classification rules
CNA2005101319068A CN1916895A (zh) 2005-08-19 2005-12-15 支持分类规则创建的方法和装置
CNA2008101781455A CN101430704A (zh) 2005-08-19 2005-12-15 支持分类规则创建的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005239194A JP4429236B2 (ja) 2005-08-19 2005-08-19 分類ルール作成支援方法

Publications (2)

Publication Number Publication Date
JP2007052744A JP2007052744A (ja) 2007-03-01
JP4429236B2 true JP4429236B2 (ja) 2010-03-10

Family

ID=37737893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005239194A Expired - Fee Related JP4429236B2 (ja) 2005-08-19 2005-08-19 分類ルール作成支援方法

Country Status (3)

Country Link
US (1) US8176050B2 (ja)
JP (1) JP4429236B2 (ja)
CN (2) CN1916895A (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5075111B2 (ja) * 2008-12-29 2012-11-14 株式会社日立ハイテクノロジーズ 画像分類基準更新方法、プログラムおよび画像分類装置
CN102063489B (zh) * 2010-12-29 2012-12-19 东北大学 基于隐含分类信息的模式匹配方法
US9323839B2 (en) * 2011-01-13 2016-04-26 Mitsubishi Electric Corporation Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN107122980B (zh) * 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 识别商品所属类目的方法和装置
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
JP2012203668A (ja) * 2011-03-25 2012-10-22 Sony Corp 情報処理装置、物体認識方法、プログラム及び端末装置
JP5389106B2 (ja) * 2011-06-27 2014-01-15 ヤフー株式会社 カテゴリ分類確認装置及び方法
JP5880052B2 (ja) * 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
JP6020031B2 (ja) 2012-10-19 2016-11-02 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
US20140180738A1 (en) * 2012-12-21 2014-06-26 Cloudvu, Inc. Machine learning for systems management
JP6003561B2 (ja) 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5962471B2 (ja) * 2012-11-30 2016-08-03 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
US10423889B2 (en) 2013-01-08 2019-09-24 Purepredictive, Inc. Native machine learning integration for a data management product
US9275331B2 (en) * 2013-05-22 2016-03-01 International Business Machines Corporation Document classification system with user-defined rules
US9218574B2 (en) 2013-05-29 2015-12-22 Purepredictive, Inc. User interface for machine learning
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
US20160019622A1 (en) * 2014-07-18 2016-01-21 Collectors Universe, Inc. System for aggregating, comparing and acquiring collectibles, methods and uses thereof
US11042929B2 (en) 2014-09-09 2021-06-22 Oracle Financial Services Software Limited Generating instruction sets implementing business rules designed to update business objects of financial applications
JP6838150B2 (ja) * 2017-06-07 2021-03-03 三菱電機ビルテクノサービス株式会社 データ名称分類支援装置及びデータ名称分類支援プログラム
US11971852B2 (en) 2019-05-31 2024-04-30 Pfu Limited File management device, file management method, and non-transitory computer readable medium
WO2020240831A1 (ja) 2019-05-31 2020-12-03 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
US11314783B2 (en) 2020-06-05 2022-04-26 Bank Of America Corporation System for implementing cognitive self-healing in knowledge-based deep learning models
US20210397940A1 (en) * 2020-06-10 2021-12-23 Nvidia Corporation Behavior modeling using client-hosted neural networks
CN112612660B (zh) * 2020-12-16 2024-02-13 海光信息技术股份有限公司 规格信息数据库创建方法、芯片挑选方法及装置和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
GB2321364A (en) * 1997-01-21 1998-07-22 Northern Telecom Ltd Retraining neural network
US6336109B2 (en) * 1997-04-15 2002-01-01 Cerebrus Solutions Limited Method and apparatus for inducing rules from data classifiers
JP3209163B2 (ja) * 1997-09-19 2001-09-17 日本電気株式会社 分類装置
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6917839B2 (en) * 2000-06-09 2005-07-12 Intellectual Assets Llc Surveillance system and method having an operating mode partitioned fault classification model
US6842751B1 (en) * 2000-07-31 2005-01-11 International Business Machines Corporation Methods and apparatus for selecting a data classification model using meta-learning
JP2002202984A (ja) 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2002157262A (ja) 2000-11-20 2002-05-31 Hitachi Ltd 分類ルール定義支援方法
US20020147694A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Retraining trainable data classifiers
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme
US20060074824A1 (en) 2002-08-22 2006-04-06 Jinyan Li Prediction by collective likelihood from emerging patterns

Also Published As

Publication number Publication date
CN101430704A (zh) 2009-05-13
US20070043690A1 (en) 2007-02-22
CN1916895A (zh) 2007-02-21
JP2007052744A (ja) 2007-03-01
US8176050B2 (en) 2012-05-08

Similar Documents

Publication Publication Date Title
JP4429236B2 (ja) 分類ルール作成支援方法
WO2017216980A1 (ja) 機械学習装置
JP6753115B2 (ja) コンテンツ管理装置、コンテンツ管理方法及びプログラム
CN110321291A (zh) 测试案例智能提取系统及方法
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
US9898464B2 (en) Information extraction supporting apparatus and method
US20060161569A1 (en) Method and system to identify records that relate to a pre-defined context in a data set
JP2018180712A (ja) モデル変数候補生成装置および方法
JP2012073812A (ja) データ分析支援システム及び方法
JP2018170008A (ja) エンティティの属性をマッピングする方法及びシステム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
JP5790820B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
JP3743204B2 (ja) データ分析支援方法および装置
JPWO2018235841A1 (ja) グラフ構造解析装置、グラフ構造解析方法、及びプログラム
KR20230122739A (ko) 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법
JPH1115848A (ja) 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体
JP2012014684A (ja) 名寄せ支援処理装置、方法及びプログラム
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
JP3452308B2 (ja) データ分析装置
JP2020004057A (ja) 選定プログラム、選定方法および選定装置
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
CN112818228B (zh) 向用户推荐对象的方法、装置、设备和介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090618

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees