JP5079019B2 - 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム - Google Patents

情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム Download PDF

Info

Publication number
JP5079019B2
JP5079019B2 JP2009548827A JP2009548827A JP5079019B2 JP 5079019 B2 JP5079019 B2 JP 5079019B2 JP 2009548827 A JP2009548827 A JP 2009548827A JP 2009548827 A JP2009548827 A JP 2009548827A JP 5079019 B2 JP5079019 B2 JP 5079019B2
Authority
JP
Japan
Prior art keywords
classification
information
learning
unit
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009548827A
Other languages
English (en)
Other versions
JPWO2009087757A1 (ja
Inventor
守 加藤
光則 郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2009087757A1 publication Critical patent/JPWO2009087757A1/ja
Application granted granted Critical
Publication of JP5079019B2 publication Critical patent/JP5079019B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90339Query processing by using parallel associative memories or content-addressable memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、例えば、入力文書を分類する情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラムに関するものである。
情報フィルタリングとは、ユーザが事前に設定した要求(フィルタリング条件)に合致するか否かによって、情報を自動的に選別する情報処理を指す。情報フィルタリングでは、フィルタリングの精度を向上させるために、機械学習による文書の自動分類技術を用い、ユーザ指定のフィードバックによりフィルタリング条件を追加または変更する方法が一般的である(特許文献1)。これを学習型フィルタと呼ぶ。
さらに、フィルタリングの精度を向上させるための方法として、異なるフィルタリング条件を持つ複数の学習型フィルタを組み合わせたフィルタリング方法もある(特許文献2)。この方法では、複数のフィルタの出力(フィルタリング条件への適合度)がユーザの指定に基づいて合成され、最終出力となっている。
特開平9−288683号公報 特開2001−229164号公報
しかしながら、このような学習型フィルタにおいては、学習量の少ない初期状態ではフィルタリング精度が低いという課題があった。この課題を解決するためには、例えば、システムの運用前に十分な量の学習サンプルデータが用意され、十分な精度が得られるまでシステムが学習を行えばよい。しかし、学習サンプルデータの作成には要求(フィルタリング条件)に合致するか否かを人手により識別する必要がある。このため、実際のシステムにおいては十分な量の学習サンプルデータを用意することが困難である。
また、環境変化(例えば、企業内の組織異動)などによって、ユーザの要求やフィルタリング対象のデータ内容が短時間で大きく変化するような場合、その変化の際にフィルタリング精度が一時的に大きく低下する。そして、ユーザ指定のフィードバックにより学習型フィルタをその変化に追従させた場合、フィルタリング精度を元に戻すのに時間がかかるという課題がある。
本発明は、例えば、上記のような課題を解決するためになされたもので、学習量の少ない初期状態のとき又はユーザ要求や対象データ内容が大きく変化したときでも、一定レベルのフィルタリング精度を確保できる情報フィルタリングシステムを提供することを目的とする。
本発明の情報フィルタリングシステムは、複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ部と、前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ部と、属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較部と、前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較部と、前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出部と、特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力部とを備える。
前記第1のフィルタ部は、前記学習文書データと前記正解情報との組を入力機器から複数組入力し、各種類に属する各学習文書データに共通する統計情報を学習データとして生成する統計処理を前記複数組に基づいてCPUを用いて実行し、前記統計処理により生成した前記学習データを記憶機器に記憶する学習部と、前記分類対象文書データを入力機器から入力し、前記学習部により生成された前記学習データが示す前記統計情報に対して前記分類対象文書データの対応する比率を種類毎に分類確率としてCPUを用いて算出し、種類毎の前記分類確率に基づいて前記分類対象文書データの属する種類を特定する学習型分類部とを備えた学習型フィルタ部である。
前記学習部は、ベイズ理論、SVM(Support Vector Machine)、ニューラルネットワークモデルまたはその他の学習型アルゴリズムを用いて前記統計処理を行う。
前記第2のフィルタ部は、前記文書データを入力機器から入力し、各種類に属する分類キーワードを照合条件情報として予め記憶している記憶機器から前記照合条件情報を入力し、前記照合条件情報が示す各種類の前記分類キーワードが前記文書データに含まれているか否かを判定する文字列照合処理をCPUを用いて実行し、前記文字列照合処理で前記文書データに含まれていると判定された前記分類キーワードが属する種類を前記文書データの属する種類と特定する文字列照合型フィルタ部である。
前記文字列照合型フィルタ部は、決定性有限オートマトンを用いて前記文字列照合処理を行う。
前記文字列照合型フィルタ部は、前記分類キーワードを表す前記決定性有限オートマトンの状態遷移表を前記照合条件情報として前記文字列照合処理を実行する。
前記文字列照合型フィルタ部は、非決定性有限オートマトンを用いて前記文字列照合処理を行う。
前記結果出力部は、前記第1のエラー率が前記第2のエラー率より小さい場合には前記第1の分類情報を前記分類結果として出力し、前記第2のエラー率が前記第1のエラー率より小さい場合には前記第2の分類情報を前記分類結果として出力する。
前記結果出力部は、前記第1の分類情報と前記第2の分類情報とを所定の数値で表し、前記第1のエラー率に応じて前記第1の分類情報を重み付けすると共に、前記第2のエラー率に応じて前記第2の分類情報を重み付けし、重み付けした前記第1の分類情報と重み付けした前記第2の分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する。
前記照合条件情報は、複数の前記分類キーワードのうち特定の前記分類キーワードを特定キーワードとして示し、前記結果出力部は、前記文字列照合型フィルタ部により前記特定キーワードが含まれていると判定された前記分類対象文書データの前記分類結果として、前記特定キーワードの属する種類を出力する。
前記エラー率算出部は、所定の期間内に生成された前記第1の学習結果情報に基づいて前記第1のエラー率を算出すると共に、前期所定の期間内に生成された前記第2の学習結果情報に基づいて前記第2のエラー率を算出する。
前記学習型フィルタ部は、第1の学習型フィルタ部と第2の学習型フィルタ部とを備え、前記第1の学習型フィルタ部と前記第2の学習型フィルタ部とは、それぞれ前記学習部と前記学習型分類部とを備え、前記第1の学習型フィルタ部の前記学習部と前記第2の学習型フィルタ部の前記学習部とは、それぞれ異なる前記統計処理を実行し、前記第1の分類情報は、前記第1の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第1の学習分類情報と、前記第2の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第2の学習分類情報とを示す。
前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類と前記第2の学習分類情報が示す前記種類との論理和を求め、求めた前記論理和が示す前記種類を前記分類結果として出力する。
前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類の前記分類確率と前記第2の学習分類情報が示す前記種類の前記分類確率とに基づいて前記分類結果を出力する。
前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報の前記第1のエラー率に応じて前記第1の学習分類情報を重み付けすると共に、前記第1の学習分類情報の前記第1のエラー率に応じて前記第1の学習分類情報を重み付けし、重み付けした前記第1の学習分類情報と重み付けした前記第2の学習分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する。
前記学習型フィルタ部は、前記学習部と前記学習型分類部との組を複数備え、複数の前記学習部は、それぞれ異なる前記統計処理を実行し、前記第1の分類情報は、各組の前記学習型分類部それぞれにより特定された前記種類を示し、前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、最も多くの組に特定された前記種類を前記分類結果として出力する。
本発明の情報フィルタリング方法は、第1のフィルタ部が、複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ処理を行い、第2のフィルタ部が、前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ処理を行い、第1の正解比較部が、属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較処理を行い、第2の正解比較部が、前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較処理を行い、エラー率算出部が、前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出処理を行い、結果出力部が、特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力処理を行う。
本発明の情報フィルタリングプログラムは、前記情報フィルタリング方法をコンピュータに実行させる。
本発明によれば、例えば、結果出力部が第1のフィルタ部により特定された第1の分類情報と第2のフィルタ部により特定された第2の分類情報と各フィルタ部のエラー率とに基づいて分類結果を出力することにより、情報フィルタリングシステムは一定レベルのフィルタリング精度を確保することができる。
実施の形態1.
図1は、実施の形態1における情報フィルタリングシステム900の機能構成図である。
実施の形態1における情報フィルタリングシステム900の機能構成について、図1に基づいて以下に説明する。
情報フィルタリングシステム900は、文字列照合型フィルタ部100、学習型フィルタ部200および結果判定部300を備える。
文字列照合型フィルタ部100(第2のフィルタ部)は、文字列照合部110、正解比較部120および文字列照合型フィルタ記憶部190を備え、複数の分類カテゴリ(分類種類)のうち少なくともいずれかのカテゴリに属する入力文書801(学習用文書802、分類対象文書804)を入力機器から入力し、入力文書801に対して文字列照合処理(所定の分類処理の一例)をCPUを用いて実行し、入力文書801の属するカテゴリを合致情報101(第2の分類情報)として特定する。
文字列照合型フィルタ記憶部190は、文字列照合型フィルタ部100が用いる各種情報を記憶する記憶機器である。例えば、文字列照合型フィルタ記憶部190には、各カテゴリに属する分類キーワード108を示す照合条件情報109が予め記憶されている。
文字列照合部110は、文字列照合型フィルタ記憶部190から照合条件情報109を入力し、照合条件情報109の示す各カテゴリの分類キーワード108が入力文書801に含まれているか否かを判定する文字列照合処理をCPUを用いて実行する。そして、文字列照合部110は、入力文書801に含まれていると判定した分類キーワード108が属するカテゴリを当該入力文書801の合致情報101とする。例えば、文字列照合部110は、決定性有限オートマトンまたは非決定性有限オートマトンを用いて文字列照合処理を行う。決定性有限オートマトンにより文字列照合処理が行われる場合、分類キーワード108を表す決定性有限オートマトンの状態遷移表が照合条件情報109として予め文字列照合型フィルタ記憶部190に記憶されている。文字列照合部110は文字列照合型フィルタ記憶部190に予め記憶されている状態遷移表を用いて文字列照合処理を実行する。例えば、この状態遷移表は、情報フィルタリングシステム900の運用開始前に生成され、文字列照合型フィルタ記憶部190に記憶される。
正解比較部120(第2の正解比較部)は、文字列照合部110が特定した学習用文書802(学習文書データ)の合致情報101と、予め特定されている学習用文書802の属するカテゴリを示す正解情報803とをCPUを用いて比較する。次に、正解比較部120は、比較結果に基づいて合致情報101が正解情報803に一致したか否かを示す合致エラー有無情報102(第2の学習結果情報)を生成する。そして、正解比較部120は、生成した合致エラー有無情報102を学習結果情報309として結果判定記憶部390に記憶する。正解比較部120は複数の学習用文書802について学習用文書802毎に合致エラー有無情報102を生成して記憶する。
学習型フィルタ部200(第1のフィルタ部)は、学習部210、分類部220および学習型フィルタ記憶部290を備え、入力文書801を入力機器から入力し、学習型フィルタ処理(文字列照合型フィルタ部100の分類処理とは異なる所定の分類処理の一例)をCPUを用いて実行し、入力文書801の属するカテゴリを分類情報201(第1の分類情報)として特定する。
学習型フィルタ記憶部290は、学習型フィルタ部200が用いる各種情報を記憶する記憶機器である。例えば、学習型フィルタ記憶部290には、カテゴリ毎に当該カテゴリに属する各入力文書801に共通する統計情報が学習データ209として記憶される。
学習部210は、学習用文書802と正解情報803との組を入力機器から複数組入力し、入力した複数組に基づく統計処理をCPUを用いて実行し、統計処理により生成した学習データ209を学習型フィルタ記憶部290に記憶する。例えば、学習部210は、ベイズ理論、SVM(Support Vector Machine)またはニューラルネットワークモデルを用いて統計処理を行う。
分類部220(学習型分類部)は、特定のカテゴリに分類する対象である分類対象文書804(分類対象文書データ)を入力機器から入力し、学習部210により生成された学習データ209が示す統計情報に対して分類対象文書804の対応する比率を、カテゴリ毎に分類確率としてCPUを用いて算出する。そして、分類部220は、カテゴリ毎の分類確率に基づいて分類対象文書804の属するカテゴリを分類情報201として特定する。
また、学習部210(第1の正解比較部)は、分類部220が特定した学習用文書802の分類情報201と正解情報803とをCPUを用いて比較する。次に、学習部210は、比較結果に基づいて分類情報201が正解情報803に一致したか否かを示す分類エラー有無情報202(第2の学習結果情報)を生成する。そして、学習部210は、生成した分類エラー有無情報202を学習結果情報309として結果判定記憶部390に記憶する。学習部210は複数の学習用文書802について学習用文書802毎に分類エラー有無情報202を生成して記憶する。
結果判定部300は、エラー率算出部310、結果出力部320および結果判定記憶部390を備え、分類対象文書804の分類結果301を出力機器に出力する。
結果判定記憶部390は、結果判定部300が用いる各種情報を記憶する記憶機器である。例えば、結果判定記憶部390には、文字列照合型フィルタ部100の正解比較部120が生成した複数の合致エラー有無情報102や学習型フィルタ部200の学習部210が生成した複数の分類エラー有無情報202が学習結果情報309として記憶される。また例えば、結果判定記憶部390には、文字列照合型フィルタ部100の分類エラー率や学習型フィルタ部200の分類エラー率がエラー率情報308として記憶される。
エラー率算出部310は、文字列照合型フィルタ部100の正解比較部120が生成した複数の合致エラー有無情報102に基づいて、合致情報101が正解情報803と一致しなかった割合を示す文字列照合型フィルタ部100の分類エラー率(第2のエラー率)をCPUを用いて算出する。また、エラー率算出部310は、学習型フィルタ部200の学習部210が生成した複数の分類エラー有無情報202に基づいて、分類情報201が正解情報803と一致しなかった割合を示す学習型フィルタ部200の分類エラー率(第1のエラー率)をCPUを用いて算出する。エラー率算出部310が算出した文字列照合型フィルタ部100の分類エラー率および学習型フィルタ部200の分類エラー率は結果判定記憶部390にエラー率情報308として記憶される。
また、エラー率算出部310は、所定の期間内に生成された学習結果情報309に基づいて文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とを算出する。
ここで、分類エラー率とは100%から分類正解率を差し引いた値であるから、分類エラー率を算出するということは、分類正解率を算出するということに置き換えることができる。つまり、エラー率算出部310は分類正解率を算出するともいえる。
結果出力部320は、文字列照合型フィルタ部100の文字列照合部110が特定した合致情報101と、学習型フィルタ部200の分類部220が特定した分類情報201と、エラー率算出部310が算出したエラー率情報308とに基づいて、分類対象文書804の属するカテゴリをCPUを用いて特定する。そして、結果出力部320は特定したカテゴリを分類結果301として出力機器に出力する。これは、結果出力部320が合致情報101と分類情報201と各フィルタ部の分類正解率とに基づいて分類対象文書804のカテゴリを特定することに相当する。
例えば、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ部200の分類エラー率より小さい場合には合致情報101が示すカテゴリを分類結果301として出力し、学習型フィルタ部200の分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さい場合には分類情報201が示すカテゴリを分類結果301として出力する。これは、文字列照合型フィルタ部100の分類正解率が学習型フィルタ部200の分類正解率より大きい場合には合致情報101が示すカテゴリを分類結果301として出力し、学習型フィルタ部200の分類正解率が文字列照合型フィルタ部100の分類正解率より大きい場合には分類情報201が示すカテゴリを分類結果301として出力することに相当する。
また例えば、結果出力部320は、合致情報101と分類情報201とを所定の数値で表し、文字列照合型フィルタ部100の分類エラー率に応じて合致情報101を重み付けすると共に、学習型フィルタ部200の分類エラー率に応じて分類情報201を重み付けする。次に、結果出力部320は、重み付けした合致情報101と重み付けした分類情報201との平均値を加重平均値として算出する。そして、結果出力部320は、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて分類結果301を出力する。
また例えば、照合条件情報109には、分類結果として優先させる特定のキーワード(優先キーワード)が予め設定される。そして、文字列照合型フィルタ部100の文字列照合部110が分類対象文書804に優先キーワードが含まれていると判定した場合、結果出力部320は、文字列照合型フィルタ部100と学習型フィルタ部200との分類エラー率の大小や加重平均値などに関わらず、優先キーワードが属するカテゴリを分類結果301として出力する。
図2は、実施の形態1における情報フィルタリングシステム900の外観の一例を示す図である。
図2において、情報フィルタリングシステム900は、システムユニット910、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置901、キーボード902(Key・Board:K/B)、マウス903、FDD904(Flexible・Disk・Drive)、CDD905(コンパクトディスク装置)、プリンタ装置906、スキャナ装置907などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット910は、コンピュータであり、ファクシミリ機932、電話器931とケーブルで接続され、また、LAN942(ローカルエリアネットワーク)、ゲートウェイ941を介してインターネット940に接続されている。
図3は、実施の形態1における情報フィルタリングシステム900のハードウェア資源の一例を示す図である。
図3において、情報フィルタリングシステム900は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901、キーボード902、マウス903、FDD904、CDD905、プリンタ装置906、スキャナ装置907、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶機器、記憶装置あるいは記憶部の一例である。また、入力データが記憶されている記憶機器は入力機器、入力装置あるいは入力部の一例であり、出力データが記憶される記憶機器は出力機器、出力装置あるいは出力部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力機器、入力装置あるいは入力部の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力機器、出力装置あるいは出力部の一例である。
通信ボード915は、ファクシミリ機932、電話器931、LAN942等に接続されている。通信ボード915は、LAN942に限らず、インターネット940、ISDN等のWAN(ワイドエリアネットワーク)などに接続されていても構わない。インターネット940或いはISDN等のWANに接続されている場合、ゲートウェイ941は不用となる。
磁気ディスク装置920には、OS921(オペレーティングシステム)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、OS921、ウィンドウシステム922により実行される。
上記プログラム群923には、実施の形態において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態において、「〜部」の機能を実行した際の「〜の判定結果」、「〜の計算結果」、「〜の処理結果」などの結果データ、「〜部」の機能を実行するプログラム間で受け渡しするデータ、その他の情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。合致情報101、照合条件情報109、分類情報201、学習データ209、分類結果301、エラー率情報308、学習結果情報309などはファイル群924に含まれる電子データの一例である。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、実施の形態において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disc)等の記録媒体に記録される。また、データや信号値は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、実施の形態において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、情報フィルタリングプログラムなどのプログラムは、「〜部」としてコンピュータを機能させるものである。あるいは、「〜部」の手順や方法をコンピュータに実行させるものである。
図4は、実施の形態1における学習結果生成処理の流れを示すフローチャートである。
情報フィルタリングシステム900が学習データ209、学習結果情報309およびエラー率情報308を生成する方法について、図4に基づいて以下に説明する。
情報フィルタリングシステム900を構成する各部は、以下で説明する各処理をCPUを用いて実行する。
<S110:第2の学習分類処理>
文字列照合型フィルタ部100の文字列照合部110は照合条件情報109に基づいて学習用文書802を文字列照合し、合致情報101を出力する。
以下に、第2の学習分類処理(S110)の詳細について説明する。
まず、文字列照合部110は、入力機器から学習用文書802を入力する。
学習用文書802の属するカテゴリはユーザにより予め特定されている。
次に、文字列照合部110は文字列照合型フィルタ記憶部190から照合条件情報109を入力する。
照合条件情報109は、システムの運用前あるいはシステムの運用中にユーザにより設定されて文字列照合型フィルタ記憶部190に記憶される。照合条件情報109は、入力文書801を分類する各カテゴリに属する分類キーワード108が、カテゴリ毎に1つ以上設定されている。
分類キーワード108は、固定の用語であってもよいし、正規表現であってもよい。例えば、照合条件情報109には、「会社情報(機密情報の一例)」カテゴリに属する分類キーワード108として、「社外秘」という固定の用語、または、「社*外*秘」という正規表現が設定される。「*」は任意の1文字または任意の文字列(連続する複数文字、文字組)を示しており、「社*外*秘」には「社_外_秘」(“_”はスペースを示す)のように文字間にスペースが含まれたものも含まれる。つまり、正規表現は、1つの表記で、表記ゆれによる異なる複数の表記を、同じ意味の単語として表すことができる。表記ゆれとは、送り仮名や音引き(長音符)やスペースの有無を示す。分類キーワード108が正規表現で示されることにより、文字列照合部110は単純な用語のみでなく、複雑な表現を照合対象とすることができる。
また、ユーザは、各分類種別それぞれを複数のグループに分けると共にグループ毎に分類キーワード108を設定して、照合条件情報109を詳細化、階層化してもよい。
例えば、情報フィルタリングシステム900に機密情報を検出させるために、ユーザは、機密文書を「個人情報」、「顧客情報」、「新技術情報」などのカテゴリに分け、「個人情報」カテゴリに属するグループとして「氏名」、「住所」などを設け、「氏名」グループに属する分類キーワード108として“氏名”、“住所”、個々の氏名(“鈴木”、“佐藤”、“田中”など)、地名(“東京都”、“千代田区”など)などの単語(正規表現を含む)を設定してもよい。この場合、“氏名”、“住所”、個々の氏名、地名を示す各分類キーワード108は機密文書の「個人情報」カテゴリに属する。
また例えば、ユーザは、機密のレベルを示す等級毎に各カテゴリをグループ分けしてもよい。
また例えば、ユーザは、時間単位(1年単位、1月単位など)で各カテゴリをグループ分けしてもよい。会社設立時の部署名(略称を含む)を分類キーワード108とするグループやXXXX年YY月ZZ日付け組織改正により変更された部署名を分類キーワード108とするグループは、時間単位で分けたグループの一例である。
ユーザは、分類キーワード108毎に追加、変更および削除して照合条件情報109を設定してもよいし、グループ毎またはカテゴリ毎に照合条件情報109を設定してもよい。
照合条件情報109は、ユーザにより設定された「1つ以上のカテゴリ」、「各カテゴリに属する1つ以上のグループ」および「各グループに属する1つ以上の分類キーワード108」を示す。また、各グループはID(Identifier)で識別される。
照合条件情報109は、カテゴリ、グループおよび分類キーワード108が羅列されたテキストファイルであってもよいし、DFA(Deterministic Finite Automaton、決定性有限オートマトン)の状態遷移表を示すテーブルファイルであってもよい。
DFAとして知られている方法では、各分類キーワード108の正規表現を示す照合条件がコンパイルされ、照合条件を示す状態遷移表が生成され、その状態遷移表に基づいて文字列照合が行われる。
予め、照合条件をコンパイルして状態遷移表を照合条件情報109として保存しておくことで、システム起動時のコンパイル時間を不要とし、システムの起動処理を高速化することができる。
DFAの状態遷移表は、文字の並び順を「状態(例えば、状態0、状態1、・・・)」とし、「現在の状態」と「次の文字」とを表の列項目および行項目とし、「現在の状態」と「次の文字」との組み合わせを「次の状態」として示す。文字列照合部110は、入力文書801から文字を順次入力し、入力した文字に応じて「現在の状態」から「次の状態」へと状態遷移を繰り返し、「現在の状態」が最終状態(分類キーワード108の先頭文字から最終文字までの並び順を示す状態)になった場合に、当該分類キーワード108が入力文書801に含まれていると判定する。
図5は、実施の形態1におけるDFAの状態遷移表の一例を示す図である。
例えば、“abc”という分類キーワード108は図5の状態遷移表で表される。但し、図5では、“a”、“b”、“c”の3文字のみについて状態遷移を示し、他の文字(例えば、“d”、“e”、・・・“z”)については省略している。
図5において、第1列に示されている「状態0」、「状態1」、「状態2」、「状態3」は現在の状態を示し、第1行に示されている「a」、「b」、「c」は新たな入力文字(次の文字)を示し、第2行2列から第5行4列までの値は次の状態を示している。
「状態0」は分類キーワード108の先頭文字“a”が入力されていない状態を示す。
「状態1」は分類キーワード108の先頭文字“a”が入力された状態を示す。
「状態2」は“a”の次に“b”が入力された状態を示す。
「状態3」は“ab”の次に“c”が入力された最終状態を示す。
現在の状態が「状態0」の場合、次の文字が“a”であれば状態は「状態1」に遷移し、次の文字が“b”または“c”であれば状態は「状態0」のままとなる。
現在の状態が「状態1」の場合、次の文字が“a”であれば状態は「状態1」のままとなり、次の文字が“b”であれば状態は「状態2」に遷移し、次の文字が“c”であれば状態は「状態0」に戻る。
現在の状態が「状態2」の場合、次の文字が“a”であれば状態は「状態1」に戻り、次の文字が“b”であれば状態は「状態0」に戻り、次の文字が“c”であれば状態は最終状態である「状態3」に遷移する。
つまり、状態は、文字の並び順が「a→b→c」である場合に限り、“abc”という分類キーワード108を示す最終状態となる。
文字列照合部110は、文字列照合型フィルタ記憶部190から照合条件情報109を入力した後、照合条件情報109に設定されている各分類キーワード108が学習用文書802に含まれるか否かを判定する文字列照合処理を行う。
例えば、文字列照合処理には、C言語のstrstr関数や、grep、sed、perlなどのツールや、その他の正規表現ライブラリが用いられる。
文字列照合処理は、照合条件情報109に設定されている各分類キーワード108を検索キーワードとして学習用文書802が検索される処理でもよいし、学習用文書802に含まれている各語と照合条件情報109に設定されている各分類キーワード108とが比較される処理でもよい。例えば、学習用文書802に含まれている各語は、形態素解析により抽出される。
そして、文字列照合部110は、文字列照合処理の結果に基づいて合致情報101を生成し、生成した合致情報101を正解比較部120に出力する。
合致情報101は、学習用文書802(入力文書801の一例)がどのカテゴリの照合条件(分類キーワード108)に合致したか、つまり、学習用文書802がどのカテゴリに属するかを示す。合致情報101が示すカテゴリ(学習用文書802が照合条件に合致したカテゴリ)は文字列照合部110が特定した学習用文書802の属するカテゴリを示す。
例えば、文字列照合部110は、文字列照合処理において、あるカテゴリ(例えば、「個人情報」)に属する複数の分類キーワード108のうち、少なくとも1つの分類キーワード108(例えば、“氏名”)が学習用文書802に含まれていると判定した場合、学習用文書802がそのカテゴリ(「個人情報」)に属すると判定する。そして、文字列照合部110は、学習用文書802がそのカテゴリ(「個人情報」)の照合条件に合致するという情報を合致情報101に設定する。
また例えば、文字列照合部110は、文字列照合処理において、学習用文書802に対してカテゴリ毎に分類キーワード108の出現回数(ヒット数)の合計値を算出する。そして、文字列照合部110は、属する分類キーワード108の出現回数の合計値が所定の閾値以上であったカテゴリに学習用文書802が属すると判定し、学習用文書802がそのカテゴリの照合条件に合致するという情報を合致情報101に設定する。例えば、閾値を「10」とする。このとき、文字列照合部110は、“氏名”、“住所”、個々の氏名、地名などの「個人情報」に属する各分類キーワード108が合計で学習用文書802内の10箇所以上に含まれているか否かを判定する。そして、文字列照合部110は、「個人情報」に属する各分類キーワード108が10箇所以上に含まれていると判定した場合、学習用文書802が「個人情報」に属すると判定する。
合致情報101は全カテゴリについて「合致」または「非合致」を示してもよいし、カテゴリ単位ではなくグループ単位で「合致」または「非合致」を示してもよい。
次に、図4の第2の正解比較処理(S120)について説明する。
<S120:第2の正解比較処理>
S110の後、文字列照合型フィルタ部100の正解比較部120は合致情報101と正解情報803とを比較し、合致エラー有無情報102を学習結果情報309として蓄積する。
以下に、第2の正解比較処理(S120)の詳細について説明する。
まず、正解比較部120は文字列照合部110がS110で出力した合致情報101を入力し、また、入力機器から正解情報803を入力する。
次に、正解比較部120は合致情報101と正解情報803とを比較し、合致情報101と正解情報803とが一致するか否かを判定する。
正解情報803は、学習用文書802と組を構成し、ユーザにより予め特定された学習用文書802の属するカテゴリが設定されている。正解情報803に設定されるカテゴリは1つの学習用文書802に対して1つでも複数でもよい。
例えば、正解情報803に1つのカテゴリが設定されているとする。このとき、正解比較部120は、正解情報803に設定されているカテゴリが合致情報101で「合致」と示されている場合に合致情報101と正解情報803とが一致すると判定する。
また例えば、正解情報803に複数のカテゴリが設定されているとする。このとき、正解比較部120は、正解情報803に設定されている複数のカテゴリのうち、少なくとも1つのカテゴリについて合致情報101が「合致」を示している場合に合致情報101と正解情報803とが一致すると判定する。また、正解比較部120は、正解情報803に設定されている複数のカテゴリ全てについて合致情報101が「合致」を示している場合にのみ合致情報101と正解情報803とが一致すると判定してもよい。また、正解比較部120は、合致情報101と正解情報803とが一致するか否かをカテゴリ毎に判定してもよい。
そして、正解比較部120は判定結果を示す合致エラー有無情報102を学習結果情報309として結果判定記憶部390に蓄積する。
合致エラー有無情報102は、合致情報101と正解情報803との一致を「正解」として示し、合致情報101と正解情報803との不一致を「エラー」として示す。
次に、図4の第1の学習分類処理(S130)について説明する。
<S130:第1の学習分類処理>
学習型フィルタ部200の分類部220は学習データ209に基づいて学習用文書802を分類し、分類情報201を出力する。
以下に、第1の学習分類処理(S130)の詳細について説明する。
まず、分類部220は入力機器から学習用文書802を入力し、また、学習型フィルタ記憶部290から学習データ209を入力する。
学習データ209は、学習部210が正解情報803に基づいて生成する統計情報であり、文書のカテゴリ毎に当該カテゴリに属する各入力文書801に共通する統計情報が設定されている。例えば、学習データ209には、統計情報として、当該カテゴリに属する文書に出現する各用語の出現頻度が設定されている。
以下、学習データ209にはカテゴリ毎に各用語の出現頻度が設定されているものとする。
出現頻度とは、例えば、1つの入力文書801あたりの出現回数や文字数当りの出現回数を示す。
次に、分類部220は学習用文書802に含まれている各語を抽出し、学習用文書802から抽出した各語の出現頻度を算出する。
例えば、学習用文書802に含まれている各語は、学習データ209に設定されている用語を検索キーワードとして学習用文書802が検索されて抽出されてもよいし、学習用文書802に対する形態素解析により抽出されてもよい。
次に、分類部220は学習用文書802に含まれている各語の出現頻度と学習データ209に設定されている各用語の出現頻度とを比較し、学習用文書802の属するカテゴリを特定する。
例えば、分類部220は、学習用文書802に含まれている各語の出現頻度と学習データ209に設定されている各用語の出現頻度とに基づいて、カテゴリ毎に学習用文書802が属する確率(分類確率)を算出する。そして、分類部220は、分類確率が最も高いカテゴリや分類確率が所定の閾値(分類確率の第1の閾値)以上であるカテゴリを学習用文書802の属するカテゴリと特定する。
例えば、分類確率は、ナイーブ・ベイズ分類法に基づいて、以下の式1で算出される。
Figure 0005079019
そして、分類部220は特定した学習用文書802の属するカテゴリを分類情報201として学習部210に出力する。また、分類情報201にはカテゴリの分類確率が設定されてもよい。
次に、図4の第1の正解比較処理(S140)の詳細について説明する。
<S140:第1の正解比較処理>
S130の後、学習型フィルタ部200の学習部210は分類情報201と正解情報803とを比較し、分類エラー有無情報202を学習結果情報309として蓄積する。
以下に、第1の正解比較処理(S140)の詳細について説明する。
まず、学習部210は分類部220が出力した分類情報201を入力し、また、入力機器から正解情報803を入力する。
次に、学習部210は分類情報201と正解情報803とを比較し、合致情報101と正解情報803とが一致するか否かを判定する。
例えば、正解情報803に1つのカテゴリが設定されているとする。このとき、学習部210は、正解情報803に設定されているカテゴリが分類情報201に示されている場合に分類情報201と正解情報803とが一致すると判定する。
また例えば、正解情報803に複数のカテゴリが設定されているとする。このとき、学習部210は、正解情報803に設定されている複数のカテゴリのうち、少なくとも1つのカテゴリについて分類情報201に示されている場合に分類情報201と正解情報803とが一致すると判定する。また、学習部210は、正解情報803に設定されている複数のカテゴリ全てについて分類情報201に示されている場合にのみ合致情報101と正解情報803とが一致すると判定してもよい。また、学習部210は、カテゴリ毎に、分類情報201と正解情報803とが一致するか否かを判定してもよい。
そして、学習部210は判定結果を示す分類エラー有無情報202を学習結果情報309として結果判定記憶部390に蓄積する。
分類エラー有無情報202は、分類情報201と正解情報803との一致を「正解」として示し、分類情報201と正解情報803との不一致を「エラー」として示す。
次に、図4の学習処理(S150)について説明する。
<S150:学習処理>
学習部210は、第1の正解比較処理(S140)の判定結果に基づいて学習の要否を判定し(S151)、学習要と判定した場合に、学習用文書802と正解情報803とに基づいて学習データ209を生成する(S152)。
以下に、S151とS152との詳細について説明する。
<S151:学習要否判定処理>
学習部210は、第1の正解比較処理(S140)において分類情報201と正解情報803とが不一致であると判定した場合に学習が必要であると判定し、第1の正解比較処理(S140)において分類情報201と正解情報803とが一致すると判定した場合に学習が不要であると判定する。
学習とは、学習データ209の生成を意味する。
分類情報201と正解情報803とが不一致であった場合にのみ、つまり、分類エラーが発生した場合にのみ、学習データ209を生成することにより、不要な学習が減り、学習時間の削減、分類精度の向上が実現できる。
また、学習部210は、第1の学習分類処理(S130)で分類部220が算出した分類確率または正解情報803が示すカテゴリに基づいて学習の要否を判定してもよい。
例えば、学習部210は、分類情報201と正解情報803とが一致すると判定した場合でも、分類情報201に設定されたカテゴリの分類確率が所定の閾値(分類確率の第2の閾値)以下である場合には、十分な学習ができていないと判断し、学習が必要であると判定してもよい。これにより、分類精度をさらに向上させることができる。
また例えば、学習部210は、分類情報201と正解情報803との一致または不一致に関わらず、正解情報803に設定されているカテゴリが特定のカテゴリである場合には、学習が必要であると判定してもよい。例えば、「個人情報」が特定のカテゴリである場合、「個人情報」カテゴリに属する学習用文書802は必ず学習の対象となる。
また、学習部210は、分類情報201と正解情報803との一致または不一致に関わらず、必ず、学習が必要であると判定し、全ての学習用文書802を学習対象にしてもよい。つまり、学習要否判定処理(S151)は実行されなくてもよい。
学習が不要であると判定された場合、次に、S160が実行される。
<S152:学習データ生成処理>
S151において学習が必要であると判定した場合、学習部210は、学習用文書802を分析して学習用文書802の統計情報を算出し、算出した統計情報を学習用文書802と同じカテゴリに属する入力文書801の統計情報として学習データ209に反映する。
例えば、学習部210は、ベイズ理論(ベイズ統計)、SVMまたはニューラルネットワークモデルを用いたアルゴリズムに基づいて統計処理を行い、学習用文書802の統計情報を算出する。
例えば、統計情報は、前述の通り、各用語の出現頻度を示す。
<S160>
次に、情報フィルタリングシステム900(例えば、文字列照合型フィルタ部100、学習型フィルタ部200)は、ユーザにより入力された全ての学習用文書802を処理したか否かを判定する。
未処理の学習用文書802が存在する場合、未処理の学習用文書802に対してS110〜S150の各処理が実行される。つまり、文字列照合型フィルタ部100および学習型フィルタ部200は学習用文書802毎にS110〜S150の各処理を実行する。
全ての学習用文書802が処理されたと判定された場合、次に、エラー率算出処理(S170)が実行される。
<S170:エラー率算出処理>
全ての学習用文書802に対してS110〜S150の各処理が実行された後、結果判定部300のエラー率算出部310は学習結果情報309に基づいて文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とを算出する。
以下に、エラー率算出処理(S170)の詳細について説明する。
まず、結果判定部300のエラー率算出部310は、結果判定記憶部390から学習結果情報309を入力する。学習結果情報309には文字列照合型フィルタ部100の正解比較部120から出力された各合致エラー有無情報102と学習型フィルタ部200の学習部210から出力された各分類エラー有無情報202とが含まれている。つまり、学習結果情報309は、学習用文書802毎に、文字列照合型フィルタ部100の分類正否および学習型フィルタ部200の分類正否を示している。
次に、エラー率算出部310は、学習結果情報309に基づいて以下の式2を計算して、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とを算出する。
分類エラー率=エラー発生数/学習文書数 ・・・(式2)
「エラー発生数」とは、「エラー」が設定されている合致エラー有無情報102または分類エラー有無情報202の数を示す。
「学習文書数」とは、学習用文書802の総数を示す。また、「学習文書数」は「エラー」が設定されている合致エラー有無情報102と「正解」が設定されている合致エラー有無情報102との合計数(合致エラー有無情報102の総数)または「エラー」が設定されている分類エラー有無情報202と「正解」が設定されている分類エラー有無情報202との合計数(分類エラー有無情報202の総数)を示す。
エラー率算出部310は、一定期間内に蓄積された学習結果情報309を用いて最近の分類エラー率を算出してもよい。分類エラーは分類対象文書804に新しい用語が多く含まれるような場合に発生する。つまり、分類エラーの発生頻度は時間の経過と共に変化し、古い分類精度情報は重要でなくなる。そこで、エラー率算出部310は、最近の分類エラーの発生頻度を考慮することにより、分類エラーの発生頻度の変化に対応することができる。例えば、一定期間内に蓄積された学習結果情報309とは、新しく生成された順での所定の件数分の学習結果情報309(例えば、最新の100件の学習結果情報309)のことである。また例えば、一定期間内に蓄積された学習結果情報309とは、分類エラー率の算出時や最新の学習結果情報309が生成された時刻を基準として過去の所定の時間内に生成された学習結果情報309(例えば、過去1ヶ月内に生成された学習結果情報309)のことである。
そして、エラー率算出部310は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とをエラー率情報308として結果判定記憶部390に記憶する。
エラー率情報308は、文字列照合型フィルタ部100の分類信頼度と学習型フィルタ部200の分類信頼度とを、分類エラー率で表す情報である。
以上で学習結果生成処理(S110〜S170)について説明した。上記の学習結果生成処理(S110〜S170)において、文字列照合型フィルタ部100が実行する処理(S110〜S120)と学習型フィルタ部200が実行する処理(S130〜S150)とは、互いに独立した処理であり、並行して処理されてもよい。例えば、情報フィルタリングシステム900は、文字列照合型フィルタ部100の処理を1つのスレッドとすると共に学習型フィルタ部200の処理を他のスレッドとして、文字列照合型フィルタ部100の処理と学習型フィルタ部200の処理とをマルチスレッド処理してもよい。文字列照合型フィルタ部100の処理と学習型フィルタ部200の処理とが並行して処理されることで、学習結果生成処理(S110〜S170)にかかる処理時間が短縮される。
上記の学習結果生成処理(S110〜S170)により、学習データ209、学習結果情報309およびエラー率情報308が生成される。
図6は、実施の形態1における情報フィルタリングシステム900のフィルタリング処理の流れを示すフローチャートである。
学習結果生成処理(S110〜S170)で生成された学習データ209およびエラー率情報308を用いて、分類対象文書804が属するカテゴリを特定するフィルタリング方法について、図6に基づいて以下に説明する。
情報フィルタリングシステム900を構成する各部は、以下で説明する各処理をCPUを用いて実行する。
<S210:第2の分類処理>
文字列照合型フィルタ部100の文字列照合部110は、第2の学習分類処理(S110)と同様に、照合条件情報109に基づいて分類対象文書804を文字列照合し、合致情報101を出力する。
S210では、文字列照合の対象は学習用文書802ではなく分類対象文書804であり、合致情報101の出力先は正解比較部120ではなく結果判定部300の結果出力部320である。
<S220:第1の分類処理>
学習型フィルタ部200の分類部220は、第1の学習分類処理(S130)と同様に、学習データ209に基づいて分類対象文書804を分類し、分類情報201を出力する。
S220では、分類対象は学習用文書802ではなく分類対象文書804であり、分類情報201の出力先は学習部210ではなく結果判定部300の結果出力部320である。
<S230:結果出力処理>
結果判定部300の結果出力部320は、合致情報101と分類情報201とエラー率情報308とに基づいて分類結果301を出力する。
以下に、結果出力処理(S230)の詳細について説明する。
まず、結果出力部320は、文字列照合型フィルタ部100の文字列照合部110がS210の処理において出力した合致情報101を入力し、学習型フィルタ部200の分類部220がS220の処理において出力した分類情報201を入力し、結果判定記憶部390からエラー率情報308を入力する。
次に、結果出力部320は、合致情報101と分類情報201とエラー率情報308とに基づいて分類対象文書804の属するカテゴリを特定する。
例えば、結果出力部320は、エラー率情報308を参照し、分類エラー率の小さい方(分類信頼度の大きい方)のフィルタ部(文字列照合型フィルタ部100または学習型フィルタ部200)により特定されたカテゴリを分類対象文書804の属するカテゴリとして選択する。
つまり、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ部200の分類エラー率より小さければ、文字列照合型フィルタ部100の合致情報101に「合致」と設定されているカテゴリを分類対象文書804のカテゴリとする。また、結果出力部320は、学習型フィルタ部200の分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さければ、学習型フィルタ部200の分類情報201に設定されているカテゴリを分類対象文書804のカテゴリとする。また、結果出力部320は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とが同じ(または、差が所定の範囲内)である場合には、合致情報101に「合致」と設定されているカテゴリと分類情報201に設定されているカテゴリとの論理和を求め、論理和が示す各カテゴリを分類対象文書804のカテゴリとする。例えば、合致情報101に「合致」と設定されているカテゴリがAとBであり、分類情報201に設定されているカテゴリがBとCであれば、分類対象文書804のカテゴリはA、BおよびCとなる。
また例えば、結果出力部320は、合致情報101と分類情報201との加重平均値と所定の閾値との比較結果に基づいて分類対象文書804の属するカテゴリを特定する。
このとき、結果出力部320は、合致情報101と分類情報201とを所定の数値で表す。例えば、合致情報101は「0」にマッピングされ、分類情報201は「1」にマッピングされる。
次に、結果出力部320は、以下の式3により、合致情報101の数値を重み付けした合致情報101の加重値と分類情報201の数値を重み付けした分類情報201の加重値とに基づく加重平均値を算出する。以下の式3では、両フィルタ部の分類正解率(=1−分類エラー率)(分類信頼度)の合計値に対する各フィルタ部の分類正解率により合致情報101と分類情報201とが重み付けされている。
加重平均値
=照合型フィルタ結果
×(照合型フィルタ正解率/(照合型フィルタ正解率+学習型フィルタ正解率))
+学習型フィルタ結果
×(学習型フィルタ正解率/(照合型フィルタ正解率+学習型フィルタ正解率))
・・・(式3)
「照合型フィルタ結果」とは、合致情報101の数値(例えば、「0」)を示す。
「学習型フィルタ結果」とは、分類情報201の数値(例えば、「1」)を示す。
「照合型フィルタ正解率」とは、文字列照合型フィルタ部100の分類正解率を示す。
「学習型フィルタ正解率」とは、学習型フィルタ部200の分類正解率を示す。
式3の第1項(照合型フィルタ結果×(・・・学習型フィルタ正解率))は合致情報101の加重値を示し、式3の第2項(学習型フィルタ結果×(学習型フィルタ正解率))は分類情報201の加重値を示す。
そして、結果出力部320は、上記の式3により算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて分類対象文書804のカテゴリを特定する。
例えば、合致情報101の数値が「0」、分類情報201の数値が「1」、文字列照合型フィルタ部100の分類正解率が「0.6(60%)」、学習型フィルタ部200の分類正解率が「0.4(40%)」である場合、加重平均値は「0.4(=(0×0.6)+(1×0.4))となる。このとき、閾値が「0.5」であれば、加重平均値(0.4)が閾値未満であり、閾値と比べて合致情報101の値(0)に近いため、結果出力部320は合致情報101に「合致」と設定されているカテゴリを分類対象文書804のカテゴリとする。また、閾値が「0.3」であれば、加重平均値(0.4)が閾値以上であり、閾値と比べて分類情報201の値(1)に近いため、結果出力部320は分類情報201に設定されているカテゴリを分類対象文書804のカテゴリとする。
つまり、結果出力部320は加重平均値が閾値未満である場合には閾値未満の値がマッピングされた方のフィルタ部が特定したカテゴリを分類対象文書804のカテゴリとし、加重平均値が閾値以上である場合には閾値以上の値がマッピングされた方のフィルタ部が特定したカテゴリを分類対象文書804のカテゴリとする。
加重平均値との比較に使用する閾値は、どのフィルタ部の結果を重視するかの度合いを示している。
また例えば、結果出力部320は、各フィルタ部の分類正解率に各フィルタ部の結果に対する重要度を示す重み付け係数を乗じ、重み付けした各フィルタ部の分類正解率を比較して、重み付けした分類正解率が大きい方のフィルタ部が特定したカテゴリを分類対象文書804のカテゴリとする。
文字列照合型フィルタ部100の分類正解率と学習型フィルタ部200の分類正解率とが共に「0.5(50%)」、合致情報101の重み付け係数が「0.7」、分類情報201の重み付け係数が「1.0」である場合、結果出力部320は、重み付けした文字列照合型フィルタ部100の分類正解率「0.35(=0.5×0.7)」と重み付けした学習型フィルタ部200の分類正解率「0.5(=0.5×1.0)」とを比較する。そして、結果出力部320は、重み付けした分類正解率は学習型フィルタ部200の方が大きいため、学習型フィルタ部200が特定したカテゴリを分類対象文書804のカテゴリとする。
また例えば、結果出力部320は、分類情報201に設定されているカテゴリの分類確率を所定の閾値(分類確率の第3の閾値)と比較し、分類確率が閾値以上の場合に分類情報201に設定されているカテゴリを分類対象文書804のカテゴリとし、分類確率が閾値未満の場合に合致情報101に「合致」と設定されているカテゴリを分類対象文書804のカテゴリとする。つまり、結果出力部320は分類情報201に設定されているカテゴリの分類確率の大小に応じて分類対象文書804のカテゴリを特定する。
また例えば、文字列照合型フィルタ部100の照合条件情報109に優先キーワードが予め設定され、且つ、合致情報101に優先キーワードの属するカテゴリの「合致」が設定されている場合、結果出力部320は、分類エラー率の大小や加重平均値に関わらず、優先キーワードの属するカテゴリを分類対象文書804の属するカテゴリとする。
例えば、照合条件情報109において、カテゴリに属する各分類キーワード108がグループ分けされ、各グループがIDで識別される場合、各グループのIDは64ビット整数で表されると共に最上位ビットが優先フラグとして使用される。この場合の優先キーワードは、IDの優先フラグに「1」が設定されているグループ(優先グループ)に属する全ての分類キーワード108である。
機密情報検出の応用分野においては、機密情報の中でもある特定の内容(入力文書801)を100%検出することが求められる場合がある。例えば、ユーザが特定の顧客を示す“xxx株式会社”という記述を含む文書を100%検出したい場合などである。このような場合でも、優先キーワードが設定された情報フィルタリングシステム900は、統計的な手法(学習型フィルタ部200の分類手法)によらず、優先キーワードを含んでいる特定の文書を100%特定することできる。
また、ユーザの環境の変化などによって検出すべき用語の語彙(分類キーワード108)が大きく増える場合、ユーザは、増加分の各新用語を「新技術情報」カテゴリの新たな1グループとし、この新たなグループに優先フラグを設定することで、「新技術情報」カテゴリについて情報フィルタリングシステム900から高い精度の分類結果301を得ることができる。新用語のグループに優先フラグが設定された情報フィルタリングシステム900は、新用語を含む学習用文書802について学習型フィルタ部200による学習が済んでいない時点でも、新用語に対応して分類対象文書804を「新技術情報」カテゴリに分類し、分類結果301の精度低下を抑えることができる。さらに、情報フィルタリングシステム900が「新技術情報」カテゴリについて高い精度で分類結果301を出力することにより、ユーザは、「新技術情報」カテゴリに属する分類対象文書804を学習用文書802として情報フィルタリングシステム900にフィードバックして、学習型フィルタ部200の分類精度を向上させることができる。
分類対象文書804の属するカテゴリを特定した結果出力部320は、特定したカテゴリを分類結果301に設定し、分類結果301を出力機器に出力する。
結果出力部320は、分類信頼度の高い方のフィルタ部により特定されたカテゴリを設定することにより、分類結果301の精度を向上させることができる。
また、結果出力部320は、選択されなかった方のフィルタ部により特定されたカテゴリも参考情報として分類結果301に設定してもよい。これにより、ユーザによる総合的な結果判断を促すことが可能となる。
上記のフィルタリング処理(S210〜S230)において、文字列照合型フィルタ部100の処理(S210)と学習型フィルタ部200の処理(S220)とは並行して処理されてもよい。文字列照合型フィルタ部100の処理と学習型フィルタ部200の処理とが並行して処理されることで、フィルタリング処理(S210〜S220)にかかる処理時間が短縮される。
上記のフィルタリング処理(S210〜S230)により、分類対象文書804の属するカテゴリを示す分類結果301が出力される。
情報フィルタリングシステム900は、入力された分類対象文書804毎に、上記のフィルタリング処理(S210〜S230)を実行する。
図7は、実施の形態1における情報フィルタリングシステム900の運用手順を示すフローチャートである。
実施の形態1における情報フィルタリングシステム900の運用方法について、図7に基づいて以下に説明する。
<S310:照合条件設定処理>
まず、ユーザは分類キーワード108を定義して照合条件情報109を生成し、生成した照合条件情報109を文字列照合型フィルタ部100の文字列照合型フィルタ記憶部190に記憶させる。
<S320:学習結果生成処理>
次に、ユーザは情報フィルタリングシステム900に学習用文書802および正解情報803を入力し、図4に基づいて説明した学習結果生成処理(S110〜S170)を情報フィルタリングシステム900に実行させる。情報フィルタリングシステム900は学習結果生成処理(S110〜S170)を実行して学習結果情報309を生成する。
但し、ユーザは必ずしも学習結果生成処理(S320)を実行しなくてもよい。
<S330:フィルタリング処理>
次に、ユーザは情報フィルタリングシステム900に分類対象文書804を入力し、図6に基づいて説明したフィルタリング処理(S210〜S230)を情報フィルタリングシステム900に実行させる。情報フィルタリングシステム900はフィルタリング処理(S210〜S230)を実行して分類結果301を出力する。
<S340:フィードバック判定処理>
次に、ユーザは、分類結果301に基づいて、分類対象文書804を学習用文書802として情報フィルタリングシステム900にフィードバックする必要があるか否かを判断する。
フィードバックが不要であると判定した場合、ユーザはS360に処理を進める。
分類対象文書804のフィードバックにより、情報フィルタリングシステム900は学習型フィルタ部200の分類精度を向上させることができる。ユーザはフィードバックするか否かをユーザ作業量とのトレードオフを考慮して判断するとよい。全てのフィルタ通過文書(分類結果301が出力された全ての分類対象文書804)がフィードバックされることで、情報フィルタリングシステム900は学習型フィルタ部200の分類精度の向上を早められる。しかし、ユーザは、通常、特定の条件(例えば、「新技術用語」カテゴリに分類されたもの)に合致した分類対象文書804のみをフィードバック対象とするという最低限のユーザ作業により、情報フィルタリングシステム900に学習型フィルタ部200の分類精度を向上させることができる。
<S350:学習データ生成処理>
S340においてフィードバックが必要であると判断したユーザは、分類対象文書804を学習用文書802として情報フィルタリングシステム900に入力すると共に、分類対象文書804の正解情報803を生成し、生成した正解情報803を情報フィルタリングシステム900に入力する。学習用文書802と正解情報803とを入力した情報フィルタリングシステム900では、学習型フィルタ部200が、学習用文書802と正解情報803とに基づいて、図4で説明した学習データ生成処理(S152)を実行し、学習データ209を生成する。
<S360>
ユーザは全ての分類対象文書804を情報フィルタリングシステム900に処理させたか否かを判断する。
未処理の分類対象文書804がある場合、ユーザはS310に処理を戻す。
全ての分類対象文書804が処理済みである場合、ユーザは情報フィルタリングシステム900の運用を終了する。
上記の説明では機密情報文書の分類を例として挙げているが、情報フィルタリングシステム900は分類対象が機密情報に限定されるものではなく、広く一般に文書の分類に用いることができるものである。また、上記の説明では日本語文書の分類を例として挙げているが、情報フィルタリングシステム900は分類対象が日本語文書に限定されるものではなく、どのような文字コードの文書にも適用可能である。また、上記の説明では非学習型フィルタの例として文字列照合型フィルタ部100を挙げた。しかし、学習型フィルタ部200のように学習により分類条件(学習データ209)を生成するフィルタであっても、予め行われた学習により分類条件が予め生成され、追加の学習が行われない場合、分類条件が固定的になるため、このフィルタを非学習型フィルタとして考えることができる。
実施の形態1では、以下のような情報フィルタリングシステム900について説明した。
情報フィルタリングシステム900は、入力文書801に対して複数の所定の分類のうちいずれに該当するかを判定するフィルタを2つ以上(文字列照合型フィルタ部100、学習型フィルタ部200)備える。
また、情報フィルタリングシステム900は、各フィルタの結果(合致情報101、分類情報201)から入力文書801の分類の最終結果(分類結果301)を判定する学習型フィルタ部200を備える。
フィルタのうちの少なくとも1つは、複数の分類に対してどの分類に該当するかの正解情報803を付した学習サンプル入力文書(学習用文書802)を入力として学習を行って学習データ209を更新し、その学習データに基づきフィルタリング対象入力文書(分類対象文書804)がどの分類に該当するかを判定する学習型フィルタ部200である。
各フィルタは、学習動作時に、正解情報803と学習サンプル入力文書の分類結果(合致情報101、分類情報201)を比較し、エラーかどうかの判定を行い、エラー情報(合致エラー有無情報102、分類エラー有無情報202)を出力する。
結果判定部300は、各フィルタのエラー情報をそれぞれ蓄積し、それぞれのフィルタのエラー率を算出する。
結果判定部300は、分類動作時に、各フィルタの判定結果(合致情報101、分類情報201)とエラー情報とに応じて最終結果(分類結果301)を出力する。
また、情報フィルタリングシステム900は、前記フィルタのうちの少なくとも1つ(文字列照合型フィルタ部100)が、学習動作時に学習データ(照合条件情報109)の更新を行わず、エラー情報(合致エラー有無情報102)の出力のみを行う非学習型フィルタである。
また、結果判定部300は、エラー率が小さいフィルタの結果を最終結果として出力する。
また、結果判定部300は、エラー率に応じて、各フィルタの判定結果の加重平均を取り、最終結果を出力する。
また、結果判定部300は、エラー情報を蓄積する際に、過去一定件数のエラー情報を蓄積する。
また、非学習型フィルタは、入力文書に対して1つ以上の照合条件(分類キーワード108)に基づく文字列照合を行い、照合結果が正解情報803と合致するかどうかを判定結果(合致エラー有無情報102)とする。
また、照合条件は、照合条件IDとそれに対応する照合条件の組(グループ)の集合として表される。
文字列照合フィルタは、それぞれの照合条件ID毎に合致するかどうかの判定結果を出力する。
結果判定部300は特定の照合条件IDに対して入力文書801が合致している場合には、他の結果に関わらずそれを最終結果として出力する。
また、文字列照合フィルタは、決定性有限オートマトン(DFA)による文字列照合を行う。
また、文字列照合フィルタは、照合条件をコンパイルして状態遷移表を作成し、その状態遷移表を照合条件ファイルとして保存し、照合条件ファイルが示す状態遷移表を用いて照合処理を実行する。
また、文字列照合フィルタは、非決定性有限オートマトン(NFA)による文字列照合を行う。
実施の形態2.
実施の形態2では、学習型フィルタを複数有する情報フィルタリングシステム900について説明する。
以下、実施の形態1と異なる事項について主に説明し、説明を省略する事項は実施の形態1と同様であるものとする。
図8は、実施の形態2における情報フィルタリングシステム900の機能構成図である。
実施の形態2における情報フィルタリングシステム900の機能構成について、図8に基づいて以下に説明する。
情報フィルタリングシステム900は、学習型フィルタ部200a、学習型フィルタ部200b、学習型フィルタ部200cなど、複数の学習型フィルタ部200を備える。複数の学習型フィルタ部200を学習型フィルタ集合部400とする。
学習型フィルタ部200a、学習型フィルタ部200b、学習型フィルタ部200cなどの各学習型フィルタ部200は、実施の形態1の学習型フィルタ部200と同じく、学習部210、分類部220および学習型フィルタ記憶部290を備え(図示省略)、実施の形態1の学習型フィルタ部200と同じ機能を有する。
但し、各学習型フィルタ部200の学習部210は、それぞれに異なる統計処理を実行する。例えば、学習型フィルタ部200aの学習部210はベイズ理論に基づく統計処理を行い、学習型フィルタ部200bの学習部210はSVMに基づく統計処理を行い、学習型フィルタ部200cの学習部210はニューラルネットワークモデルに基づく統計処理を行う。これにより、各学習型フィルタ部200は、それぞれに独自の学習データ209を生成し、各自の学習データ209に基づいて分類情報201を生成する。
各学習型フィルタ部200が異なる統計処理を行うことにより、少なくともいずれかの学習型フィルタ部200により分類対象文書804が正しく分類される可能性が高くなり、分類結果301の分類精度が向上する。
各学習型フィルタ部200は、それぞれ、分類対象文書804に対する分類情報201を結果出力部320に出力する。
結果判定記憶部390には、文字列照合型フィルタ部100の合致エラー有無情報102と各学習型フィルタ部200の分類エラー有無情報202とが学習結果情報309として蓄積される。
エラー率算出部310は、学習型フィルタ部200毎に算出した各分類エラー率を学習型フィルタ集合部400の分類エラー率としてもよいし、各学習型フィルタ部200の分類エラー率を併合して学習型フィルタ集合部400の分類エラー率を算出してもよい。例えば、学習型フィルタ集合部400の分類エラー率は、各学習型フィルタ部200の分類エラー率の平均値、各学習型フィルタ部200の分類エラー率の中での最大値または最小値となる。
エラー率情報308は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ集合部400の分類エラー率とを示す。
結果出力部320は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ集合部400の分類エラー率とに基づいて、実施の形態1と同様に、分類対象文書804の属するカテゴリを特定し、特定したカテゴリを分類結果301として出力する。
例えば、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ集合部400の併合した分類エラー率より小さい場合には文字列照合型フィルタ部100が特定したカテゴリを分類対象文書804の属するカテゴリとし、学習型フィルタ集合部400の併合した分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さい場合には学習型フィルタ集合部400が特定したカテゴリを分類対象文書804の属するカテゴリとする。
また例えば、結果出力部320は、文字列照合型フィルタ部100と各学習型フィルタ部200とのうち、最も分類エラー率が小さいフィルタにより特定されたカテゴリを分類対象文書804の属するカテゴリとする。
また、結果出力部320は各学習型フィルタ部200の分類情報201を併合した結果を学習型フィルタ集合部400が特定したカテゴリとする。
例えば、結果出力部320は多数決により各分類情報201を併合する。つまり、結果出力部320は、各学習型フィルタ部200の分類情報201に設定されているカテゴリのうち、最も多くの分類情報201に設定されているカテゴリを学習型フィルタ集合部400が特定したカテゴリとする。
また例えば、結果出力部320は各分類情報201に設定されている各カテゴリの論理和を併合結果とする。
また例えば、結果出力部320は、実施の形態1と同様に、各分類情報201の加重平均値を算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて一つ(または、複数)の分類情報201を選択し、選択した分類情報201を併合結果とする。
また例えば、結果出力部320は、実施の形態1と同様に、重み付けした各学習型フィルタ部200の分類正解率を比較し、分類正解率が最も大きい学習型フィルタ部200の分類情報201を併合結果とする。
また例えば、結果出力部320は、各分類情報201に設定されているカテゴリの分類確率を比較し、分類確率が最も高いカテゴリを併合結果とする。
また、結果出力部320は、文字列照合型フィルタ部100の合致情報101と各学習型フィルタ部200の分類情報201とを多数決、論理和、加重平均値、重み付け分類正解率などにより併合し、併合結果を分類対象文書804の属するカテゴリとしてもよい。
例えば、機密情報に属する分類対象文書804を検出したいため、検出漏れを無くすことが優先され、過剰検出が増えてもよいというような場合には、論理和による併合結果を分類対象文書804の属するカテゴリとする方法が有効的である。
また例えば、検出漏れも過剰検出も最小限に抑えたいという場合には、多数決による併合結果を分類対象文書804の属するカテゴリとする方法が有効的である。
その他、情報フィルタリングシステム900の外観、ハードウェア資源、学習結果生成処理、フィルタリング処理、運用手順などは実施の形態1と同様である。
実施の形態2では、以下のような情報フィルタリングシステム900について説明した。
結果出力部320は、複数の学習型フィルタの出力(分類情報201)を併合して1つの学習型フィルタ出力とみなす。
また、結果出力部320は、複数の学習型フィルタの出力を併合して1つの学習型フィルタ出力とみなす際に、それぞれの学習型フィルタの出力を論理和により併合する。
また、結果出力部320は、複数の学習型フィルタの出力を併合して1つの学習型フィルタ出力とみなす際に、それぞれの学習型フィルタの出力を多数決により併合する。
実施の形態1における情報フィルタリングシステム900の機能構成図。 実施の形態1における情報フィルタリングシステム900の外観の一例を示す図。 実施の形態1における情報フィルタリングシステム900のハードウェア資源の一例を示す図。 実施の形態1における学習結果生成処理の流れを示すフローチャート。 実施の形態1におけるDFAの状態遷移表の一例を示す図。 実施の形態1における情報フィルタリングシステム900のフィルタリング処理の流れを示すフローチャート。 実施の形態1における情報フィルタリングシステム900の運用手順を示すフローチャート。 実施の形態2における情報フィルタリングシステム900の機能構成図。
符号の説明
100 文字列照合型フィルタ部、101 合致情報、102 合致エラー有無情報、108 分類キーワード、109 照合条件情報、110 文字列照合部、120 正解比較部、190 文字列照合型フィルタ記憶部、200,200a,200b,200c 学習型フィルタ部、201 分類情報、202 分類エラー有無情報、209 学習データ、210 学習部、220 分類部、290 学習型フィルタ記憶部、300 結果判定部、301 分類結果、308 エラー率情報、309 学習結果情報、310 エラー率算出部、320 結果出力部、390 結果判定記憶部、400 学習型フィルタ集合部、801 入力文書、802 学習用文書、803 正解情報、804 分類対象文書、900 情報フィルタリングシステム、901 表示装置、902 キーボード、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、910 システムユニット、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群、931 電話器、932 ファクシミリ機、940 インターネット、941 ゲートウェイ、942 LAN。

Claims (16)

  1. 複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ部と、
    前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ部と、
    属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較部と、
    前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較部と、
    前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出部と、
    特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力部とを備え、
    前記第2のフィルタ部は、
    前記文書データを入力機器から入力し、各種類に属する分類キーワードを照合条件情報として予め記憶している記憶機器から前記照合条件情報を入力し、前記照合条件情報が示す各種類の前記分類キーワードが前記文書データに含まれているか否かを判定する文字列照合処理をCPUを用いて実行し、前記文字列照合処理で前記文書データに含まれていると判定された前記分類キーワードが属する種類を前記文書データの属する種類と特定する文字列照合型フィルタ部であり、
    前記照合条件情報は、複数の前記分類キーワードのうち特定の前記分類キーワードを優先キーワードとして示し、
    前記結果出力部は、
    前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合、前記第1のエラー率と前記第2のエラー率とに関わらず、前記分類対象文書データの前記分類結果として、前記優先キーワードの属する種類を出力する
    ことを特徴とする情報フィルタリングシステム。
  2. 前記第1のフィルタ部は、
    前記学習文書データと前記正解情報との組を入力機器から複数組入力し、各種類に属する各学習文書データに共通する統計情報を学習データとして生成する統計処理を前記複数組に基づいてCPUを用いて実行し、前記統計処理により生成した前記学習データを記憶機器に記憶する学習部と、
    前記分類対象文書データを入力機器から入力し、前記学習部により生成された前記学習データが示す前記統計情報に対して前記分類対象文書データの対応する比率を種類毎に分類確率としてCPUを用いて算出し、種類毎の前記分類確率に基づいて前記分類対象文書データの属する種類を特定する学習型分類部と
    を備えた学習型フィルタ部である
    ことを特徴とする請求項1記載の情報フィルタリングシステム。
  3. 前記学習部は、
    ベイズ理論と、SVM(Support Vector Machine)と、ニューラルネットワークモデルとのいずれかを用いて前記統計処理を行う
    ことを特徴とする請求項2記載の情報フィルタリングシステム。
  4. 前記文字列照合型フィルタ部は、
    決定性有限オートマトンを用いて前記文字列照合処理を行う
    ことを特徴とする請求項1から請求項3いずれかに記載の情報フィルタリングシステム。
  5. 前記文字列照合型フィルタ部は、
    前記分類キーワードを表す前記決定性有限オートマトンの状態遷移表を前記照合条件情報として前記文字列照合処理を実行する
    ことを特徴とする請求項記載の情報フィルタリングシステム。
  6. 前記文字列照合型フィルタ部は、
    非決定性有限オートマトンを用いて前記文字列照合処理を行う
    ことを特徴とする請求項1から請求項3いずれかに記載の情報フィルタリングシステム。
  7. 前記結果出力部は、前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合を除き、
    前記第1のエラー率が前記第2のエラー率より小さい場合には前記第1の分類情報を前記分類結果として出力し、前記第2のエラー率が前記第1のエラー率より小さい場合には前記第2の分類情報を前記分類結果として出力する
    ことを特徴とする請求項1から請求項6いずれかに記載の情報フィルタリングシステム。
  8. 前記結果出力部は、前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合を除き、
    前記第1の分類情報と前記第2の分類情報とを所定の数値で表し、前記第1のエラー率に応じて前記第1の分類情報を重み付けすると共に、前記第2のエラー率に応じて前記第2の分類情報を重み付けし、重み付けした前記第1の分類情報と重み付けした前記第2の分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する
    ことを特徴とする請求項1から請求項6いずれかに記載の情報フィルタリングシステム。
  9. 前記エラー率算出部は、
    所定の期間内に生成された前記第1の学習結果情報に基づいて前記第1のエラー率を算出すると共に、前記所定の期間内に生成された前記第2の学習結果情報に基づいて前記第2のエラー率を算出する
    ことを特徴とする請求項1から請求項8いずれかに記載の情報フィルタリングシステム。
  10. 前記学習型フィルタ部は、第1の学習型フィルタ部と第2の学習型フィルタ部とを備え、
    前記第1の学習型フィルタ部と前記第2の学習型フィルタ部とは、それぞれ前記学習部と前記学習型分類部とを備え、
    前記第1の学習型フィルタ部の前記学習部と前記第2の学習型フィルタ部の前記学習部とは、それぞれ異なる前記統計処理を実行し、
    前記第1の分類情報は、前記第1の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第1の学習分類情報と、前記第2の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第2の学習分類情報とを示す
    ことを特徴とする請求項2から請求項9いずれかに記載の情報フィルタリングシステム。
  11. 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類と前記第2の学習分類情報が示す前記種類との論理和を求め、求めた前記論理和が示す前記種類を前記分類結果として出力する
    ことを特徴とする請求項10記載の情報フィルタリングシステム。
  12. 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類の前記分類確率と前記第2の学習分類情報が示す前記種類の前記分類確率とに基づいて前記分類結果を出力する
    ことを特徴とする請求項10記載の情報フィルタリングシステム。
  13. 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報の前記第1のエラー率に応じて前記第1の学習分類情報を重み付けすると共に、前記第の学習分類情報の前記第1のエラー率に応じて前記第の学習分類情報を重み付けし、重み付けした前記第1の学習分類情報と重み付けした前記第2の学習分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する
    ことを特徴とする請求項10記載の情報フィルタリングシステム。
  14. 前記学習型フィルタ部は、前記学習部と前記学習型分類部との組を複数備え、
    複数の前記学習部は、それぞれ異なる前記統計処理を実行し、
    前記第1の分類情報は、各組の前記学習型分類部それぞれにより特定された前記種類を示し、
    前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、最も多くの組に特定された前記種類を前記分類結果として出力する
    ことを特徴とする請求項2から請求項9いずれかに記載の情報フィルタリングシステム。
  15. 第1のフィルタ部が、複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ処理を行い、
    第2のフィルタ部が、前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ処理を行い、
    第1の正解比較部が、属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較処理を行い、
    第2の正解比較部が、前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較処理を行い、
    エラー率算出部が、前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出処理を行い、
    結果出力部が、特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力処理を行い、
    前記第2のフィルタ処理は、
    前記文書データを入力機器から入力し、各種類に属する分類キーワードを照合条件情報として予め記憶している記憶機器から前記照合条件情報を入力し、前記照合条件情報が示す各種類の前記分類キーワードが前記文書データに含まれているか否かを判定する文字列照合処理をCPUを用いて実行し、前記文字列照合処理で前記文書データに含まれていると判定された前記分類キーワードが属する種類を前記文書データの属する種類と特定する文字列照合型フィルタ処理であり、
    前記照合条件情報は、複数の前記分類キーワードのうち特定の前記分類キーワードを優先キーワードとして示し、
    前記結果出力部は、前記結果出力処理で、
    前記文字列照合型フィルタ処理により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合、前記第1のエラー率と前記第2のエラー率とに関わらず、前記分類対象文書データの前記分類結果として、前記優先キーワードの属する種類を出力する
    ことを特徴とする情報フィルタリング方法。
  16. 請求項15記載の情報フィルタリング方法をコンピュータに実行させる情報フィルタリングプログラム。
JP2009548827A 2008-01-08 2008-01-08 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム Expired - Fee Related JP5079019B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/050048 WO2009087757A1 (ja) 2008-01-08 2008-01-08 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム

Publications (2)

Publication Number Publication Date
JPWO2009087757A1 JPWO2009087757A1 (ja) 2011-05-26
JP5079019B2 true JP5079019B2 (ja) 2012-11-21

Family

ID=40852882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009548827A Expired - Fee Related JP5079019B2 (ja) 2008-01-08 2008-01-08 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム

Country Status (5)

Country Link
US (1) US8442926B2 (ja)
JP (1) JP5079019B2 (ja)
KR (1) KR101139192B1 (ja)
CN (1) CN101911067A (ja)
WO (1) WO2009087757A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
JP5460887B2 (ja) 2011-01-13 2014-04-02 三菱電機株式会社 分類ルール生成装置及び分類ルール生成プログラム
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
US8768071B2 (en) * 2011-08-02 2014-07-01 Toyota Motor Engineering & Manufacturing North America, Inc. Object category recognition methods and robots utilizing the same
US9251289B2 (en) * 2011-09-09 2016-02-02 Microsoft Technology Licensing, Llc Matching target strings to known strings
US9152953B2 (en) 2012-02-10 2015-10-06 International Business Machines Corporation Multi-tiered approach to E-mail prioritization
US9256862B2 (en) * 2012-02-10 2016-02-09 International Business Machines Corporation Multi-tiered approach to E-mail prioritization
US10204387B2 (en) * 2013-05-08 2019-02-12 Nmetric, Llc Sequentially configuring manufacturing equipment to reduce reconfiguration times
WO2014208427A1 (ja) * 2013-06-24 2014-12-31 日本電信電話株式会社 セキュリティ情報管理システム及びセキュリティ情報管理方法
US20160170983A1 (en) * 2013-07-30 2016-06-16 Nippon Telegraph And Telephone Corporation Information management apparatus and information management method
US9864781B1 (en) 2013-11-05 2018-01-09 Western Digital Technologies, Inc. Search of NAS data through association of errors
US9213702B2 (en) * 2013-12-13 2015-12-15 National Cheng Kung University Method and system for recommending research information news
CN104750724B (zh) * 2013-12-30 2019-10-25 亿阳信通股份有限公司 一种消息过滤方法和装置
WO2015192210A1 (en) * 2014-06-17 2015-12-23 Maluuba Inc. Method and system for classifying queries
US20160065605A1 (en) * 2014-08-29 2016-03-03 Linkedin Corporation Spam detection for online slide deck presentations
CN107533651B (zh) * 2015-05-11 2021-05-04 株式会社东芝 识别装置、识别方法及计算机可读取的记录介质
CN105955951B (zh) * 2016-04-29 2018-12-11 中山大学 一种消息过滤的方法及装置
MX2019001676A (es) * 2016-08-09 2019-09-18 Ripcord Inc Sistemas y metodos para etiquetar registros electronicos.
CN107066882B (zh) * 2017-03-17 2019-07-12 平安科技(深圳)有限公司 信息泄露检测方法及装置
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling
US11972490B2 (en) 2018-07-20 2024-04-30 Kbc Groep Nv Determining a category of a request by word vector representation of a natural language text string with a similarity value
JP6832322B2 (ja) * 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN111382357B (zh) * 2020-03-06 2020-12-22 吉林农业科技学院 一种基于大数据的信息推荐系统
CN113536743A (zh) * 2020-11-06 2021-10-22 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH1145247A (ja) * 1997-07-27 1999-02-16 Just Syst Corp 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP2002007433A (ja) * 2000-04-17 2002-01-11 Fujitsu Ltd 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204975A (ja) 1992-01-30 1993-08-13 Hitachi Ltd 情報フィルタリング装置及びそのフィルタリング方法
JP3472032B2 (ja) 1995-04-24 2003-12-02 株式会社東芝 情報フィルタ装置及び情報フィルタ方法
JP3244005B2 (ja) 1995-09-04 2002-01-07 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
US6901392B1 (en) 1995-09-04 2005-05-31 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
US6076082A (en) 1995-09-04 2000-06-13 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
JP3344953B2 (ja) 1998-11-02 2002-11-18 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
JP2000331013A (ja) 1999-05-19 2000-11-30 Matsushita Electric Ind Co Ltd 情報問いあわせ支援装置及び情報問いあわせ支援方法
JP2001229164A (ja) 2000-02-15 2001-08-24 Oki Electric Ind Co Ltd 情報フィルタリングシステム
US6654744B2 (en) * 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US6687697B2 (en) * 2001-07-30 2004-02-03 Microsoft Corporation System and method for improved string matching under noisy channel conditions
JP2003067304A (ja) 2001-08-27 2003-03-07 Kddi Corp 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
JP2005530250A (ja) * 2002-06-12 2005-10-06 ジェナ ジョーダル, 複数階層視座を実現するデータ格納、取り出し、操作、及び表示ツール
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
JP3804017B2 (ja) 2003-08-27 2006-08-02 株式会社ウィザーズ 電子メールシステム
US7266562B2 (en) * 2005-02-14 2007-09-04 Levine Joel H System and method for automatically categorizing objects using an empirically based goodness of fit technique
US7873584B2 (en) * 2005-12-22 2011-01-18 Oren Asher Method and system for classifying users of a computer network
KR100793378B1 (ko) 2006-06-28 2008-01-11 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH1145247A (ja) * 1997-07-27 1999-02-16 Just Syst Corp 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP2002007433A (ja) * 2000-04-17 2002-01-11 Fujitsu Ltd 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム

Also Published As

Publication number Publication date
JPWO2009087757A1 (ja) 2011-05-26
WO2009087757A1 (ja) 2009-07-16
KR101139192B1 (ko) 2012-04-26
US20100280981A1 (en) 2010-11-04
US8442926B2 (en) 2013-05-14
KR20100100933A (ko) 2010-09-15
CN101911067A (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
JP5079019B2 (ja) 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム
Rabanser et al. Failing loudly: An empirical study of methods for detecting dataset shift
US11928567B2 (en) System and method for improving machine learning models by detecting and removing inaccurate training data
US11907672B2 (en) Machine-learning natural language processing classifier for content classification
US20210287136A1 (en) Systems and methods for generating models for classifying imbalanced data
US8453027B2 (en) Similarity detection for error reports
US7426497B2 (en) Method and apparatus for analysis and decomposition of classifier data anomalies
US8484514B2 (en) Fault cause estimating system, fault cause estimating method, and fault cause estimating program
US11604926B2 (en) Method and system of creating and summarizing unstructured natural language sentence clusters for efficient tagging
US7779354B2 (en) Method and data processing system for recognizing and correcting dyslexia-related spelling errors
JP7332949B2 (ja) 評価方法、評価プログラム、および情報処理装置
US20070136220A1 (en) Apparatus for learning classification model and method and program thereof
US11615361B2 (en) Machine learning model for predicting litigation risk in correspondence and identifying severity levels
US20220083571A1 (en) Systems and methods for classifying imbalanced data
US20230045330A1 (en) Multi-term query subsumption for document classification
JP2016018358A (ja) データ分類方法、データ分類プログラム、及び、データ分類装置
Loyola et al. UNSL at eRisk 2021: A Comparison of Three Early Alert Policies for Early Risk Detection.
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Chen et al. Increasing the effectiveness of associative classification in terms of class imbalance by using a novel pruning algorithm
Abad et al. Supporting analysts by dynamic extraction and classification of requirements-related knowledge
WO2023129339A1 (en) Extracting and classifying entities from digital content items
Baumann Improving a rule-based fraud detection system with classification based on association rule mining
US11531703B2 (en) Determining data categorizations based on an ontology and a machine-learning model
JP2023145767A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
US7672912B2 (en) Classifying knowledge aging in emails using Naïve Bayes Classifier

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees