JP5079019B2 - 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム - Google Patents
情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム Download PDFInfo
- Publication number
- JP5079019B2 JP5079019B2 JP2009548827A JP2009548827A JP5079019B2 JP 5079019 B2 JP5079019 B2 JP 5079019B2 JP 2009548827 A JP2009548827 A JP 2009548827A JP 2009548827 A JP2009548827 A JP 2009548827A JP 5079019 B2 JP5079019 B2 JP 5079019B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- information
- learning
- unit
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90339—Query processing by using parallel associative memories or content-addressable memories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、環境変化(例えば、企業内の組織異動)などによって、ユーザの要求やフィルタリング対象のデータ内容が短時間で大きく変化するような場合、その変化の際にフィルタリング精度が一時的に大きく低下する。そして、ユーザ指定のフィードバックにより学習型フィルタをその変化に追従させた場合、フィルタリング精度を元に戻すのに時間がかかるという課題がある。
図1は、実施の形態1における情報フィルタリングシステム900の機能構成図である。
実施の形態1における情報フィルタリングシステム900の機能構成について、図1に基づいて以下に説明する。
また、エラー率算出部310は、所定の期間内に生成された学習結果情報309に基づいて文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とを算出する。
ここで、分類エラー率とは100%から分類正解率を差し引いた値であるから、分類エラー率を算出するということは、分類正解率を算出するということに置き換えることができる。つまり、エラー率算出部310は分類正解率を算出するともいえる。
例えば、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ部200の分類エラー率より小さい場合には合致情報101が示すカテゴリを分類結果301として出力し、学習型フィルタ部200の分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さい場合には分類情報201が示すカテゴリを分類結果301として出力する。これは、文字列照合型フィルタ部100の分類正解率が学習型フィルタ部200の分類正解率より大きい場合には合致情報101が示すカテゴリを分類結果301として出力し、学習型フィルタ部200の分類正解率が文字列照合型フィルタ部100の分類正解率より大きい場合には分類情報201が示すカテゴリを分類結果301として出力することに相当する。
また例えば、結果出力部320は、合致情報101と分類情報201とを所定の数値で表し、文字列照合型フィルタ部100の分類エラー率に応じて合致情報101を重み付けすると共に、学習型フィルタ部200の分類エラー率に応じて分類情報201を重み付けする。次に、結果出力部320は、重み付けした合致情報101と重み付けした分類情報201との平均値を加重平均値として算出する。そして、結果出力部320は、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて分類結果301を出力する。
また例えば、照合条件情報109には、分類結果として優先させる特定のキーワード(優先キーワード)が予め設定される。そして、文字列照合型フィルタ部100の文字列照合部110が分類対象文書804に優先キーワードが含まれていると判定した場合、結果出力部320は、文字列照合型フィルタ部100と学習型フィルタ部200との分類エラー率の大小や加重平均値などに関わらず、優先キーワードが属するカテゴリを分類結果301として出力する。
図2において、情報フィルタリングシステム900は、システムユニット910、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置901、キーボード902(Key・Board:K/B)、マウス903、FDD904(Flexible・Disk・Drive)、CDD905(コンパクトディスク装置)、プリンタ装置906、スキャナ装置907などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット910は、コンピュータであり、ファクシミリ機932、電話器931とケーブルで接続され、また、LAN942(ローカルエリアネットワーク)、ゲートウェイ941を介してインターネット940に接続されている。
図3において、情報フィルタリングシステム900は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901、キーボード902、マウス903、FDD904、CDD905、プリンタ装置906、スキャナ装置907、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶機器、記憶装置あるいは記憶部の一例である。また、入力データが記憶されている記憶機器は入力機器、入力装置あるいは入力部の一例であり、出力データが記憶される記憶機器は出力機器、出力装置あるいは出力部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力機器、入力装置あるいは入力部の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力機器、出力装置あるいは出力部の一例である。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、実施の形態において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disc)等の記録媒体に記録される。また、データや信号値は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
情報フィルタリングシステム900が学習データ209、学習結果情報309およびエラー率情報308を生成する方法について、図4に基づいて以下に説明する。
情報フィルタリングシステム900を構成する各部は、以下で説明する各処理をCPUを用いて実行する。
文字列照合型フィルタ部100の文字列照合部110は照合条件情報109に基づいて学習用文書802を文字列照合し、合致情報101を出力する。
以下に、第2の学習分類処理(S110)の詳細について説明する。
学習用文書802の属するカテゴリはユーザにより予め特定されている。
例えば、情報フィルタリングシステム900に機密情報を検出させるために、ユーザは、機密文書を「個人情報」、「顧客情報」、「新技術情報」などのカテゴリに分け、「個人情報」カテゴリに属するグループとして「氏名」、「住所」などを設け、「氏名」グループに属する分類キーワード108として“氏名”、“住所”、個々の氏名(“鈴木”、“佐藤”、“田中”など)、地名(“東京都”、“千代田区”など)などの単語(正規表現を含む)を設定してもよい。この場合、“氏名”、“住所”、個々の氏名、地名を示す各分類キーワード108は機密文書の「個人情報」カテゴリに属する。
また例えば、ユーザは、機密のレベルを示す等級毎に各カテゴリをグループ分けしてもよい。
また例えば、ユーザは、時間単位(1年単位、1月単位など)で各カテゴリをグループ分けしてもよい。会社設立時の部署名(略称を含む)を分類キーワード108とするグループやXXXX年YY月ZZ日付け組織改正により変更された部署名を分類キーワード108とするグループは、時間単位で分けたグループの一例である。
DFAとして知られている方法では、各分類キーワード108の正規表現を示す照合条件がコンパイルされ、照合条件を示す状態遷移表が生成され、その状態遷移表に基づいて文字列照合が行われる。
予め、照合条件をコンパイルして状態遷移表を照合条件情報109として保存しておくことで、システム起動時のコンパイル時間を不要とし、システムの起動処理を高速化することができる。
例えば、“abc”という分類キーワード108は図5の状態遷移表で表される。但し、図5では、“a”、“b”、“c”の3文字のみについて状態遷移を示し、他の文字(例えば、“d”、“e”、・・・“z”)については省略している。
図5において、第1列に示されている「状態0」、「状態1」、「状態2」、「状態3」は現在の状態を示し、第1行に示されている「a」、「b」、「c」は新たな入力文字(次の文字)を示し、第2行2列から第5行4列までの値は次の状態を示している。
「状態0」は分類キーワード108の先頭文字“a”が入力されていない状態を示す。
「状態1」は分類キーワード108の先頭文字“a”が入力された状態を示す。
「状態2」は“a”の次に“b”が入力された状態を示す。
「状態3」は“ab”の次に“c”が入力された最終状態を示す。
現在の状態が「状態0」の場合、次の文字が“a”であれば状態は「状態1」に遷移し、次の文字が“b”または“c”であれば状態は「状態0」のままとなる。
現在の状態が「状態1」の場合、次の文字が“a”であれば状態は「状態1」のままとなり、次の文字が“b”であれば状態は「状態2」に遷移し、次の文字が“c”であれば状態は「状態0」に戻る。
現在の状態が「状態2」の場合、次の文字が“a”であれば状態は「状態1」に戻り、次の文字が“b”であれば状態は「状態0」に戻り、次の文字が“c”であれば状態は最終状態である「状態3」に遷移する。
つまり、状態は、文字の並び順が「a→b→c」である場合に限り、“abc”という分類キーワード108を示す最終状態となる。
例えば、文字列照合部110は、文字列照合処理において、あるカテゴリ(例えば、「個人情報」)に属する複数の分類キーワード108のうち、少なくとも1つの分類キーワード108(例えば、“氏名”)が学習用文書802に含まれていると判定した場合、学習用文書802がそのカテゴリ(「個人情報」)に属すると判定する。そして、文字列照合部110は、学習用文書802がそのカテゴリ(「個人情報」)の照合条件に合致するという情報を合致情報101に設定する。
また例えば、文字列照合部110は、文字列照合処理において、学習用文書802に対してカテゴリ毎に分類キーワード108の出現回数(ヒット数)の合計値を算出する。そして、文字列照合部110は、属する分類キーワード108の出現回数の合計値が所定の閾値以上であったカテゴリに学習用文書802が属すると判定し、学習用文書802がそのカテゴリの照合条件に合致するという情報を合致情報101に設定する。例えば、閾値を「10」とする。このとき、文字列照合部110は、“氏名”、“住所”、個々の氏名、地名などの「個人情報」に属する各分類キーワード108が合計で学習用文書802内の10箇所以上に含まれているか否かを判定する。そして、文字列照合部110は、「個人情報」に属する各分類キーワード108が10箇所以上に含まれていると判定した場合、学習用文書802が「個人情報」に属すると判定する。
合致情報101は全カテゴリについて「合致」または「非合致」を示してもよいし、カテゴリ単位ではなくグループ単位で「合致」または「非合致」を示してもよい。
S110の後、文字列照合型フィルタ部100の正解比較部120は合致情報101と正解情報803とを比較し、合致エラー有無情報102を学習結果情報309として蓄積する。
以下に、第2の正解比較処理(S120)の詳細について説明する。
正解情報803は、学習用文書802と組を構成し、ユーザにより予め特定された学習用文書802の属するカテゴリが設定されている。正解情報803に設定されるカテゴリは1つの学習用文書802に対して1つでも複数でもよい。
例えば、正解情報803に1つのカテゴリが設定されているとする。このとき、正解比較部120は、正解情報803に設定されているカテゴリが合致情報101で「合致」と示されている場合に合致情報101と正解情報803とが一致すると判定する。
また例えば、正解情報803に複数のカテゴリが設定されているとする。このとき、正解比較部120は、正解情報803に設定されている複数のカテゴリのうち、少なくとも1つのカテゴリについて合致情報101が「合致」を示している場合に合致情報101と正解情報803とが一致すると判定する。また、正解比較部120は、正解情報803に設定されている複数のカテゴリ全てについて合致情報101が「合致」を示している場合にのみ合致情報101と正解情報803とが一致すると判定してもよい。また、正解比較部120は、合致情報101と正解情報803とが一致するか否かをカテゴリ毎に判定してもよい。
合致エラー有無情報102は、合致情報101と正解情報803との一致を「正解」として示し、合致情報101と正解情報803との不一致を「エラー」として示す。
学習型フィルタ部200の分類部220は学習データ209に基づいて学習用文書802を分類し、分類情報201を出力する。
以下に、第1の学習分類処理(S130)の詳細について説明する。
以下、学習データ209にはカテゴリ毎に各用語の出現頻度が設定されているものとする。
出現頻度とは、例えば、1つの入力文書801あたりの出現回数や文字数当りの出現回数を示す。
例えば、学習用文書802に含まれている各語は、学習データ209に設定されている用語を検索キーワードとして学習用文書802が検索されて抽出されてもよいし、学習用文書802に対する形態素解析により抽出されてもよい。
例えば、分類部220は、学習用文書802に含まれている各語の出現頻度と学習データ209に設定されている各用語の出現頻度とに基づいて、カテゴリ毎に学習用文書802が属する確率(分類確率)を算出する。そして、分類部220は、分類確率が最も高いカテゴリや分類確率が所定の閾値(分類確率の第1の閾値)以上であるカテゴリを学習用文書802の属するカテゴリと特定する。
S130の後、学習型フィルタ部200の学習部210は分類情報201と正解情報803とを比較し、分類エラー有無情報202を学習結果情報309として蓄積する。
以下に、第1の正解比較処理(S140)の詳細について説明する。
例えば、正解情報803に1つのカテゴリが設定されているとする。このとき、学習部210は、正解情報803に設定されているカテゴリが分類情報201に示されている場合に分類情報201と正解情報803とが一致すると判定する。
また例えば、正解情報803に複数のカテゴリが設定されているとする。このとき、学習部210は、正解情報803に設定されている複数のカテゴリのうち、少なくとも1つのカテゴリについて分類情報201に示されている場合に分類情報201と正解情報803とが一致すると判定する。また、学習部210は、正解情報803に設定されている複数のカテゴリ全てについて分類情報201に示されている場合にのみ合致情報101と正解情報803とが一致すると判定してもよい。また、学習部210は、カテゴリ毎に、分類情報201と正解情報803とが一致するか否かを判定してもよい。
分類エラー有無情報202は、分類情報201と正解情報803との一致を「正解」として示し、分類情報201と正解情報803との不一致を「エラー」として示す。
学習部210は、第1の正解比較処理(S140)の判定結果に基づいて学習の要否を判定し(S151)、学習要と判定した場合に、学習用文書802と正解情報803とに基づいて学習データ209を生成する(S152)。
以下に、S151とS152との詳細について説明する。
学習部210は、第1の正解比較処理(S140)において分類情報201と正解情報803とが不一致であると判定した場合に学習が必要であると判定し、第1の正解比較処理(S140)において分類情報201と正解情報803とが一致すると判定した場合に学習が不要であると判定する。
学習とは、学習データ209の生成を意味する。
分類情報201と正解情報803とが不一致であった場合にのみ、つまり、分類エラーが発生した場合にのみ、学習データ209を生成することにより、不要な学習が減り、学習時間の削減、分類精度の向上が実現できる。
例えば、学習部210は、分類情報201と正解情報803とが一致すると判定した場合でも、分類情報201に設定されたカテゴリの分類確率が所定の閾値(分類確率の第2の閾値)以下である場合には、十分な学習ができていないと判断し、学習が必要であると判定してもよい。これにより、分類精度をさらに向上させることができる。
また例えば、学習部210は、分類情報201と正解情報803との一致または不一致に関わらず、正解情報803に設定されているカテゴリが特定のカテゴリである場合には、学習が必要であると判定してもよい。例えば、「個人情報」が特定のカテゴリである場合、「個人情報」カテゴリに属する学習用文書802は必ず学習の対象となる。
また、学習部210は、分類情報201と正解情報803との一致または不一致に関わらず、必ず、学習が必要であると判定し、全ての学習用文書802を学習対象にしてもよい。つまり、学習要否判定処理(S151)は実行されなくてもよい。
S151において学習が必要であると判定した場合、学習部210は、学習用文書802を分析して学習用文書802の統計情報を算出し、算出した統計情報を学習用文書802と同じカテゴリに属する入力文書801の統計情報として学習データ209に反映する。
例えば、学習部210は、ベイズ理論(ベイズ統計)、SVMまたはニューラルネットワークモデルを用いたアルゴリズムに基づいて統計処理を行い、学習用文書802の統計情報を算出する。
例えば、統計情報は、前述の通り、各用語の出現頻度を示す。
次に、情報フィルタリングシステム900(例えば、文字列照合型フィルタ部100、学習型フィルタ部200)は、ユーザにより入力された全ての学習用文書802を処理したか否かを判定する。
未処理の学習用文書802が存在する場合、未処理の学習用文書802に対してS110〜S150の各処理が実行される。つまり、文字列照合型フィルタ部100および学習型フィルタ部200は学習用文書802毎にS110〜S150の各処理を実行する。
全ての学習用文書802が処理されたと判定された場合、次に、エラー率算出処理(S170)が実行される。
全ての学習用文書802に対してS110〜S150の各処理が実行された後、結果判定部300のエラー率算出部310は学習結果情報309に基づいて文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とを算出する。
以下に、エラー率算出処理(S170)の詳細について説明する。
「学習文書数」とは、学習用文書802の総数を示す。また、「学習文書数」は「エラー」が設定されている合致エラー有無情報102と「正解」が設定されている合致エラー有無情報102との合計数(合致エラー有無情報102の総数)または「エラー」が設定されている分類エラー有無情報202と「正解」が設定されている分類エラー有無情報202との合計数(分類エラー有無情報202の総数)を示す。
エラー率情報308は、文字列照合型フィルタ部100の分類信頼度と学習型フィルタ部200の分類信頼度とを、分類エラー率で表す情報である。
学習結果生成処理(S110〜S170)で生成された学習データ209およびエラー率情報308を用いて、分類対象文書804が属するカテゴリを特定するフィルタリング方法について、図6に基づいて以下に説明する。
情報フィルタリングシステム900を構成する各部は、以下で説明する各処理をCPUを用いて実行する。
文字列照合型フィルタ部100の文字列照合部110は、第2の学習分類処理(S110)と同様に、照合条件情報109に基づいて分類対象文書804を文字列照合し、合致情報101を出力する。
S210では、文字列照合の対象は学習用文書802ではなく分類対象文書804であり、合致情報101の出力先は正解比較部120ではなく結果判定部300の結果出力部320である。
学習型フィルタ部200の分類部220は、第1の学習分類処理(S130)と同様に、学習データ209に基づいて分類対象文書804を分類し、分類情報201を出力する。
S220では、分類対象は学習用文書802ではなく分類対象文書804であり、分類情報201の出力先は学習部210ではなく結果判定部300の結果出力部320である。
結果判定部300の結果出力部320は、合致情報101と分類情報201とエラー率情報308とに基づいて分類結果301を出力する。
以下に、結果出力処理(S230)の詳細について説明する。
つまり、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ部200の分類エラー率より小さければ、文字列照合型フィルタ部100の合致情報101に「合致」と設定されているカテゴリを分類対象文書804のカテゴリとする。また、結果出力部320は、学習型フィルタ部200の分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さければ、学習型フィルタ部200の分類情報201に設定されているカテゴリを分類対象文書804のカテゴリとする。また、結果出力部320は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ部200の分類エラー率とが同じ(または、差が所定の範囲内)である場合には、合致情報101に「合致」と設定されているカテゴリと分類情報201に設定されているカテゴリとの論理和を求め、論理和が示す各カテゴリを分類対象文書804のカテゴリとする。例えば、合致情報101に「合致」と設定されているカテゴリがAとBであり、分類情報201に設定されているカテゴリがBとCであれば、分類対象文書804のカテゴリはA、BおよびCとなる。
このとき、結果出力部320は、合致情報101と分類情報201とを所定の数値で表す。例えば、合致情報101は「0」にマッピングされ、分類情報201は「1」にマッピングされる。
次に、結果出力部320は、以下の式3により、合致情報101の数値を重み付けした合致情報101の加重値と分類情報201の数値を重み付けした分類情報201の加重値とに基づく加重平均値を算出する。以下の式3では、両フィルタ部の分類正解率(=1−分類エラー率)(分類信頼度)の合計値に対する各フィルタ部の分類正解率により合致情報101と分類情報201とが重み付けされている。
=照合型フィルタ結果
×(照合型フィルタ正解率/(照合型フィルタ正解率+学習型フィルタ正解率))
+学習型フィルタ結果
×(学習型フィルタ正解率/(照合型フィルタ正解率+学習型フィルタ正解率))
・・・(式3)
「学習型フィルタ結果」とは、分類情報201の数値(例えば、「1」)を示す。
「照合型フィルタ正解率」とは、文字列照合型フィルタ部100の分類正解率を示す。
「学習型フィルタ正解率」とは、学習型フィルタ部200の分類正解率を示す。
式3の第1項(照合型フィルタ結果×(・・・学習型フィルタ正解率))は合致情報101の加重値を示し、式3の第2項(学習型フィルタ結果×(学習型フィルタ正解率))は分類情報201の加重値を示す。
例えば、合致情報101の数値が「0」、分類情報201の数値が「1」、文字列照合型フィルタ部100の分類正解率が「0.6(60%)」、学習型フィルタ部200の分類正解率が「0.4(40%)」である場合、加重平均値は「0.4(=(0×0.6)+(1×0.4))となる。このとき、閾値が「0.5」であれば、加重平均値(0.4)が閾値未満であり、閾値と比べて合致情報101の値(0)に近いため、結果出力部320は合致情報101に「合致」と設定されているカテゴリを分類対象文書804のカテゴリとする。また、閾値が「0.3」であれば、加重平均値(0.4)が閾値以上であり、閾値と比べて分類情報201の値(1)に近いため、結果出力部320は分類情報201に設定されているカテゴリを分類対象文書804のカテゴリとする。
つまり、結果出力部320は加重平均値が閾値未満である場合には閾値未満の値がマッピングされた方のフィルタ部が特定したカテゴリを分類対象文書804のカテゴリとし、加重平均値が閾値以上である場合には閾値以上の値がマッピングされた方のフィルタ部が特定したカテゴリを分類対象文書804のカテゴリとする。
加重平均値との比較に使用する閾値は、どのフィルタ部の結果を重視するかの度合いを示している。
文字列照合型フィルタ部100の分類正解率と学習型フィルタ部200の分類正解率とが共に「0.5(50%)」、合致情報101の重み付け係数が「0.7」、分類情報201の重み付け係数が「1.0」である場合、結果出力部320は、重み付けした文字列照合型フィルタ部100の分類正解率「0.35(=0.5×0.7)」と重み付けした学習型フィルタ部200の分類正解率「0.5(=0.5×1.0)」とを比較する。そして、結果出力部320は、重み付けした分類正解率は学習型フィルタ部200の方が大きいため、学習型フィルタ部200が特定したカテゴリを分類対象文書804のカテゴリとする。
例えば、照合条件情報109において、カテゴリに属する各分類キーワード108がグループ分けされ、各グループがIDで識別される場合、各グループのIDは64ビット整数で表されると共に最上位ビットが優先フラグとして使用される。この場合の優先キーワードは、IDの優先フラグに「1」が設定されているグループ(優先グループ)に属する全ての分類キーワード108である。
機密情報検出の応用分野においては、機密情報の中でもある特定の内容(入力文書801)を100%検出することが求められる場合がある。例えば、ユーザが特定の顧客を示す“xxx株式会社”という記述を含む文書を100%検出したい場合などである。このような場合でも、優先キーワードが設定された情報フィルタリングシステム900は、統計的な手法(学習型フィルタ部200の分類手法)によらず、優先キーワードを含んでいる特定の文書を100%特定することできる。
また、ユーザの環境の変化などによって検出すべき用語の語彙(分類キーワード108)が大きく増える場合、ユーザは、増加分の各新用語を「新技術情報」カテゴリの新たな1グループとし、この新たなグループに優先フラグを設定することで、「新技術情報」カテゴリについて情報フィルタリングシステム900から高い精度の分類結果301を得ることができる。新用語のグループに優先フラグが設定された情報フィルタリングシステム900は、新用語を含む学習用文書802について学習型フィルタ部200による学習が済んでいない時点でも、新用語に対応して分類対象文書804を「新技術情報」カテゴリに分類し、分類結果301の精度低下を抑えることができる。さらに、情報フィルタリングシステム900が「新技術情報」カテゴリについて高い精度で分類結果301を出力することにより、ユーザは、「新技術情報」カテゴリに属する分類対象文書804を学習用文書802として情報フィルタリングシステム900にフィードバックして、学習型フィルタ部200の分類精度を向上させることができる。
結果出力部320は、分類信頼度の高い方のフィルタ部により特定されたカテゴリを設定することにより、分類結果301の精度を向上させることができる。
また、結果出力部320は、選択されなかった方のフィルタ部により特定されたカテゴリも参考情報として分類結果301に設定してもよい。これにより、ユーザによる総合的な結果判断を促すことが可能となる。
情報フィルタリングシステム900は、入力された分類対象文書804毎に、上記のフィルタリング処理(S210〜S230)を実行する。
実施の形態1における情報フィルタリングシステム900の運用方法について、図7に基づいて以下に説明する。
まず、ユーザは分類キーワード108を定義して照合条件情報109を生成し、生成した照合条件情報109を文字列照合型フィルタ部100の文字列照合型フィルタ記憶部190に記憶させる。
次に、ユーザは情報フィルタリングシステム900に学習用文書802および正解情報803を入力し、図4に基づいて説明した学習結果生成処理(S110〜S170)を情報フィルタリングシステム900に実行させる。情報フィルタリングシステム900は学習結果生成処理(S110〜S170)を実行して学習結果情報309を生成する。
但し、ユーザは必ずしも学習結果生成処理(S320)を実行しなくてもよい。
次に、ユーザは情報フィルタリングシステム900に分類対象文書804を入力し、図6に基づいて説明したフィルタリング処理(S210〜S230)を情報フィルタリングシステム900に実行させる。情報フィルタリングシステム900はフィルタリング処理(S210〜S230)を実行して分類結果301を出力する。
次に、ユーザは、分類結果301に基づいて、分類対象文書804を学習用文書802として情報フィルタリングシステム900にフィードバックする必要があるか否かを判断する。
フィードバックが不要であると判定した場合、ユーザはS360に処理を進める。
分類対象文書804のフィードバックにより、情報フィルタリングシステム900は学習型フィルタ部200の分類精度を向上させることができる。ユーザはフィードバックするか否かをユーザ作業量とのトレードオフを考慮して判断するとよい。全てのフィルタ通過文書(分類結果301が出力された全ての分類対象文書804)がフィードバックされることで、情報フィルタリングシステム900は学習型フィルタ部200の分類精度の向上を早められる。しかし、ユーザは、通常、特定の条件(例えば、「新技術用語」カテゴリに分類されたもの)に合致した分類対象文書804のみをフィードバック対象とするという最低限のユーザ作業により、情報フィルタリングシステム900に学習型フィルタ部200の分類精度を向上させることができる。
S340においてフィードバックが必要であると判断したユーザは、分類対象文書804を学習用文書802として情報フィルタリングシステム900に入力すると共に、分類対象文書804の正解情報803を生成し、生成した正解情報803を情報フィルタリングシステム900に入力する。学習用文書802と正解情報803とを入力した情報フィルタリングシステム900では、学習型フィルタ部200が、学習用文書802と正解情報803とに基づいて、図4で説明した学習データ生成処理(S152)を実行し、学習データ209を生成する。
ユーザは全ての分類対象文書804を情報フィルタリングシステム900に処理させたか否かを判断する。
未処理の分類対象文書804がある場合、ユーザはS310に処理を戻す。
全ての分類対象文書804が処理済みである場合、ユーザは情報フィルタリングシステム900の運用を終了する。
情報フィルタリングシステム900は、入力文書801に対して複数の所定の分類のうちいずれに該当するかを判定するフィルタを2つ以上(文字列照合型フィルタ部100、学習型フィルタ部200)備える。
また、情報フィルタリングシステム900は、各フィルタの結果(合致情報101、分類情報201)から入力文書801の分類の最終結果(分類結果301)を判定する学習型フィルタ部200を備える。
フィルタのうちの少なくとも1つは、複数の分類に対してどの分類に該当するかの正解情報803を付した学習サンプル入力文書(学習用文書802)を入力として学習を行って学習データ209を更新し、その学習データに基づきフィルタリング対象入力文書(分類対象文書804)がどの分類に該当するかを判定する学習型フィルタ部200である。
各フィルタは、学習動作時に、正解情報803と学習サンプル入力文書の分類結果(合致情報101、分類情報201)を比較し、エラーかどうかの判定を行い、エラー情報(合致エラー有無情報102、分類エラー有無情報202)を出力する。
結果判定部300は、各フィルタのエラー情報をそれぞれ蓄積し、それぞれのフィルタのエラー率を算出する。
結果判定部300は、分類動作時に、各フィルタの判定結果(合致情報101、分類情報201)とエラー情報とに応じて最終結果(分類結果301)を出力する。
文字列照合フィルタは、それぞれの照合条件ID毎に合致するかどうかの判定結果を出力する。
結果判定部300は特定の照合条件IDに対して入力文書801が合致している場合には、他の結果に関わらずそれを最終結果として出力する。
実施の形態2では、学習型フィルタを複数有する情報フィルタリングシステム900について説明する。
以下、実施の形態1と異なる事項について主に説明し、説明を省略する事項は実施の形態1と同様であるものとする。
実施の形態2における情報フィルタリングシステム900の機能構成について、図8に基づいて以下に説明する。
但し、各学習型フィルタ部200の学習部210は、それぞれに異なる統計処理を実行する。例えば、学習型フィルタ部200aの学習部210はベイズ理論に基づく統計処理を行い、学習型フィルタ部200bの学習部210はSVMに基づく統計処理を行い、学習型フィルタ部200cの学習部210はニューラルネットワークモデルに基づく統計処理を行う。これにより、各学習型フィルタ部200は、それぞれに独自の学習データ209を生成し、各自の学習データ209に基づいて分類情報201を生成する。
各学習型フィルタ部200が異なる統計処理を行うことにより、少なくともいずれかの学習型フィルタ部200により分類対象文書804が正しく分類される可能性が高くなり、分類結果301の分類精度が向上する。
各学習型フィルタ部200は、それぞれ、分類対象文書804に対する分類情報201を結果出力部320に出力する。
エラー率情報308は、文字列照合型フィルタ部100の分類エラー率と学習型フィルタ集合部400の分類エラー率とを示す。
例えば、結果出力部320は、文字列照合型フィルタ部100の分類エラー率が学習型フィルタ集合部400の併合した分類エラー率より小さい場合には文字列照合型フィルタ部100が特定したカテゴリを分類対象文書804の属するカテゴリとし、学習型フィルタ集合部400の併合した分類エラー率が文字列照合型フィルタ部100の分類エラー率より小さい場合には学習型フィルタ集合部400が特定したカテゴリを分類対象文書804の属するカテゴリとする。
また例えば、結果出力部320は、文字列照合型フィルタ部100と各学習型フィルタ部200とのうち、最も分類エラー率が小さいフィルタにより特定されたカテゴリを分類対象文書804の属するカテゴリとする。
例えば、結果出力部320は多数決により各分類情報201を併合する。つまり、結果出力部320は、各学習型フィルタ部200の分類情報201に設定されているカテゴリのうち、最も多くの分類情報201に設定されているカテゴリを学習型フィルタ集合部400が特定したカテゴリとする。
また例えば、結果出力部320は各分類情報201に設定されている各カテゴリの論理和を併合結果とする。
また例えば、結果出力部320は、実施の形態1と同様に、各分類情報201の加重平均値を算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて一つ(または、複数)の分類情報201を選択し、選択した分類情報201を併合結果とする。
また例えば、結果出力部320は、実施の形態1と同様に、重み付けした各学習型フィルタ部200の分類正解率を比較し、分類正解率が最も大きい学習型フィルタ部200の分類情報201を併合結果とする。
また例えば、結果出力部320は、各分類情報201に設定されているカテゴリの分類確率を比較し、分類確率が最も高いカテゴリを併合結果とする。
また例えば、検出漏れも過剰検出も最小限に抑えたいという場合には、多数決による併合結果を分類対象文書804の属するカテゴリとする方法が有効的である。
結果出力部320は、複数の学習型フィルタの出力(分類情報201)を併合して1つの学習型フィルタ出力とみなす。
Claims (16)
- 複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ部と、
前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ部と、
属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較部と、
前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較部と、
前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出部と、
特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力部とを備え、
前記第2のフィルタ部は、
前記文書データを入力機器から入力し、各種類に属する分類キーワードを照合条件情報として予め記憶している記憶機器から前記照合条件情報を入力し、前記照合条件情報が示す各種類の前記分類キーワードが前記文書データに含まれているか否かを判定する文字列照合処理をCPUを用いて実行し、前記文字列照合処理で前記文書データに含まれていると判定された前記分類キーワードが属する種類を前記文書データの属する種類と特定する文字列照合型フィルタ部であり、
前記照合条件情報は、複数の前記分類キーワードのうち特定の前記分類キーワードを優先キーワードとして示し、
前記結果出力部は、
前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合、前記第1のエラー率と前記第2のエラー率とに関わらず、前記分類対象文書データの前記分類結果として、前記優先キーワードの属する種類を出力する
ことを特徴とする情報フィルタリングシステム。 - 前記第1のフィルタ部は、
前記学習文書データと前記正解情報との組を入力機器から複数組入力し、各種類に属する各学習文書データに共通する統計情報を学習データとして生成する統計処理を前記複数組に基づいてCPUを用いて実行し、前記統計処理により生成した前記学習データを記憶機器に記憶する学習部と、
前記分類対象文書データを入力機器から入力し、前記学習部により生成された前記学習データが示す前記統計情報に対して前記分類対象文書データの対応する比率を種類毎に分類確率としてCPUを用いて算出し、種類毎の前記分類確率に基づいて前記分類対象文書データの属する種類を特定する学習型分類部と
を備えた学習型フィルタ部である
ことを特徴とする請求項1記載の情報フィルタリングシステム。 - 前記学習部は、
ベイズ理論と、SVM(Support Vector Machine)と、ニューラルネットワークモデルとのいずれかを用いて前記統計処理を行う
ことを特徴とする請求項2記載の情報フィルタリングシステム。 - 前記文字列照合型フィルタ部は、
決定性有限オートマトンを用いて前記文字列照合処理を行う
ことを特徴とする請求項1から請求項3いずれかに記載の情報フィルタリングシステム。 - 前記文字列照合型フィルタ部は、
前記分類キーワードを表す前記決定性有限オートマトンの状態遷移表を前記照合条件情報として前記文字列照合処理を実行する
ことを特徴とする請求項4記載の情報フィルタリングシステム。 - 前記文字列照合型フィルタ部は、
非決定性有限オートマトンを用いて前記文字列照合処理を行う
ことを特徴とする請求項1から請求項3いずれかに記載の情報フィルタリングシステム。 - 前記結果出力部は、前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合を除き、
前記第1のエラー率が前記第2のエラー率より小さい場合には前記第1の分類情報を前記分類結果として出力し、前記第2のエラー率が前記第1のエラー率より小さい場合には前記第2の分類情報を前記分類結果として出力する
ことを特徴とする請求項1から請求項6いずれかに記載の情報フィルタリングシステム。 - 前記結果出力部は、前記文字列照合型フィルタ部により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合を除き、
前記第1の分類情報と前記第2の分類情報とを所定の数値で表し、前記第1のエラー率に応じて前記第1の分類情報を重み付けすると共に、前記第2のエラー率に応じて前記第2の分類情報を重み付けし、重み付けした前記第1の分類情報と重み付けした前記第2の分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する
ことを特徴とする請求項1から請求項6いずれかに記載の情報フィルタリングシステム。 - 前記エラー率算出部は、
所定の期間内に生成された前記第1の学習結果情報に基づいて前記第1のエラー率を算出すると共に、前記所定の期間内に生成された前記第2の学習結果情報に基づいて前記第2のエラー率を算出する
ことを特徴とする請求項1から請求項8いずれかに記載の情報フィルタリングシステム。 - 前記学習型フィルタ部は、第1の学習型フィルタ部と第2の学習型フィルタ部とを備え、
前記第1の学習型フィルタ部と前記第2の学習型フィルタ部とは、それぞれ前記学習部と前記学習型分類部とを備え、
前記第1の学習型フィルタ部の前記学習部と前記第2の学習型フィルタ部の前記学習部とは、それぞれ異なる前記統計処理を実行し、
前記第1の分類情報は、前記第1の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第1の学習分類情報と、前記第2の学習型フィルタ部の前記学習型分類部により特定された前記種類を示す第2の学習分類情報とを示す
ことを特徴とする請求項2から請求項9いずれかに記載の情報フィルタリングシステム。 - 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類と前記第2の学習分類情報が示す前記種類との論理和を求め、求めた前記論理和が示す前記種類を前記分類結果として出力する
ことを特徴とする請求項10記載の情報フィルタリングシステム。 - 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報が示す前記種類の前記分類確率と前記第2の学習分類情報が示す前記種類の前記分類確率とに基づいて前記分類結果を出力する
ことを特徴とする請求項10記載の情報フィルタリングシステム。 - 前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、前記第1の学習分類情報の前記第1のエラー率に応じて前記第1の学習分類情報を重み付けすると共に、前記第2の学習分類情報の前記第1のエラー率に応じて前記第2の学習分類情報を重み付けし、重み付けした前記第1の学習分類情報と重み付けした前記第2の学習分類情報との平均値を加重平均値として算出し、算出した加重平均値と所定の閾値とを比較し、比較結果に基づいて前記分類結果を出力する
ことを特徴とする請求項10記載の情報フィルタリングシステム。 - 前記学習型フィルタ部は、前記学習部と前記学習型分類部との組を複数備え、
複数の前記学習部は、それぞれ異なる前記統計処理を実行し、
前記第1の分類情報は、各組の前記学習型分類部それぞれにより特定された前記種類を示し、
前記結果出力部は、前記第1の分類情報を前記分類結果として出力する場合、最も多くの組に特定された前記種類を前記分類結果として出力する
ことを特徴とする請求項2から請求項9いずれかに記載の情報フィルタリングシステム。 - 第1のフィルタ部が、複数種類のうち少なくともいずれかの種類に属する文書データを入力機器から入力し、入力した前記文書データの属する種類を特定する所定の分類処理をCPU(Central Processing Unit)を用いて実行し、入力した前記文書データの属する種類を第1の分類情報として特定する第1のフィルタ処理を行い、
第2のフィルタ部が、前記文書データを入力機器から入力し、前記第1のフィルタ部の前記分類処理とは異なる所定の分類処理をCPUを用いて実行し、入力した前記文書データの属する種類を第2の分類情報として特定する第2のフィルタ処理を行い、
第1の正解比較部が、属する種類が予め特定されている複数の学習文書データそれぞれを前記文書データとして前記第1のフィルタ部が特定した前記複数の学習文書データの前記第1の分類情報と予め特定されている前記属する種類を示す前記複数の学習文書データの正解情報とをCPUを用いて比較し、比較結果に基づいて前記第1の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第1の学習結果情報を生成し、生成した前記複数の学習文書データの前記第1の学習結果情報を記憶機器に記憶する第1の正解比較処理を行い、
第2の正解比較部が、前記複数の学習文書データそれぞれを前記文書データとして前記第2のフィルタ部が特定した前記複数の学習文書データの前記第2の分類情報と前記複数の学習文書データの前記正解情報とをCPUを用いて比較し、比較結果に基づいて前記第2の分類情報が前記正解情報に一致したか否かを示す前記複数の学習文書データの第2の学習結果情報を生成し、生成した前記複数の学習文書データの前記第2の学習結果情報を記憶機器に記憶する第2の正解比較処理を行い、
エラー率算出部が、前記第1の正解比較部が生成した前記複数の前記学習文書データの前記第1の学習結果情報に基づいて前記第1の分類情報が前記正解情報に一致しなかった割合を示す第1のエラー率をCPUを用いて算出すると共に、前記第2の正解比較部が生成した前記複数の前記学習文書データの前記第2の学習結果情報に基づいて前記第2の分類情報が前記正解情報に一致しなかった割合を示す第2のエラー率をCPUを用いて算出するエラー率算出処理を行い、
結果出力部が、特定の種類に分類する対象である分類対象文書データを前記文書データとして前記第1のフィルタ部が特定した前記第1の分類情報と、前記分類対象文書データを前記文書データとして前記第2のフィルタ部が特定した前記第2の分類情報と、前記エラー率算出部が算出した前記第1のエラー率と、前記エラー率算出部が算出した前記第2のエラー率とに基づいて前記分類対象文書データの属する種類をCPUを用いて特定し、特定した種類を分類結果として出力機器に出力する結果出力処理を行い、
前記第2のフィルタ処理は、
前記文書データを入力機器から入力し、各種類に属する分類キーワードを照合条件情報として予め記憶している記憶機器から前記照合条件情報を入力し、前記照合条件情報が示す各種類の前記分類キーワードが前記文書データに含まれているか否かを判定する文字列照合処理をCPUを用いて実行し、前記文字列照合処理で前記文書データに含まれていると判定された前記分類キーワードが属する種類を前記文書データの属する種類と特定する文字列照合型フィルタ処理であり、
前記照合条件情報は、複数の前記分類キーワードのうち特定の前記分類キーワードを優先キーワードとして示し、
前記結果出力部は、前記結果出力処理で、
前記文字列照合型フィルタ処理により前記分類対象文書データに前記優先キーワードが含まれていると判定された場合、前記第1のエラー率と前記第2のエラー率とに関わらず、前記分類対象文書データの前記分類結果として、前記優先キーワードの属する種類を出力する
ことを特徴とする情報フィルタリング方法。 - 請求項15記載の情報フィルタリング方法をコンピュータに実行させる情報フィルタリングプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/050048 WO2009087757A1 (ja) | 2008-01-08 | 2008-01-08 | 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009087757A1 JPWO2009087757A1 (ja) | 2011-05-26 |
JP5079019B2 true JP5079019B2 (ja) | 2012-11-21 |
Family
ID=40852882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009548827A Expired - Fee Related JP5079019B2 (ja) | 2008-01-08 | 2008-01-08 | 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8442926B2 (ja) |
JP (1) | JP5079019B2 (ja) |
KR (1) | KR101139192B1 (ja) |
CN (1) | CN101911067A (ja) |
WO (1) | WO2009087757A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316030B2 (en) * | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
JP5460887B2 (ja) | 2011-01-13 | 2014-04-02 | 三菱電機株式会社 | 分類ルール生成装置及び分類ルール生成プログラム |
US9836455B2 (en) * | 2011-02-23 | 2017-12-05 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
US8768071B2 (en) * | 2011-08-02 | 2014-07-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Object category recognition methods and robots utilizing the same |
US9251289B2 (en) * | 2011-09-09 | 2016-02-02 | Microsoft Technology Licensing, Llc | Matching target strings to known strings |
US9152953B2 (en) | 2012-02-10 | 2015-10-06 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
US9256862B2 (en) * | 2012-02-10 | 2016-02-09 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
US10204387B2 (en) * | 2013-05-08 | 2019-02-12 | Nmetric, Llc | Sequentially configuring manufacturing equipment to reduce reconfiguration times |
WO2014208427A1 (ja) * | 2013-06-24 | 2014-12-31 | 日本電信電話株式会社 | セキュリティ情報管理システム及びセキュリティ情報管理方法 |
US20160170983A1 (en) * | 2013-07-30 | 2016-06-16 | Nippon Telegraph And Telephone Corporation | Information management apparatus and information management method |
US9864781B1 (en) | 2013-11-05 | 2018-01-09 | Western Digital Technologies, Inc. | Search of NAS data through association of errors |
US9213702B2 (en) * | 2013-12-13 | 2015-12-15 | National Cheng Kung University | Method and system for recommending research information news |
CN104750724B (zh) * | 2013-12-30 | 2019-10-25 | 亿阳信通股份有限公司 | 一种消息过滤方法和装置 |
WO2015192210A1 (en) * | 2014-06-17 | 2015-12-23 | Maluuba Inc. | Method and system for classifying queries |
US20160065605A1 (en) * | 2014-08-29 | 2016-03-03 | Linkedin Corporation | Spam detection for online slide deck presentations |
CN107533651B (zh) * | 2015-05-11 | 2021-05-04 | 株式会社东芝 | 识别装置、识别方法及计算机可读取的记录介质 |
CN105955951B (zh) * | 2016-04-29 | 2018-12-11 | 中山大学 | 一种消息过滤的方法及装置 |
MX2019001676A (es) * | 2016-08-09 | 2019-09-18 | Ripcord Inc | Sistemas y metodos para etiquetar registros electronicos. |
CN107066882B (zh) * | 2017-03-17 | 2019-07-12 | 平安科技(深圳)有限公司 | 信息泄露检测方法及装置 |
EP3598377A1 (en) * | 2018-07-20 | 2020-01-22 | KBC Groep NV | Improved claim handling |
US11972490B2 (en) | 2018-07-20 | 2024-04-30 | Kbc Groep Nv | Determining a category of a request by word vector representation of a natural language text string with a similarity value |
JP6832322B2 (ja) * | 2018-11-02 | 2021-02-24 | 株式会社トヨタマップマスター | 探索装置、探索方法、探索プログラムおよび記録媒体 |
CN111382357B (zh) * | 2020-03-06 | 2020-12-22 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN113536743A (zh) * | 2020-11-06 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01188934A (ja) * | 1988-01-22 | 1989-07-28 | Nec Corp | 文書自動分類装置 |
JPH1145247A (ja) * | 1997-07-27 | 1999-02-16 | Just Syst Corp | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 |
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204975A (ja) | 1992-01-30 | 1993-08-13 | Hitachi Ltd | 情報フィルタリング装置及びそのフィルタリング方法 |
JP3472032B2 (ja) | 1995-04-24 | 2003-12-02 | 株式会社東芝 | 情報フィルタ装置及び情報フィルタ方法 |
JP3244005B2 (ja) | 1995-09-04 | 2002-01-07 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
US6901392B1 (en) | 1995-09-04 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
US6076082A (en) | 1995-09-04 | 2000-06-13 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
JP3344953B2 (ja) | 1998-11-02 | 2002-11-18 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
JP2000331013A (ja) | 1999-05-19 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 情報問いあわせ支援装置及び情報問いあわせ支援方法 |
JP2001229164A (ja) | 2000-02-15 | 2001-08-24 | Oki Electric Ind Co Ltd | 情報フィルタリングシステム |
US6654744B2 (en) * | 2000-04-17 | 2003-11-25 | Fujitsu Limited | Method and apparatus for categorizing information, and a computer product |
US6687697B2 (en) * | 2001-07-30 | 2004-02-03 | Microsoft Corporation | System and method for improved string matching under noisy channel conditions |
JP2003067304A (ja) | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体 |
JP2005530250A (ja) * | 2002-06-12 | 2005-10-06 | ジェナ ジョーダル, | 複数階層視座を実現するデータ格納、取り出し、操作、及び表示ツール |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP3804017B2 (ja) | 2003-08-27 | 2006-08-02 | 株式会社ウィザーズ | 電子メールシステム |
US7266562B2 (en) * | 2005-02-14 | 2007-09-04 | Levine Joel H | System and method for automatically categorizing objects using an empirically based goodness of fit technique |
US7873584B2 (en) * | 2005-12-22 | 2011-01-18 | Oren Asher | Method and system for classifying users of a computer network |
KR100793378B1 (ko) | 2006-06-28 | 2008-01-11 | 엔에이치엔(주) | 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템 |
-
2008
- 2008-01-08 JP JP2009548827A patent/JP5079019B2/ja not_active Expired - Fee Related
- 2008-01-08 WO PCT/JP2008/050048 patent/WO2009087757A1/ja active Application Filing
- 2008-01-08 CN CN2008801242829A patent/CN101911067A/zh active Pending
- 2008-01-08 US US12/811,755 patent/US8442926B2/en not_active Expired - Fee Related
- 2008-01-08 KR KR1020107014651A patent/KR101139192B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01188934A (ja) * | 1988-01-22 | 1989-07-28 | Nec Corp | 文書自動分類装置 |
JPH1145247A (ja) * | 1997-07-27 | 1999-02-16 | Just Syst Corp | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 |
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2009087757A1 (ja) | 2011-05-26 |
WO2009087757A1 (ja) | 2009-07-16 |
KR101139192B1 (ko) | 2012-04-26 |
US20100280981A1 (en) | 2010-11-04 |
US8442926B2 (en) | 2013-05-14 |
KR20100100933A (ko) | 2010-09-15 |
CN101911067A (zh) | 2010-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5079019B2 (ja) | 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム | |
Rabanser et al. | Failing loudly: An empirical study of methods for detecting dataset shift | |
US11928567B2 (en) | System and method for improving machine learning models by detecting and removing inaccurate training data | |
US11907672B2 (en) | Machine-learning natural language processing classifier for content classification | |
US20210287136A1 (en) | Systems and methods for generating models for classifying imbalanced data | |
US8453027B2 (en) | Similarity detection for error reports | |
US7426497B2 (en) | Method and apparatus for analysis and decomposition of classifier data anomalies | |
US8484514B2 (en) | Fault cause estimating system, fault cause estimating method, and fault cause estimating program | |
US11604926B2 (en) | Method and system of creating and summarizing unstructured natural language sentence clusters for efficient tagging | |
US7779354B2 (en) | Method and data processing system for recognizing and correcting dyslexia-related spelling errors | |
JP7332949B2 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
US20070136220A1 (en) | Apparatus for learning classification model and method and program thereof | |
US11615361B2 (en) | Machine learning model for predicting litigation risk in correspondence and identifying severity levels | |
US20220083571A1 (en) | Systems and methods for classifying imbalanced data | |
US20230045330A1 (en) | Multi-term query subsumption for document classification | |
JP2016018358A (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
Loyola et al. | UNSL at eRisk 2021: A Comparison of Three Early Alert Policies for Early Risk Detection. | |
JP7207540B2 (ja) | 学習支援装置、学習支援方法、及びプログラム | |
Chen et al. | Increasing the effectiveness of associative classification in terms of class imbalance by using a novel pruning algorithm | |
Abad et al. | Supporting analysts by dynamic extraction and classification of requirements-related knowledge | |
WO2023129339A1 (en) | Extracting and classifying entities from digital content items | |
Baumann | Improving a rule-based fraud detection system with classification based on association rule mining | |
US11531703B2 (en) | Determining data categorizations based on an ontology and a machine-learning model | |
JP2023145767A (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
US7672912B2 (en) | Classifying knowledge aging in emails using Naïve Bayes Classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120731 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120828 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150907 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |