JP2017151933A - データ分類装置、データ分類方法、及びプログラム - Google Patents

データ分類装置、データ分類方法、及びプログラム Download PDF

Info

Publication number
JP2017151933A
JP2017151933A JP2016036438A JP2016036438A JP2017151933A JP 2017151933 A JP2017151933 A JP 2017151933A JP 2016036438 A JP2016036438 A JP 2016036438A JP 2016036438 A JP2016036438 A JP 2016036438A JP 2017151933 A JP2017151933 A JP 2017151933A
Authority
JP
Japan
Prior art keywords
data
identification
prediction
classification
prediction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016036438A
Other languages
English (en)
Other versions
JP6563350B2 (ja
Inventor
山下 直也
Naoya Yamashita
直也 山下
幸生 植松
Yukio Uematsu
幸生 植松
済央 野本
Narichika Nomoto
済央 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2016036438A priority Critical patent/JP6563350B2/ja
Publication of JP2017151933A publication Critical patent/JP2017151933A/ja
Application granted granted Critical
Publication of JP6563350B2 publication Critical patent/JP6563350B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行う際に、識別境界付近に存在する分類の曖昧なデータについて、分類の明確性を向上させることを可能とする。
【解決手段】学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置において、前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定手段と、前記判定手段により、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別手段とを備える。
【選択図】図2

Description

本発明は、教師あり機械学習アルゴリズムに基づいて、予測データの分類を行う技術に関連するものである。
近年、IP系サービスを支えるネットワーク機器のオペレーションにおいて、サイレント故障の早期検知や故障の予兆検知を目的として、Twitter(登録商標)に代表されるSNS(Social Networking Service)の情報を分析する技術が注目を集めている(例えば、特許文献1、非特許文献1参照)。短いメッセージをリアルタイムで発信することができるSNSのデータを分析することで、ユーザが感じているサービスの状態をリアルタイムに把握できる可能性がある。
また、上記のようなメッセージから故障に関連する情報を抽出する技術として、サポートベクトルマシンなどの教師あり機械学習アルゴリズムがある。教師あり機械学習では、学習データ(教師データとも呼ぶ)として、目視によって選んだ故障に関する情報のメッセージ、および故障とは関係ないメッセージを与え、各メッセージに基づいて、正解データと不正解データを分ける識別関数(予測モデル)を作成する。この方法では、各メッセージの単語の共起関係を考慮して故障情報メッセージかどうかを判定することができるため、単純なキーワードで検索するよりも精度が向上する。
特開2015-095060号公報
Syslog+SNS分析によるネットワーク故障検知・原因分析技術木村達明,竹下恵,豊野剛,横田将裕,西松研,森達哉、NTT技術ジャーナル, Vol.25, pp20-24, 2013.
上述した教師あり機械学習アルゴリズムでは、学習データをもとに構築した識別関数を利用して予測したいデータの分類を行う。しかしながら、識別境界付近に存在するデータは誤って識別されてしまう可能性があるという課題がある。
例えば、図1に示すように、教師あり機械学習アルゴリズムにより生成された識別関数をy(x)とし、y(x)>0であれば「分類1」と判定し、y<0であれば「分類2」と判定する予測モデルを考える。この場合、y(x)=0の境界から十分に離れた領域については正確な判定が行われ易い。これに対して、判定結果(y(x)の出力)がy(x)=0に近いデータについては誤判定が起こり易い。例えば、y(x)>0であるから「分類1」と判定されたデータが、実際には「分類2」であるといったことが生じ得る。例えば、Twitter(登録商標)などの短いテキストから判定する場合、情報量が少なく誤判定が起きやすい。
上記のような課題は、背景技術で説明したような故障の識別に限らずに、教師あり機械学習の適用全般に生じ得る課題である。
本発明は上記の点に鑑みてなされたものであり、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行う際に、識別境界付近に存在する分類の曖昧なデータについて、分類の明確性を向上させることを可能とする技術を提供することを目的とする。
本発明の実施の形態によれば、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置であって、
前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定手段と、
前記判定手段により、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別手段と
を備えることを特徴とするデータ分類装置が提供される。
また、本発明の実施の形態によれば、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置が実行するデータ分類方法であって、
前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定ステップと、
前記判定ステップにおいて、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別ステップと
を備えることを特徴とするデータ分類方法が提供される。
本発明の実施の形態によれば、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行う際に、識別境界付近に存在する分類の曖昧なデータについて、分類の明確性を向上させることを可能とする技術が提供される。
課題を説明するための図である。 本実施の形態における文書分類装置100の構成図である。 学習データの例を示す図である。 識別関数生成の処理手順を示すフローチャートである。 予測データの例を示す図である。 実施例1の処理手順を示すフローチャートである。 追加用データの例を示す図である。 実施例2の処理手順を示すフローチャートである。 ログデータの例を示す図である。 実施例3の処理手順を示すフローチャートである。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。例えば、本実施の形態で説明する予測データ、追加用データ、及びログデータは、通信システムの故障や性能低下等の予測を想定したデータになっているが、本発明は、このような分野に限らず、様々な分野に適用可能である。
本実施の形態では、教師あり機械学習に基づき生成された識別関数を、予測したいデータ(予測データ)に適用した結果、予測データの予測結果が識別境界付近に存在する場合に、他のデータベースから得られる追加データを用いて再度識別を行うこととしている。以下、より詳細に説明する。
(装置構成)
図2に、本実施の形態における文書分類装置100の構成図を示す。図2に示すように、文書分類装置100は、学習データ格納部101、予測データ格納部102、再識別用データ格納部103、データ入力部104、形態素解析部105、特徴ベクトル化部106、識別関数生成部107、識別関数格納部108、識別部109、再識別部110、及び出力部111を有する。各機能部の概要は以下のとおりである。
学習データ格納部101は、識別関数生成のもとなる学習データを格納する。予測データ格納部102は、識別関数を使用した分類の識別の対象となるデータを格納する。再識別用データ格納部103は、識別結果が識別境界付近である場合において再識別を行うために使用するデータを格納する。本実施の形態において、学習データ、予測データ、再識別用データはいずれもテキストのデータである。
データ入力部104は、上記の各データを入力し、対応する格納部に格納する。形態素解析部105は、テキストの形態素解析を行い、当該テキストを単語に分ける。特徴ベクトル化部106は、形態素解析部105で得られたテキスト毎の形態素解析結果を入力し、テキスト毎の特徴ベクトルを算出する。
識別関数生成部107は、教師あり機械学習の技術を用いて、特徴ベクトル化部106により得られた特徴ベクトル化された学習データから、予測データの分類を識別するための識別関数を生成する。なお、識別関数の生成には例えばサポートベクトルマシンのような従来技術を用いることができる。識別関数格納部108は、識別関数生成部107により生成された識別関数を格納する。
識別部109は、特徴ベクトル化された予測データを識別関数に入力し、識別関数の出力値に基づいて、予測データの分類の識別を行う。再識別部110は、再識別用データを用いて再識別を行う。出力部111は、識別部109又は再識別部110による識別結果を出力する。
なお、本実施の形態では、文書分類装置100が、学習データから識別関数を生成する機能と、識別/再識別の機能の両方を有するが、学習データから識別関数を生成する機能を有しないこととしてもよい。この場合、例えば、外部装置で生成された識別関数が文書分類装置100に入力、格納され、識別/再識別において使用される。
本実施の形態における文書分類装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、文書分類装置100が有する機能は、当該コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
以下、文書分類装置100の動作例をより詳細に説明する。以下では、最初に各実施例に共通である識別関数の生成について説明し、その後に、識別/再識別処理の各実施例を説明する。
(識別関数の生成処理)
まず、学習データから識別関数を生成する処理を説明する。本実施の形態の学習データは特定のものに限られるわけではないが、例えば、Twitter(登録商標)等のSNSのデータや、Web上のデータである。
図3は、文書分類装置100の学習データ格納部101に格納されている学習データの集合の例を示す図である。図3に示すように、学習データは、"文書","正解ラベル"のカラムを含む。正解ラベルは2値のどちらかの値を取る。例えば、文書の内容について、不満かそうでないかを分類する場合に、不満と分類される場合には1、それ以外は−1を取る。
図4のフローチャートの手順に沿って、文書分類装置100による識別関数の生成処理を説明する。まず、形態素解析部105が学習データ格納部101から学習データを取得する(ステップS101)。
形態素解析部105は、学習データにおけるテキスト(文書)毎に形態素解析を行い、テキストを単語単位に分かち書きする(ステップS102)。テキスト毎の形態素解析結果は特徴ベクトル化部106に入力される。形態素解析技術としては従来技術を用いることができる。形態素解析の一例を以下に示す。形態素解析により単語単位と併せて品詞も抽出可能である。
入力:「私と友達は一緒に学校に行った」
出力1:「私/と/友達/は/一緒/に/学校/に/行った」
出力2:「私:名詞/と:助詞/友達:名詞/は:助詞/一緒:名詞/に:助詞/学校:名詞/に/行った:動詞」
次に、特徴ベクトル化部106が、テキスト毎の形態素解析結果から、テキスト毎の特徴ベクトルを算出する(ステップS103)。ここでは、例えば、特徴ベクトル化部106は、各形態素(単語)の出現頻度をそのテキストの特徴としてベクトル化する。テキスト毎の特徴ベクトルは、識別関数生成部107に入力される。
次に、識別関数生成部107は、教師あり機械学習モデルを用いて、特徴ベクトル化された学習データから、予測データを識別するための識別関数を生成する(ステップS104)。ステップS105において、識別関数生成部107から識別関数が出力され、識別関数格納部108に格納される。以下、識別関数をy(x)とする。また、基本的に、y(x)の出力値が正である場合の予測データの分類が「分類1」であり、負である場合の分類が「分類2」であるとする。
(実施例1)
次に、文書分類装置100の動作例として、予測データの識別に関する実施例1を説明する。
予測データは特定のものに限られるわけではないが、例えば、Twitter(登録商標)等のSNSのデータや、Web上のデータである。特に実施例1では、予測データはSNSのデータであることを想定している。例えば、データ入力部104はネットワークから当該SNSのデータをリアルタイムに取得し、予測データとして予測データ格納部102に順次格納するとともに、予測データに対して順次、以下で説明する識別/再識別処理が行われる。
実施例1における予測データの例を図5に示す。図5に示すように、当該予測データは、"ユーザID"、"文書"、"発信時刻"、"発信位置"のカラムを含む。
図6のフローチャートに示す手順に沿って、実施例1における文書分類装置100の処理手順を説明する。なお、以降の各実施例において実行される形態素解析、特徴ベクトル化については、学習データに対する形態素解析、特徴ベクトル化と同じであるため、簡単に説明する。
新たな予測データが予測データ格納部102に格納されると、形態素解析部105が、予測データの文書(テキスト)に対して形態素解析を行う(ステップS202)。次に、特徴ベクトル化部106が、形態素解析結果から特徴ベクトルを算出する(ステップS203)。
次に、識別部109が、特徴ベクトル化された予測データに対して識別関数を適用して出力値を計算する。そして、特徴ベクトルをx、識別関数をy(x)、閾値をtとした場合、識別部109は、|y(x)|>tを満たすかどうかの判定を行う(ステップS204)。なお、tは予め定めた正の値である。|y(x)|>tかどうかの判定を行うことは、出力値が、y(x)=0の境界付近にないか否かの判定を行うことに相当する。
ステップS204において|y(x)|>tであると判定された場合、ステップS205に進み、識別部109は、y(x)>tならば予測データを分類1と識別し、y(x)<−tならば予測データを分類2と識別し、識別結果を出力部111を介して出力する。
ステップS204において、|y(x)|≦tであると判定された場合、ステップS206に進み、再識別のための処理が開始される。
実施例1では、再識別において、予測データに、再識別用データ格納部103に格納されている追加用データを付加し、当該追加用データが付加された予測データ(これを追加済予測データと呼ぶ)に対して、最初の識別処理と同様の手順で識別を実行する。
図7に、実施例1(及び実施例2)において再識別用データ格納部103に格納されている追加用データの集合の例を示す。実施例1の追加用データは、予測データと同様のデータであり、例えば、Twitter(登録商標)等のSNSのデータや、Web上のデータであり、データ入力部104から順次入力されるものである。特に実施例1では、予測データはSNSのデータであることを想定している。図7に示すように、当該追加用データは、"ユーザID"、"文書"、"発信時刻"、"発信位置"のカラムを含む。
なお、予測データ格納部102に順次予測データを蓄積していくことで、実施例1(実施例2)の追加用データとして、予測データ格納部102に格納されるデータを用いることとしてもよい。
図6のステップS206において、再識別部110は、予測データを発信したユーザと同じユーザから発信された一つ前のデータ(追加用データ)を再識別用データ格納部103から取得し、当該追加用データを予測データに追加して、新たに予測データを作成する。
この追加が行われた予測データを追加済予測データと呼ぶことにする。一例として、追加用データの文書部分が「ABCD」であるとして、追加用データの文書部分が「EFGH」であれば、追加済予測データは「ABCDEFGH」となる。
その後、形態素解析部105が追加済予測データに対して形態素解析を行い(ステップS207)、特徴ベクトル化部109が、形態素解析結果から特徴ベクトルを算出する(ステップS208)。
そして、ステップS209において、再識別部110が、特徴べクトルを識別関数に入力して出力値を計算する。再識別部110は、出力値の絶対値が閾値tを超えるかどうか(|y(x)|>tを満たすかどうか)を判定し、閾値tを超えればステップS210に進み、出力値の正負に応じた分類を識別結果として出力する。
一方、出力値の絶対値が閾値tを超えない場合(|y(x)|≦tの場合)、ステップS206に戻り、予測データと同じユーザから発信された未追加のデータのうち、一つ前のデータ(最初の予測データの2つ前のデータ)を、現在の追加済予測データに加えることで、再度、識別を実行する。|y(x)|≦tが継続する間、このような処理が繰り返される。
本実施の形態で想定しているSNSのデータは短い場合が多く、分類が曖昧になりやすい。そこで、上記のようにデータを追加することで、分類の確度を増加させることができる。
なお、繰り返し回数の閾値を設けて、繰り返し回数が、当該閾値に達しても|y(x)|≦tとなる場合には処理を終了してもよい。例えば、繰り返し回数の閾値を2回とした場合、再識別処理を3回行って、3回目も|y(x)|≦tとなる場合に、処理を終了する。また、処理時間の閾値を設け、例えば、再識別処理に入った時刻から当該閾値の時間を経過した時点で、|y(x)|≦tとなっている場合には、処理を終了してもよい。これらの繰り返し制御についても再識別部110が実行する。
また、上記の例では、再識別処理時の追加用データとして、予測データのユーザと同じユーザのデータを使用することとしているが、異なるユーザのデータを使用して、上記と同様の再識別処理を行うこととしてもよい。
この場合、ステップS206において、予測データが発信されたエリア("発信位置"で識別)に属する、予測データのユーザとは異なるユーザのデータを追加用データとして使用する。予測データの発信エリアに属する異なるユーザのデータが複数ある場合には、予測データに時間的に最も近い過去の(かつ未追加の)データを使用する。
上記のようにして異なるユーザのデータを追加用データとして使用することは、例えば、同じユーザのデータが追加用データとして存在しない場合に行うこととしてもよいし、設定により、いずれを使用するかを決定してもよい。
なお、異なるユーザのデータを追加用データとして使用する場合、当該異なるユーザの分類傾向によっては、予測データに追加することによって、誤った分類になる可能性がある。なお、「分類傾向」とは、当該異なるユーザの複数のデータに対して識別関数を適用した場合における分類の偏りの度合(正側に分類される割合が高い等)のことである。そこで、異なるユーザのデータを追加用データとして使用する場合には、識別関数に所定値を加える等により、識別関数の変更(シフト)を行ってもよい。
一例として、再識別部110が、予測データと異なるユーザのデータを追加用データとして使用する場合において、当該異なるユーザについての過去の所定数のデータについて、識別関数により識別を行う。そして、例えば、当該異なるユーザのデータについて、特定の分類になる傾向が強い場合に、識別関数を変更する。一例として、上記所定数のうちの高い割合(例:8割以上)で、y(x)が予め定めた正の閾値以上となる場合に、その傾向を削減するために、f(x)=y(x)−A(Aは正の値)を、異なるユーザのデータを追加用データとして使用する場合における、ステップS209での識別関数として使用する。また、上記所定数のうちの高い割合(例:8割以上)で、y(x)が予め定めた負の閾値以下となる場合に、その傾向を削減するために、f(x)=y(x)+B(Bは正の値)を、異なるユーザのデータを追加用データとして使用する場合の識別関数として使用する。
(実施例2)
次に、実施例2について説明する。実施例2は、基本的に実施例1と同様である。以下、主に実施例1と異なる点について説明する。
実施例2では、再識別処理において、追加済予測データを作成する際に、所定時間内に同じユーザから発信されたデータを追加用データとして使用する。「所定時間」は特定の時間に限定されないが、実施例2では、予測データの発信時刻から過去3時間以内のデータを対象としている。
図8は、実施例2における文書分類装置100の処理手順を示すフローチャートである。図8のステップS301〜S305は、実施例1で説明した図6のステップS201〜S205と同じである。
ステップS304での判定がNoとなった場合(再識別を行うと判定した場合)、ステップS306に進む。
ステップS306において、再識別部110は、再識別用データ格納部103に、予測データのユーザと同じユーザから発信されたデータであって、予測データの発信時刻から過去3時間以内のデータ(未追加のデータ)があるかどうかを判定する。
ステップS306での判定がYesであれば、ステップS307に進み、3時間以内のデータのうちの一つ前のデータを追加して、追加済予測データを作成する。追加済予測データの作成自体は実施例1と同じである。一方、ステップS306での判定がNoであれば、処理を終了する。
ステップS307〜S311は、実施例1における図6のステップS206〜S210と同じである。ステップS310において、|y(x)|≦tである場合、ステップS306に戻り、予測データのユーザと同じユーザから発信されたデータであって、予測データの発信時刻から過去3時間以内に未追加のデータがあるかどうかを判定し、ある場合には、一つ前のデータ(最初の予測データの2つ前のデータ)を、現在の追加済予測データに加えることで、再度、識別を実行する。|y(x)|≦tが継続する間、かつ、過去3時間以内に未追加のデータがある間、このような処理が繰り返される。
また、実施例2においても、実施例1と同様に、繰り返しの回数又は時間の閾値を設けて、閾値に達しても|y(x)|≦tとなる場合には、処理を終了することとしてもよい。
更に、実施例2においても、実施例1と同様に、異なるユーザであって同エリアのユーザのデータを追加用データとして使用してもよい。また、実施例1の場合と同様に、異なるユーザのデータを使用する場合における識別関数の変更を行うこととしてもよい。
また、上記の実施例1、2では、追加用データとして、予測データよりも過去のデータを使用しているが、例えば、リアルタイム処理ではなく、バッチ処理で予測データの分類を行う場合などについては、予測データの時刻よりも後の時刻のデータを追加用データとして使用することとしてもよい。また、予測データの時刻の前のデータ及び後のデータの両方を追加用データとして使用してもよい。
(実施例3)
次に、実施例3について説明する。実施例3では、再識別処理において、通信サービスを提供するためのサーバ等の機器のログを再識別用データとして使用する。図9に、実施例3において再識別用データ格納部103に格納されているログデータの集合の例を示す。図9に示すように、当該ログデータは、"ホスト名","位置","時刻","優先度","メッセージ"のカラムを含む。ここでの"位置"は、"ホスト名"で示されるサーバが設置されている位置を示す。"時刻"はメッセージが出力された時刻を示す。実施例3では、文書分類装置100のデータ入力部104から、このようなログデータが入力され、再識別用データ格納部103に格納される。
図10は、実施例3における文書分類装置100の処理手順を示すフローチャートである。図10のステップS401〜S405は、実施例1で説明した図6のステップS201〜S205と同じである。
ステップS404での判定がNoとなった場合(再識別を行うと判定した場合)、ステップS406に進む。
ステップS406において、再識別部110は、再識別用データ格納部103に、予測データの発信時刻から過去3時間以内に優先度の高いログデータ(例えば,syslogではemerge, alert, crit)があるかどうかを判定する。
過去3時間以内に優先度の高いログデータがある場合には、識別結果を分類1として出力し(ステップS407)、該当のログデータがなければ識別結果を分類2として出力する(ステップS408)。ここで、優先度の高いログデータがある場合に「分類1」とし、ない場合に「分類2」とすることは、予め定めておくことである。
上記の例では、予測データの発信時刻から過去3時間以内に優先度の高いログデータがあるかどうかを判定しているが、「3時間」は一例に過ぎない。「3時間」以外の時間を用いてもよい。なお、前述したとおり、予測データよりも後のログデータを利用可能な場合には、予測データよりも後の所定時間内のログデータに関して、優先度の高いログデータがあるかどうかを判定することとしてもよい。
また、実施例1又は実施例2と、実施例3とを組み合わせて実施してもよい。例えば、実施例1、2の再識別処理を行っても分類できない場合(|y(x)|≦tとなる場合)に、ログデータを使用した分類を行うこととしてもよい。
上記のように、実施例1、2では、予測データ以外のデータとして、予測データの前後の同一ユーザのデータ、もしくは異なるユーザの同場所のデータを用いるので、分類の判定に用いる情報量を拡充でき、分類の明確性を向上させることができる。
また、例えば、あるイベントに関するあるユーザのデータの判定結果が曖昧である場合でも、「不満」と判定される他のログが同時刻や同場所で多く存在していれば、「不満らしさ」は増すと考えられる。また、同時刻や同場所で「不満」と判定された他のログが無ければ「不満らしさ」は減ると考えられる。このような観点で、実施例3では、予測データとは種類の異なるログを判定に使用することで、分類の明確性を向上させている。
(実施の形態のまとめ)
以上、説明したように、本実施の形態により、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置であって、前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定手段と、前記判定手段により、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別手段とを備えるデータ分類装置が提供される。実施の形態で説明した文書分類装置100は、当該データ分類装置の例である。
前記再識別手段は、例えば、前記追加データを前記予測データに加えて得られた追加済予測データに前記識別関数を適用することにより、前記予測データの分類を行う。また、前記追加データは、前記予測データを発信したユーザと同じユーザにより発信されたデータであってもよいし、前記追加データは、前記予測データを発信したユーザとは異なるユーザのデータであって、当該予測データが発信されたエリアと同じエリアから発信されたデータであってもよい。
前記再識別手段は、前記異なるユーザのデータを前記追加データとして使用する場合において、当該異なるユーザのデータの分類傾向に基づいて、前記識別関数を変更した関数を適用して分類を行うこととしてもよい。
前記再識別手段は、前記出力値の絶対値が前記所定の閾値を超えない場合に、所定の時間又は所定の回数の範囲内で、前記追加データを使用した前記予測データの分類を複数回、繰り返し行うこととしてもよい。
前記追加データは、例えば、通信サービスに係る装置のログデータであり、前記再識別手段は、前記データ分類装置における再識別用データ格納部の中に優先度の高いログデータが存在するか否かを判定することにより、前記分類を行うこととしてもよい。
前記追加データは、前記予測データが発信された時刻から、所定時間内に出力されたデータであることとしてもよい。
本実施の形態によれば、学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行う際に、識別境界付近に存在する分類の曖昧なデータについて、追加データを用いて再識別を行うので、明確に分類を行うことが可能となる。
以上、本実施の形態について詳述したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 文書分類装置
101 学習データ格納部
102 予測データ格納部
103 再識別用データ格納部
104 データ入力部
105 形態素解析部
106 特徴ベクトル化部
107 識別関数生成部
108 識別関数格納部
109 識別部
110 再識別部
111 出力部

Claims (10)

  1. 学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置であって、
    前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定手段と、
    前記判定手段により、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別手段と
    を備えることを特徴とするデータ分類装置。
  2. 前記再識別手段は、前記追加データを前記予測データに加えて得られた追加済予測データに前記識別関数を適用することにより、前記予測データの分類を行う
    ことを特徴とする請求項1に記載のデータ分類装置。
  3. 前記追加データは、前記予測データを発信したユーザと同じユーザにより発信されたデータである
    ことを特徴とする請求項2に記載のデータ分類装置。
  4. 前記追加データは、前記予測データを発信したユーザとは異なるユーザのデータであって、当該予測データが発信されたエリアと同じエリアから発信されたデータである
    ことを特徴とする請求項2に記載のデータ分類装置。
  5. 前記再識別手段は、前記異なるユーザのデータを前記追加データとして使用する場合において、当該異なるユーザのデータの分類傾向に基づいて、前記識別関数を変更した関数を適用して分類を行う
    ことを特徴とする請求項4に記載のデータ分類装置。
  6. 前記再識別手段は、前記出力値の絶対値が前記所定の閾値を超えない場合に、所定の時間又は所定の回数の範囲内で、前記追加データを使用した前記予測データの分類を複数回、繰り返し行う
    ことを特徴とする請求項1ないし5のうちいずれか1項に記載のデータ分類装置。
  7. 前記追加データは、通信サービスに係る装置のログデータであり、前記再識別手段は、前記データ分類装置における再識別用データ格納部の中に優先度の高いログデータが存在するか否かを判定することにより、前記分類を行う
    ことを特徴とする請求項1ないし6のうちいずれか1項に記載のデータ分類装置。
  8. 前記追加データは、前記予測データが発信された時刻から、所定時間内に出力されたデータである
    ことを特徴とする請求項1ないし7のうちいずれか1項に記載のデータ分類装置。
  9. 学習データから教師あり機械学習に基づき生成された識別関数を用いて予測データの分類を行うデータ分類装置が実行するデータ分類方法であって、
    前記予測データに対する前記識別関数の出力値の絶対値が所定の閾値を超えるか否かを判定する判定ステップと、
    前記判定ステップにおいて、前記出力値の絶対値が前記所定の閾値を超えないと判定された場合に、追加データを使用して前記予測データの分類を行う再識別ステップと
    を備えることを特徴とするデータ分類方法。
  10. コンピュータを、請求項1ないし8のうちいずれか1項に記載のデータ分類装置における各手段として機能させるためのプログラム。
JP2016036438A 2016-02-26 2016-02-26 データ分類装置、データ分類方法、及びプログラム Active JP6563350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016036438A JP6563350B2 (ja) 2016-02-26 2016-02-26 データ分類装置、データ分類方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016036438A JP6563350B2 (ja) 2016-02-26 2016-02-26 データ分類装置、データ分類方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017151933A true JP2017151933A (ja) 2017-08-31
JP6563350B2 JP6563350B2 (ja) 2019-08-21

Family

ID=59740813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016036438A Active JP6563350B2 (ja) 2016-02-26 2016-02-26 データ分類装置、データ分類方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6563350B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875765A (zh) * 2017-11-14 2018-11-23 北京旷视科技有限公司 扩充数据集的方法、装置、设备及计算机存储介质
JP2019046386A (ja) * 2017-09-06 2019-03-22 日本電信電話株式会社 故障検知モデル構築装置、故障検知モデル構築方法及びプログラム
JP2019093429A (ja) * 2017-11-24 2019-06-20 ファナック株式会社 レーザ加工中に保護ウインドの汚れを警告するレーザ加工装置
JP7000181B2 (ja) 2018-02-05 2022-01-19 株式会社日立ソリューションズ・クリエイト 言語処理方法及び言語処理システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2015095212A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2015095212A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046386A (ja) * 2017-09-06 2019-03-22 日本電信電話株式会社 故障検知モデル構築装置、故障検知モデル構築方法及びプログラム
CN108875765A (zh) * 2017-11-14 2018-11-23 北京旷视科技有限公司 扩充数据集的方法、装置、设备及计算机存储介质
JP2019093429A (ja) * 2017-11-24 2019-06-20 ファナック株式会社 レーザ加工中に保護ウインドの汚れを警告するレーザ加工装置
US10761037B2 (en) 2017-11-24 2020-09-01 Fanuc Corporation Laser processing device for determining the presence of contamination on a protective window
JP7000181B2 (ja) 2018-02-05 2022-01-19 株式会社日立ソリューションズ・クリエイト 言語処理方法及び言語処理システム

Also Published As

Publication number Publication date
JP6563350B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
US10891322B2 (en) Automatic conversation creator for news
US11514063B2 (en) Method and apparatus of recommending information based on fused relationship network, and device and medium
WO2018200135A1 (en) Intent-based organisation of apis
US9286379B2 (en) Document quality measurement
US11010687B2 (en) Detecting abusive language using character N-gram features
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
JP6224857B1 (ja) 分類装置、分類方法および分類プログラム
US20220027572A1 (en) Systems and methods for generating a summary of a multi-speaker conversation
US20210157983A1 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
EP4060517A1 (en) System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
JP6553180B2 (ja) 言語検出を行うためのシステムおよび方法
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6936014B2 (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
US20230214679A1 (en) Extracting and classifying entities from digital content items
JP2018170008A (ja) エンティティの属性をマッピングする方法及びシステム
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
Xiao Towards a two-phase unsupervised system for cybersecurity concepts extraction
WO2023245869A1 (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Dasondi et al. An implementation of graph based text classification technique for social media
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
KR20210009885A (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
JP2016162163A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190724

R150 Certificate of patent or registration of utility model

Ref document number: 6563350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250