JP6790745B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6790745B2
JP6790745B2 JP2016219999A JP2016219999A JP6790745B2 JP 6790745 B2 JP6790745 B2 JP 6790745B2 JP 2016219999 A JP2016219999 A JP 2016219999A JP 2016219999 A JP2016219999 A JP 2016219999A JP 6790745 B2 JP6790745 B2 JP 6790745B2
Authority
JP
Japan
Prior art keywords
frequency
section
frequency distribution
data
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016219999A
Other languages
English (en)
Other versions
JP2018077735A (ja
Inventor
一穂 前田
一穂 前田
雅人 阪田
雅人 阪田
明大 猪又
明大 猪又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016219999A priority Critical patent/JP6790745B2/ja
Publication of JP2018077735A publication Critical patent/JP2018077735A/ja
Application granted granted Critical
Publication of JP6790745B2 publication Critical patent/JP6790745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

本発明は、異常検出技術に関する。
センサ等で取得されたデータを収集して分析し、異常な事象が発生した場合にアラートを通知する技術が存在する。例えば或る文献は、正常なデータである参照データを使用して、異常なデータの判定を行う技術を開示する。
但し、過去に取得したデータを使用して異常か否かの判定を行う技術においては、過去に取得したデータのサンプル数が少ない場合に誤検出が起こりやすいという問題がある。上記の文献は、このような問題には着目していない。
国際公開第2010/041447号
本発明の目的は、1つの側面では、異常検出の精度を高めるための技術を提供することである。
本発明に係る情報処理装置は、データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出する第1算出部と、特定の範囲について第1算出部により算出された頻度のうち少なくとも一部の頻度の総和を、属性の値の総数で除することで、特定の範囲内の値が発生する確率を算出する第2算出部とを有する。
1つの側面では、異常検出の精度を高めることができるようになる。
図1は、事象の発生確率に基づき異常検出を行う技術について説明するための図である。 図2は、本実施の形態の概要を説明するための図である。 図3は、本実施の形態の概要を説明するための図である。 図4は、本実施の形態の概要を説明するための図である。 図5は、第1の実施の形態のシステム構成図である。 図6は、計算装置の機能ブロック図である。 図7は、データ取得装置の機能ブロック図である。 図8は、計算装置が実行する処理の処理フローを示す図である。 図9は、データ格納部に格納されるデータの一例を示す図である。 図10は、第1パラメータ格納部に格納されるデータの一例を示す図である。 図11は、第2パラメータ格納部に格納されるデータの一例を示す図である。 図12は、閾値格納部に格納されるデータの一例を示す図である。 図13は、区間集合データ格納部に格納されるデータの一例を示す図である。 図14は、ヒストグラムデータ格納部に格納されるデータの一例を示す図である。 図15は、計算装置が実行する処理の処理フローを示す図である。 図16は、総和算出処理の処理フローを示す図である。 図17は、第1頻度データ格納部に格納されるデータの一例を示す図である。 図18は、第2頻度データ格納部に格納されるデータの一例を示す図である。 図19は、確率データ格納部に格納されるデータの一例を示す図である。 図20は、本実施の形態を具体的に説明するための図である。 図21は、本実施の形態を具体的に説明するための図である。 図22は、第2の実施の形態のシステム構成図である。 図23は、第3の実施の形態のシステム構成図である。 図24は、コンピュータの機能ブロック図である。
[実施の形態1]
図1を用いて、事象の発生確率に基づき異常検出を行う技術について説明する。例えば、或る特徴量xについて異常検出を行うことを考える。図1(a)は、特徴量xについてのヒストグラムを示す図であり、縦軸は頻度を表し、横軸は特徴量を表す。異常が発生したか否かは、ある特徴量xの最新の値が、過去の特徴量xの頻度分布から外れているか否かに基づき判定される。具体的には、図1(a)に示すように特徴量xの値αが発生した場合、x≧αとなる確率p(x≧α)が頻度分布に基づき算出され、予め定められた閾値より確率p(x≧α)が小さい場合、特徴量xについて異常が発生したと判定される。
しかし、特徴量xのサンプル数が少ない場合、確率p(x≧α)が本来の値より小さくなりやすく、異常の誤検出が起こりやすい。図1(b)は、特徴量xのサンプル数が少ない場合のヒストグラムを示す図であり、縦軸は頻度を表し、横軸は特徴量を表し、破線は真の確率分布を表す。図1(b)のようなヒストグラムの場合、人による判断であればαは異常な値ではないという結論になるが、実際に算出される確率p(x≧α)は小さくなりやすいので、異常であると判定される可能性がある。
頻度の分布から真の確率分布を推定し、その確率分布に基づき確率を計算することも考えられるが、この場合には、確率計算結果の不安定性が発生する。より具体的に言うと、一般的な問題は簡単な単峰性の問題ではなく多峰性の複雑な形状の分布を仮定する必要がある問題であることがあるので、その場合に真の確率分布を推定すると、推定した確率分布がサンプルの追加に伴って急激に変化することがある。例えば、多峰性の確立分布で峰の推定数が変化した場合などがそれに該当する。このように、サンプル数が十分になるまでは、異常の誤検出を回避しながら安定的に確率を計算することが困難である。
そこで、本実施の形態においては、ヒストグラムの各区間を、その区間の頻度が多くなるほどピークが鋭くなる頻度分布曲線(以下、仮想頻度分布と呼ぶ)に変換し、複数の仮想頻度分布を重ね合わせた分布に対して確率を計算する。例えば図2(a)に示すように、区間r1の頻度が1である場合、区間r1における仮想頻度分布g1の高さは区間r1の頻度の半分以下である。一方、図2(b)に示すように、区間r3の頻度が4である場合、区間r3における仮想頻度分布g3の高さは区間r3の頻度の半分以上である。このように、区間の頻度が多くなるほど仮想頻度分布のピークが鋭くなる。
さらにサンプルが取得され、図3(a)に示すように、区間r1の頻度が1であり、区間r2の頻度が1であり且つ区間r3の頻度が4であるとする。この場合、仮想頻度分布g1、仮想頻度分布g2及び仮想頻度分布g3を重ね合わせることで、図3(b)に示すような仮想頻度分布g4が生成される。
但し、仮想頻度分布g4の特定の範囲について頻度を求めるのではなく、図4(a)に示すように、各区間の仮想頻度分布g1乃至g3の特定の範囲について頻度を求め、求めた頻度を合計すればよい。図4(a)においては、特徴量xの最新の値が0.5であり、x≦0.5の範囲において、仮想頻度分布g1については頻度が0.2であり、仮想頻度分布g2については頻度が0.05であり、仮想頻度分布g3については頻度が0.0である。従って、図4(b)に示すように、仮想頻度分布のx≦0.5の範囲に対応する頻度は0.2+0.05+0.0=0.25である。従って、特徴量xについてx≦0.5が満たされる確率は、算出した頻度をサンプル総数で除することで0.04(≒0.25/6)と算出される。この確率が閾値より小さい場合、特徴量xについて異常が発生したとしてアラートが通知される。
以下では、本実施の形態をより詳細に説明する。
図5に、第1の実施の形態のシステム構成図を示す。第1の実施の形態の主要な処理を実行する計算装置1は、LAN(Local Area Network)等のネットワークを介してデータ取得装置5に接続される。データ取得装置5は、例えばPOS(Point Of Sales system)の装置であり、取得したデータ(例えば、販売に関係するデータ)を計算装置1に送信する。計算装置1は、取得したデータに基づき異常を検出する処理を実行する。計算装置1は、例えばモニタである表示装置3に、異常が発生したことを示すデータを表示させることができる。なお、データ取得装置5は物理センサ或いは物理センサを含むデバイス等であってもよく、その場合には気象データ等が取得される。
図6に、計算装置1の機能ブロック図を示す。計算装置1は、データ格納部101と、第1パラメータ格納部103と、第2パラメータ格納部105と、閾値格納部107と、区間集合データ格納部109と、ヒストグラムデータ格納部110と、第1頻度データ格納部111と、第2頻度データ格納部113と、確率データ格納部115と、データ処理部116と、第1計算部117と、第2計算部119と、出力部121とを含む。
データ処理部116は、データ取得装置5により取得されたデータを受信し、データ格納部101に格納する。また、データ処理部116は、区間集合を決定するためのパラメータの入力を受け付け、第1パラメータ格納部103に格納する。また、データ処理部116は、仮想頻度を計算するためのパラメータの入力を受け付け、第2パラメータ格納部105に格納する。また、データ処理部116は、異常検出のための閾値の入力を受け付け、閾値格納部107に格納する。また、データ処理部116は、第1パラメータ格納部103に格納されているパラメータに基づき区間集合のデータを生成し、生成した区間集合のデータを区間集合データ格納部109に格納する。また、データ処理部116は、データ格納部101に格納されているデータに基づきヒストグラムデータを生成し、生成したヒストグラムデータをヒストグラムデータ格納部110に格納する。第1計算部117は、第2パラメータ格納部105に格納されているデータ、区間集合データ格納部109に格納されているデータ及びヒストグラムデータ格納部110に格納されているデータに基づき処理を実行し、処理結果を第1頻度データ格納部111に格納する。また、第1計算部117は、第1頻度データ格納部111に格納に格納されているデータに基づき処理を実行し、処理結果を第2頻度データ格納部113に格納する。第2計算部119は、第2頻度データ格納部113に格納されているデータ及びヒストグラムデータ格納部110に格納されているデータに基づき処理を実行し、処理結果を確率データ格納部115に格納する。出力部121は、閾値格納部107に格納されているデータ及び確率データ格納部115に格納されているデータに基づき処理を実行し、処理結果に応じて、異常が検出されたことを示すデータを表示装置3に表示させる。
図7に、データ取得装置5の機能ブロック図を示す。データ取得装置5は、データ取得部501を含む。データ取得部501は、データ(例えば、販売に関係するデータ)を取得し、計算装置1に送信する。
次に、図8乃至図21を用いて、計算装置1が実行する処理を説明する。計算装置1が処理を開始するにあたって、データ格納部101には、図9に示すようなデータが格納されているとする。図9の例では、日付の情報と、来店者数のデータとが格納される。データ格納部101に格納されるデータは、例えば定期的に、データ取得装置5から計算装置1に送信される。
まず、データ処理部116は、区間集合を決定するためのパラメータ(q,N)の入力を管理者等から受け付ける(図8:ステップS1)。そして、データ処理部116は、パラメータ(q,N)を第1パラメータ格納部103に格納する。qは区間長を表すパラメータであり、Nは区間の数を表すパラメータである。なお、ステップS1においてはパラメータ(q,N)の入力を受け付けているが、管理者等の端末から受信するようにしてもよい。
図10に、第1パラメータ格納部103に格納されるデータの一例を示す。図10の例では、qの値と、Nの値とが格納される。
データ処理部116は、仮想頻度を計算するためのパラメータ(d,c)の入力を管理者等から受け付ける(ステップS3)。そして、データ処理部116は、パラメータ(d,c)を第2パラメータ格納部105に格納する。dは頻度の拡散のしやすさを表す0以上1未満のパラメータである。例えば0.5である。cは仮想分布の広がりの左右の違いを表す0以上1以下のパラメータである。左右の広がりが同じである場合にはc=0.5であり、左の広がりが大きいほどcの値が大きくなる。なお、ステップS3においてはパラメータ(d,c)の入力を受け付けているが、管理者等の端末から受信するようにしてもよい。
図11に、第2パラメータ格納部105に格納されるデータの一例を示す。図11の例では、dの値と、cの値とが格納される。
データ処理部116は、異常検出のための閾値βの入力を管理者等から受け付ける(ステップS5)。そして、データ処理部116は、閾値βを閾値格納部107に格納する。なお、ステップS5においては閾値βの入力を受け付けているが、管理者等の端末から受信するようにしてもよい。
図12に、閾値格納部107に格納されるデータの一例を示す。図12の例では、閾値βの値が格納される。
データ処理部116は、第1パラメータ格納部103に格納されているデータに基づき区間集合のデータを生成する(ステップS7)。そして、データ処理部116は、生成した区間集合のデータを区間集合データ格納部109に格納する。
本実施の形態においては、例えば以下のような区間集合が設定される。
Figure 0006790745
図13に、区間集合データ格納部109に格納されているデータの一例を示す。図13の例では、区間名と、区間の始点及び終点を示す情報とが格納される。
データ処理部116は、データ格納部101に格納されているデータ及び区間集合データ格納部109に格納されているデータに基づき、各区間の頻度を含むヒストグラムデータを生成する(ステップS11)。そして、データ処理部116は、生成したヒストグラムデータをヒストグラムデータ格納部110に格納する。処理は端子Aを介して図15のステップS13に移行する。
図14に、ヒストグラムデータ格納部110に格納されるデータの一例を示す。図14の例では、区間名と、頻度とが格納される。
図15の説明に移行し、データ処理部116は、特徴量xについて最新の値αをデータ取得装置5から受信する(図15:ステップS13)。
第1計算部117は、第2パラメータ格納部105に格納されているパラメータ、区間集合データ格納部109に格納されている区間集合のデータ及びヒストグラムデータ格納部110に格納されているヒストグラムデータに基づき、確率計算の対象範囲(例えば(−∞,α])に対応する仮想頻度Fについて、総和算出処理を実行する(ステップS15)。総和算出処理については、図16乃至図18を用いて説明する。
まず、第1計算部117は、区間集合に含まれる区間のうち未処理の区間を1つ特定する(図16:ステップS31)。但し、予め定められた条件を満たす区間(例えば、仮想頻度Fが所定値以下であることが予めわかっている区間)については、処理の対象外としてもよい。これにより、仮想頻度Fの計算が行われる区間の数を減らすことができるので、処理を高速化できるようになる。
第1計算部117は、ステップS31において特定した区間の頻度が1以上である場合、確率計算の対象範囲に対応する仮想頻度Fを算出する(ステップS33)。第1計算部117は、算出した仮想頻度Fを区間名に対応付けて第1頻度データ格納部111に格納する。
図17に、第1頻度データ格納部111に格納されるデータの一例を示す。図17の例では、区間名と、仮想頻度Fとが格納される。
ここで、仮想頻度Fの算出について説明する。本実施の形態においては、元の頻度分布の或る区間の仮想頻度分布として、べき分布が使用される。べき分布は正規分布に比べて裾がなだらかであり、且つべき分布を使用すると数式が簡素化され仮想頻度分布の特定の範囲に対応する頻度を計算することが容易になる。但し、べき分布に限定されるわけではなく、べき分布以外の分布であってもよい。
そして、特徴量xの「y以上z未満の区間」の頻度がnである場合、その区間に対応する仮想頻度分布は以下のように表される。なお、以下では区間長(z−y)をqと記載する。
Figure 0006790745
ここで、b(n)は分布の高さを表すパラメータである。a1及びa2は裾のなだらかさを決めるパラメータであり、値が小さいほど裾がなだらかになる。
仮想頻度分布は、もともと頻度がnである区間を左右に拡散させたものに相当するので、以下の式が成立する。
Figure 0006790745
さらに、nが大きくなるにしたがってb(n)/nが大きくなるようにするため、b(n)を以下のように定義する。
Figure 0006790745
但し、b(n)はこのような形に限られるわけではない。
従って、確率計算の対象範囲(ここでは、(−∞,α]とする)に対応する仮想頻度分布Fを、以下のように計算することができる。
Figure 0006790745
図16の説明に戻り、第1計算部117は、未処理の区間が有るか判定する(ステップS35)。未処理の区間が有る場合(ステップS35:Yesルート)、処理はステップS31に戻る。
一方、未処理の区間が無い場合(ステップS35:Noルート)、第1計算部117は、ステップS33において算出した仮想頻度Fの総和を算出する(ステップS37)。そして、第1計算部117は、算出した総和を第2頻度データ格納部113に格納する。そして呼び出し元の処理に戻る。
図18に、第2頻度データ格納部113に格納されるデータの一例を示す。図18の例では、ステップS37において算出された総和が格納される。
図15の説明に戻り、第2計算部119は、ステップS15において計算された仮想頻度Fの総和をサンプル数の総和(すなわち、ヒストグラムデータが示す頻度の総和)で除することで確率pを算出する(ステップS17)。第2計算部119は、算出した確率pを確率データ格納部115に格納する。
図19に、確率データ格納部115に格納されるデータの一例を示す。図19の例では、ステップS17において算出された確率が格納される。
出力部121は、閾値格納部107から閾値βを読み出し、確率データ格納部115から確率pを読み出す。そして、出力部121は、確率pが閾値βより小さいか判定する(ステップS19)。
確率pが閾値βより小さくない場合(ステップS19:Noルート)、処理はステップS23に移行する。一方、確率pが閾値βより小さい場合(ステップS19:Yesルート)、出力部121は、アラートを表示装置3に出力する(ステップS21)。そして、表示装置3はアラートを表示し、管理者は異常が発生したことを認識できるようになる。なお、ステップS21においては表示装置3にアラートを出力するが、管理者の端末にアラートを送信してもよい。
データ処理部116は、ヒストグラムデータ格納部110に格納されているヒストグラムデータを、ステップS13において受信した最新の値αに基づき更新する(ステップS23)。
データ処理部116は、ステップS13において受信した最新の値αをデータ格納部101に追加する(ステップS25)。
データ処理部116は、終了指示(例えば、計算装置1の停止指示)があったか判定する(ステップS27)。終了指示が無い場合(ステップS27:Noルート)、処理はステップS13に戻る。一方、終了指示があった場合(ステップS27:Yesルート)、処理は終了する。
図20及び図21を用いて、本実施の形態をより具体的に説明する。
例として、或る店舗への1日の来店者数の発生確率が閾値βより小さい場合にアラートを出力することを考える。閾値βは0.07であるとする。さらに、q=10、d=0.8、c=0.5、N=8とする。
1つめのケースとして、前日までの来店者数から生成された頻度分布表が図20(a)のとおりであるとする。そして、本日の来店者数として「15」をデータ取得装置5から受信したとする。この値が異常であるか否かを以下で検討する。
頻度が正である区間X3については、「y=20,z=30,n=1,α=15」として、b(1)=0.2、a1(10,1)=e0.5、F(20,30,1,15)=b(1)*a1(10,1)-5/10/log a1(10,1)=0.312と計算される。
頻度が正である区間X4については、「y=30,z=40,n=1,α=15」として、b(1)=0.2、a1(10,1)=e0.5、F(30,40,1,15)=b(1)*a1(10,1)-15/10/log a1(10,1)=0.189と計算される。
頻度が正である区間X6については、「y=50,z=60,n=4,α=15」として、b(4)=2.67、a1(10,4)=e4.04、F(50,60,4,15)=b(4)*a1(10,4)-35/10/log a1(10,4)=0.000と計算される。
確率計算の対象範囲に対応する仮想頻度Fの総和は、F(20,30,1,15)+F(30,40,1,15)+F(50,60,4,15)=0.312+0.189+0.000=0.501である。従って、確率は0.501/6=0.083である。この確率は閾値βより大きいので、アラートは出力されない。そして、最新の値「15」について、頻度分布表のデータを更新すると、図20(b)に示すようになる。
2つめのケースとして、前日までの来店者数から生成された頻度分布表が図21(a)のとおりであるとする。そして、本日の来店者数として「5」をデータ取得装置5から受信したとする。この値が異常であるか否かを以下で検討する。
頻度が正である区間X3については、「y=20,z=30,n=1,α=5」として、b(1)=0.2、a1(10,1)=e0.5、F(20,30,1,5)=b(1)*a1(10,1)-15/10/log a1(10,1)=0.189と計算される。
頻度が正である区間X4については、「y=30,z=40,n=1,α=5」として、b(1)=0.2、a1(10,1)=e0.5、F(30,40,1,5)=b(1)*a1(10,1)-25/10/log a1(10,1)=0.115と計算される。
頻度が正である区間X6については、「y=50,z=60,n=4,α=5」として、b(4)=2.67、a1(10,4)=e4.04、F(50,60,4,5)=b(4)*a1(10,4)-45/10/log a1(10,4)=0.000と計算される。
確率計算の対象範囲に対応する仮想頻度Fの総和は、F(20,30,1,5)+F(30,40,1,5)+F(50,60,4,5)=0.189+0.115+0.000=0.304である。従って、確率は0.304/6=0.0507である。この確率は閾値βより大きいので、アラートが出力される。そして、最新の値「5」について、頻度分布表のデータを更新すると、図21(b)に示すようになる。
以上のような処理を実行すれば、サンプル数が少ない場合において誤検出が起こることを抑制できるようになる。これは、仮想頻度分布のピークの高さが抑えられ裾が広いことによる。
また、サンプルが追加されたとしても、頻度分布のある区間の仮想頻度分布が変更されるだけであるので、確率計算の結果が急激に変化することはない。また、サンプルが増えるにつれ、各区間の頻度が大きくなるので、各区間の仮想頻度分布が重ねられた仮想頻度分布の形状がヒストグラムの形状に近づき、本実施の形態による確率計算の結果はヒストグラムに基づく確率計算の結果(すなわち、真の確率分布)に近づく。以上から、サンプルが追加されたとしても、安定的に確率計算をすることができるようになる。
[実施の形態2]
第1の実施の形態では、計算装置1での計算結果に基づくアラートが、計算装置1に接続された表示装置3に接続されるが、このようなシステム構成には限られない。例えば図22に示すように、スマートデバイス或いはウエアラブルデバイス等であるデバイス7がデータ取得部701及び表示部702(例えば、タッチパネル)を有してもよい。このようなシステム構成においては、データ取得部701によって取得されたデータを用いて計算装置1により計算が行われ、計算結果に基づくアラートがデバイス7に送信される。そして、デバイス7の表示部702がアラートを表示することで、デバイス7のユーザが異常の発生を認識できるようになる。
[実施の形態3]
第2の実施の形態では、デバイス7がデータ取得部701及び表示部702を有するが、このようなシステム構成には限られない。例えば図23に示すように、データ取得装置5がデータ取得部501を有し、例えばパーソナルコンピュータである端末9が表示部901を有してもよい。このようなシステム構成においては、データ取得部501によって取得されたデータを用いて計算装置1により計算が行われ、計算結果に基づくアラートが端末9に送信される。そして、端末9の表示部901がアラートを表示することで、端末9のユーザが異常の発生を認識できるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した計算装置1、データ取得装置5、デバイス7及び端末9の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
また、頻度分布の各区間の長さは同じでなくてもよい。
また、区間集合に含まれる区間は、ヒストグラムデータの更新時に分割或いは統合されてもよい。
また、特徴量xの値は正の整数や小数であってもよい。また、区間の頻度が負にならない限り、負であってもよい。
また、ヒストグラムデータの更新時に忘却のための処理を行う(例えば、各区間の頻度に同一の数を乗ずる)ことで、古い期間に取得された特徴量xより新しい期間に取得された特徴量xがより反映されるようにしてもよい。
また、dを頻度分布の区間毎に決定してもよい。また、dを区間長に応じて決定してもよい。
また、確率計算の対象範囲は、上記のような範囲には限られない。例えば、(x,∞]といった範囲や(x−10,x+10]といった範囲であってもよい。
また、各区間について仮想頻度Fを計算する際、例えば或る区間の仮想頻度Fがサンプル総数に比べて十分に小さいことが分かっている場合には、その区間の仮想頻度Fを0で代用してもよい。このようにすれば、結果に及ぼす影響を抑えつつ計算時間を短縮することができるようになる。
なお、上で述べた計算装置1は、コンピュータ装置であって、図24に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置3に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係る情報処理装置は、(A)データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線(例えば、実施の形態の仮想頻度分布)の特定の範囲に対応する頻度を算出する第1算出部と、(B)特定の範囲について第1算出部により算出された頻度のうち少なくとも一部の頻度の総和を、属性の値の総数で除することで、特定の範囲内の値が発生する確率を算出する第2算出部とを有する。
このような構成であれば、例えばサンプル数が少ない場合においても、各区間についての頻度分布曲線が合成された曲線が真の頻度分布からかけ離れた形状になりにくい。これにより、上記のように発生確率を算出すれば、異常検出の精度を高めることができるようになる。
また、第1算出部は、(a1)頻度分布の区間毎に、当該区間の頻度を表すパラメータと、当該区間の長さを指定するためのパラメータと、特定の範囲を指名するためのパラメータとに基づき、所定の計算方法に従って頻度分布曲線の特定の範囲に対応する頻度を算出してもよい。頻度分布曲線の特定の範囲に対応する頻度を頻度分布の区間毎に算出できるようになる。
また、所定の計算方法での計算において、頻度分布の各区間についての頻度分布曲線の当該区間に対応する頻度は、属性の値の総数が多くなるほど頻度分布の当該区間の頻度に近付き、属性の値の総数が少なくなるほど頻度分布の当該区間の頻度と比較して小さくなるように算出されてもよい。サンプル数がまだ少ない状況においては、或る区間に属する値が発生したとしても、別の区間に属する値が今後たくさん発生する確率があるので、その区間において頻度分布曲線の高さを高くしすぎず曲線をなだらかな形状にすることが好ましい。一方で、サンプル数が多い状況においては、実際の頻度がそのまま真の頻度分布に相当すると考えても問題が無い。そこで、上で述べたようにすれば、適切に頻度が算出されるようになる。
また、第1算出部は、(a2)頻度分布の区間のうち予め指定された区間の各々について、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出してもよい。頻度分布の区間のうち一部の区間について計算を省略できるので、計算を高速化できるようになる。
また、本情報処理装置は、(C)第2算出部により算出された確率と所定の閾値の比較とに基づき、警告を出力するか決定する決定部をさらに有してもよい。異常が検出されたことをユーザ等が認識できるようになる。
また、頻度分布の各区間についての頻度分布曲線は、べき分布の曲線であってもよい。正規分布の曲線等を利用する場合と比較して、頻度分布曲線をなだらかにすることができるようになるので、サンプル数が少ないときに誤検出をすることを抑制できるようになる。
また、頻度分布の各区間についての頻度分布曲線の全範囲に対応する頻度は、当該区間の頻度に等しくてもよい。
また、頻度分布の各区間についての頻度分布曲線の形状が、当該頻度分布曲線のピークに対応する特徴量より大きな特徴量に対応する部分と当該頻度分布曲線のピークに対応する特徴より小さな特徴量に対応する部分とで異なってもよい。
本実施の形態の第2の態様に係る情報処理方法は、(D)データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出し、(E)特定の範囲について算出された頻度のうち少なくとも一部の頻度の総和を、属性の値の総数で除することで、特定の範囲内の値が発生する確率を算出する処理を含む。
なお、上記方法による処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出する第1算出部と、
前記特定の範囲について前記第1算出部により算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する第2算出部と、
を有する情報処理装置。
(付記2)
前記第1算出部は、
前記頻度分布の区間毎に、当該区間の頻度を表すパラメータと、当該区間の長さを指定するためのパラメータと、前記特定の範囲を指名するためのパラメータとに基づき、所定の計算方法に従って前記頻度分布曲線の前記特定の範囲に対応する頻度を算出する、
付記1記載の情報処理装置。
(付記3)
前記所定の計算方法での計算において、前記頻度分布の各区間についての前記頻度分布曲線の当該区間に対応する頻度は、前記属性の値の総数が多くなるほど前記頻度分布の当該区間の頻度に近付き、前記属性の値の総数が少なくなるほど前記頻度分布の当該区間の頻度と比較して小さくなるように算出される、
付記2記載の情報処理装置。
(付記4)
前記第1算出部は、
前記頻度分布の区間のうち予め指定された区間の各々について、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出する、
付記1記載の情報処理装置。
(付記5)
前記第2算出部により算出された確率と所定の閾値の比較とに基づき、警告を出力するか決定する決定部
をさらに有する付記1乃至4のいずれか1つ記載の情報処理装置。
(付記6)
前記頻度分布の各区間についての前記頻度分布曲線は、べき分布の曲線である、
付記1乃至5のいずれか1つ記載の情報処理装置。
(付記7)
前記頻度分布の各区間についての頻度分布曲線の全範囲に対応する頻度は、当該区間の頻度に等しい、
付記1乃至6のいずれか1つ記載の情報処理装置。
(付記8)
前記頻度分布の各区間についての頻度分布曲線の形状が、当該頻度分布曲線のピークに対応する特徴量より大きな特徴量に対応する部分と当該頻度分布曲線のピークに対応する特徴より小さな特徴量に対応する部分とで異なる、
付記1乃至7のいずれか1つ記載の情報処理装置。
(付記9)
コンピュータが、
データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出し、
前記特定の範囲について算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する、
処理を実行する情報処理方法。
(付記10)
コンピュータに、
データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出し、
前記特定の範囲について算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する、
処理を実行させるプログラム。
1 計算装置 3 表示装置
5 データ取得装置 7 デバイス
9 端末
101 データ格納部 103 第1パラメータ格納部
105 第2パラメータ格納部 107 閾値格納部
109 区間集合データ格納部 110 ヒストグラムデータ格納部
111 第1頻度データ格納部 113 第2頻度データ格納部
115 確率データ格納部 116 データ処理部
117 第1計算部 119 第2計算部
121 出力部 501 データ取得部
701 データ取得部 702 表示部
901 表示部

Claims (7)

  1. データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出する第1算出部と、
    前記特定の範囲について前記第1算出部により算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する第2算出部と、
    を有する情報処理装置。
  2. 前記第1算出部は、
    前記頻度分布の区間毎に、当該区間の頻度を表すパラメータと、当該区間の長さを指定するためのパラメータと、前記特定の範囲を指名するためのパラメータとに基づき、所定の計算方法に従って前記頻度分布曲線の前記特定の範囲に対応する頻度を算出する、
    請求項1記載の情報処理装置。
  3. 前記所定の計算方法での計算において、前記頻度分布の各区間についての前記頻度分布曲線の当該区間に対応する頻度は、前記属性の値の総数が多くなるほど前記頻度分布の当該区間の頻度に近付き、前記属性の値の総数が少なくなるほど前記頻度分布の当該区間の頻度と比較して小さくなるように算出される、
    請求項2記載の情報処理装置。
  4. 前記第1算出部は、
    前記頻度分布の区間のうち予め指定された区間の各々について、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出する、
    請求項1記載の情報処理装置。
  5. 前記第2算出部により算出された確率と所定の閾値の比較とに基づき、警告を出力するか決定する決定部
    をさらに有する請求項1乃至4のいずれか1つ記載の情報処理装置。
  6. コンピュータが、
    データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出し、
    前記特定の範囲について算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する、
    処理を実行する情報処理方法。
  7. コンピュータに、
    データ格納部に格納されている、属性の値についての頻度分布のデータに基づき、前記頻度分布の区間毎に、当該区間の頻度に基づき生成された頻度分布曲線の特定の範囲に対応する頻度を算出し、
    前記特定の範囲について算出された頻度のうち少なくとも一部の頻度の総和を、前記属性の値の総数で除することで、前記特定の範囲内の値が発生する確率を算出する、
    処理を実行させるプログラム。
JP2016219999A 2016-11-10 2016-11-10 情報処理装置、情報処理方法及びプログラム Active JP6790745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016219999A JP6790745B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016219999A JP6790745B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018077735A JP2018077735A (ja) 2018-05-17
JP6790745B2 true JP6790745B2 (ja) 2020-11-25

Family

ID=62149369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016219999A Active JP6790745B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6790745B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09233336A (ja) * 1996-02-20 1997-09-05 Fuji Xerox Co Ltd 画像処理装置
JP2007018530A (ja) * 2006-09-11 2007-01-25 Nec Corp 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置
JP4780035B2 (ja) * 2007-05-21 2011-09-28 株式会社デンソー 車両用空調装置
JP2013025537A (ja) * 2011-07-20 2013-02-04 Hitachi Ltd 位置監視システム、位置監視方法、および位置監視プログラム
JP6154542B2 (ja) * 2014-03-26 2017-06-28 株式会社日立製作所 時系列データ管理方法及び時系列データ管理システム
EP3574832B1 (en) * 2015-02-04 2021-01-06 Hitachi, Ltd. Mental state measurement system

Also Published As

Publication number Publication date
JP2018077735A (ja) 2018-05-17

Similar Documents

Publication Publication Date Title
JP6330922B2 (ja) 情報処理装置および情報処理方法
JP6571914B2 (ja) 情報の複数のドメインを組合せることによる仕事の実施データ内の異常の検知
JP4882469B2 (ja) 気象予測プログラム、気象予測装置および気象予測方法
CN110880984A (zh) 基于模型的流量异常监测方法、装置、设备及存储介质
WO2011139393A1 (en) Dynamic adaptive process discovery and compliance
JP2014206870A (ja) プラントモデル管理装置及び方法
JP6052278B2 (ja) 動作判定装置、動作判定システムおよび動作判定方法
CN113268403B (zh) 时间序列的分析预测方法、装置、设备及存储介质
Zhou et al. The risk management using limit theory of statistics on extremes on the big data era
JP6790745B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111247517A (zh) 一种图像处理方法、装置及系统
CN113033346A (zh) 文本检测方法、装置和电子设备
JP2017027296A (ja) 性能評価方法、性能評価プログラム及び情報処理装置
JP2007316950A (ja) 画像処理方法及び装置及びプログラム
US11328024B2 (en) Data analysis device and data analysis method
CN107229621B (zh) 差异数据的清洗方法及装置
JP6163926B2 (ja) 仮想マシン管理装置、仮想マシン管理方法、及びプログラム
JP2009032024A (ja) 順序決定プログラム、順序決定方法および順序決定装置
JP7478069B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2011052147A1 (ja) 評価モデル分析システム、評価モデル分析方法およびプログラム
JP6055428B2 (ja) ソフトウェア品質基準計算装置及びソフトウェア品質基準計算方法
CN111461438B (zh) 一种信号检测方法、装置、电子设备和存储介质
WO2022244174A1 (ja) 帯域推定装置、帯域推定方法およびプログラム
JP5215343B2 (ja) 予測値算出装置
JP2017157109A (ja) 推定装置、推定方法および推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6790745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150