JP7125514B2

JP7125514B2 - 異常ユーザーの識別方法、電子機器及び機械可読記憶媒体

Info

Publication number: JP7125514B2
Application number: JP2020563918A
Authority: JP
Inventors: 顧成傑
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2018-05-14
Filing date: 2019-05-09
Publication date: 2022-08-24
Anticipated expiration: 2039-05-09
Also published as: US11671434B2; WO2019218927A1; EP3771168A1; EP3771168B1; CN109861953A; EP3771168A4; US20210240822A1; CN109861953B; JP2021524091A

Description

本願は、２０１８年５月１４日に中国特許庁に提出した出願番号が２０１８１０４５７９９４．８であり、発明名称が「異常ユーザーの識別方法及び装置」である中国特許出願に基づき優先権を主張し、その全部の内容が援用により本願に組み込まれる。
本発明は、異常ユーザーの識別方法、電子機器及び機械可読記憶媒体に関する。

ネットワークシステムにおけるハードウェア、ソフトウェア及びデータがより良好に保護されることを確保し、ネットワークシステムを継続で確実に動作させるために、イントラネット（ｉｎｔｒａｎｅｔ）とエクストラネット（ｅｘｔｒａｎｅｔ）とを接続するエッジルータ（ｅｄｇｅｒｏｕｔｅｒ）にセキュリティ機器を設置することが一般的である。ネットワークシステムのセキュリティを確保するように、セキュリティ機器によりイントラネットから送信されたパケットまたはエクストラネットから受信されたパケットを選別し、フィルタリングする。

現在、ユーザーの行動が予測不可能であるため、異常ユーザーを検出することは複雑になってしまう。例えば、異なる時間帯や異なる位置のユーザーに対して、異なる操作の検出が実行される。あるシナリオでは、あるユーザーは、電子メールの送受信や、不正なウェブページの訪問や、不正なビデオのダウンロードなどを頻繁に行う。

上記ユーザーを検出する際に、電子メールを頻繁に送受信するユーザーだけでなく、不正なウェブページを頻繁に訪問するユーザーや不正なビデオを頻繁にダウンロードするユーザーなどを検出する必要がある。

図１は本願の実施例に係る異常ユーザーの識別方法のフローチャートである。図２は本願の実施例に係る異常ユーザーの識別方法の他のフローチャートである。図３は本願の実施例に係る特徴体系の模式図である。図４は本願の実施例に係るユーザークラスの分布図である。図５は本願の実施例に係る正規分布曲線の模式図である。図６は本願の実施例に係る累積確率曲線の模式図である。図７は本願の実施例に係る異常ユーザーの識別方法のもうひとつのフローチャートである。図８は本願の実施例に係る異常ユーザーの識別装置の構成模式図である。図９は本願の実施例に係る電子機器の構成模式図である。

以下、本願の実施例の図面を参照して、本願の実施例の技術案を明確かつ完全に説明する。勿論、説明される実施例は、本願の一部の実施例だけであり、すべての実施例ではない。当業者が本願の実施例に基づいて創造的労働を必要とせずに得られる全ての他の実施例は、何れも本願の請求の範囲に入る。

現在、ブラックリストを設定することで、イントラネットにおける異常ユーザーに対する識別を実現できる。具体的に、管理者は、制限が必要なユーザー名をブラックリストに入れる。しかし、上記のブラックリストを設定することにより、管理者に知られている異常ユーザーのみを識別することができるが、上記のブラックリストを設定することにより、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することができない。

上記の問題に鑑みて、本願の実施例は、異常ユーザーの識別方法を提供する。当該異常ユーザーの識別方法は、サーバや、コンピュータや、携帯電話や、セキュリティ機器などの電子機器に適用できる。説明の便宜上、以下、実行本体が電子機器である場合を例として説明する。

具体的に、図１を参照すると、図１は、本願の実施例に係る異常ユーザーの識別方法のフローチャートである。本願の実施例に係る異常ユーザーの識別方法は、以下のステップを含む。

ステップ１０１において、電子機器は、ユーザーのユーザー行動データを取得する。

本願の実施例において、電子機器は、複数のユーザーのユーザー行動データを取得してもよいし、１つのユーザーの複数のユーザー行動データを取得してもよい。電子機器が１つのユーザーの複数のユーザー行動データを取得すると、当該複数のユーザー行動データは、少なくとも１つの過去のユーザー行動データと１つの現在のユーザー行動データとを含む。

本願の実施例において、異常ユーザーを検出する必要がある場合、電子機器は、ユーザーのユーザー行動データを取得する。

電子機器は、ユーザー行動ログからユーザーのユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データからユーザーのユーザー行動データを取得してもよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は限定されない。

一つの実施例において、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定する。電子機器は、予め設定された時間粒度におけるユーザーのユーザー行動データを取得する。

ステップ１０２において、電子機器は、予め設定された複数の行動ディメンションにおいて、ユーザー行動データの複数の特徴値を抽出する。

具体的に、電子機器が複数の行動ディメンションにおいてユーザー行動データの特徴値を抽出することを容易にするために、行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得る。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数の行動ディメンションで特徴値を迅速に抽出することができる。

図３に示す行動ディメンションのように、ビジネスレイヤ特徴ディメンションは、インスタントメッセージング（Instant Messaging、ＩＭと略称する）、ウェブ閲覧、コミュニティフォーラム、トラフィック、ファイル転送および電子メールなどを含んでもよい。行動レイヤ特徴ディメンションは、情報の送信、情報の受信、ファイルの送信、ファイル転送プロトコル（File Transfer Protocol、ＦＴＰと略称する）トラフィック、セキュアソケットレイヤ上のハイパーテキスト・トランスファー・プロトコル（Hyper Text Transfer Protocol over secure socket Layer、ＨＴＴＰＳと略称する）トラフィックおよび電子メールの受信などを含んでもよい。

電子機器は、上記の２つのレイヤの特徴ディメンションに含まれるものを任意に組み合わせることで、複数の行動ディメンションを得る。一例において、図３に示すように、電子機器が取得した行動ディメンションは、ＩＭによって送信されるメッセージ数や、ＩＭによって受信されるメッセージ数や、ＩＭによって送信されるファイル数や、ＩＭによって送信されるファイルのサイズなどを含むが、これらに限定されない。

さらに、複数の行動ディメンションで、電子機器は、複数の特徴値を抽出した。

ステップ１０３において、電子機器は、複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。

１つのユーザー行動データを例として説明する。電子機器は、当該１つのユーザー行動データに対応する複数の特徴値を組み合わせ、当該１つのユーザー行動データに対応する特徴ベクトルを得る。

ステップ１０４において、予め設定されたクラスタリングアルゴリズム（clustering algorithm）により、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラス（aggregation class）の中心ベクトルを得る。

本願の実施例において、予め設定されたクラスタリングアルゴリズムは、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムやＫ－ｍｅａｎｓＰｌｕｓクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得る。各集約クラスに、少なくとも１つの特徴ベクトルを含む。

１つの集約クラスを例として説明する。電子機器は、当該１つの集約クラスに含まれる複数の特徴ベクトルの平均値を算出し、当該平均値を当該１つの集約クラスの中心ベクトルとする。

ステップ１０５において、電子機器は、差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの距離値は予め設定された距離値の範囲内に存在しない。

本願の実施例において、予め設定された距離値の範囲は、予め電子機器に記憶されている。

具体的に、差分特徴ベクトルと、差分特徴ベクトルが属する集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないとは、集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さいこと、または、集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きいことを指す。

上記の集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さい場合、または、上記の集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きい場合、電子機器は、特徴ベクトルを差分特徴ベクトルとして特定することが理解できる。

各集約クラスについて、１つの集約クラスを例として説明する。電子機器は、当該１つの集約クラスに含まれる各特徴ベクトルと当該１つの集約クラスの中心ベクトルとの間の距離値を算出する。電子機器は、複数の距離値を得た後、当該複数の距離値をソートする。電子機器は、予め設定された距離値の範囲内に存在しない距離値を取得し、取得した距離値によって対応付けられる特徴ベクトルを差分特徴ベクトルとする。

ステップ１０６において、電子機器は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。

例えば、電子機器は、予め設定された複数の行動ディメンションにおいてユーザーＱ_１のユーザー行動データＰ_１の複数の特徴値を抽出し、抽出した複数の特徴値に基づいて、ユーザー行動データＰ_１に対応する特徴ベクトル１１１を特定する。電子機器は、特徴ベクトル１１１が差分特徴ベクトルであることを特定すると、ユーザーＱ_１を異常ユーザーとして特定する。

本願の実施例に係る異常ユーザーの識別方法において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。

一実施形態において、電子機器が取得したユーザー行動データは、複数のユーザーのユーザー行動データである。本願の実施例は、異常ユーザーの識別方法を提供する。図２を参照すると、図２は、本願の実施例に係る異常ユーザーの識別方法の他のフローチャートである。当該方法は、以下のステップを含む。

ステップ２０１において、電子機器は、複数のユーザーのユーザー行動データを取得する。

本願の実施例において、異常ユーザーを検出する必要がある場合、電子機器は、複数のユーザーのユーザー行動データを取得する。

電子機器は、ユーザー行動ログから複数のユーザーのユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データから複数のユーザーのユーザー行動データを取得してもよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は限定されない。

本願の実施例において、電子機器は、予め設定された時間粒度により、異なるユーザーのユーザー行動データを取得してもよい。このうち、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定してもよい。

例えば、長期的な実施および企画による高度で持続的な脅威（Advanced Persistent Threat、ＡＰＴと略称する）があるユーザーを識別する際に、電子機器は、比較的に大きい時間粒度を予め設定してもよい。例えば、電子機器によって予め設定された時間粒度は、１週間や、１ヶ月間などであってもよい。

また、例えば、退職前に不意に攻撃行動を行うユーザーを識別する際に、電子機器は、比較的に小さい時間粒度を予め設定してもよい。例えば、電子機器によって予め設定された時間粒度は、１０分間や、１時間や、２４時間などであってもよい。

電子機器は、予め設定した時間粒度において、複数のユーザーのユーザー行動データを取得する。

一例において、仮に、現在時刻は１０：００であり、電子機器によって予め設定された時間粒度は１０分間であり、識別対象のユーザーはＡと、Ｂと、Ｃを含む。１０：００－１０：１０が示す時間帯に、電子機器は、ユーザーＡのユーザー行動データ１１と、ユーザーＢのユーザー行動データ１２と、ユーザーＣのユーザー行動データ１３を取得してもよい。電子機器は、９：５０－１０：００が示す時間帯に、ユーザーＡのユーザー行動データ２１と、ユーザーＢのユーザー行動データ２２と、ユーザーＣのユーザー行動データ２３を取得してもよい。

ステップ２０２において、電子機器は、予め設定された複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出する。

具体的に、電子機器が複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データのユーザー特徴値を抽出することを容易にするために、ユーザー行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得ることができる。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数のユーザー行動ディメンションでユーザーの特徴値を迅速に抽出することができる。

図３に示すユーザー行動ディメンションのように、ビジネスレイヤ特徴ディメンションは、ＩＭ、ウェブ閲覧、コミュニティフォーラム、トラフィック、ファイル転送および電子メールなどを含んでもよい。行動レイヤ特徴ディメンションは、情報の送信、情報の受信、ファイルの送信、ＦＴＰトラフィック、ＨＴＴＰＳトラフィックおよび電子メールの受信などを含んでもよい。

電子機器は、上記の２つのレイヤの特徴ディメンションに含まれるものを任意に組み合わせることで、複数のユーザー行動ディメンションを得る。一例において、図３に示すように、電子機器が取得したユーザー行動ディメンションは、ＩＭによって送信されるメッセージ数や、ＩＭによって受信されるメッセージ数や、ＩＭによって送信されるファイル数や、ＩＭによって送信されるファイルサイズなどを含むが、これに限定されない。

さらに、複数のユーザー行動ディメンションで、電子機器は、複数のユーザーにおける各ユーザーの複数のユーザー特徴値を抽出した。

ステップ２０３において、電子機器は、複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定する。

複数のユーザーにおける各ユーザーについて、１つのユーザーを例として説明する。電子機器は、当該１つのユーザーの複数のユーザー特徴値を組み合わせ、当該１つのユーザーのユーザー特徴ベクトルを得る。

具体的に、上記のステップの例示に従い、電子機器は、ユーザーＡのユーザー行動データ１１と、ユーザーＢのユーザー行動データ１２と、ユーザーＣのユーザー行動データ１３を取得する。

電子機器は、ユーザー行動データ１１から、ＩＭによって送信されるメッセージ数が１０であり、ＩＭによって受信されるメッセージ数が８であり、ＩＭによって送信されるファイル数が２であり、ＩＭによって送信されるファイルサイズが５００ＫＢであることを抽出した。

電子機器はユーザー行動データ１２から、ＩＭによって送信されるメッセージ数が９であり、ＩＭによって受信されるメッセージ数が８であり、ＩＭによって送信されるファイル数が３であり、ＩＭによって送信されるファイルサイズが４９０ＫＢであることを抽出した。

電子機器はユーザー行動データ１３から、ＩＭによって送信されるメッセージ数が１０であり、ＩＭによって受信されるメッセージ数が７であり、ＩＭによって送信されるファイル数が１であり、ＩＭによって送信されるファイルのサイズが６００ＫＢであることを抽出した。

このとき、電子機器は、各ユーザーのユーザー特徴ベクトルを特定できる。つまり、ユーザーＡのユーザー特徴ベクトル０１が｛１０、８、２、５００｝であり、ユーザーＢのユーザー特徴ベクトル０２が｛９、８、３、４９０｝であり、ユーザーＣのユーザー特徴ベクトル０３が｛１０、７、１、６００｝である。

ステップ２０４において、電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。

本願の実施例において、予め設定されたクラスタリングアルゴリズムは、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムやＫ－ｍｅａｎｓＰｌｕｓクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。各ユーザークラスに、少なくとも１つのユーザー特徴ベクトルを含む。

一例において、予め設定されたクラスタリングアルゴリズムは、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムである。電子機器は、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、Ｋ個の初期ユーザークラスを得る。ただし、Ｋは正の整数である。電子機器は、これらのＫ個の初期ユーザークラスをＫ個のユーザークラスとする。

ステップ２０５において、電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する。

各ユーザークラスについて、１つのユーザークラスを例として説明する。電子機器は、当該１つのユーザークラスに含まれる複数のユーザー特徴ベクトルの平均値を算出して、当該平均値を当該１つのユーザークラスの中心ベクトルとする。

上記のステップの例示に従い、電子機器は、ユーザー特徴ベクトルをクラスタリングした後、複数のユーザークラスを得る。仮に、複数のユーザークラスはユーザークラス１を含み、ユーザークラス１は、ユーザーＡのユーザー特徴ベクトル０１と、ユーザーＢのユーザー特徴ベクトル０２と、ユーザーＣのユーザー特徴ベクトル０３とを含むとする。

電子機器は、ユーザー特徴ベクトル０１と、ユーザー特徴ベクトル０２と、ユーザー特徴ベクトル０３との平均値ｔ_１を算出して、平均値ｔ_１をユーザークラス１の中心ベクトルとして特定する。

ステップ２０６において、電子機器は、複数のユーザークラスにおける各ユーザークラスの差分特徴ベクトルを取得する。

本願の実施例において、差分特徴ベクトルは、ユーザークラスにおけるユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないユーザー特徴ベクトルである。すなわち、差分特徴ベクトルと属するユーザークラスの中心ベクトルとの間の距離値は予め設定された距離値の範囲内に存在しない。予め設定された距離値の範囲は、予め電子機器に記憶されている。

具体的に、ユーザークラスにおけるユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないとは、ユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さいこと、または、ユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きいことを指す。

上記のユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さい場合、または、上記のユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きい場合、電子機器は、ユーザー特徴ベクトルを差分特徴ベクトルとして特定することが理解できる。

各ユーザークラスについて、１つのユーザークラスを例として説明する。電子機器は、当該１つのユーザークラスに含まれる各ユーザー特徴ベクトルと当該１つのユーザークラスの中心ベクトルとの間の距離値を算出する。電子機器は、複数の距離値を得た後、当該複数の距離値をソートする。電子機器は、予め設定された距離値の範囲内に存在しない距離値を取得し、取得したユーザー距離値によって対応付けられるユーザー特徴ベクトルを差分特徴ベクトルとする。

上記のステップの例示に従い、仮に、予め設定された距離値の範囲は、ｄ_１～ｄ_２であるとする。ユーザークラス１は、ユーザーＡのユーザー特徴ベクトル０１と、ユーザーＢのユーザー特徴ベクトル０２と、ユーザーＣのユーザー特徴ベクトル０３とを含み、ユーザークラス１の中心ベクトルはｔ_１である。ユーザー特徴ベクトル０１と中心ベクトルｔ_１との間の距離はｄ_０１であり、ユーザー特徴ベクトル０２と中心ベクトルｔ_１との間の距離はｄ_０２であり、ユーザー特徴ベクトル０３と中心ベクトルｔ_１との間の距離はｄ_０３である。ｄ_０１＜ｄ_１、ｄ_１＜ｄ_０２＜ｄ_２、ｄ_１＜ｄ_０３＜ｄ_２であると、電子機器は、ｄ_０１によって対応付けられるユーザー特徴ベクトル０１を差分特徴ベクトルとして特定する。

異なるユーザークラスにおいて、ユーザー特徴ベクトルの分布が異なる。本願の実施例において、電子機器が差分特徴ベクトルを取得する正確性を高めるために、電子機器に、各ユーザークラスの予め設定された距離値範囲をそれぞれ記憶してもよい。

ステップ２０７において、電子機器は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。

具体的に、上記のステップの例示に従い、電子機器は、ユーザー特徴ベクトル０１を差分特徴ベクトルとして特定すると、ユーザー特徴ベクトル０１によって対応付けられるユーザーを異常ユーザーとして特定し、すなわち、ユーザーＡを異常ユーザーとして特定する。

したがって、本願の実施例に係る技術案において、電子機器は、ユーザー特徴ベクトルをクラスタリングすることで、ユーザークラスにおける差分特徴ベクトルを得る。電子機器は、差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。本願の実施例に係る異常ユーザーの識別方法は、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。

また、一実施形態において、ユーザークラスに含まれるユーザー特徴ベクトルの個数が少なすぎることによるクラスタリング効果が理想的でなく異常ユーザーの識別が不正確であることを回避するために、電子機器に、ユーザークラスに含まれるユーザー特徴ベクトルの個数を制限するための予め設定された数量閾値が記憶されている。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る（ステップ２０４）。以下のステップを含んでもよい。

電子機器は、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、Ｋ個の初期ユーザークラスを得る。

電子機器は、Ｋ個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在するか否かを検出する。含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在すると、電子機器は、これらのＫ個の初期ユーザークラスをＫ個のユーザークラスとする。

含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在すると、電子機器は、Ｋ個の初期ユーザークラスにおける第１初期ユーザークラスおよび第２初期ユーザークラスを取得する。

本願の実施例において、第１初期ユーザークラスは、Ｋ個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスである。第２初期ユーザークラスは、Ｋ個の初期ユーザークラスにおいて、第１初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである。

その後、電子機器は、第１初期ユーザークラスと第２初期ユーザークラスとを合併して、合併初期ユーザークラスを得る。

電子機器は、合併初期ユーザークラスをクラスタリングされたユーザークラスとし、Ｋ個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをクラスタリングされたユーザークラスとする。さらに、電子機器は、複数のユーザークラスを得る。

例えば、予め設定された数量閾値は１０である。電子機器は、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、５個の初期ユーザークラス、例えば、初期ユーザークラス１、初期ユーザークラス２、初期ユーザークラス３、初期ユーザークラス４および初期ユーザークラス５を得る。初期ユーザークラス１は、８個のユーザー特徴ベクトルを含み、初期ユーザークラス２は、１２個のユーザー特徴ベクトルを含み、初期ユーザークラス３は、１１個のユーザー特徴ベクトルを含み、初期ユーザークラス４は、１５個のユーザー特徴ベクトルを含み、初期ユーザークラス５は、１７個のユーザー特徴ベクトルを含む。

これでわかるように、８＜１０であり、すなわち、初期ユーザークラス１に含まれるユーザー特徴ベクトルの個数が数量閾値より小さく、初期ユーザークラス１は、第１初期ユーザークラスである。

電子機器は、初期ユーザークラス２の中心ベクトルと初期ユーザークラス１の中心ベクトルとの間の距離値がｄ_１１であることを算出した。電子機器は、初期ユーザークラス３の中心ベクトルと初期ユーザークラス１の中心ベクトルとの間の距離値がｄ_１２であることを算出した。電子機器は、初期ユーザークラス４の中心ベクトルと初期ユーザークラス１の中心ベクトルとの間の距離値がｄ_１３であることを算出した。電子機器は、初期ユーザークラス５の中心ベクトルと初期ユーザークラス１の中心ベクトルとの間の距離値がｄ_１４であることを算出した。

ｄ_１１＜ｄ_１２＜ｄ_１３＜ｄ_１４であり、ｄ_１１が最小の距離値であり、かつ、ｄ_１１が初期ユーザークラス２に対応する場合、電子機器は、初期ユーザークラス２が第２初期ユーザークラスであることを特定できる。電子機器は、初期ユーザークラス１と初期ユーザークラス２とを合併して、合併初期ユーザークラス１を得る。

電子機器は、合併初期ユーザークラス１をクラスタリングされたユーザークラス０１とし、合併されていない初期ユーザークラス３をクラスタリングされたユーザークラス０３とし、初期ユーザークラス４をクラスタリングされたユーザークラス０４とし、初期ユーザークラス５をクラスタリングされたユーザークラス０５とする。このように、電子機器は、４個のユーザークラスを得る。

一実施形態において、良いクラスタリング効果を得るために、電子機器は、複数のユーザークラスを得た後、ユーザー特徴ベクトルの集約値を算出することで、得られた複数のユーザークラスを合併する。そのうち、集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すためのものである。

一例において、電子機器は、以下のステップを用いて集約値を取得してもよい。

電子機器は、第１ユーザー特徴ベクトルと各第２ユーザー特徴ベクトルとの間の第１距離値を算出する。そのうち、第２ユーザー特徴ベクトルは、第１ユーザー特徴ベクトルが属するユーザークラスに含まれる第１ユーザー特徴ベクトル以外のユーザー特徴ベクトルである。電子機器は、複数の第１距離値に対して平均値を取り、第１距離平均値を得る。

電子機器は、第１ユーザー特徴ベクトルと各第３ユーザー特徴ベクトルのそれぞれとの間の第２距離値を算出する。そのうち、第３ユーザー特徴ベクトルは、第１ユーザー特徴ベクトルが属するユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルである。電子機器は、同一のユーザークラスに属する複数の第２距離値に対して平均値を取り、複数の第２距離平均値を得る。電子機器は、複数の第２距離平均値における距離平均値の最小値を取得する。

その後、電子機器は、第１距離平均値と距離平均値の最小値との比を算出して、第１距離平均値と距離平均値の最小値との比を第１ユーザー特徴ベクトルの集約値とする。

以上、第１ユーザー特徴ベクトルを例として説明したが、これに限定されない。

例えば、図４に示すユーザークラスの分布図のように、図４における黒丸点は、それぞれ１つのユーザー特徴ベクトルを示す。図４に、ユーザークラス１１と、ユーザークラス１２と、ユーザークラス１３を含む。ユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１１を例として、集約値を算出する際に、電子機器は、Ｌ_１１とユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１２との間の第１距離値ｄ_２１を算出し、Ｌ_１１とユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１３との間の第１距離値ｄ_２２を算出し、Ｌ_１１とユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１４の間の第１距離値ｄ_２３を算出する。電子機器は、ｄ_２１と、ｄ_２２と、ｄ_２３との平均値を算出して、第１距離平均値Ｄ_１を得る。

電子機器は、Ｌ_１１とユーザークラス１２に含まれるユーザー特徴ベクトルＬ_２１との間の第２距離値ｄ_２４を算出し、Ｌ_１１とユーザークラス１２に含まれるユーザー特徴ベクトルＬ_２２との間の第２距離値ｄ_２５を算出し、Ｌ_１１とユーザークラス１２に含まれるユーザー特徴ベクトルＬ_２３との間の第２距離値ｄ_２６を算出する。電子機器は、ｄ_２４と、ｄ_２５と、ｄ_２６との平均値を算出して、第２距離平均値Ｄ_２を得る。

電子機器は、Ｌ_１１とユーザークラス１３に含まれるユーザー特徴ベクトルＬ_３１との間の第２距離値ｄ_２７を算出し、Ｌ_１１とユーザークラス１３に含まれるユーザー特徴ベクトルＬ_３２との間の第２距離値ｄ_２８を算出し、Ｌ_１１とユーザークラス１３に含まれるユーザー特徴ベクトルＬ_３３との間の第２距離値ｄ_２９を算出する。電子機器は、ｄ_２７と、ｄ_２７と、ｄ_２９との平均値を算出して、第３距離平均値Ｄ_３を得る。

Ｄ_２＜Ｄ_３であると、電子機器は、Ｄ_１とＤ_２の比、すなわちＤ_１／Ｄ_２を算出して、Ｄ_１／Ｄ_２をユーザー特徴ベクトルＬ_１１の集約値Ｊ_１１とする。

同様に、電子機器は、ユーザークラス１１に含まれる他のユーザー特徴ベクトルの集約値、及び、ユーザークラス１２とユーザークラス１３に含まれるユーザー特徴ベクトルの集約値を算出することができる。ここで、その説明を省略する。

また、電子機器が上記の特定した集約値に基づいて、得られた複数のユーザークラスを合併する処理手順は、以下のステップを含んでもよい。

電子機器は、複数のユーザークラスにおける任意２つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。

電子機器は、得られた複数の距離値から、最小の距離値を取得し、最小の距離値によって対応付けられる第１ユーザークラスおよび第２ユーザークラスを特定する。

電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第１集約値を取得する。ここで、電子機器は、複数の第１集約値を取得する。

なお、電子機器が第１ユーザークラスおよび第２ユーザークラスを合併ユーザークラスとする場合、つまり、電子機器が第１ユーザークラスおよび第２ユーザークラスを１つのユーザークラスとする場合、電子機器は、合併ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得する。ここで、電子機器は、複数の第２集約値を取得する。

電子機器は、複数の第１集約値を加算して、第１総和値を得る。電子機器は、複数の第２集約値を加算して、第２総和値を得る。ここで、複数のユーザークラスに含まれる全てのユーザー特徴ベクトルの集約値の総和値は、クラスタリング効果を評価するためのものである。

第２総和値が第１総和値より小さい場合、電子機器は、第１ユーザークラスと第２ユーザークラスとを合併した後のクラスタリング効果がより良いであることを特定し、第１ユーザークラスと第２ユーザークラスとを合併する。

その後、電子機器は、複数のユーザークラスにおける任意２つのユーザークラスの中心ベクトル同士間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる２つのユーザークラスを特定し、第２総和値が第１総和値以上になるまで、この２つのユーザークラスを合併する。

また、図４を例として説明する。電子機器は、ユーザークラス１１の中心ベクトルとユーザークラス１２の中心ベクトルとの間の距離値ｚ_１、ユーザークラス１１の中心ベクトルとユーザークラス１３の中心ベクトルとの間の距離値ｚ_２、及びユーザークラス１２の中心ベクトルとユーザークラス１３の中心ベクトルとの間の距離値ｚ_３を算出する。ｚ_１＜ｚ_２＜ｚ_３であり、ｚ_１が最小である場合、ｚ_１によって対応付けられるユーザークラス１１を第１ユーザークラスとして特定し、ｚ_１によって対応付けられるユーザークラス１２を第２ユーザークラスとして特定する。

ユーザークラス１１に対して、電子機器は、ユーザー特徴ベクトルＬ_１１の集約値Ｊ_１１と、ユーザー特徴ベクトルＬ_１２の集約値Ｊ_１２と、ユーザー特徴ベクトルＬ_１３の集約値Ｊ_１３と、ユーザー特徴ベクトルＬ_１４の集約値Ｊ_１４とを算出する。ユーザークラス１２に対して、電子機器は、ユーザー特徴ベクトルＬ_２１の集約値Ｊ_２１と、ユーザー特徴ベクトルＬ_２２の集約値Ｊ_２２と、ユーザー特徴ベクトルＬ_２３の集約値Ｊ_２３とを算出する。ユーザークラス１３に対して、電子機器は、ユーザー特徴ベクトルＬ_３１の集約値Ｊ_３１と、ユーザー特徴ベクトルＬ_３２の集約値Ｊ_３２と、ユーザー特徴ベクトルＬ_３３の集約値Ｊ_３３とを算出する。

なお、電子機器は、ユーザークラス１１とユーザークラス１２とを合併ユーザークラス０１とする。合併ユーザークラス０１に対して、電子機器は、ユーザー特徴ベクトルＬ_１１の集約値Ｊ_０１と、ユーザー特徴ベクトルＬ_１２の集約値Ｊ_０２と、ユーザー特徴ベクトルＬ_１３の集約値Ｊ_０３と、ユーザー特徴ベクトルＬ_１4の集約値Ｊ_０４と、ユーザー特徴ベクトルＬ_２１の集約値Ｊ_０５と、ユーザー特徴ベクトルＬ_２２の集約値Ｊ_０６と、ユーザー特徴ベクトルＬ_２３の集約値Ｊ_０７とを算出する。ユーザークラス１３に対して、電子機器は、ユーザー特徴ベクトルＬ_３１の集約値Ｊ_０８と、ユーザー特徴ベクトルＬ_３２の集約値Ｊ_０９と、ユーザー特徴ベクトルＬ_３３の集約値Ｊ_１０とを算出する。

電子機器は、第１総和値Ｍ_１としてＭ_１＝Ｊ_１１+Ｊ_１２+Ｊ_１３+Ｊ_１４+Ｊ_２１+Ｊ_２２+Ｊ_２３+Ｊ_３１+Ｊ_３２+Ｊ_３３を算出した。

電子機器は、第２総和値Ｍ_２としてＭ_２＝Ｊ_０１+Ｊ_０２+Ｊ_０３+Ｊ_０４+Ｊ_０５+Ｊ_０６+Ｊ_０７+Ｊ_０８+Ｊ_０９+Ｊ_１０を算出した。

Ｍ_２＜Ｍ_１である場合、電子機器は、ユーザークラス１１とユーザークラス１２とを合併して、合併ユーザークラス０１を得る。そうでない場合、電子機器は、ユーザークラス１１とユーザークラス１２とを合併しない。

一例において、良いクラスタリング効果を得るために、電子機器は、以下のステップを用いて集約値を取得してもよい。

上記電子機器が第一距離平均値を特定し、複数の第２距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、距離平均値の最小値と第１距離平均値との比を算出した後、当該比から１を減算した結果、第１ユーザー特徴ベクトルの集約値を得る。

また、図４におけるユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１１を例として説明する。電子機器は、Ｄ_１とＤ_２とＤ_３を算出し、ここで、Ｄ_２＜Ｄ_３である。電子機器は、Ｄ_２とＤ_１との比、すなわち、Ｄ_２／Ｄ_１を算出した。その後、電子機器は、（Ｄ_２／Ｄ_１－１）をユーザー特徴ベクトルＬ_１１の集約値Ｊ_１１とする。

上記電子機器が第一距離平均値を特定し、複数の第２距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、第１距離平均値と距離平均値の最小値との比を算出した後、１から当該比を減算した結果、第１ユーザー特徴ベクトルの集約値を得る。

また、図４におけるユーザークラス１１に含まれるユーザー特徴ベクトルＬ_１１を例として説明する。電子機器は、Ｄ_１とＤ_２とＤ_３を算出し、ここで、Ｄ_２＜Ｄ_３である。電子機器は、Ｄ_１とＤ_２との比、すなわち、Ｄ_１／Ｄ_２を算出した。その後、電子機器は、（１－Ｄ_１／Ｄ_２）をユーザー特徴ベクトルＬ_１１の集約値Ｊ_１１とする。

また、電子機器が、１から比を減算することによって得られた集約値、またはこの比から１を減算することによって得られた集約値に基づいて、得られた複数のユーザークラスを合併する手順は、以下のステップを含んでもよい。

電子機器は、得られた複数の距離値から最小の距離値を取得し、最小の距離値によって対応付けられる第１ユーザークラスおよび第２ユーザークラスを特定する。

電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第１集約値を取得する。ここで、電子機器は、複数の第１集約値を取得してもよい。

なお、電子機器が第１ユーザークラスおよび第２ユーザークラスを合併ユーザークラスとする場合、つまり、電子機器が第１ユーザークラスおよび第２ユーザークラスを１つのユーザークラスとする場合、電子機器は、合併ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得する。ここで、電子機器は、複数の第２集約値を取得してもよい。

電子機器は、複数の第１集約値を加算して、第１総和値を得る。電子機器は、複数の第２集約値を加算して、第２総和値を得る。

第２総和値が第１総和値より大きい場合、電子機器は、第１ユーザークラスと第２ユーザークラスとを合併した後のクラスタリング効果がより良いであることを特定し、第１ユーザークラスと第２ユーザークラスとを合併する。

その後、電子機器は、複数のユーザークラスにおける任意２つのユーザークラスの中心ベクトル同士間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる２つのユーザークラスを特定し、第２総和値が第１総和値以下になるまでこの２つのユーザークラスを合併する。

また、一実施形態において、クラスタリング処理の速度を高めるために、電子機器は、複数のユーザーにおける各ユーザーのユーザー属性に従って、まず、複数のユーザーに対して大まかな分類を実行して、各ユーザーが属する大まかなクラスを得る。各大まかなクラスについて、１つの大まかなクラスを例とする。電子機器は、予め設定されたクラスタリングアルゴリズムにより、当該１つの大まかなクラスに含まれる複数のユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。

例えば、ユーザー属性は、役職属性を含む。役職属性は、会計係や、出納係や、人事や、カスタマサービスや、開発設計などを含む。ユーザーの役職属性に応じて、ユーザーに対して大まかな分類を行う。例えば、会計係、出納係などの財務部に属するユーザーを１つの大まかなクラスに区分し、人事などの人事部に属するユーザーを１つの大まかなクラスに区分し、カスタマサービスなどの総務部に属するユーザーを１つの大まかなクラスに区分し、開発設計などの設計部に属するユーザーを１つの大まかなクラスに区分する。

クラスタリングする際に、電子機器は、予め設定されたクラスタリングアルゴリズムにより、設計部と、財務部と、総務部と、人事部という４つの大まかなクラスのそれぞれに含まれる複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。

また、電子機器が差分特徴ベクトルを取得する正確性を高めるために、電子機器に、各ユーザークラスの距離値の範囲を予め記憶している。距離値の範囲は、ユーザークラスに含まれるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの間の距離値を制限するためのものである。

一実施形態において、電子機器は、以下のステップを用いて、距離値の範囲を特定してもよい。

電子機器は、ユーザークラスＸの中心ベクトルとユーザークラスＸに含まれる各ユーザー特徴ベクトルとの距離値を算出して、複数の距離値を得る。ユーザークラスＸは、いずれかの１つのユーザークラスである。

電子機器は、第３距離平均値として、複数の距離値の距離平均値を算出する。電子機器は、第１標準偏差として、複数の距離値の標準偏差をさらに算出する。電子機器は、第３距離平均値および第１標準偏差に基づいて、正規分布曲線を作成する。当該正規分布曲線は、ユーザークラスＸの中心ベクトルとユーザークラスＸに含まれるユーザー特徴ベクトルとの間の距離値の分布を表すためのものである。

正規分布曲線に基づいて、電子機器は、第３距離平均値と第１標準偏差によって、第１境界値および第２境界値を特定する。そのうち、第１境界値は、第３距離平均値より小さく、第１境界値と第３距離平均値との差の絶対値は、予め設定された倍数の第１標準偏差である。第２境界値は、第３距離平均値より大きく、第２境界値と第３距離平均値との差の絶対値は、同様に、予め設定された倍数の第１標準偏差である。

電子機器は、第１境界値と第２境界値とからなる区間をユーザークラスＸの距離値の範囲として特定する。

一例において、予め設定された倍数は３である。このとき、電子機器は、図５に示すように、３倍標準偏差に基づいて、ユーザークラスＸの距離値の範囲を特定する。図５において、μ_１は第３距離平均値であり、ｓは第１標準偏差であり、距離値の範囲はμ_１－３ｓ～μ_１+３ｓである。

正規分布曲線において、第３距離平均値μ_１との距離が３倍標準偏差を超えるデータは、発生し得ないイベントを表す低確率イベントに属する。ユーザークラスＸに含まれるユーザー特徴ベクトルについて、ユーザー特徴ベクトルとユーザークラスＸの中心ベクトルとの距離値が距離値の範囲内に存在しない場合、電子機器は、このユーザー特徴ベクトルを差分特徴ベクトルとして確認しできる。

しかし、実際の応用では、ユーザークラスの中心ベクトルとユーザークラスに含まれるユーザー特徴ベクトルとの距離値の分布は、全て正規分布曲線に従うことではない。他の実施形態において、電子機器は、以下の方法を用いて、距離値の範囲を特定してもよい。

電子機器は、ユーザークラスＸの中心ベクトルとユーザークラスＸに含まれる各ユーザー特徴ベクトルとの距離値を算出して、複数の距離値を得る。

電子機器は、予め設定された対数関数に基づいて、複数の距離値における各距離値の対数値を算出する。電子機器は、対数平均値として、複数の対数値の平均値をさらに算出する。電子機器は、第２標準偏差として、複数の対数値の標準偏差をさらに算出する。電子機器は、対数平均値と第２標準偏差に基づいて、正規分布曲線を作成する。当該正規分布曲線は、ユーザークラスＸの中心ベクトルとユーザークラスＸに含まれるユーザー特徴ベクトルとの間の距離値の対数分布を表すためのものである。

正規分布曲線に基づいて、電子機器は、対数平均値および第２標準偏差によって、第３境界値および第４境界値を特定する。そのうち、第３境界値は、対数平均値より小さく、第３境界値と対数平均値の差の絶対値は、予め設定された倍数の第２標準偏差である。第４境界値は、対数平均値より大きく、第２境界値と対数平均値との差の絶対値は、同様に、予め設定された倍数の第２標準偏差である。

電子機器は、予め設定された対数関数の逆関数に基づいて、第３境界値の逆対数値を第１逆対数値として算出し、第４境界値の逆対数値を第２逆対数値として算出する。例えば、予め設定された対数関数がｙ＝ｌｏｇ_１０ｘである場合、予め設定された対数関数の逆関数はｘ＝１０^ｙである。

電子機器は、第１逆対数値と第２逆対数値とからなる区間を、ユーザークラスＸの距離値の範囲として特定する。

また、一実施形態において、電子機器が異常ユーザーを特定する正確性を高めるために、電子機器は、複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、差分特徴ベクトルに対応するユーザー特徴値が予め設定された特徴基線値を超えるか否かを判断する。一例において、各ユーザー行動ディメンションについて、電子機器によって１つの特徴基線値が予め設定されている。

差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超える場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定でき、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定できる。

差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超えない場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が正常ユーザー行動であることを特定する。差分特徴ベクトルに対応する全てのユーザー特徴値が特徴基線値を超えない場合、電子機器は、差分特徴ベクトルによって対応付けられるユーザーが正常ユーザーであることを特定する。

例えば、ユーザー行動ディメンション１の特徴基線値はＸ_１であり、ユーザー行動ディメンション２の特徴基線値はＸ_２であり、ユーザー行動ディメンション３の特徴基線値はＸ_３である。差分特徴ベクトルは、ユーザー行動ディメンション１のユーザー特徴値１と、ユーザー行動ディメンション２のユーザー特徴値２と、ユーザー行動ディメンション３のユーザー特徴値３を含む。

ユーザー行動ディメンション１について、ユーザー特徴値１が特徴基線値Ｘ_１を超える場合、電子機器は、ユーザー行動ディメンション１で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。

ユーザー行動ディメンション２について、ユーザー特徴値２が特徴基線値Ｘ２を超える場合、電子機器は、ユーザー行動ディメンション２で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。

ユーザー行動ディメンション３について、ユーザー特徴値３が特徴基線値Ｘ_３を超える場合、電子機器は、ユーザー行動ディメンション３で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。

ユーザー特徴値１が特徴基線値Ｘ_１を超えなく、ユーザー特徴値２が特徴基線値Ｘ_２を超えなく、かつ、ユーザー特徴値３が特徴基線値Ｘ_３を超えない場合、電子機器は、差分特徴ベクトルによって対応付けられるユーザーが正常ユーザーであることを特定する。

本願の実施例において、ユーザー特徴値差分性が小さいユーザー行動ディメンション、例えば、ユーザー行動ディメンション１について、電子機器は、ユーザー行動ディメンション１の特徴基線値を直接に特定してもよい。

例えば、ユーザーがＭＡＣアドレスを切り替える頻度は通常、一日に１回または２回である。このとき、電子機器は、ＭＡＣアドレスの切り替え頻度というユーザー行動ディメンションの特徴基線値が２であることを特定できる。

ユーザー特徴値差分性が大きいユーザー行動ディメンション、例えば、ユーザー行動ディメンション２について、電子機器は、ユーザー行動ディメンション２における複数のユーザー行動データのユーザー特徴値の確率密度分布を統計する。電子機器は、確率密度分布に基づいて、ユーザー行動ディメンション２の特徴基線値を特定する。

例えば、図６に示す累積確率曲線図のように、図６において、横軸はユーザー特徴値であり、縦軸は累積確率である。座標軸における矩形は、ユーザー特徴値の確率密度である。累積確率曲線は、確率密度分布に基づいて取得されるものである。図６から分かるように、ユーザー特徴値が２０－１２０の区間にある場合、平均勾配に比べて、累積確率曲線の勾配は極めて小さいである。このとき、電子機器は、図６によって対応付けられるユーザー行動ディメンションの特徴基線値が２０より小さくまたは１２０より大きいであることを特定できる。

一実施形態において、電子機器によって取得された複数のユーザー行動データは、１つのユーザーの複数のユーザー行動データであってもよい。本願の実施例は、さらに、異常ユーザーの識別方法を提供する。図７を参照すると、図７は本願の実施例に係る異常ユーザーの識別方法のさらに他のフローチャートである。当該方法は、以下のステップを含む。

ステップ７０１において、電子機器は、識別対象のユーザーの複数のユーザー行動データを取得する。複数のユーザー行動データは、少なくとも１つの過去のユーザー行動データと１つの現在のユーザー行動データとを含む。

本願の実施例において、識別対象のユーザーが異常ユーザーであるか否かを検出する必要がある場合、電子機器は、識別対象のユーザーの複数のユーザー行動データを取得する。ここで、識別対象のユーザーを例として説明するが、これに限定されない。

電子機器は、ユーザー行動ログから識別対象のユーザーの複数のユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データから識別対象のユーザーの複数のユーザー行動データを取得してよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は、限定されない。

本願の実施例において、電子機器は、予め設定された時間粒度により、異なるユーザーのユーザー行動データを取得してもよい。このうち、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定する。

電子機器は、予め設定された時間粒度に応じて、識別対象のユーザーの複数のユーザー行動データを取得する。

一例において、仮に、現在時刻は１０：００であり、識別対象のユーザーはユーザーＡ１である。電子機器によって予め設定された時間粒度は、１０分間である。電子機器は、９：５０－１０：００が示す時間帯におけるユーザーＡ１のユーザー行動データ３１と、９：４０－９：５０が示す時間帯におけるユーザーＡ１のユーザー行動データ３２と、９：３０－９：４０が示す時間帯におけるユーザーＡ１のユーザー行動データ３３などを取得してもよい。そのうち、ユーザー行動データ３１は、ユーザーＡ１の現在のユーザー行動データである。ユーザー行動データ３２およびユーザー行動データ３３などは、ユーザーＡ１の過去のユーザー行動データである。

他の一例において、仮に、現在時刻は１０：００であり、識別対象のユーザーはユーザーＡ１である。電子機器によって予め設定された時間粒度は、１０分間である。電子機器は、１０：００－１０：１０が示す時間帯におけるユーザーＡ１のユーザー行動データ４１と、９：５０－１０：００が示す時間帯におけるユーザーＡ１のユーザー行動データ４２と、９：４０－９：５０が示す時間帯におけるユーザーＡ１のユーザー行動データ４３と、９：３０－９：４０が示す時間帯におけるユーザーＡ１のユーザー行動データ４４などを取得してもよい。そのうち、ユーザー行動データ４１は、ユーザーＡ１の現在のユーザー行動データである。ユーザー行動データ４２、ユーザー行動データ４３およびユーザー行動データ４４などは、ユーザーＡ１の過去のユーザー行動データである。

ステップ７０２において、電子機器は、予め設定された複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて現在のユーザー行動データの複数の第２データ特徴値を抽出する。

具体的に、電子機器が複数のユーザー行動ディメンションにおいて各ユーザー行動データのデータ特徴値を抽出することを容易にするために、ユーザー行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得ることができる。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数のユーザー行動ディメンションでデータ特徴値を迅速に抽出することができる。

電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションに含まれるものを任意に組み合わせることで、複数のユーザー行動ディメンションを得る。一例において、図３に示すように、電子機器が取得したユーザー行動ディメンションは、ＩＭによって送信されるメッセージ数や、ＩＭによって受信されるメッセージ数や、ＩＭによって送信されるファイル数や、ＩＭによって送信されるファイルサイズなどを含むが、これに限定されない。

さらに、複数のユーザー行動ディメンションで、電子機器は、複数のユーザー行動データにおける各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数のユーザー行動データにおける現在のユーザー行動データの複数の第２データ特徴値を抽出した。

ステップ７０３において、電子機器は、複数の第１データ特徴値に基づいて、各過去のユーザー行動データの第１データ特徴ベクトルを特定し、複数の第２データ特徴値に基づいて、現在のユーザー行動データの第２データ特徴ベクトルを特定する、。

複数のユーザー行動データにおける各過去のユーザー行動データについて、１つの過去のユーザー行動データを例として説明する。電子機器は、当該１つの過去のユーザー行動データの複数の第１データ特徴値を組み合わせ、当該１つの過去のユーザー行動データの第１データ特徴ベクトルを得る。

複数のユーザー行動データにおける現在のユーザー行動データについて、電子機器は、現在のユーザー行動データの複数の第２データ特徴値を組み合わせ、現在のユーザー行動データの第２データ特徴ベクトルを得る。

具体的に、上記ステップの例示に従い、電子機器は、ユーザーＡ１のユーザー行動データ３１と、ユーザーＡ１のユーザー行動データ３２と、ユーザーＡ１のユーザー行動データ３３とを取得する。

電子機器は、ユーザー行動データ３１から、ＩＭによって送信されるメッセージ数が１０であり、ＩＭによって受信されるメッセージ数が８であり、ＩＭによって送信されるファイル数が２であり、ＩＭによって送信されるファイルサイズが５００ＫＢであることを抽出した。

電子機器は、ユーザー行動データ３２から、ＩＭによって送信されるメッセージ数が９であり、ＩＭによって受信されるメッセージ数が８であり、ＩＭによって送信されるファイル数が３であり、ＩＭによって送信されるファイルサイズが４９０ＫＢであることを抽出した。

電子機器は、ユーザー行動データ３３から、ＩＭによって送信されるメッセージ数が１０であり、ＩＭによって受信されるメッセージ数が７であり、ＩＭによって送信されるファイル数が１であり、ＩＭによって送信されるファイルのサイズが６００ＫＢであることを抽出した。

このとき、電子機器は、ユーザー行動データ３１のデータ特徴ベクトル０１が｛１０、８、２、５００｝であり、ユーザー行動データ３２のデータ特徴ベクトル０２が｛９、８、３、４９０｝であり、ユーザー行動データ３３のデータ特徴ベクトル０３が｛１０、７、１、６００｝であることを特定できる。そのうち、データ特徴ベクトル０１は第２データ特徴ベクトルであり、データ特徴ベクトル０２およびデータ特徴ベクトル０３は第１データ特徴ベクトルである。

ステップ７０４において、電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る。

本願の実施例において、予め設定されたクラスタリングアルゴリズムは、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムやＫ－ｍｅａｎｓＰｌｕｓクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る。各データクラスに、少なくとも１つのデータ特徴ベクトルを含む。

一例において、予め設定されたクラスタリングアルゴリズムは、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムである。電子機器は、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、Ｋ個の初期データクラスを取得する。ただし、Ｋは正の整数である。電子機器は、これらのＫ個の初期データクラスをＫ個のデータクラスとする。

ステップ７０５において、電子機器は、第２データ特徴ベクトルが属する第１データクラスの第１中心ベクトルを特定する。

本願の実施例において、電子機器は、複数のデータクラスから第２データ特徴ベクトルが属する第１データクラスを特定し、第１データクラスに含まれる複数のデータ特徴ベクトルの平均値を算出し、当該平均値を第１データクラスの中心ベクトルとして、現在識別対象のユーザーが異常ユーザーであるか否かを特定する。そのうち、第１データクラスの中心ベクトルは、第１中心ベクトルである。

上記のステップの例示に従い、第１データクラスに、データ特徴ベクトル０１と、データ特徴ベクトル０２と、データ特徴ベクトル０３とを含む。電子機器は、データ特徴ベクトル０１と、データ特徴ベクトル０２と、データ特徴ベクトル０３との平均値ｔ_２を算出し、算出した平均値ｔ_２を第１データクラスの第１中心ベクトルとして特定する。

ステップ７０６において、電子機器は、第２データ特徴ベクトルと第１中心ベクトルとの間の距離値を特定する。

上記のステップの例示に従い、データ特徴ベクトル０１は第２データ特徴ベクトルであり、第１データクラスの中心ベクトルはｔ_２である。電子機器は、データ特徴ベクトル０１と中心ベクトルｔ_２との間の距離値ｄ_ａ１を算出する。

ステップ７０７において、距離値が予め設定された距離の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを特定する。

電子機器は、第２データ特徴ベクトルと第１中心ベクトルとの間の距離値を特定し、特定した距離値が予め設定された距離値の範囲内に存在するか否かを判断する。予め設定された距離の範囲内に存在しない場合、電子機器は、第２データ特徴ベクトルが差分特徴ベクトルであることを特定し、第２データ特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定し、すなわち、識別対象のユーザーが異常ユーザーであることを特定してもよい。

電子機器に、距離値の範囲を予め設定している。異なるデータクラスにおいて、データ特徴ベクトルの分布は異なる。電子機器が異常ユーザーを識別する正確性を高めるために、電子機器は、第１データクラスの距離値の範囲を予め設定してもよい。

本願の実施例において、第２データ特徴ベクトルと第１データクラスの中心ベクトルとの間の距離値について、この距離値が予め設定された距離値の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを特定する。この距離値が予め設定された距離値の範囲内に存在する場合、電子機器は、識別対象のユーザーが正常ユーザーであることを特定する。

上記のステップの例示に従い、予め設定された距離値の範囲は、ｄ_ａ０１～ｄ_ａ０２である。電子機器は、データ特徴ベクトル０１と中心ベクトルｔ_２との間の距離値ｄ_ａ１を算出した。ｄ_ａ１＜ｄ_ａ０１あるいはｄ_ａ１>ｄ_ａ０２であると、電子機器は、識別対象のユーザーが異常ユーザーであることを特定し、すなわち、電子機器は、ユーザーＡ１が異常ユーザーであることを特定する。

本願の実施例において、電子機器は、データ特徴ベクトルをクラスタリングすることで、現在のユーザー行動データクラスが属する第１データクラスを得る。電子機器は、第１データクラスにおける第２データ特徴ベクトルと第１データクラスの中心ベクトルとの距離に基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器がブラックリストを設定することにより異常ユーザーを識別する必要がない。本願の実施例に係る異常ユーザーの識別方法は、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。

また、一実施形態において、１つのデータクラスに含まれるデータ特徴ベクトルの個数が少なすぎることによるクラスタリング効果が理想的でなく異常ユーザーの識別が不正確であることを回避するために、電子機器に、予め設定された、データクラスに含まれるデータ特徴ベクトルの個数を制限するための数量閾値が記憶されている。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る（ステップ７０４）、以下のステップを含んでもよい。

電子機器は、Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、Ｋ個の初期データクラスを得る。

電子機器は、Ｋ個の初期データクラスにおける第１初期データクラスを取得する。そのうち、第１初期データクラスは、Ｎ個のデータ特徴ベクトルを含む。Ｎは正の整数である。第１初期データクラスは、Ｋ個の初期データクラスにおける第２データ特徴ベクトルが属する初期データクラスである。

電子機器は、Ｎが数量閾値より小さいか否かを検出する。Ｎが数量閾値以上である場合、電子機器は、これらのＫ個の初期データクラスをＫ個のデータクラスとする。

Ｎが予め設定された数量閾値より小さい場合、電子機器は、Ｋ個の初期データクラスにおける第２初期データクラスを取得する。そのうち、第２初期データクラスは、Ｋ個の初期データクラスにおいて、第１初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。

その後、電子機器は、第１初期データクラスと第２初期データクラスとを合併して、合併初期データクラスを得る。

電子機器は、合併初期データクラスをクラスタリングされたデータクラスとし、Ｋ個の初期データクラスにおける合併されていない他の初期データクラスをクラスタリングされたデータクラスとする。さらに、電子機器は、複数のデータクラスを得る。

一実施形態において、良いクラスタリング効果を得るために、電子機器は、データ特徴ベクトルの集約値を算出することで、得られた複数のデータクラスをさらに合併してもよい。そのうち、集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すためのものである。

一例において、一実施形態では、電子機器は、以下のステップを用いて集約値を取得してもよい。

電子機器は、第３データ特徴ベクトルと各第４データ特徴ベクトルとの間の第１距離値を算出する。そのうち、第４データ特徴ベクトルは、第３データ特徴ベクトルが属するデータクラスに含まれる第３データ特徴ベクトル以外のデータ特徴ベクトルである。電子機器は、複数の第１距離値に対して平均値を取り、第１距離平均値を得る。

電子機器は、第３データ特徴ベクトルと各第５データ特徴ベクトルとの間の第２距離値を算出する。そのうち、第５データ特徴ベクトルは、第３データ特徴ベクトルが属するデータクラス以外の各データクラスに含まれるデータ特徴ベクトルである。電子機器は、同一のデータクラスに属する複数の第２距離値に対して平均値を取り、複数の第２距離平均値を得る。電子機器は、複数の第２距離平均値における距離平均値の最小値を取得する。

その後、電子機器は、第１距離平均値と距離平均値の最小値との比を算出して、第３データ特徴ベクトルの集約値を得る。

以上、第３データ特徴ベクトルを例として説明したが、これに限定されない。

一例において、電子機器が上記の特定された集約値に基づいて、得られた複数のデータクラスを合併する手順は、以下のステップを含んでもよい。

電子機器は、第１中心ベクトルと複数のデータクラスにおける第１データクラス以外の任意１つのデータクラスの第２中心ベクトルとの間の距離値を算出して、複数の距離値を得る。すなわち、電子機器は、第１中心ベクトルと第２中心ベクトルとの間の距離値を算出して、複数の距離値を得る。第２中心ベクトルは、複数のデータクラスにおける第１データクラス以外の任意１つのデータクラスの中心ベクトルである。

電子機器は、得られた複数の距離値から最小の距離値を取得し、最小の距離値によって対応付けられる第２データクラスを特定する。

電子機器は、複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第３集約値を取得する。ここで、電子機器は、複数の第３集約値を取得してもよい。

なお、電子機器が第１データクラスおよび第２データクラスを合併データクラスとする場合、つまり、電子機器が第１データクラスおよび第２データクラスうを１つのデータクラスとする場合、電子機器は、合併データクラスに含まれるデータ特徴ベクトルの第４集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第４集約値を取得する。ここで、電子機器は、複数の第４集約値を取得してもよい。

電子機器は、複数の第３集約値を加算して、第３総和値を得る。電子機器は、複数の第４集約値を加算して、第４総和値を得る。ここで、複数のデータクラスにおける全てのデータ特徴ベクトルの集約値の総和値は、クラスタリング効果を評価するためのものである。

第４総和値が第３総和値より小さい場合、電子機器は、第１データクラスと第２データクラスとを合併した後のクラスタリング効果がより良いであることを特定し、第１データクラスと第２データクラスとを合併する。

その後、電子機器は、第１データクラスの中心ベクトルと複数のデータクラスにおける第１データクラス以外の任意１つのデータクラスの中心ベクトルとの間の距離値を改めて算出して、得られた複数の距離値における最小距離値によって対応付けられる第２データクラスを特定し、第４総和値が第３総和値以上になるまで第１データクラスおよび第２データクラスを合併する。

上記電子機器が第一距離平均値を特定し、複数の第２距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、距離平均値の最小値と第１距離平均値との比を算出した後、当該比から１を減算した結果、第３データ特徴ベクトルの集約値を得る。

上記電子機器が第一距離平均値を特定し、複数の第２距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、第１距離平均値と距離平均値の最小値との比を算出した後、１から当該比を減算した結果、第３データ特徴ベクトルの集約値を得る。

また、電子機器が、１から比を減算して得られた集約値、または比から１を減算して得られた集約値に基づいて、得られた複数のデータクラスを合併する手順は、以下のステップを含んでもよい。

電子機器は、複数の第３集約値を加算して、第３総和値を得る。電子機器は、複数の第４集約値を加算して、第４総和値を得る。

第４総和値が第３総和値より大きい場合、電子機器は、第１データクラスと第２データクラスとを合併した後のクラスタリングの効果がより良いであることを特定し、第１データクラスと第２データクラスとを合併する。

その後、電子機器は、第１データクラスの中心ベクトルと複数のデータクラスにおける第１データクラス以外の任意１つのデータクラスの中心ベクトルとの間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる第２データクラスを特定し、第４総和値が第３総和値以下になるまで第１データクラスおよび第２データクラスを合併する。

また、電子機器が異常ユーザーを識別する正確性を高めるために、電子機器に、第１データクラスの距離値の範囲を予め記憶している。距離値の範囲は、データクラスにおけるデータ特徴ベクトルとデータクラスの中心ベクトルとの間の距離値を制限するためのものである。

一実施形態において、電子機器は、以下の方法を用いて、第１データクラスの距離値範囲を特定してよい。

電子機器は、第１中心ベクトルと第１データクラスに含まれるデータ特徴ベクトルそれぞれとの距離値を算出して、複数の距離値を得る。

電子機器は、第３距離平均値として、複数の距離値の距離平均値を算出する。電子機器は、第１標準偏差として、複数の距離値の標準偏差をさらに算出する。電子機器は、第３距離平均値および第１標準偏差に基づいて、正規分布曲線を作成してよい。当該正規分布曲線は、第１中心ベクトルと第１データクラスに含まれるデータ特徴ベクトルとの間の距離値の分布を表すためのものである。

電子機器は、第１境界値と第２境界値とからなる区間を第１データクラスの距離値の範囲として特定する。

一例において、予め設定された倍数が３である。このとき、図５に示すように、電子機器は、３倍標準偏差に基づいて、第１データクラスの距離値の範囲を特定する。図５において、μ_１は第３距離平均値であり、ｓは第１標準偏差であり、距離値の範囲はμ_１－３ｓ～μ_１+３ｓである。

正規分布曲線において、第３距離平均値μ_１との距離が３倍標準偏差を超えるデータは、発生し得ないイベントを表す低確率イベントに属する。第２データ特徴ベクトルと第１中心ベクトルとの間の距離値が距離値の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを確認できる。

しかし、実際の応用では、第１中心ベクトルと第１データクラスに含まれるデータ特徴ベクトルとの距離値の分布は、必ずしも正規分布に従うことではない。他の実施形態において、電子機器は、以下の方法を用いて、第１データクラスの距離値の範囲を特定してもよい。

電子機器は、第１中心ベクトルと第１データクラスに含まれるデータ特徴ベクトルのそれぞれとの距離値を算出して、複数の距離値を得る。

電子機器は、予め設定された対数関数に基づいて、複数の距離値における各距離値の対数値を算出する。電子機器は、対数平均値として、複数の対数値の平均値をさらに算出する。電子機器は、第２標準偏差として、複数の対数値の標準偏差をさらに算出する。電子機器は、対数平均値と第２標準偏差に基づいて、正規分布曲線を作成してよい。当該正規分布曲線は、第１中心ベクトルと第１データクラスにおけるデータ特徴ベクトルとの間の距離値の対数分布を表すためのものである。

電子機器は、予め設定された対数関数の逆関数に基づいて、第１逆対数値として第３境界値の逆対数値を算出し、第２逆対数値として第４境界値の逆対数値を算出する。例えば、予め設定された対数関数がｙ＝ｌｏｇ_１０ｘである場合、予め設定された対数関数の逆関数はｘ＝１０^ｙである。

電子機器は、第１逆対数値と第２逆対数値とからなる区間を、第１データクラスの距離値の範囲として特定する。

また、一実施形態において、電子機器が異常ユーザーを識別する正確性を高めるために、電子機器は、複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、第２データ特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断する。一例において、各ユーザー行動ディメンションについて、電子機器によって１つの特徴基線値が予め設定されている。ここで、第２データ特徴ベクトルは、差分特徴ベクトルである。

第２データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超える場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定でき、識別対象のユーザーが異常ユーザーであることを特定できる。

第２データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超えない場合、電子機器は、ユーザー行動ディメンション下で対応付けられるユーザー行動が正常ユーザー行動であることを特定できる。第２データ特徴ベクトルに対応する全てのデータ特徴値が何れも特徴基線値を超えない場合、電子機器は、識別対象のユーザーが正常ユーザーであることを特定する。

本願の実施例において、データ特徴値差分性が小さいユーザー行動ディメンション、例えば、ユーザー行動ディメンション１について、電子機器は、ユーザー行動ディメンション１の特徴基線値を直接に特定してもよい。例えば、ユーザーがＭＡＣアドレスを切り替える頻度は通常、一日に１回または２回であり、このとき、電子機器は、ＭＡＣアドレスの切り替え頻度というユーザー行動ディメンションの特徴基線値が２であることを特定できる。

データ特徴値差分性が大きいユーザー行動ディメンション、例えば、ユーザー行動ディメンション２について、電子機器は、ユーザー行動ディメンション２における複数のユーザー行動データのデータ特徴値の確率密度分布を統計する。電子機器は、確率密度分布に基づいて、ユーザー行動ディメンション２の特徴基線値を特定する。

同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、異常ユーザーの識別装置をさらに提供する。図８を参照すると、図８は、本願の実施例に係る異常ユーザーの識別装置の第１構成模式図である。当該装置は、取得手段８０１と、抽出手段８０２と、第１特定手段８０３と、クラスタリング手段８０４と、第２特定手段８０５と、第３特定手段８０６を含む。

取得手段８０１は、ユーザーのユーザー行動データを取得する。

抽出手段８０２は、予め設定された複数の行動ディメンションにおいてユーザー行動データの複数の特徴値を抽出する。

第１特定手段８０３は、複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。

クラスタリング手段８０４は、予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得る。

第２特定手段８０５は、差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在しない。

第３特定手段８０６は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。

本願の実施例に係る異常ユーザーの識別装置において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーの識別することを実現した。

一例において、上記ユーザーは、複数のユーザーである。

このとき、取得手段８０１は、具体的に、複数のユーザーのユーザー行動データを取得するために用いられる。

抽出手段８０２は、具体的に、予め設定された複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出するために用いられる。

第１特定手段８０３は、具体的に、複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定するために用いられる。

クラスタリング手段８０４は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定するために用いられる。

一例において、クラスタリング手段８０４は、具体的に、以下のように用いられる。

Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、Ｋ個の初期ユーザークラスを得る。Ｋは正の整数である。

Ｋ個の初期ユーザークラスにおける第１初期ユーザークラスおよび第２初期ユーザークラスを取得する。

第１初期ユーザークラスと第２初期ユーザークラスとを合併して、合併初期ユーザークラスを得る。

合併初期ユーザークラスおよびＫ個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをそれぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得る。

第１初期ユーザークラスは、Ｋ個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスである。

第２初期ユーザークラスは、Ｋ個の初期ユーザークラスにおいて、第１初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである。

一例において、クラスタリング手段８０４は、さらに以下のように用いられる。

複数のユーザークラスにおける任意２つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。

複数の距離値における最小距離値によって対応付けられる第１ユーザークラスおよび第２ユーザークラスを特定する。

複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第１集約値を取得する。

第１ユーザークラスおよび第２ユーザークラスを合併ユーザークラスとする場合、合併ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得する。

複数の第１集約値を加算して、第１総和値を得る。

複数の第２集約値を加算して、第２総和値を得る。

第２総和値が第１総和値より小さい場合、第１ユーザークラスと第２ユーザークラスとを合併する。

そのうち、集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すためのものである。

第１ユーザー特徴ベクトルと各第２ユーザー特徴ベクトルとの間の第１距離値を算出する。第２ユーザー特徴ベクトルは、第１ユーザー特徴ベクトルが属するユーザークラスにおける第１ユーザー特徴ベクトル以外のユーザー特徴ベクトルである。

第１ユーザー特徴ベクトルと各第３ユーザー特徴ベクトルとの間の第２距離値を算出する。第３ユーザー特徴ベクトルは、第１ユーザー特徴ベクトルが属するユーザークラス以外の各ユーザークラスにおけるユーザー特徴ベクトルである。

複数の第１距離値に対して平均値を取り、第１距離平均値を得る。

同一のユーザークラスに属する複数の第２距離値に対して平均値を取り、複数の第２距離平均値を得る。

複数の第２距離平均値における距離平均値の最小値を取得する。

第１距離平均値と距離平均値の最小値の比を、第１ユーザー特徴ベクトルの集約値とする。

一例において、第３特定手段８０６は、具体的に、以下のように用いられる。

複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、差分特徴ベクトルに対応するユーザー特徴値が予め設定された特徴基線値を超えるか否かを判断する。

差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。

一例において、上記ユーザーは、１つのユーザーである。ユーザー行動データは、上記ユーザーの少なくとも１つの過去のユーザー行動データおよび１つの現在のユーザー行動データを含んでもよい。

このとき、取得手段８０１は、具体的に、識別対象のユーザーの複数のユーザー行動データを取得するために用いられる。複数のユーザー行動データは、少なくとも１つの過去のユーザー行動データと１つの現在のユーザー行動データとを含む。

抽出手段８０２は、具体的に、予め設定された複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて現在のユーザー行動データの複数の第２データ特徴値を抽出するために用いられる。

第１特定手段８０３は、具体的に、複数の第１データ特徴値に基づいて、少なくとも１つの過去のユーザー行動データにおける各過去のユーザー行動データの第１データ特徴ベクトルを特定し、複数の第２データ特徴値に基づいて、現在のユーザー行動データの第２データ特徴ベクトルを特定するために用いられる。

クラスタリング手段８０４は、具体的に、予め設定されたクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを取得し、第２データ特徴ベクトルが属する第１データクラスの中心ベクトルを特定するために用いられる。

第２特定手段８０５は、第２データ特徴ベクトルと第１データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断し、予め設定された距離値の範囲内に存在しない場合、第２データ特徴ベクトルが差分特徴ベクトルであることを特定するために用いられる。

Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、複数の第１データ特徴ベクトルと第２データ特徴ベクトルとをクラスタリングして、Ｋ個の初期データクラスを得る。Ｋは正の整数である。

Ｋ個の初期データクラスにおける第１初期データクラスを取得する。第１初期データクラスは、Ｎ個のデータ特徴ベクトルを含む。Ｎは正の整数である。

Ｎが予め設定された数量閾値より小さい場合、Ｋ個の初期データクラスにおける第２初期データクラスを取得する。

第１初期データクラスと第２初期データクラスとを合併して、合併初期データクラスを得る。

合併初期データクラスおよびＫ個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得る。

第１初期データクラスは、第２データ特徴ベクトルが属する初期データクラスである。

第２初期データクラスは、前記Ｋ個の初期データクラスにおいて、第１初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。

第１中心ベクトルと複数のデータクラスにおける第１データクラス以外の任意１つのデータクラスの第２中心ベクトルとの間の距離値を算出して、複数の距離値を得る。

複数の距離値における最小距離値によって対応付けられる第２データクラスを特定する。

複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第３集約値を取得する。

第１データクラスおよび第２データクラスを合併データクラスとする場合、合併データクラスに含まれるデータ特徴ベクトルの第４集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第４集約値を取得する。

複数の第３集約値を加算して、第３総和値を得る。

複数の第４集約値を加算して、第４総和値を得る。

第４総和値が第３総和値より小さい場合、第１データクラスと第２データクラスとを合併する。

そのうち、集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すためのものである。

第３データ特徴ベクトルと各第４データ特徴ベクトルとの間の第１距離値を算出する。第４データ特徴ベクトルは、第３データ特徴ベクトルが属するデータクラスにおける第３データ特徴ベクトル以外のデータ特徴ベクトルである。

第３データ特徴ベクトルと各第５データ特徴ベクトルとの間の第２距離値を算出する。第５データ特徴ベクトルは、第３データ特徴ベクトルが属するデータクラス以外の各データクラスにおけるデータ特徴ベクトルである。

第１距離平均値と距離平均値の最小値との比を、第３データ特徴ベクトルの集約値とする。

複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、第２データ特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断する。そのうち、第２データ特徴ベクトルは、差分特徴ベクトルである。

第２データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、識別対象のユーザーが異常ユーザーであることを特定する。

同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、電子機器をさらに提供する。図９に示すように、プロセッサ９０１と、プロセッサ９０１によって実行されることができる機械実行可能命令を記憶している機械可読記憶媒体９０２とを含む。機械実行可能命令は、プロセッサ９０１に以下の動作を実行させる。

ユーザーのユーザー行動データを取得する。

予め設定された複数の行動ディメンションにおいてユーザー行動データの複数の特徴値を抽出する。

複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。

予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得る。

差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの間の距離値は予め設定された距離値の範囲内に存在しない。

差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。

本願の実施例に係る電子機器において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。

一例において、ユーザーが複数のユーザーである場合、機械実行可能命令は、具体的に、プロセッサ９０１に以下の動作を実行させてもよい。

複数のユーザー行動ディメンションにおいて複数のユーザーにおける各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出する。

複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定する。

予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。

複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する。

一例において、機械実行可能命令は、具体的に、プロセッサ９０１に以下の動作を実行させてもよい。

一例において、機械実行可能命令は、さらに、プロセッサ９０１に以下の動作を実行させてもよい。

複数の第１集約値を加算して、第１総和値を得る。

複数の第２集約値を加算して、第２総和値を得る。

一例において、前記ユーザーが１つのユーザーである場合、前記ユーザー行動データは、前記ユーザーの少なくとも１つの過去のユーザー行動データおよび１つの現在のユーザー行動データを含む。

機械実行可能命令は、具体的に、プロセッサ９０１に以下の動作を実行させてもよい。

複数の行動ディメンションにおいて前記少なくとも１つの過去のユーザー行動データにおける各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数の行動ディメンションにおいて前記現在のユーザー行動データの複数の第２データ特徴値を抽出する。

前記複数の第１データ特徴値に基づいて、各過去のユーザー行動データの第１データ特徴ベクトルを特定し、前記複数の第２データ特徴値に基づいて、前記現在のユーザー行動データの第２データ特徴ベクトルを特定する。

予め設定されたクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを取得する。

前記第２データ特徴ベクトルが属する第１データクラスの第１中心ベクトルを特定する。

前記第２データ特徴ベクトルと前記第１データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断する。

予め設定された距離値の範囲内に存在しない場合、前記第２データ特徴ベクトルが差分特徴ベクトルであることを特定する。

第２初期データクラスは、Ｋ個の初期データクラスにおいて、第１初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。

複数の第３集約値を加算して、第３総和値を得る。

複数の第４集約値を加算して、第４総和値を得る。

なお、図９に示すように、電子機器は、通信インタフェース９０３と、通信バス９０４とを含んでもよい。そのうち、プロセッサ９０１、機械可読記憶媒体９０２、および通信インタフェース９０３は、通信バス９０４を介して互いに通信を行う。通信インタフェース９０３は、上記電子機器と他の装置との間の通信に用いられる。

上記通信バスは、ペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ＰＣＩと略称する）バス、または拡張業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡと略称する）バスであってもよい。当該通信バスは、アドレスバス、データバス、コントロールバスなどに分かれてよい。

上記機械可読記憶媒体は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称する）を含んでもよいし、不揮発性メモリ（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙ、ＮＶＭと略称する）、例えば、少なくとも１つの磁気ディスクメモリを含んでもよい。なお、機械可読記憶媒体は、上記プロセッサから離れて配置される少なくとも１つの記憶装置であってもよい。

上記のプロセッサは、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称する）、ネットワークプロセッサ（ＮｅｔｗｏｒｋＰｒｏｃｅｓｓｏｒ、ＮＰと略称する）などの汎用プロセッサであってもよいし、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ＤＳＰと略称する）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称する）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡと略称する）、または、他のプログラム可能な論理装置、ディスクリートゲートあるいはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよい。

同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、機械実行可能命令を記憶している機械可読記憶媒体をさらに提供する。プロセッサによって呼び出されて実行されると、機械実行可能命令は、プロセッサに上記図１～７に示す何れか一つの異常ユーザーの識別方法のステップを実行させる。

同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、プロセッサによって呼び出されて実行されると、プロセッサに上記図１～７に示す何れか一つの異常ユーザーの識別方法のステップを実行させる、機械実行可能命令をさらに提供する。

なお、本明細書では、第１や第２等のような関係用語は１つのエンティティ又は操作を他のエンティティ又は操作と区別するためのものに過ぎず、必ずしもこれらのエンティティ又は操作の間にこのような実際の関係又は順序があることをリクエスト又は示唆しない。また、用語「含む」、「備える」又はほかの変形は非排他的包含をカバーすることで、一連の要素を含むプロセス、方法、物品又は装置はこれらの要素を含むだけでなく、明確に挙げられていないほかの要素をさらに含み、又はこのようなプロセス、方法、物品又は装置で固有の要素をさらに含む。特に限定しない限り、文「１つの…を含む」により限定される要素は、前記要素を含むプロセス、方法、物品又は装置がほかの同一の要素をさらに含むことを排除するものではない。

本明細書における各実施例は、いずれも、相互に関連するように記載されており、各実施例同士間の同一または類似な部分を相互を参照すればよく、各実施例が主に説明したのは、他の実施例との相違点である。特に、異常ユーザーの識別装置、電子機器および機械可読記憶媒体の実施例について、それらが異常ユーザーの識別方法の実施例にほぼ似ているため、簡単に説明され、関連する内容は、異常ユーザーの識別方法の実施例の説明部分を参照すればよい。

以上、本願の好適実施例を説明したが、本願の保護範囲を限定するものではない。本願の精神及び原則を逸脱せずに行われる変更、同等置換、改良等は、いずれも、本願の保護範囲に属する。

Claims

電子機器に適用される異常ユーザーの識別方法であって、前記電子機器は、取得手段と、抽出手段と、第１特定手段と、クラスタリング手段と、第２特定手段と、第３特定手段を含み、
前記異常ユーザーの識別方法は、
前記取得手段は、ユーザーのユーザー行動データを取得し、前記ユーザー行動データは、少なくとも１つの過去のユーザー行動データと１つの現在のユーザー行動データとを含むことと、
前記抽出手段は、予め設定された複数のユーザー行動ディメンションにおいて、前記ユーザー行動データの複数の特徴値を抽出することと、
前記第１特定手段は、前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することと、
前記クラスタリング手段は、予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることと、
前記第２特定手段は、集約クラスにおける特徴ベクトルと、該集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在するか否かを判断し、前記距離値が予め設定された距離値の範囲内に存在しない特徴ベクトルを差分特徴ベクトルとして特定することと、
前記第３特定手段は、前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することと、
を含む異常ユーザーの識別方法。
前記ユーザーが複数のユーザーである場合、
前記抽出手段が、前記予め設定された複数のユーザーメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することは、
複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出することを含み、
前記第１特定手段が、前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することは、
前記複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、前記複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定することを含み、
前記クラスタリング手段が、前記予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることは、
予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得ることと、
前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、前記複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定することとを含む、
請求項１に記載の異常ユーザーの識別方法。
前記クラスタリング手段が、予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得ることは、
Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、Ｋ個の初期ユーザークラスを得、前記Ｋが正の整数であることと、
前記Ｋ個の初期ユーザークラスにおける第１初期ユーザークラスおよび第２初期ユーザークラスを取得することと、
前記第１初期ユーザークラスと前記第２初期ユーザークラスとを合併して、合併初期ユーザークラスを得ることと、
前記合併初期ユーザークラスおよび前記Ｋ個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスを、それぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得ることとを含み、
前記第１初期ユーザークラスは、前記Ｋ個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスであり、
前記第２初期ユーザークラスは、前記Ｋ個の初期ユーザークラスにおける初期ユーザークラスであり、当該初期ユーザークラスの中心ベクトルと前記第１初期ユーザークラスの中心ベクトルとの距離値は最小である、
請求項２に記載の異常ユーザーの識別方法。
前記クラスタリング手段によって、前記複数のユーザークラスにおける任意２つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得ることと、
前記複数の距離値における最小距離値によって対応付けられる第１ユーザークラスおよび第２ユーザークラスを特定することと、
前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第１集約値を取得することと、
前記第１ユーザークラスおよび前記第２ユーザークラスを合併ユーザークラスとする場合、前記合併ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得し、前記複数のユーザークラスにおける前記合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第２集約値を取得することと、
複数の第１集約値を加算して、第１総和値を得ることと、
複数の第２集約値を加算して、第２総和値を得ることと、
前記第２総和値が前記第１総和値より小さい場合、前記第１ユーザークラスと前記第２ユーザークラスとを合併することと、を実行すること
をさらに含み、
前記第１集約値と前記第２集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すものである、
請求項３に記載の異常ユーザーの識別方法。
前記ユーザーが１つのユーザーである場合、
前記抽出手段が、前記予め設定された複数のユーザー行動ディメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することは、
複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて前記現在のユーザー行動データの複数の第２データ特徴値を抽出することを含み、
前記第１特定手段が前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することは、
前記複数の第１データ特徴値に基づいて、各過去のユーザー行動データの第１データ特徴ベクトルを特定し、前記複数の第２データ特徴値に基づいて、前記現在のユーザー行動データの第２データ特徴ベクトルを特定することを含み、
前記クラスタリング手段が前記予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることは、
予め設定されたクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得ることと、前記第２データ特徴ベクトルが属する第１データクラスの中心ベクトルを特定することを含み、
前記第２特定手段は前記距離値が予め設定された距離値の範囲内に存在しない特徴ベクトを差分特徴ベクトルとして特定することは、
前記第２データ特徴ベクトルと前記第１データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断することと、
距離値が予め設定された距離値の範囲内に存在しない場合、前記第２データ特徴ベクトルが差分特徴ベクトルであることを特定することとを含む、
請求項１に記載の異常ユーザーの識別方法。
前記クラスタリング手段が予め設定されたクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得ることは、
Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、Ｋ個の初期データクラスを得、前記Ｋが正の整数であることと、
前記Ｋ個の初期データクラスにおけるＮ個のデータ特徴ベクトルを含む第１初期データクラスを取得し、前記Ｎが正の整数であることと、
Ｎが予め設定された数量閾値より小さい場合、前記Ｋ個の初期データクラスにおける第２初期データクラスを取得することと、
前記第１初期データクラスと前記第２初期データクラスとを合併して、合併初期データクラスを得ることと、
前記合併初期データクラスおよび前記Ｋ個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得ることとを含み、
前記第１初期データクラスは、前記第２データ特徴ベクトルが属する初期データクラスであり、
前記第２初期データクラスは、前記Ｋ個の初期データクラスにおいて、前記第１初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである、
請求項５に記載の異常ユーザーの識別方法。
前記クラスタリング手段によって、
前記第１データクラスの中心ベクトルと前記複数のデータクラスにおける前記第１データクラス以外の任意１つのデータクラスの中心ベクトルとの間の距離値を算出して、複数の距離値を得ることと、
前記複数の距離値における最小距離値によって対応付けられる第２データクラスを特定することと、
前記複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第３集約値を取得することと、
前記第１データクラスおよび前記第２データクラスを合併データクラスとする場合、前記合併データクラスに含まれるデータ特徴ベクトルの第４集約値を取得し、前記複数のデータクラスにおける前記合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第４集約値を取得することと、
複数の第３集約値を加算して、第３総和値を得ることと、
複数の第４集約値を加算して、第４総和値を得ることと、
前記第４総和値が前記第３総和値より小さい場合、前記第１データクラスと前記第２データクラスとを合併することと、を実行すること
をさらに含み、
前記第３集約値と前記第４集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すものである、
請求項６に記載の異常ユーザーの識別方法。
前記第３特定手段が前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することは、
前記複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションに基づいて、前記差分特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断することと、
前記差分特徴ベクトルに対応するデータ特徴値が前記特徴基線値を超える場合、前記ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、前記差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定することとを含む
請求項２または５に記載の異常ユーザーの識別方法。
プロセッサと前記プロセッサによって実行されることができる機械実行可能命令を記憶している機械可読記憶媒体とを含み、前記機械実行可能命令は、プロセッサに、
ユーザーのユーザー行動データを取得し、前記ユーザー行動データは、少なくとも１つの過去のユーザー行動データと１つの現在のユーザー行動データとを含むことと、
予め設定された複数のユーザー行動ディメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することと、
前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することと、
予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを取得することと、
集約クラスにおける特徴ベクトルと、該集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在するか否かを判断し、前記距離値の範囲内に存在しない特徴ベクトルを差分特徴ベクトルとして特定することと、
前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することと、
を実行させる
電子機器。
前記ユーザーが複数のユーザーである場合、前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
複数のユーザー行動ディメンションにおいて前記複数のユーザーにおける各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出し、
前記複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、前記複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定し、
予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得、
前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、前記複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する、
請求項９に記載の電子機器。
前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、Ｋ個の初期ユーザークラスを得、前記Ｋが正の整数であり、
前記Ｋ個の初期ユーザークラスにおける第１初期ユーザークラスおよび第２初期ユーザークラスを取得し、
前記第１初期ユーザークラスと前記第２初期ユーザークラスとを合併して、合併初期ユーザークラスを得、
前記合併初期ユーザークラスおよび前記Ｋ個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをそれぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得、
前記第１初期ユーザークラスは、前記Ｋ個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスであり、
前記第２初期ユーザークラスは、前記Ｋ個の初期ユーザークラスにおいて、前記第１初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである、
請求項１０に記載の電子機器。
前記ユーザーが１つのユーザーである場合、
前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第１データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて前記現在のユーザー行動データの複数の第２データ特徴値を抽出し、
前記複数の第１データ特徴値に基づいて、各過去のユーザー行動データの第１データ特徴ベクトルを特定し、前記複数の第２データ特徴値に基づいて、前記現在のユーザー行動データの第２データ特徴ベクトルを特定し、
予め設定されたクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得、
前記第２データ特徴ベクトルが属する第１データクラスの中心ベクトルを特定し、
前記第２データ特徴ベクトルと前記第１データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断し、
距離値が予め設定された距離値の範囲内に存在しない場合、前記第２データ特徴ベクトルが差分特徴ベクトルであることを特定する、
請求項９に記載の電子機器。
前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
Ｋ－ｍｅａｎｓクラスタリングアルゴリズムにより、前記複数の第１データ特徴ベクトルと前記第２データ特徴ベクトルとをクラスタリングして、Ｋ個の初期データクラスを得、前記Ｋが正の整数であり、
前記Ｋ個の初期データクラスにおけるＮ個のデータ特徴ベクトルを含む第１初期データクラスを取得し、前記Ｎが正の整数であり、
Ｎが予め設定された数量閾値より小さい場合、前記Ｋ個の初期データクラスにおける第２初期データクラスを取得し、
前記第１初期データクラスと前記第２初期データクラスとを合併して、合併初期データクラスを得、
前記合併初期データクラスおよび前記Ｋ個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得、
前記第１初期データクラスは、前記第２データ特徴ベクトルが属する初期データクラスであり、
前記第２初期データクラスは、前記Ｋ個の初期データクラスにおいて、前記第１初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである、
請求項１２に記載の電子機器。
前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
前記複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションに基づいて、前記差分特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断し、
前記差分特徴ベクトルに対応するデータ特徴値が前記特徴基線値を超える場合、前記ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、前記差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する
請求項１０又は１２に記載の電子機器。
機械実行可能命令を記憶している機械可読記憶媒体であって、
プロセッサによって呼び出されて実行されると、前記機械実行可能命令は、前記プロセッサに請求項１から８のいずれか一項に記載の方法を実行させる、
機械可読記憶媒体。