JP7125514B2 - 異常ユーザーの識別方法、電子機器及び機械可読記憶媒体 - Google Patents

異常ユーザーの識別方法、電子機器及び機械可読記憶媒体 Download PDF

Info

Publication number
JP7125514B2
JP7125514B2 JP2020563918A JP2020563918A JP7125514B2 JP 7125514 B2 JP7125514 B2 JP 7125514B2 JP 2020563918 A JP2020563918 A JP 2020563918A JP 2020563918 A JP2020563918 A JP 2020563918A JP 7125514 B2 JP7125514 B2 JP 7125514B2
Authority
JP
Japan
Prior art keywords
user
data
class
initial
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020563918A
Other languages
English (en)
Other versions
JP2021524091A (ja
Inventor
顧成傑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Publication of JP2021524091A publication Critical patent/JP2021524091A/ja
Application granted granted Critical
Publication of JP7125514B2 publication Critical patent/JP7125514B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/68Gesture-dependent or behaviour-dependent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願は、2018年5月14日に中国特許庁に提出した出願番号が201810457994.8であり、発明名称が「異常ユーザーの識別方法及び装置」である中国特許出願に基づき優先権を主張し、その全部の内容が援用により本願に組み込まれる。
本発明は、異常ユーザーの識別方法、電子機器及び機械可読記憶媒体に関する。
ネットワークシステムにおけるハードウェア、ソフトウェア及びデータがより良好に保護されることを確保し、ネットワークシステムを継続で確実に動作させるために、イントラネット(intranet)とエクストラネット(extranet)とを接続するエッジルータ(edge router)にセキュリティ機器を設置することが一般的である。ネットワークシステムのセキュリティを確保するように、セキュリティ機器によりイントラネットから送信されたパケットまたはエクストラネットから受信されたパケットを選別し、フィルタリングする。
現在、ユーザーの行動が予測不可能であるため、異常ユーザーを検出することは複雑になってしまう。例えば、異なる時間帯や異なる位置のユーザーに対して、異なる操作の検出が実行される。あるシナリオでは、あるユーザーは、電子メールの送受信や、不正なウェブページの訪問や、不正なビデオのダウンロードなどを頻繁に行う。
上記ユーザーを検出する際に、電子メールを頻繁に送受信するユーザーだけでなく、不正なウェブページを頻繁に訪問するユーザーや不正なビデオを頻繁にダウンロードするユーザーなどを検出する必要がある。
図1は本願の実施例に係る異常ユーザーの識別方法のフローチャートである。 図2は本願の実施例に係る異常ユーザーの識別方法の他のフローチャートである。 図3は本願の実施例に係る特徴体系の模式図である。 図4は本願の実施例に係るユーザークラスの分布図である。 図5は本願の実施例に係る正規分布曲線の模式図である。 図6は本願の実施例に係る累積確率曲線の模式図である。 図7は本願の実施例に係る異常ユーザーの識別方法のもうひとつのフローチャートである。 図8は本願の実施例に係る異常ユーザーの識別装置の構成模式図である。 図9は本願の実施例に係る電子機器の構成模式図である。
以下、本願の実施例の図面を参照して、本願の実施例の技術案を明確かつ完全に説明する。勿論、説明される実施例は、本願の一部の実施例だけであり、すべての実施例ではない。当業者が本願の実施例に基づいて創造的労働を必要とせずに得られる全ての他の実施例は、何れも本願の請求の範囲に入る。
現在、ブラックリストを設定することで、イントラネットにおける異常ユーザーに対する識別を実現できる。具体的に、管理者は、制限が必要なユーザー名をブラックリストに入れる。しかし、上記のブラックリストを設定することにより、管理者に知られている異常ユーザーのみを識別することができるが、上記のブラックリストを設定することにより、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することができない。
上記の問題に鑑みて、本願の実施例は、異常ユーザーの識別方法を提供する。当該異常ユーザーの識別方法は、サーバや、コンピュータや、携帯電話や、セキュリティ機器などの電子機器に適用できる。説明の便宜上、以下、実行本体が電子機器である場合を例として説明する。
具体的に、図1を参照すると、図1は、本願の実施例に係る異常ユーザーの識別方法のフローチャートである。本願の実施例に係る異常ユーザーの識別方法は、以下のステップを含む。
ステップ101において、電子機器は、ユーザーのユーザー行動データを取得する。
本願の実施例において、電子機器は、複数のユーザーのユーザー行動データを取得してもよいし、1つのユーザーの複数のユーザー行動データを取得してもよい。電子機器が1つのユーザーの複数のユーザー行動データを取得すると、当該複数のユーザー行動データは、少なくとも1つの過去のユーザー行動データと1つの現在のユーザー行動データとを含む。
本願の実施例において、異常ユーザーを検出する必要がある場合、電子機器は、ユーザーのユーザー行動データを取得する。
電子機器は、ユーザー行動ログからユーザーのユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データからユーザーのユーザー行動データを取得してもよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は限定されない。
一つの実施例において、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定する。電子機器は、予め設定された時間粒度におけるユーザーのユーザー行動データを取得する。
ステップ102において、電子機器は、予め設定された複数の行動ディメンションにおいて、ユーザー行動データの複数の特徴値を抽出する。
具体的に、電子機器が複数の行動ディメンションにおいてユーザー行動データの特徴値を抽出することを容易にするために、行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得る。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数の行動ディメンションで特徴値を迅速に抽出することができる。
図3に示す行動ディメンションのように、ビジネスレイヤ特徴ディメンションは、インスタントメッセージング(Instant Messaging、IMと略称する)、ウェブ閲覧、コミュニティフォーラム、トラフィック、ファイル転送および電子メールなどを含んでもよい。行動レイヤ特徴ディメンションは、情報の送信、情報の受信、ファイルの送信、ファイル転送プロトコル(File Transfer Protocol、FTPと略称する)トラフィック、セキュアソケットレイヤ上のハイパーテキスト・トランスファー・プロトコル(Hyper Text Transfer Protocol over secure socket Layer、HTTPSと略称する)トラフィックおよび電子メールの受信などを含んでもよい。
電子機器は、上記の2つのレイヤの特徴ディメンションに含まれるものを任意に組み合わせることで、複数の行動ディメンションを得る。一例において、図3に示すように、電子機器が取得した行動ディメンションは、IMによって送信されるメッセージ数や、IMによって受信されるメッセージ数や、IMによって送信されるファイル数や、IMによって送信されるファイルのサイズなどを含むが、これらに限定されない。
さらに、複数の行動ディメンションで、電子機器は、複数の特徴値を抽出した。
ステップ103において、電子機器は、複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。
1つのユーザー行動データを例として説明する。電子機器は、当該1つのユーザー行動データに対応する複数の特徴値を組み合わせ、当該1つのユーザー行動データに対応する特徴ベクトルを得る。
ステップ104において、予め設定されたクラスタリングアルゴリズム(clustering algorithm)により、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラス(aggregation class)の中心ベクトルを得る。
本願の実施例において、予め設定されたクラスタリングアルゴリズムは、K-meansクラスタリングアルゴリズムやK-means Plusクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得る。各集約クラスに、少なくとも1つの特徴ベクトルを含む。
1つの集約クラスを例として説明する。電子機器は、当該1つの集約クラスに含まれる複数の特徴ベクトルの平均値を算出し、当該平均値を当該1つの集約クラスの中心ベクトルとする。
ステップ105において、電子機器は、差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの距離値は予め設定された距離値の範囲内に存在しない。
本願の実施例において、予め設定された距離値の範囲は、予め電子機器に記憶されている。
具体的に、差分特徴ベクトルと、差分特徴ベクトルが属する集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないとは、集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さいこと、または、集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きいことを指す。
上記の集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さい場合、または、上記の集約クラスにおける特徴ベクトルと集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きい場合、電子機器は、特徴ベクトルを差分特徴ベクトルとして特定することが理解できる。
各集約クラスについて、1つの集約クラスを例として説明する。電子機器は、当該1つの集約クラスに含まれる各特徴ベクトルと当該1つの集約クラスの中心ベクトルとの間の距離値を算出する。電子機器は、複数の距離値を得た後、当該複数の距離値をソートする。電子機器は、予め設定された距離値の範囲内に存在しない距離値を取得し、取得した距離値によって対応付けられる特徴ベクトルを差分特徴ベクトルとする。
ステップ106において、電子機器は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。
例えば、電子機器は、予め設定された複数の行動ディメンションにおいてユーザーQのユーザー行動データPの複数の特徴値を抽出し、抽出した複数の特徴値に基づいて、ユーザー行動データPに対応する特徴ベクトル111を特定する。電子機器は、特徴ベクトル111が差分特徴ベクトルであることを特定すると、ユーザーQを異常ユーザーとして特定する。
本願の実施例に係る異常ユーザーの識別方法において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。
一実施形態において、電子機器が取得したユーザー行動データは、複数のユーザーのユーザー行動データである。本願の実施例は、異常ユーザーの識別方法を提供する。図2を参照すると、図2は、本願の実施例に係る異常ユーザーの識別方法の他のフローチャートである。当該方法は、以下のステップを含む。
ステップ201において、電子機器は、複数のユーザーのユーザー行動データを取得する。
本願の実施例において、異常ユーザーを検出する必要がある場合、電子機器は、複数のユーザーのユーザー行動データを取得する。
電子機器は、ユーザー行動ログから複数のユーザーのユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データから複数のユーザーのユーザー行動データを取得してもよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は限定されない。
本願の実施例において、電子機器は、予め設定された時間粒度により、異なるユーザーのユーザー行動データを取得してもよい。このうち、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定してもよい。
例えば、長期的な実施および企画による高度で持続的な脅威(Advanced Persistent Threat、APTと略称する)があるユーザーを識別する際に、電子機器は、比較的に大きい時間粒度を予め設定してもよい。例えば、電子機器によって予め設定された時間粒度は、1週間や、1ヶ月間などであってもよい。
また、例えば、退職前に不意に攻撃行動を行うユーザーを識別する際に、電子機器は、比較的に小さい時間粒度を予め設定してもよい。例えば、電子機器によって予め設定された時間粒度は、10分間や、1時間や、24時間などであってもよい。
電子機器は、予め設定した時間粒度において、複数のユーザーのユーザー行動データを取得する。
一例において、仮に、現在時刻は10:00であり、電子機器によって予め設定された時間粒度は10分間であり、識別対象のユーザーはAと、Bと、Cを含む。10:00-10:10が示す時間帯に、電子機器は、ユーザーAのユーザー行動データ11と、ユーザーBのユーザー行動データ12と、ユーザーCのユーザー行動データ13を取得してもよい。電子機器は、9:50-10:00が示す時間帯に、ユーザーAのユーザー行動データ21と、ユーザーBのユーザー行動データ22と、ユーザーCのユーザー行動データ23を取得してもよい。
ステップ202において、電子機器は、予め設定された複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出する。
具体的に、電子機器が複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データのユーザー特徴値を抽出することを容易にするために、ユーザー行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得ることができる。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数のユーザー行動ディメンションでユーザーの特徴値を迅速に抽出することができる。
図3に示すユーザー行動ディメンションのように、ビジネスレイヤ特徴ディメンションは、IM、ウェブ閲覧、コミュニティフォーラム、トラフィック、ファイル転送および電子メールなどを含んでもよい。行動レイヤ特徴ディメンションは、情報の送信、情報の受信、ファイルの送信、FTPトラフィック、HTTPSトラフィックおよび電子メールの受信などを含んでもよい。
電子機器は、上記の2つのレイヤの特徴ディメンションに含まれるものを任意に組み合わせることで、複数のユーザー行動ディメンションを得る。一例において、図3に示すように、電子機器が取得したユーザー行動ディメンションは、IMによって送信されるメッセージ数や、IMによって受信されるメッセージ数や、IMによって送信されるファイル数や、IMによって送信されるファイルサイズなどを含むが、これに限定されない。
さらに、複数のユーザー行動ディメンションで、電子機器は、複数のユーザーにおける各ユーザーの複数のユーザー特徴値を抽出した。
ステップ203において、電子機器は、複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定する。
複数のユーザーにおける各ユーザーについて、1つのユーザーを例として説明する。電子機器は、当該1つのユーザーの複数のユーザー特徴値を組み合わせ、当該1つのユーザーのユーザー特徴ベクトルを得る。
具体的に、上記のステップの例示に従い、電子機器は、ユーザーAのユーザー行動データ11と、ユーザーBのユーザー行動データ12と、ユーザーCのユーザー行動データ13を取得する。
電子機器は、ユーザー行動データ11から、IMによって送信されるメッセージ数が10であり、IMによって受信されるメッセージ数が8であり、IMによって送信されるファイル数が2であり、IMによって送信されるファイルサイズが500KBであることを抽出した。
電子機器はユーザー行動データ12から、IMによって送信されるメッセージ数が9であり、IMによって受信されるメッセージ数が8であり、IMによって送信されるファイル数が3であり、IMによって送信されるファイルサイズが490KBであることを抽出した。
電子機器はユーザー行動データ13から、IMによって送信されるメッセージ数が10であり、IMによって受信されるメッセージ数が7であり、IMによって送信されるファイル数が1であり、IMによって送信されるファイルのサイズが600KBであることを抽出した。
このとき、電子機器は、各ユーザーのユーザー特徴ベクトルを特定できる。つまり、ユーザーAのユーザー特徴ベクトル01が{10、8、2、500}であり、ユーザーBのユーザー特徴ベクトル02が{9、8、3、490}であり、ユーザーCのユーザー特徴ベクトル03が{10、7、1、600}である。
ステップ204において、電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。
本願の実施例において、予め設定されたクラスタリングアルゴリズムは、K-meansクラスタリングアルゴリズムやK-means Plusクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。各ユーザークラスに、少なくとも1つのユーザー特徴ベクトルを含む。
一例において、予め設定されたクラスタリングアルゴリズムは、K-meansクラスタリングアルゴリズムである。電子機器は、K-meansクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得る。ただし、Kは正の整数である。電子機器は、これらのK個の初期ユーザークラスをK個のユーザークラスとする。
ステップ205において、電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する。
各ユーザークラスについて、1つのユーザークラスを例として説明する。電子機器は、当該1つのユーザークラスに含まれる複数のユーザー特徴ベクトルの平均値を算出して、当該平均値を当該1つのユーザークラスの中心ベクトルとする。
上記のステップの例示に従い、電子機器は、ユーザー特徴ベクトルをクラスタリングした後、複数のユーザークラスを得る。仮に、複数のユーザークラスはユーザークラス1を含み、ユーザークラス1は、ユーザーAのユーザー特徴ベクトル01と、ユーザーBのユーザー特徴ベクトル02と、ユーザーCのユーザー特徴ベクトル03とを含むとする。
電子機器は、ユーザー特徴ベクトル01と、ユーザー特徴ベクトル02と、ユーザー特徴ベクトル03との平均値tを算出して、平均値tをユーザークラス1の中心ベクトルとして特定する。
ステップ206において、電子機器は、複数のユーザークラスにおける各ユーザークラスの差分特徴ベクトルを取得する。
本願の実施例において、差分特徴ベクトルは、ユーザークラスにおけるユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないユーザー特徴ベクトルである。すなわち、差分特徴ベクトルと属するユーザークラスの中心ベクトルとの間の距離値は予め設定された距離値の範囲内に存在しない。予め設定された距離値の範囲は、予め電子機器に記憶されている。
具体的に、ユーザークラスにおけるユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在しないとは、ユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さいこと、または、ユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きいことを指す。
上記のユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最小値より小さい場合、または、上記のユーザークラスにおけるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの距離値が予め設定された距離値の範囲の最大値より大きい場合、電子機器は、ユーザー特徴ベクトルを差分特徴ベクトルとして特定することが理解できる。
各ユーザークラスについて、1つのユーザークラスを例として説明する。電子機器は、当該1つのユーザークラスに含まれる各ユーザー特徴ベクトルと当該1つのユーザークラスの中心ベクトルとの間の距離値を算出する。電子機器は、複数の距離値を得た後、当該複数の距離値をソートする。電子機器は、予め設定された距離値の範囲内に存在しない距離値を取得し、取得したユーザー距離値によって対応付けられるユーザー特徴ベクトルを差分特徴ベクトルとする。
上記のステップの例示に従い、仮に、予め設定された距離値の範囲は、d~dであるとする。ユーザークラス1は、ユーザーAのユーザー特徴ベクトル01と、ユーザーBのユーザー特徴ベクトル02と、ユーザーCのユーザー特徴ベクトル03とを含み、ユーザークラス1の中心ベクトルはtである。ユーザー特徴ベクトル01と中心ベクトルtとの間の距離はd01であり、ユーザー特徴ベクトル02と中心ベクトルtとの間の距離はd02であり、ユーザー特徴ベクトル03と中心ベクトルtとの間の距離はd03である。d01<d、d<d02<d、d<d03<dであると、電子機器は、d01によって対応付けられるユーザー特徴ベクトル01を差分特徴ベクトルとして特定する。
異なるユーザークラスにおいて、ユーザー特徴ベクトルの分布が異なる。本願の実施例において、電子機器が差分特徴ベクトルを取得する正確性を高めるために、電子機器に、各ユーザークラスの予め設定された距離値範囲をそれぞれ記憶してもよい。
ステップ207において、電子機器は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。
具体的に、上記のステップの例示に従い、電子機器は、ユーザー特徴ベクトル01を差分特徴ベクトルとして特定すると、ユーザー特徴ベクトル01によって対応付けられるユーザーを異常ユーザーとして特定し、すなわち、ユーザーAを異常ユーザーとして特定する。
したがって、本願の実施例に係る技術案において、電子機器は、ユーザー特徴ベクトルをクラスタリングすることで、ユーザークラスにおける差分特徴ベクトルを得る。電子機器は、差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。本願の実施例に係る異常ユーザーの識別方法は、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。
また、一実施形態において、ユーザークラスに含まれるユーザー特徴ベクトルの個数が少なすぎることによるクラスタリング効果が理想的でなく異常ユーザーの識別が不正確であることを回避するために、電子機器に、ユーザークラスに含まれるユーザー特徴ベクトルの個数を制限するための予め設定された数量閾値が記憶されている。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る(ステップ204)。以下のステップを含んでもよい。
電子機器は、K-meansクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得る。
電子機器は、K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在するか否かを検出する。含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在すると、電子機器は、これらのK個の初期ユーザークラスをK個のユーザークラスとする。
含まれるユーザー特徴ベクトルの個数が数量閾値より小さい初期ユーザークラスが存在すると、電子機器は、K個の初期ユーザークラスにおける第1初期ユーザークラスおよび第2初期ユーザークラスを取得する。
本願の実施例において、第1初期ユーザークラスは、K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスである。第2初期ユーザークラスは、K個の初期ユーザークラスにおいて、第1初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである。
その後、電子機器は、第1初期ユーザークラスと第2初期ユーザークラスとを合併して、合併初期ユーザークラスを得る。
電子機器は、合併初期ユーザークラスをクラスタリングされたユーザークラスとし、K個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをクラスタリングされたユーザークラスとする。さらに、電子機器は、複数のユーザークラスを得る。
例えば、予め設定された数量閾値は10である。電子機器は、K-meansクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、5個の初期ユーザークラス、例えば、初期ユーザークラス1、初期ユーザークラス2、初期ユーザークラス3、初期ユーザークラス4および初期ユーザークラス5を得る。初期ユーザークラス1は、8個のユーザー特徴ベクトルを含み、初期ユーザークラス2は、12個のユーザー特徴ベクトルを含み、初期ユーザークラス3は、11個のユーザー特徴ベクトルを含み、初期ユーザークラス4は、15個のユーザー特徴ベクトルを含み、初期ユーザークラス5は、17個のユーザー特徴ベクトルを含む。
これでわかるように、8<10であり、すなわち、初期ユーザークラス1に含まれるユーザー特徴ベクトルの個数が数量閾値より小さく、初期ユーザークラス1は、第1初期ユーザークラスである。
電子機器は、初期ユーザークラス2の中心ベクトルと初期ユーザークラス1の中心ベクトルとの間の距離値がd11であることを算出した。電子機器は、初期ユーザークラス3の中心ベクトルと初期ユーザークラス1の中心ベクトルとの間の距離値がd12であることを算出した。電子機器は、初期ユーザークラス4の中心ベクトルと初期ユーザークラス1の中心ベクトルとの間の距離値がd13であることを算出した。電子機器は、初期ユーザークラス5の中心ベクトルと初期ユーザークラス1の中心ベクトルとの間の距離値がd14であることを算出した。
11<d12<d13<d14であり、d11が最小の距離値であり、かつ、d11が初期ユーザークラス2に対応する場合、電子機器は、初期ユーザークラス2が第2初期ユーザークラスであることを特定できる。電子機器は、初期ユーザークラス1と初期ユーザークラス2とを合併して、合併初期ユーザークラス1を得る。
電子機器は、合併初期ユーザークラス1をクラスタリングされたユーザークラス01とし、合併されていない初期ユーザークラス3をクラスタリングされたユーザークラス03とし、初期ユーザークラス4をクラスタリングされたユーザークラス04とし、初期ユーザークラス5をクラスタリングされたユーザークラス05とする。このように、電子機器は、4個のユーザークラスを得る。
一実施形態において、良いクラスタリング効果を得るために、電子機器は、複数のユーザークラスを得た後、ユーザー特徴ベクトルの集約値を算出することで、得られた複数のユーザークラスを合併する。そのうち、集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すためのものである。
一例において、電子機器は、以下のステップを用いて集約値を取得してもよい。
電子機器は、第1ユーザー特徴ベクトルと各第2ユーザー特徴ベクトルとの間の第1距離値を算出する。そのうち、第2ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラスに含まれる第1ユーザー特徴ベクトル以外のユーザー特徴ベクトルである。電子機器は、複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
電子機器は、第1ユーザー特徴ベクトルと各第3ユーザー特徴ベクトルのそれぞれとの間の第2距離値を算出する。そのうち、第3ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルである。電子機器は、同一のユーザークラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。電子機器は、複数の第2距離平均値における距離平均値の最小値を取得する。
その後、電子機器は、第1距離平均値と距離平均値の最小値との比を算出して、第1距離平均値と距離平均値の最小値との比を第1ユーザー特徴ベクトルの集約値とする。
以上、第1ユーザー特徴ベクトルを例として説明したが、これに限定されない。
例えば、図4に示すユーザークラスの分布図のように、図4における黒丸点は、それぞれ1つのユーザー特徴ベクトルを示す。図4に、ユーザークラス11と、ユーザークラス12と、ユーザークラス13を含む。ユーザークラス11に含まれるユーザー特徴ベクトルL11を例として、集約値を算出する際に、電子機器は、L11とユーザークラス11に含まれるユーザー特徴ベクトルL12との間の第1距離値d21を算出し、L11とユーザークラス11に含まれるユーザー特徴ベクトルL13との間の第1距離値d22を算出し、L11とユーザークラス11に含まれるユーザー特徴ベクトルL14の間の第1距離値d23を算出する。電子機器は、d21と、d22と、d23との平均値を算出して、第1距離平均値Dを得る。
電子機器は、L11とユーザークラス12に含まれるユーザー特徴ベクトルL21との間の第2距離値d24を算出し、L11とユーザークラス12に含まれるユーザー特徴ベクトルL22との間の第2距離値d25を算出し、L11とユーザークラス12に含まれるユーザー特徴ベクトルL23との間の第2距離値d26を算出する。電子機器は、d24と、d25と、d26との平均値を算出して、第2距離平均値Dを得る。
電子機器は、L11とユーザークラス13に含まれるユーザー特徴ベクトルL31との間の第2距離値d27を算出し、L11とユーザークラス13に含まれるユーザー特徴ベクトルL32との間の第2距離値d28を算出し、L11とユーザークラス13に含まれるユーザー特徴ベクトルL33との間の第2距離値d29を算出する。電子機器は、d27と、d27と、d29との平均値を算出して、第3距離平均値Dを得る。
<Dであると、電子機器は、DとDの比、すなわちD/Dを算出して、D/Dをユーザー特徴ベクトルL11の集約値J11とする。
同様に、電子機器は、ユーザークラス11に含まれる他のユーザー特徴ベクトルの集約値、及び、ユーザークラス12とユーザークラス13に含まれるユーザー特徴ベクトルの集約値を算出することができる。ここで、その説明を省略する。
また、電子機器が上記の特定した集約値に基づいて、得られた複数のユーザークラスを合併する処理手順は、以下のステップを含んでもよい。
電子機器は、複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。
電子機器は、得られた複数の距離値から、最小の距離値を取得し、最小の距離値によって対応付けられる第1ユーザークラスおよび第2ユーザークラスを特定する。
電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第1集約値を取得する。ここで、電子機器は、複数の第1集約値を取得する。
なお、電子機器が第1ユーザークラスおよび第2ユーザークラスを合併ユーザークラスとする場合、つまり、電子機器が第1ユーザークラスおよび第2ユーザークラスを1つのユーザークラスとする場合、電子機器は、合併ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得する。ここで、電子機器は、複数の第2集約値を取得する。
電子機器は、複数の第1集約値を加算して、第1総和値を得る。電子機器は、複数の第2集約値を加算して、第2総和値を得る。ここで、複数のユーザークラスに含まれる全てのユーザー特徴ベクトルの集約値の総和値は、クラスタリング効果を評価するためのものである。
第2総和値が第1総和値より小さい場合、電子機器は、第1ユーザークラスと第2ユーザークラスとを合併した後のクラスタリング効果がより良いであることを特定し、第1ユーザークラスと第2ユーザークラスとを合併する。
その後、電子機器は、複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる2つのユーザークラスを特定し、第2総和値が第1総和値以上になるまで、この2つのユーザークラスを合併する。
また、図4を例として説明する。電子機器は、ユーザークラス11の中心ベクトルとユーザークラス12の中心ベクトルとの間の距離値z、ユーザークラス11の中心ベクトルとユーザークラス13の中心ベクトルとの間の距離値z、及びユーザークラス12の中心ベクトルとユーザークラス13の中心ベクトルとの間の距離値zを算出する。z<z<zであり、zが最小である場合、zによって対応付けられるユーザークラス11を第1ユーザークラスとして特定し、zによって対応付けられるユーザークラス12を第2ユーザークラスとして特定する。
ユーザークラス11に対して、電子機器は、ユーザー特徴ベクトルL11の集約値J11と、ユーザー特徴ベクトルL12の集約値J12と、ユーザー特徴ベクトルL13の集約値J13と、ユーザー特徴ベクトルL14の集約値J14とを算出する。ユーザークラス12に対して、電子機器は、ユーザー特徴ベクトルL21の集約値J21と、ユーザー特徴ベクトルL22の集約値J22と、ユーザー特徴ベクトルL23の集約値J23とを算出する。ユーザークラス13に対して、電子機器は、ユーザー特徴ベクトルL31の集約値J31と、ユーザー特徴ベクトルL32の集約値J32と、ユーザー特徴ベクトルL33の集約値J33とを算出する。
なお、電子機器は、ユーザークラス11とユーザークラス12とを合併ユーザークラス01とする。合併ユーザークラス01に対して、電子機器は、ユーザー特徴ベクトルL11の集約値J01と、ユーザー特徴ベクトルL12の集約値J02と、ユーザー特徴ベクトルL13の集約値J03と、ユーザー特徴ベクトルL14の集約値J04と、ユーザー特徴ベクトルL21の集約値J05と、ユーザー特徴ベクトルL22の集約値J06と、ユーザー特徴ベクトルL23の集約値J07とを算出する。ユーザークラス13に対して、電子機器は、ユーザー特徴ベクトルL31の集約値J08と、ユーザー特徴ベクトルL32の集約値J09と、ユーザー特徴ベクトルL33の集約値J10とを算出する。
電子機器は、第1総和値MとしてM=J11+J12+J13+J14+J21+J22+J23+J31+J32+J33を算出した。
電子機器は、第2総和値MとしてM=J01+J02+J03+J04+J05+J06+J07+J08+J09+J10を算出した。
<Mである場合、電子機器は、ユーザークラス11とユーザークラス12とを合併して、合併ユーザークラス01を得る。そうでない場合、電子機器は、ユーザークラス11とユーザークラス12とを合併しない。
一例において、良いクラスタリング効果を得るために、電子機器は、以下のステップを用いて集約値を取得してもよい。
上記電子機器が第一距離平均値を特定し、複数の第2距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、距離平均値の最小値と第1距離平均値との比を算出した後、当該比から1を減算した結果、第1ユーザー特徴ベクトルの集約値を得る。
また、図4におけるユーザークラス11に含まれるユーザー特徴ベクトルL11を例として説明する。電子機器は、DとDとDを算出し、ここで、D<Dである。電子機器は、DとDとの比、すなわち、D/Dを算出した。その後、電子機器は、(D/D-1)をユーザー特徴ベクトルL11の集約値J11とする。
一例において、良いクラスタリング効果を得るために、電子機器は、以下のステップを用いて集約値を取得してもよい。
上記電子機器が第一距離平均値を特定し、複数の第2距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、第1距離平均値と距離平均値の最小値との比を算出した後、1から当該比を減算した結果、第1ユーザー特徴ベクトルの集約値を得る。
また、図4におけるユーザークラス11に含まれるユーザー特徴ベクトルL11を例として説明する。電子機器は、DとDとDを算出し、ここで、D<Dである。電子機器は、DとDとの比、すなわち、D/Dを算出した。その後、電子機器は、(1-D/D)をユーザー特徴ベクトルL11の集約値J11とする。
また、電子機器が、1から比を減算することによって得られた集約値、またはこの比から1を減算することによって得られた集約値に基づいて、得られた複数のユーザークラスを合併する手順は、以下のステップを含んでもよい。
電子機器は、複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。
電子機器は、得られた複数の距離値から最小の距離値を取得し、最小の距離値によって対応付けられる第1ユーザークラスおよび第2ユーザークラスを特定する。
電子機器は、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第1集約値を取得する。ここで、電子機器は、複数の第1集約値を取得してもよい。
なお、電子機器が第1ユーザークラスおよび第2ユーザークラスを合併ユーザークラスとする場合、つまり、電子機器が第1ユーザークラスおよび第2ユーザークラスを1つのユーザークラスとする場合、電子機器は、合併ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得する。ここで、電子機器は、複数の第2集約値を取得してもよい。
電子機器は、複数の第1集約値を加算して、第1総和値を得る。電子機器は、複数の第2集約値を加算して、第2総和値を得る。
第2総和値が第1総和値より大きい場合、電子機器は、第1ユーザークラスと第2ユーザークラスとを合併した後のクラスタリング効果がより良いであることを特定し、第1ユーザークラスと第2ユーザークラスとを合併する。
その後、電子機器は、複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる2つのユーザークラスを特定し、第2総和値が第1総和値以下になるまでこの2つのユーザークラスを合併する。
また、一実施形態において、クラスタリング処理の速度を高めるために、電子機器は、複数のユーザーにおける各ユーザーのユーザー属性に従って、まず、複数のユーザーに対して大まかな分類を実行して、各ユーザーが属する大まかなクラスを得る。各大まかなクラスについて、1つの大まかなクラスを例とする。電子機器は、予め設定されたクラスタリングアルゴリズムにより、当該1つの大まかなクラスに含まれる複数のユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。
例えば、ユーザー属性は、役職属性を含む。役職属性は、会計係や、出納係や、人事や、カスタマサービスや、開発設計などを含む。ユーザーの役職属性に応じて、ユーザーに対して大まかな分類を行う。例えば、会計係、出納係などの財務部に属するユーザーを1つの大まかなクラスに区分し、人事などの人事部に属するユーザーを1つの大まかなクラスに区分し、カスタマサービスなどの総務部に属するユーザーを1つの大まかなクラスに区分し、開発設計などの設計部に属するユーザーを1つの大まかなクラスに区分する。
クラスタリングする際に、電子機器は、予め設定されたクラスタリングアルゴリズムにより、設計部と、財務部と、総務部と、人事部という4つの大まかなクラスのそれぞれに含まれる複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。
また、電子機器が差分特徴ベクトルを取得する正確性を高めるために、電子機器に、各ユーザークラスの距離値の範囲を予め記憶している。距離値の範囲は、ユーザークラスに含まれるユーザー特徴ベクトルとユーザークラスの中心ベクトルとの間の距離値を制限するためのものである。
一実施形態において、電子機器は、以下のステップを用いて、距離値の範囲を特定してもよい。
電子機器は、ユーザークラスXの中心ベクトルとユーザークラスXに含まれる各ユーザー特徴ベクトルとの距離値を算出して、複数の距離値を得る。ユーザークラスXは、いずれかの1つのユーザークラスである。
電子機器は、第3距離平均値として、複数の距離値の距離平均値を算出する。電子機器は、第1標準偏差として、複数の距離値の標準偏差をさらに算出する。電子機器は、第3距離平均値および第1標準偏差に基づいて、正規分布曲線を作成する。当該正規分布曲線は、ユーザークラスXの中心ベクトルとユーザークラスXに含まれるユーザー特徴ベクトルとの間の距離値の分布を表すためのものである。
正規分布曲線に基づいて、電子機器は、第3距離平均値と第1標準偏差によって、第1境界値および第2境界値を特定する。そのうち、第1境界値は、第3距離平均値より小さく、第1境界値と第3距離平均値との差の絶対値は、予め設定された倍数の第1標準偏差である。第2境界値は、第3距離平均値より大きく、第2境界値と第3距離平均値との差の絶対値は、同様に、予め設定された倍数の第1標準偏差である。
電子機器は、第1境界値と第2境界値とからなる区間をユーザークラスXの距離値の範囲として特定する。
一例において、予め設定された倍数は3である。このとき、電子機器は、図5に示すように、3倍標準偏差に基づいて、ユーザークラスXの距離値の範囲を特定する。図5において、μは第3距離平均値であり、sは第1標準偏差であり、距離値の範囲はμ-3s~μ+3sである。
正規分布曲線において、第3距離平均値μとの距離が3倍標準偏差を超えるデータは、発生し得ないイベントを表す低確率イベントに属する。ユーザークラスXに含まれるユーザー特徴ベクトルについて、ユーザー特徴ベクトルとユーザークラスXの中心ベクトルとの距離値が距離値の範囲内に存在しない場合、電子機器は、このユーザー特徴ベクトルを差分特徴ベクトルとして確認しできる。
しかし、実際の応用では、ユーザークラスの中心ベクトルとユーザークラスに含まれるユーザー特徴ベクトルとの距離値の分布は、全て正規分布曲線に従うことではない。他の実施形態において、電子機器は、以下の方法を用いて、距離値の範囲を特定してもよい。
電子機器は、ユーザークラスXの中心ベクトルとユーザークラスXに含まれる各ユーザー特徴ベクトルとの距離値を算出して、複数の距離値を得る。
電子機器は、予め設定された対数関数に基づいて、複数の距離値における各距離値の対数値を算出する。電子機器は、対数平均値として、複数の対数値の平均値をさらに算出する。電子機器は、第2標準偏差として、複数の対数値の標準偏差をさらに算出する。電子機器は、対数平均値と第2標準偏差に基づいて、正規分布曲線を作成する。当該正規分布曲線は、ユーザークラスXの中心ベクトルとユーザークラスXに含まれるユーザー特徴ベクトルとの間の距離値の対数分布を表すためのものである。
正規分布曲線に基づいて、電子機器は、対数平均値および第2標準偏差によって、第3境界値および第4境界値を特定する。そのうち、第3境界値は、対数平均値より小さく、第3境界値と対数平均値の差の絶対値は、予め設定された倍数の第2標準偏差である。第4境界値は、対数平均値より大きく、第2境界値と対数平均値との差の絶対値は、同様に、予め設定された倍数の第2標準偏差である。
電子機器は、予め設定された対数関数の逆関数に基づいて、第3境界値の逆対数値を第1逆対数値として算出し、第4境界値の逆対数値を第2逆対数値として算出する。例えば、予め設定された対数関数がy=log10xである場合、予め設定された対数関数の逆関数はx=10である。
電子機器は、第1逆対数値と第2逆対数値とからなる区間を、ユーザークラスXの距離値の範囲として特定する。
また、一実施形態において、電子機器が異常ユーザーを特定する正確性を高めるために、電子機器は、複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、差分特徴ベクトルに対応するユーザー特徴値が予め設定された特徴基線値を超えるか否かを判断する。一例において、各ユーザー行動ディメンションについて、電子機器によって1つの特徴基線値が予め設定されている。
差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超える場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定でき、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定できる。
差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超えない場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が正常ユーザー行動であることを特定する。差分特徴ベクトルに対応する全てのユーザー特徴値が特徴基線値を超えない場合、電子機器は、差分特徴ベクトルによって対応付けられるユーザーが正常ユーザーであることを特定する。
例えば、ユーザー行動ディメンション1の特徴基線値はXであり、ユーザー行動ディメンション2の特徴基線値はXであり、ユーザー行動ディメンション3の特徴基線値はXである。差分特徴ベクトルは、ユーザー行動ディメンション1のユーザー特徴値1と、ユーザー行動ディメンション2のユーザー特徴値2と、ユーザー行動ディメンション3のユーザー特徴値3を含む。
ユーザー行動ディメンション1について、ユーザー特徴値1が特徴基線値Xを超える場合、電子機器は、ユーザー行動ディメンション1で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。
ユーザー行動ディメンション2について、ユーザー特徴値2が特徴基線値X2を超える場合、電子機器は、ユーザー行動ディメンション2で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。
ユーザー行動ディメンション3について、ユーザー特徴値3が特徴基線値Xを超える場合、電子機器は、ユーザー行動ディメンション3で対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。
ユーザー特徴値1が特徴基線値Xを超えなく、ユーザー特徴値2が特徴基線値Xを超えなく、かつ、ユーザー特徴値3が特徴基線値Xを超えない場合、電子機器は、差分特徴ベクトルによって対応付けられるユーザーが正常ユーザーであることを特定する。
本願の実施例において、ユーザー特徴値差分性が小さいユーザー行動ディメンション、例えば、ユーザー行動ディメンション1について、電子機器は、ユーザー行動ディメンション1の特徴基線値を直接に特定してもよい。
例えば、ユーザーがMACアドレスを切り替える頻度は通常、一日に1回または2回である。このとき、電子機器は、MACアドレスの切り替え頻度というユーザー行動ディメンションの特徴基線値が2であることを特定できる。
ユーザー特徴値差分性が大きいユーザー行動ディメンション、例えば、ユーザー行動ディメンション2について、電子機器は、ユーザー行動ディメンション2における複数のユーザー行動データのユーザー特徴値の確率密度分布を統計する。電子機器は、確率密度分布に基づいて、ユーザー行動ディメンション2の特徴基線値を特定する。
例えば、図6に示す累積確率曲線図のように、図6において、横軸はユーザー特徴値であり、縦軸は累積確率である。座標軸における矩形は、ユーザー特徴値の確率密度である。累積確率曲線は、確率密度分布に基づいて取得されるものである。図6から分かるように、ユーザー特徴値が20-120の区間にある場合、平均勾配に比べて、累積確率曲線の勾配は極めて小さいである。このとき、電子機器は、図6によって対応付けられるユーザー行動ディメンションの特徴基線値が20より小さくまたは120より大きいであることを特定できる。
一実施形態において、電子機器によって取得された複数のユーザー行動データは、1つのユーザーの複数のユーザー行動データであってもよい。本願の実施例は、さらに、異常ユーザーの識別方法を提供する。図7を参照すると、図7は本願の実施例に係る異常ユーザーの識別方法のさらに他のフローチャートである。当該方法は、以下のステップを含む。
ステップ701において、電子機器は、識別対象のユーザーの複数のユーザー行動データを取得する。複数のユーザー行動データは、少なくとも1つの過去のユーザー行動データと1つの現在のユーザー行動データとを含む。
本願の実施例において、識別対象のユーザーが異常ユーザーであるか否かを検出する必要がある場合、電子機器は、識別対象のユーザーの複数のユーザー行動データを取得する。ここで、識別対象のユーザーを例として説明するが、これに限定されない。
電子機器は、ユーザー行動ログから識別対象のユーザーの複数のユーザー行動データを取得してもよい。ここで、ユーザー行動ログは、ユーザーの様々なネットワーク行動を記録するためのものである。なお、電子機器は、ユーザーによって入力されたユーザー行動データから識別対象のユーザーの複数のユーザー行動データを取得してよい。本願の実施例において、電子機器がユーザー行動データを取得する方法は、限定されない。
本願の実施例において、電子機器は、予め設定された時間粒度により、異なるユーザーのユーザー行動データを取得してもよい。このうち、電子機器は、異常ユーザーを識別するための様々なニーズに応じて、異なる時間粒度を設定する。
電子機器は、予め設定された時間粒度に応じて、識別対象のユーザーの複数のユーザー行動データを取得する。
一例において、仮に、現在時刻は10:00であり、識別対象のユーザーはユーザーA1である。電子機器によって予め設定された時間粒度は、10分間である。電子機器は、9:50-10:00が示す時間帯におけるユーザーA1のユーザー行動データ31と、9:40-9:50が示す時間帯におけるユーザーA1のユーザー行動データ32と、9:30-9:40が示す時間帯におけるユーザーA1のユーザー行動データ33などを取得してもよい。そのうち、ユーザー行動データ31は、ユーザーA1の現在のユーザー行動データである。ユーザー行動データ32およびユーザー行動データ33などは、ユーザーA1の過去のユーザー行動データである。
他の一例において、仮に、現在時刻は10:00であり、識別対象のユーザーはユーザーA1である。電子機器によって予め設定された時間粒度は、10分間である。電子機器は、10:00-10:10が示す時間帯におけるユーザーA1のユーザー行動データ41と、9:50-10:00が示す時間帯におけるユーザーA1のユーザー行動データ42と、9:40-9:50が示す時間帯におけるユーザーA1のユーザー行動データ43と、9:30-9:40が示す時間帯におけるユーザーA1のユーザー行動データ44などを取得してもよい。そのうち、ユーザー行動データ41は、ユーザーA1の現在のユーザー行動データである。ユーザー行動データ42、ユーザー行動データ43およびユーザー行動データ44などは、ユーザーA1の過去のユーザー行動データである。
ステップ702において、電子機器は、予め設定された複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて現在のユーザー行動データの複数の第2データ特徴値を抽出する。
具体的に、電子機器が複数のユーザー行動ディメンションにおいて各ユーザー行動データのデータ特徴値を抽出することを容易にするために、ユーザー行動ディメンションを区分してビジネスレイヤ特徴ディメンションと行動レイヤ特徴ディメンションとを得ることができる。電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションによって、複数のユーザー行動ディメンションでデータ特徴値を迅速に抽出することができる。
電子機器は、ビジネスレイヤ特徴ディメンションおよび行動レイヤ特徴ディメンションに含まれるものを任意に組み合わせることで、複数のユーザー行動ディメンションを得る。一例において、図3に示すように、電子機器が取得したユーザー行動ディメンションは、IMによって送信されるメッセージ数や、IMによって受信されるメッセージ数や、IMによって送信されるファイル数や、IMによって送信されるファイルサイズなどを含むが、これに限定されない。
さらに、複数のユーザー行動ディメンションで、電子機器は、複数のユーザー行動データにおける各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数のユーザー行動データにおける現在のユーザー行動データの複数の第2データ特徴値を抽出した。
ステップ703において、電子機器は、複数の第1データ特徴値に基づいて、各過去のユーザー行動データの第1データ特徴ベクトルを特定し、複数の第2データ特徴値に基づいて、現在のユーザー行動データの第2データ特徴ベクトルを特定する、。
複数のユーザー行動データにおける各過去のユーザー行動データについて、1つの過去のユーザー行動データを例として説明する。電子機器は、当該1つの過去のユーザー行動データの複数の第1データ特徴値を組み合わせ、当該1つの過去のユーザー行動データの第1データ特徴ベクトルを得る。
複数のユーザー行動データにおける現在のユーザー行動データについて、電子機器は、現在のユーザー行動データの複数の第2データ特徴値を組み合わせ、現在のユーザー行動データの第2データ特徴ベクトルを得る。
具体的に、上記ステップの例示に従い、電子機器は、ユーザーA1のユーザー行動データ31と、ユーザーA1のユーザー行動データ32と、ユーザーA1のユーザー行動データ33とを取得する。
電子機器は、ユーザー行動データ31から、IMによって送信されるメッセージ数が10であり、IMによって受信されるメッセージ数が8であり、IMによって送信されるファイル数が2であり、IMによって送信されるファイルサイズが500KBであることを抽出した。
電子機器は、ユーザー行動データ32から、IMによって送信されるメッセージ数が9であり、IMによって受信されるメッセージ数が8であり、IMによって送信されるファイル数が3であり、IMによって送信されるファイルサイズが490KBであることを抽出した。
電子機器は、ユーザー行動データ33から、IMによって送信されるメッセージ数が10であり、IMによって受信されるメッセージ数が7であり、IMによって送信されるファイル数が1であり、IMによって送信されるファイルのサイズが600KBであることを抽出した。
このとき、電子機器は、ユーザー行動データ31のデータ特徴ベクトル01が{10、8、2、500}であり、ユーザー行動データ32のデータ特徴ベクトル02が{9、8、3、490}であり、ユーザー行動データ33のデータ特徴ベクトル03が{10、7、1、600}であることを特定できる。そのうち、データ特徴ベクトル01は第2データ特徴ベクトルであり、データ特徴ベクトル02およびデータ特徴ベクトル03は第1データ特徴ベクトルである。
ステップ704において、電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る。
本願の実施例において、予め設定されたクラスタリングアルゴリズムは、K-meansクラスタリングアルゴリズムやK-means Plusクラスタリングアルゴリズムなどであっても良い。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る。各データクラスに、少なくとも1つのデータ特徴ベクトルを含む。
一例において、予め設定されたクラスタリングアルゴリズムは、K-meansクラスタリングアルゴリズムである。電子機器は、K-meansクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを取得する。ただし、Kは正の整数である。電子機器は、これらのK個の初期データクラスをK個のデータクラスとする。
ステップ705において、電子機器は、第2データ特徴ベクトルが属する第1データクラスの第1中心ベクトルを特定する。
本願の実施例において、電子機器は、複数のデータクラスから第2データ特徴ベクトルが属する第1データクラスを特定し、第1データクラスに含まれる複数のデータ特徴ベクトルの平均値を算出し、当該平均値を第1データクラスの中心ベクトルとして、現在識別対象のユーザーが異常ユーザーであるか否かを特定する。そのうち、第1データクラスの中心ベクトルは、第1中心ベクトルである。
上記のステップの例示に従い、第1データクラスに、データ特徴ベクトル01と、データ特徴ベクトル02と、データ特徴ベクトル03とを含む。電子機器は、データ特徴ベクトル01と、データ特徴ベクトル02と、データ特徴ベクトル03との平均値tを算出し、算出した平均値tを第1データクラスの第1中心ベクトルとして特定する。
ステップ706において、電子機器は、第2データ特徴ベクトルと第1中心ベクトルとの間の距離値を特定する。
上記のステップの例示に従い、データ特徴ベクトル01は第2データ特徴ベクトルであり、第1データクラスの中心ベクトルはtである。電子機器は、データ特徴ベクトル01と中心ベクトルtとの間の距離値da1を算出する。
ステップ707において、距離値が予め設定された距離の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを特定する。
電子機器は、第2データ特徴ベクトルと第1中心ベクトルとの間の距離値を特定し、特定した距離値が予め設定された距離値の範囲内に存在するか否かを判断する。予め設定された距離の範囲内に存在しない場合、電子機器は、第2データ特徴ベクトルが差分特徴ベクトルであることを特定し、第2データ特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定し、すなわち、識別対象のユーザーが異常ユーザーであることを特定してもよい。
電子機器に、距離値の範囲を予め設定している。異なるデータクラスにおいて、データ特徴ベクトルの分布は異なる。電子機器が異常ユーザーを識別する正確性を高めるために、電子機器は、第1データクラスの距離値の範囲を予め設定してもよい。
本願の実施例において、第2データ特徴ベクトルと第1データクラスの中心ベクトルとの間の距離値について、この距離値が予め設定された距離値の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを特定する。この距離値が予め設定された距離値の範囲内に存在する場合、電子機器は、識別対象のユーザーが正常ユーザーであることを特定する。
上記のステップの例示に従い、予め設定された距離値の範囲は、da01~da02である。電子機器は、データ特徴ベクトル01と中心ベクトルtとの間の距離値da1を算出した。da1<da01あるいはda1>da02であると、電子機器は、識別対象のユーザーが異常ユーザーであることを特定し、すなわち、電子機器は、ユーザーA1が異常ユーザーであることを特定する。
本願の実施例において、電子機器は、データ特徴ベクトルをクラスタリングすることで、現在のユーザー行動データクラスが属する第1データクラスを得る。電子機器は、第1データクラスにおける第2データ特徴ベクトルと第1データクラスの中心ベクトルとの距離に基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器がブラックリストを設定することにより異常ユーザーを識別する必要がない。本願の実施例に係る異常ユーザーの識別方法は、管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。
また、一実施形態において、1つのデータクラスに含まれるデータ特徴ベクトルの個数が少なすぎることによるクラスタリング効果が理想的でなく異常ユーザーの識別が不正確であることを回避するために、電子機器に、予め設定された、データクラスに含まれるデータ特徴ベクトルの個数を制限するための数量閾値が記憶されている。電子機器は、予め設定されたクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得る(ステップ704)、以下のステップを含んでもよい。
電子機器は、K-meansクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを得る。
電子機器は、K個の初期データクラスにおける第1初期データクラスを取得する。そのうち、第1初期データクラスは、N個のデータ特徴ベクトルを含む。Nは正の整数である。第1初期データクラスは、K個の初期データクラスにおける第2データ特徴ベクトルが属する初期データクラスである。
電子機器は、Nが数量閾値より小さいか否かを検出する。Nが数量閾値以上である場合、電子機器は、これらのK個の初期データクラスをK個のデータクラスとする。
Nが予め設定された数量閾値より小さい場合、電子機器は、K個の初期データクラスにおける第2初期データクラスを取得する。そのうち、第2初期データクラスは、K個の初期データクラスにおいて、第1初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。
その後、電子機器は、第1初期データクラスと第2初期データクラスとを合併して、合併初期データクラスを得る。
電子機器は、合併初期データクラスをクラスタリングされたデータクラスとし、K個の初期データクラスにおける合併されていない他の初期データクラスをクラスタリングされたデータクラスとする。さらに、電子機器は、複数のデータクラスを得る。
一実施形態において、良いクラスタリング効果を得るために、電子機器は、データ特徴ベクトルの集約値を算出することで、得られた複数のデータクラスをさらに合併してもよい。そのうち、集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すためのものである。
一例において、一実施形態では、電子機器は、以下のステップを用いて集約値を取得してもよい。
電子機器は、第3データ特徴ベクトルと各第4データ特徴ベクトルとの間の第1距離値を算出する。そのうち、第4データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラスに含まれる第3データ特徴ベクトル以外のデータ特徴ベクトルである。電子機器は、複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
電子機器は、第3データ特徴ベクトルと各第5データ特徴ベクトルとの間の第2距離値を算出する。そのうち、第5データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラス以外の各データクラスに含まれるデータ特徴ベクトルである。電子機器は、同一のデータクラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。電子機器は、複数の第2距離平均値における距離平均値の最小値を取得する。
その後、電子機器は、第1距離平均値と距離平均値の最小値との比を算出して、第3データ特徴ベクトルの集約値を得る。
以上、第3データ特徴ベクトルを例として説明したが、これに限定されない。
一例において、電子機器が上記の特定された集約値に基づいて、得られた複数のデータクラスを合併する手順は、以下のステップを含んでもよい。
電子機器は、第1中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。すなわち、電子機器は、第1中心ベクトルと第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。第2中心ベクトルは、複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの中心ベクトルである。
電子機器は、得られた複数の距離値から最小の距離値を取得し、最小の距離値によって対応付けられる第2データクラスを特定する。
電子機器は、複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第3集約値を取得する。ここで、電子機器は、複数の第3集約値を取得してもよい。
なお、電子機器が第1データクラスおよび第2データクラスを合併データクラスとする場合、つまり、電子機器が第1データクラスおよび第2データクラスうを1つのデータクラスとする場合、電子機器は、合併データクラスに含まれるデータ特徴ベクトルの第4集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第4集約値を取得する。ここで、電子機器は、複数の第4集約値を取得してもよい。
電子機器は、複数の第3集約値を加算して、第3総和値を得る。電子機器は、複数の第4集約値を加算して、第4総和値を得る。ここで、複数のデータクラスにおける全てのデータ特徴ベクトルの集約値の総和値は、クラスタリング効果を評価するためのものである。
第4総和値が第3総和値より小さい場合、電子機器は、第1データクラスと第2データクラスとを合併した後のクラスタリング効果がより良いであることを特定し、第1データクラスと第2データクラスとを合併する。
その後、電子機器は、第1データクラスの中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの中心ベクトルとの間の距離値を改めて算出して、得られた複数の距離値における最小距離値によって対応付けられる第2データクラスを特定し、第4総和値が第3総和値以上になるまで第1データクラスおよび第2データクラスを合併する。
一例において、良いクラスタリング効果を得るために、電子機器は、以下のステップを用いて集約値を取得してもよい。
上記電子機器が第一距離平均値を特定し、複数の第2距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、距離平均値の最小値と第1距離平均値との比を算出した後、当該比から1を減算した結果、第3データ特徴ベクトルの集約値を得る。
一例において、良いクラスタリング効果を得るために、電子機器は、以下のステップを用いて集約値を取得してもよい。
上記電子機器が第一距離平均値を特定し、複数の第2距離平均値における距離平均値の最小値を特定する手順のように、電子機器は、第1距離平均値と距離平均値の最小値との比を算出した後、1から当該比を減算した結果、第3データ特徴ベクトルの集約値を得る。
また、電子機器が、1から比を減算して得られた集約値、または比から1を減算して得られた集約値に基づいて、得られた複数のデータクラスを合併する手順は、以下のステップを含んでもよい。
電子機器は、第1中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。すなわち、電子機器は、第1中心ベクトルと第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。第2中心ベクトルは、複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの中心ベクトルである。
電子機器は、得られた複数の距離値から最小の距離値を取得し、最小の距離値によって対応付けられる第2データクラスを特定する。
電子機器は、複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第3集約値を取得する。ここで、電子機器は、複数の第3集約値を取得してもよい。
なお、電子機器が第1データクラスおよび第2データクラスを合併データクラスとする場合、つまり、電子機器が第1データクラスおよび第2データクラスうを1つのデータクラスとする場合、電子機器は、合併データクラスに含まれるデータ特徴ベクトルの第4集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第4集約値を取得する。ここで、電子機器は、複数の第4集約値を取得してもよい。
電子機器は、複数の第3集約値を加算して、第3総和値を得る。電子機器は、複数の第4集約値を加算して、第4総和値を得る。
第4総和値が第3総和値より大きい場合、電子機器は、第1データクラスと第2データクラスとを合併した後のクラスタリングの効果がより良いであることを特定し、第1データクラスと第2データクラスとを合併する。
その後、電子機器は、第1データクラスの中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの中心ベクトルとの間の距離値を改めて算出し、得られた複数の距離値における最小距離値によって対応付けられる第2データクラスを特定し、第4総和値が第3総和値以下になるまで第1データクラスおよび第2データクラスを合併する。
また、電子機器が異常ユーザーを識別する正確性を高めるために、電子機器に、第1データクラスの距離値の範囲を予め記憶している。距離値の範囲は、データクラスにおけるデータ特徴ベクトルとデータクラスの中心ベクトルとの間の距離値を制限するためのものである。
一実施形態において、電子機器は、以下の方法を用いて、第1データクラスの距離値範囲を特定してよい。
電子機器は、第1中心ベクトルと第1データクラスに含まれるデータ特徴ベクトルそれぞれとの距離値を算出して、複数の距離値を得る。
電子機器は、第3距離平均値として、複数の距離値の距離平均値を算出する。電子機器は、第1標準偏差として、複数の距離値の標準偏差をさらに算出する。電子機器は、第3距離平均値および第1標準偏差に基づいて、正規分布曲線を作成してよい。当該正規分布曲線は、第1中心ベクトルと第1データクラスに含まれるデータ特徴ベクトルとの間の距離値の分布を表すためのものである。
正規分布曲線に基づいて、電子機器は、第3距離平均値と第1標準偏差によって、第1境界値および第2境界値を特定する。そのうち、第1境界値は、第3距離平均値より小さく、第1境界値と第3距離平均値との差の絶対値は、予め設定された倍数の第1標準偏差である。第2境界値は、第3距離平均値より大きく、第2境界値と第3距離平均値との差の絶対値は、同様に、予め設定された倍数の第1標準偏差である。
電子機器は、第1境界値と第2境界値とからなる区間を第1データクラスの距離値の範囲として特定する。
一例において、予め設定された倍数が3である。このとき、図5に示すように、電子機器は、3倍標準偏差に基づいて、第1データクラスの距離値の範囲を特定する。図5において、μは第3距離平均値であり、sは第1標準偏差であり、距離値の範囲はμ-3s~μ+3sである。
正規分布曲線において、第3距離平均値μとの距離が3倍標準偏差を超えるデータは、発生し得ないイベントを表す低確率イベントに属する。第2データ特徴ベクトルと第1中心ベクトルとの間の距離値が距離値の範囲内に存在しない場合、電子機器は、識別対象のユーザーが異常ユーザーであることを確認できる。
しかし、実際の応用では、第1中心ベクトルと第1データクラスに含まれるデータ特徴ベクトルとの距離値の分布は、必ずしも正規分布に従うことではない。他の実施形態において、電子機器は、以下の方法を用いて、第1データクラスの距離値の範囲を特定してもよい。
電子機器は、第1中心ベクトルと第1データクラスに含まれるデータ特徴ベクトルのそれぞれとの距離値を算出して、複数の距離値を得る。
電子機器は、予め設定された対数関数に基づいて、複数の距離値における各距離値の対数値を算出する。電子機器は、対数平均値として、複数の対数値の平均値をさらに算出する。電子機器は、第2標準偏差として、複数の対数値の標準偏差をさらに算出する。電子機器は、対数平均値と第2標準偏差に基づいて、正規分布曲線を作成してよい。当該正規分布曲線は、第1中心ベクトルと第1データクラスにおけるデータ特徴ベクトルとの間の距離値の対数分布を表すためのものである。
正規分布曲線に基づいて、電子機器は、対数平均値および第2標準偏差によって、第3境界値および第4境界値を特定する。そのうち、第3境界値は、対数平均値より小さく、第3境界値と対数平均値の差の絶対値は、予め設定された倍数の第2標準偏差である。第4境界値は、対数平均値より大きく、第2境界値と対数平均値との差の絶対値は、同様に、予め設定された倍数の第2標準偏差である。
電子機器は、予め設定された対数関数の逆関数に基づいて、第1逆対数値として第3境界値の逆対数値を算出し、第2逆対数値として第4境界値の逆対数値を算出する。例えば、予め設定された対数関数がy=log10xである場合、予め設定された対数関数の逆関数はx=10である。
電子機器は、第1逆対数値と第2逆対数値とからなる区間を、第1データクラスの距離値の範囲として特定する。
また、一実施形態において、電子機器が異常ユーザーを識別する正確性を高めるために、電子機器は、複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、第2データ特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断する。一例において、各ユーザー行動ディメンションについて、電子機器によって1つの特徴基線値が予め設定されている。ここで、第2データ特徴ベクトルは、差分特徴ベクトルである。
第2データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超える場合、電子機器は、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定でき、識別対象のユーザーが異常ユーザーであることを特定できる。
第2データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超えない場合、電子機器は、ユーザー行動ディメンション下で対応付けられるユーザー行動が正常ユーザー行動であることを特定できる。第2データ特徴ベクトルに対応する全てのデータ特徴値が何れも特徴基線値を超えない場合、電子機器は、識別対象のユーザーが正常ユーザーであることを特定する。
本願の実施例において、データ特徴値差分性が小さいユーザー行動ディメンション、例えば、ユーザー行動ディメンション1について、電子機器は、ユーザー行動ディメンション1の特徴基線値を直接に特定してもよい。例えば、ユーザーがMACアドレスを切り替える頻度は通常、一日に1回または2回であり、このとき、電子機器は、MACアドレスの切り替え頻度というユーザー行動ディメンションの特徴基線値が2であることを特定できる。
データ特徴値差分性が大きいユーザー行動ディメンション、例えば、ユーザー行動ディメンション2について、電子機器は、ユーザー行動ディメンション2における複数のユーザー行動データのデータ特徴値の確率密度分布を統計する。電子機器は、確率密度分布に基づいて、ユーザー行動ディメンション2の特徴基線値を特定する。
同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、異常ユーザーの識別装置をさらに提供する。図8を参照すると、図8は、本願の実施例に係る異常ユーザーの識別装置の第1構成模式図である。当該装置は、取得手段801と、抽出手段802と、第1特定手段803と、クラスタリング手段804と、第2特定手段805と、第3特定手段806を含む。
取得手段801は、ユーザーのユーザー行動データを取得する。
抽出手段802は、予め設定された複数の行動ディメンションにおいてユーザー行動データの複数の特徴値を抽出する。
第1特定手段803は、複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。
クラスタリング手段804は、予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得る。
第2特定手段805は、差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在しない。
第3特定手段806は、差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。
本願の実施例に係る異常ユーザーの識別装置において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーの識別することを実現した。
一例において、上記ユーザーは、複数のユーザーである。
このとき、取得手段801は、具体的に、複数のユーザーのユーザー行動データを取得するために用いられる。
抽出手段802は、具体的に、予め設定された複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出するために用いられる。
第1特定手段803は、具体的に、複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定するために用いられる。
クラスタリング手段804は、予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得、複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定するために用いられる。
一例において、クラスタリング手段804は、具体的に、以下のように用いられる。
K-meansクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得る。Kは正の整数である。
K個の初期ユーザークラスにおける第1初期ユーザークラスおよび第2初期ユーザークラスを取得する。
第1初期ユーザークラスと第2初期ユーザークラスとを合併して、合併初期ユーザークラスを得る。
合併初期ユーザークラスおよびK個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをそれぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得る。
第1初期ユーザークラスは、K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスである。
第2初期ユーザークラスは、K個の初期ユーザークラスにおいて、第1初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである。
一例において、クラスタリング手段804は、さらに以下のように用いられる。
複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。
複数の距離値における最小距離値によって対応付けられる第1ユーザークラスおよび第2ユーザークラスを特定する。
複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第1集約値を取得する。
第1ユーザークラスおよび第2ユーザークラスを合併ユーザークラスとする場合、合併ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得する。
複数の第1集約値を加算して、第1総和値を得る。
複数の第2集約値を加算して、第2総和値を得る。
第2総和値が第1総和値より小さい場合、第1ユーザークラスと第2ユーザークラスとを合併する。
そのうち、集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すためのものである。
一例において、クラスタリング手段804は、さらに以下のように用いられる。
第1ユーザー特徴ベクトルと各第2ユーザー特徴ベクトルとの間の第1距離値を算出する。第2ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラスにおける第1ユーザー特徴ベクトル以外のユーザー特徴ベクトルである。
第1ユーザー特徴ベクトルと各第3ユーザー特徴ベクトルとの間の第2距離値を算出する。第3ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラス以外の各ユーザークラスにおけるユーザー特徴ベクトルである。
複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
同一のユーザークラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。
複数の第2距離平均値における距離平均値の最小値を取得する。
第1距離平均値と距離平均値の最小値の比を、第1ユーザー特徴ベクトルの集約値とする。
一例において、第3特定手段806は、具体的に、以下のように用いられる。
複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、差分特徴ベクトルに対応するユーザー特徴値が予め設定された特徴基線値を超えるか否かを判断する。
差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。
一例において、上記ユーザーは、1つのユーザーである。ユーザー行動データは、上記ユーザーの少なくとも1つの過去のユーザー行動データおよび1つの現在のユーザー行動データを含んでもよい。
このとき、取得手段801は、具体的に、識別対象のユーザーの複数のユーザー行動データを取得するために用いられる。複数のユーザー行動データは、少なくとも1つの過去のユーザー行動データと1つの現在のユーザー行動データとを含む。
抽出手段802は、具体的に、予め設定された複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて現在のユーザー行動データの複数の第2データ特徴値を抽出するために用いられる。
第1特定手段803は、具体的に、複数の第1データ特徴値に基づいて、少なくとも1つの過去のユーザー行動データにおける各過去のユーザー行動データの第1データ特徴ベクトルを特定し、複数の第2データ特徴値に基づいて、現在のユーザー行動データの第2データ特徴ベクトルを特定するために用いられる。
クラスタリング手段804は、具体的に、予め設定されたクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを取得し、第2データ特徴ベクトルが属する第1データクラスの中心ベクトルを特定するために用いられる。
第2特定手段805は、第2データ特徴ベクトルと第1データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断し、予め設定された距離値の範囲内に存在しない場合、第2データ特徴ベクトルが差分特徴ベクトルであることを特定するために用いられる。
一例において、クラスタリング手段804は、具体的に、以下のように用いられる。
K-meansクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを得る。Kは正の整数である。
K個の初期データクラスにおける第1初期データクラスを取得する。第1初期データクラスは、N個のデータ特徴ベクトルを含む。Nは正の整数である。
Nが予め設定された数量閾値より小さい場合、K個の初期データクラスにおける第2初期データクラスを取得する。
第1初期データクラスと第2初期データクラスとを合併して、合併初期データクラスを得る。
合併初期データクラスおよびK個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得る。
第1初期データクラスは、第2データ特徴ベクトルが属する初期データクラスである。
第2初期データクラスは、前記K個の初期データクラスにおいて、第1初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。
一例において、クラスタリング手段804は、具体的に、以下のように用いられる。
第1中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。
複数の距離値における最小距離値によって対応付けられる第2データクラスを特定する。
複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第3集約値を取得する。
第1データクラスおよび第2データクラスを合併データクラスとする場合、合併データクラスに含まれるデータ特徴ベクトルの第4集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第4集約値を取得する。
複数の第3集約値を加算して、第3総和値を得る。
複数の第4集約値を加算して、第4総和値を得る。
第4総和値が第3総和値より小さい場合、第1データクラスと第2データクラスとを合併する。
そのうち、集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すためのものである。
一例において、クラスタリング手段804は、具体的に、以下のように用いられる。
第3データ特徴ベクトルと各第4データ特徴ベクトルとの間の第1距離値を算出する。第4データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラスにおける第3データ特徴ベクトル以外のデータ特徴ベクトルである。
第3データ特徴ベクトルと各第5データ特徴ベクトルとの間の第2距離値を算出する。第5データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラス以外の各データクラスにおけるデータ特徴ベクトルである。
複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
同一のユーザークラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。
複数の第2距離平均値における距離平均値の最小値を取得する。
第1距離平均値と距離平均値の最小値との比を、第3データ特徴ベクトルの集約値とする。
一例において、第3特定手段806は、具体的に、以下のように用いられる。
複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、第2データ特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断する。そのうち、第2データ特徴ベクトルは、差分特徴ベクトルである。
第2データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、識別対象のユーザーが異常ユーザーであることを特定する。
同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、電子機器をさらに提供する。図9に示すように、プロセッサ901と、プロセッサ901によって実行されることができる機械実行可能命令を記憶している機械可読記憶媒体902とを含む。機械実行可能命令は、プロセッサ901に以下の動作を実行させる。
ユーザーのユーザー行動データを取得する。
予め設定された複数の行動ディメンションにおいてユーザー行動データの複数の特徴値を抽出する。
複数の特徴値に基づいて、ユーザー行動データに対応する特徴ベクトルを特定する。
予め設定されたクラスタリングアルゴリズムにより、特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得る。
差分特徴ベクトルを特定し、当該差分特徴ベクトルと、当該差分特徴ベクトルが属する集約クラスの中心ベクトルとの間の距離値は予め設定された距離値の範囲内に存在しない。
差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定する。
本願の実施例に係る電子機器において、電子機器は、特徴ベクトルをクラスタリングすることで、集約クラスの中心ベクトルとの距離が予め設定された距離値の範囲内に存在しない差分特徴ベクトルを取得する。電子機器は、取得した差分特徴ベクトルに基づいて、異常ユーザーに対する識別を実現した。管理者が制限されるユーザー名をブラックリストに入れる必要がなく、電子機器もブラックリストを設定することにより異常ユーザーを識別する必要がない。管理者に知られなく、かつ、異常な行動を見つけられないユーザーを識別することを実現した。
一例において、ユーザーが複数のユーザーである場合、機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
複数のユーザー行動ディメンションにおいて複数のユーザーにおける各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出する。
複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定する。
予め設定されたクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得る。
複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する。
一例において、機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
K-meansクラスタリングアルゴリズムにより、複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得る。Kは正の整数である。
K個の初期ユーザークラスにおける第1初期ユーザークラスおよび第2初期ユーザークラスを取得する。
第1初期ユーザークラスと第2初期ユーザークラスとを合併して、合併初期ユーザークラスを得る。
合併初期ユーザークラスおよびK個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをそれぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得る。
第1初期ユーザークラスは、K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスである。
第2初期ユーザークラスは、K個の初期ユーザークラスにおいて、第1初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである。
一例において、機械実行可能命令は、さらに、プロセッサ901に以下の動作を実行させてもよい。
複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得る。
複数の距離値における最小距離値によって対応付けられる第1ユーザークラスおよび第2ユーザークラスを特定する。
複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第1集約値を取得する。
第1ユーザークラスおよび第2ユーザークラスを合併ユーザークラスとする場合、合併ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得し、複数のユーザークラスにおける合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得する。
複数の第1集約値を加算して、第1総和値を得る。
複数の第2集約値を加算して、第2総和値を得る。
第2総和値が第1総和値より小さい場合、第1ユーザークラスと第2ユーザークラスとを合併する。
そのうち、集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すためのものである。
一例において、機械実行可能命令は、さらに、プロセッサ901に以下の動作を実行させてもよい。
第1ユーザー特徴ベクトルと各第2ユーザー特徴ベクトルとの間の第1距離値を算出する。第2ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラスにおける第1ユーザー特徴ベクトル以外のユーザー特徴ベクトルである。
第1ユーザー特徴ベクトルと各第3ユーザー特徴ベクトルとの間の第2距離値を算出する。第3ユーザー特徴ベクトルは、第1ユーザー特徴ベクトルが属するユーザークラス以外の各ユーザークラスにおけるユーザー特徴ベクトルである。
複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
同一のユーザークラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。
複数の第2距離平均値における距離平均値の最小値を取得する。
第1距離平均値と距離平均値の最小値の比を、第1ユーザー特徴ベクトルの集約値とする。
一例において、機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、差分特徴ベクトルに対応するユーザー特徴値が予め設定された特徴基線値を超えるか否かを判断する。
差分特徴ベクトルに対応するユーザー特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する。
一例において、前記ユーザーが1つのユーザーである場合、前記ユーザー行動データは、前記ユーザーの少なくとも1つの過去のユーザー行動データおよび1つの現在のユーザー行動データを含む。
機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
複数の行動ディメンションにおいて前記少なくとも1つの過去のユーザー行動データにおける各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数の行動ディメンションにおいて前記現在のユーザー行動データの複数の第2データ特徴値を抽出する。
前記複数の第1データ特徴値に基づいて、各過去のユーザー行動データの第1データ特徴ベクトルを特定し、前記複数の第2データ特徴値に基づいて、前記現在のユーザー行動データの第2データ特徴ベクトルを特定する。
予め設定されたクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを取得する。
前記第2データ特徴ベクトルが属する第1データクラスの第1中心ベクトルを特定する。
前記第2データ特徴ベクトルと前記第1データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断する。
予め設定された距離値の範囲内に存在しない場合、前記第2データ特徴ベクトルが差分特徴ベクトルであることを特定する。
一例において、機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
K-meansクラスタリングアルゴリズムにより、複数の第1データ特徴ベクトルと第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを得る。Kは正の整数である。
K個の初期データクラスにおける第1初期データクラスを取得する。第1初期データクラスは、N個のデータ特徴ベクトルを含む。Nは正の整数である。
Nが予め設定された数量閾値より小さい場合、K個の初期データクラスにおける第2初期データクラスを取得する。
第1初期データクラスと第2初期データクラスとを合併して、合併初期データクラスを得る。
合併初期データクラスおよびK個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得る。
第1初期データクラスは、第2データ特徴ベクトルが属する初期データクラスである。
第2初期データクラスは、K個の初期データクラスにおいて、第1初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである。
一例において、機械実行可能命令は、さらに、プロセッサ901に以下の動作を実行させてもよい。
第1中心ベクトルと複数のデータクラスにおける第1データクラス以外の任意1つのデータクラスの第2中心ベクトルとの間の距離値を算出して、複数の距離値を得る。
複数の距離値における最小距離値によって対応付けられる第2データクラスを特定する。
複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第3集約値を取得する。
第1データクラスおよび第2データクラスを合併データクラスとする場合、合併データクラスに含まれるデータ特徴ベクトルの第4集約値を取得し、複数のデータクラスにおける合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第4集約値を取得する。
複数の第3集約値を加算して、第3総和値を得る。
複数の第4集約値を加算して、第4総和値を得る。
第4総和値が第3総和値より小さい場合、第1データクラスと第2データクラスとを合併する。
そのうち、集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すためのものである。
一例において、機械実行可能命令は、さらに、プロセッサ901に以下の動作を実行させてもよい。
第3データ特徴ベクトルと各第4データ特徴ベクトルとの間の第1距離値を算出する。第4データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラスにおける第3データ特徴ベクトル以外のデータ特徴ベクトルである。
第3データ特徴ベクトルと各第5データ特徴ベクトルとの間の第2距離値を算出する。第5データ特徴ベクトルは、第3データ特徴ベクトルが属するデータクラス以外の各データクラスにおけるデータ特徴ベクトルである。
複数の第1距離値に対して平均値を取り、第1距離平均値を得る。
同一のユーザークラスに属する複数の第2距離値に対して平均値を取り、複数の第2距離平均値を得る。
複数の第2距離平均値における距離平均値の最小値を取得する。
第1距離平均値と距離平均値の最小値との比を、第3データ特徴ベクトルの集約値とする。
一例において、機械実行可能命令は、具体的に、プロセッサ901に以下の動作を実行させてもよい。
複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションにより、第2データ特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断する。そのうち、第2データ特徴ベクトルは、差分特徴ベクトルである。
第2データ特徴ベクトルに対応するデータ特徴値が特徴基線値を超える場合、ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、識別対象のユーザーが異常ユーザーであることを特定する。
なお、図9に示すように、電子機器は、通信インタフェース903と、通信バス904とを含んでもよい。そのうち、プロセッサ901、機械可読記憶媒体902、および通信インタフェース903は、通信バス904を介して互いに通信を行う。通信インタフェース903は、上記電子機器と他の装置との間の通信に用いられる。
上記通信バスは、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect、PCIと略称する)バス、または拡張業界標準アーキテクチャ(Extended Industry Standard Architecture、EISAと略称する)バスであってもよい。当該通信バスは、アドレスバス、データバス、コントロールバスなどに分かれてよい。
上記機械可読記憶媒体は、ランダムアクセスメモリ(Random Access Memory、RAMと略称する)を含んでもよいし、不揮発性メモリ(Non-Volatile Memory、NVMと略称する)、例えば、少なくとも1つの磁気ディスクメモリを含んでもよい。なお、機械可読記憶媒体は、上記プロセッサから離れて配置される少なくとも1つの記憶装置であってもよい。
上記のプロセッサは、中央処理装置(Central Processing Unit、CPUと略称する)、ネットワークプロセッサ(Network Processor、NPと略称する)などの汎用プロセッサであってもよいし、デジタル信号プロセッサ(Digital Signal Processing、DSPと略称する)、特定用途向け集積回路(Application Specific Integrated Circuit、ASICと略称する)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGAと略称する)、または、他のプログラム可能な論理装置、ディスクリートゲートあるいはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよい。
同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、機械実行可能命令を記憶している機械可読記憶媒体をさらに提供する。プロセッサによって呼び出されて実行されると、機械実行可能命令は、プロセッサに上記図1~7に示す何れか一つの異常ユーザーの識別方法のステップを実行させる。
同様の発想に基づいて、上記異常ユーザーの識別方法によれば、本願の実施例は、プロセッサによって呼び出されて実行されると、プロセッサに上記図1~7に示す何れか一つの異常ユーザーの識別方法のステップを実行させる、機械実行可能命令をさらに提供する。
なお、本明細書では、第1や第2等のような関係用語は1つのエンティティ又は操作を他のエンティティ又は操作と区別するためのものに過ぎず、必ずしもこれらのエンティティ又は操作の間にこのような実際の関係又は順序があることをリクエスト又は示唆しない。また、用語「含む」、「備える」又はほかの変形は非排他的包含をカバーすることで、一連の要素を含むプロセス、方法、物品又は装置はこれらの要素を含むだけでなく、明確に挙げられていないほかの要素をさらに含み、又はこのようなプロセス、方法、物品又は装置で固有の要素をさらに含む。特に限定しない限り、文「1つの…を含む」により限定される要素は、前記要素を含むプロセス、方法、物品又は装置がほかの同一の要素をさらに含むことを排除するものではない。
本明細書における各実施例は、いずれも、相互に関連するように記載されており、各実施例同士間の同一または類似な部分を相互を参照すればよく、各実施例が主に説明したのは、他の実施例との相違点である。特に、異常ユーザーの識別装置、電子機器および機械可読記憶媒体の実施例について、それらが異常ユーザーの識別方法の実施例にほぼ似ているため、簡単に説明され、関連する内容は、異常ユーザーの識別方法の実施例の説明部分を参照すればよい。
以上、本願の好適実施例を説明したが、本願の保護範囲を限定するものではない。本願の精神及び原則を逸脱せずに行われる変更、同等置換、改良等は、いずれも、本願の保護範囲に属する。

Claims (15)

  1. 電子機器に適用される異常ユーザーの識別方法であって、前記電子機器は、取得手段と、抽出手段と、第1特定手段と、クラスタリング手段と、第2特定手段と、第3特定手段を含み、
    前記異常ユーザーの識別方法は、
    前記取得手段は、ユーザーのユーザー行動データを取得し、前記ユーザー行動データは、少なくとも1つの過去のユーザー行動データと1つの現在のユーザー行動データとを含むことと、
    前記抽出手段は、予め設定された複数のユーザー行動ディメンションにおいて、前記ユーザー行動データの複数の特徴値を抽出することと、
    前記第1特定手段は、前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することと、
    前記クラスタリング手段は、予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることと、
    前記第2特定手段は、集約クラスにおける特徴ベクトルと、集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在するか否かを判断し、前記距離値予め設定された距離値の範囲内に存在しない特徴ベクトルを差分特徴ベクトルとして特定することと、
    前記第3特定手段は、前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することと、
    を含む異常ユーザーの識別方法。
  2. 前記ユーザーが複数のユーザーである場合、
    前記抽出手段が、前記予め設定された複数のユーザーメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することは、
    複数のユーザー行動ディメンションにおいて各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出することを含み、
    前記第1特定手段が、前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することは、
    前記複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、前記複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定することを含み、
    前記クラスタリング手段が、前記予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることは、
    予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得ることと、
    前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、前記複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定することとを含む、
    請求項1に記載の異常ユーザーの識別方法。
  3. 前記クラスタリング手段が、予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得ることは、
    K-meansクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得、前記Kが正の整数であることと、
    前記K個の初期ユーザークラスにおける第1初期ユーザークラスおよび第2初期ユーザークラスを取得することと、
    前記第1初期ユーザークラスと前記第2初期ユーザークラスとを合併して、合併初期ユーザークラスを得ることと、
    前記合併初期ユーザークラスおよび前記K個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスを、それぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得ることとを含み、
    前記第1初期ユーザークラスは、前記K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスであり、
    前記第2初期ユーザークラスは、前記K個の初期ユーザークラスにおける初期ユーザークラスであり、当該初期ユーザークラスの中心ベクトルと前記第1初期ユーザークラスの中心ベクトルとの距離値は最小である、
    請求項2に記載の異常ユーザーの識別方法。
  4. 前記クラスタリング手段によって、前記複数のユーザークラスにおける任意2つのユーザークラスの中心ベクトル同士間の距離値を算出して、複数の距離値を得ることと、
    前記複数の距離値における最小距離値によって対応付けられる第1ユーザークラスおよび第2ユーザークラスを特定することと、
    前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルの第1集約値を取得することと、
    前記第1ユーザークラスおよび前記第2ユーザークラスを合併ユーザークラスとする場合、前記合併ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得し、前記複数のユーザークラスにおける前記合併ユーザークラス以外の各ユーザークラスに含まれるユーザー特徴ベクトルの第2集約値を取得することと、
    複数の第1集約値を加算して、第1総和値を得ることと、
    複数の第2集約値を加算して、第2総和値を得ることと、
    前記第2総和値が前記第1総和値より小さい場合、前記第1ユーザークラスと前記第2ユーザークラスとを合併することと、を実行すること
    をさらに含み、
    前記第1集約値と前記第2集約値は、ユーザー特徴ベクトルがユーザークラスに属する妥当性を表すものである、
    請求項3に記載の異常ユーザーの識別方法。
  5. 前記ユーザーが1つのユーザーである場合
    前記抽出手段が、前記予め設定された複数のユーザー行動ディメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することは、
    複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて前記現在のユーザー行動データの複数の第2データ特徴値を抽出することを含み、
    前記第1特定手段が前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することは、
    前記複数の第1データ特徴値に基づいて、各過去のユーザー行動データの第1データ特徴ベクトルを特定し、前記複数の第2データ特徴値に基づいて、前記現在のユーザー行動データの第2データ特徴ベクトルを特定することを含み、
    前記クラスタリング手段が前記予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを得ることは、
    予め設定されたクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得ることと、前記第2データ特徴ベクトルが属する第1データクラスの中心ベクトルを特定することを含み、
    前記第2特定手段は前記距離値が予め設定された距離値の範囲内に存在しない特徴ベクトを差分特徴ベクトルとして特定することは、
    前記第2データ特徴ベクトルと前記第1データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断することと、
    距離値が予め設定された距離値の範囲内に存在しない場合、前記第2データ特徴ベクトルが差分特徴ベクトルであることを特定することとを含む、
    請求項1に記載の異常ユーザーの識別方法。
  6. 前記クラスタリング手段が予め設定されたクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得ることは、
    K-meansクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを得、前記Kが正の整数であることと、
    前記K個の初期データクラスにおけるN個のデータ特徴ベクトルを含む第1初期データクラスを取得し、前記Nが正の整数であることと、
    Nが予め設定された数量閾値より小さい場合、前記K個の初期データクラスにおける第2初期データクラスを取得することと、
    前記第1初期データクラスと前記第2初期データクラスとを合併して、合併初期データクラスを得ることと、
    前記合併初期データクラスおよび前記K個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得ることとを含み、
    前記第1初期データクラスは、前記第2データ特徴ベクトルが属する初期データクラスであり、
    前記第2初期データクラスは、前記K個の初期データクラスにおいて、前記第1初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである、
    請求項5に記載の異常ユーザーの識別方法。
  7. 前記クラスタリング手段によって、
    前記第1データクラスの中心ベクトルと前記複数のデータクラスにおける前記第1データクラス以外の任意1つのデータクラスの中心ベクトルとの間の距離値を算出して、複数の距離値を得ることと、
    前記複数の距離値における最小距離値によって対応付けられる第2データクラスを特定することと、
    前記複数のデータクラスにおける各データクラスに含まれるデータ特徴ベクトルの第3集約値を取得することと、
    前記第1データクラスおよび前記第2データクラスを合併データクラスとする場合、前記合併データクラスに含まれるデータ特徴ベクトルの第4集約値を取得し、前記複数のデータクラスにおける前記合併データクラス以外の各データクラスに含まれるデータ特徴ベクトルの第4集約値を取得することと、
    複数の第3集約値を加算して、第3総和値を得ることと、
    複数の第4集約値を加算して、第4総和値を得ることと、
    前記第4総和値が前記第3総和値より小さい場合、前記第1データクラスと前記第2データクラスとを合併することと、を実行すること
    をさらに含み、
    前記第3集約値と前記第4集約値は、データ特徴ベクトルがデータクラスに属する妥当性を表すものである、
    請求項6に記載の異常ユーザーの識別方法。
  8. 前記第3特定手段が前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することは、
    前記複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションに基づいて、前記差分特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断することと、
    前記差分特徴ベクトルに対応するデータ特徴値が前記特徴基線値を超える場合、前記ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、前記差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定することとを含む
    請求項2または5に記載の異常ユーザーの識別方法。
  9. プロセッサと前記プロセッサによって実行されることができる機械実行可能命令を記憶している機械可読記憶媒体とを含み、前記機械実行可能命令は、プロセッサに、
    ユーザーのユーザー行動データを取得し、前記ユーザー行動データは、少なくとも1つの過去のユーザー行動データと1つの現在のユーザー行動データとを含むことと、
    予め設定された複数のユーザー行動ディメンションにおいて前記ユーザー行動データの複数の特徴値を抽出することと
    前記複数の特徴値に基づいて、前記ユーザー行動データに対応する特徴ベクトルを特定することと
    予め設定されたクラスタリングアルゴリズムにより、前記特徴ベクトルをクラスタリングして、複数の集約クラスを得、各集約クラスの中心ベクトルを取得することと
    集約クラスにおける特徴ベクトルと、集約クラスの中心ベクトルとの距離値が予め設定された距離値の範囲内に存在するか否かを判断し、前記距離値の範囲内に存在しない特徴ベクトルを差分特徴ベクトルとして特定することと
    前記差分特徴ベクトルによって対応付けられるユーザーを異常ユーザーとして特定することと
    を実行させる
    電子機器。
  10. 前記ユーザーが複数のユーザーである場合、前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
    複数のユーザー行動ディメンションにおいて前記複数のユーザーにおける各ユーザーのユーザー行動データの複数のユーザー特徴値を抽出し、
    前記複数のユーザーにおける各ユーザーの複数のユーザー特徴値に基づいて、前記複数のユーザーにおける各ユーザーのユーザー特徴ベクトルを特定し、
    予め設定されたクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、複数のユーザークラスを得、
    前記複数のユーザークラスにおける各ユーザークラスに含まれるユーザー特徴ベクトルに基づいて、前記複数のユーザークラスにおける各ユーザークラスの中心ベクトルを特定する、
    請求項9に記載の電子機器。
  11. 前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
    K-meansクラスタリングアルゴリズムにより、前記複数のユーザーのユーザー特徴ベクトルをクラスタリングして、K個の初期ユーザークラスを得、前記Kが正の整数であり、
    前記K個の初期ユーザークラスにおける第1初期ユーザークラスおよび第2初期ユーザークラスを取得し、
    前記第1初期ユーザークラスと前記第2初期ユーザークラスとを合併して、合併初期ユーザークラスを得、
    前記合併初期ユーザークラスおよび前記K個の初期ユーザークラスにおける合併されていない他の初期ユーザークラスをそれぞれクラスタリングされたユーザークラスとし、複数のユーザークラスを得、
    前記第1初期ユーザークラスは、前記K個の初期ユーザークラスにおいて、含まれるユーザー特徴ベクトルの個数が予め設定された数量閾値より小さい初期ユーザークラスであり、
    前記第2初期ユーザークラスは、前記K個の初期ユーザークラスにおいて、前記第1初期ユーザークラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期ユーザークラスである、
    請求項10に記載の電子機器。
  12. 前記ユーザーが1つのユーザーである場合
    前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
    複数のユーザー行動ディメンションにおいて各過去のユーザー行動データの複数の第1データ特徴値を抽出し、複数のユーザー行動ディメンションにおいて前記現在のユーザー行動データの複数の第2データ特徴値を抽出し、
    前記複数の第1データ特徴値に基づいて、各過去のユーザー行動データの第1データ特徴ベクトルを特定し、前記複数の第2データ特徴値に基づいて、前記現在のユーザー行動データの第2データ特徴ベクトルを特定し、
    予め設定されたクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、複数のデータクラスを得、
    前記第2データ特徴ベクトルが属する第1データクラスの中心ベクトルを特定し、
    前記第2データ特徴ベクトルと前記第1データクラスの中心ベクトルとの間の距離値が予め設定された距離値の範囲内に存在するか否かを判断し、
    距離値が予め設定された距離値の範囲内に存在しない場合、前記第2データ特徴ベクトルが差分特徴ベクトルであることを特定する、
    請求項9に記載の電子機器。
  13. 前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
    K-meansクラスタリングアルゴリズムにより、前記複数の第1データ特徴ベクトルと前記第2データ特徴ベクトルとをクラスタリングして、K個の初期データクラスを得、前記Kが正の整数であり、
    前記K個の初期データクラスにおけるN個のデータ特徴ベクトルを含む第1初期データクラスを取得し、前記Nが正の整数であり、
    Nが予め設定された数量閾値より小さい場合、前記K個の初期データクラスにおける第2初期データクラスを取得し、
    前記第1初期データクラスと前記第2初期データクラスとを合併して、合併初期データクラスを得、
    前記合併初期データクラスおよび前記K個の初期データクラスにおける合併されていない他の初期データクラスをそれぞれクラスタリングされたデータクラスとし、複数のデータクラスを得、
    前記第1初期データクラスは、前記第2データ特徴ベクトルが属する初期データクラスであり、
    前記第2初期データクラスは、前記K個の初期データクラスにおいて、前記第1初期データクラスの中心ベクトルとの距離値が最小である中心ベクトルによって対応付けられる初期データクラスである、
    請求項12に記載の電子機器。
  14. 前記機械実行可能命令は、具体的に、プロセッサに以下の動作を実行させ、
    前記複数のユーザー行動ディメンションにおける各ユーザー行動ディメンションに基づいて、前記差分特徴ベクトルに対応するデータ特徴値が予め設定された特徴基線値を超えるか否かを判断し、
    前記差分特徴ベクトルに対応するデータ特徴値が前記特徴基線値を超える場合、前記ユーザー行動ディメンションで対応付けられるユーザー行動が異常ユーザー行動であることを特定し、前記差分特徴ベクトルによって対応付けられるユーザーが異常ユーザーであることを特定する
    請求項10又は12に記載の電子機器。
  15. 機械実行可能命令を記憶している機械可読記憶媒体であって、
    プロセッサによって呼び出されて実行されると、前記機械実行可能命令は、前記プロセッサに請求項1から8のいずれか一項に記載の方法を実行させる、
    機械可読記憶媒体。
JP2020563918A 2018-05-14 2019-05-09 異常ユーザーの識別方法、電子機器及び機械可読記憶媒体 Active JP7125514B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810457994.8 2018-05-14
CN201810457994.8A CN109861953B (zh) 2018-05-14 2018-05-14 一种异常用户识别方法及装置
PCT/CN2019/086232 WO2019218927A1 (zh) 2018-05-14 2019-05-09 异常用户识别

Publications (2)

Publication Number Publication Date
JP2021524091A JP2021524091A (ja) 2021-09-09
JP7125514B2 true JP7125514B2 (ja) 2022-08-24

Family

ID=66889595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563918A Active JP7125514B2 (ja) 2018-05-14 2019-05-09 異常ユーザーの識別方法、電子機器及び機械可読記憶媒体

Country Status (5)

Country Link
US (1) US11671434B2 (ja)
EP (1) EP3771168B1 (ja)
JP (1) JP7125514B2 (ja)
CN (1) CN109861953B (ja)
WO (1) WO2019218927A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131320B (zh) * 2019-06-25 2024-08-27 杭州海康威视数字技术股份有限公司 异常数据的检测方法、装置及存储介质
CN110493176B (zh) * 2019-07-02 2022-06-10 北京科东电力控制系统有限责任公司 一种基于非监督机器学习的用户可疑行为分析方法及系统
CN110753065B (zh) * 2019-10-28 2022-03-01 国网河南省电力公司信息通信公司 网络行为检测方法、装置、设备及存储介质
CN110990810B (zh) * 2019-11-28 2022-06-28 中国建设银行股份有限公司 一种用户操作数据处理方法、装置、设备及存储介质
CN111259948A (zh) * 2020-01-13 2020-06-09 中孚安全技术有限公司 一种基于融合机器学习算法的用户安全行为基线分析方法
CN111259962B (zh) * 2020-01-17 2023-06-20 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111625817B (zh) * 2020-05-12 2023-05-02 咪咕文化科技有限公司 异常用户识别方法、装置、电子设备及存储介质
CN113837512B (zh) * 2020-06-23 2024-08-13 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
CN111814909B (zh) * 2020-08-06 2021-07-06 广州蜜妆信息科技有限公司 基于网络直播和在线电商带货的信息处理方法及云服务器
CN112149749B (zh) * 2020-09-29 2024-03-19 北京明朝万达科技股份有限公司 异常行为检测方法、装置、电子设备及可读存储介质
CN112437091B (zh) * 2020-11-30 2021-09-21 成都信息工程大学 一种面向主机社区行为的异常流量检测方法
CN112766459B (zh) * 2021-01-12 2024-05-03 合肥黎曼信息科技有限公司 一种基于生成器的异常检测方法
CN113129054B (zh) * 2021-03-30 2024-05-31 广州博冠信息科技有限公司 用户识别方法和装置
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置
CN114565784B (zh) * 2022-03-15 2024-08-23 平安科技(深圳)有限公司 基于聚类算法的行人异常行为检测方法及装置、存储介质
CN116304763B (zh) * 2023-05-18 2023-10-24 国网山东省电力公司日照供电公司 一种电力数据预分析方法、系统、设备及介质
CN117132242B (zh) * 2023-10-26 2024-01-23 北京点聚信息技术有限公司 一种电子印章身份权限安全管理方法
CN118132383B (zh) * 2024-03-22 2024-09-17 北京衡石科技有限公司 业务数据监控方法、装置、电子设备和计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268481A (zh) 2014-10-10 2015-01-07 中国联合网络通信集团有限公司 一种实现智能手机预警的方法及装置
US20150127243A1 (en) 2013-11-01 2015-05-07 Here Global B.V. Traffic Data Simulator
WO2017022783A1 (ja) 2015-08-05 2017-02-09 株式会社日立パワーソリューションズ 異常予兆診断システム及び異常予兆診断方法
US20170171234A1 (en) 2015-12-15 2017-06-15 Flying Cloud Technologies, Inc. Data Surveillance System

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239324B (zh) * 2013-06-17 2019-09-17 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统
US20150235152A1 (en) * 2014-02-18 2015-08-20 Palo Alto Research Center Incorporated System and method for modeling behavior change and consistency to detect malicious insiders
US10038703B2 (en) * 2014-07-18 2018-07-31 The Regents Of The University Of Michigan Rating network security posture and comparing network maliciousness
CN105320702B (zh) * 2014-08-04 2019-02-01 Tcl集团股份有限公司 一种用户行为数据的分析方法、装置及智能电视
CN105573999B (zh) * 2014-10-09 2019-02-26 阿里巴巴集团控股有限公司 识别智能设备用户的方法和装置
CN104537380A (zh) * 2014-12-30 2015-04-22 小米科技有限责任公司 聚类方法和装置
US10061816B2 (en) * 2015-05-11 2018-08-28 Informatica Llc Metric recommendations in an event log analytics environment
US10505959B1 (en) * 2015-12-10 2019-12-10 Hewlett Packard Enterprise Development Lp System and method directed to behavioral profiling services
CN105553998B (zh) * 2015-12-23 2019-02-01 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN105681089B (zh) * 2016-01-26 2019-10-18 上海晶赞科技发展有限公司 网络用户行为聚类方法、装置及终端
CN107181724B (zh) * 2016-03-11 2021-02-12 华为技术有限公司 一种协同流的识别方法、系统以及使用该方法的服务器
US10257211B2 (en) * 2016-05-20 2019-04-09 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
CN107622072B (zh) 2016-07-15 2021-08-17 阿里巴巴集团控股有限公司 一种针对网页操作行为的识别方法及服务器、终端
CN107645533A (zh) * 2016-07-22 2018-01-30 阿里巴巴集团控股有限公司 数据处理方法、数据发送方法、风险识别方法及设备
CN106649517A (zh) * 2016-10-17 2017-05-10 北京京东尚科信息技术有限公司 数据挖掘方法、装置及系统
KR102464390B1 (ko) * 2016-10-24 2022-11-04 삼성에스디에스 주식회사 행위 분석 기반 이상 감지 방법 및 장치
US20180211270A1 (en) * 2017-01-25 2018-07-26 Business Objects Software Ltd. Machine-trained adaptive content targeting
US10645109B1 (en) * 2017-03-31 2020-05-05 Exabeam, Inc. System, method, and computer program for detection of anomalous user network activity based on multiple data sources
US10341372B2 (en) * 2017-06-12 2019-07-02 International Business Machines Corporation Clustering for detection of anomalous behavior and insider threat
US10701094B2 (en) * 2017-06-22 2020-06-30 Oracle International Corporation Techniques for monitoring privileged users and detecting anomalous activities in a computing environment
US20190116193A1 (en) * 2017-10-17 2019-04-18 Yanlin Wang Risk assessment for network access control through data analytics
EP3477906B1 (en) * 2017-10-26 2021-03-31 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127243A1 (en) 2013-11-01 2015-05-07 Here Global B.V. Traffic Data Simulator
CN104268481A (zh) 2014-10-10 2015-01-07 中国联合网络通信集团有限公司 一种实现智能手机预警的方法及装置
WO2017022783A1 (ja) 2015-08-05 2017-02-09 株式会社日立パワーソリューションズ 異常予兆診断システム及び異常予兆診断方法
US20170171234A1 (en) 2015-12-15 2017-06-15 Flying Cloud Technologies, Inc. Data Surveillance System

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Sandy Ryza(外3名)著,石川 有 監訳,「Sparkによる実践データ解析」,初版,日本,株式会社オライリー・ジャパン,2016年01月25日,第85~104頁,ISBN: 978-4-87311-750-8.
Sebastian Raschka 著,株式会社クイープ 訳,「Python機械学習プログラミング」,第1版,日本,株式会社インプレス,2017年04月11日,第297~311頁,ISBN: 978-4-8443-8060-3.
八木 毅(外2名),「コンピュータネットワークセキュリティ」,初版,日本,株式会社コロナ社,2015年04月10日,第26~30頁,ISBN: 978-4-339-02495-1.
長橋 賢吾,「Rではじめる機械学習」,初版,日本,株式会社インプレス,2017年09月11日,第106~107頁,ISBN: 978-4-295-00205-5.

Also Published As

Publication number Publication date
CN109861953B (zh) 2020-08-21
EP3771168B1 (en) 2022-04-27
WO2019218927A1 (zh) 2019-11-21
CN109861953A (zh) 2019-06-07
US11671434B2 (en) 2023-06-06
JP2021524091A (ja) 2021-09-09
EP3771168A4 (en) 2021-05-26
US20210240822A1 (en) 2021-08-05
EP3771168A1 (en) 2021-01-27

Similar Documents

Publication Publication Date Title
JP7125514B2 (ja) 異常ユーザーの識別方法、電子機器及び機械可読記憶媒体
JP7441582B2 (ja) データ侵害を検出するための方法、装置、コンピュータ可読な記録媒体及びプログラム
US10686807B2 (en) Intrusion detection system
US9832214B2 (en) Method and apparatus for classifying and combining computer attack information
US8738721B1 (en) System and method for detecting spam using clustering and rating of E-mails
US9098459B2 (en) Activity filtering based on trust ratings of network
JP2018530066A (ja) 低信頼度のセキュリティイベントによるセキュリティインシデントの検出
US20180260921A1 (en) Remote machine operation through distributed permissioning
US11374950B2 (en) Anomaly detection in complex systems
US20100082749A1 (en) Retrospective spam filtering
US10341373B2 (en) Automatically detecting insider threats using user collaboration patterns
CN111523012B (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
US11228614B1 (en) Automated management of security operations centers
CN107819606A (zh) 一种网络所受攻击的报警方法及装置
US10637878B2 (en) Multi-dimensional data samples representing anomalous entities
CN113572721B (zh) 一种异常访问检测方法、装置、电子设备及存储介质
JP6800744B2 (ja) ホワイトリスト作成装置
CN114073041B (zh) 使用分组活动确定可疑用户事件
CN110138723B (zh) 一种邮件网络中恶意社区的确定方法及系统
US20240356969A1 (en) Statistical modeling of email senders to detect business email compromise
US12120136B1 (en) Anomalous data transfer detection
US20240007490A1 (en) Malicious activity probability determinations for autonomous systems
KR102002560B1 (ko) 인공지능 기반의 목표계정 정찰행위 탐지 장치
US20240333738A1 (en) Detecting multi-segment malicious email attacks
CN114401122B (zh) 一种域名检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220812

R150 Certificate of patent or registration of utility model

Ref document number: 7125514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150