CN115025497A - 异常数据检测方法、装置、电子设备及存储介质 - Google Patents

异常数据检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115025497A
CN115025497A CN202210589178.9A CN202210589178A CN115025497A CN 115025497 A CN115025497 A CN 115025497A CN 202210589178 A CN202210589178 A CN 202210589178A CN 115025497 A CN115025497 A CN 115025497A
Authority
CN
China
Prior art keywords
data
abnormal
time
real
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210589178.9A
Other languages
English (en)
Inventor
朱钰森
吴剑飞
刘柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202210589178.9A priority Critical patent/CN115025497A/zh
Publication of CN115025497A publication Critical patent/CN115025497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种异常数据检测方法、装置、电子设备及存储介质。该方法包括:获取历史预约数据、实时预约数据和异常模式标签;根据历史预约数据和异常模式标签训练检测模型;根据检测模型检测实时预约数据以确定实时预约数据的异常度;确定异常度是否高于预设第一异常度阈值;响应于异常度高于预设第一异常度阈值,则确定实时预约数据为异常数据。根据历史预约数据,聚合多个维度的信息,在用户未产生任何行为数据前确定属于异常模式的实时预约数据,进而确定属于异常数据的账号,提高异常识别的准确度和覆盖度,显著的缩小原始预约数据的异常识别范围,降低人力成本,提高检测效率,保证了检测结果的一致性。

Description

异常数据检测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种异常数据检测方法、装置、电子设备及存储介质。
背景技术
相关技术中,主要集中在离线的异常数据识别上,对已有的账号进行异常检测,并直接应用于线上推理,根据用户实际创建的角色,确定产生行为序列的数据,再通过离线分析用户画像来判断账号的异常情况。
但是,相关技术需要获取已经产生行为序列的数据,因此无法解决游戏新服预约场景的异常数据判断的场景需求,难以保证检测结果的准确性和一致性。
发明内容
有鉴于此,本申请的目的在于提出一种异常数据检测方法、装置、电子设备及存储介质。
基于上述目的,在第一方面,本申请提供了一种异常数据检测方法,包括:
获取历史预约数据、实时预约数据和异常模式标签;
根据所述历史预约数据和异常模式标签训练检测模型;
根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
确定所述异常度是否高于预设第一异常度阈值;
响应于所述异常度高于预设第一异常度阈值,则确定所述实时预约数据为异常数据。
在一种可能的实现方式中,所述获取历史预约数据,包括:
获取用户数据;
根据所述用户数据确定与所述用户数据关联的账号数据和历史用户行为数据;
根据所述账号数据确定与所述账号数据绑定的网络数据和硬盘数据;
根据所述用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据确定所述历史预约数据。
在一种可能的实现方式中,所述根据所述历史预约数据和异常模式标签训练检测模型,包括:
根据所述历史预约数据确定多个目标训练数据和用户历史画像;
根据所述历史预约数据确定预约时间;
根据所述预约时间确定所述多个目标训练数据的连续性信息;
根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码;
关联所述多个目标训练数据编码、用户历史画像和连续性信息以确定训练样本;
根据所述训练样本和所述异常模式标签训练所述检测模型。
在一种可能的实现方式中,所述根据所述预约时间确定所述多个目标训练数据的连续性信息,包括:
根据所述预约时间分别对所述多个目标训练数据顺次排序;
根据所述预约时间确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔;
响应于所述相邻的目标训练数据之间的时间间隔小于所述预设时间间隔,则确定所述相邻的目标训练数据具有连续性;
响应于所述相邻的目标训练数据之间的时间间隔不小于所述预设时间间隔,则确定所述相邻的目标训练数据不具有连续性。
在一种可能的实现方式中,所述根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码,包括:
将所述多个目标训练数据进行分类以确定至少两种字符类型;其中,每种字符类型分别对应不同的预设编码;
顺次确定所述多个目标训练数据中每个字符对应的所述字符类型,以及所述字符类型连续出现的统计数量;
根据所述预设编码和所述统计数量对所述多个目标训练数据中的每个字符进行编码以确定多个目标训练数据编码。
在一种可能的实现方式中,所述根据所述训练样本和所述异常模式标签训练所述检测模型,包括:
确定每个所述目标训练数据编码对应的类内向量;
选择任意一个所述目标训练数据编码确定为目标筛选条件,根据所述类内向量确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离,得到所述目标筛选条件对应的类内距离;
将所述目标筛选条件更新为未被选择过的所述目标训练数据编码中的任意一个目标训练数据编码,重复执行确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离的步骤,直至得到每个所述目标训练数据编码对应的类内距离;
根据所述异常模式标签确定异常数据;
根据所述异常数据和全部所述类内距离以确定异常类内距离;
根据所述异常类内距离训练所述检测模型。
在一种可能的实现方式中,所述实时预约数据,包括:时间戳;
所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度,包括:
通过分布式处理引擎按照所述时间戳的时序存储所述实时预约数据,并将所述实时预约数据标记为未推理数据;
对所述未推理数据进行哈希映射以确定所述未推理数据对应的第一哈希值;
获取多个推理实例;其中,每个所述推理实例包括第二哈希值;
对所述第一哈希值和所述第二哈希值进行匹配,以将所述未推理数据分配至与所述推理实例;
同步全部所述推理实例,并根据所述未推理数据的时间戳读取所述时间戳前N个时间窗口的所述实时预约数据以确定待检测数据,其中,所述N为正整数;
根据所述检测模型检测所述待检测数据以确定所述待检测数据的异常度。
在一种可能的实现方式中,所述方法还包括:
设置恢复时间节点;
响应于所述检测模型停止服务,根据所述恢复时间节点将所述恢复时间节点与当前时刻内的所述实时预约数据重置为所述未推理数据;
清除所述恢复时间节点与当前时刻内的所述实时预约数据的异常度和所述异常数据;
根据所述恢复时间节点重启所述检测模型。
在一种可能的实现方式中,所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度之后,还包括:
响应于所述异常度高于所述预设第二异常度阈值,则对所述实时预约数据进行聚类分析;
根据高于所述第二异常度阈值的异常度对应的所述实时预约数据确定新异常模式标签;
基于在线学习技术根据所述实时预约数据和所述新异常模式标签更新所述检测模型。
在一种可能的实现方式中,所述第二异常度阈值大于所述第一异常度阈值。
在第二方面,本申请提供了一种异常数据检测装置,包括:
获取模块,被配置为获取历史预约数据、实时预约数据和异常模式标签;
训练模块,被配置为根据所述历史预约数据和异常模式标签训练检测模型;
第一确定模块,被配置为根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
第二确定模块,被配置为确定所述异常度是否高于预设第一异常度阈值;
检测模块,被配置为响应于所述异常度高于所述预设第一异常度阈值,则确定所述实时预约数据为异常数据。
在第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的异常数据检测方法。
在第四方面,本申请提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如第一方面所述的异常数据检测方法。
从上面所述可以看出,本申请提供的一种异常数据检测方法、装置、电子设备及存储介质,在游戏新服预约的场景下,可以获取历史预约数据、实时预约数据和异常模式标签,通过历史预约数据和异常模式标签对检测模型进行训练,进而在用户创建角色且产生行为数据前便能够通过检测模型对实时预约数据进行检测,通过比较得到的实时预约数据的异常度与预设第一异常度阈值,进一步确定实时预约数据是否为异常数据。根据历史预约数据,聚合多个维度的信息,在用户未产生任何行为数据前确定属于异常模式的实时预约数据,进而确定属于异常数据的账号,提高异常识别的准确度和覆盖度,显著的缩小原始预约数据的异常识别范围,降低人力成本,提高检测效率,保证了检测结果的一致性。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例所提供的一种异常数据检测方法的示例性流程示意图。
图2示出了根据本申请的实施例的用户历史画像的确定方法的示例性流程示意图。
图3示出了根据本申请的实施例的异常度的确定方法的示例性流程示意图。
图4示出了根据本申请的实施例的结合在线学习的异常数据检测的示例性流程示意图。
图5示出了本申请实施例所提供的一种异常数据检测装置的示例性结构示意图。
图6示出了本申请实施例所提供的一种电子设备的示例性结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
以游戏开放新服预约场景为例,游戏新服预约开启后,通常会持续一段时间,如一周,除了正常玩家的预约行为,还会有第三方团队通过技术手段进行大批量的预约,并引发后续违反游戏规则的行为,如预约成功后,进入游戏挂机影响正常玩家的用户体验,通过多个小号进行游戏货币的转移,破坏游戏生态的价值体系等。
一般来说,游戏方可以通过关键信息,如手机,邮箱账号,MAC地址等来关联游戏角色与真实玩家,并通过统计规则、机器学习等方法分析游戏账号的异常度,采取进一步的措施来规避可能出现的异常行为。
如背景技术部分所述,相关技术中,主要集中在离线的异常数据识别上,对已有的账号进行异常检测,并直接应用于线上推理,根据用户实际创建的角色,确定产生行为序列的数据,再通过离线分析用户画像来判断账号的异常情况。
但是,相关技术需要获取已经产生行为序列的数据,因此无法解决游戏新服预约场景的异常数据判断的场景需求,难以保证检测结果的准确性和一致性。
同时申请人通过研究发现,现有技术方案通过离线数据训练模型或者方法来识别异常的账号并直接用于线上推理,在实际应用中,可以识别已有的异常账号和符合该异常模式的新账号,但是不能解决游戏新服预约的场景需求,如在短时间内会涌入大量的预约账号,单个实例在推理时不能保证良好的实时性,或者检测服务不可用,检测效果需要迭代,服务需要暂停、重启等场景下,难以保证检测结果的一致性和可复现。
正因如此,本申请提供的一种异常数据检测方法、装置、电子设备及存储介质,在游戏新服预约的场景下,可以获取历史预约数据、实时预约数据和异常模式标签,通过历史预约数据和异常模式标签对检测模型进行训练,进而在用户创建角色且产生行为数据前便能够通过检测模型对实时预约数据进行检测,通过比较得到的实时预约数据的异常度与预设第一异常度阈值,进一步确定实时预约数据是否为异常数据。根据历史预约数据,聚合多个维度的信息,在用户未产生任何行为数据前确定属于异常模式的实时预约数据,进而确定属于异常数据的账号,提高异常识别的准确度和覆盖度,显著的缩小原始预约数据的异常识别范围,降低人力成本,提高检测效率,保证了检测结果的一致性。
下面通过具体的实施例来对本申请实施例所提供的异常数据检测方法进行具体说明。
图1示出了本申请实施例所提供的一种异常数据检测方法的示例性流程示意图。
参考图1,本申请实施例所提供的一种异常数据检测方法具体包括以下步骤:
S102:获取历史预约数据、实时预约数据和异常模式标签。
S104:根据所述历史预约数据和异常模式标签训练检测模型。
S106:根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度。
S108:确定所述异常度是否高于预设第一异常度阈值。
S110:响应于所述异常度高于预设第一异常度阈值,则确定所述实时预约数据为异常数据。
针对于步骤S102,以游戏新服务器开服预约阶段的应用场景为例,游戏新服预约是指在游戏上线运营一段时间后,现有的服务器数量难以满足用户的需求,或者因为游戏方的运营等原因,在增加新服务器时或者开服时提供的预约服务,新服预约可以减少用户在开服时的排队问题,合理规划流量。但由于存在第三方团队通过技术手段进行大批量的预约,从而引发后续违反游戏规则的行为,例如预约成功后,在开服之后进入游戏挂机等行为影响正常用户的用户体验,或者通过多个预约账号进行游戏货币的转移,破坏游戏生态的价值体系等问题。此时,在用户正式进入游戏前,为了保障游戏环境的良好运行和用户的良好体验,可以对进行预约的用户进行检测,提前找到存在异常行为或属于已有异常模式的用户,筛选出异常数据所属账号,提前对其进行处理。本申请通过获取历史预约数据以及已经存在的已有异常模式,将已有异常模式转换为异常模式标签,通过异常模式标签和历史预约数据中关联的账号和用户数据对用户进行筛选。
在一些实施例中,游戏方可以通过关键信息,例如手机号、邮箱账号、MAC地址等关联游戏角色和真实用户,因此获取历史预约数据可以通过获取用户数据,例如用户用于预约时提供给游戏方的用户手机号和用户邮箱账户,进一步根据用户数据确定与用户数据关联的账号数据和历史用户行为数据,其中账号数据可以为用户在已经游玩过的游戏中的游戏账号、游戏昵称、游戏角色数量、游戏在线时长等数据,而历史用户行为数据可以为用户在已经游玩过的游戏中被记录的是否存在异常行为的数据。
进一步地,可以根据账号数据确定与账号数据绑定的网络数据和硬盘数据,其中,网络数据可以包括账号数据对应的用户在历史记录中预约游戏或进入游戏时所属的IP归属地和服务厂商对应的数据集。例如,根据某一个用户的账号数据确定该用户在预约其他已经上线的游戏时所属的IP地址和/或MAC地址,该用户的IP地址可以映射成“X国|X省|X市|X区|电信”。而硬盘数据,可以包括硬盘厂商、硬盘类型、硬盘容量和序列号,例如“DerlerSSD240G-DLDS1721001090”,其中“Derler”表示硬盘厂商,“SSD”表示硬盘类型,“240G”表示硬盘容量,“DLDS1721001090”表示序列号。
再进一步地,可以分别根据用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据建立不同用户的数据集,进而确定不同用户的历史预约数据。
针对于步骤S104,在步骤S102中已经获取到了用户历史预约数据和异常模式标签,可以将异常模式标签作为训练标签,将其打在用户历史预约数据上,对检测模型进行训练。
图2示出了根据本申请的实施例的用户历史画像的确定方法的示例性流程示意图。
在一些实施例中,可以根据历史预约数据确定多个目标训练数据和用户历史画像,参考图2,具体地,可以获取游戏数据集,其中包括若干个已有游戏的数据,再根据唯一关键字进行关联,例如用户数据中的用户手机号或用户邮箱账户。以唯一关键字为用户手机号为例,用户手机号对应于一个用户,根据用户手机号遍历游戏数据集以获取到与用户手机号关联的全部游戏内全部服务器的账号数据和历史用户行为数据,进而根据获取到的与用户手机号关联的全部账号数据和历史用户行为数据确定该用户的用户历史画像。
对于目标训练数据,可以根据具体实施场景从历史预约数据中选择不同的数据作为目标训练数据,后续实施例以选取MAC地址、硬盘数据、邮箱账户前缀和游戏昵称作为目标训练数据为例。
由于第三方工作室通过大批量预约游戏账号时往往具有时间上的连续性,因此可以根据历史预约数据确定这些数据的预约时间,根据预约时间确定目标训练数据的连续性信息,筛选出在历史预约数据中工作室批量预约的账号,可以利用异常模式标签对该类历史预约数据进行标记。
图3示出了根据本申请的实施例的异常度的确定方法的示例性流程示意图。
参考图3,进一步地,可以根据预约时间分别对多个目标训练数据按时间顺序顺次排序,设置预设时间间隔T,确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔T,如果相邻的目标训练数据之间的时间间隔小于预设时间间隔T,则证明相邻的目标训练数据之间具有连续性,可以标记为1;如果相邻的目标训练数据之间的时间间隔不小于预设时间间隔T,则证明相邻的目标训练数据之间不具有连续性,可以标记为0。
再进一步地,因为不同的目标训练数据的表示方式存在一定差异,例如硬盘数据是由大量数字和字母的字符串来表示的,但游戏昵称一般由大量中文的字符串来表示的,为了使得每个目标训练数据能够被统一的标准表示,同时降低系统存储压力,可以根据预设编码规则队多个目标训练数据进行编码,从而将目标训练数据用目标训练数据编码表示。
在一些实施例中,可以将多个目标训练数据进行分类,从而确定至少两种字符类型,每种字符类型分别对应不同的预设编码,进一步顺次确定多个目标训练数据中每个字符对应的字符类型,并统计该字符类型在每个目标训练数据中连续出现的数量,根据字符类型对应的预设编码和统计数量对多个目标训练数据中的每个字符进行编码,从而确定多个目标训练数据编码。下面通过具体的实施例进行说明。
对于MAC地址、邮箱账户前缀而言,可能会出现中文、数字、字母和其他字符,其中数字和字母可以进行统一编码,例如中文字符类型对应的预设编码可以为c,数字字母字符类型对应的统一预设编码可以为an,其他字符类型对应的预设编码可以为o,进一步统计目标训练数据中每个字符类型连续出现的统计数量,根据预设编码和统计数量对目标训练数据进行编码。例如一条目标训练数据为“拥G赵正琛Ck4%”,“拥”编码为c,“G”编码为an,“赵正琛”每个字符都编码为c,“Ck4”每个字符都编码为an,“%”编码为o,统计每个字符类型连续出现的统计数量,则目标训练数据“拥G赵正琛Ck4%”被编码为“1c1an3c3an1o”。
对于游戏昵称而言,一般包括中文、数字、字母和其他符号,例如中文字符类型对应的预设编码可以为c,数字字符类型对应的预设编码为d,字母字符类型对应的预设编码可以为a,其他字符类型对应的预设编码可以为o,进一步统计目标训练数据中每个字符类型连续出现的统计数量,根据预设编码和统计数量对目标训练数据进行编码。例如一条目标训练数据为“豹子头0充T1!”,“豹子头”每个字符都编码为c,“0”编码为d,“充”编码为c,“T”编码为a,“1”编码为d,“!”编码为o,统计每个字符类型连续出现的统计数量,则目标训练数据“豹子头0充T1!”被编码为“3c1d1c1a1d1o”。
对于硬盘数据而言,除了中文、数字、字母和其他字符以外,由于经常会出现一些常用符号,为了将这些常用符号从其他字符中区分开,将中文字符类型对应的预设编码设置为c,数字字符类型对应的预设编码设置为d,字母字符类型对应的预设编码设置为a,空格字符类型对应的预设编码设置为s,短横线字符类型对应的预设编码设置为-,下划线字符类型对应的预设编码设置为_,其它字符类型对应的预设编码设置为o,进一步统计目标训练数据中每个字符类型连续出现的统计数量,根据预设编码和统计数量对目标训练数据进行编码。例如一条目标训练数据为“德乐_SSD 240G-DLDS1721001090”,“德乐”每个字符编码为c,“_”编码为_,“SSD”每个字符编码为a,“”编码为s,“240”每个字符编码为d,“G”编码为a,“”编码为s,“-”编码为-,“DLDS”每个字符编码为a,“1721001090”每个字符编码为d,统计每个字符类型连续出现的统计数量,则目标训练数据“德乐_SSD 240G-DLDS1721001090”可以被编码为“2c1_3d1a1s1-4a10d”。
在一些实施例中,参考图3,将多个目标训练数据编码中的每个目标训练数据编码和与其对应的用户历史画像以及连续性信息(也即连续性标签1或0)进行关联,从而确定训练样本,用已知异常模式的异常模式标签对训练样本进行标记形成训练集,利用训练集训练检测模型。
在一些实施例中,可以选择任意一个或几个目标训练数据编码作为目标筛选条件,获得多个数据类,例如以相同的游戏昵称对应的编码作为目标筛选条件,其余目标训练数据编码与目标筛选条件关联,确定游戏昵称对应的第一数据类。可以理解的是,其余目标训练数据编码分别作为目标筛选条件,可以确定其余的全部数据类。
进一步地,确定每个目标训练数据编码对应的类内向量,选择任意一个目标训练数据编码并将其确定为目标筛选条件,进而根据其余未被选择的全部目标训练数据编码对应的类内向量和目标筛选条件对应的类内向量,分别确定其余全部目标训练数据编码中每个目标训练数据编码与目标筛选条件之间的类内距离,进而得到目标筛选条件对应的全部类内距离。再进一步地,将目标筛选条件更新为其余未被选择过的目标训练数据编码中的任意一个目标训练数据编码,重复执行上述步骤,根据其余未被选择的全部目标训练数据编码对应的类内向量和更新后的目标筛选条件对应的类内向量,分别确定其余全部目标训练数据编码中每个目标训练数据编码与更新后的目标筛选条件之间的类内距离,直至得到每个目标训练数据编码对应的全部类内距离。根据异常模式标签确定异常模式对应的异常数据,根据异常数据确定全部类内距离中的类内最小距离,将其确定为异常类内距离,利用异常类内距离对检测模型进行训练,使其能够对已知异常模式进行识别。
在一些实施例中,在确定任意一个目标训练数据编码的类内距离时,可以将其确定为目标筛选条件,基于聚类分析,分析其余目标训练数据编码。其中,分析过程中,连续性信息可以表示为sum(D(t))/m,D(t)表示标记为0或1的数值型数据,m为数据类的大小;对于IP归属地进行聚类分析时,可以通过计算IP归属地的信息熵
Figure BDA0003664368530000111
其中p(x)表示某IP归属地出现的频率;对于邮箱账户前缀和玩家昵称,分析过程中,可以分析前后两个数据样本的字符串的编辑距离,也即把一个字符串通过插入、删除或者替换等变成另一个字符串,所需要的最少编辑次数。根据聚类分析设定每个目标训练数据编码的权重。在确定每个目标训练数据编码对应的类内距离时,可以根据不同的目标训练数据编码对应的权重进行计算。
针对于步骤S106,在得到训练后的检测模型后,可以利用检测模型对实时预约数据的异常度进行确定,其中,实时预约数据可以为实时获取到的玩家账号、玩家昵称、玩家所预约的服务器、预约时间等信息。
图4示出了根据本申请的实施例的结合在线学习的异常数据检测的示例性流程示意图。
在一些实施例中,参考图4,在用户进行预约时,每个实时预约数据带有时间戳,可以通过Flink、Spark等分布式处理引擎按照时间戳的时序将实时预约数据写入存储,并将其标记为未推理数据。进一步地,可以对未推理数据进行哈希映射,例如通过对一条未推理数据的所有数据或者某些字段进行哈希映射,转换成某个正整数,将该正整数确定为未推理数据对应的第一哈希值。再进一步地,根据未推理数据对应的哈希值为其分配推理实例,其中,推理实例是一个线上的异常账号检测服务,线上检测是由多个相同的检测服务组成,通过多个推理实例对大量预约账号进行推理,能够保证服务的高可用性。每个推理实例对应有第二哈希值,例如当一条未推理数据对应的第一哈希值为2时,则在多个推理实例中匹配第二哈希值同样为2的推理实例,将第一哈希值和第二哈希值相同的未推理数据分配至对应的推理实例。
由于检测模型已经通过已知异常模式对应的异常模式标签进行了训练,所以在通过检测模型对实时预约数据进行检测时,可以同步全部推理实例,同步的信息包括已经识别的异常模式和已经进行推理的数据,保证每个推理实例不会对某一个已经在其中一个推理实例中进行推理的数据进行重复推理,提高检测效率。
具体地,例如已经分配未推理数据的推理实例有三个,分别为A、B和C,推理实例A将其已经识别的异常模式和已经进行推理的数据打包发送至推理实例B和推理实例C;推理实例B将其已经识别的异常模式和已经进行推理的数据打包发送至推理实例A和推理实例C;推理实例C将其已经识别的异常模式和已经进行推理的数据打包发送至推理实例A和推理实例B,进而完成全部推理实例之间的信息同步。根据未推理数据的时间戳读取该时间戳前N个时间窗口的实时预约数据,将其确定为待检测数据,根据检测模型对待检测数据进行检测,确定其对应的异常度。
针对于步骤S108和S110,确定实时预约数据的异常度是否大于预设第一异常度阈值,如果该异常度大于预设第一异常度阈值,则确定该实时预约数据为异常数据。需要说明的是,异常模式可以是在离线训练、在线推理时获得的工作室预约模式,是一批预约账号的共同表现。例如,将相同MAC地址和硬盘信息确定为目标筛选条件,通过其余特征计算得到的类内距离确定的异常度大于预设第一异常度阈值(例如,10),则识别为异常预约账号,也即将其对应的实时预约数据识别为异常数据。
在服务刚上线时,已经识别的异常模式主要是离线训练时检测模型学习到的,随着预约的不断增加,各个推理实例不断的在识别异常账号,经过人工确认或者超出异常度一定程度后认定为异常,将该种异常模式设定为新异常模式,并将其加入到异常模式标签,基于在线学习技术使得检测模型能够利用根据新异常模式确定的异常模式标签优化自身,使得检测模型能够在下一次识别时对新异常模式对应的异常数据进行识别。
具体地,如果检测到实时预约数据对应的异常度高于预设第二异常度阈值,其中第一预设异常度阈值小于第二预设异常度阈值,也就是说当前实时预约数据的异常度不在检测模型训练过程中训练过,是一种新异常模式,则对实时预约数据进行聚类分析,根据超出预设第二异常度的异常度对应的实时预约数据确定新异常模式对应的标签,基于在线学习技术根据实时预约数据和新异常模式标签更新检测模型。
例如,离线训练时发现相同MAC地址和硬盘信息下,其余特征(例如预约时间连续性、IP归属地、编码后的邮箱账户前缀、编码后的玩家昵称)计算得到的异常度大于预设第一异常度阈值10,则其对应的账号为异常预约账号,对应的实时预约数据为异常数据,那么该模式即为已有异常模式。但随着异常账号的不断增加,可以分析已有异常账号中其他筛选条件和特征组合的异常度,如相同的IP归属地服务商下,编码后的邮箱账户前缀、玩家昵称的y异常度大于超出预设异常度区间,通过人工确定,这些异常账号为工作室批量预约账号,那么就增加了新的异常模式。所以离线与在线识别异常模式的区别在于,离线训练时由于异常数据数量的限制,只能获得部分异常模式,而随着样本数量的增加,新的异常模式能够更多的被挖掘出来,通过在线学习技术可以使得检测模型对新异常模式进行学习,从而使其能够对已有异常模式和新异常模式进行识别。
在一些实施例中,可以设置恢复时间节点,当检测到检测模型停止服务或推理实例停止服务时,根据恢复时间节点将恢复时间节点与当前时刻内的实时预约数据重置为未推理数据,清除恢复时间节点与当前时刻内的实时预约数据的异常度和异常数据的检测结果,也就是说将整个检测服务回溯到恢复时间节点,在恢复时间节点重新启动停止服务的检测模型或推理实例。其中恢复时间节点可以为任意一个时间点,例如早于服务上线时间时可以将服务上线时间设置为恢复时间节点,晚于当前时刻时可以将当前时刻设置为恢复时间节点。
从上面所述可以看出,本申请提供的一种异常数据检测方法、装置、电子设备及存储介质,在游戏新服预约的场景下,可以获取历史预约数据、实时预约数据和异常模式标签,通过历史预约数据和异常模式标签对检测模型进行训练,进而在用户创建角色且产生行为数据前便能够通过检测模型对实时预约数据进行检测,通过比较得到的实时预约数据的异常度与预设第一异常度阈值,进一步确定实时预约数据是否为异常数据。根据历史预约数据与实时预约数据,经过特征提取与转换,再通过历史预约数据的离线训练和实时预约数据的在线学习,聚合多个维度的信息,在用户未产生任何行为数据前确定属于异常模式的实时预约数据,进而确定属于异常数据的账号,并且本申请通过在线学习,可以识别新异常模式下的异常数据,提高异常识别的准确度和覆盖度,显著的缩小原始预约数据的异常识别范围,降低人力成本,提高检测效率。再进一步地,通过设置恢复时间点,解决多个推理实例处理大量预约数据和服务启停场景下的检测问题,保证了检测结果的可复现性和一致性。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图5示出了本申请实施例所提供的一种异常数据检测装置的示例性结构示意图。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种异常数据检测装置。
参考图5,所述异常数据检测装置,包括:获取模块、训练模块、确定模块和检测模块;其中,
获取模块,被配置为获取历史预约数据、实时预约数据和异常模式标签;
训练模块,被配置为根据所述历史预约数据和异常模式标签训练检测模型;
第一确定模块,被配置为根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
第二确定模块,被配置为确定所述异常度是否高于预设第一异常度阈值;
检测模块,被配置为响应于所述异常度高于所述预设第一异常度阈值,则确定所述实时预约数据为异常数据。
在一种可能的实现方式中,所述获取模块,进一步被配置为:
获取用户数据;
根据所述用户数据确定与所述用户数据关联的账号数据和历史用户行为数据;
根据所述账号数据确定与所述账号数据绑定的网络数据和硬盘数据;
根据所述用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据确定所述历史预约数据。
在一种可能的实现方式中,所述训练模块进一步配置为:
根据所述历史预约数据确定多个目标训练数据和用户历史画像;
根据所述历史预约数据确定预约时间;
根据所述预约时间确定所述多个目标训练数据的连续性信息;
根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码;
关联所述多个目标训练数据编码、用户历史画像和连续性信息以确定训练样本;
根据所述训练样本和所述异常模式标签训练所述检测模型。
在一种可能的实现方式中,所述训练模块进一步配置为:
根据所述预约时间分别对所述多个目标训练数据顺次排序;
根据所述预约时间确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔;
响应于所述相邻的目标训练数据之间的时间间隔小于所述预设时间间隔,则确定所述相邻的目标训练数据具有连续性;
响应于所述相邻的目标训练数据之间的时间间隔不小于所述预设时间间隔,则确定所述相邻的目标训练数据不具有连续性。
在一种可能的实现方式中,所述训练模块进一步配置为:
将所述多个目标训练数据进行分类以确定至少两种字符类型;其中,每种字符类型分别对应不同的预设编码;
顺次确定所述多个目标训练数据中每个字符对应的所述字符类型,以及所述字符类型连续出现的统计数量;
根据所述预设编码和所述统计数量对所述多个目标训练数据中的每个字符进行编码以确定多个目标训练数据编码。
在一种可能的实现方式中,所述训练模块进一步配置为:
确定每个所述目标训练数据编码对应的类内向量;
选择任意一个所述目标训练数据编码确定为目标筛选条件,根据所述类内向量确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离,得到所述目标筛选条件对应的类内距离;
将所述目标筛选条件更新为未被选择过的所述目标训练数据编码中的任意一个目标训练数据编码,重复执行确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离的步骤,直至得到每个所述目标训练数据编码对应的类内距离;
根据所述异常模式标签确定异常数据;
根据所述异常数据和全部所述类内距离以确定异常类内距离;
根据所述异常类内距离训练所述检测模型。
在一种可能的实现方式中,所述实时预约数据,包括:时间戳;
所述确定模块进一步配置为:
通过分布式处理引擎按照所述时间戳的时序存储所述实时预约数据,并将所述实时预约数据标记为未推理数据;
对所述未推理数据进行哈希映射以确定所述未推理数据对应的第一哈希值;
获取多个推理实例;其中,每个所述推理实例包括第二哈希值;
对所述第一哈希值和所述第二哈希值进行匹配,以将所述未推理数据分配至与所述推理实例;
同步全部所述推理实例,并根据所述未推理数据的时间戳读取所述时间戳前N个时间窗口的所述实时预约数据以确定待检测数据,其中,所述N为正整数;
根据所述检测模型检测所述待检测数据以确定所述待检测数据的异常度。
在一种可能的实现方式中,所述装置,还包括:重启模块;
所述重启模块被配置为:
设置恢复时间节点;
响应于所述检测模型停止服务,根据所述恢复时间节点将所述恢复时间节点与当前时刻内的所述实时预约数据重置为所述未推理数据;
清除所述恢复时间节点与当前时刻内的所述实时预约数据的异常度和所述异常数据;
根据所述恢复时间节点重启所述检测模型。
在一种可能的实现方式中,所述装置,还包括:在线学习模块;
所述在线学习模块进一步被配置为:
响应于所述异常度高于所述预设第二异常度阈值,则对所述实时预约数据进行聚类分析;
根据高于所述第二异常度阈值的异常度对应的所述实时预约数据确定新异常模式标签;
基于在线学习技术根据所述实时预约数据和所述新异常模式标签更新所述检测模型。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的系统用于实现前述任一实施例中相应的异常数据检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本申请实施例所提供的一种电子设备的示例性结构示意图。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一实施例所述的异常数据检测方法。图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器610、存储器620、输入/输出接口630、通信接口640和总线650。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。
处理器610可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口630用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口640用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线650包括一通路,在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的异常数据检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的异常数据检测方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的异常数据检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种异常数据检测方法,其特征在于,包括:
获取历史预约数据、实时预约数据和异常模式标签;
根据所述历史预约数据和异常模式标签训练检测模型;
根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
确定所述异常度是否高于预设第一异常度阈值;
响应于所述异常度高于所述预设第一异常度阈值,则确定所述实时预约数据为异常数据。
2.根据权利要求1所述的方法,其特征在于,所述获取历史预约数据,包括:
获取用户数据;
根据所述用户数据确定与所述用户数据关联的账号数据和历史用户行为数据;
根据所述账号数据确定与所述账号数据绑定的网络数据和硬盘数据;
根据所述用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据确定所述历史预约数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述历史预约数据和异常模式标签训练检测模型,包括:
根据所述历史预约数据确定多个目标训练数据和用户历史画像;
根据所述历史预约数据确定预约时间;
根据所述预约时间确定所述多个目标训练数据的连续性信息;
根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码;
关联所述多个目标训练数据编码、用户历史画像和连续性信息以确定训练样本;
根据所述训练样本和所述异常模式标签训练所述检测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预约时间确定所述多个目标训练数据的连续性信息,包括:
根据所述预约时间分别对所述多个目标训练数据顺次排序;
根据所述预约时间确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔;
响应于所述相邻的目标训练数据之间的时间间隔小于所述预设时间间隔,则确定所述相邻的目标训练数据具有连续性;
响应于所述相邻的目标训练数据之间的时间间隔不小于所述预设时间间隔,则确定所述相邻的目标训练数据不具有连续性。
5.根据权利要求3所述的方法,其特征在于,所述根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码,包括:
将所述多个目标训练数据进行分类以确定至少两种字符类型;其中,每种字符类型分别对应不同的预设编码;
顺次确定所述多个目标训练数据中每个字符对应的所述字符类型,以及所述字符类型连续出现的统计数量;
根据所述预设编码和所述统计数量对所述多个目标训练数据中的每个字符进行编码以确定多个目标训练数据编码。
6.根据权利要求3所述的方法,其特征在于,所述根据所述训练样本和所述异常模式标签训练所述检测模型,包括:
确定每个所述目标训练数据编码对应的类内向量;
选择任意一个所述目标训练数据编码确定为目标筛选条件,根据所述类内向量确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离,得到所述目标筛选条件对应的类内距离;
将所述目标筛选条件更新为未被选择过的所述目标训练数据编码中的任意一个目标训练数据编码,重复执行确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离的步骤,直至得到每个所述目标训练数据编码对应的类内距离;
根据所述异常模式标签确定异常数据;
根据所述异常数据和全部所述类内距离以确定异常类内距离;
根据所述异常类内距离训练所述检测模型。
7.根据权利要求1所述的方法,其特征在于,所述实时预约数据,包括:时间戳;
所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度,包括:
通过分布式处理引擎按照所述时间戳的时序存储所述实时预约数据,并将所述实时预约数据标记为未推理数据;
对所述未推理数据进行哈希映射以确定所述未推理数据对应的第一哈希值;
获取多个推理实例;其中,每个所述推理实例包括第二哈希值;
对所述第一哈希值和所述第二哈希值进行匹配,以将所述未推理数据分配至与所述推理实例;
同步全部所述推理实例,并根据所述未推理数据的时间戳读取所述时间戳前N个时间窗口的所述实时预约数据以确定待检测数据,其中,所述N为正整数;
根据所述检测模型检测所述待检测数据以确定所述待检测数据的异常度。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
设置恢复时间节点;
响应于所述检测模型停止服务,根据所述恢复时间节点将所述恢复时间节点与当前时刻内的所述实时预约数据重置为所述未推理数据;
清除所述恢复时间节点与当前时刻内的所述实时预约数据的异常度和所述异常数据;
根据所述恢复时间节点重启所述检测模型。
9.根据权利要求1所述的方法,其特征在于,所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度之后,还包括:
响应于所述异常度高于所述预设第二异常度阈值,则对所述实时预约数据进行聚类分析;
根据高于所述第二异常度阈值的异常度对应的所述实时预约数据确定新异常模式标签;
基于在线学习技术根据所述实时预约数据和所述新异常模式标签更新所述检测模型。
10.根据权利要求9所述的方法,其特征在于,所述第二异常度阈值大于所述第一异常度阈值。
11.一种异常数据检测装置,其特征在于,包括:
获取模块,被配置为获取历史预约数据、实时预约数据和异常模式标签;
训练模块,被配置为根据所述历史预约数据和异常模式标签训练检测模型;
第一确定模块,被配置为根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
第二确定模块,被配置为确定所述异常度是否高于预设第一异常度阈值;
检测模块,被配置为响应于所述异常度高于所述预设第一异常度阈值,则确定所述实时预约数据为异常数据。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至10任意一项所述的方法。
13.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使所述计算机实现权利要求1至10任一项所述的方法。
CN202210589178.9A 2022-05-26 2022-05-26 异常数据检测方法、装置、电子设备及存储介质 Pending CN115025497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210589178.9A CN115025497A (zh) 2022-05-26 2022-05-26 异常数据检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210589178.9A CN115025497A (zh) 2022-05-26 2022-05-26 异常数据检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115025497A true CN115025497A (zh) 2022-09-09

Family

ID=83121561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210589178.9A Pending CN115025497A (zh) 2022-05-26 2022-05-26 异常数据检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115025497A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028276A (zh) * 2023-02-27 2023-04-28 深圳市泛联信息科技有限公司 延迟数据重构方法、装置、存储节点和存储介质
CN116389108A (zh) * 2023-04-03 2023-07-04 杭州诺禾网络科技有限公司 Ab实验方法、系统与存储介质
CN117576823A (zh) * 2023-11-29 2024-02-20 上海徽视科技集团有限公司 一种排队叫号系统终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028276A (zh) * 2023-02-27 2023-04-28 深圳市泛联信息科技有限公司 延迟数据重构方法、装置、存储节点和存储介质
CN116028276B (zh) * 2023-02-27 2023-06-09 深圳市泛联信息科技有限公司 延迟数据重构方法、装置、存储节点和存储介质
CN116389108A (zh) * 2023-04-03 2023-07-04 杭州诺禾网络科技有限公司 Ab实验方法、系统与存储介质
CN116389108B (zh) * 2023-04-03 2023-10-10 杭州诺禾网络科技有限公司 Ab实验方法、系统与存储介质
CN117576823A (zh) * 2023-11-29 2024-02-20 上海徽视科技集团有限公司 一种排队叫号系统终端
CN117576823B (zh) * 2023-11-29 2024-05-14 上海徽视科技集团有限公司 一种排队叫号系统终端

Similar Documents

Publication Publication Date Title
CN115025497A (zh) 异常数据检测方法、装置、电子设备及存储介质
TWI688917B (zh) 風險識別模型構建和風險識別方法、裝置及設備
CN110598037B (zh) 一种图像搜索方法、装置和存储介质
US20170132523A1 (en) Periodicity Analysis on Heterogeneous Logs
CN115862088A (zh) 一种身份识别方法及装置
CN109547393B (zh) 恶意号码识别方法、装置、设备和存储介质
CN112163008A (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN109144964A (zh) 基于机器学习的日志解析方法和装置
CN108304432A (zh) 信息推送处理方法、信息推送处理装置及存储介质
CN109194689A (zh) 异常行为识别方法、装置、服务器及存储介质
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
CN113315851A (zh) 域名检测方法、装置及存储介质
CN111428087B (zh) 视频截取方法、装置、计算机设备和存储介质
CN110781818B (zh) 视频分类方法、模型训练方法、装置及设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN109697155B (zh) It系统性能评估方法、装置、设备及可读存储介质
CN112465565A (zh) 一种基于机器学习的用户画像预测的方法及装置
CN110929285A (zh) 一种隐私数据的处理方法及装置
CN109697224B (zh) 一种账单消息处理方法、装置和存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115393100A (zh) 资源推荐方法及装置
CN113220947A (zh) 对事件特征进行编码的方法和装置
CN114357849A (zh) 用户行为异常检测方法、系统及终端设备
CN108255583B (zh) 一种应用程序对比方法及装置
CN113535594B (zh) 业务场景测试用例的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination