CN111191720A - 一种业务场景的识别方法、装置及电子设备 - Google Patents

一种业务场景的识别方法、装置及电子设备 Download PDF

Info

Publication number
CN111191720A
CN111191720A CN201911391791.4A CN201911391791A CN111191720A CN 111191720 A CN111191720 A CN 111191720A CN 201911391791 A CN201911391791 A CN 201911391791A CN 111191720 A CN111191720 A CN 111191720A
Authority
CN
China
Prior art keywords
data
anomaly detection
service scene
transaction
application system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911391791.4A
Other languages
English (en)
Other versions
CN111191720B (zh
Inventor
刘威
王艳华
李中三
李世宁
张明
金星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911391791.4A priority Critical patent/CN111191720B/zh
Publication of CN111191720A publication Critical patent/CN111191720A/zh
Application granted granted Critical
Publication of CN111191720B publication Critical patent/CN111191720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种业务场景的识别方法、装置及电子设备,可以对提取的交易数据的交易特征数据进行数据异常检测,得到数据异常检测结果,然后业务场景与业务场景涉及的应用系统的对应关系,确定与该数据异常检测结果对应的业务场景,实现了业务场景的识别。另外,本实施例并未对业务场景的数据直接进行数据处理,而是对应用系统的交易数据进行处理,一个场景会涉及多个应用系统,即应用系统相比于场景来说,粒度更小,进而通过粒度更小的应用系统识别业务场景会使得业务场景的识别准确度更高。

Description

一种业务场景的识别方法、装置及电子设备
技术领域
本发明涉及场景识别领域,更具体的说,涉及一种业务场景的识别方法、装置及电子设备。
背景技术
业务场景识别是指依据用户数据识别用户所处于的业务场景,以金融领域为例,用户所处于的场景可以是支付、转账、快贷等常规类业务场景和电商大促、节日红包、国债发行、纪念币发行等突增类业务场景。
识别出业务场景之后,就可以在业务场景的业务数据临时突增时,及时进行预防,以及在因为业务数据突增导致服务器瘫痪时及时定位故障并进行维护。
发明内容
有鉴于此,本发明提供一种业务场景的识别方法、装置及电子设备,以解决如果能够识别出业务场景,就可以在业务场景的业务数据临时突增时,及时进行预防,以及在因为业务数据突增导致服务器瘫痪时及时定位故障并进行维护的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种业务场景的识别方法,包括:
获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
获取业务场景与所述业务场景涉及的应用系统的对应关系;
依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
进一步,对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果,包括:
获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果;
将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
进一步,所述数据异常检测模型的生成过程包括:
获取所述应用系统对应的历史交易数据;
基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据;
确定所述目标数据在预设特征维度的历史交易特征数据;
基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
进一步,依据所述对应关系,确定所述数据异常检测结果对应的业务场景,包括:
基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景;
将出现次数最多的备选业务场景作为所述数据异常检测结果对应的业务场景。
进一步,基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景,包括:
计算所述对应关系中的子数据与所述数据异常检测结果的距离值;
筛选出距离值符合预设条件的子数据,并作为目标数据;
获取所述目标子数据中的业务场景,并作为备选业务场景。
一种业务场景的识别装置,包括:
数据处理模块,用于获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
异常检测模块,用于对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
关系获取模块,用于获取业务场景与所述业务场景涉及的应用系统的对应关系;
场景确定模块,用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
进一步,所述异常检测模块包括:
第一结果确定子模块,用于获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果;
第二结果确定子模块,用于将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
进一步,还包括模型构建模块;所述模型构建模块包括:
数据获取子模块,用于获取所述应用系统对应的历史交易数据;
数据采集子模块,用于基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据;
数据确定子模块,用于确定所述目标数据在预设特征维度的历史交易特征数据;
模型生成子模块,用于基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
进一步,所述场景确定模块用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景时,具体用于:
基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景,将出现次数最多的备选业务场景作为所述数据异常检测结果对应的业务场景。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
获取业务场景与所述业务场景涉及的应用系统的对应关系;
依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种业务场景的识别方法、装置及电子设备,可以对提取的交易数据的交易特征数据进行数据异常检测,得到数据异常检测结果,然后业务场景与所述业务场景涉及的应用系统的对应关系,确定与该数据异常检测结果对应的业务场景,实现了业务场景的识别。另外,本实施例并未对业务场景的数据直接进行数据处理,而是对应用系统的交易数据进行处理,一个场景会涉及多个应用系统,即应用系统相比于场景来说,粒度更小,进而通过粒度更小的应用系统识别业务场景会使得业务场景的识别准确度更高。此外,未直接对交易数据进行处理,而是对交易数据对应的交易特征数据进行处理,可以减少数据计算量,并且通过先进行数据异常检测,再进行业务场景识别的方式,相比于直接确定交易特征数据的业务场景的方式,可以在样本数据较少时,也能够实现业务场景识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种业务场景的识别方法的方法流程图;
图2为本发明实施例使用的预设特征维度的场景示意图;
图3为本发明实施例提供的另一种业务场景的识别方法的方法流程图;
图4为本发明实施例提供的又一种业务场景的识别方法的方法流程图;
图5为本发明实施例提供的一种突增类业务场景的识别结果的场景示意图;
图6为本发明实施例提供的另一种突增类业务场景的识别结果的场景示意图;
图7为本发明实施例提供的再一种突增类业务场景的识别结果的场景示意图;
图8为本发明实施例提供的一种业务场景的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种业务场景的识别方法,发明人发现,目前可以对网络流量业务进行识别。具体过程如下:获取业务主要的流量特征,所述流量特征可以选取业务有效数据包的实部的大小、业务数据流的上行和下行数据包的比例等;然后利用阈值或者简单的统计学指标区分不同的业务,如利用单位时间内传输的数据包大小与阈值的比较结果来区分网络流量业务属于消息类业务还是下载类业务,若大于阈值,则认为是下载类业务,若小于阈值,则认为是消息类业务。
但发明人经过研究发现,基于网络流量特征的业务识别或者业务类型识别具有以下缺点:
(1)选取特征简单。选取的特征一般为简单的数值特征或直接选取业务数据值作为特征,没有经过特征工程处理,鲁棒性和辨识度不强。
(2)识别方法简单。一般采用阈值法或者简单的高斯分布处理特征数据,识别召回率不高。
(3)扩展性差。需要针对不同的业务类型重新选取不同的特征,筛选难度大,周期长,不利于扩展和推广。
(4)该方法不能识别出电商大促、节日红包、国债发行、纪念币发行等突增类业务场景。
为此,发明人经过进一步的研究,研发了一种业务场景的识别方法,可以实现突增类业务场景的识别,并且可以提高业务场景的识别准确度,具体的,本发明实施例首先从数据引擎中获取各应用系统(粒度比场景更小)交易量的时间序列数据,利用统计学等方式获取多种特征并融合,以提高对于各场景的辨识度;然后以无监督学习算法IsolationForest(孤立森林)实现各应用系统交易量突增的异常检测,并将检测结果按照预先设定的应用系统的排列顺序进行组合,形成序列数据。通过各个应用系统的交易量突增与否预先定义表征各种业务场景与应用系统的对应关系的序列数据;再采用典型的基于实例的有监督学习算法KNN来实现业务场景分类,并对识别结果通过时间连续性约束和场景连续性约束加以约束处置,精准实现各类突增类业务场景的识别,可扩展性强,识别召回率高,使用方式简单。能够提高运营体系的覆盖面,增强在应急处置等场合下的判断力和决策力,为业务场景的监控和管理打下坚实的基础。
具体的,参照图1,业务场景的识别方法可以包括:
S11、获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据。
本实施例中,使用了ElasticSearch来获取和整合交易数据,Elasticsearch是一个实时分布式搜索和数据分析引擎,是本系统主要的数据来源,所用到的主要索引Index的名称可以为tranpmindex-*(该名称是自定义的),用于获取正在运行的每一应用系统的实时交易量。其中,获取的实时交易量称为交易数据。本实施例中,一共采集了12个应用系统的实时交易量,12个应用系统可以包括快捷支付系统、收单系统、企业服务总线等。
不同的业务场景会调用不同的应用系统,举例来说,节日红包场景会调用快捷支付系统和收单系统。也即应用系统是比业务场景数据粒度更小,这样使用应用系统的交易数据确定的业务场景会更加准确。本实施例中,会采集每一应用系统的实时交易量。实时交易量是由记录时间和记录值组成的元素,本实施例称为时间序列。
本实施例中,使用数据分析包Numpy、Pandas、tsfresh对原始的数据对交易数据进行特征提取,得到交易特征数据,由于原始时间序列的维数较高、数据量大、对噪声敏感,并且在时间维度上具有相关性,因此本实施例未采用直接使用单个数据点进行后续处理的方式,而是在进行交易特征提取时,采用滑动窗口的方式对交易数据进行交易采集,滑动窗口的大小可以选择15,交易数据一般为一个滑动窗口的数据,设置滑动窗口的大小为15,是由于该值能在抗噪声干扰与检测异常之间取得较好的平衡。对于交易数据的缺失部分,我们采用线性插值补全;如果缺失过多或者插值效果不好则丢弃缺失部分。然后确定每一滑动窗口采集的数据在预设特征维度下的交易特征数据,参照图2,图2给出了16种预设特征维度,包括时间序列复杂度、曲线顶端尖峭或扁平程度、数据分布对称性的测度、波动程度、集中程度等特征维度。选取这16种预设特征维度,是由于这16种特征维度对应的组合特征能够表示高维的交易特征数据,可以有效地降低数据维度,强调局部或全局的形状特征,同时计算消耗较低,对噪音不敏感或者能够隐式地处理噪音等。
通过上述对交易数据的处理,可以得到每一交易数据在不同的预设特征维度下的交易特征数据,作为数据异常检测的输入。
S12、对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果。
在实际应用中,会调用预先生成的数据异常检测模型进行数据异常检测,具体的,参照图3,步骤S12可以包括:
S21、获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果。
一个应用系统对应一个数据异常检测模型,即不同的数据异常检测模型用来检测不同的应用系统的交易数据是否存在数据异常,本实施例中的数据异常是指交易数据突增,即将交易数据突增转换为了数据异常检测的问题。
本实施例中的数据异常检测模型是预先构建的,参照图4,数据异常检测模型的生成过程可以包括:
S31、获取所述应用系统对应的历史交易数据。
本实施例中,首先获取应用系统的历史交易数据,如前两周的交易数据。
S32、基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据。
同上述的交易数据一样,本实施例中也对历史交易数据基于滑动窗口的方式进行数据采集,可以得到每一滑动窗口对应的交易数据,此时称为目标数据。
S33、确定所述目标数据在预设特征维度的历史交易特征数据。
预设特征维度即为上述的16种特征,统计出16种特征对应的历史交易特征数据之后,这些数据作为模型训练的训练样本。
S34、基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
本实施例中由于交易突增的场景不是经常性发生,即异常数据的样本数量较少,正常样本和异常样本的数据量严重不平衡,进而本实施例采用了一种无监督算法来进行数据异常检测模型的训练,具体的为基于集成学习Ensemble的高效异常检测算法IsolationForest(孤立森林)来实现数据异常检测模型的训练,该算法在训练阶段每次随机选择划分属性和划分点(值)对训练样本集进行二叉划分并重复该过程,直至样本集不可再分(每个叶子节点只包括一个样本或全部样本)或者树的高度达到默认值log2ψ(ψ为训练样本数),如此构建出一个isolation tree(隔离树)。获得t个isolation tree后即可组成IsolationForest并完成训练阶段。在测试阶段,令测试样本遍历每一棵isolation tree,并得出该样本遍历所有树后落到叶子节点时高度的平均值,低于所设定的阈值时的则为异常。
另外,本实施例中,在训练阶段,会实时调整数据异常检测模型中的参数以及上述的滑动窗口的大小,以使数据异常检测模型的损失值最小以及能在抗噪声干扰与检测异常之间取得较好的平衡。此外,异常检测模型的训练可以离线进行,并自动选取最近一段时间的数据作为训练数据。
在数据异常检测模型确定之后,将应用系统的交易特征数据输出到模型中,即可得到该应用系统每个时刻对应的数据异常确定结果,其中,数据异常确定结果为0,则说明交易数据无异常,数据异常确定结果为1,则说明交易数据异常,即交易量突增。
参照图5,图5展示了一个应用系统在某日20点至次日20点的异常检测结果,横坐标为时间戳,纵坐标为交易量大小,黑色点表示异常点,可以看到本发明实施例对毛刺噪声敏感程度较低,对突变异常检测效果较好。
S22、将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
在实际应用中,不同的应用系统都会得到一个数据异常确定结果,如12个应用系统会得到12个0或1的数据,预先为12个应用系统设定一个排列顺序,然后依据该排列顺序,对12个数据异常确定结果进行汇总,得到一个包括12个0/1的数组,该数据即为数据异常检测结果。
S13、获取业务场景与所述业务场景涉及的应用系统的对应关系。
步骤S13和步骤S14是有监督学习的过程,首先确定出每种业务场景会使用到哪些应用系统,如,业务场景1会涉及到应用系统A、B、C和D,业务场景2会涉及到应用系统A、B、C、D和E,这样可以构建业务场景与每一应用系统的对应关系,其中,被业务场景使用到的应用场景的标识设置为1,未被业务场景使用到的应用场景的标识设置为0,若有12个应用系统,则每一个业务场景对应一个12维的数组,该12维的数组可以称为业务场景特征数组,需要说明的是,若业务场景1会涉及到应用系统A、B、C和D,但是在业务场景执行过程中,整个业务场景未被完全执行,如发红包场景,由于余额不足,导致发红包失败,则整个发红包后续的支付流程未成功被执行,即业务场景使用的部分业务系统未被成功执行这种情况,也会设置相应的12维的数组,这样一来,可以得到每个业务场景对应的多个数组,这些数组即为业务场景与所述业务场景涉及的应用系统的对应关系,作为后期分类器的输入。
在实际应用中,对应关系,也即分类训练样本是通过人工构造并打标签获得,即在某个业务场景发生时12个应用系统是否会发生交易量突变,如[0,0,0,0,0,1,1,1,1,0,0,0,2]和[1,0,0,0,0,1,1,1,1,0,0,0,2]都表示节日红包场景的样本,0表示该应用系统和节日红包场景的相关性较弱,即发红包场景不涉及该应用系统,1表示相关性较强,即发红包场景涉及该应用系统,最后一位表示场景类别编码。此外,我们还构造了已知业务场景之外的背景样本,背景样本指的是除了设定的业务场景样本以外的,可以理解为日常情况下没有发生场景时,这里就是12个0组成的数组,最后总训练样本数量不会很多。
S14、依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
本实施例中使用KNN分类器进行业务场景的确定,具体理由如下:
由于突增类业务场景实例在实际中发生频率较低且历史数据缺失,因此没有采用根据真实的交易量序列选择特征值直接构造场景实例的训练样本数据,实际经过试验发现,采用Xgboost算法直接进行分类尝试后发现效果很差。一是由于训练样本数目较少,属于one-shot learning,即通过少量样本进行学习,基于参数的机器学习模型容易造成过拟合;二是用真实数据构造场景实例的训练样本不能很好地描述每种场景类别,且维度很高。如选取12个生产系统,每个系统的交易量序列选择16个特征值,那么维度可能会达到192维。
为了避免过拟合和维度过高,采用典型的基于实例的分类算法KNN来实现业务场景分类。KNN的原理为,即将新的测试样本与训练集中的每个样本进行比较,并提取训练集中与该测试样本距离最近的前K个样本的标签,最后选择这K个样本标签中出现次数最多的类别作为该测试样本的类别,其中K的值可以取1,也可以为多个。
将KNN应用在突增类业务场景时,新的测试样本即为数据异常检测结果,训练集中的样本即为上述的业务场景与所述业务场景涉及的应用系统的对应关系。
将对应关系和数据异常检测结果输入到KNN中,即可得到最终的业务场景。参照图6,图6为一个不同时间段突增类业务场景的识别结果。
由于在时间序列预处理时未进行平滑处理,因此识别结果会出现一些孤立的业务场景,我们对5月19日20点至20日20点之间的场景识别部分结果如图6所示,国债发行场景显然发生的可能性较小,因此需要对识别结果加以约束处置:一是时间连续性约束,即场景所发生的时间间隔不能过大并且持续时间不能过小;二是场景连续性约束,即检测出的同一场景持续次数不能过小。图7展示了经过两种约束后的识别结果,经过和真实数据比对,准确率很高,并且还检测到了平时容易被忽略的5月20日5点20分、5月20日13点14分等红包小高峰时刻。如果在最终检测的业务场景中时间段内有缺失值,我们会加以提示。
另外,通过本发明实施例对半年之内发生的四种业务场景(电商大促、节日红包、国债发行、纪念币发行场景)识别,除了数据缺失严重的样本,通过本发明实施例能够识别全部发生的22次,即召回率100%,精确度也较高,存在一定误报率,可以通过调节训练样本的异常比例参数来降低。
本实施例中,可以对提取的交易数据的交易特征数据进行数据异常检测,得到数据异常检测结果,然后业务场景与所述业务场景涉及的应用系统的对应关系,确定与该数据异常检测结果对应的业务场景,实现了业务场景的识别。另外,本实施例并未对业务场景的数据直接进行数据处理,而是对应用系统的交易数据进行处理,一个场景会涉及多个应用系统,即应用系统相比于场景来说,粒度更小,进而通过粒度更小的应用系统识别业务场景会使得业务场景的识别准确度更高。此外,未直接对交易数据进行处理,而是对交易数据对应的交易特征数据进行处理,可以减少数据计算量,并且通过先进行数据异常检测,再进行业务场景识别的方式,相比于直接确定交易特征数据的业务场景的方式,可以在样本数据较少时,也能够实现业务场景识别。
此外,本实施例利用无监督异常检测和有监督分类算法结合的方式,精准实现各类突增类业务场景的识别。基于多种时序特征融合利用孤立森林算法实现时间序列的异常检测算法。采用典型的基于实例的分类算法KNN来实现业务场景分类,并对识别结果通过时间连续性约束和场景连续性约束加以约束处置,提高分类准确性。
可选的,在上述业务场景的识别方法的基础上,本发明的另一实施例提供了一种业务场景的识别装置,参照图8,可以包括:
数据处理模块11,用于获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
异常检测模块12,用于对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
关系获取模块13,用于获取业务场景与所述业务场景涉及的应用系统的对应关系;
场景确定模块14,用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
进一步,所述异常检测模块包括:
第一结果确定子模块,用于获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果;
第二结果确定子模块,用于将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
进一步,还包括模型构建模块;所述模型构建模块包括:
数据获取子模块,用于获取所述应用系统对应的历史交易数据;
数据采集子模块,用于基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据;
数据确定子模块,用于确定所述目标数据在预设特征维度的历史交易特征数据;
模型生成子模块,用于基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
进一步,所述场景确定模块用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景时,具体用于:
基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景,将出现次数最多的备选业务场景作为所述数据异常检测结果对应的业务场景。
进一步,所述场景确定模块用于基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景时,具体用于:
计算所述对应关系中的子数据与所述数据异常检测结果的距离值;
筛选出距离值符合预设条件的子数据,并作为目标数据;
获取所述目标子数据中的业务场景,并作为备选业务场景。
本实施例中,可以对提取的交易数据的交易特征数据进行数据异常检测,得到数据异常检测结果,然后业务场景与所述业务场景涉及的应用系统的对应关系,确定与该数据异常检测结果对应的业务场景,实现了业务场景的识别。另外,本实施例并未对业务场景的数据直接进行数据处理,而是对应用系统的交易数据进行处理,一个场景会涉及多个应用系统,即应用系统相比于场景来说,粒度更小,进而通过粒度更小的应用系统识别业务场景会使得业务场景的识别准确度更高。此外,未直接对交易数据进行处理,而是对交易数据对应的交易特征数据进行处理,可以减少数据计算量,并且通过先进行数据异常检测,再进行业务场景识别的方式,相比于直接确定交易特征数据的业务场景的方式,可以在样本数据较少时,也能够实现业务场景识别。
此外,本实施例利用无监督异常检测和有监督分类算法结合的方式,精准实现各类突增类业务场景的识别。基于多种时序特征融合利用孤立森林算法实现时间序列的异常检测算法。采用典型的基于实例的分类算法KNN来实现业务场景分类,并对识别结果通过时间连续性约束和场景连续性约束加以约束处置,提高分类准确性。
需要说明的是,本实施例中的各个模块和子模块的工作过程,请参照上述实施例中的相应说明,在此不作赘述。
可选的,在上述业务场景的识别方法及装置的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
获取业务场景与所述业务场景涉及的应用系统的对应关系;
依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
本实施例中,可以对提取的交易数据的交易特征数据进行数据异常检测,得到数据异常检测结果,然后业务场景与所述业务场景涉及的应用系统的对应关系,确定与该数据异常检测结果对应的业务场景,实现了业务场景的识别。另外,本实施例并未对业务场景的数据直接进行数据处理,而是对应用系统的交易数据进行处理,一个场景会涉及多个应用系统,即应用系统相比于场景来说,粒度更小,进而通过粒度更小的应用系统识别业务场景会使得业务场景的识别准确度更高。此外,未直接对交易数据进行处理,而是对交易数据对应的交易特征数据进行处理,可以减少数据计算量,并且通过先进行数据异常检测,再进行业务场景识别的方式,相比于直接确定交易特征数据的业务场景的方式,可以在样本数据较少时,也能够实现业务场景识别。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种业务场景的识别方法,其特征在于,包括:
获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
获取业务场景与所述业务场景涉及的应用系统的对应关系;
依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
2.根据权利要求1所述的识别方法,其特征在于,对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果,包括:
获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果;
将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
3.根据权利要求2所述的识别方法,其特征在于,所述数据异常检测模型的生成过程包括:
获取所述应用系统对应的历史交易数据;
基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据;
确定所述目标数据在预设特征维度的历史交易特征数据;
基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
4.根据权利要求1所述的识别方法,其特征在于,依据所述对应关系,确定所述数据异常检测结果对应的业务场景,包括:
基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景;
将出现次数最多的备选业务场景作为所述数据异常检测结果对应的业务场景。
5.根据权利要求4所述的识别方法,其特征在于,基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景,包括:
计算所述对应关系中的子数据与所述数据异常检测结果的距离值;
筛选出距离值符合预设条件的子数据,并作为目标数据;
获取所述目标子数据中的业务场景,并作为备选业务场景。
6.一种业务场景的识别装置,其特征在于,包括:
数据处理模块,用于获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
异常检测模块,用于对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
关系获取模块,用于获取业务场景与所述业务场景涉及的应用系统的对应关系;
场景确定模块,用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
7.根据权利要求6所述的识别装置,其特征在于,所述异常检测模块包括:
第一结果确定子模块,用于获取所述应用系统对应的数据异常检测模型,并将所述交易特征数据输入到所述数据异常检测模型中,得到所述数据异常确定结果;
第二结果确定子模块,用于将不同的所述应用系统对应的所述数据异常确定结果按照预设的应用系统排列顺序进行汇总,得到所述数据异常检测结果。
8.根据权利要求7所述的识别装置,其特征在于,还包括模型构建模块;所述模型构建模块包括:
数据获取子模块,用于获取所述应用系统对应的历史交易数据;
数据采集子模块,用于基于滑动窗口方式对所述历史交易数据进行数据采集,得到目标数据;
数据确定子模块,用于确定所述目标数据在预设特征维度的历史交易特征数据;
模型生成子模块,用于基于孤立森林算法训练所述历史交易特征数据,得到所述数据异常检测模型。
9.根据权利要求6所述的识别装置,其特征在于,所述场景确定模块用于依据所述对应关系,确定所述数据异常检测结果对应的业务场景时,具体用于:
基于所述对应关系,筛选出所述数据异常检测结果对应的备选业务场景,将出现次数最多的备选业务场景作为所述数据异常检测结果对应的业务场景。
10.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取至少一个应用系统的交易数据,并提取所述交易数据在预设特征维度的交易特征数据;
对所述交易特征数据进行数据异常检测,得到至少一个所述应用系统对应的数据异常检测结果;
获取业务场景与所述业务场景涉及的应用系统的对应关系;
依据所述对应关系,确定所述数据异常检测结果对应的业务场景。
CN201911391791.4A 2019-12-30 2019-12-30 一种业务场景的识别方法、装置及电子设备 Active CN111191720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911391791.4A CN111191720B (zh) 2019-12-30 2019-12-30 一种业务场景的识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911391791.4A CN111191720B (zh) 2019-12-30 2019-12-30 一种业务场景的识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111191720A true CN111191720A (zh) 2020-05-22
CN111191720B CN111191720B (zh) 2023-08-15

Family

ID=70705959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911391791.4A Active CN111191720B (zh) 2019-12-30 2019-12-30 一种业务场景的识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111191720B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639497A (zh) * 2020-05-27 2020-09-08 北京东方通科技股份有限公司 一种基于大数据机器学习的异常行为发现方法
CN111698233A (zh) * 2020-06-03 2020-09-22 中国银行股份有限公司 报文处理方法及装置
CN111741004A (zh) * 2020-06-24 2020-10-02 中国银行股份有限公司 一种网络安全态势感知的方法和相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984538A (zh) * 2014-03-27 2014-08-13 华为技术有限公司 应用场景的识别方法、功耗管理方法、装置及终端设备
US20160321661A1 (en) * 2015-04-29 2016-11-03 The Retail Equation, Inc. Systems and methods for organizing, visualizing and processing consumer transactions data
CN109213656A (zh) * 2018-07-23 2019-01-15 武汉智领云科技有限公司 一种交互式大数据智能异常检测系统和方法
CN109948728A (zh) * 2019-03-28 2019-06-28 第四范式(北京)技术有限公司 异常交易检测模型的训练以及异常交易检测的方法和装置
CN110544164A (zh) * 2019-08-27 2019-12-06 中信百信银行股份有限公司 全链路对账方法和系统
CN110557447A (zh) * 2019-08-26 2019-12-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984538A (zh) * 2014-03-27 2014-08-13 华为技术有限公司 应用场景的识别方法、功耗管理方法、装置及终端设备
US20160321661A1 (en) * 2015-04-29 2016-11-03 The Retail Equation, Inc. Systems and methods for organizing, visualizing and processing consumer transactions data
CN109213656A (zh) * 2018-07-23 2019-01-15 武汉智领云科技有限公司 一种交互式大数据智能异常检测系统和方法
CN109948728A (zh) * 2019-03-28 2019-06-28 第四范式(北京)技术有限公司 异常交易检测模型的训练以及异常交易检测的方法和装置
CN110557447A (zh) * 2019-08-26 2019-12-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN110544164A (zh) * 2019-08-27 2019-12-06 中信百信银行股份有限公司 全链路对账方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639497A (zh) * 2020-05-27 2020-09-08 北京东方通科技股份有限公司 一种基于大数据机器学习的异常行为发现方法
CN111639497B (zh) * 2020-05-27 2021-01-15 北京东方通科技股份有限公司 一种基于大数据机器学习的异常行为发现方法
CN111698233A (zh) * 2020-06-03 2020-09-22 中国银行股份有限公司 报文处理方法及装置
CN111741004A (zh) * 2020-06-24 2020-10-02 中国银行股份有限公司 一种网络安全态势感知的方法和相关装置

Also Published As

Publication number Publication date
CN111191720B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109726744B (zh) 一种网络流量分类方法
CN109525595B (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN106101121B (zh) 一种全网络流量异常抽取方法
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN111314329B (zh) 流量入侵检测系统和方法
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN108268886B (zh) 用于识别外挂操作的方法及系统
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN109359234B (zh) 一种多维度网络安全事件分级装置
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN112463848A (zh) 检测用户异常行为的检测方法、系统、装置和存储介质
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN108234435A (zh) 一种基于ip分类的自动检测方法
US11539730B2 (en) Method, device, and computer program product for abnormality detection
CN115150206B (zh) 一种信息安全用的入侵检测安全预警系统及其方法
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN109194622B (zh) 一种基于特征效率的加密流量分析特征选择方法
CN115439928A (zh) 一种操作行为识别方法及装置
KR102548321B1 (ko) 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法
CN111798237A (zh) 基于应用日志的异常交易诊断方法及系统
CN114625786B (zh) 一种基于风控技术的动态数据挖掘方法及系统
CN111475380A (zh) 一种日志分析方法和装置
CN111314170B (zh) 一种基于连接统计规律分析的特征模糊p2p协议识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant