CN115422016B - 一种基于服务端关系网络的数据监控方法及装置 - Google Patents
一种基于服务端关系网络的数据监控方法及装置 Download PDFInfo
- Publication number
- CN115422016B CN115422016B CN202211380239.7A CN202211380239A CN115422016B CN 115422016 B CN115422016 B CN 115422016B CN 202211380239 A CN202211380239 A CN 202211380239A CN 115422016 B CN115422016 B CN 115422016B
- Authority
- CN
- China
- Prior art keywords
- data
- server
- terminal
- historical
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006399 behavior Effects 0.000 claims abstract description 77
- 230000002159 abnormal effect Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000007670 refining Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 23
- 230000008859 change Effects 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 2
- 235000013305 food Nutrition 0.000 description 14
- 230000005856 abnormality Effects 0.000 description 13
- 235000013361 beverage Nutrition 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 7
- 230000006378 damage Effects 0.000 description 6
- 230000002265 prevention Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000013475 authorization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000209202 Bromus secalinus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000014594 pastries Nutrition 0.000 description 1
- 229920000515 polycarbonate Polymers 0.000 description 1
- 239000004417 polycarbonate Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于服务端关系网络的数据监控方法及装置。该方法包括:获取与存量终端之间具有操作行为的服务端的服务端数据标签并根据服务端数据标签和存量终端在业务平台上的历史表现数据建立并训练用以识别终端数据存在异常的数据监控模型,通过该模型对请求服务的目标终端通过服务端数据标签和关系网络实现是否存在异常的监控识别。由此通过动态变化的网络大数据构建特定关系网络并抽象出对应的业务场景,实现高效准确动态地进行直观的业务场景变化下的网络数据异常的监控处理。
Description
技术领域
本发明涉及信息监控技术领域,具体而言,涉及一种基于服务端关系网络的数据监控方法、装置、电子设备及计算机可读介质。
背景技术
随着互联网技术的发展,通过大量网络数据对各个领域和/或终端用户对象数据进行监测监控和处理,并预测/识别存在安全隐患的数据和/或终端用户对象,保障网络或数据或行业领域的数据安全,越来越重要。而多数监控方式是基于各种类别数据来构建复杂的关系网络或者说关系图谱,通过这种有效组合进行多方位的数据监控并进行安全分析处理,预测识别异常数据和终端进而排除异常终端、保护数据安全。但现有构建关系网络的信息或者说类型,通常采用设备信息、IP网络地址、联系人、WIFI信息等,这些信息虽然所属类别/类型不同,但都是基于物理实体的数据,或者说,都是固定的数据、即一般情况下不会变化,其不容易再进行分类或抽象,并不适应于海量动态数据变化不断的应用场景下的数据监控和处理,其无法高效率地、更准确地监控、识别、发现和预测网络数据中各种动态变化信息的安全隐患。
因而,需要对数据监控的方式进行改进以高效、准确实现网络数据的监控监测,保障数据安全。
发明内容
针对现有技术的上述缺陷,本发明提供一种基于服务端关系网络的数据监控方法、装置、系统和介质,以解决或部分解决如何通过动态变化的网络大数据来构建特定的关系网络并抽象出对应的业务场景,高效准确动态地实现直观的业务场景变化下的网络数据的监控处理的技术问题;进一步,如何通过动态变化的容易获得的终端信息提取终端历史表现数据来获取操作行为所对应的服务端数据而构建特定的关系网络、抽象出对应的业务场景,高效准确动态发现和识别存在的异常而实现直观的业务场景变化下网络数据监控处理的技术问题。
为了解决上述技术问题,本发明第一方面提出一种基于服务端关系网络的数据监控方法,包括:获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型;获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务方数据标签;根据所述目标终端数据和服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分;根据所述监控识别的预测评分结果,向目标用户发送消息
根据本发明一种优选实施方式,建立并训练用以识别终端数据存在异常的数据监控模型,具体包括:经由业务平台获取预设数量的存量终端的历史表现数据中对应的历史服务端数据,经过筛选后作为建立的数据监控模型的训练样本;其中,所述历史服务端数据包括体现终端与相应服务端之间操作行为的关联数据;以历史服务端数据中终端与服务端为不同类型的节点,以历史服务端数据中终端与对应服务端之间的关联数据内特定时间点所发生的操作行为的关系为边,构建服务端的关系网络;根据对关系网络中的服务端进行分类,构建相应的标识所属业务服务场景的服务端数据标签,并统计每个预设数量的存量终端对应的服务端数据标签;根据存量终端的历史表现数据以及存量终端对应的服务端的服务方数据标签作为所述训练样本的样本特征数据,形成数据监控模型的训练集;将训练集中的样本特征数据输入到数据监控模型中进行模型训练,得到训练后的数据监控模型,并输出对应监控的终端数据的异常情况评分。
根据本发明一种优选实施方式,经由业务平台获取预设数量的存量终端的历史表现数据中对应的历史服务端数据,包括:通过业务平台的数据库或外部数据库的终端信息,抽取存量终端的历史表现数据;从历史表现数据中选取一预定时间段内的历史服务端数据并进行清洗;所述历史服务端数据至少包括:终端对服务端提供的服务进行的操作行为;所述数据库为关联的服务方数据库。
根据本发明一种优选实施方式,以历史服务端数据中终端与服务端为不同类型的节点,以历史服务端数据中终端与对应服务端之间的关联数据内特定时间点所发生的操作行为的关系为边,构建服务端的关系网络,具体包括:利用清洗后的历史服务端数据中的终端ID与服务端ID作为节点,使用NetworkX构建服务端关系网络;终端的节点为第一类型,服务端的节点为第二类型;每条边具有权重,对建立的服务端关系网络进行再次数据清洗以删除权重小于预设权重阈值的边。
根据本发明一种优选实施方式,所述边的权重包括:基于节点之间的操作行为发生的次数进行设定,操作行为发生的次数越多,权重越大。
根据本发明一种优选实施方式,根据对关系网络中的服务端进行分类,构建相应的标识所属业务服务场景的服务端数据标签,并统计每个预设数量的存量终端对应的服务端数据标签,包括:从包含关系网络中的服务端的服务端数据的多个数据库中获取的服务端数据来制作用于发现终端异常情况的服务端数据标签;其中,多个数据库包括具有用于评分计算的数据库;根据服务端数据中的服务端名称确定实际业务场景后,根据实际业务场景的信息对所述业务场景下所有服务端都加上标签来标识所属业务场景;基于所述标签对同一个关系网络内的终端进行统计分析,并提炼存在异常概率高的标签进行异常状态预警;其中,样本特征数据还包括服务端数据标签的权重。
根据本发明一种优选实施方式,对所述业务场景下所有服务端都加上标签包括:根据所属业务场景预设的分类标准,对业务场景下的服务端出现的频度进行从高到低的排序,并对相应的服务端根据预设的分类标准添加大类与小类的标签。
根据本发明一种优选实施方式,根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务端数据标签;根据所述目标终端数据和服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分,包括:根据目标终端的历史表现数据中的历史服务端数据确定服务端ID;将所述服务端ID与目标终端ID分别作为不同类型的节点,使用NetworkX构建服务端关系网络;根据历史服务端数据中服务端名称确定实际业务场景,利用预设的分类标准,在相应的业务场景下,将所有服务端出现的频度进行从高到低的排序并对相应的服务端根据预设分类标准添加大类与小类的标签;将目标终端数据和服务端数据标签输入数据监控模型,计算获得目标终端异常情况的概率评分。
根据本发明一种优选实施方式,还包括:基于与存量终端或目标终端之间具有操作行为的服务端的数量以及数据监控模型的训练精度预设值k;抽取所述所有服务端中的k个服务端作为节点,与作为节点的存量终端或目标终端构建服务端关系网络。
为解决上述技术问题,本发明第二方面提出一种基于服务端关系网络的数据监控方法,包括:模型构建模块,用于获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型;监控识别模块,用于获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务方数据标签;以及,根据所述目标终端数据和服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分;消息发送模块,用于根据所述监控识别的预测评分结果,向目标终端发送消息。
为解决上述技术问题,本发明第三方面提出一种电子设备,包括:处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述第一方面的方法。
为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述第一方面的方法。
为解决上述技术问题,本发明第五方面提出一种计算机可执行程序,所述计算机可执行程序被执行时,实现前述的第一方面的方法。
本发明的一个实施方式,通过终端的历史表现数据获得其行为操作对应的服务端数据从而基于服务端数据构建关系网络,并在构建关系网络同时进一步抽象出实际应用的业务场景、为关系网络的服务端数据制作标签,进而,利用服务端数据标签和终端的历史表现数据作为样本特征建立训练集来训练获得数据监控模型,以便对各个需要监控的目标终端进行异常情况的监控预测。由此,利用实际业务场景下的对接入终端的画像或异常状况(比如异常行为数据等)区分(不同类别划分等),更具有直观性和可解释性,能够丰富画像,确定各个终端的偏好、资质、安全性等,通过机器学习算法评估和预测,实现异常的有效的监控识别,尤其监控识别团体异常情况,找出安全隐患,从而更有效准确实现动态的大数据安全和异常情况的智能监测。此外还能够提供可视化表达,加深对场景特点和平台对接的终端群体发生的行为操作的深层次理解,大大提高安全管控人员、运营维护人员等的工作效率和准确度。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据本发明的一种基于关系网络的数据监控方法的一实施例的主要流程图;
图2是根据本发明的方法的建立和训练数据监控模型的一实施例的主要流程图;
图3根据本发明的一种目标数据标签对于细小分类的交互数量和交互长时间状态的统计分析的一个例子的示意图;
图4是根据本发明的一种基于关系网络的数据监控装置的一实施例的主要功能架构示意图;
图5是根据本发明的一种电子设备的一示例性实施例的结构框图;
图6是根据本发明的一种基于关系网络的数据监控系统的一实施例的结构示意图。
图7是本发明一种计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
下面解释一下本申请中可能用到的一部分技术术语的含义:
关系网络:或者说关系图谱,本质是语义网络,是一种基于图的数据结构,由节点(Point)(“实体”)和边(Edge)(“关系”)组成。把所有不同种类的信息连接在一起而得到的一个关系网络,从“关系”的角度去分析问题,解决问题。每个节点代表一个个体,每条边为个体与个体之间的关系。本发明将利用关系网络把不同的个体按照其关系连接在一起,对网络中海量的需要进行安全检测监控的数据提供了从“关系”的角度进行监测分析的能力。
NetworkX:NetworkX是Python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。图是由顶点、边和可选的属性构成的数据结构,顶点表示数据,边是由两个顶点唯一确定的,表示两个顶点之间的关系。顶点和边也可以拥有更多的属性,以存储更多的信息。其中,边和顶点都可以有自定义的属性,属性称作边和顶点的数据,每一个属性都是一个Key:值Value对。
【实施例1】
请参阅图1,图1是本发明的方法的一个实施例的主要流程图,如图1所示,该方法至少包括如下步骤:
S1、建立并训练基于服务端数据标签的数据监控模型。
具体地,获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型。
一个实施方式中,需要监控的大数据一般分属于不同终端,通过构建训练的数据监控模型,可以用于预测或识别每个终端在网络平台进行操作时是否存在异常,比如终端的异常的行为、异常的状态、异常的自身属性数据等。
其中,通过数据监控模型,可以识别或预测到各种网络APP的业务平台上终端在相应业务平台的各种业务操作所带来的数据存在安全隐患或者终端本身信息数据存在安全隐患或者在该业务场景下的该终端本身信息数据/操作出现有安全隐患的状态等。这些情况往往是相应业务场景下的异常情况。进而,对应这些预测或识别的异常,输出预测或识别的异常评分,比如:由监控到的终端操作行为的数据,计算出这些操作行为是否存在攻击、欺诈、窃取等对网络信息、提供网络信息资源的平台等带来危害的情况,进而跟踪识别或预测出产生操作行为数据的终端是否存在危害性等,这些可能的危害安全的情况,可以根据计算的安全评分来识别或者预测由于该终端是在某特定业务场景或相应业务场景的特定的平台上执行的操作行为所产生的异常。
一个数据监控实际应用的例子如例1:本实施例应用在例如付费数据服务平台上,该平台可以监控付费终端、普通终端等各种终端的公开的或涉及业务的数据,在该平台上获取监控的这些终端相关的数据,当采用了本实施例的方案时,可以由所述数据监控模型对监控平台采集的这些终端相关的数据进行数据安全预测或识别或者说对数据进行预测或识别其存在的异常,尤其是用来识别潜在的可能存在安全隐患导致信息被欺诈、窃取、甚至危害到整个业务平台尤其带来攻击风险的各种平台终端。比如:确定有安全隐患的数据或者进一步确定对应该安全隐患的数据的终端等,例:根据监控的与数据下载操作业务有关的数据来预测数据存在安全隐患,而相应的这些终端存在违规下载数据行为、非法获取数据行为、攻击行为等,从而能找出、或者说识别出这些存在违规下载数据行为、非法获取数据行为、攻击行为的终端。
一个实施方式中,对于预测或识别异常情况的评分,可以是由数据监控模型针对监控数据进行计算之后最终生成一个针对对应平台的这些数据的终端的评分,具体可以是概率评分。进一步,该评分例如,可以用0和1之间的一个数来表示,1代表极高的异常概率或者说存在极高的安全隐患,用0代表无异常或无安全隐患的概率,越靠近1则异常严重、安全隐患越大,越靠近0则异常小、安全隐患越小或者说越安全。承接上述例1:可以用该数据监控模型生成一个对应终端的异常评分,比如1表示最严重的异常情况/极度异常、0表示没有出现异常等,该例子中,可以将最严重的异常情况对应最高的违规概率/平台攻击概率/信息窃取概率等、0则表示无违规概率/无攻击概率/无信息窃取概率,等等。
一个实施方式中,数据监控模型是基于标签的,所谓“标签”指的是模型的变量,标签值即变量值。“标签”在这里为特征。数据监控模型可以实现为参数模型,也可以是非参模型,参数模型包括但不限于诸如:线性回归模型、逻辑回归模型等,非参模型包括但不限于诸如:决策树、神经网络、线性规划等。
进一步,标签通常可以分为:分类标签、二元标签、名义标签、顺序标签、数值标签、连续标签、离散标签等。分类标签可以表示由定性特征确定的分组情况,例如:性别(男、女)或颜色(黄、红、蓝);二元标签仅由两种类别构成,例如:“是/否”,或者其他的一对反义词;名义标签可以指比如用名字或代码表示的变量,不代表相对次序;顺序标签可以表示比如一个序列中相对位置、但不表示相对距离大小,通常和主观评价有关,例如:优秀、良好、一般或较差。数值标签通常用整数或实数表示,具有相对大小意义,能进行数学运算。连续标签存在于连续的序列中,可能值的数量无限,存在最大值和最小值,例如时间、距离等;离散变量是分离的或不连续的数值。其中,本实施例的标签也可以不限于标签的类型,即任何可用的标签类型均可能应用于本发明中。
一个实施方式中,基于机器学习进行预测或识别的模型或算法(如前述模型)使用的标签数据或者说评分标签数据(例如前述评分用的标签数据),包括但不限于终端提供给业务平台或登记在业务平台上的诸如:终端用户的个人信息、设备信息包括终端设备ID等、公司及行业信息、IP网络地址、WIFI信息等等,进一步还可以包括各种特定业务所需要提供的信息,如:消费时涉及购买的消费信息、历史付费记录等等。这些信息都可以作为终端的数据。
进一步,这些业务平台可以有一个或多个服务端等,可以通过服务端的ID进行标识区分,终端也同样可以通过终端的ID进行识别区分。服务端例如:电子商务平台上众多的商户等、或者视频平台上诸多的视频提供方/视频号等。
一个实施方式中,标签可以是终端与服务端之间的操作行为对应的标签,尤其是相应某些业务场景或平台的各种能够进行的操作行为所对应的处理服务的标签。具体例如,终端接入APP业务平台后执行业务操作所对应的服务或者服务端的标签,等等。进一步,执行业务操作的行为产生或提供的数据,能够反映接入到平台上的终端的一些特定行为是否存在异常或是否带来危害或是否可能具有的历史安全隐患,但并不足以反映该接入的终端确实就真的是有恶意、故意给网络上提供业务服务的各种服务端或服务本身发动攻击、蓄意造成存在安全隐患的数据等等,即不能很准确地反映该接入的终端存在可能是恶意带来数据异常、安全隐患的行为或者说反映该接入的终端可能进行着各种危害性恶意行为等。进而,考虑每个需要监控的终端在网络平台上通过平台从相应的业务服务或者说业务服务端请求或执行各种业务操作时,提供相应业务平台或者说业务服务的这类服务或服务端(下面单用服务端为例进行描述)产生或记录或监控到的对应终端的数据(包括接入终端对相应服务的操作行为、对应业务服务产生的相关业务数据等)或服务端的信息等(即这些数据属于基于服务端的标签数据)。并且,可以根据这些数据和/或信息来构建关系网络。
进一步,在以业务服务标签和针对业务服务的操作行为等的各个终端的数据为例的情况下:可以基于服务端的标签数据,构建关系网络。具体地,基于服务端的标签数据来构建关系网络主要能通过更多的维度(多维度)、实际业务场景平台的需求构设条件、群体特征分析等,例:
1)对于在不同区域、有不同服务需求倾向、有不同固有信息的终端来看,假设接入的终端表现出使用者具有共同行为习惯,这类终端的使用者及终端之间都存在相似特征(或者说特质/特点),可以勾画出不同群体终端的画像从而区分各个群体高中低不同的异常属性,比如:接入过类似已确认存在安全隐患的网络平台上去请求过业务服务、或者请求过已经确认存在安全隐患的业务服务,这类终端的异常属性会偏高;经常有同一类请求的业务服务的终端有真实业务服务需求且其处于固定活动区域。如前述例1的业务场景中,可以通过不同地区、不同消费倾向、拥有不同资产等维度,去假设使用的有共同消费习惯终端之间是有相似特征的,由此就能勾画出各个不同群体的能接入到平台的终端画像,区分各个不同群体之间的高中低不同异常属性:有过类似接入赌博平台发生过充值记录的终端则异常属性会偏高、而使用来进行过餐饮消费的终端则会有真实消费记录和固定地理活动区域、有过加油支付过路费记录的终端表明其使用者多为有车一族等等。
2)能有助于提升在各个业务场景、平台中识别出异常,尤其是多个接入终端是在有组织的团体中使用的异常的识别。如前述例1的付费数据服务场景,则需要构建的关系网络能通过大数据处理后,有助于提升对团体违规操作的识别;具体地,同一个违规或攻击或窃取团体中,终端使用者的特征也会有一定的相似性,比如团体的各个执行违规操作、攻击或窃取的终端设备之间总处于小范围比如终端使用者在物理或互联网空间上都互相认识,就是其中一个特性;这样,可以对在同一商户上进行消费的终端进行统一管理、分析其消费行为和是否发生过欠费的行为等,由此以商户为发起原点来定位违规操作、攻击或窃取团体等。
3)当从整体去看群体特征时,某一类终端在某一或某些方面的操作行为数据等会有相似的规律而具有隐形关系。如前述例1的付费数据服务场景,可以分析出一类终端使用者的消费水平或消费倾向总是有着相似的规律,这些容易被忽视的隐形关系和看似非常常见的关联关系,可以作为识别、预测发现异常终端及使用多个终端的团体(如发现违规团体、找出团伙)的重要线索。
如前述例1的数据服务业务中,对业务中违规情况情况,相关的接入的终端数据仅能反映一定水平的信用情况但实际上不足以反映该终端是否真就是违规行为的“坏人”在使用,不能很好反映使用该终端可能进行的违规行为(攻击平台数据、窃取数据等情况类似),从而在建立相应业务平台或场景的计算评分的模型时引入了其他标签,该例子中可以是终端执行操作行为对应的消费商户信息数据标签。具体地,参考付费数据服务的动支场景中能记录下消费的商户时间等其他信息,以主要关注商户信息来看,将数据清洗后保留接入到平台的终端与商户的关系信息,采用数据表记录。如:数据表中每一条记录作为一个终端在一个商户上的消费记录。该终端执行过的历史付费/消费信息包含各个终端信息和商户信息,例如终端ID(该ID是对终端身份标识的唯一编码,根据ID的信息可以找到相应终端)、交易付费时间、商户ID(该商户ID是对商户身份标识的唯一编码,根据ID的信息可以找到相应商户)、商户名称等。在经过一段时间的该终端执行过的历史付费/消费信息累积后,一个终端可以在不同时间有多条数据,每一条数据分别对应一条商户信息。
参见表1所示,表1是一组终端与其关联的特征的例子,该特征为终端的历史付费/消费信息,包含终端的信息和商户信息。如表1所示,表1中终端ID为CT61141的终端接入平台后在3个不同时间点分别有“A公司”、B平台、C平台服务方三次付费/消费记录,而不同的商户信息可能会存在于不同的终端之间,比如终端ID为CT61141的终端就与终端ID为CT57990的终端均有在A公司付费/消费的记录。
表1:
编号 | 终端ID | 记录时间 | 服务端ID | 商户名称 |
1 | CT61141 | 2021-12-02 19:00:45 | 1290723 | A公司 |
2 | CT57990 | 2021-12-01 20:29:52 | 1290723 | A公司 |
3 | CT61141 | 2021-12-22 00:24:25 | 1333294 | B平台 |
4 | CT61141 | 2021-12-22 00:24:14 | 1515540 | C平台服务方 |
5 | CT59468 | 2021-12-13 18:57:38 | 2088431 | D电子有限公司 |
6 | CT59050 | 2021-12-12 11:03:10 | 2088431 | D电子有限公司 |
7 | CT60262 | 2021-12-21 17:43:09 | 1570538 | E企业 |
8 | CT59468 | 2021-12-21 22:33:22 | 8589538 | F科技有限公司 |
9 | CT58318 | 2021-12-21 21:53:05 | 8589538 | F科技有限公司 |
10 | CT59468 | 2021-12-22 00:25:10 | 1000054 | G平台充值账户 |
11 | CT58560 | 2021-12-22 00:25:07 | 1000054 | G平台充值账户 |
12 | CT58560 | 2021-12-21 23:58:59 | 1800000 | 手机充值 |
一个实施方式,建立并训练基于标签的数据监控模型,包括下述步骤:
S1011、经由业务平台获取预设数量的存量终端的历史表现数据中对应的历史服务端数据,经过筛选后作为建立的数据监控模型的训练样本;其中,所述历史服务端数据包括体现终端与相应服务端之间操作行为的关联数据。
具体地,经业务平台获取预设数量(一般是对应业务涉及的数量中的足够数量)的存量终端的历史表现数据,从中获得对应的历史服务端数据,作为数据监控模型的训练样本。历史服务端数据能体现终端和服务端之间曾经发生过的相应服务的操作行为的各种关联数据。可以通过业务平台的数据库或外部数据库的终端信息,抽取存量终端的历史表现数据,具体地,对这些数据可以从业务平台既有的数据库或外部数据库中根据接入到平台的终端的信息进行抽取,并加以进行清洗。这些数据库为关联的服务端数据库。
具体地,这些历史服务端数据可以是从历史表现数据的业务日志中获取;多途径经客户端授权后查询包含了终端执行的操作行为的数据库中获得关联的服务端数据,甚至查询第三方数据库等获取。历史服务端数据包括终端针对服务的操作行为数据、针对相应服务端的操作行为的次数、对操作行为的响应等。进一步,可以进行筛选,比如预设阈值,将操作行为的次数较高(高于/多于/大于预设阈值)的服务方的历史服务方数据保留、次数较低(低于/少于/小于预设阈值)的去除,或者预设阈值,将响应更多(多于预设阈值)的服务方数据保留、更少(少于预设阈值)的去除,等等。
优选地,从历史表现数据中获得历史服务端数据,进一步从历史表现数据中选取一预定时间段内的历史服务端数据。然后,进行清洗。进一步,历史服务端数据至少包括终端对服务端提供的服务进行的操作行为。
如前述例1:当业务平台为金融机构时,可以首先获取预设数量(一般是对应业务涉及的数量中的足够数量)的样本活跃的已知授信金融表现数据的存量终端,并在授权的情况下获取存量终端的历史付费/消费信息,作为数据监控模型的训练样本。历史付费/消费信息是互联网终端与商户之间发生了交易行为的关联数据。样本活跃终端可以结合实际应用中业务系统的交易情况进行抽取。在例1中,关注的是交易双方即终端和商户信息,对终端的历史付费/消费信息进行清洗,保留终端和商户信息,例如终端ID、交易时间、商户ID、商户名称等。这样,终端的各种数据如历史表现数据等是可以从既有的用于信用评分的数据库中直接获取,可以从这些数据库中直接提取或计算得到用于识别违规终端、非法数据攻击等的标签数据;而对应终端的商户信息数据,通常无法直接获得,则根据从既有的数据库或外部数据库中获得与终端关联的商户信息,在此,将这些数据库统称为关联的商户信息数据库。一个方式,从业务平台中获取交易支付日志,从中提取历史消费信息。进一步,可以通过多种途径来获取终端所关联的商户信息,例如:通过客户终端授权,查询包含对服务的操作行为的数据库,可获得相关联的商户信息,具体地,从金融机构、第三方支付机构等相关数据库获取;通过在支付机构已经绑定的该终端,如果通过终端执行了刷卡消费,运营商从发送给终端的提醒消费内容中,获取终端的相关交易信息;通过支付机构获取刷卡消费的情况而获得终端相关消费信息;在一个商户消费,该商户可以记录终端相关消费信息。进一步,从终端的历史消费信息中选取一定时间段内的历史消费信息,从中提取终端信息和商户信息。例如,从历史消费信息中选择在三年内的存在交易的信息进行提取。历史消费信息还可以包括但不限于对应终端在多个时间窗口下的交易次数和交易金额,该多个时间窗口可以结合实际应用中的交易支付业务量和异常识别的需求进行设定。该例1中,历史消费信息可以包括交易金额、终端与同一个商户发生过的交易次数;进一步去除商户中与目标终端的交易次数较低的商户,保留与目标终端的交易次数较高的商户,可以设置如果目标终端与所述商户的交易次数低于预设阈值,则去除所述商户的商户信息,或者,进一步去除商户中与目标终端的交易金额较低的商户,保留与目标终端的交易金额较高的商户,具体可以设置如果目标终端与所述商户的交易金额低于预设阈值,则去除所述商户的商户信息。
S1012、以历史服务端数据中终端与服务端为不同类型的节点,以历史服务端数据中终端与对应服务端之间的关联数据内特定时间点所发生的操作行为的关系为边,构建服务端的关系网络。
具体地,利用清洗后的历史服务端数据中的终端ID与服务端ID作为节点,使用NetworkX构建服务端关系网络。终端的节点为第一类型,服务端的节点为第二类型。进一步,每条边还具有权重,对建立的服务端关系网络进行再次数据清洗以删除权重小于预设权重阈值的边。优选地,基于节点之间的操作行为发生的次数进行设定,操作行为发生的次数越多,权重越大。
一个实施方式中,使用清洗后的历史服务端数据构建复杂网络图谱,将终端ID作为关系网络图中的一类节点(第一类型),而服务端ID作为关系网络图中的另一类节点(第二类型),二者类型不同,将终端在特定时间点(某个时间点)对特定服务端(某个服务端)发生的操作行为,作为关系网络图中的边,从而构建服务端关系网络。该关系网络可以是无向图或有向图。当不同终端在同一服务端有共同记录或同一终端在不同服务端有多个记录时,服务端关系网络之间不同的独立小簇关联在一起形成复杂式服务端网络。
进一步,使用NetworkX构建所述复杂网络图谱。
进一步,可以对该关系网络图进行数据清洗,例如删除权重较小的边等。
进一步,边的权重可以基于节点之间的操作行为发生的次数进行设定,一般地,操作行为发生的次数越多,权重越大;类似的,还可以基于节点之间对应操作行为的响应量进行设定,响应量越多,权重越大。
进一步,抽取服务端节点中k个服务端节点,与终端节点生成服务端关系网络。实际应用中,k可以基于目标终端(训练模型时的存量终端中的目标或者实际监控中的目标)对应的操作行为对象即服务端的数量以及数据监控模型的训练精度进行设置。
在例1应用中,以历史消费信息中的终端与商户为节点,对应的交易数据中节点之间的交易关系为边,构建商户关系网络图。具体的,使用清洗后的数据构建复杂网络图谱。可以将终端ID作为关系网的其中一类节点,商户ID作为关系网的另一类节点,将终端在某个时间点在某商户的消费行为作为关系网的边,来构建商户关系网。所述商户关系网可以是无向图、也可以是有向图。当不同的终端在同一商户有共同记录或同一终端在不同商户有多笔记录时,商户关系网间不同的独立小簇会关联在一起,形成错综复杂的网络。具体使用NetworkX构建所述复杂网络图谱;进而,可以对商户关系网络图进行数据清洗,例如删除权重较小的边。进一步,边的权重可以基于节点之间的交易次数进行设定,一般地,交易次数越多,权重越大;或者,边的权重可以基于节点之间的交易金额进行设定,一般地,交易金额越大,权重越大。进一步,抽取商户节点中的k个商户节点,与终端节点生成商户关系网,在该例子的实际应用中,k可以基于目标终端对应的交易对象如商户的数量以及模型的训练精度进行设置。
S1013、根据对关系网络中的服务端进行分类,构建相应的标识所属业务服务场景的服务端数据标签,并统计每个预设数量的存量终端对应的服务端数据标签。
具体地,从包含关系网络中的服务端的服务端数据的多个数据库中获取的服务端数据来制作用于发现终端异常情况的服务端数据标签;其中,多个数据库包括具有用于评分计算的数据库;根据服务端数据中的服务端名称确定实际业务场景后,根据实际业务场景的信息对所述业务场景下所有服务端都加上标签来标识所属业务场景;基于所述标签对同一个关系网络内的终端进行统计分析,并提炼存在异常概率高的标签进行异常状态预警;其中,样本特征数据还包括服务端数据标签的权重。
进一步,对所述业务场景下所有服务端都加上标签包括根据所属业务场景预设的分类标准,对业务场景下的服务端出现的频度进行从高到低的排序,并对相应的服务端根据预设的分类标准添加大类与小类的标签。
进一步,根据存量终端的历史表现数据以及存量终端对应的服务端的服务方数据标签作为所述训练样本的样本特征数据,形成数据监控模型的训练集。
一个实施方式中,根据包含服务端数据的可用于评分计算的数据库或其他数据库中获取服务端数据来制作用于发现异常的服务端数据标签。其中,服务端数据中,服务端的名称可以确定具体实际业务服务的场景的数据信息,可以对所有服务端都打上标签,以标识属于哪一类业务服务的场景。
进一步,分类标准的类别可以根据实际业务服务场景进行预先设定,设定大类和/或小类等。根据分类标准可以对涉及到的服务端按照出现频度(终端与之发生操作行为关系的次数)从高到低排序,对相应服务端按照预设类别打上大类与小类的标签。
进一步,针对选取的预设数量的待监控的存量终端,分别统计每个终端对应的服务端数据的服务端数据标签。统计分析如:基于标签对在同一个网络内的终端进行统计分析;并提炼存在异常可能性较高的标签进行异常状态预警。如图2所示例1的服务端为商户时的服务端数据标签对于细小分类的操作行为数量、操作行为持续时间的监控统计分析示例。进而,通过提取获取的存量终端的每个终端对应的服务端的服务端数据标签,以及在平台的终端相应历史表现数据,实现样本特征数据提取对应的过程,得到基于标签的终端异常的数据监控模型的机器学习训练数据的集合。进一步,提供给机器学习的训练样本的各个样本特征数据还可以包括每个终端对应服务端的服务端数据标签的权重,权重比如操作行为次数、响应量多少等。
如例1应用中:对关系网络中的商户进行分类,制作商户数据标签。可以根据包含商户信息的用于信用评分的数据库或其他数据库中获得商户信息,制作用于识别异常的商户数据标签。而由于商户名称中包含消费场景的信息,因此可对所有的商户打上标签,以标志属于消费场景的哪一类。该例子中,分类标准的类别预设包含7大类50个小类。7大类可以分别为:金融理财、出行类、娱乐休闲、餐饮购物、教育提升、日常生活、其它。小类的分类为大类的基础上再进行细分,例如表2所示为金融理财和出行类的小类细分部分的一个例子,由于篇幅有限不再展示全部分类。
表2:
根据分类标准来对涉及到的商户按照出现频度(交易次数)从高到低排列,分别对商户打上大类与小类的标签,如表3所示即为对商户进行分类,得到商户标识好标签后的例子:
表3:
商户ID | 商户名称 | 分类名-大类 | 分类名-小类 |
1290723501 | 山西XX食品有限公司 | 餐饮购物 | 美食餐饮 |
1333294001 | 北京XX出行公司 | 出行类 | 打车 |
1515540081 | 北京XX平台商户 | 餐饮购物 | 电商购物 |
2088431 | 广州XX电子商务有限公司 | 日常生活 | 美妆护理 |
1570538711 | 浙江XX餐饮公司 | 餐饮购物 | 美食餐饮 |
8589538 | 北京XX科技有限公司 | 娱乐休闲 | 视频影音 |
1000054101 | 深圳XX公司零钱充值账户 | 金融理财 | 转账充值 |
1800000971 | XX公司手机充值业务 | 日常生活 | 通讯消费 |
290723501 | 上海XX料理店 | 餐饮购物 | 美食餐饮 |
290723502 | 上海XX电子科技有限公司 | 餐饮购物 | 服饰配件 |
290723503 | XX超市 | 餐饮购物 | 商场零售 |
290723504 | 山东淄博XX商贸有限公司 | 餐饮购物 | 商场零售 |
290723505 | 杭州XX电子商务有限公司 | 餐饮购物 | 服饰配件 |
290723506 | 上海XX智能设备公司 | 娱乐休闲 | 线下娱乐 |
290723507 | 湖北XX集团股份有限公司 | 餐饮购物 | 商场零售 |
290723508 | 张XX | 金融理财 | 个人账户 |
290723509 | XX超市 | 餐饮购物 | 商场零售 |
290723510 | XX糕点店 | 餐饮购物 | 商场零售 |
290723511 | 李XX | 金融理财 | 个人账户 |
290723512 | 梧州XX停车场 | 出行类 | 私家车 |
302342452 | XX直播公司 | 娱乐休闲 | 直播交友 |
302342489 | 深圳市XX理财公司 | 金融理财 | 借款中介 |
进一步,针对选取的预设数量的已知授信金融表现数据的存量终端,可以分别统计每个终端对应的商户的商户数据标签。
图3是依据商户数据标签对于细分小类的交易量和交易长期风险的统计分析的一个例子的示意图。图3中省略了部分中间部分的分类,保留了低风险与高风险的部分。图3中曲线为分类下交易过的终端的长期风险,从左到右依次升高,柱形图为各分类下的交易量。该例中右侧高风险区,有借款中介、钓鱼平台、直播交友场景的终端安全隐患偏高且交易量不大,对于这类终端可以考虑存在违约或欺诈的异常情况;对于转账充值这类数据安全需求较高且交易量较大的场景,需要再去细化安全隐患并深入分析;对于图左侧安全隐患较低的场景,可以继续观察此批终端在其它场景上的情况,如同样安全隐患较低,可对此批终端进行折扣或降价等。从而,通过提取获取的存量终端的每个终端对应的商户的商户数据标签、以及存量终端的平台的历史表现数据,实现样本特征数据提取,得到基于服务端标签的终端的消费数据监控模型的机器学习训练数据的集合。
进一步,机器学习的训练数据(训练样本的样本特征数据)还包含每个终端对应的商户的商户数据标签的权重。权重可以是交易金额和/或交易次数等。
S1014、将训练集中的样本特征数据输入到数据监控模型中进行模型训练,得到训练后的数据监控模型,并输出对应监控的终端数据的异常情况评分。
其中,使用数据监控模型的机器学习训练数据的集合的样本特征数据输入到该模型中进行训练后,得到训练好的模型。该模型输出数据为历史表现数据对应的终端是否存在异常的评分,如概率评分等。
如例1:使用数据监控模型的机器学习训练数据的集合输入该模型,由此可以对机器模型进行训练,得到训练好的模型。该模型的输出数据在该例子中可以是预测终端异常的评分。
S2、获取需要监控的目标终端,并对目标终端经由数据监控模型进行监控识别。
具体地,获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务方数据标签;根据所述目标终端数据和服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分。
一个实施方式中,根据目标终端的历史表现数据中的历史服务端数据确定服务端ID;将所述服务端ID与目标终端ID分别作为不同类型的节点,使用NetworkX构建服务端关系网络;根据历史服务端数据中服务端名称确定实际业务场景,利用预设的分类标准,在相应的业务场景下,将所有服务端出现的频度进行从高到低的排序并对相应的服务端根据预设分类标准添加大类与小类的标签;将目标终端数据和服务端数据标签输入数据监控模型,计算获得目标终端异常情况的概率评分。
进一步,目标终端可以是监控平台上所有接入进行业务操作的终端。当被监控的目标终端在平台上进行业务操作时,其相关数据通常会被监控进而还可以记录下来,尤其是涉及数据安全的各种业务操作行为的数据。当目标终端的业务请求涉及与数据安全相关的业务时,监控平台会监控并记录其相关的业务操作行为的数据,并且在操作行为完成或操作行为发生期间,对以往该目标终端的数据或者说记录的历史信息进行获取,以便同步业务或业务结束后对该目标终端结合其自身数据和关联的业务数据进行其是否存在安全隐患、是否存在危害等,即是否该目标终端存在异常的预测或识别。
其中,当目标终端接入到一业务平台对一服务执行一特定操作行为而发出服务处理请求时,业务平台可以获取待监控的目标终端的历史表现数据,并处理历史表现数据而从中提取出历史服务端数据,制作标签后输入到训练后的数据监控模型,获得目标终端的异常评分,即是否存在异常,根据该评分进行相应的处理。制作标签过程如前述训练模型步骤中为各个服务端数据提供标签的过程。进而,可以预设评分阈值,按照异常评分是否超过阈值来对不同的目标终端进行不同的处理。
进一步,进行关系网路构建还可以基于与目标终端之间具有操作行为的服务端的数量以及数据监控模型的训练精度预设值k;抽取所述所有服务端中的k个服务端作为节点,与作为节点的目标终端构建服务端关系网络。类似前述存量终端的k值设定和抽取服务端。
应用到例1的场景中可以是当目标终端发起数据访问请求后,业务平台例如数据服务机构获取待识别的目标终端的历史消费信息。接着,处理所述待识别的目标终端的历史消费信息,从中提取终端和商户的数据,对商户数据制作标签后输入前面经训练的数据监控模型中,获得目标终端的预测存在异常情况(即可能存在的盗用、攻击、违约、窃取数据等)的评分,并根据该预测评分采取相应的防范措施。进而,还可以设定一个或多个评分的阈值,根据预测评分的高低来对不同的终端进行相应的处理,例如异常概率评分高低是否超过各个评分阈值而采取观察、进行标记、拒绝访问、降低访问权限、报警等。
S3、根据所述监控识别的结果,比如异常评分高低、是否超过预设阈值等情况,向目标终端发送消息,比如是否允许后续服务处理等。
如例1的应用中,平台可以根据目标终端的预测评分向目标终端发送消息,比如,向目标终端对应的账户预留的其他终端发送短信,以告知目标终端当前的情况,以防止终端被窃取或者终端丢失被不法分子非法访问的情况,及时告知真实用户账户当前情况。
【实施例2】
图3是根据本发明的装置的一实施例的功能模块架构框图。如图3所示,所述装置包括:
模型构建模块301,用于获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型。该模块具体功能和处理以及相应的应用例子如实施例1中S1所述的具体处理过程和例子。
监控识别模块302,用于获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务方数据标签;以及,根据所述目标终端数据和服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分。该模块具体功能和处理以及相应的应用例子如实施例1中S2所述的具体处理过程和例子。
消息发送模块303,用于根据所述监控识别的结果,比如根据监控识别所预测的异常评分的高低、是否超过预设阈值等情况,向目标终端发送消息,比如是否允许后续服务处理等。该模块具体功能和处理以及相应的应用例子如实施例1中S3所述的具体处理过程和例子。
由于模型构建模块301、监控识别模块302、消息发送模块303分别对应于实施例1中的方法步骤S1-S3,因而在此不再赘述。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本发明的方案,可以针对通过终端接入平台的金融领域、网络诈骗、网络攻击、网路窃取等行为进行监控识别。对接入到平台的诸多终端在对应服务端执行操作行为而发出各种请求或数据需求时,经由关系网络和应用场景,高效准确地对动态变化的大数据进行监控识别,找出哪些关联的终端和/或服务端及其所形成的团体,存在非法访问、操作、攻击等异常行为,甄别出有危害平台、其他平台上终端和/或服务端的对象,加以有效预防。
如终端消费、金融信用卡或无抵押借款的资金的场景等。金融机构需要尽可能的对终端进行识别分类以降低风险,团伙性攻击、窃取等在金融场景中会发生在贷款申请阶段,存在以欺诈为目的贷款中介包装机构,他们通过多个终端量身定做出符合相应金融场景业务服务安全要求的虚假包装,骗过验证判断实现申请,这样可能会在短时间内出现爆发式的不良或者逾期,窃取的数据实际上就是真实的钱财,这将给金融机构带来较大的经济损失;在支付交易阶段,一些商户通过欺诈手段帮持卡人做虚假交易,将取现伪装成消费交易,实际上导致金融机构以为是较低安全隐患的服务而实际上提供的是高风险服务,而团伙性操作进一步加大发卡机构会出现的数据被攻击窃取等危害。放眼更广泛的资金交易场景,存在洗钱资金交易和异常资金归集的情形,比如团伙性进行消费贷款后把资金归集并投入房市、经营等实际用途与申报用途相左的场景、甚至游戏、赌博等高风险违规场景。
由此可见,团伙性网络攻击或窃取安全数据,团伙性风险趋于组织团伙化、攻击隐蔽化、内外勾结化、手段复杂化,传统的防控手段已经出现较大局限性。其短板和盲区可以归纳为三点:首先人工防控效率和准确率低,因为防控效率会依赖于审核人员自身经验和对场景的理解,也会受到操作风险的影响;同时基于个体的风险评分没有充分考虑个体与个体之间、个体在时间轴上的行为演变、个体在不同产品上的表现差异,根本无法应对团伙性的网状攻击;第三是静态防控无法应对快速进化的攻击手段。
本发明突破上述局限性的关键在于对接入到网络平台中对应服务端所执行的操作行为的深层解读和本质洞察,需要在特定场景下能够评估个体的特性、个体之间的交互以及个体所在群体的属性。在异常数据监控识别与安全监测的过程中,主要基于各类别的数据构建复杂关系网络形成重要且有效的组合,有助于海量数据处理时对这些存在安全隐患和异常情况的团体进行更有效准确的监控识别。
【实施例3】
图4是根据本发明的一种电子设备的一示例性实施例的结构框图示意图。如图4所示,该系统包括存储器和数据处理装置,存储器用于存储计算机可执行程序(或指令等),数据处理装置,用于读取所述存储器中的计算机可执行程序(或指令等),以执行前述的模型的训练、和/或预测等步骤,如实施例1中的方法。
【实施例4】
如图5所示,该示例性实施例的电子设备200以通用数据处理设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行如图1所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据。
电子设备200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备200交互,和/或使得该电子设备200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。
【实施例5】
图6是本发明的一个计算机可读介质实施例的示意图。如图6所示,所述计算机程序可以存储于一个或多个计算机可读介质上。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种基于服务端关系网络的数据监控方法,其特征在于,包括:
获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型;
获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;
根据所述历史服务端数据的各个服务端构建服务端关系网络;
对所述服务端关系网络中的服务端进行分类,并生成服务端数据标签;
根据目标终端数据和生成的服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分;
根据监控识别的预测评分结果,向目标终端发送消息。
2.如权利要求1所述的方法,其特征在于,建立并训练用以识别终端数据存在异常的数据监控模型,具体包括:
经由业务平台获取预设数量的存量终端的历史表现数据中对应的历史服务端数据,经过筛选后作为建立的数据监控模型的训练样本;其中,所述历史服务端数据包括体现终端与相应服务端之间操作行为的关联数据;
以历史服务端数据中终端与服务端为不同类型的节点,以历史服务端数据中终端与对应服务端之间的关联数据内特定时间点所发生的操作行为的关系为边,构建服务端的关系网络;
根据对关系网络中的服务端进行分类,构建相应的标识所属业务服务场景的服务端数据标签,并统计每个预设数量的存量终端对应的服务端数据标签;
根据存量终端的历史表现数据以及存量终端对应的服务端的服务端数据标签作为所述训练样本的样本特征数据,形成数据监控模型的训练集;
将训练集中的样本特征数据输入到数据监控模型中进行模型训练,得到训练后的数据监控模型,并输出对应监控的终端数据的异常情况评分。
3.如权利要求2所述的方法,其特征在于,经由业务平台获取预设数量的存量终端的历史表现数据中对应的历史服务端数据,包括:
通过业务平台的数据库或外部数据库的终端信息,抽取存量终端的历史表现数据;
从历史表现数据中选取一预定时间段内的历史服务端数据并进行清洗;
所述历史服务端数据至少包括:终端对服务端提供的服务进行的操作行为;
所述数据库为关联的服务端数据库。
4.如权利要求2所述的方法,其特征在于:以历史服务端数据中终端与服务端为不同类型的节点,以历史服务端数据中终端与对应服务端之间的关联数据内特定时间点所发生的操作行为的关系为边,构建服务端的关系网络,具体包括:
利用清洗后的历史服务端数据中的终端ID与服务端ID作为节点,使用NetworkX构建服务端关系网络;
终端的节点为第一类型,服务端的节点为第二类型;
每条边具有权重,对建立的服务端关系网络进行再次数据清洗以删除权重小于预设权重阈值的边。
5.如权利要求4所述的方法,其特征在于,所述边的权重包括:
基于节点之间的操作行为发生的次数进行设定,操作行为发生的次数越多,权重越大。
6.如权利要求2所述的方法,其特征在于,根据对关系网络中的服务端进行分类,构建相应的标识所属业务服务场景的服务端数据标签,并统计每个预设数量的存量终端对应的服务端数据标签,包括:
从包含关系网络中的服务端的服务端数据的多个数据库中获取的服务端数据来制作用于发现终端异常情况的服务端数据标签;其中,多个数据库包括具有用于评分计算的数据库;根据服务端数据中的服务端名称确定实际业务场景后,根据实际业务场景的信息对所述业务场景下所有服务端都加上标签来标识所属业务场景;
基于所述标签对同一个关系网络内的终端进行统计分析,并提炼存在异常概率高的标签进行异常状态预警;
其中,样本特征数据还包括服务端数据标签的权重。
7.如权利要求6所述的方法,其特征在于,对所述业务场景下所有服务端都加上标签包括:
根据所属业务场景预设的分类标准,对业务场景下的服务端出现的频度进行从高到低的排序,并对相应的服务端根据预设的分类标准添加大类与小类的标签。
8.如权利要求1至7任一项所述的方法,其特征在于,根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务端数据标签;根据目标终端数据和生成的服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分,包括:
根据目标终端的历史表现数据中的历史服务端数据确定服务端ID;将所述服务端ID与目标终端ID分别作为不同类型的节点,使用NetworkX构建服务端关系网络;
根据历史服务端数据中服务端名称确定实际业务场景,利用预设的分类标准,在相应的业务场景下,将所有服务端出现的频度进行从高到低的排序并对相应的服务端根据预设分类标准添加大类与小类的标签;
将目标终端数据和服务端数据标签输入数据监控模型,计算获得目标终端异常情况的概率评分。
9.如权利要求8所述的方法,其特征在于,还包括:
基于与存量终端或目标终端之间具有操作行为的服务端的数量以及数据监控模型的训练精度预设值k;
抽取所述所有服务端中的k个服务端作为节点,与作为节点的存量终端或目标终端构建服务端关系网络。
10.一种基于服务端关系网络的数据监控方法,其特征在于,包括:
模型构建模块,用于获取与存量终端之间具有操作行为的服务端的服务端数据标签,并根据所述服务端数据标签和所述存量终端在业务平台上的历史表现数据,建立并训练用以识别终端数据存在异常的数据监控模型;
监控识别模块,用于获取目标终端的目标终端数据,并提取所述目标终端对应的历史表现数据中的历史服务端数据;根据所述历史服务端数据的各个服务端构建服务端关系网络;对所述服务端关系网络中的服务端进行分类,并生成服务端数据标签;以及,根据目标终端数据和生成的服务端数据标签,经由所述数据监控模型进行监控识别,获得目标终端异常情况的预测评分;
消息发送模块,用于根据监控识别的预测评分结果,向目标终端发送消息。
11.一种电子设备,包括:
处理器以及存储计算机可执行指令的存储器;
所述计算机可执行指令在被执行时使所述处理器执行权利要求1-9中任一项所述的方法。
12.一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211380239.7A CN115422016B (zh) | 2022-11-05 | 2022-11-05 | 一种基于服务端关系网络的数据监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211380239.7A CN115422016B (zh) | 2022-11-05 | 2022-11-05 | 一种基于服务端关系网络的数据监控方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115422016A CN115422016A (zh) | 2022-12-02 |
CN115422016B true CN115422016B (zh) | 2023-01-20 |
Family
ID=84208045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211380239.7A Active CN115422016B (zh) | 2022-11-05 | 2022-11-05 | 一种基于服务端关系网络的数据监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422016B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120143649A1 (en) * | 2010-12-01 | 2012-06-07 | 9133 1280 Quebec Inc. | Method and system for dynamically detecting illegal activity |
CN107785058A (zh) * | 2017-07-24 | 2018-03-09 | 平安科技(深圳)有限公司 | 反欺诈识别方法、存储介质和承载平安脑的服务器 |
CN111489166A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 风险防控方法、装置、处理设备及系统 |
-
2022
- 2022-11-05 CN CN202211380239.7A patent/CN115422016B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115422016A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689438A (zh) | 企业类金融风险评分方法、装置、计算机设备及存储介质 | |
CN111429258B (zh) | 一种监测贷款资金流向的方法和装置 | |
CN107563757B (zh) | 数据风险识别的方法及装置 | |
CN110717816A (zh) | 一种基于人工智能技术的全域金融风险知识图谱构建方法 | |
US20140012724A1 (en) | Automated fraud detection method and system | |
Omidi et al. | The efficacy of predictive methods in financial statement fraud | |
CN109214617A (zh) | 一种互联网金融风险定量评估审核系统 | |
CN103678659A (zh) | 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统 | |
CN111985937A (zh) | 交易商价值信息评估方法、系统、存储介质、计算机设备 | |
CN108230151A (zh) | 一种可疑交易监测方法、装置、设备及存储介质 | |
Khodabakhshi et al. | Fraud detection in banking using knn (k-nearest neighbor) algorithm | |
Yoo et al. | Medicare fraud detection using graph analysis: a comparative study of machine learning and graph neural networks | |
Reddy et al. | CNN-Bidirectional LSTM based Approach for Financial Fraud Detection and Prevention System | |
CN113191890A (zh) | 客户风险确定方法、装置及设备 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112330373A (zh) | 用户行为分析方法、装置及计算机可读存储介质 | |
CN115422016B (zh) | 一种基于服务端关系网络的数据监控方法及装置 | |
CN116805245A (zh) | 基于图神经网络与解耦表示学习的欺诈检测方法及系统 | |
Velicheti et al. | The Hustlee Credit Card Fraud Detection using Machine Learning | |
JP2005346730A (ja) | 履歴情報を用いたクレジットカードの不正利用の判定方法 | |
Tan | Intelligent application of artificial intelligence internet of things technology in the economic and legal fields | |
CN114066624A (zh) | 基于图计算的黑名单关联图谱挖掘方法及系统 | |
Wang | Overview of Digital Finance Anti-fraud | |
Knuth | Fraud prevention in the B2C e-Commerce mail order business: a framework for an economic perspective on data mining | |
Gupta et al. | Machine Learning For Detecting Credit Card Fraud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |