CN113887577A - 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 - Google Patents
一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 Download PDFInfo
- Publication number
- CN113887577A CN113887577A CN202111072230.5A CN202111072230A CN113887577A CN 113887577 A CN113887577 A CN 113887577A CN 202111072230 A CN202111072230 A CN 202111072230A CN 113887577 A CN113887577 A CN 113887577A
- Authority
- CN
- China
- Prior art keywords
- event
- layer
- hidden layer
- microscopic
- fraud detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012512 characterization method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 120
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 239000011229 interlayer Substances 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000003542 behavioural effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于微观事件图谱的细粒度电信网络反欺诈检测方法,该方法包括以下步骤:获取待检测事件对应的电信网络数据,构造对应的微观事件图谱;将微观事件图谱中的节点转化为初始的嵌入向量;以所述嵌入向量作为反欺诈检测模型的输入,所述反欺诈检测模型基于图神经网络构建,基于所述嵌入向量采用基于注意力机制的隐藏层获得隐层表征,并利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征;将所述隐层表征和事件表征进行点积,对所得点积进行sigmoid变换,与设定阈值进行比较,得到欺诈标签。与现有技术相比,本发明具有拦截欺诈行为准确性高、模型鲁棒性佳等优点。
Description
技术领域
本发明涉及电信网络诈骗防范技术领域,尤其是涉及一种基于微观事件图谱的细粒度电信网络反欺诈检测方法。
背景技术
目前随着互联网业务的飞速增长,网民基数越来越大,进而电信网络诈骗涉及范围愈发广阔,严重影响社会和谐安定,严重侵蚀扰乱正常市场秩序,徒增市场交易和社会交往的成本。随着人工智能技术和数据科学的发展,人工智能技术为电信网络反欺诈防范领域提供了新的研究思路,研究以人工智能技术为基础的反欺诈技术对于电信网络欺诈犯罪的打防管控、保护人民群众财产安全和维护社会和谐安定都有着重要意义,迫切需要建立切实有效电信网络反欺诈检测方法。
电信网络诈骗作为传统诈骗犯罪在电信网络空间的一种异化表现,具有手段的多样性、行为的隐蔽性、成本的廉价性、传播的广域性、犯罪的连续性、后果的难以预测和不可控等特点,其造成的社会危害性远远大于传统诈骗。目前设备指纹技术已经成熟应用于电信网络反欺诈中,并取得了不错的性能。此外,许多研究者侧重于群体或个体级别的行为模型来检测电信网络欺诈行为,这些工作重点关注的是几乎无法伪造的用户行为,或者与一般的行为模式有所不同的用户在线业务行为。
传统的机器学习反欺诈技术如设备指纹、行为建模和深度神经网络模型等对提供给模型的数据具有较高的数量和质量要求。但目前的电信网络反欺诈技术仍然存在一些局限性。对于用户而言,部分历史行为数据往往过于有限,无法精确的描述一个个体的行为模式;欺诈数据的数量非常少,利用该不均衡数据所训练出的模型难以检测异常,限制了传统方法的性能。此外,电信网络诈骗事件往往是社交网络与其上的信息流(以消息、图片、视频的形式)的组合,传统的以记录式数据为基础的反欺诈技术忽略了丰富的社交网络关联。针对社交网络关联,当前以同质图谱为主的知识图谱主要构造了一个同质共现网络反映实体与实体之间的关联,其知识表达过于简单、难以对动态复杂的电信网络诈骗事件进行理解。因此,有必要研究一种可靠有效的电信网络反欺诈检测方法。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,基于用户线上行为数据和用户社交网络数据设计微观事件图谱对电信网络用户的行为模式进行分析,并借助外部知识库引入先验关系来增强行为数据的质量,因此本发明采用一种基于微观事件图谱的细粒度电信网络反欺诈检测方法必然具有更强的反欺诈精准打击能力和模型的鲁棒性。
本发明的目的可以通过以下技术方案来实现:
一种基于微观事件图谱的细粒度电信网络反欺诈检测方法,该方法包括以下步骤:
获取待检测事件对应的电信网络数据,构造对应的微观事件图谱;
将微观事件图谱中的节点转化为初始的嵌入向量;
以所述嵌入向量作为反欺诈检测模型的输入,所述反欺诈检测模型基于图神经网络构建,基于所述嵌入向量采用基于注意力机制的隐藏层获得隐层表征,并利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征;
将所述隐层表征和事件表征进行点积,对所得点积进行sigmoid变换,与设定阈值进行比较,得到欺诈标签。
进一步地,所述电信网络数据包括用户线上行为数据和用户社交网络数据。
进一步地,基于完备性子空间划分方法,构建包含主体层、事件层和属性层的三层网络结构,设计各层的层内关联及以事件为中心的层间关联,构造获得所述微观事件图谱。
进一步地,所述完备性子空间划分方法具体为:
将主体空间划分虚拟主体子层和现实主体子层,将事件空间划分为行为事件子层和状态事件子层,将属性空间划分为标识属性子层和描述属性子层。
进一步地,所述层内关联包括主体先验关联、事件时序关联和属性共现关联,所述层间关系包括主体事件映射关联和事件属性映射关联。
进一步地,所述主体先验关联通过从用户社交网络数据以及外部知识库中设置元路径抽取主体和主体之间的关联;
所述事件时序关联通过从用户线上行为数据中将事件按照发生时间进行升序排序,抽取发生时间相邻的事件和事件之间的序列关联;
所述属性共现关联通过从用户线上行为数据中将事件进行离散化操作后,抽取发生在同一个事件内的属性和属性之间共同出现现象的关联。
进一步地,所述嵌入向量为基于电信网络数据的模态进行相应处理获取,针对结构化数据,将其离散化为属性值,然后从先验的预训练词向量中查询其对应的词向量作为初始的嵌入向量;针对文本数据,采用自然语言分析工具集CoreNLP将对应的文本信息转为初始的嵌入向量;针对音频数据,提取其梅尔频率倒谱系数MFCC特征作为初始的嵌入向量;针对图片数据,采用卷积神经网络将其对应的像素矩阵转化为初始的嵌入向量。
进一步地,所述基于注意力机制的隐藏层包括邻居信息注意力机制和自身信息保留机制两部分。
所述隐层表征表示为:
其中,为微观事件图谱中节点vi第l+1个、第l个隐藏层的隐层表征,为微观事件图谱中节点vj第l个隐藏层的隐层表征,αij是节点vi和vj之间对应边的注意力权重,σ()代表图神经网络的一层隐藏层,Γr(vi)是节点vi的通过关系r的邻居节点集,W为隐层网络权重矩阵。
进一步地,利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征具体为:
获取主体u在时间段[a:b]内发生一系列事件的隐层表征,记为Vu a:b=[va,va+1,…,vb],利用缩放的dotproduct attention函数生成具有顺序性的事件嵌入,获得事件表征,其中,对于vt∈Vu a:b,允许该vt在时间t之前、包含时间t的所有事件中参与计算,但不允许vt在时间t的将来时间段的事件中参与计算。
进一步地,所述设定阈值为0.5。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过对电信网络诈骗生态系统中的各层要素(主体、事件和属性)的全面考虑及微观分类,构建微观事件图谱,使得图谱中包含各方实体的交互关联性更加复杂,以挖掘更深层的潜在联系,优化了模型对打击欺诈行为的准确性。
2、本发明利用图神经网络学习隐层表征,引入注意力机制对用户协同过滤和内容协同过滤进行联合建模,同时通过自身信息保留机制对邻居节点信息进行聚合,有效地刻画了欺诈行为模式,提高拦截欺诈行为的准确性。
3、本发明设计时序自注意力机制隐藏层更新了事件的表征,模拟当前事件发生序列中不同时间段的事件如何区别地影响其未来的事件,检测精度高,模型鲁棒性好。
4、对比传统的方法,本发明降低了发现欺诈行为的成本,同时提高了异常检测模型的反欺诈性能。
本发明的其它特征和优点将在随后的说明书中阐述。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明的微观事件图谱示例图;
图2为本发明检测方法的原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
电信网络诈骗行为人依托于电信网络技术所带来的隐蔽性,躲藏在电信网络背后,与被害人在虚拟空间里交流接触,系横跨现实及虚拟空间实施的非接触式诈骗。如今,社交媒体平台已经成为事件传播的主要途径,因此电信网络诈骗事件往往是社交网络与其上的信息流(以消息、图片、视频的形式)的组合。当前以同质图谱为主的知识图谱主要构造了一个同质的事件共现网络反映实体与实体之间的关联,通过捕获异常关联的子图结构识别欺诈,其知识表达过于简单、难以对动态复杂的电信网络诈骗事件进行理解。
在反欺诈场景中,除了考虑单一信息点的属性,用户间的隐藏关联往往包含更多未知的潜在信息。挖掘并构建用户间的关联信息,建立用户间的关联图谱,有利于识别出异常的欺诈行为。由于用户隐私的保护条例或者数据收集的困难性,用于建立关联图谱的用户行为数据的质量通常很低。为了将用户间的隐藏关联和事件间的复杂关联融合,一个可行的方法是建立分层的关联图谱,区别性地对待不同层级中的实体。利用关联图谱能够有效地挖掘出网络中的隐性关联特征,可以克服由于用户隐私的保护条例或者数据收集的困难性带来的数据挑战。
通过以上研究发现,面向电信网络反欺诈检测的一个主要问题是如何整合虚拟空间和现实空间中复杂多样的事件数据,将同质事件图谱在事件序列、主体关联、属性分布多个维度展开,有着更强的知识表达能力,可以更好地描述客观事件的动态变化。为此,本发明研究一种基于微观事件图谱的细粒度电信网络反欺诈检测方法,从跨层次合成行为关联性、跨时空序列行为规范性和跨用户交互行为可信性三个方面,建立以事件序列为中心的知识图谱结构,方便决策者对事件的理解,帮助决策者迅速获取并持续追踪事件进展,快速准确地获取核心关键信息,提供辅助决策能力。
如图2所示,本发明提供一种基于微观事件图谱的细粒度电信网络反欺诈检测方法,包括以下步骤:获取待检测事件对应的电信网络数据,构造对应的微观事件图谱;将微观事件图谱中的节点转化为初始的嵌入向量;以所述嵌入向量作为反欺诈检测模型的输入,所述反欺诈检测模型基于图神经网络构建,基于所述嵌入向量采用基于注意力机制的隐藏层获得隐层表征,并利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征;将所述隐层表征和事件表征进行点积,对所得点积进行sigmoid变换,与设定阈值进行比较,得到欺诈标签。
1、微观事件图谱的构建
本发明中,微观事件图谱基于完备性子空间划分方法,设计三种层内关联和两种层间关联构造。
构造微观事件图谱所收集的电信网络数据应包含两种:用户线上行为数据和用户社交网络数据。不同数据采用不同的处理方法,对于用户线上行为数据,将离散型数据保留其数据取值的离散性,不进行进一步地处理;将连续型数据进行离散化操作使其变为一个个离散型数据。对于用户社交网络数据,手工设置元路径抽取用户与用户之间的关联,例如元路径可以设置为“用户-用户”、“用户-地址-用户”和“用户-主题-用户”。
本发明构造的微观事件图谱采用以用户线上行为数据中事件序列(用户线上行为数据由一个个事件组成)为中心的知识图谱结构,方便决策者对事件的理解,帮助决策者迅速获取并持续追踪事件进展,快速准确地获取核心关键信息,提供辅助决策能力。由于电信网络诈骗的行为特征呈现出多样化和隐蔽化的特点,不同用户主体下的线上行为事件对于事件中不同属性(事件由一组属性组成)的相关度和敏感度是不同的。为此,针对不同空间粒度的数据,以事件为中心,向宏观角度建立面向用户为主的主体层,向微观角度建立面向属性为主的属性层,将电信网络诈骗事件问题建模为三层网络架构,包含主体层、事件层和属性层。
在上述三层架构的基础上建立主体、事件和属性每一层之内的一致性关联,从跨层次角度建立不同层之间的对应关联,以形成最终的微观事件图谱,如图2所示。
本发明提出完备性子空间划分方法:根据电信网络诈骗场景线上虚拟空间和线下现实空间结合特点,将主体空间划分为对应的两个子空间,即虚拟主体子层和现实主体子层;根据行为事件的序列性发生特点,将事件空间划分为对应的两个子空间,即行为事件空间和状态事件空间;根据属性的语义唯一性将属性空间划分为对应的两个子空间,即标识属性子层和描述属性子层。
根据上述三层架构和上述完备性子空间划分方法,分别设计三种每一层之内的关联和两种不同层之间的关联。
具体地,三种层每一层之内的关联分别为主体先验关联、事件时序关联和属性共现关联。
主体先验关联通过从用户社交网络数据以及外部知识库(例如基于海量数据公开的预训练词向量)中手工设置元路径抽取主体和主体之间的关联,例如社交网络中的朋友关联可以被抽取来建立主体先验关联。特别地,外部知识库中的预训练词向量可以帮助建立相似的主体(如同一个子层内的主体)之间的关联,例如通过计算不同主体对应的预训练词向量之间的相似度并设置阈值规定主体之间的相似关联。针对现实子层和虚拟子层之间的关联,通过对比其上下文信息(主体层中主体的一阶邻居信息)建立虚拟子层和现实子层之间的关联,具体地,将主体的一阶邻居的对应预训练词向量求均值,并计算两个向量均值的相似度。
事件时序关联通过从用户线上行为数据中将事件按照发生时间进行升序排序,然后抽取发生时间相邻的事件和事件之间的序列关联。特别地,许多事件(状态事件)在数据中都是持续存在的,针对瞬时性的行为事件和持续性的状态事件,通过建立状态开始关联和状态结束关联进一步地在序列信息中建立行为事件子层和状态事件之间的关联。
属性共现关联通过从用户线上行为数据中将事件进行离散化操作后,事件可视为由一组属性组成,发生在同一个事件内的属性和属性之间共同出现现象作为所述三层架构中的属性共现关联,例如多个属性共同出现在一个行为事件中可以作为多个属性之间的共现关联。特别地,属性中存在一些具有标示性的事实,例如地址代码、ip地址、车牌号码等,而另一些描述性的属性则往往含义模糊,具有一定的相似性。针对描述属性,通过提取属性在语义上(通过外部知识库中预训练词向量)的相似性,建立不同属性之间的从属关联。
两种不同层之间的关联分别为主体事件映射关联和事件属性映射关联。主体事件映射关联是指若主体作为事件的发起人则在主体层和事件层之间建立跨层的关联;事件属性映射关联是指若属性作为事件的组成元素则在属性层和事件层之间建立跨层的关联。主体事件映射关联通过从主体和事件之间的交互实现了用户协同过滤的效果,将具有相似偏好的主体反映在图谱中,通过事件的时序交互可以刻画用户之间的相关性。事件属性映射关联通过从事件和属性之间的交互实现了内容协同过滤的效果,将具有相似内容的事件反映在图谱中,通过属性的共现交互可以刻画事件之间的相关性。
2、初始嵌入向量的转化
原始的用户线上行为数据和用户社交网络数据通常由多模态数据组成,例如:结构化数据、文本、音频、图片等。具体地,针对结构化数据,将其离散化为属性值,然后从先验的预训练词向量中查询其对应的词向量作为初始的嵌入向量;针对文本数据,采用自然语言分析工具集CoreNLP将对应的文本信息转为初始的嵌入向量;针对音频数据,提取其梅尔频率倒谱系数MFCC特征作为初始的嵌入向量;针对图片数据,采用卷积神经网络将其对应的像素矩阵转化为初始的嵌入向量。注意,将节点初始化的固定长度的向量允许模型在同一组学习的模型权重下实现归纳学习的功能,即表征当前图谱中的不可见节点的嵌入。最后,通过将初始的嵌入向量随机输入到一个隐层前馈网络为每个主体、事件和属性节点生成一个低维的密集向量,记为X∈Rq×d,即获得嵌入矩阵,其中d是初始的嵌入向量的维数,q是图谱中所有节点的数目。
3、反欺诈检测模型
反欺诈检测模型中,通过建立的基于注意力机制的图神经网络隐藏层学习隐层表征,并通过设计的时序自注意力机制隐藏层更新事件表征。
基于上一步获得的嵌入矩阵,可以获得微观事件图谱对应的邻接矩阵以及其对应的特征矩阵,从而通过图神经网络获得图谱中每个节点的隐层表征以及事件表征。
本发明中,基于注意力机制的图神经网络隐藏层由两部分组成:一部分是邻居信息注意力机制,另一部分是自身信息保留机制。在邻居信息注意力机制中,假定所述微观事件图谱中不同的关系对节点有不同的贡献。在自身信息保留机制中,假定节点的隐层表征是节点自身所携带的信息与每个邻居节点的信息的聚合形式。
给定所述微观事件图谱中的一个节点vi∈G(G代表所述微观事件图谱),令x0 i∈Rd代表其从原始嵌入矩阵X中得到初始向量,其中d是初始的嵌入向量的维数。记Γr(vi)是节点vi的通过关系r在G中邻居节点集。节点在第l+1层嵌入的隐层表征,记为则第l+1层的隐层表征可以表示为:
其中邻居信息通过相关注意权重α和隐层网络权重矩阵W传递,σ()代表图神经网络的一层隐藏层,αij是节点vi和vj之间对应边的注意力权重,其可以通过下述公式计算:
接下来,将节点自身所携带的信息与每个邻居节点的信息进行聚合,如以下公式所示:
由于现实中事件的发生是具有先后次序的,因此需要学习事件之间的序列相关性。本发明提出了一种时序自注意力机制隐藏层来产生具有时间信息的事件表征。给定所述主体层中主体u在时间段[a:b]内发生一系列事件的隐层表征,记为Vu a:b=[va,va+1,…,vb],其中vt∈Rd,a≤t≤b,d是隐层表征的嵌入维度。所述时序自注意力机制隐藏层的输出是包含时序信息的事件表征矩阵,记为Zu a:b=[za,za+1,…,zb],其中zt∈Rd。时序自注意力机制隐藏层的主要目标是模拟当前事件发生序列中不同时间段的事件如何区别地影响其未来的事件。对于每个事件段t的嵌入vt,令所有发生在时间段t之前的事件都参加向其传递信息的过程,但不允许vt对将来的时间段事件vt+1,vt+2,…,vb传递信息。我们利用缩放的dotproduct attention(一种常用的注意力函数机制)生成具有顺序性的事件嵌入,该函数中的queries、keys和values是初始嵌入向量。
首先学习三个线性投影矩阵Wque∈Rd×d,Wkey∈Rd×d,和Wval∈Rd×d,将queries、keys和values转换为各自对应的空间。对于每一个第t项的嵌入vt∈Vu a:b(a≤t≤b),令时间t之前(包含时间t)的所有的事件都参与计算,但不允许vt在将来的时间段参与事件在t+1,t+2,…,b时刻的计算。对于序列事件嵌入矩阵Vu a:b,学习其注意力权重矩阵βu a:b∈RT×T,其中T=a-b+1是时间段a至b中的事件的数量。输出事件嵌入矩阵Zu a:b∈RT×d的计算如下所示:
上述构建的反欺诈检测模型基于历史数据进行训练,以获得最优模型参数。
4、欺诈预测
基于上述反欺诈检测模型可以获得待检测事件的主体层对应的隐层表征,记为xu,以及更新后的事件表征,记为xz,通过将主体层对应的隐层表征和待检测的事件表征进行点积,对所得点积进行sigmoid变换,进而根据设定阈值得到欺诈的标签y’,具体的计算方式如下:
y′=κ(sigmoid(xu·xz)),
其中κ()是阈值函数。
在某一具体实施方式中,可以将设定阈值设定为0.5,将大于0.5的值置为1,将小于等于0.5的值置为0。
上述方法通过在真实电信网络诈骗数据集上进行验证检测,得出在打扰率(FalsePositive Rate)小于1%、0.5%、0.1%和0.05%时的召回率(True Positive Rate),以及F1-score指标,来综合评价本发明的反欺诈性能,该方法在此反欺诈性能指标上优于先前的研究,并且有着较好的鲁棒性。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,该方法包括以下步骤:
获取待检测事件对应的电信网络数据,构造对应的微观事件图谱;
将微观事件图谱中的节点转化为初始的嵌入向量;
以所述嵌入向量作为反欺诈检测模型的输入,所述反欺诈检测模型基于图神经网络构建,基于所述嵌入向量采用基于注意力机制的隐藏层获得隐层表征,并利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征;
将所述隐层表征和事件表征进行点积,对所得点积进行sigmoid变换,与设定阈值进行比较,得到欺诈标签。
2.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述电信网络数据包括用户线上行为数据和用户社交网络数据。
3.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,基于完备性子空间划分方法,构建包含主体层、事件层和属性层的三层网络结构,设计各层的层内关联及以事件为中心的层间关联,构造获得所述微观事件图谱。
4.根据权利要求3所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述完备性子空间划分方法具体为:
将主体空间划分虚拟主体子层和现实主体子层,将事件空间划分为行为事件子层和状态事件子层,将属性空间划分为标识属性子层和描述属性子层。
5.根据权利要求3所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述层内关联包括主体先验关联、事件时序关联和属性共现关联,所述层间关系包括主体事件映射关联和事件属性映射关联。
6.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述嵌入向量为基于电信网络数据的模态进行相应处理获取,针对结构化数据,将其离散化为属性值,然后从先验的预训练词向量中查询其对应的词向量作为初始的嵌入向量;针对文本数据,采用自然语言分析工具集CoreNLP将对应的文本信息转为初始的嵌入向量;针对音频数据,提取其梅尔频率倒谱系数MFCC特征作为初始的嵌入向量;针对图片数据,采用卷积神经网络将其对应的像素矩阵转化为初始的嵌入向量。
7.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述基于注意力机制的隐藏层包括邻居信息注意力机制和自身信息保留机制两部分。
9.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,利用时序自注意力机制隐藏层基于所述隐层表征更新获得事件表征具体为:
获取主体u在时间段[a:b]内发生一系列事件的隐层表征,记为Vu a:b=[va,va+1,…,vb],利用缩放的dotproduct attention函数生成具有顺序性的事件嵌入,获得事件表征,其中,对于vt∈Vu a:b,允许该vt在时间t之前、包含时间t的所有事件中参与计算,但不允许vt在时间t的将来时间段的事件中参与计算。
10.根据权利要求1所述的基于微观事件图谱的细粒度电信网络反欺诈检测方法,其特征在于,所述设定阈值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111072230.5A CN113887577A (zh) | 2021-09-14 | 2021-09-14 | 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111072230.5A CN113887577A (zh) | 2021-09-14 | 2021-09-14 | 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887577A true CN113887577A (zh) | 2022-01-04 |
Family
ID=79009297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111072230.5A Pending CN113887577A (zh) | 2021-09-14 | 2021-09-14 | 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887577A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693317A (zh) * | 2022-04-08 | 2022-07-01 | 重庆邮电大学 | 一种融合同质图与二分图的电信诈骗安全联邦检测方法 |
-
2021
- 2021-09-14 CN CN202111072230.5A patent/CN113887577A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693317A (zh) * | 2022-04-08 | 2022-07-01 | 重庆邮电大学 | 一种融合同质图与二分图的电信诈骗安全联邦检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Georgakopoulos et al. | Convolutional neural networks for toxic comment classification | |
Deng et al. | Learning dynamic context graphs for predicting social events | |
Xu et al. | Fooling vision and language models despite localization and attention mechanism | |
Zheng et al. | Airline passenger profiling based on fuzzy deep machine learning | |
Lee et al. | Transfer learning for deep learning on graph-structured data | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Yan et al. | A comparative study of off-line deep learning based network intrusion detection | |
Mohammadi et al. | A new deep learning approach for anomaly base IDS using memetic classifier | |
CN112800234B (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN107609389B (zh) | 一种基于图像内容相关性的验证方法及系统 | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN112015901A (zh) | 文本分类方法及装置、警情分析系统 | |
Jaiswal et al. | Aird: Adversarial learning framework for image repurposing detection | |
WO2023137918A1 (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
Xiang et al. | Spam detection in reviews using LSTM-based multi-entity temporal features | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN113128196A (zh) | 文本信息处理方法及其装置、存储介质 | |
Toor et al. | Biometrics and forensics integration using deep multi-modal semantic alignment and joint embedding | |
Zhu et al. | Crime event embedding with unsupervised feature selection | |
Cen et al. | [Retracted] A Rumor Detection Method from Social Network Based on Deep Learning in Big Data Environment | |
CN113887577A (zh) | 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 | |
Liu et al. | Behaviornet: A fine-grained behavior-aware network for dynamic link prediction | |
CN111737688A (zh) | 基于用户画像的攻击防御系统 | |
Feng et al. | Encoding heterogeneous social and political context for entity stance prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |