CN110782327B - 一种异常信息发现方法、装置及设备 - Google Patents

一种异常信息发现方法、装置及设备 Download PDF

Info

Publication number
CN110782327B
CN110782327B CN201810764972.6A CN201810764972A CN110782327B CN 110782327 B CN110782327 B CN 110782327B CN 201810764972 A CN201810764972 A CN 201810764972A CN 110782327 B CN110782327 B CN 110782327B
Authority
CN
China
Prior art keywords
abnormal
determining
upstream
objects
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810764972.6A
Other languages
English (en)
Other versions
CN110782327A (zh
Inventor
贺勇
李楠
龚坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810764972.6A priority Critical patent/CN110782327B/zh
Publication of CN110782327A publication Critical patent/CN110782327A/zh
Application granted granted Critical
Publication of CN110782327B publication Critical patent/CN110782327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种异常信息发现方法、装置及设备,该方法包括:根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;根据所述第一对象的异常数据确定所述第一对象是否为异常对象。通过本申请的技术方案,当多个异常企业共同进行非法经营活动时,可以发现这些异常企业。

Description

一种异常信息发现方法、装置及设备
技术领域
本申请涉及互联网技术领域,尤其是一种异常信息发现方法、装置及设备。
背景技术
在税务行业中,发票数据是一种关键数据,利用发票数据可以进行宏观分析、进销异常检测、偷税漏税检测等处理,并利用处理结果发现异常企业。
在税务行业中,异常企业在进行非法经营活动时,通常是多个异常企业共同进行非法经营活动。例如,上游异常企业给下游异常企业虚开发票,假设上游异常企业的发票数据存在问题,下游异常企业的发票数据不存在问题,则只能利用发票数据发现上游异常企业,无法利用发票数据发现下游异常企业。
又例如,异常企业A存在多个关联异常企业,假设异常企业A的发票数据存在问题,异常企业A的关联异常企业的发票数据不存在问题,则只能利用发票数据发现异常企业A,无法利用发票数据发现异常企业A的关联异常企业。
发明内容
本申请提供一种异常信息发现方法,所述方法包括:
根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;
针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;
根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
本申请提供一种异常信息发现装置,所述装置包括:
获取模块,用于根据用户数据获取联通集合,联通集合包括多个对象和对象之间的关联关系,联通集合中的对象与至少一个其它对象存在关联关系;
确定模块,用于针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;根据所述第一对象的异常数据确定第一对象是否为异常对象。
本申请提供一种异常信息发现设备,包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;
针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;
根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
基于上述技术方案,本申请实施例中,根据用户数据获取联通集合,针对联通集合中的第一对象(如企业),可以根据第一对象的上游对象的异常数据、第一对象与上游对象的权重参数,确定第一对象的异常数据,并根据第一对象的异常数据确定第一对象是否为异常对象。基于上述方式,当多个异常企业共同进行非法经营活动时,可以发现这些异常企业。例如,若上游异常企业给下游异常企业虚开发票,假设上游异常企业的发票数据存在问题,下游异常企业的发票数据不存在问题,则可以利用上游异常企业的异常数据、上游异常企业与下游异常企业的权重参数,发现下游异常企业。又例如,若异常企业A存在多个关联异常企业,假设异常企业A的发票数据存在问题,异常企业A的关联异常企业的发票数据不存在问题,则可以利用上游异常企业的异常数据、上游异常企业与下游异常企业的权重参数,发现异常企业A的关联异常企业。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。
图1是本申请一种实施方式中的异常信息发现方法的流程图;
图2A-图2I是本申请一种实施方式中的异常信息发现的示意图;
图3是本申请一种实施方式中的异常信息发现装置的结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种异常信息发现方法,可以用于发现异常对象(如企业等),参见图1所示,为该方法的流程示意图,该方法可以包括:
步骤101,根据用户数据获取联通集合,该联通集合包括多个对象和对象之间的关联关系,该联通集合中的对象与至少一个其它对象存在关联关系,也就是说,针对联通集合中的每个对象,该对象与该联通集合中的至少一个其它对象存在关联关系。例如,对象A与对象B存在关联关系,对象A与对象C存在关联关系,对象B与对象C存在关联关系,对象D与对象C存在关联关系。
步骤102,针对该联通集合中的第一对象,根据该第一对象的上游对象的异常数据、该第一对象与该上游对象的权重参数,确定该第一对象的异常数据。
在一个例子中,该第一对象可以包括该联通集合中的任一非种子对象。
在一个例子中,在根据用户数据获取联通集合之后,在根据该第一对象的上游对象的异常数据、该第一对象与该上游对象的权重参数,确定该第一对象的异常数据之前,针对联通集合中的具有关联关系的第二对象和第三对象,还可以根据用户数据获取该第二对象与该第三对象的权重参数。其中,第二对象为联通集合中的任一对象(如第二对象可以为种子对象或者非种子对象),且第三对象为联通集合中的任一对象(如第三对象可以为种子对象或者非种子对象),只要该第二对象与该第三对象具有关联关系即可,对此不做限制。
其中,根据用户数据获取该第二对象与该第三对象的权重参数,可以包括:
方式一、根据用户数据确定该第二对象输出给该第三对象的第一虚拟资源、该第三对象输出给该第二对象的第二虚拟资源,并根据第一虚拟资源和第二虚拟资源获取该第二对象与该第三对象的权重参数。具体的,可以根据第一虚拟资源与第二对象总输出虚拟资源的比例、第一虚拟资源与第三对象总输入虚拟资源的比例、第二虚拟资源与第三对象总输出虚拟资源的比例、第二虚拟资源与第二对象总输入虚拟资源的比例,获取该第二对象与该第三对象的权重参数。
方式二、根据用户数据确定该第二对象与该第三对象之间的关联参数,并根据该关联参数获取该第二对象与该第三对象的权重参数。具体的,可以先确定该关联参数的类型,并根据该关联参数的类型确定该关联参数的权值;然后,可以根据该关联参数的权值获取该第二对象与该第三对象的权重参数。
在一个例子中,根据该第一对象的上游对象的异常数据、该第一对象与该上游对象的权重参数,确定该第一对象的异常数据,可以包括但不限于:若该第一对象对应多个上游对象,则可以确定每个上游对象的种子对象;然后,可以选取对应同一个种子对象的上游对象,并根据选取的上游对象的异常数据、该第一对象与选取的上游对象的权重参数,确定该第一对象的异常数据。
其中,若多个上游对象对应多个种子对象,则多个种子对象对应第一对象的多个异常数据,并可以将最大的异常数据确定为该第一对象的异常数据。
步骤103,根据该第一对象的异常数据确定该第一对象是否为异常对象。
其中,根据该第一对象的异常数据确定该第一对象是否为异常对象,可以包括:若该第一对象的异常数据大于或等于阈值,则确定该第一对象为异常对象;若该第一对象的异常数据小于阈值,则确定该第一对象不为异常对象。
在一个例子中,针对联通集合中的第四对象,还可以将预设数值(如数值1)确定为该第四对象的异常数据,并根据该第四对象的异常数据确定该第四对象为异常对象;其中,该第四对象可以是联通集合中的任一种子对象。
在一个例子中,还可以根据用户数据确定联通集合中的种子对象。
在一个例子中,针对该第一对象的上游对象,该上游对象与种子对象的间隔跳数,可以小于或者等于该第一对象与种子对象的间隔跳数。
在一个例子中,上述异常数据可以为异常分数或者异常值等,对此不做限制,为了方便描述,后续过程中,以异常数据是异常分数为例进行说明。
在一个例子中,上述执行顺序只是为了方便描述给出的一个示例,在实际应用中,还可以改变步骤之间的执行顺序,对此执行顺序不做限制。在其它实施例中,并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其它实施例中可能被分解为多个步骤进行描述;本说明书中所描述的多个步骤,在其它实施例也可能被合并为单个步骤进行描述。
基于上述技术方案,本申请实施例中,根据用户数据获取联通集合,针对联通集合中的第一对象(如企业),可以根据第一对象的上游对象的异常数据、第一对象与上游对象的权重参数,确定第一对象的异常数据,并根据第一对象的异常数据确定第一对象是否为异常对象。基于上述方式,当多个异常企业共同进行非法经营活动时,可以发现这些异常企业。例如,若上游异常企业给下游异常企业虚开发票,假设上游异常企业的发票数据存在问题,下游异常企业的发票数据不存在问题,则可以利用上游异常企业的异常数据、上游异常企业与下游异常企业的权重参数,发现下游异常企业。又例如,若异常企业A存在多个关联异常企业,假设异常企业A的发票数据存在问题,异常企业A的关联异常企业的发票数据不存在问题,则可以利用上游异常企业的异常数据、上游异常企业与下游异常企业的权重参数,发现异常企业A的关联异常企业。
以下结合具体应用场景,对上述技术方案进行说明,本应用场景中,以对象是企业对象为例,当然,对象还可以是其它类型的对象,对此不做限制。
本实施例中,可以采用各种手段获取用户数据,例如,可以采集互联网产生的用户数据,接收管理人员输入的用户数据,从数据平台采集数据等,对此用户数据收集方式不做限制。其中,针对每个对象(即企业对象)的用户数据,可以包括但不限于:企业名称、发票数据、进项数据(如企业的购进商品与该商品的金额)、销项数据(如企业的销售商品与该商品的金额)、收入金额数据、支出金额数据、企业登记信息(如法人、财务负责人、办税人、注册地电话、注册地址、生产经营地电话、生产经营地址)等,对此不做限制。
在一个例子中,在获取到用户数据之后,可以利用用户数据进行联通图构造、异常分数传播、异常企业发现等过程,以下对上述过程进行详细说明。
1、联通图构造。根据用户数据获取联通图(即联通集合),该联通图包括多个对象和对象之间的关联关系,该联通图中的对象与至少一个其它对象存在关联关系,也就是说,针对联通图中的每个对象,与该联通图中的至少一个其它对象存在关联关系。以下结合几个应用场景,对联通图构造过程进行说明。
应用场景1:利用用户数据构造第一联通图。
在税务行业中,异常企业在进行非法经营活动时,通常是多个异常企业共同进行非法经营活动,例如,上游异常企业给下游异常企业虚开发票,则上游异常企业的发票数据可能存在问题,而下游异常企业的发票数据可能不存在问题。但是,与异常企业经济活动来往越密切(通过开票)的企业越异常,为此,可以利用企业间的发票数据构造第一联通图,以下对第一联通图构造进行说明。
参见图2A所示,为利用对象间的经济活动(开受发票)构建的带权有向图。可以选取一段时间窗口内的发票数据,针对存在进销关系的两个对象(即企业对象),即具有关联关系的两个对象,可以按照金额进行汇总,这两个对象之间存在一条有向边或者两条有向边,有向边的方向是开票对象(即销方)指向受票对象(即购方),每条有向边带有权值,为开票对象到受票对象的总金额。
参见图2A所示,假设对象A到对象B的总金额为10万,则对象A与对象B之间存在一条有向边,方向为对象A指向对象B,且权值为10万。假设对象A到对象C的总金额为100万,则对象A与对象C之间存在一条有向边,方向为对象A指向对象C,且权值为100万。假设对象B到对象A的总金额为5万,则对象B与对象A之间存在一条有向边,方向为对象B指向对象A,且权值为5万。以此类推,基于用户数据,就可以得到图2A所示的带权有向图。
然后,可以将图2A所示的带权有向图转换为无向图,参见图2B所示,为图2A所示的带权有向图对应的无向图,该无向图可以是上述第一联通图。
在得到第一联通图后,针对具有关联关系的两个对象(如对象A和对象B、对象A和对象C、对象B和对象D、对象C和对象D、对象C和对象E、对象C和对象D等),还可以根据用户数据获取这两个对象的权重参数,并在第一联通图中记录该权重参数,即在两个对象的边上记录权重参数,参见图2C所示。
为了计算对象A和对象B之间的权重参数,则可以采用如下方式:
首先,确定对象A输出给对象B的第一虚拟资源(如10万)、对象A的总输出虚拟资源(如10万+100万)、对象A的总输入虚拟资源(如5万);此外,确定对象B输出给对象A的第二虚拟资源(如5万)、对象B的总输出虚拟资源(如5万+8万)、对象B的总输入虚拟资源(如10万+3万)。
然后,确定第一虚拟资源(10万)与对象A的总输出虚拟资源(110万)的比例w1,w1可以为0.1;确定第一虚拟资源(10万)与对象B的总输入虚拟资源(13万)的比例w2,w2可以为0.8;确定第二虚拟资源(5万)与对象B的总输出虚拟资源(13万)的比例w3,w3可以为0.4;确定第二虚拟资源(5万)与对象A的总输入虚拟资源(5万)的比例w4,w4可以为1。
然后,可以利用比例w1、比例w2、比例w3和比例w4,确定对象A和对象B之间的权重参数,例如,权重参数可以为比例w1*比例w2+比例w3*比例w4,如0.1*0.8+0.4*1,也就是说,对象A和对象B之间的权重参数为0.5。
在上述比例w1、比例w2、比例w3和比例w4中,可以采用四舍五入的方式,将比例w1、比例w2、比例w3和比例w4的取值保留到小数点后一位。
此外,针对对象A和对象C之间的权重参数、对象B和对象D之间的权重参数、对象C和对象D之间的权重参数、对象C和对象E之间的权重参数、对象C和对象D之间的权重参数,其计算方式类似,在此不再重复赘述。
在一个例子中,当具有关联关系的两个对象之间的权重参数小于阈值t1(可以根据经验配置)时,还可以去除这两个对象之间的边,即不存在关联关系。
在一个例子中,还可以根据用户数据确定第一联通图中的种子对象,该种子对象是异常对象。例如,对象A的进项数据与销项数据不相关,如进项数据是购买黄金,而销项数据是销售煤炭,显然,进项数据与销项数据不相关,因此,可以确定对象A是异常对象,将对象A确定为种子对象,参见图2D所示。
应用场景2:利用用户数据构造第二联通图。
在税务行业中,异常企业在进行非法经营活动时,通常是多个异常企业共同进行非法经营活动,例如,异常企业A存在多个关联异常企业,假设异常企业A的发票数据可能存在问题,异常企业A的关联异常企业的发票数据可能不存在问题,为此,可以构造第二联通图,以下对第二联通图构造进行说明。
参见图2E所示,可以利用企业登记信息(如法人、财务负责人、办税人、注册地电话、注册地址、生产经营地电话、生产经营地址)构造无向图。去除无向图中的关联参数,得到图2F所示的无向图,该无向图是上述第二联通图。
进一步的,在得到第二联通图后,针对具有关联关系的两个对象(如对象X和对象F、对象X和对象G、对象F和对象H、对象G和对象I、对象H和对象I等),还可以根据用户数据获取这两个对象之间的权重参数,并在第二联通图中记录该权重参数,即在两个对象的边上记录权重参数,参见图2G所示。
为了计算对象X和对象F之间的权重参数,则可以采用如下方式:
在一个例子中,可以根据经验配置企业登记信息的类型与权值之间的对应关系。例如,进行如下配置:法人类型对应权值0.3、财务负责人类型对应权值0.15、办税人类型对应权值0.15、注册地电话类型对应权值0.1、注册地址类型对应权值0.1、生产经营地电话类型对应权值0.1、生产经营地址对应权值0.1。
首先,确定对象X和对象F之间的关联参数。例如,对象X的法人是“张三”、对象F的法人也是“张三”,则法人“张三”是关联参数;对象X的办税人是“李四”、对象F的办税人是也是“李四”,则办税人“李四”是关联参数;对象X的注册地电话是“12345678”,对象F的注册地电话也是“12345678”,则注册地电话“12345678”是关联参数。当然,上述只是关联参数的几个示例,对此不做限制,即对象X和对象F相同的企业登记信息就是关联参数。
然后,由于关联参数“张三”的类型是法人类型,则确定法人类型对应权值0.3;由于关联参数“李四”的类型是办税人类型,则确定办税人类型对应权值0.15;由于关联参数“12345678”的类型是注册地电话,则确定注册地电话类型对应权值0.1。然后,将权值0.3、权值0.15、权值0.1的和确定为对象X和对象F之间的权重参数,即对象X和对象F之间的权重参数为0.55。
此外,针对对象X和对象G之间的权重参数、对象F和对象H之间的权重参数、对象G和对象I之间的权重参数、对象H和对象I之间的权重参数,其计算方式可以参见对象X和对象F之间的权重参数,在此不再重复赘述。
在一个例子中,当具有关联关系的两个对象之间的权重参数小于阈值t1(可以根据经验配置)时,还可以去除这两个对象之间的边,即不存在关联关系。
在一个例子中,还可以根据用户数据确定第二联通图中的种子对象,该种子对象是异常对象。例如,对象X的进项数据与销项数据不相关,如进项数据是购买黄金,而销项数据是销售煤炭,显然,进项数据与销项数据不相关,因此,可以确定对象X是异常对象,将对象X确定为种子对象,参见图2H所示。
应用场景3:利用用户数据构造第三联通图。
在采用应用场景1的方式构造第一联通图,采用应用场景2的方式构造第二联通图后,假设对象C和对象F存在关联关系,如企业登记信息相同,或存在经济活动(开受发票),则可以得到第三联通图。在得到第三联通图后,确定相邻两个对象的权重参数,并在第三联通图记录权重参数,参见图2I所示。
在上述应用场景1、应用场景2和应用场景3中,权重参数可以是0-1之间的取值,当然,也可以是其它取值,对此不做限制,以0-1之间为例进行说明。
2、异常分数传播。针对联通图中的种子对象,确定种子对象的异常分数为预设数值(如1)。针对联通图中的非种子对象,可以根据该非种子对象的上游对象(与非种子对象相邻的上游对象)的异常分数、该非种子对象与该上游对象的权重参数,确定该非种子对象的异常分数。其中,非种子对象的上游对象与种子对象的间隔跳数,可以小于或者等于非种子对象与种子对象的间隔跳数。
参见图2D所示,对于对象B,对象B的上游对象是对象A,对象A与种子对象的间隔跳数为0,对象B与种子对象的间隔跳数为1。可以根据对象A的异常分数1、对象B与对象A的权重参数0.5,确定对象B的异常分数,如对象B的异常分数为对象A的异常分数1*权重参数0.5,即对象B的异常分数为0.5。
对于对象C,对象C的上游对象是对象A,可以根据对象A的异常分数1、对象C与对象A的权重参数0.9,确定对象C的异常分数,如对象C的异常分数为对象A的异常分数1*权重参数0.9,即对象C的异常分数为0.9。
对于对象D,对象D的上游对象可以是对象B和对象C,对象B与种子对象的间隔跳数为1,对象C与种子对象的间隔跳数为1,对象D与种子对象的间隔跳数为2。可以根据对象B的异常分数0.5、对象D与对象B的权重参数0.9、对象C的异常分数0.9、对象D与对象C的权重参数0.8,确定对象D的异常分数。例如,对象D的异常分数可以为:对象B的异常分数0.5*权重参数0.9+对象C的异常分数0.9*权重参数0.8,即对象D的异常分数可以为1.17。
参见图2I所示,对于对象C,对象C的上游对象是对象A和对象F,对象A与种子对象A的间隔跳数为0,对象F与种子对象X的间隔跳数为1,对象C与种子对象X的间隔跳数为2,对象C与种子对象A的间隔跳数为1。
针对种子对象A,对象C对应的上游对象是对象A,因此,可以根据对象A的异常分数1、对象C与对象A的权重参数0.9,确定对象C的异常分数,例如,对象C的异常分数为对象A的异常分数1*权重参数0.9,即对象C的异常分数为0.9。也就是说,在种子对象A的集合中,对象C的异常分数为0.9。
针对种子对象X,对象C对应的上游对象是对象F,因此,可以根据对象F的异常分数0.55、对象C与对象F的权重参数0.4,确定对象C的异常分数,例如,对象C的异常分数为对象F的异常分数0.55*权重参数0.4,即对象C的异常分数为0.22。也就是说,在种子对象X的集合中,对象C的异常分数为0.22。
在一个例子中,在种子对象A的集合中,对象C的异常分数为0.9,在种子对象X的集合中,对象C的异常分数为0.22,由于异常分数0.9大于异常分数0.22,因此,还可以将最大的异常分数0.9确定为对象C的异常分数。
以下结合图2I所示的示意图,对异常分数传播的过程进行详细说明。
第一次传播过程:种子对象(如对象A)将异常分数1和标签A(用于表示种子对象是对象A)传播给对象B和对象C;种子对象(如对象X)将异常分数1和标签X(用于表示种子对象是对象X)传播给对象F和对象G。
进一步的,对象B可以利用异常分数1和权重参数0.5,确定对象B的异常分数为0.5,并记录标签A与异常分数0.5的对应关系,表示在种子对象A的集合中,对象B的异常分数为0.5。对象C可以利用异常分数1和权重参数0.9,确定对象C的异常分数为0.9,并记录标签A与异常分数0.9的对应关系。对象F可以利用异常分数1和权重参数0.55,确定对象F的异常分数为0.55,并记录标签X与异常分数0.55的对应关系。对象G可以利用异常分数1和权重参数0.1,确定对象G的异常分数为0.1,并记录标签X与异常分数0.1的对应关系。
第二次传播过程:对象B将异常分数0.5和标签A传播给对象D,不再回传对象A;对象C将异常分数0.9和标签A传播给对象D、对象E和对象F,不再回传对象A;对象F将异常分数0.55和标签X传播给对象C和对象H,不再回传对象X;对象G将异常分数0.1和标签X传播给对象I,不再回传对象X。
进一步的,对象D可以利用异常分数0.5和权重参数0.9、异常分数0.9和权重参数0.8,确定对象D的异常分数为0.45+0.72,即异常分数1.17,并记录标签A与异常分数1.17的对应关系。对象E可以利用异常分数0.9和权重参数0.4,确定对象E的异常分数为0.36,并记录标签A与异常分数0.36的对应关系。
此外,对象F可以利用异常分数0.9和权重参数0.4,确定对象F的异常分数为0.36,并记录标签A与异常分数0.36的对应关系。对象C可以利用异常分数0.55和权重参数0.4,确定对象C的异常分数为0.22,并记录标签X与异常分数0.22。对象H可以利用异常分数0.55和权重参数0.1,确定对象H的异常分数为0.05,并记录标签X与异常分数0.05。对象I可以利用异常分数0.1和权重参数0.4,确定对象I的异常分数为0.04,并记录标签X与异常分数0.04。
第三次传播过程:针对标签A的集合,由于对象B的异常分数0.5未发生变化,因此,对象B不再传播异常分数0.5。由于对象C的异常分数0.9未发生变化,因此,对象C不再传播异常分数0.9。由于对象D的异常分数发生变化(即从没有数值到1.17),因此,对象D将异常分数1.17和标签A传播给对象E,不再回传对象B和对象C(不再回传的原因是:在上次传播过程中,向对象D发送过标签A的异常分数)。由于对象E的异常分数发生变化,因此,对象E将异常分数0.36和标签A传播给对象D,不再回传对象C。由于对象F的异常分数发生变化(这里是针对标签A的异常分数发生变化,不是针对标签X的异常分数发生变化),因此,对象F将异常分数0.36和标签A传播给对象X和对象H(这里是传输异常分数0.36和标签A,不是标签X),不再回传对象C。
针对标签X的集合,其实现与标签A的集合的实现类似,在此不再赘述。
对象E接收到对象D发送的异常分数1.17和标签A后,可以利用异常分数1.17和权重参数0.7,确定对象E的异常分数为0.82,由于对象E已经记录标签A与异常分数0.36的对应关系,因此,确定对象E的异常分数为1.18(0.82+0.36),并记录标签A与异常分数1.18。对象D接收到对象E发送的异常分数0.36和标签A后,可以利用异常分数0.36和权重参数0.7,确定对象D的异常分数为0.25,由于对象D已经记录标签A与异常分数1.17的对应关系,因此,可以确定对象D的异常分数为1.42(0.25+1.17),并记录标签A与异常分数1.42。对象X接收到对象F发送的异常分数0.36和标签A后,可以利用异常分数0.36和权重参数0.55,确定对象X的异常分数为0.2,并记录标签A与异常分数0.2。对象H接收到对象F发送的异常分数0.36和标签A后,可以利用异常分数0.36和权重参数0.1,确定对象H的异常分数为0.04,并记录标签A与异常分数0.04。
第四次传播过程:针对标签A的集合,由于对象B、对象C的异常分数未发生变化,因此不再传播异常分数。虽然对象D的异常分数发生变化,但相邻对象均向对象D发送过标签A的异常分数,因此不再传播异常分数。同理,对象E也不再传播异常分数。由于对象F的异常分数未发生变化,因此不再传播异常分数。由于对象X的异常分数发生变化,因此,对象X将异常分数0.2和标签A传播给对象G,不再回传给对象F。由于对象H的异常分数发生变化,因此,对象H将异常分数0.04和标签A传播给对象I,不再回传给对象F。
针对标签X的集合,其实现与标签A的集合的实现类似,在此不再赘述。
对象G接收到对象X发送的异常分数0.2和标签A后,可以利用异常分数0.2和权重参数0.1,确定对象G的异常分数为0.02,并记录标签A与异常分数0.02。对象I接收到对象H发送的异常分数0.04和标签A后,可以利用异常分数0.04和权重参数0.1,确定对象I的异常分数为0,相当于没有异常分数。
第五次传播过程:针对标签A的集合,对象B、对象C、对象D、对象E、对象F、对象X、对象H的异常分数未发生变化,因此不再传播异常分数。由于对象G的异常分数发生变化,因此对象G将异常分数0.02和标签A传播给对象I,不再回传给对象X。由于对象I的异常分数为0,因此不再传播异常分数。
针对标签X的集合,其实现与标签A的集合的实现类似,在此不再赘述。
对象I接收到对象G发送的异常分数0.02和标签A后,利用异常分数0.02和权重参数0.4,确定对象I的异常分数为0.01,并记录标签A与异常分数0.01。
综上所述,完成异常分数的传播过程,且传播过程收敛,每个对象均可以得到针对标签A的异常分数,且每个对象均可以得到针对标签X的异常分数。
3、异常企业发现。根据对象的异常分数确定该对象是否为异常对象。具体的,若该对象的异常分数大于或等于阈值(可以根据经验配置),则确定该对象为异常对象;若该对象的异常分数小于阈值,则确定该对象不为异常对象。
例如,针对标签A的集合,可以利用对象A的异常分数、对象B的异常分数、对象C的异常分数、对象D的异常分数、对象E的异常分数、对象F的异常分数、对象G的异常分数、对象H的异常分数、对象X的异常分数、对象I的异常分数,确定这些对象是否为异常对象。假设对象A、对象B、对象C、对象D、对象E、对象F是异常对象,则这些异常对象是属于标签A的异常对象。
同理,针对标签X的集合,可以确定出属于标签X的异常对象,不再赘述。
其中,在标签A的集合中,还可以利用每个对象的异常分数,选择异常分数大的N个对象,将N个对象作为异常对象。在标签X的集合中,还可以利用每个对象的异常分数,选择异常分数大的N个对象,将N个对象作为异常对象。
其中,在标签A的集合中,还可以利用每个对象的异常分数,按照分布策略确定阈值t2,将异常分数小于阈值t2的对象去掉,得到标签A的异常对象。同理,在标签X的集合中,还可以利用每个对象的异常分数,按照分布策略确定阈值t2,将异常分数小于阈值t2的对象去掉,得到标签X的异常对象。
基于与上述方法同样的申请构思,本申请实施例还提供一种异常信息发现装置,如图3所示,为所述装置的结构图,所述装置可以包括:
获取模块301,用于根据用户数据获取联通集合,联通集合包括多个对象和对象之间的关联关系,联通集合中的对象与至少一个其它对象存在关联关系;
确定模块302,用于针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
所述获取模块301,还用于针对所述联通集合中的具有关联关系的第二对象和第三对象,根据所述用户数据获取所述第二对象与所述第三对象的权重参数;
所述获取模块301根据所述用户数据获取所述第二对象与所述第三对象的权重参数时具体用于:根据所述用户数据确定所述第二对象输出给所述第三对象的第一虚拟资源、所述第三对象输出给所述第二对象的第二虚拟资源,并根据所述第一虚拟资源和所述第二虚拟资源获取所述第二对象与所述第三对象的权重参数;或者,根据所述用户数据确定所述第二对象与所述第三对象之间的关联参数;根据所述关联参数获取所述第二对象与所述第三对象的权重参数。
所述确定模块302根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据时具体用于:
若所述第一对象对应多个上游对象,则确定上游对象的种子对象;
选取对应同一个种子对象的上游对象,根据选取的上游对象的异常数据、所述第一对象与选取的上游对象的权重参数,确定所述第一对象的异常数据。
基于与上述方法同样的申请构思,本申请实施例还提供一种异常信息发现设备,包括:处理器和机器可读存储介质;其中,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;
针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;
根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种异常信息发现方法,其特征在于,所述方法包括:
根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;
针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;
根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
2.根据权利要求1所述的方法,其特征在于,
所述根据用户数据获取联通集合之后,所述方法还包括:
针对所述联通集合中的具有关联关系的第二对象和第三对象,根据所述用户数据获取所述第二对象与所述第三对象的权重参数。
3.根据权利要求2所述的方法,其特征在于,
根据所述用户数据获取所述第二对象与所述第三对象的权重参数,包括:
根据所述用户数据确定所述第二对象输出给所述第三对象的第一虚拟资源、所述第三对象输出给所述第二对象的第二虚拟资源,并根据所述第一虚拟资源和所述第二虚拟资源获取所述第二对象与所述第三对象的权重参数。
4.根据权利要求3所述的方法,其特征在于,根据所述第一虚拟资源和所述第二虚拟资源获取所述第二对象与所述第三对象的权重参数,包括:
根据所述第一虚拟资源与所述第二对象的总输出虚拟资源的比例、所述第一虚拟资源与所述第三对象的总输入虚拟资源的比例、所述第二虚拟资源与所述第三对象的总输出虚拟资源的比例、所述第二虚拟资源与所述第二对象的总输入虚拟资源的比例,获取所述第二对象与所述第三对象的权重参数。
5.根据权利要求2所述的方法,其特征在于,
根据所述用户数据获取所述第二对象与所述第三对象的权重参数,包括:
根据所述用户数据确定所述第二对象与所述第三对象之间的关联参数;
根据所述关联参数获取所述第二对象与所述第三对象的权重参数。
6.根据权利要求5所述的方法,其特征在于,
根据所述关联参数获取所述第二对象与所述第三对象的权重参数,包括:
确定所述关联参数的类型,并根据所述类型确定所述关联参数的权值;
根据所述关联参数的权值获取所述第二对象与所述第三对象的权重参数。
7.根据权利要求1所述的方法,其特征在于,
所述根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据,包括:
若所述第一对象对应多个上游对象,则确定上游对象的种子对象;
选取对应同一个种子对象的上游对象,根据选取的上游对象的异常数据、所述第一对象与选取的上游对象的权重参数,确定所述第一对象的异常数据。
8.根据权利要求7所述的方法,其特征在于,
若所述多个上游对象对应多个种子对象,则所述多个种子对象对应所述第一对象的多个异常数据,且将最大的异常数据确定为所述第一对象的异常数据。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述联通集合中的第四对象,将预设数值确定为所述第四对象的异常数据,并根据所述第四对象的异常数据确定所述第四对象为异常对象。
10.根据权利要求7-9任一项所述的方法,其特征在于,所述上游对象与种子对象的间隔跳数,小于或等于所述第一对象与所述种子对象的间隔跳数。
11.根据权利要求1所述的方法,其特征在于,
根据所述第一对象的异常数据确定所述第一对象是否为异常对象,包括:
若所述异常数据大于或等于阈值,则确定所述第一对象为异常对象;
若所述异常数据小于所述阈值,则确定所述第一对象不为异常对象。
12.一种异常信息发现装置,其特征在于,所述装置包括:
获取模块,用于根据用户数据获取联通集合,联通集合包括多个对象和对象之间的关联关系,联通集合中的对象与至少一个其它对象存在关联关系;
确定模块,用于针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;根据所述第一对象的异常数据确定第一对象是否为异常对象。
13.根据权利要求12所述的装置,其特征在于,
所述获取模块,还用于针对所述联通集合中的具有关联关系的第二对象和第三对象,根据所述用户数据获取所述第二对象与所述第三对象的权重参数;
其中,所述获取模块根据所述用户数据获取所述第二对象与所述第三对象的权重参数时具体用于:根据所述用户数据确定所述第二对象输出给所述第三对象的第一虚拟资源、所述第三对象输出给所述第二对象的第二虚拟资源,并根据所述第一虚拟资源和所述第二虚拟资源获取所述第二对象与所述第三对象的权重参数;或者,根据所述用户数据确定所述第二对象与所述第三对象之间的关联参数;根据所述关联参数获取所述第二对象与所述第三对象的权重参数。
14.根据权利要求12所述的装置,其特征在于,
所述确定模块根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据时具体用于:
若所述第一对象对应多个上游对象,则确定上游对象的种子对象;
选取对应同一个种子对象的上游对象,根据选取的上游对象的异常数据、所述第一对象与选取的上游对象的权重参数,确定所述第一对象的异常数据。
15.一种异常信息发现设备,其特征在于,包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
根据用户数据获取联通集合,所述联通集合包括多个对象和对象之间的关联关系,所述联通集合中的对象与至少一个其它对象存在关联关系;
针对所述联通集合中的第一对象,根据所述第一对象的上游对象的异常数据、所述第一对象与所述上游对象的权重参数,确定所述第一对象的异常数据;
根据所述第一对象的异常数据确定所述第一对象是否为异常对象。
CN201810764972.6A 2018-07-12 2018-07-12 一种异常信息发现方法、装置及设备 Active CN110782327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810764972.6A CN110782327B (zh) 2018-07-12 2018-07-12 一种异常信息发现方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810764972.6A CN110782327B (zh) 2018-07-12 2018-07-12 一种异常信息发现方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110782327A CN110782327A (zh) 2020-02-11
CN110782327B true CN110782327B (zh) 2023-06-30

Family

ID=69377043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810764972.6A Active CN110782327B (zh) 2018-07-12 2018-07-12 一种异常信息发现方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110782327B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583204B (zh) * 2018-11-20 2021-03-02 国网陕西省电力公司 一种混合环境下静态对象篡改的监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517232A (zh) * 2014-12-19 2015-04-15 西安交通大学 一种挖掘纳税金额突增的关联纳税人群体的方法
CN105786943A (zh) * 2015-12-08 2016-07-20 北京师范大学 一种数字对象生成的方法及装置
WO2016123657A1 (en) * 2015-02-05 2016-08-11 Alternative Capital Solutions Pte Ltd Computer implemented frameworks and methodologies configured to enable generation of a synthetic profit and loss report based on business data, and loan management based on including risk-based loan construction and pricing and/or pricing based on data analysis of default risk and loss given default parameters
CN106203808A (zh) * 2016-07-01 2016-12-07 中国民生银行股份有限公司 企业信用风险评估方法和装置
CN107391443A (zh) * 2017-06-28 2017-11-24 北京航空航天大学 一种稀疏数据异常检测方法及装置
CN108269117A (zh) * 2017-01-03 2018-07-10 阿里巴巴集团控股有限公司 数据的推送、确定方法及装置、计算机终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856936B2 (en) * 2011-10-14 2014-10-07 Albeado Inc. Pervasive, domain and situational-aware, adaptive, automated, and coordinated analysis and control of enterprise-wide computers, networks, and applications for mitigation of business and operational risks and enhancement of cyber security

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517232A (zh) * 2014-12-19 2015-04-15 西安交通大学 一种挖掘纳税金额突增的关联纳税人群体的方法
WO2016123657A1 (en) * 2015-02-05 2016-08-11 Alternative Capital Solutions Pte Ltd Computer implemented frameworks and methodologies configured to enable generation of a synthetic profit and loss report based on business data, and loan management based on including risk-based loan construction and pricing and/or pricing based on data analysis of default risk and loss given default parameters
CN105786943A (zh) * 2015-12-08 2016-07-20 北京师范大学 一种数字对象生成的方法及装置
CN106203808A (zh) * 2016-07-01 2016-12-07 中国民生银行股份有限公司 企业信用风险评估方法和装置
CN108269117A (zh) * 2017-01-03 2018-07-10 阿里巴巴集团控股有限公司 数据的推送、确定方法及装置、计算机终端
CN107391443A (zh) * 2017-06-28 2017-11-24 北京航空航天大学 一种稀疏数据异常检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王颜新 ; 李向阳 ; .基于多维质量屋的企业合作决策方法.工业工程与管理.2009,(第05期),全文. *
苏颖,于明,张伯鹏.一种衡量中小制造企业管理信息质量的方法.计算机集成制造系统-CIMS.2004,(第02期),全文. *

Also Published As

Publication number Publication date
CN110782327A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110147967B (zh) 风险防控方法及装置
CN108446947A (zh) 一种房产交易方法及装置
US11107084B2 (en) Fraud risk scoring tool
CN107886414B (zh) 一种订单合并方法和设备以及计算机存储介质
CN108510311A (zh) 一种确定营销方案的方法、装置及电子设备
CN111199459A (zh) 商品推荐方法、装置、电子设备、及存储介质
US20070235529A1 (en) Method, system, and program product for identifying a product selected by a consumer
CN111951052B (zh) 基于知识图谱的获取潜在客户方法及装置
CN111768258A (zh) 识别异常订单的方法、装置、电子设备和介质
CN109102324B (zh) 模型训练方法、基于模型的红包物料铺设预测方法及装置
CN105678323A (zh) 基于图的分析用户的方法和系统
CN110609783B (zh) 用于识别异常行为用户的方法和装置
CN109582550A (zh) 一种获取全量业务场景故障集合的方法、装置及服务器
CN110347887B (zh) 获取业务场景时序数据的方法及装置
CN110782327B (zh) 一种异常信息发现方法、装置及设备
CN106257507A (zh) 用户行为的风险评估方法及装置
CN104573132B (zh) 歌曲查找方法及装置
CN110209582A (zh) 代码覆盖率的统计方法及装置、电子设备、存储介质
US7533095B2 (en) Data mining within a message handling system
CA3126811A1 (en) Real time user matching using purchasing behavior
CN110717822A (zh) 一种转账中的风控方法、装置及设备
US20130144694A1 (en) Designing viral marketing strategies for up-selling and cross-selling
CN107451255B (zh) 一种基于关注关系的用户兴趣处理方法和装置
CN110309312B (zh) 一种关联事件获取方法及装置
CN111160916A (zh) 风险交易识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant