CN113869904B - 可疑数据识别方法、装置、电子设备、介质和计算机程序 - Google Patents
可疑数据识别方法、装置、电子设备、介质和计算机程序 Download PDFInfo
- Publication number
- CN113869904B CN113869904B CN202110939789.7A CN202110939789A CN113869904B CN 113869904 B CN113869904 B CN 113869904B CN 202110939789 A CN202110939789 A CN 202110939789A CN 113869904 B CN113869904 B CN 113869904B
- Authority
- CN
- China
- Prior art keywords
- label
- suspicious
- nodes
- node
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。可疑数据识别方法和装置可用于人工智能技术领域。基于知识图谱和标签传播的可疑数据识别方法包括:获取交易表;确定可疑客户标签表;根据交易表和可疑客户标签表建立知识图谱;根据知识图谱提取第一连通子图列表;针对第一连通子图列表中节点数量大于等于第一阈值的第一连通子图,根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值;根据标签号、点特征值和边特征值计算更新每个节点的标签号得到第二连通子图列表;以及根据第二连通子图列表输出可疑数据列表。
Description
技术领域
本公开涉及人工智能技术领域,可用于金融领域,更具体地,涉及一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。
背景技术
相关技术中,有使用基于监督模型的可疑数据识别方法识别可疑数据,该类方法基于预先确定的可疑数据和非可疑数据构造正负样本,之后利用监督式分类模型进行二分类训练,最后对于新的数据使用训练得到的模型进行可疑性的预测。
相关技术中,也有使用基于无监督聚类的可疑数据识别方法识别可疑数据,该类方法首先基于客户的交易关系构建图结构,之后在图结构上按照特定特征维度运行无监督聚类算法生成聚类,之后聚类的结果融入客户可疑性信息,进行聚类的合并、打分、排序等,输出可疑数据。
发明内容
有鉴于此,本公开提供了一种简便、效率高并且识别准确的基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。
本公开的一个方面提供了一种基于知识图谱和标签传播的可疑数据识别方法,包括:获取交易表,所述交易表包括交易信息;确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性。
根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及根据所述第二连通子图列表输出可疑数据列表。
根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法,与相关技术中的基于监督模型的可疑数据识别方法相比,本公开基于可疑客户标签表和交易表识别可疑数据,无需可疑数据训练数据。与现有技术中的基于无监督聚类的可疑数据识别方法相比,本公开将客户的可疑标签号作为监督信号进行可疑标签传播,以半监督方式发现潜在的可疑客户、剔除误识别的可疑客户;另外,本公开基于图数据库构造知识图谱,在此基础上运行第一连通子图和第二连通子图生成、可疑标签传播等聚类算法,效率更高;而且针对现有技术中的基于无监督聚类的可疑数据识别方法后处理复杂的技术问题,本公开经过知识图谱聚类计算后,只需根据第二连通子图中的新标签号为可疑标签号的节点个数是否大于等于第二阈值进行筛选,无需复杂的后处理。
在一些实施例中,所述确定可疑客户标签表包括:获取客户表;获取可疑客户表;以及将所述客户表和所述可疑客户表进行连接,对所述客户表中的且出现在所述可疑客户表中的客户设置可疑标签号,对所述客户表中的且未出现在所述可疑客户表中的客户设置非可疑标签号。
在一些实施例中,所述根据所述交易表和所述可疑客户标签表建立知识图谱包括:将所述可疑客户标签表导入图数据库,所述可疑客户标签表中的客户作为所述节点,所述节点具有节点属性;将所述交易表导入所述图数据库,所述交易信息包括交易发起客户和交易接收客户;以及以所述交易发起客户和所述交易接收客户为两端节点,在所述发起客户和所述接收客户之间构建边,所述边具有边属性。
在一些实施例中,所述边属性包括:交易金额、交易次数、总交易金额、平均交易金额、交易金额占所述交易发起客户总交易金额的比例和交易金额占所述交易接收客户总交易金额的比例中的至少一个。
在一些实施例中,所述节点属性包括:出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。
在一些实施例中,所述根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值包括:将所述节点属性和所述边属性分别通过标准化方法转化为标准值,所述标准值为[0~1]区间内的数值;给所述节点属性和所述边属性分别设定权重;以及将所述节点属性的标准值与所述节点属性的权重作乘积得到所述点特征值,将所述边属性的标准值与所述边属性的权重作乘积得到所述边特征值。
在一些实施例中,所述标准化方法包括:最大-最小准则法或者标准分数法。
在一些实施例中,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数。
在一些实施例中,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:确定所要计算更新的节点的邻居节点数量;当所述邻居节点数量为1时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点数量大于1时,判断所有所述邻居节点的标签号是否相同;当所有所述邻居节点的标签号相同时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点的标签号存在不同时,根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号。
在一些实施例中,所述根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号包括:将所要计算更新的节点与邻居节点之间的边的边特征值与对应的所述邻居节点的点特征值作乘积得到与多个所述邻居节点一一对应的多个子权重;对所有所述邻居节点的标签号进行分类得到m个分类标签,m为大于1的整数,其中,每个所述分类标签下包括具有同一标签号的n个所述邻居节点,n为大于等于1的整数;将每个所述分类标签下的n个所述邻居节点对应的所述子权重相加得到m个标签权重,其中,m个所述分类标签与m个所述标签权重一一对应;以及比较m个所述标签权重的大小,将最大的所述标签权重对应的所述分类标签下的、所述邻居节点的所述标签号作为所要计算更新的节点的新标签号。
在一些实施例中,所述根据所述第二连通子图列表输出可疑数据列表包括:建立可疑数据初始列表,所述可疑数据初始列表为空表;识别出所述第二连通子图列表中的全部可疑数据子图;以及将全部所述可疑数据子图加载到所述可疑数据初始列表得到所述可疑数据列表。
在一些实施例中,所述识别出所述第二连通子图列表中的全部可疑数据子图包括:确定所述第二连通子图中的新标签号为可疑标签号的节点个数;以及将新标签号为可疑标签号的节点个数大于等于第二阈值的全部所述第二连通子图全部识别为可疑数据子图。
本公开的另一个方面提供了一种基于知识图谱和标签传播的可疑数据识别装置,包括:获取模块,所述获取模块用于获取交易表,所述交易表包括交易信息;确定模块,所述确定模块用于确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;建图模块,所述建图模块根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性。
可疑数据识别装置还包括提取模块,所述提取模块根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;第一计算模块,针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,所述第一计算模块根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;第二计算模块,所述第二计算模块根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及输出模块,所述输出模块根据所述第二连通子图列表输出可疑数据列表。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及一个或多个存储器,其中,所述存储器用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现如上所述方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用方法、装置的示例性系统架构;
图2示意性示出了根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法的流程图;
图3示意性示出了根据本公开实施例的确定可疑客户标签表的流程图;
图4示意性示出了根据本公开实施例的根据交易表和可疑客户标签表建立知识图谱的流程图;
图5示意性示出了根据本公开实施例的知识图谱的示意图;
图6示意性示出了根据本公开实施例的根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值的流程图;
图7示意性示出了根据本公开实施例的根据标签号、点特征值和边特征值计算更新每个节点的标签号的流程图;
图8示意性示出了根据本公开实施例的根据标签号、点特征值和边特征值迭代计算每个节点的新标签号的流程图;
图9示意性示出了根据本公开实施例的根据每个邻居节点的点特征值、和所要计算更新的节点与每个邻居节点之间的边特征值计算更新每个节点的标签号的流程图;
图10示意性示出了根据本公开实施例的根据第二连通子图列表输出可疑数据列表的流程图;
图11示意性示出了根据本公开实施例的识别出第二连通子图列表中的全部可疑数据子图的流程图;
图12示意性示出了根据本公开实施例的基于知识图谱和标签传播的可疑数据识别装置的结构框图;
图13示意性示出了根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法;
图14示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
相关技术中,有使用基于监督模型的可疑数据识别方法识别可疑数据,该类方法基于预先确定的可疑数据和非可疑数据构造正负样本,之后利用监督式分类模型进行二分类训练,最后对于新的数据使用训练得到的模型进行可疑性的预测。基于监督模型的可疑数据识别方法因现实场景通常缺少可疑数据用于训练,导致训练过程中正负样本比例严重失衡,训练结果预测能力有限、难于应用。
相关技术中,也有使用基于无监督聚类的可疑数据识别方法识别可疑数据,该类方法首先基于客户的交易关系构建图结构,之后在图结构上按照特定特征维度运行无监督聚类算法生成聚类,之后聚类的结果融入客户可疑性信息,进行聚类的合并、打分、排序等,输出可疑数据。基于无监督聚类的可疑数据识别方法,存在以下三点缺陷。
1)无法发现潜在可疑客户和剔除误识别的可疑客户,具体地,从交易网络结构的角度,对于某个处于交易网络关键位置的客户,如果其可疑性较大,那么其上下游客户的潜在可疑性也可能较大,反之如果其可疑性较弱或无可疑,那么其上下游客户也可能可疑性较弱或无可疑,然而目前基于无监督聚类的可疑数据识别方法无法实现潜在可疑客户的发现和误识别可疑客户的剔除。
2)计算效率低:采用关系数据库构建交易图并进行聚类计算,涉及到表连接的操作效率极低。
3)后处理复杂:聚类算法执行后需要进行合并、打分、排序等一系列复杂的后处理。
本公开的实施例提供了一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。基于知识图谱和标签传播的可疑数据识别方法包括:获取交易表,交易表包括交易信息;确定可疑客户标签表,可疑客户标签表中的每个客户具有标签号,其中,可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据交易表和可疑客户标签表建立知识图谱,其中,可疑客户标签表中的客户为知识图谱中的节点,节点具有节点属性,交易信息为连接至少部分节点的边,边具有边属性。
根据知识图谱提取第一连通子图列表,其中,第一连通子图列表为至少一个第一连通子图的集合,第一连通子图包括彼此之间有连接关系的所有节点和连接节点的边;针对第一连通子图列表中节点数量大于等于第一阈值的第一连通子图,根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值;根据标签号、点特征值和边特征值计算更新每个节点的标签号,其中,具有更新后的标签号的第一连通子图为第二连通子图,第二连通子图的集合为第二连通子图列表;以及根据第二连通子图列表输出可疑数据列表。
需要说明的是,本公开的基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序可用于人工智能领域,也可用于除人工智能领域之外的任意领域,例如金融领域,这里对本公开的领域不做限定。
图1示意性示出了根据本公开实施例的可以应用基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的基于知识图谱和标签传播的可疑数据识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的基于知识图谱和标签传播的可疑数据识别装置一般可以设置于服务器105中。本公开实施例所提供的基于知识图谱和标签传播的可疑数据识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的基于知识图谱和标签传播的可疑数据识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图11对公开实施例的基于知识图谱和标签传播的可疑数据识别方法进行详细描述。
图2示意性示出了根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法的流程图。
如图2所示,该实施例的基于知识图谱和标签传播的可疑数据识别方法包括操作S210~操作S270。
在操作S210,获取交易表,交易表包括交易信息。
在操作S220,确定可疑客户标签表,可疑客户标签表中的每个客户具有标签号,其中,可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号。
作为一种可能实现的方式,如图3所示,操作S220确定可疑客户标签表包括操作S221~操作S223。
在操作S221,获取客户表,需要说明的是,客户表可以理解为记载客户账户信息的表单,例如账户信息可以为姓名、年龄、身份证号等信息。作为一些具体的示例,一张客户信息表上可以有多个客户的账户信息。
在操作S222,获取可疑客户表,其中,可疑客户表可以理解为记载可疑客户的表单,例如一张可疑客户表可以记载多个可疑客户的姓名和身份证号等信息。
在操作S223,将客户表和可疑客户表进行连接,对客户表中的且出现在可疑客户表中的客户设置可疑标签号,对客户表中的且未出现在可疑客户表中的客户设置非可疑标签号。
由此,通过操作S221~操作S223可以便于确定可疑客户标签表,使得可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号,作为一些具体的示例,可疑标签号可以为大于等于0的整数,非可疑标签号可以为0,但是可疑标签号和非可疑标签号的设置并不限于此。这里,可疑标签号和非可疑标签号为初始标签号,后文会陆续介绍计算更新节点的标签号,计算更新后的标签号为新标签号。例如可疑客户标签表可以为如表1所示的形式。
表1
姓名 | 性别 | 年龄 | 身份证号 | 标签号 |
张三 | 男 | 31 | 1231 | 1 |
李四 | 男 | 56 | 1232 | 1 |
王五 | 女 | 45 | 1233 | 2 |
赵六 | 男 | 28 | 1234 | 0 |
孙一 | 女 | 46 | 1235 | 1 |
刘七 | 男 | 25 | 1236 | 1 |
田九 | 男 | 26 | 1237 | 0 |
邓十 | 男 | 30 | 1238 | 2 |
在操作S230,根据交易表和可疑客户标签表建立知识图谱,其中,可疑客户标签表中的客户为知识图谱中的节点,节点具有节点属性,交易信息为连接至少部分节点的边,边具有边属性。
作为一种可以实现的方式,如图4所示,操作S230根据交易表和可疑客户标签表建立知识图谱包括操作S231~操作S233。
在操作S231,将可疑客户标签表导入图数据库,可疑客户标签表中的客户作为节点。其中,客户作为节点可以理解为每个客户的账户信息作为一个节点,可疑客户标签表中有多少个账户信息,即可生成多少个节点,以表1举例说明,该可疑客户标签表导入图数据库后可以生成8个节点,分别为(张三、男、31、1231、1)、(李四、男、56、1232、1)、(王五、女、45、1233、2)、(赵六、男、28、1234、0)、(孙一、女、46、1235、1)、(刘七、男、25、1236、1)、(田九、男、26、1237、0)和(邓十、男、30、1238、2)。
在操作S232,将交易表导入图数据库,交易信息包括交易发起客户和交易接收客户。其中,发起客户可以包括客户姓名和身份证号,接收客户同样包括客户姓名和身份证号,由此可以便于准确识别到发起客户和接收客户,避免重名引起的连接错误。例如交易表可以为如表2所示的形式。
表2
在操作S233,参考图5,以交易发起客户和交易接收客户为两端节点,在发起客户和接收客户之间构建边,边具有边属性。由此,可以便于根据交易表和可疑客户标签表建立起知识图谱。
在一些具体的示例中,边属性包括交易金额、交易次数、总交易金额、平均交易金额、边交易金额占交易发起客户总交易金额的比例和边交易金额占交易接收客户总交易金额的比例中的至少一个。其中,交易金额可以理解为发起客户和接收客户单次交易的金额,如表2所示的交易金额。其中交易次数可以理解为同一个发起客户和同一个接收客户之间交易的次数,例如表2中,发起客户张三与接收客户李四进行了2次交易,可确定张三和李四的交易次数为2。
其中总交易金额可以理解为发起客户与接收客户之间交易的总金额,例如张三与李四的一次交易金额为1万,另一次交易金额为10万,因此张三与李四的总交易金额为11万;又如李四和赵六仅进行了一次交易,交易金额即为总交易金额,为3万。其中,平均交易金额为总交易金额除以交易次数,例如张三与李四的总交易金额为11万,交易次数为2,因此张三和李四的平均交易金额为5.5万。
其中,边交易金额占交易发起客户总交易金额的比例可以理解为发起客户与接收客户之间的总交易金额占发起客户自身的总交易金额的比例,例如张三和李四之间的总交易金额为11万,张三与其他客户无交易,所以张三自身的总交易金额也为11万,由此张三与李四之间边交易金额占交易发起客户总交易金额的比例为1。其中,边交易金额占交易接收客户总交易金额的比例可以理解为发起客户与接收客户之间的总交易金额占接收客户自身的总交易金额的比例,例如张三和李四之间的总交易金额为11万,李四与王五和赵六均有交易,得到李四自身的总交易金额为19万,由此张三与李四之间边交易金额占交易发起客户总交易金额的比例为11/19。
在一些具体的示例中,节点属性可以包括出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。其中,出度可以理解为同一客户作为交易发起客户的次数,例如张三作为交易发起客户只与李四有交易,因此张三的出度为1,王五作为交易发起客户与李四和刘七均有交易,因此王五的出度为2,其中,入度可以理解为同一客户作为交易接收客户的次数,例如李四作为交易接收客户与张三和王五均有交易,因此李四的入度为2。其中,度中心性、紧密中心性和中介中心性的值均可以根据现有技术中的公式获得,这里不再赘述。
在操作S240,根据知识图谱提取第一连通子图列表,其中,第一连通子图列表为至少一个第一连通子图的集合,第一连通子图包括彼此之间有连接关系的所有节点和连接节点的边。例如在图5所示的知识图谱中,第一连通子图包括两个,一个为彼此之间有连接关系的所有节点和连接节点的边,包括张三、李四、赵六、孙一、王五、刘七以及连接其的边,另一个为彼此之间有连接关系的田九和邓十,以及连接田九和邓十的边。第一连通子图列表为上述两个第一连通子图的集合。上述仅为举例说明,并不能理解为对本公开的限制,本公开的第一连通子图和第一连通子图列表根据所构建的不同的知识图谱而不同。
在操作S250,针对第一连通子图列表中节点数量大于等于第一阈值的第一连通子图,根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值。继续以图5所示的知识图谱举例,根据操作S240,可以得到第一连通子图列表中的两个第一连通子图,在包括张三、李四、赵六、孙一、王五、刘七以及连接其的边的第一连通子图中,节点数量为6,在包括田九和邓十,以及连接田九和邓十的边的第一连通子图中,节点数量为2,假设第一阈值为3,那么节点数量大于等于3的第一连通子图为包括张三、李四、赵六、孙一、王五、刘七以及连接其的边的第一连通子图。需要理解的是,第一阈值是根据需要、实际情况和经验判断确定的,这里仅为举例说明。
作为一种可以实现的方式,如图6所示,操作S250根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值包括操作S251~操作S253。
在操作S251,将节点属性和边属性分别通过标准化方法转化为标准值,标准值为[0~1]区间内的数值。基于前文所述,通过标准化方法可以将边属性:交易金额、交易次数、总交易金额、平均交易金额、边交易金额占交易发起客户总交易金额的比例和边交易金额占交易接收客户总交易金额的比例中的至少一个转化为标准值。通过标准化方法也可以将节点属性:出度、入度、度中心性、紧密中心性和中介中心性中的至少一个转化为标准值。具体地,标准化方法可以包括但不限于:最大-最小准则法或者标准分数法。
在操作S252,给节点属性和边属性分别设定权重。这里权重可以根据实际需要和经验设定。
在操作S253,将节点属性的标准值与节点属性的权重作乘积得到点特征值,将边属性的标准值与边属性的权重作乘积得到边特征值。
由此,通过操作S251可以得到节点属性的标准值和边属性的标准值,通过操作S252可以得到节点属性的权重和边属性的权重,进而可以便于操作S253将节点属性的标准值与节点属性的权重作乘积得到点特征值,也便于操作S253将边属性的标准值与边属性的权重作乘积得到边特征值。
例如,以包括张三、李四、赵六、孙一、王五、刘七以及连接其的边的第一连通子图举例说明,假设张三作为节点标准化后的标准值为a,李四作为节点标准化后的标准值为b,赵六作为节点标准化后的标准值为c,张三与李四之间的边标准化后的标准值为A,李四与赵六之间的边标准化后的标准值为B,假设张三的权重为α,李四的权重为β,赵六的权重为γ,张三与李四之间的边的权重为τ,李四与赵六之间的边的权重为ψ。由此可以得到张三的点特征值为aα,李四的点特征值为bβ,赵六的点特征值为cγ,张三与李四之间的边特征值为Aτ,李四与赵六之间的边特征值为Bψ。这里,a、b、c、A、B、α、β、γ、τ和ψ均表示具体的数值。可以理解的是,孙一、王五和刘七的点特征值、王五与李四之间的边特征值、孙一与王五之间的边特征值和王五与刘七之间的边特征值的计算方法同理,这里不再赘述。
在操作S260,根据标签号、点特征值和边特征值计算更新每个节点的标签号,其中,具有更新后的标签号的第一连通子图为第二连通子图,第二连通子图的集合为第二连通子图列表。
作为一种可能实现的方式,如图7所示,操作S260根据标签号、点特征值和边特征值计算更新每个节点的标签号包括操作S261。
在操作S261,根据标签号、点特征值和边特征值迭代计算每个节点的新标签号,直至所有节点的新标签号不再更新或者达到终止迭代计算的次数。
具体地,如图8所示,操作S261根据标签号、点特征值和边特征值迭代计算每个节点的新标签号包括操作S2611~操作S2615。
在操作S2611,确定所要计算更新的节点的邻居节点数量。其中,邻居节点可以理解为与所要计算更新的节点有连接关系的节点,也即邻居节点与所要计算更新的节点通过边连接。
在操作S2612,当邻居节点数量为1时,所要计算更新的节点的新标签号为邻居节点的标签号。
在操作S2613,当邻居节点数量大于1时,判断所有邻居节点的标签号是否相同。
在操作S2614,当所有邻居节点的标签号相同时,所要计算更新的节点的新标签号为邻居节点的标签号。
在操作S2615,当邻居节点的标签号存在不同时,根据每个邻居节点的点特征值、和所要计算更新的节点与每个邻居节点之间的边特征值计算更新每个节点的标签号。
更具体地,如图9所示,操作S2615根据每个邻居节点的点特征值、和所要计算更新的节点与每个邻居节点之间的边特征值计算更新每个节点的标签号包括操作S26151~操作S26154。
在操作S26151,将所要计算更新的节点与邻居节点之间的边的边特征值与对应的邻居节点的点特征值作乘积得到与多个邻居节点一一对应的多个子权重。
在操作S26152,对所有邻居节点的标签号进行分类得到m个分类标签,m为大于1的整数,其中,每个分类标签下包括具有同一标签号的n个邻居节点,n为大于等于1的整数。
在操作S26153,将每个分类标签下的n个邻居节点对应的子权重相加得到m个标签权重,其中,m个分类标签与m个标签权重一一对应。
在操作S26154,比较m个标签权重的大小,将最大的标签权重对应的分类标签下的、邻居节点的标签号作为所要计算更新的节点的新标签号。
继续以包括张三、李四、赵六、孙一、王五、刘七以及连接其的边的第一连通子图举例说明,在第一次迭代计算中,计算更新张三的标签号时,确定张三的邻居节点个数,张三的邻居节点只有李四,数量为1个,则张三的新标签号为李四的标签号,为1,由于是第一次迭代,李四的标签号为初始标签号,也即初次获取的可疑客户标签表中的标签号。计算更新李四的标签号时,确定李四的邻居节点个数,李四的邻居节点有张三、王五和赵六,数量为3个,判断张三、王五和赵六的标签号是否相同。
具体地,张三更新后的标签号为1,王五的初始标签号为2,赵六的初始标签号为0,张三、王五和赵六的标签号均不同,将张三的点特征值aα和张三与李四之间的边特征值Aτ作乘积得到aαAτ,也即与张三对应的子权重为aαAτ;将赵六的点特征值cγ和赵六与李四之间的边特征值Bψ作乘积得到cγBψ,也即与赵六对应的子权重为cγBψ;与王五对应的子权重的计算方法与张三和赵六同理,这里不再赘述,假设王五的子权重为C。对张三、王五和赵六的标签号进行分类,由于张三、王五和赵六的标签号均不同,因此得到三类分类标签,每类分类标签下包括一个邻居节点,分别为张三、王五和赵六,由于每类分类标签下只有一个邻居节点,因此包括张三的分类标签对应的标签权重为与张三对应的子权重为aαAτ;包括赵六的分类标签对应的标签权重为与赵六对应的子权重为cγBψ;包括王五的分类标签对应的标签权重为与王五对应的子权重为C。比较aαAτ、cγBψ和C的大小,假设C>cγBψ>aαAτ,则将最大的标签权重C对应的分类标签下的、邻居节点王五的标签号作为李四的新标签号。
同理,赵六、孙一和刘七的新标签号也可以通过上述方法得出。由此,通过操作S26151~操作S26154可以实现根据每个邻居节点的点特征值、和所要计算更新的节点与每个邻居节点之间的边特征值计算更新每个节点的标签号。通过操作S2611~操作S2615可以便于实现根据标签号、点特征值和边特征值迭代计算每个节点的新标签号。可以理解的是,当第一连通子图中的每个节点均按照操作S2611~操作S2615更新完成后,一次迭代计算结束。在一些具体的示例中,可以不设定迭代次计算的次数,以所有节点的新标签号不再更新为计算终止条件。在另一些具体的示例中,可以设定迭代计算的次数,当迭代计算的次数达到设定次数时可以终止计算。上述两种示例最后一次得到的每个节点的新标签号为第二连通子图的标签号。上述仅为一个第一连通子图转化为第二连通子图的示例,仅为举例说明,实际第一连通子图的个数根据具体情况而定,没有具体限制,由此第二连通子图的个数也随第一连通子图的个数而定,第二连通子图的集合为第二连通子图列表。
在操作S270,根据第二连通子图列表输出可疑数据列表。
作为一种可实现的方式,如图10所示,操作S270根据第二连通子图列表输出可疑数据列表包括操作S271~操作S273。
在操作S271,建立可疑数据初始列表,可疑数据初始列表为空表。
在操作S272,识别出第二连通子图列表中的全部可疑数据子图。
在操作S273,将全部可疑数据子图加载到可疑数据初始列表得到可疑数据列表。
具体地,如图11所示,操作S272识别出第二连通子图列表中的全部可疑数据子图包括操作S2721~操作S2722。
在操作S2721,确定第二连通子图中的新标签号为可疑标签号的节点个数。
在操作S2722,将新标签号为可疑标签号的节点个数大于等于第二阈值的全部第二连通子图全部识别为可疑数据子图。
继续以包括张三、李四、赵六、孙一、王五、刘七以及连接其的边的第一连通子图举例说明,通过操作S260可以得到张三、李四、赵六、孙一、王五和刘七的新标签号,具有新标签号的张三、李四、赵六、孙一、王五、刘七以及连接其的边为第二连通子图,假设可疑标签号为0,非可疑标签号为大于等于1的整数,则可以通过张三、李四、赵六、孙一、王五和刘七的新标签号确定在张三、李四、赵六、孙一、王五和刘七中带有可疑标签号的节点个数,当张三、李四、赵六、孙一、王五和刘七中带有可疑标签号的节点个数大于等于第二阈值时可以将具有新标签号的张三、李四、赵六、孙一、王五、刘七以及连接其的边为第二连通子图识别为可疑数据子图。同理,若实际情况下有其它的第二连通子图,按照同样的识别方法判断该第二连通子图是否为可疑数据子图,将全部可疑数据子图加载到可疑数据初始列表即可得到可疑数据列表。
前文提到的相关技术中,有使用基于监督模型的可疑数据识别方法识别可疑数据,该类方法基于预先确定的可疑数据和非可疑数据构造正负样本,之后利用监督式分类模型进行二分类训练,最后对于新的数据使用训练得到的模型进行可疑性的预测。基于监督模型的可疑数据识别方法因现实场景通常缺少可疑数据用于训练,导致训练过程中正负样本比例严重失衡,训练结果预测能力有限、难于应用。
前文提到的相关技术中,也有使用基于无监督聚类的可疑数据识别方法识别可疑数据,该类方法首先基于客户的交易关系构建图结构,之后在图结构上按照特定特征维度运行无监督聚类算法生成聚类,之后聚类的结果融入客户可疑性信息,进行聚类的合并、打分、排序等,输出可疑数据。基于无监督聚类的可疑数据识别方法,存在以下三点缺陷。
根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法,与相关技术中的基于监督模型的可疑数据识别方法相比,本公开基于可疑客户标签表和交易表识别可疑数据,无需可疑数据训练数据。与现有技术中的基于无监督聚类的可疑数据识别方法相比,本公开将客户的可疑标签号作为监督信号进行可疑标签传播,以半监督方式发现潜在的可疑客户、剔除误识别的可疑客户;另外,本公开基于图数据库构造知识图谱,在此基础上运行第一连通子图和第二连通子图生成、可疑标签传播等聚类算法,效率更高;而且针对现有技术中的基于无监督聚类的可疑数据识别方法后处理复杂的技术问题,本公开经过知识图谱聚类计算后,只需根据第二连通子图中的新标签号为可疑标签号的节点个数是否大于等于第二阈值进行筛选,无需复杂的后处理。
基于上述基于知识图谱和标签传播的可疑数据识别方法,本公开还提供了一种基于知识图谱和标签传播的可疑数据识别装置10。以下将结合图12对基于知识图谱和标签传播的可疑数据识别装置10进行详细描述。
图12示意性示出了根据本公开实施例的基于知识图谱和标签传播的可疑数据识别装置10的结构框图。
基于知识图谱和标签传播的可疑数据识别装置10包括获取模块1、确定模块2、建图模块3、提取模块4、第一计算模块5、第二计算模块6和输出模块7。
获取模块1用于执行操作S210:获取交易表,交易表包括交易信息。
确定模块2用于执行操作S220:确定可疑客户标签表,可疑客户标签表中的每个客户具有标签号,其中,可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号。
建图模块3用于执行操作S230:根据交易表和可疑客户标签表建立知识图谱,其中,可疑客户标签表中的客户为知识图谱中的节点,节点具有节点属性,交易信息为连接至少部分节点的边,边具有边属性。
提取模块4用于执行操作S240:根据知识图谱提取第一连通子图列表,其中,第一连通子图列表为至少一个第一连通子图的集合,第一连通子图包括彼此之间有连接关系的所有节点和连接节点的边。
针对第一连通子图列表中节点数量大于等于第一阈值的第一连通子图,第一计算模块5用于执行操作S250:根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值。
第二计算模块6用于执行操作S260:根据标签号、点特征值和边特征值计算更新每个节点的标签号,其中,具有更新后的标签号的第一连通子图为第二连通子图,第二连通子图的集合为第二连通子图列表。
输出模块7用于执行操作S270:根据第二连通子图列表输出可疑数据列表。
由于上述基于知识图谱和标签传播的可疑数据识别装置10是基于基于知识图谱和标签传播的可疑数据识别方法设置的,因此上述基于知识图谱和标签传播的可疑数据识别装置10的有益效果与基于知识图谱和标签传播的可疑数据识别方法的相同,这里不再赘述。
另外,根据本公开的实施例,获取模块1、确定模块2、建图模块3、提取模块4、第一计算模块5、第二计算模块6和输出模块7中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,获取模块1、确定模块2、建图模块3、提取模块4、第一计算模块5、第二计算模块6和输出模块7中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。
或者,获取模块1、确定模块2、建图模块3、提取模块4、第一计算模块5、第二计算模块6和输出模块7中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
下面参照图13详细描述根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法。值得理解的是,下述描述仅是示例性说明,而不是对本公开的具体限制。
本公开提供一种基于知识图谱和标签传播的可疑数据识别方法,该方法以客户原始交易数据、可疑客户标记数据、组织可疑客户数阈值(即组织需要包含的最少可疑客户数量)为输入,首先将客户原始交易数据和可疑客户标记数据实施融合,然后将带有可疑客户标记的交易数据导入到图数据库中,构建以客户为节点、以交易关系为边的知识图谱,并将客户节点的可疑标签号作为可疑属性特征,之后基于图数据库进行连通子图生成和特征计算,最后将可疑标签号作为监督信号进行可疑标签传播以发现潜在的可疑客户、剔除误识别的可疑客户,并针对传播之后的可疑标签根据组织可疑客户数阈值进行筛选,输出可疑数据列表。
具体地,参考图13,基于知识图谱和标签传播的可疑数据识别方法包括步骤S1~S6。
S1:数据融合。
输入:客户原始交易数据、可疑客户标记数据。
需要解释的是,客户原始交易数据包括客户表TC、交易表TT,其中客户表TC的字段主要包括客户ID,交易表TT的字段包括交易发起客户ID、交易接收客户ID、交易金额数值,其中客户类型可以为个人客户或对公客户,交易金额可以为交易双方单次交易的金额,也可以是交易双方数次交易的累计金额。可疑客户标记数据为可疑客户标记表TS,字段包括客户ID、可疑标签号,其中可疑标签号为整数。可疑标签号可以来源于专家判断结果或模型预测结果。可疑客户标记表TS中客户数可以远远小于客户表TC中客户数。
数据融合过程:按照客户ID将客户表TC和可疑客户标记表TS做内连接计算,设置客户表TC中客户ID对应的可疑标签号,生成新客户表TCN,对于未出现在可疑客户标记表TS中的客户ID其可疑标签号设置为无可疑标签号(例如可疑标签号>0,无可疑标签号为0)。
输出:带有可疑客户标记的交易数据。其中,所输出的带有可疑客户标记的交易数据包括新客户表TCN、原交易表TT。
S2:知识图谱构建。
输入:S1输出的新客户表TCN、原交易表TT。
知识图谱构建过程:以客户表TCN为节点表、交易表TT为关系表导入到图数据库中,构建以客户为节点、以交易关系为边的知识图谱,其中客户表TCN中的客户ID作为节点唯一ID、可疑标签号作为节点的可疑属性特征,交易表TT中交易发起客户ID作为有向边的起始点、交易接收客户ID作为有向边的终止点、交易金额数值作为边属性。图数据库可采用但不限于neo4j、JanusGraph。
输出:存储在图数据库中的交易知识图谱。
S3:连通子图生成。
输入:S2构建生成的交易知识图谱。
连通子图生成过程:运行弱连通分量算法,将存在边的节点及其之间的边合并到一起构成一个连通分量,可以采用深度优先遍历或并查集方法实现,算法输出的每个连通分量对应一个连通子图。
输出:知识图谱所包含的全部连通子图列表Lw1。
S4:特征计算。
输入:连通子图列表Lw1。
特征计算过程:针对Lw1中包含节点数大于组织可疑客户数阈值C的连通子图,进行特征计算、特征值标准化计算和特征融合计算。其中,节点特征包括但不限于节点的出度、入度、度中心性、紧密中心性、中介中心性。边特征包括但不限于交易总金额、平均交易金额(两客户间交易总金额/两客户间交易总次数)、交易金额占发起方客户总交易金额的占比、交易金额占接收方客户总交易金额的占比。特征值标准化将特征的数值变换到[0,1]区间,可以采用的方法包括Min-max标准化、Z-core标准化等。特征融合将各个节点特征按照权重融合为一个节点特征值,将各个边特征按照权重融合为一个边特征值。
输出:连通子图列表Lw2。
S5:可疑标签传播。
输入:连通子图列表Lw2。
可疑标签传播过程:针对Lw2中的每个连通子图,对于其中每个节点以该节点的可疑标签号为初始标签、以S4计算得到的节点特征值和边特征值分别作为节点权重和边权重,运行标签传播算法更新节点的可疑标签号。
具体地,标签传播算法以初始标签为种子,迭代计算每个客户节点的可疑标签号。在每次迭代,每个节点为其邻居节点基于该节点的权重值、该节点与其邻居的边权重值贡献相关权重值(例如节点的权重值×节点与其邻居的边权重值),每个节点从其所有相邻节点获得累加相关权重值,并选择最大累加相关权重值对应的标签来更新自己的标签,直到所有节点不再更新标签或达到终止的迭代次数。
在运行上述标签传播算法的过程中,客户节点根据其相邻节点更新其可疑标签号,某些潜在的可疑客户可能被挖掘出来,某些被误识别的可疑客户可能被剔除。
输出:更新节点可疑标签号后的连通子图列表Lw2。
S6:结果生成:
输入:更新节点可疑标签号后的连通子图列表Lw2。
结果生成过程:针对Lw2中的每个连通子图,过滤出其中包含的可疑数据。具体地,可疑数据列表初始设为空,针对Lw2中的每个连通子图,运行如S3的连通子图生成操作并输出连通子图列表,将其中包含可疑节点数大于组织可疑客户数阈值C的连通子图识别为可疑数据,加入可疑数据列表。其中可疑节点为带有可疑标签号的节点。
输出:可疑数据列表作为可疑数据识别结果。
图14示意性示出了根据本公开实施例的适于实现基于知识图谱和标签传播的可疑数据识别方法的电子设备的方框图。
如图14所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出(I/O)接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例的方法。
在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (13)
1.一种基于知识图谱和标签传播的可疑数据识别方法,其特征在于,包括:
获取交易表,所述交易表包括交易信息;
确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;
根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性;
根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;
针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;
根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及
根据所述第二连通子图列表输出可疑数据列表,
其中,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:
根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数,
其中,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:
确定所要计算更新的节点的邻居节点数量;
当所述邻居节点数量大于1时,判断所有所述邻居节点的标签号是否相同;以及
当所述邻居节点的标签号存在不同时,根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号,
其中,所述根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号包括:
将所要计算更新的节点与邻居节点之间的边的边特征值与对应的所述邻居节点的点特征值作乘积得到与多个所述邻居节点一一对应的多个子权重;
对所有所述邻居节点的标签号进行分类得到m个分类标签,m为大于1的整数,其中,每个所述分类标签下包括具有同一标签号的n个所述邻居节点,n为大于等于1的整数;
将每个所述分类标签下的n个所述邻居节点对应的所述子权重相加得到m个标签权重,其中,m个所述分类标签与m个所述标签权重一一对应;以及
比较m个所述标签权重的大小,将最大的所述标签权重对应的所述分类标签下的、所述邻居节点的所述标签号作为所要计算更新的节点的新标签号。
2.根据权利要求1所述的方法,其特征在于,所述确定可疑客户标签表包括:
获取客户表;
获取可疑客户表;以及
将所述客户表和所述可疑客户表进行连接,对所述客户表中的且出现在所述可疑客户表中的客户设置可疑标签号,对所述客户表中的且未出现在所述可疑客户表中的客户设置非可疑标签号。
3.根据权利要求1所述的方法,其特征在于,所述根据所述交易表和所述可疑客户标签表建立知识图谱包括:
将所述可疑客户标签表导入图数据库,所述可疑客户标签表中的客户作为所述节点,所述节点具有节点属性;
将所述交易表导入所述图数据库,所述交易信息包括交易发起客户和交易接收客户;以及
以所述交易发起客户和所述交易接收客户为两端节点,在所述发起客户和所述接收客户之间构建边,所述边具有边属性。
4.根据权利要求3所述的方法,其特征在于,所述边属性包括:
交易金额、交易次数、总交易金额、平均交易金额、交易金额占所述交易发起客户总交易金额的比例和交易金额占所述交易接收客户总交易金额的比例中的至少一个。
5.根据权利要求1所述的方法,其特征在于,所述节点属性包括:
出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。
6.根据权利要求1所述的方法,其特征在于,所述根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值包括:
将所述节点属性和所述边属性分别通过标准化方法转化为标准值,所述标准值为[0~1]区间内的数值;
给所述节点属性和所述边属性分别设定权重;以及
将所述节点属性的标准值与所述节点属性的权重作乘积得到所述点特征值,将所述边属性的标准值与所述边属性的权重作乘积得到所述边特征值。
7.根据权利要求6所述的方法,其特征在于,所述标准化方法包括:最大-最小准则法或者标准分数法。
8.根据权利要求1所述的方法,其特征在于,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号还包括:
当所述邻居节点数量为1时,所要计算更新的节点的新标签号为所述邻居节点的标签号;以及
当所有所述邻居节点的标签号相同时,所要计算更新的节点的新标签号为所述邻居节点的标签号。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述根据所述第二连通子图列表输出可疑数据列表包括:
建立可疑数据初始列表,所述可疑数据初始列表为空表;
识别出所述第二连通子图列表中的全部可疑数据子图;以及
将全部所述可疑数据子图加载到所述可疑数据初始列表得到所述可疑数据列表。
10.根据权利要求9所述的方法,其特征在于,所述识别出所述第二连通子图列表中的全部可疑数据子图包括:
确定所述第二连通子图中的新标签号为可疑标签号的节点个数;以及
将新标签号为可疑标签号的节点个数大于等于第二阈值的全部所述第二连通子图全部识别为可疑数据子图。
11.一种基于知识图谱和标签传播的可疑数据识别装置,其特征在于,包括:
获取模块,所述获取模块用于获取交易表,所述交易表包括交易信息;
确定模块,所述确定模块用于确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;
建图模块,所述建图模块根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性;
提取模块,所述提取模块根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;
第一计算模块,针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,所述第一计算模块根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;
第二计算模块,所述第二计算模块根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及
输出模块,所述输出模块根据所述第二连通子图列表输出可疑数据列表,
其中,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:
根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数,
其中,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:
确定所要计算更新的节点的邻居节点数量;
当所述邻居节点数量大于1时,判断所有所述邻居节点的标签号是否相同;以及
当所述邻居节点的标签号存在不同时,根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号,
其中,所述根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号包括:
将所要计算更新的节点与邻居节点之间的边的边特征值与对应的所述邻居节点的点特征值作乘积得到与多个所述邻居节点一一对应的多个子权重;
对所有所述邻居节点的标签号进行分类得到m个分类标签,m为大于1的整数,其中,每个所述分类标签下包括具有同一标签号的n个所述邻居节点,n为大于等于1的整数;
将每个所述分类标签下的n个所述邻居节点对应的所述子权重相加得到m个标签权重,其中,m个所述分类标签与m个所述标签权重一一对应;以及
比较m个所述标签权重的大小,将最大的所述标签权重对应的所述分类标签下的、所述邻居节点的所述标签号作为所要计算更新的节点的新标签号。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939789.7A CN113869904B (zh) | 2021-08-16 | 2021-08-16 | 可疑数据识别方法、装置、电子设备、介质和计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939789.7A CN113869904B (zh) | 2021-08-16 | 2021-08-16 | 可疑数据识别方法、装置、电子设备、介质和计算机程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869904A CN113869904A (zh) | 2021-12-31 |
CN113869904B true CN113869904B (zh) | 2022-09-20 |
Family
ID=78990440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110939789.7A Active CN113869904B (zh) | 2021-08-16 | 2021-08-16 | 可疑数据识别方法、装置、电子设备、介质和计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869904B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820001A (zh) * | 2022-05-27 | 2022-07-29 | 中国建设银行股份有限公司 | 一种目标客户筛选方法、装置、设备及介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2963564A1 (en) * | 2014-07-04 | 2016-01-06 | Gottfried Wilhelm Leibniz Universität Hannover | Method for determining the relevance of a tag |
US20190311367A1 (en) * | 2015-06-20 | 2019-10-10 | Quantiply Corporation | System and method for using a data genome to identify suspicious financial transactions |
CN108280755A (zh) * | 2018-02-28 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 可疑洗钱团伙的识别方法和识别装置 |
CN108959370B (zh) * | 2018-05-23 | 2021-04-06 | 哈尔滨工业大学 | 一种基于知识图谱中实体相似度的社区发现方法及装置 |
CN109949046B (zh) * | 2018-11-02 | 2023-06-09 | 创新先进技术有限公司 | 风险团伙的识别方法和装置 |
CN110930246A (zh) * | 2019-12-04 | 2020-03-27 | 深圳市新国都金服技术有限公司 | 信贷反欺诈识别方法、装置、计算机设备及计算机可读存储介质 |
US10778706B1 (en) * | 2020-01-10 | 2020-09-15 | Capital One Services, Llc | Fraud detection using graph databases |
CN111563191A (zh) * | 2020-07-07 | 2020-08-21 | 成都数联铭品科技有限公司 | 基于图网络的数据处理系统 |
CN112100450A (zh) * | 2020-09-07 | 2020-12-18 | 厦门渊亭信息科技有限公司 | 一种图计算数据分割方法、终端设备及存储介质 |
CN112559771A (zh) * | 2020-12-23 | 2021-03-26 | 信雅达科技股份有限公司 | 基于知识图谱的资金交易智能监测方法及监测系统 |
-
2021
- 2021-08-16 CN CN202110939789.7A patent/CN113869904B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113869904A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062089B2 (en) | Method and apparatus for generating information | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN114358147A (zh) | 异常账户识别模型的训练方法、识别方法、装置及设备 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN115061874A (zh) | 日志信息验证方法、装置、设备及介质 | |
CN111177719A (zh) | 地址类别判定方法、装置、计算机可读存储介质及设备 | |
CN113869904B (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
WO2022017082A1 (zh) | 用于检测虚假交易订单的方法和装置 | |
CN110751354B (zh) | 一种异常用户的检测方法和装置 | |
US20230230081A1 (en) | Account identification method, apparatus, electronic device and computer readable medium | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN112214770A (zh) | 恶意样本的识别方法、装置、计算设备以及介质 | |
CN116739605A (zh) | 交易数据检测方法、装置、设备及存储介质 | |
CN116155628A (zh) | 网络安全检测方法、训练方法、装置、电子设备和介质 | |
CN110807159A (zh) | 数据标记方法、装置、存储介质及电子设备 | |
CN115795345A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN114706856A (zh) | 故障处理方法及装置、电子设备和计算机可读存储介质 | |
CN115147195A (zh) | 一种招标采购风险监控方法、装置、设备及介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113362097A (zh) | 一种用户确定方法和装置 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
CN110532540B (zh) | 确定用户偏好的方法、系统、计算机系统和可读存储介质 | |
CN116342183A (zh) | 信息推荐方法、训练方法、装置、电子设备以及存储介质 | |
CN114201555A (zh) | 参数影响程度分析方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |