CN111932130B - 业务类型识别方法及装置 - Google Patents
业务类型识别方法及装置 Download PDFInfo
- Publication number
- CN111932130B CN111932130B CN202010806024.1A CN202010806024A CN111932130B CN 111932130 B CN111932130 B CN 111932130B CN 202010806024 A CN202010806024 A CN 202010806024A CN 111932130 B CN111932130 B CN 111932130B
- Authority
- CN
- China
- Prior art keywords
- service
- information
- training
- graph
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 139
- 230000006870 function Effects 0.000 claims description 42
- 238000012216 screening Methods 0.000 claims description 19
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004900 laundering Methods 0.000 description 5
- 208000001613 Gambling Diseases 0.000 description 1
- 238000011001 backwashing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种业务类型识别方法及装置,通过提取业务账号信息对应的账号特征信息、业务调用信息的调用特征信息以及业务对象信息的对象特征信息,然后根据账号特征信息、调用特征信息以及对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中训练样本由业务关系网络构成,由此根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得未知识别样本的预测标签后,与每个预设业务类型的标签特征集合进行匹配,获得与未知识别样本匹配的目标业务类型。如此,通过结合业务实体连接形成的业务关系网络特征,进而提高业务类型的识别效率和识别精度,以便于提高后续的信息推送准确性。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种业务类型识别方法及装置。
背景技术
在业务类型的识别过程中,一些特定风险的业务类型通常是由多个业务实体通过业务关系构建形成的网络。网络中通常会有明确的源节点、入节点、中转节点、出节点等,分别对应业务类型过程中的不同的阶段和角色。通常每一业务实体都有不同的特征,不同特征的业务实体在网络上的组合,形成特定的业务类型。
现有的基于机器学习的业务类型识别模型,通常只考虑了单个业务实体或两业务实体间的特征,并没有考虑业务实体连接形成的业务关系网络特征,导致识别效率和识别精度较低,进而影响后续的信息推送的准确性。
发明内容
基于现有设计的不足,本申请提供一种业务类型识别方法及装置,通过结合业务实体连接形成的业务关系网络特征,进而提高业务类型的识别效率和识别精度,以便于提高后续的信息推送准确性。
根据本申请的第一方面,提供一种业务类型识别方法,应用于服务器,所述方法包括:
获取每个业务实体的业务信息,所述业务信息包括业务账号信息、业务调用信息以及业务对象信息;
分别提取所述业务账号信息对应的账号特征信息、所述业务调用信息的调用特征信息以及所述业务对象信息的对象特征信息,其中,所述账号特征信息、所述调用特征信息以及所述对象特征信息分别为预设业务行为指标下的相应特征信息;
根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中,所述训练样本由业务关系网络构成;
基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得所述未知识别样本的预测标签;
将所述未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与所述未知识别样本匹配的目标业务类型。
在第一方面的一种可能的实施方式中,所述根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签的步骤,包括:
从所述每个业务实体的业务信息筛选出每个业务实体之间的业务关系并生成对应的业务关系网络,作为每个业务实体对应的训练样本,所述业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系;
将所述每个业务实体的所述账号特征信息、所述调用特征信息以及所述对象特征信息与每个预设训练标签的匹配规则进行特征匹配,获得所述每个业务实体对应的训练样本的训练标签。
在第一方面的一种可能的实施方式中,所述根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签的步骤,还包括:
根据预设筛选规则对所述业务关系网络中满足设定筛选条件的节点和边进行筛选,获得筛选后的业务关系网络。
在第一方面的一种可能的实施方式中,所述基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器的步骤,包括:
获得不同业务关系类型的训练样本,作为训练样本集输入到图核算法模型中,并配置所述图核算法模型对应的顶点的核函数和边的核函数,其中,所述训练样本为不同业务关系类型的业务关系网络,所述顶点用于表示所述业务关系网络中的每个关系类型的关系起始节点和关系终止节点,所述边用于表示两个节点之间的关系类型,所述顶点的核函数和边的核函数用于定义业务关系类型的相似性,所述顶点的核函数和边的核函数用于输出第一相似度数值和第二相似度数值;其中,当两个顶点的标签一致时,该两个顶点的相似度为第一相似度数值,当两个顶点的标签不一致时,该两个顶点的相似度为第二相似度数值,当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为第一相似度数值,反之为第二相似度数值;
在图计算平台上,通过连通图算法,识别出所述不同业务关系类型的测试样本中所有业务拓扑结构组成的子图;
计算每个业务拓扑结构组成的源子图与训练样本的直积图,直积图用于表示由两个源子图生成一个新图的操作图,所述新图的顶点为两个源子图的积,对于第一子图和第二子图,每个子图各取一个顶点形成全排列组合;
根据所述顶点的核函数和边的核函数,计算所述新图中每个顶点和每条边的权重,其中,所述新图中的顶点的权重由比较两个源顶点得到,所述新图中的边的权重由比较两个源边得到;
在所述直积图中计算两个源子图的相似度,得到所有训练样本之间的相似度,得到对应的相似度矩阵结果,并将所述相似度矩阵结果导入支持向量机分类器进行训练,获得支持向量机的分类模型。
在第一方面的一种可能的实施方式中,所述方法还包括:
根据与所述未知识别样本匹配的目标业务类型生成对应的业务推送信息。
第二方面,本申请还提供一种业务类型识别装置,应用于服务器,所述装置包括:
获取模块,用于获取每个业务实体的业务信息,所述业务信息包括业务账号信息、业务调用信息以及业务对象信息;
提取模块,用于分别提取所述业务账号信息对应的账号特征信息、所述业务调用信息的调用特征信息以及所述业务对象信息的对象特征信息,其中,所述账号特征信息、所述调用特征信息以及所述对象特征信息分别为预设业务行为指标下的相应特征信息;
配置模块,用于根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中,所述训练样本由业务关系网络构成;
训练分类模块,用于基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得所述未知识别样本的预测标签;
匹配模块,用于将所述未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与所述未知识别样本匹配的目标业务类型。
基于上述任一方面,本申请通过提取业务账号信息对应的账号特征信息、业务调用信息的调用特征信息以及业务对象信息的对象特征信息,然后根据账号特征信息、调用特征信息以及对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中训练样本由业务关系网络构成,由此根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得未知识别样本的预测标签后,与每个预设业务类型的标签特征集合进行匹配,获得与未知识别样本匹配的目标业务类型。如此,通过结合业务实体连接形成的业务关系网络特征,进而提高业务类型的识别效率和识别精度,以便于提高后续的信息推送准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的业务类型识别方法的流程示意图;
图2示出了本申请实施例所提供的业务关系网络的拓扑结构示意图;
图3示出了本申请实施例所提供的业务类型识别装置的功能模块示意图;
图4示出了本申请实施例所提供的用于执行上述的业务类型识别方法的服务器的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
图1示出了本申请实施例提供的业务类型识别方法的流程示意图,应当理解,在其它实施例中,本实施例的业务类型识别方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该业务类型识别方法的详细步骤介绍如下。
步骤S110,获取每个业务实体的业务信息。
步骤S120,分别提取业务账号信息对应的账号特征信息、业务调用信息的调用特征信息以及业务对象信息的对象特征信息。
步骤S130,根据账号特征信息、调用特征信息以及对象特征信息配置对应的训练样本和每个训练样本对应的训练标签。
步骤S140,基于训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得未知识别样本的预测标签。
步骤S150,将未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与未知识别样本匹配的目标业务类型。
本实施例中,账号特征信息、调用特征信息以及对象特征信息分别为预设业务行为指标下的相应特征信息,训练样本由业务关系网络构成。
其中,业务实体可以是指每次生成的业务过程,业务信息可以包括业务账号信息、业务调用信息以及业务对象信息。例如,业务账号信息可以是指业务交易账户信息,业务调用信息可以是指业务交易信息,业务对象信息可以是企业信息。
在此示例下,账号特征信息可以是指账户的类型为个人/企业、账户的开户银行、账户的开户时间距今的时间、账户的身份证年龄、账户的开户地与身份证归属地一致、账户的开户地与手机号归属地一致、账户的开户地位于高风险地区、账户的开户证件可疑、账户的开户后首次转账时间、账户的交易日均余额、账户的交易模式为分散/集中的转入/转出模式、账户的交易频率、账户的入账出账速度、账户的间歇性使用、账户的出入账金额集中度比、账户的账户间一致性等特征。
调用特征信息可以是指交易的金额大小、交易的金额规避反洗钱规定、交易的金额接近汇率倍数、交易的金额以特殊数字结尾、交易的时间在罕见时间、交易的闲置时间、交易的渠道为网银/ATM/柜台、交易的双方跨银行、交易的双方跨地区、交易的设备IP跨开户地、交易的设备IP位于高风险地区、交易的备注包含可疑关键词等特征。
对象特征信息可以是指企业的注册资本小、企业的地址疑似虚假、企业的地址疑似住宅地址、企业的注册地位于高风险区、企业的联系电话虚假、企业的经营范围可疑、企业的法定代表人年龄可疑等特征。
基于上述步骤,本实施例通过提取业务账号信息对应的账号特征信息、业务调用信息的调用特征信息以及业务对象信息的对象特征信息,然后根据账号特征信息、调用特征信息以及对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中训练样本由业务关系网络构成。由此根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得未知识别样本的预测标签后,与每个预设业务类型的标签特征集合进行匹配,获得与未知识别样本匹配的目标业务类型。如此,通过结合业务实体连接形成的业务关系网络特征,进而提高业务类型的识别效率和识别精度,以便于提高后续的信息推送准确性。
在一种可能的实施方式中,针对步骤S130,本实施例可以通过以下示例性的子步骤实现,详细描述如下。
子步骤S131,从每个业务实体的业务信息筛选出每个业务实体之间的业务关系并生成对应的业务关系网络,作为每个业务实体对应的训练样本,业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系。
子步骤S132,将每个业务实体的账号特征信息、调用特征信息以及对象特征信息与每个预设训练标签的匹配规则进行特征匹配,获得每个业务实体对应的训练样本的训练标签。
示例性地,针对某个训练样本的训练标签在每一个环节的账户和交易有可以具有以下标签特征。
源账户特征:账户-类型为个人、入账交易特征-交易-金额大、交易-渠道为网银/ATM、交易-金额接近汇率倍数、交易-金额规避反洗钱规定、交易-双方跨银行、交易-双方跨地区、交易群体-设备IP一致度-高、交易群体-设备MAC一致度-高。
入账账户特征:账户-类型为企业、账户-开户地与身份证归属地一致、账户-开户证件可疑、账户群体-开户人地区集中度、账户群体-开户时间集中度、账户-交易频率-高、账户-交易模式为分散转入、账户-交易模式为分散转出、账户-开户后首次转账时间-长、账户-间歇性使用、企业-注册资本-小、企业-地址疑似虚假、企业-联系电话虚假。
中转交易特征:交易-备注包含关键词-贸易类
中转账户特征:账户-类型为企业、账户-开户银行-国外、账户-出入账金额集中度比-低、企业群体-企业关联一致度-高。
出账交易特征:交易群体-金额一致度-与入账交易成汇率比例。
出账账户特征:账户-类型为个人、账户-开户银行-境外。或:账户-账户间一致-与源账户一致。
在以上基础上,结合参阅图2,业务关系网络可以具有如图2所示的拓扑结构,其中,业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系。
在一种可能的实施方式中,为了提高后续分类的准确性,还可以根据预设筛选规则对业务关系网络中满足设定筛选条件的节点和边进行筛选,获得筛选后的业务关系网络。例如,预设筛选规则可以是指:将交易金额小于一定数值(例如低于人民币1000元)、且交易频率小于一定数值(例如近一年低于2次)的边删除,边的方向为交易转账的方向,若两账户间存在多条转账关系,则可以将金额合并。
作为一种可能的示例,上述的支持向量机的分类模型可以通过以下方式训练得到,具体描述如下。
(1)获得不同业务关系类型的训练样本,作为训练样本集输入到图核算法模型中,并配置图核算法模型对应的顶点的核函数和边的核函数。
其中,训练样本可以为不同业务关系类型的业务关系圈网络,顶点用于表示业务关系圈网络中的每个关系类型的关系起始节点和关系终止节点,边用于表示两个节点之间的关系类型。
其中,顶点的核函数和边的核函数用于定义业务关系类型的相似性,顶点的核函数和边的核函数用于输出第一相似度数值和第二相似度数值。可以理解,当两个顶点的标签一致时,该两个顶点的相似度为第一相似度数值;当两个顶点的标签不一致时,该两个顶点的相似度为第二相似度数值;当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为第一相似度数值,反之为第二相似度数值。
例如,假设第一相似度数值为1,第二相似度数值为0。即,该两个顶点的标签一致时,该两个顶点的相似度为1,反之为0。当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为1,反之为0。
(2)在图计算平台上,通过连通图算法,识别出不同业务关系类型的测试样本中所有业务关系链组成的子图。
(3)计算每个业务关系链组成的源子图与训练样本的直积图(Product Graph),直积图可以用于表示由两个源子图生成一个新图的操作图,新图的顶点为两个源子图的积,对于第一子图和第二子图,每个子图各取一个顶点形成全排列组合。
例如,在新图中,每个节点可以以源节点的组合来命名,在新图中可以分别任意取两个顶点,如第一顶点和第二顶点,第一顶点包括第一顶点横坐标和第一顶点纵坐标,第二顶点包括第二顶点横坐标和第二顶点纵坐标。当在第一子图中的第一顶点横坐标和第二顶点横坐标相邻、且在第二子图中的第一顶点纵坐标和第二顶点纵坐标相邻;或在第一子图中的第一顶点横坐标和第二顶点纵坐标相邻、且在第二子图中的第一顶点纵坐标和第二顶点横坐标相邻时,则可以在新图中连接第一顶点和第二顶点。
(4)根据顶点的核函数和边的核函数,计算新图中每个顶点和每条边的权重。
其中,新图中的顶点的权重由比较两个源顶点得到,新图中的边的权重由比较两个源边得到。
(5)在直积图中计算两个源子图的相似度,得到所有训练样本之间的相似度,得到对应的相似度矩阵结果,并将相似度矩阵结果导入支持向量机分类器进行训练,获得支持向量机的分类模型。
本实施例中,可以在直积图上通过不断扩展的方法,对从直积图中选定的节点团体计算核函数结果。例如,可以从一个空的团C开始,每一步向团C增加一个顶点,团C的权重W也随着更新,初始值W=1,可以首先根据每次新增加的顶点的权重更新,然后再通过连接该顶点的所有边的权重更新。在每一次扩展当前团时,可以不考虑已经扩展过的顶点。当直积图上的所有点都在当前团中时,则停止扩展,由此得到最终的核函数值即为两个源子图的相似度。
在进一步的一种可能的实施方式中,可以根据与未知识别样本匹配的目标业务类型生成对应的业务推送信息。例如,通过对洗钱犯罪网络进行分类(包括但不限于地下钱庄、非法集资、赌博洗钱、非法套现),并通过结合洗钱网络的整体特征,以便于后续推送洗钱犯罪类型的业务推送信息,提示相关公检法机构,从而达到更精确地识别犯罪类型的目的,提高反洗钱工作效率。
基于同一发明构思,请参阅图3,示出了本申请实施例提供的业务类型识别装置110的功能模块示意图,本实施例可以根据上述方法实施例对业务类型识别装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图3示出的业务类型识别装置110只是一种装置示意图。其中,业务类型识别装置110可以包括获取模块111、提取模块112、配置模块113、训练分类模块114以及匹配模块115,下面分别对该业务类型识别装置110的各个功能模块的功能进行详细阐述。
获取模块111,用于获取每个业务实体的业务信息,业务信息包括业务账号信息、业务调用信息以及业务对象信息。可以理解,该获取模块111可以用于执行上述步骤S110,关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。
提取模块112,用于分别提取业务账号信息对应的账号特征信息、业务调用信息的调用特征信息以及业务对象信息的对象特征信息,其中,账号特征信息、调用特征信息以及对象特征信息分别为预设业务行为指标下的相应特征信息。可以理解,该提取模块112可以用于执行上述步骤S120,关于该提取模块112的详细实现方式可以参照上述对步骤S120有关的内容。
配置模块113,用于根据账号特征信息、调用特征信息以及对象特征信息配置对应的训练样本和每个训练样本对应的训练标签。可以理解,该配置模块113可以用于执行上述步骤S130,关于该配置模块113的详细实现方式可以参照上述对步骤S130有关的内容。
训练分类模块114,用于基于训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得未知识别样本的预测标签。可以理解,该训练分类模块114可以用于执行上述步骤S140,关于该训练分类模块114的详细实现方式可以参照上述对步骤S140有关的内容。
匹配模块115,用于将未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与未知识别样本匹配的目标业务类型。可以理解,该匹配模块115可以用于执行上述步骤S150,关于该匹配模块115的详细实现方式可以参照上述对步骤S150有关的内容。
在一种可能的实施方式中,配置模块113具体用于:
从每个业务实体的业务信息筛选出每个业务实体之间的业务关系并生成对应的业务关系网络,作为每个业务实体对应的训练样本,业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系;
将每个业务实体的账号特征信息、调用特征信息以及对象特征信息与每个预设训练标签的匹配规则进行特征匹配,获得每个业务实体对应的训练样本的训练标签。
在一种可能的实施方式中,配置模块113具体还用于:
根据预设筛选规则对业务关系网络中满足设定筛选条件的节点和边进行筛选,获得筛选后的业务关系网络。
在一种可能的实施方式中,训练分类模块114具体用于:
获得不同业务关系类型的训练样本,作为训练样本集输入到图核算法模型中,并配置图核算法模型对应的顶点的核函数和边的核函数,其中,训练样本为不同业务关系类型的业务关系网络,顶点用于表示业务关系网络中的每个关系类型的关系起始节点和关系终止节点,边用于表示两个节点之间的关系类型,顶点的核函数和边的核函数用于定义业务关系类型的相似性,顶点的核函数和边的核函数用于输出第一相似度数值和第二相似度数值;其中,当两个顶点的标签一致时,该两个顶点的相似度为第一相似度数值,当两个顶点的标签不一致时,该两个顶点的相似度为第二相似度数值,当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为第一相似度数值,反之为第二相似度数值;
在图计算平台上,通过连通图算法,识别出不同业务关系类型的测试样本中所有业务拓扑结构组成的子图;
计算每个业务拓扑结构组成的源子图与训练样本的直积图,直积图用于表示由两个源子图生成一个新图的操作图,新图的顶点为两个源子图的积,对于第一子图和第二子图,每个子图各取一个顶点形成全排列组合;
根据顶点的核函数和边的核函数,计算新图中每个顶点和每条边的权重,其中,新图中的顶点的权重由比较两个源顶点得到,新图中的边的权重由比较两个源边得到;
在直积图中计算两个源子图的相似度,得到所有训练样本之间的相似度,得到对应的相似度矩阵结果,并将相似度矩阵结果导入支持向量机分类器进行训练,获得支持向量机的分类模型。
在一种可能的实施方式中,业务类型识别装置110还可以包括生成模块116,用于根据与未知识别样本匹配的目标业务类型生成对应的业务推送信息。
基于同一发明构思,请参阅图4,示出了本申请实施例提供的用于执行上述业务类型识别方法的服务器100的结构示意框图,该服务器100可以包括业务类型识别装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
业务类型识别装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图3中所示的获取模块111、提取模块112、配置模块113、训练分类模块114以及匹配模块115),当处理器130执行业务类型识别装置110中的软件功能模块时,以实现前述方法实施例提供的业务类型识别方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的业务类型识别方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。因此,本申请的保护范围应以权利要求的保护范围为准。此外,基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本申请保护的范围。
Claims (8)
1.一种业务类型识别方法,其特征在于,应用于服务器,所述方法包括:
获取每个业务实体的业务信息,所述业务信息包括业务账号信息、业务调用信息以及业务对象信息;
分别提取所述业务账号信息对应的账号特征信息、所述业务调用信息的调用特征信息以及所述业务对象信息的对象特征信息,其中,所述账号特征信息、所述调用特征信息以及所述对象特征信息分别为预设业务行为指标下的相应特征信息;
根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中,所述训练样本由业务关系网络构成;
基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得所述未知识别样本的预测标签;
将所述未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与所述未知识别样本匹配的目标业务类型;
其中,所述基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器的步骤,包括:
获得不同业务关系类型的训练样本,作为训练样本集输入到图核算法模型中,并配置所述图核算法模型对应的顶点的核函数和边的核函数,其中,所述训练样本为不同业务关系类型的业务关系网络,所述顶点用于表示所述业务关系网络中的每个关系类型的关系起始节点和关系终止节点,所述边用于表示两个节点之间的关系类型,所述顶点的核函数和边的核函数用于定义业务关系类型的相似性,所述顶点的核函数和边的核函数用于输出第一相似度数值和第二相似度数值;其中,当两个顶点的标签一致时,该两个顶点的相似度为第一相似度数值,当两个顶点的标签不一致时,该两个顶点的相似度为第二相似度数值,当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为第一相似度数值,反之为第二相似度数值;
在图计算平台上,通过连通图算法,识别出所述不同业务关系类型的测试样本中所有业务拓扑结构组成的子图;
计算每个业务拓扑结构组成的源子图与训练样本的直积图,直积图用于表示由两个源子图生成一个新图的操作图,所述新图的顶点为两个源子图的积,对于第一子图和第二子图,每个子图各取一个顶点形成全排列组合;
根据所述顶点的核函数和边的核函数,计算所述新图中每个顶点和每条边的权重,其中,所述新图中的顶点的权重由比较两个源顶点得到,所述新图中的边的权重由比较两个源边得到;
在所述直积图中计算两个源子图的相似度,得到所有训练样本之间的相似度,得到对应的相似度矩阵结果,并将所述相似度矩阵结果导入支持向量机分类器进行训练,获得支持向量机的分类模型。
2.根据权利要求1所述的业务类型识别方法,其特征在于,所述根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签的步骤,包括:
从所述每个业务实体的业务信息筛选出每个业务实体之间的业务关系并生成对应的业务关系网络,作为每个业务实体对应的训练样本,所述业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系;
将所述每个业务实体的所述账号特征信息、所述调用特征信息以及所述对象特征信息与每个预设训练标签的匹配规则进行特征匹配,获得所述每个业务实体对应的训练样本的训练标签。
3.根据权利要求2所述的业务类型识别方法,其特征在于,所述根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签的步骤,还包括:
根据预设筛选规则对所述业务关系网络中满足设定筛选条件的节点和边进行筛选,获得筛选后的业务关系网络。
4.根据权利要求1-3中任意一项所述的业务类型识别方法,其特征在于,所述方法还包括:
根据与所述未知识别样本匹配的目标业务类型生成对应的业务推送信息。
5.一种业务类型识别装置,其特征在于,应用于服务器,所述装置包括:
获取模块,用于获取每个业务实体的业务信息,所述业务信息包括业务账号信息、业务调用信息以及业务对象信息;
提取模块,用于分别提取所述业务账号信息对应的账号特征信息、所述业务调用信息的调用特征信息以及所述业务对象信息的对象特征信息,其中,所述账号特征信息、所述调用特征信息以及所述对象特征信息分别为预设业务行为指标下的相应特征信息;
配置模块,用于根据所述账号特征信息、所述调用特征信息以及所述对象特征信息配置对应的训练样本和每个训练样本对应的训练标签,其中,所述训练样本由业务关系网络构成;
训练分类模块,用于基于所述训练样本和每个训练样本对应的训练标签训练向量机分类器,并根据训练后的向量机分类器模型对输入的未知识别样本进行分类,获得所述未知识别样本的预测标签;
匹配模块,用于将所述未知识别样本的预测标签与每个预设业务类型的标签特征集合进行匹配,获得与所述未知识别样本匹配的目标业务类型;
所述训练分类模块具体用于:
获得不同业务关系类型的训练样本,作为训练样本集输入到图核算法模型中,并配置所述图核算法模型对应的顶点的核函数和边的核函数,其中,所述训练样本为不同业务关系类型的业务关系网络,所述顶点用于表示所述业务关系网络中的每个关系类型的关系起始节点和关系终止节点,所述边用于表示两个节点之间的关系类型,所述顶点的核函数和边的核函数用于定义业务关系类型的相似性,所述顶点的核函数和边的核函数用于输出第一相似度数值和第二相似度数值;其中,当两个顶点的标签一致时,该两个顶点的相似度为第一相似度数值,当两个顶点的标签不一致时,该两个顶点的相似度为第二相似度数值,当两条边分别属于两个不同子图,且两条边的两端的节点标签一致、边标签一致时,该两条边相似度为第一相似度数值,反之为第二相似度数值;
在图计算平台上,通过连通图算法,识别出所述不同业务关系类型的测试样本中所有业务拓扑结构组成的子图;
计算每个业务拓扑结构组成的源子图与训练样本的直积图,直积图用于表示由两个源子图生成一个新图的操作图,所述新图的顶点为两个源子图的积,对于第一子图和第二子图,每个子图各取一个顶点形成全排列组合;
根据所述顶点的核函数和边的核函数,计算所述新图中每个顶点和每条边的权重,其中,所述新图中的顶点的权重由比较两个源顶点得到,所述新图中的边的权重由比较两个源边得到;
在所述直积图中计算两个源子图的相似度,得到所有训练样本之间的相似度,得到对应的相似度矩阵结果,并将所述相似度矩阵结果导入支持向量机分类器进行训练,获得支持向量机的分类模型。
6.根据权利要求5所述的业务类型识别装置,其特征在于,所述配置模块具体用于:
从所述每个业务实体的业务信息筛选出每个业务实体之间的业务关系并生成对应的业务关系网络,作为每个业务实体对应的训练样本,所述业务关系网络中的每个节点为业务实体、不同节点之间的边为业务关系;
将所述每个业务实体的所述账号特征信息、所述调用特征信息以及所述对象特征信息与每个预设训练标签的匹配规则进行特征匹配,获得所述每个业务实体对应的训练样本的训练标签。
7.根据权利要求6所述的业务类型识别装置,其特征在于,所述配置模块具体还用于:
根据预设筛选规则对所述业务关系网络中满足设定筛选条件的节点和边进行筛选,获得筛选后的业务关系网络。
8.根据权利要求5-7中任意一项所述的业务类型识别装置,其特征在于,所述装置还包括:
生成模块,用于根据与所述未知识别样本匹配的目标业务类型生成对应的业务推送信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806024.1A CN111932130B (zh) | 2020-08-12 | 2020-08-12 | 业务类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806024.1A CN111932130B (zh) | 2020-08-12 | 2020-08-12 | 业务类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111932130A CN111932130A (zh) | 2020-11-13 |
CN111932130B true CN111932130B (zh) | 2024-01-19 |
Family
ID=73311585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010806024.1A Active CN111932130B (zh) | 2020-08-12 | 2020-08-12 | 业务类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111932130B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326427A (zh) * | 2020-11-17 | 2021-08-31 | 崔海燕 | 基于大数据定位的业务推送配置更新方法及云计算中心 |
CN112529713A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 产品的配置方法、装置以及计算机设备 |
CN112365344B (zh) * | 2021-01-11 | 2021-04-27 | 支付宝(杭州)信息技术有限公司 | 一种业务规则自动生成方法和系统 |
CN113205412B (zh) * | 2021-06-04 | 2024-02-02 | 中国银行股份有限公司 | 一种智能柜台办理的业务种类的确定方法及相关装置 |
CN113656927B (zh) * | 2021-10-20 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、相关设备及计算机存储介质 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1157565A (en) * | 1978-10-04 | 1983-11-22 | Amalie J. Frank | Multilevel processing of image signals |
EP1675060A1 (en) * | 2004-12-23 | 2006-06-28 | IBM Corporation | A method and system for managing customer network value |
CN105184486A (zh) * | 2015-09-08 | 2015-12-23 | 国网智能电网研究院 | 一种基于有向无环图支持向量机的电网业务分类方法 |
CN107341611A (zh) * | 2017-07-06 | 2017-11-10 | 浙江大学 | 一种基于卷积神经网络的业务流程推荐方法 |
CA2932865A1 (en) * | 2016-06-10 | 2017-12-10 | Sysomos U.S. Inc. | Pipeline computing architecture and methods for improving data relevance |
CN109034209A (zh) * | 2018-07-03 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 主动风险实时识别模型的训练方法和装置 |
CN109525595A (zh) * | 2018-12-25 | 2019-03-26 | 广州华多网络科技有限公司 | 一种基于时间流特征的黑产账号识别方法及设备 |
CN109688597A (zh) * | 2018-12-18 | 2019-04-26 | 北京邮电大学 | 一种基于人工智能的雾无线接入网络组网方法及装置 |
CN110288001A (zh) * | 2019-05-28 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于目标数据特征训练学习的目标识别方法 |
AU2019268068A1 (en) * | 2018-11-19 | 2020-06-04 | Trade View Investments Pty Ltd | Methods and systems for conversion of a graphical feature |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10897474B2 (en) * | 2016-06-23 | 2021-01-19 | Cisco Technology, Inc. | Adapting classifier parameters for improved network traffic classification using distinct private training data sets |
-
2020
- 2020-08-12 CN CN202010806024.1A patent/CN111932130B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1157565A (en) * | 1978-10-04 | 1983-11-22 | Amalie J. Frank | Multilevel processing of image signals |
EP1675060A1 (en) * | 2004-12-23 | 2006-06-28 | IBM Corporation | A method and system for managing customer network value |
CN105184486A (zh) * | 2015-09-08 | 2015-12-23 | 国网智能电网研究院 | 一种基于有向无环图支持向量机的电网业务分类方法 |
CA2932865A1 (en) * | 2016-06-10 | 2017-12-10 | Sysomos U.S. Inc. | Pipeline computing architecture and methods for improving data relevance |
CN107341611A (zh) * | 2017-07-06 | 2017-11-10 | 浙江大学 | 一种基于卷积神经网络的业务流程推荐方法 |
CN109034209A (zh) * | 2018-07-03 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 主动风险实时识别模型的训练方法和装置 |
AU2019268068A1 (en) * | 2018-11-19 | 2020-06-04 | Trade View Investments Pty Ltd | Methods and systems for conversion of a graphical feature |
CN109688597A (zh) * | 2018-12-18 | 2019-04-26 | 北京邮电大学 | 一种基于人工智能的雾无线接入网络组网方法及装置 |
CN109525595A (zh) * | 2018-12-25 | 2019-03-26 | 广州华多网络科技有限公司 | 一种基于时间流特征的黑产账号识别方法及设备 |
CN110288001A (zh) * | 2019-05-28 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于目标数据特征训练学习的目标识别方法 |
Non-Patent Citations (5)
Title |
---|
"Multiple kernel learning using composite kernel functions";Shiju S.S. et al;《Engineering Applications of Artificial Intelligence》;391-400 * |
"几种图匹配的核方法研究";张燕;《电脑知识与技术》;第9卷(第07期);1622-1625+1629 * |
"基于图核算法的文本分类";蒋强荣等;《计算机与现代化》;13-16+61 * |
"模糊文本聚类算法的研究与应用";王文东;《中国优秀硕士学位论文全文数据库》;1-68 * |
吴乃星等.《基于移动通信大数据的城市计算》.华中科技大学出版社,2020,(第1版),52-55. * |
Also Published As
Publication number | Publication date |
---|---|
CN111932130A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111932130B (zh) | 业务类型识别方法及装置 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
WO2018103456A1 (zh) | 一种基于特征匹配网络的社团划分方法、装置及电子设备 | |
CA3063580A1 (en) | Classifier training method and apparatus, electronic device and computer readable medium | |
US20160364794A1 (en) | Scoring transactional fraud using features of transaction payment relationship graphs | |
CN110046648B (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
CN112559771A (zh) | 基于知识图谱的资金交易智能监测方法及监测系统 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112750038B (zh) | 交易风险的确定方法、装置和服务器 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN109885485A (zh) | 交易冲突检测方法和装置 | |
CN111428092B (zh) | 基于图模型的银行精准营销方法 | |
CN109191185A (zh) | 一种客群分类方法及系统 | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 | |
CN112541765A (zh) | 用于检测可疑交易的方法和装置 | |
CN111932131B (zh) | 业务数据处理方法及装置 | |
Moudani et al. | Fraud detection in mobile telecommunication | |
CN113869904B (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
Deng et al. | Sampling method based on improved C4. 5 decision tree and its application in prediction of telecom customer churn | |
Fraihat et al. | An efficient enhanced k-means clustering algorithm for best offer prediction in telecom | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN110855641B (zh) | 社区属性信息确定方法、装置及存储介质 | |
CN114202418A (zh) | 信息处理方法、装置、设备及介质 | |
CN113065892A (zh) | 一种信息推送方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |