CN112016936A - 一种欺诈案例的串并方法、装置及设备 - Google Patents
一种欺诈案例的串并方法、装置及设备 Download PDFInfo
- Publication number
- CN112016936A CN112016936A CN202010814806.XA CN202010814806A CN112016936A CN 112016936 A CN112016936 A CN 112016936A CN 202010814806 A CN202010814806 A CN 202010814806A CN 112016936 A CN112016936 A CN 112016936A
- Authority
- CN
- China
- Prior art keywords
- keyword
- structured
- extracted
- keywords
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种欺诈案例的串并方法、装置及设备,该方法包括获取多个历史欺诈案例中包含的非结构化数据;分别从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重;对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别;基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种欺诈案例的串并方法、装置及设备。
背景技术
随着终端技术和网络技术的不断发展,终端和网络为人们的工作和生活提供的便利,但同时也使得欺诈案例的数量急剧增加。随着欺诈案例的不断增加,为了提高对欺诈案例的打击效率,通常可以通过案例串并的方式(即将同一欺诈组织的案例集合在一起分析)对欺诈案例进行防控。
在欺诈案例的防控的实践中,通常可以基于欺诈案例中的结构化数据进行欺诈案例的串并,即通常利用欺诈案例中包含的结构化二维表数据对相应的欺诈案例进行分析,进而确定属于同一欺诈组织进行欺诈的欺诈案例划分到同一集合中,并可以对每个集合进行综合分析确定该欺诈组织的相关属性,以便在后续对该欺诈组织进行风险防控。但是,欺诈案例中的结构化数据往往较少,甚至一些欺诈案例中不存在结构化数据,这样就使得很多欺诈案例无法进行串并处理,或者,很多欺诈案例无法划分到同一个集合,导致欺诈案例串并存在覆盖不全,使得后续对串并处理后的欺诈案例需要进行大量的分析处理,欺诈案例的处理效率低下,为此,需要提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。
发明内容
本说明书实施例的目的是提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种欺诈案例的串并方法,所述方法包括:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例提供的一种欺诈案例的串并装置,所述装置包括:第一数据获取模块,获取多个历史欺诈案例中包含的非结构化数据。关键词提取模块,分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。分类模块,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。相似度确定模块,基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。案例串并模块,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例提供的一种欺诈案例的串并设备,所述欺诈案例的串并设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种欺诈案例的串并方法实施例;
图2为本说明书另一种欺诈案例的串并方法实施例;
图3为本说明书又一种欺诈案例的串并方法实施例;
图4为本说明书一种欺诈案例的串并装置实施例;
图5为本说明书一种欺诈案例的串并设备实施例。
具体实施方式
本说明书实施例提供一种欺诈案例的串并方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种欺诈案例的串并方法,该方法的执行主体可以为终端设备或服务器,该终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机等设备,该服务器可以是一个独立的服务器,还可以是由多个服务器构成的服务器集群等。该服务器可以是某项业务(如进行交易的业务等)的后台服务器,也可以是某应用(如金融类应用等)的后台服务器等。本说明书实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述相关内容执行,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取多个历史欺诈案例中包含的非结构化数据。
其中,历史欺诈案例可以是通过欺诈的手段以获取某种利益的历史案件,历史欺诈案例可以通过多种方式确定,例如可以是通过对用户上传或举报的案例进行人工分析而确定的欺诈案例,或者,还可以是通过与预先训练的欺诈模型对某案例进行判断而确定欺诈案例等,具体可以根据实际情况设定,本说明书实施例对此不做限定。非结构化数据可以是数据结构不规则或不完整,且没有预定义的数据模型,并且不方便使用数据库的二维逻辑表进行呈现的数据,非结构化数据可以包括办公文档、图片、XML(Extensible MarkupLanguage,可扩展标记语言)、HTML(Hyper Text Markup Language,超级文本标记语言)、各种类型的报表、图像、音频和视频等。
在实施中,随着终端技术和网络技术的不断发展,终端和网络为人们的工作和生活提供的便利,但同时也使得欺诈案例的数量急剧增加。随着欺诈案例的不断增加,为了提高对欺诈案例的打击效率,通常可以通过案例串并的方式(即将同一欺诈组织的案例集合在一起分析)对欺诈案例进行防控。
在欺诈案例的防控的实践中,通常可以基于欺诈案例中的结构化数据进行欺诈案例的串并,即通常利用欺诈案例中包含的结构化二维表数据对相应的欺诈案例进行分析,进而确定属于同一欺诈组织进行欺诈的欺诈案例划分到同一集合中,并可以对每个集合进行综合分析确定该欺诈组织的相关属性,以便在后续对该欺诈组织进行风险防控。通过上述方式,一方面,通过对欺诈案例串并的方式,找到一系列的不同欺诈案例的内在联系,从而将上述欺诈案例放在一起防控,大大提升对欺诈组织的欺诈案例打击的效率;另一方面,可以对例如第三方账户、银行账户等关键欺诈要素进行提取,建立黑灰名单数据库,在上述账户进行二次作案时,可以对相应的交易进行阻断拦截,从而达到预防欺诈案例发生的目的。
但是,欺诈案例中的结构化数据往往较少,甚至一些欺诈案例中不存在结构化数据,这样就使得很多欺诈案例无法进行串并处理,或者,很多欺诈案例无法划分到同一个集合,导致欺诈案例串并存在覆盖不全,使得后续对串并处理后的欺诈案例需要进行大量的分析处理,欺诈案例的处理效率低下,此外,欺诈案例中往往包含大量不同来源的非结构化数据,例如欺诈案例的案例文本、欺诈过程中的通话语音、聊天图片等,上述非结构化数据中往往也会包含大量与欺诈相关的信息,但上述方式中并为对上述非结构化数据进行挖掘或利用不足,进一步造成大量欺诈信息被遗漏,导致欺诈案例的串并存在覆盖不全、关联主体有限。为此需要提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。本说明书实施例提供一种可选的处理方式,具体可以包括以下内容:
由于欺诈案例中往往包含大量的非结构化数据,因此,可以通过非结构化数据对欺诈案例进行串并处理,具体地,可以通过多种不同的渠道获取历史欺诈案例,例如,可以通过购买、奖励或兑换等方式从不同的用户获取历史欺诈案例,或者,某组织或机构可以设置有与交易等相关的业务系统,并在该业务系统中设置了欺诈案例的分析机制,基于此,也可以从上述组织或机构中获取其分析机制分析得到的欺诈案例,其中,上述组织或机构可以包括一个或多个。在实际应用中除了可以通过上述方式获取欺诈案例外,还可以通过其它多种方式获取欺诈案例,具体可以根据实际情况设定,本说明书实施例对此不做限定。
通过上述方式得到历史欺诈案例后,还可以对上述历史欺诈案例进行复核以确定上述历史欺诈案例的真实性,最终可以得到多个待使用的历史欺诈案例。可以对上述多个历史欺诈案例进行分析,从每个历史欺诈案例中提取其中包含的如文本、通话语音、聊天图片、音频数据和视频数据等非结构化数据。通过上述方式得到每个历史欺诈案例中包含的非结构化数据后,还可以对得到的非结构化数据进行数据清洗,从而将非结构化数据中的存在残缺的数据进行补充、对存在错误的数据进行修正或删除,并对重复的数据进行删除等处理,最终可以得到清洗后的非结构化数据。此外,还可以对上述非结构化数据进行数据整合,从而将不同数据源的数据进行合并或共享处理等,通过上述方式可以得到每个历史欺诈案例中包含的非结构化数据。
在步骤S104中,分别从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
其中,第一结构化关键词可以是任意关键词,结构化关键词可以是针对某一项目的关键词,其中的项目可以包括多种,例如手机号码、银行账号、第三方支付账号、设备信息和网络信息等,相应的,不同的项目可以对应有不同的关键词,具体可以如下表1所示。
表1
项目名称 | 结构化关键词 |
手机号码 | 13xxxxxxxxx |
银行账号 | 62xxxxxxxxxxxxx |
设备信息 | (MAC地址)EC:xx:xx:xx:xx:xx |
网络信息 | (IP地址)111.xxx.xxx.xxx |
第三方支付账号 | K123 |
在实施中,通过上述方式得到每个历史欺诈案例中包含的非结构化数据后,可以对每个非结构化数据进行关键字提取,具体地,可以预先设置有关键词提取算法或关键词提取模型,其中,不同类型的非结构化数据,相应的关键词提取算法或关键词提取模型可以不同,例如,对于文本类型的非结构化数据,其关键字提取算法或关键词提取模型与音频类型的非结构化数据的关键字提取算法或关键词提取模型不同。对于文本类型的非结构化数据,可以对该非结构化数据中包含的文本信息进行分析,从中可以选取与预定项目名称相匹配的结构化关键词,并可以将选取的结构化关键词作为第一结构化关键词。对于音频类型的非结构化数据,可以对音频类型的非结构化数据的内容进行分析,从音频数据中获取与预定项目名称相匹配的音频数据,并可以将获取的音频数据转换为文本信息,转换的文本信息即可以为相应的结构化关键词,可以将得到的结构化关键词作为第一结构化关键词。对于图像类型的非结构化数据,可以对图像内容进行分析,从图像中获取与预定项目名称相匹配的字符信息,并可以将该图像中包含的上述字符信息转换为文本信息,转换的文本信息即可以为相应的结构化关键词,可以将得到的结构化关键词作为第一结构化关键词。对于视频类型的非结构化数据,可以将视频分解为音频和图像,然后,可以基于上述的音频类型的非结构化数据和图像类型的非结构化数据进行相应的处理,得到相应的第一结构化关键词。
通过上述方式从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词后,可以计算每个第一结构化关键词的权重,其中,第一结构化关键词权重的计算方式可以包括多种,例如主成分分析法、最小二乘法和本征向量法等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别。
其中,关键词类别可以包括多种,例如可以基于上述项目信息设置相应的类别,如关键词类别可以包括手机号码类别、银行账号类别、设备信息类别和网络信息类别等,在实际应用中,还可以基于其它方式设置上述关键词类别,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以根据实际情况预先设定分类算法或分类模型,其中的分类算法或分类模型可以包括决策树分类算法或模型、基于支持向量机(Support Vector Machine,SVM)的分类算法或模型、k-最近邻近(k-NearestNeighbor,kNN)算法或模型等。以k-最近邻近(kNN)算法或模型为例,可以从上述提取的第一结构化关键词中任意抽取一个第一结构化关键词,此外,可以预先获取多个关键词样本,然后,可以计算多个关键词样本中每个关键词样本与上述第一结构化关键词之间的距离(具体可以将多个关键词样本中每个关键词样本和第一结构化关键词进行向量化处理,得到每个关键词样本对应的向量和第一结构化关键词对应的向量,可以计算向量之间的距离作为每个关键词样本与上述第一结构化关键词之间的距离),可以基于计算得到的距离,从中选择距离小于预定阈值的关键词样本,可以确定选择的关键词样本所属的关键词类别,可以将确定的选择的关键词样本所属的关键词类别作为上述第一结构化关键词对应的关键词类别。通过上述方式可以计算得到其它第一结构化关键词对应的关键词类别,从而可以得到提取的每个第一结构化关键词对应的关键词类别。需要说明的是,对于通过其它分类算法或模型确定第一结构化关键词对应的关键词类别的情况,可以根据实际情况设定,在此不再赘述。
在步骤S108中,基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
在实施中,可以预先设定相似度算法,例如欧式距离或余弦相似度等,其中,在使用相似度算法的过程中,可以将相应的第一结构化关键词进行向量化处理,得到第一结构化关键词对应的向量,然后,通过第一结构化关键词对应的向量,计算相应第一结构化关键词之间的相似度。通过上述方式得到提取的每个第一结构化关键词对应的关键词类别后,可以对不同关键词类别的第一结构化关键词,通过上述相似度算法计算两个第一结构化关键词之间的相似度,此外,还可以对不同历史欺诈案例中包含的同一关键词类别对应的第一结构化关键词,通过上述相似度算法计算两个第一结构化关键词之间的相似度,通过上述方式可以得到不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
在步骤S110中,基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理。
其中,历史欺诈案例的串并处理可以是通过对欺诈手段、痕迹、实物证明等进行分析,找到一系列不同历史欺诈案例之间的内在联系,从而将多个历史欺诈案例划分在集合中进行分类联合处理的方式或过程。
在实施中,可以基于第一结构化关键词对应的权重,确定计算的相似度中包含的两个第一结构化关键词的权重,并可以基于计算的相似度中包含的两个第一结构化关键词的权重,确定该相似度对应的权重,具体如可以将两个第一结构化关键词的权重的平均值作为该相似度对应的权重,或者,也可以通过其它方式确定该相似度对应的权重,具体可以根据实际情况设定。然后,可以基于该相似度对应的权重和相应的相似度数值进行汇总计算,确定任意两个历史欺诈案例之间的关联数值,如果得到的关联数值越大,则表明两个历史欺诈案例之间的关联程度越高,例如,可以任意选择两个历史欺诈案例,可以从上述相似度数值中查找到两个历史欺诈案例中包含的第一结构化关键词之间的相似度,可以将查找到的相似度数值与相应的相似度对应的权重相乘,得到的数值作为两个历史欺诈案例之间的关联数值,如果该关联数值大于预定关联阈值,则可以将两个历史欺诈案例划分为同一集合,否则,划分为不同集合,通过上述方式即可实现对多个历史欺诈案例进行串并处理,最终可以将上述多个历史欺诈案例划分到多个不同的集合中,后续可以对上述多个不同集合中的历史欺诈案例进行分析,确定每个集合对应的欺诈组织或机构的相关属相信息,以便后续对该欺诈组织或机构进行风险防控。
本说明书实施例提供一种欺诈案例的串并方法,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
实施例二
如图2所示,本说明书实施例提供一种欺诈案例的串并方法,该方法的执行主体可以为终端设备或服务器,该终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机等设备,该服务器可以是一个独立的服务器,还可以是由多个服务器构成的服务器集群等。该服务器可以是某项业务(如进行交易的业务等)的后台服务器,也可以是某应用(如金融类应用等)的后台服务器等。本说明书实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述相关内容执行,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S202中,获取多个历史欺诈案例中包含的非结构化数据。
在步骤S204中,分别从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
上述步骤S202和步骤S204的具体处理过程可以参见上述实施例一中的相关内容,在此不再赘述。
对于上述步骤S204的处理还可以通过多种方式实现,以下提供三种可行的处理方式,具体可以参见下述内容:
方式一:非结构化数据中包括文本数据,则上述步骤S204的具体处理可以包括:分别基于关键词抽取算法从每个历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
其中,关键词抽取算法可以包括以下中的一种或多种:TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)算法和TextRank算法。TF-IDF算法是一种基于统计的关键词抽取算法,词语的关键程度跟词语在文档中出现的次数有关。TF-IDF算法中的TF(Term Frequency,词频)是词在文本中出现的次数越多,越能代表该文本,由于同一个词语在长文本中相较于在短文本中可能会比有更高的词频,所以需要对词频进行归一化处理,而有些通用词在每个文本中会出现很多次,但通用词却不能表示任一文本的含义,因此需要引入IDF(Inverse Document Frequency,逆文档频率),IDF是对于某一文本中的词,如果在该文本中出现的次数很多,而在其他文本中出现次数很少或不出现,则该词的区分能力越高。某文本内的高频词,以及该词在文本集合中的低文档频率,可以得到更高的TF-IDF数值,因此,TF-IDF可以过滤掉通用词,只保留重要的词语。TextRank算法可以通过词之间的相邻关系构建网络,然后用PageRank算法的迭代公式迭代计算每个节点的Rank值,对得到的Rank值进行排序即可得到关键词。其中的通过词之间的相邻关系构建网络可以是将某一个词与其前面的N(N为大于或等于1的自然数)个词、以及后面的M(M为大于或等于1的自然数)个词均具有图相邻关系,具体实现为设置一个长度为K的滑动窗口,所有在该窗口之内的词都作为词节点的相邻节点,TextRank算法构建的词图为无向图。
在实施中,以关键词抽取算法为TextRank算法为例,可以从多个历史欺诈案例中任选一个历史欺诈案例,可以对该历史欺诈案例中的文本数据按照完整语句进行分割,得到该文本数据中的一个或多个完整语句;对每个完整语句进行分词和词性标注处理,并可以过滤掉停用词,保留指定词性的词语(如名词、动词和形容词等)作为候选关键词;构建候选关键词图G=(V,E),其中V为节点集合,E为边线的集合,由上述候选关键词组成,然后采用共现关系(co-occurrence)构造任意两个节点之间的边线,两个节点之间存在边线仅当它们对应的词语在长度为K(K表示窗口大小,即最多共现K个词语)的滑动窗口中共现;根据PageRank算法的迭代公式迭代计算每个节点权重,直至收敛;对节点的权重以倒序的方式进行排序,从而得到最重要的一个或多个关键词;由得到的最重要的一个或多个关键词,在历史欺诈案例的文本数据中进行标记,若形成相邻词组,则组合成多词关键词,最终可以从该历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,通过上述方式,可以实现从多个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,此外,上述TextRank算法中已经得到了每个关键词权重,从而也可以得到提取的第一结构化关键词对应的权重。
上述仅是一种可行的示例,在实际应用中,还可以包括多种可实现方式,具体可以根据实际情况设定。
此外,在上述方式一实施之前,还可以对文本数据进行预处理,具体可以包括以下内容:分别对每个历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
需要说明的是,除了可以对文本数据进行分词处理和停用词过滤处理外,还可以对文本数据进行其它预处理,具体可以根据实际情况设定,本说明书实施例对此不做限定。
方式二:非结构化数据中包括语音数据,则上述步骤S204的具体处理可以包括:分别基于语音识别算法对每个历史欺诈案例中包含的语音数据进行识别,得到该语音数据对应的文本数据;分别基于关键词抽取算法从该语音数据对应的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
其中,语音识别算法可以包括多种,例如神经网络算法、隐马尔可夫模型对应的算法等,具体可以根据实际情况设定。
需要说明的是,对于分别基于关键词抽取算法从该语音数据对应的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重的处理过程,可以参见上述方式一中的相关内容,在此不再赘述。
方式三:非结构化数据中包括图像数据,则上述步骤S204的具体处理可以包括:分别基于图像识别算法对每个历史欺诈案例中包含的图像数据进行识别,得到该图像数据对应的文本数据;分别基于关键词抽取算法从该图像数据对应的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
其中,图像识别算法中可以包括字符识别算法、数字图像处理与识别算法、物体识别算法等。文字识别通常是对图像中的字母、数字和符号等进行识别,可以通过如OCR(Optical Character Recognition,光学字符识别)算法实现。数字图像处理和识别是数字图像与模拟图像相比,具有存储、传输方便、可压缩、传输过程中不易失真、处理方便等优势。物体的识别主要指的是对三维世界的客体及环境的感知和认识。图像识别中,可以有三种识别方法,即统计模式识别、结构模式识别、模糊模式识别。
需要说明的是,本实施例中的图像识别算法可以是指OCR算法,即可以通过OCR算法对每个历史欺诈案例中包含的图像数据进行识别,得到该图像数据对应的文本数据。
在步骤S206中,利用预定的正则表达式,对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
其中,正则表达式可以是是对字符串操作的一种逻辑公式,具体为使用预先定义的特定字符,以及该特定字符的组合,组成一个“规则字符串”,该“规则字符串”可以用于表达对字符串的一种过滤逻辑的表达式,例如由11位数字组成,开头的3位数字为指定数字组合的正则表达式(如手机号码的正则表达式),或者,由18位数字组成,开头的3位数字为指定数字组合的正则表达式(如银行卡号码的正则表达式)等,具体可以根据实际情况设定,本说明书实施例对此不做限定。资源存储账号可以如银行账号(具体如银行卡号码等)或第三方支付机构或金融机构的账号等。通讯号码可以如手机号码、电子邮箱地址等。社交账号可以如即时通讯应用的账号、某论坛的账号等。网络地址可以如IP(Internet Protocol,网际互连协议)地址或URL(Uniform Resource Locator,统一资源定位器)等。应用程序可以如应用程序的名称、版本信息等。
在实施中,可以基于关键词类别中的包括的种类,如资源存储账号、通讯号码、社交账号、网络地址和应用程序等分别设定相应的正则表达式,即可以根据实际情况分别设定资源存储账号对应的正则表达式、通讯号码对应的正则表达式、社交账号对应的正则表达式、网络地址对应的正则表达式和应用程序对应的正则表达式等。然后,可以分别通过上述正则表达式对提取的第一结构化关键词进行分类,例如,如果某第一结构化关键词与设定的资源存储账号对应的正则表达式相匹配,则可以将该第一结构化关键词划分到资源存储账号的关键词类别中,如果某第一结构化关键词与设定的网络地址对应的正则表达式相匹配,则可以将该第一结构化关键词划分到网络地址的关键词类别中,以此类推,可以将提取的第一结构化关键词进行分类,从而得到提取的每个第一结构化关键词对应的关键词类别。
在步骤S208中,基于Word2vec(Word to Vector)算法,将不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征。
在实际应用中,可以基于Word2vec算法,将不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射到K维度空间向量,然后可以转换为N维度嵌入Embedding特征,其中,K和N均为大于或等于1的正整数。
在步骤S210中,基于提取的每个第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
其中,相似度算法可以包括以下中的一种或多种:编辑距离LevenshteinDistance算法、最长公共子串Longest Common SubString算法、字符串子序列核StringSubsequence Kernel算法、余弦Cosine算法和SimHash算法。
在实施中,以相似度算法为余弦Cosine算法为例,如果输入的数据为如下表2所示
表2
基于余弦Cosine算法进行相似度计算后,得到的结果可以如下表3所示。
表3
在步骤S212中,基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对多个历史欺诈案例进行串并处理。
其中,社区发现算法可以包括:最大联通子图算法和Louvain算法等。最大联通子图算法可以是在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的;若在图G中存在若干子图,其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,则称图G的上述子图为最大连通子图。
在实施中,可以通过如下的历史欺诈案例相似度加权计算公式
计算不同的历史欺诈案例之间的相似性,其中,n为关键词类别量级,ki为第i个关键词类别对应的第一结构化关键词的权重,sim(type i)为不同的历史欺诈案例之间两两相似性,通过上述计算,针对上述步骤S210的示例,可以得到如下表4所示的结果。
表4
历史欺诈案例id1 | 历史欺诈案例id2 | 相似度 |
1 | 2 | 0.9999 |
2 | 3 | 0.8888 |
3 | 4 | 0.7777 |
然后,进一步利用社区发现算法进行案件串并处理,以社区发现算法为最大联通子图为例,则输出结果可以如表5所示。
表5
历史欺诈案例id | 欺诈组织或机构id |
1 | 2 |
2 | 2 |
3 | 2 |
4 | 4 |
5 | 4 |
本说明书实施例提供一种欺诈案例的串并方法,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
此外,利用相应的模型或算法,分别进行自然语言处理、语音识别、OCR图像识别等处理,从而可以充分挖掘文本、语音、图片等非结构化数据中的信息,消除了历史欺诈案例中数据碎片化、零散化的问题。
实施例三
如图3所示,本说明书实施例提供一种欺诈案例的串并方法,该方法的执行主体可以为终端设备或服务器,该终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机等设备,该服务器可以是一个独立的服务器,还可以是由多个服务器构成的服务器集群等。该服务器可以是某项业务(如进行交易的业务等)的后台服务器,也可以是某应用(如金融类应用等)的后台服务器等。本说明书实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述相关内容执行,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,获取多个历史欺诈案例中包含的非结构化数据。
在步骤S304中,分别从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
其中,如果非结构化数据中包括文本数据,则上述步骤S304的具体处理可以包括:分别基于关键词抽取算法从每个历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。其中,关键词抽取算法可以包括以下中的一种或多种:TF-IDF算法和TextRank算法。
其中,在上述处理之前还可以分别对每个历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
此外,如果非结构化数据中包括语音数据,则上述步骤S304的具体处理可以包括:分别基于语音识别算法对每个历史欺诈案例中包含的语音数据进行识别,得到该语音数据对应的文本数据;分别基于关键词抽取算法从该语音数据对应的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
另外,如果非结构化数据中包括图像数据,则上述步骤S304的具体处理可以包括:分别基于图像识别算法对每个历史欺诈案例中包含的图像数据进行识别,得到该图像数据对应的文本数据;分别基于关键词抽取算法从该图像数据对应的文本数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重。
在步骤S306中,利用预定的正则表达式,对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
在步骤S308中,获取多个历史欺诈案例中包含的结构化数据,该结构化数据中包括每个历史欺诈案例中的第二结构化关键词和每个第二结构化关键词对应的关键词类别。
需要说明的是,上述步骤S308中的多个历史欺诈案例可以是与步骤S302中的多个历史欺诈案例相同,也可以不相同,具体可以根据实际情况设定,例如步骤S308中的多个历史欺诈案例可以为步骤S302中的多个历史欺诈案例中的一部分历史欺诈案例等。
在步骤S310中,确定第二结构化关键词对应的权重。
需要说明的是,上述步骤S302~步骤S306的处理与上述步骤S308~步骤S310的处理可以是如上述的先后顺序执行,在实际应用中,上述步骤S302~步骤S306的处理与上述步骤S308~步骤S310的处理也可以是并行执行的,或者,还可以是先执行上述步骤S308~步骤S310的处理,之后再执行上述步骤S302~步骤S306的处理,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S312中,基于提取的每个第一结构化关键词对应的关键词类别和每个第二结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
其中,相似度算法可以包括以下中的一种或多种:编辑距离LevenshteinDistance算法、最长公共子串Longest Common SubString算法、字符串子序列核StringSubsequence Kernel算法、余弦Cosine算法和SimHash算法。
上述步骤S312的具体处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A2和步骤A4的处理。
在步骤A2中,基于Word2vec算法,将不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征。
在步骤A4中,基于提取的每个结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
需要说明的是,上述结构化关键词可以包括第一结构化关键词和第二结构化关键词,关键词类别可以包括第一结构化关键词对应的关键词类别和第二结构化关键词对应的关键词类别。
在步骤S314中,基于提取的第一结构化关键词对应的权重、第二结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理。
上述步骤S314的具体处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:基于提取的第一结构化关键词对应的权重、第二结构化关键词对应的权重和所述不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对多个历史欺诈案例进行串并处理,其中,社区发现算法包括:最大联通子图算法和Louvain算法。
上述步骤S302~步骤S314的具体处理过程可以参见上述实施例一和实施例二中的相关内容,在此不再赘述。
本说明书实施例提供一种欺诈案例的串并方法,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
此外,利用相应的模型或算法,分别进行自然语言处理、语音识别、OCR图像识别等处理,从而可以充分挖掘文本、语音、图片等非结构化数据中的信息,消除了历史欺诈案例中数据碎片化、零散化的问题。并且,对非结构化数据进行清洗、整合等预处理,进一步与已有的结构化数据融合计算,更加充分的挖掘了历史欺诈案例中相关数据的潜力,补全了历史欺诈案例的串并处理中的多维信息,进一步提升了历史欺诈案例的串并处理的覆盖度和准确率。
实施例四
以上为本说明书实施例提供的欺诈案例的串并方法,基于同样的思路,本说明书实施例还提供一种欺诈案例的串并装置,如图4所示。
该欺诈案例的串并装置包括:第一数据获取模块401、关键词提取模块402、分类模块403、相似度确定模块404和案例串并模块405,其中:
第一数据获取模块401,获取多个历史欺诈案例中包含的非结构化数据;
关键词提取模块402,分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
分类模块403,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
相似度确定模块404,基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
案例串并模块405,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,所述装置还包括:
第二数据获取模块,获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
权重确定模块,确定所述第二结构化关键词对应的权重;
所述相似度确定模块404,基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述案例串并模块405,基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,所述非结构化数据中包括文本数据,所述关键词提取模块402,分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述装置还包括:
预处理模块,分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
本说明书实施例中,所述非结构化数据中包括语音数据,所述关键词提取模块402,包括:
语音识别单元,分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
第一关键词提取单元,分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述非结构化数据中包括图像数据,所述关键词提取模块402,包括:
图像识别单元,分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
第二关键词提取单元,分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。
本说明书实施例中,所述分类模块403,利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
本说明书实施例中,所述相似度确定模块404,包括:
映射单元,基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
相似度确定单元,基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
本说明书实施例中,所述相似度算法包括以下中的一种或多种:编辑距离Levenshtein Distance算法、最长公共子串Longest Common SubString算法、字符串子序列核String Subsequence Kernel算法、余弦Cosine算法和SimHash算法。
本说明书实施例中,所述案例串并模块405,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对所述多个历史欺诈案例进行串并处理,其中,所述社区发现算法包括:最大联通子图算法和Louvain算法。
本说明书实施例提供一种欺诈案例的串并装置,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
此外,利用相应的模型或算法,分别进行自然语言处理、语音识别、OCR图像识别等处理,从而可以充分挖掘文本、语音、图片等非结构化数据中的信息,消除了历史欺诈案例中数据碎片化、零散化的问题。并且,对非结构化数据进行清洗、整合等预处理,进一步与已有的结构化数据融合计算,更加充分的挖掘了历史欺诈案例中相关数据的潜力,补全了历史欺诈案例的串并处理中的多维信息,进一步提升了历史欺诈案例的串并处理的覆盖度和准确率。
实施例五
以上为本说明书实施例提供的欺诈案例的串并装置,基于同样的思路,本说明书实施例还提供一种欺诈案例的串并设备,如图5所示。
所述欺诈案例的串并设备可以为上述实施例提供的终端设备或服务器等。
欺诈案例的串并设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对欺诈案例的串并设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在欺诈案例的串并设备上执行存储器502中的一系列计算机可执行指令。欺诈案例的串并设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,欺诈案例的串并设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对欺诈案例的串并设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,还包括:
获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
确定所述第二结构化关键词对应的权重;
所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,所述非结构化数据中包括文本数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,还包括:
分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
本说明书实施例中,所述非结构化数据中包括语音数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述非结构化数据中包括图像数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。
本说明书实施例中,所述对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,包括:
利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
本说明书实施例中,所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
本说明书实施例中,所述相似度算法包括以下中的一种或多种:编辑距离Levenshtein Distance算法、最长公共子串Longest Common SubString算法、字符串子序列核String Subsequence Kernel算法、余弦Cosine算法和SimHash算法。
本说明书实施例中,所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对所述多个历史欺诈案例进行串并处理,其中,所述社区发现算法包括:最大联通子图算法和Louvain算法。
本说明书实施例提供一种欺诈案例的串并设备,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
此外,利用相应的模型或算法,分别进行自然语言处理、语音识别、OCR图像识别等处理,从而可以充分挖掘文本、语音、图片等非结构化数据中的信息,消除了历史欺诈案例中数据碎片化、零散化的问题。并且,对非结构化数据进行清洗、整合等预处理,进一步与已有的结构化数据融合计算,更加充分的挖掘了历史欺诈案例中相关数据的潜力,补全了历史欺诈案例的串并处理中的多维信息,进一步提升了历史欺诈案例的串并处理的覆盖度和准确率。
实施例六
进一步地,基于上述图1至图3所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,还包括:
获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
确定所述第二结构化关键词对应的权重;
所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
本说明书实施例中,所述非结构化数据中包括文本数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,还包括:
分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
本说明书实施例中,所述非结构化数据中包括语音数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述非结构化数据中包括图像数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
本说明书实施例中,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。
本说明书实施例中,所述对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,包括:
利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
本说明书实施例中,所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
本说明书实施例中,所述相似度算法包括以下中的一种或多种:编辑距离Levenshtein Distance算法、最长公共子串Longest Common SubString算法、字符串子序列核String Subsequence Kernel算法、余弦Cosine算法和SimHash算法。
本说明书实施例中,所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对所述多个历史欺诈案例进行串并处理,其中,所述社区发现算法包括:最大联通子图算法和Louvain算法。
本说明书实施例提供一种存储介质,通过多个历史欺诈案例中包含的非结构化数据,分别提取其中包含的第一结构化关键词,并确定提取的第一结构化关键词对应的权重,然后对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别,进而基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,最终,可以基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理,这样,由于历史欺诈案例中往往包含的非结构化数据较多,通过上述处理使得充分的挖掘了历史欺诈案例中相关数据的潜力,补充了历史欺诈案例的串并处理中的多维信息,提升历史欺诈案例的串并处理的覆盖度和准确率,并提高了历史欺诈案例的处理效率。
此外,利用相应的模型或算法,分别进行自然语言处理、语音识别、OCR图像识别等处理,从而可以充分挖掘文本、语音、图片等非结构化数据中的信息,消除了历史欺诈案例中数据碎片化、零散化的问题。并且,对非结构化数据进行清洗、整合等预处理,进一步与已有的结构化数据融合计算,更加充分的挖掘了历史欺诈案例中相关数据的潜力,补全了历史欺诈案例的串并处理中的多维信息,进一步提升了历史欺诈案例的串并处理的覆盖度和准确率。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (18)
1.一种欺诈案例的串并方法,所述方法包括:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
2.根据权利要求1所述的方法,所述方法还包括:
获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
确定所述第二结构化关键词对应的权重;
所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
3.根据权利要求1所述的方法,所述非结构化数据中包括文本数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
4.根据权利要求3所述的方法,所述方法还包括:
分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
5.根据权利要求1所述的方法,所述非结构化数据中包括语音数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
6.根据权利要求1所述的方法,所述非结构化数据中包括图像数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
7.根据权利要求3-6中任一项所述的方法,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。
8.根据权利要求1所述的方法,所述对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,包括:
利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
9.根据权利要求1所述的方法,所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
10.根据权利要求9所述的方法,所述相似度算法包括以下中的一种或多种:编辑距离Levenshtein Distance算法、最长公共子串Longest Common SubString算法、字符串子序列核String Subsequence Kernel算法、余弦Cosine算法和SimHash算法。
11.根据权利要求1所述的方法,所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对所述多个历史欺诈案例进行串并处理,其中,所述社区发现算法包括:最大联通子图算法和Louvain算法。
12.一种欺诈案例的串并装置,所述装置包括:
第一数据获取模块,获取多个历史欺诈案例中包含的非结构化数据;
关键词提取模块,分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
分类模块,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
相似度确定模块,基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
案例串并模块,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
13.根据权利要求12所述的装置,所述装置还包括:
第二数据获取模块,获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
权重确定模块,确定所述第二结构化关键词对应的权重;
所述相似度确定模块,基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述案例串并模块,基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
14.根据权利要求12所述的装置,所述分类模块,利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
15.根据权利要求12所述的装置,所述相似度确定模块,包括:
映射单元,基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
相似度确定单元,基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
16.根据权利要求12所述的装置,所述案例串并模块,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,通过预定的社区发现算法,对所述多个历史欺诈案例进行串并处理,其中,所述社区发现算法包括:最大联通子图算法和Louvain算法。
17.一种欺诈案例的串并设备,所述欺诈案例的串并设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
18.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010814806.XA CN112016936A (zh) | 2020-08-13 | 2020-08-13 | 一种欺诈案例的串并方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010814806.XA CN112016936A (zh) | 2020-08-13 | 2020-08-13 | 一种欺诈案例的串并方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016936A true CN112016936A (zh) | 2020-12-01 |
Family
ID=73506063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010814806.XA Pending CN112016936A (zh) | 2020-08-13 | 2020-08-13 | 一种欺诈案例的串并方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016936A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040103070A1 (en) * | 2002-11-21 | 2004-05-27 | Honeywell International Inc. | Supervised self organizing maps with fuzzy error correction |
US20140278406A1 (en) * | 2013-03-15 | 2014-09-18 | Business Objects Software Ltd. | Obtaining data from unstructured data for a structured data collection |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
CN110609908A (zh) * | 2019-09-17 | 2019-12-24 | 北京明略软件系统有限公司 | 案件串并方法及装置 |
CN110727787A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 案件文本匹配方法、装置、电子设备和存储介质 |
-
2020
- 2020-08-13 CN CN202010814806.XA patent/CN112016936A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040103070A1 (en) * | 2002-11-21 | 2004-05-27 | Honeywell International Inc. | Supervised self organizing maps with fuzzy error correction |
US20140278406A1 (en) * | 2013-03-15 | 2014-09-18 | Business Objects Software Ltd. | Obtaining data from unstructured data for a structured data collection |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
CN110609908A (zh) * | 2019-09-17 | 2019-12-24 | 北京明略软件系统有限公司 | 案件串并方法及装置 |
CN110727787A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 案件文本匹配方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sohangir et al. | Big Data: Deep Learning for financial sentiment analysis | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
US7689531B1 (en) | Automatic charset detection using support vector machines with charset grouping | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
Homem et al. | Authorship identification and author fuzzy “fingerprints” | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
US8560466B2 (en) | Method and arrangement for automatic charset detection | |
CN109791570B (zh) | 高效且精确的命名实体识别方法和装置 | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
Calderón et al. | Content-based echo chamber detection on social media platforms | |
Zhao et al. | LSHWE: improving similarity-based word embedding with locality sensitive hashing for cyberbullying detection | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
Prachi et al. | Detection of Fake News Using Machine Learning and Natural Language Processing Algorithms [J] | |
Soni et al. | The use of supervised text classification techniques: A comprehensive study | |
Trisal et al. | K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks | |
Yildiz | A comparative study of author gender identification | |
Singhal et al. | Analyzing scientific publications using domain-specific word embedding and topic modelling | |
Senthilkumar et al. | A Survey On Feature Selection Method For Product Review | |
CN114266255B (zh) | 基于聚类模型的语料分类方法、装置、设备及存储介质 | |
US11989526B2 (en) | Systems and methods for short text similarity based clustering | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
Waheeb et al. | Content-based SMS classification: statistical analysis for the relationship between number of features and classification performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |