CN116127337B - 基于位置和图像的风险挖掘方法、装置、存储介质及设备 - Google Patents
基于位置和图像的风险挖掘方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116127337B CN116127337B CN202211100450.9A CN202211100450A CN116127337B CN 116127337 B CN116127337 B CN 116127337B CN 202211100450 A CN202211100450 A CN 202211100450A CN 116127337 B CN116127337 B CN 116127337B
- Authority
- CN
- China
- Prior art keywords
- background image
- image
- service order
- image features
- image feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005065 mining Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007667 floating Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于位置和图像的风险挖掘方法、装置、存储介质及设备。获取多个已有业务订单,所述业务订单包括用户图像和位置信息;提取所述多个已有业务订单中的位置信息;对所述多个已有业务订单中的位置信息进行聚类,得到多个位置库;针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。通过利用GPS信息,将图像聚类/图像检索限制在相邻地域内。在较小的范围内,图像背景相似时地理位置相似的概率大大提高,有效消除了歧义性。并且在较小的范围内,干扰图像的数量大幅降低,图像聚类和图像检索的精度大幅提升,具有扩展性。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于位置和图像的风险挖掘方法、装置、存储介质及设备。
背景技术
在现有的人脸身份核验流程等类似业务场景中,系统会引导和采集用户的1~N张人脸图像信息,用于判断用户是否是真人(而不是照片)和本人(和声明的身份一致,而不是其他人)。在这个流程中,图像中的背景信息(非人脸或人体部分)的价值未被有效利用。除了图像中的人脸信息外,背景信息也具有很大的价值。
业务中发现,很多身份仿冒或者中介代办的订单呈现聚集性,来自于相对固定的地理位置和房间。对于同一个中介代办的订单,表现为这些高风险订单的位置(GPS)相近,图像的背景有相似性。因此,通过发掘位置聚集和背景相似的订单,可以有效挖掘出未知的中介办公点和/或欺诈团伙所在地;还可以在线判断一个新的业务订单是否来自某个已知的中介办公点和/或其他团伙,提前发现风险。特别的,相比于单独使用位置(GPS)信息,图像背景信息能够做进一步的筛选,避免误判正常的订单聚集现象,如人口密集区域的订单自然相对多,但并不具有上述风险。
综上,本领域亟需解决如何有效利用位置信息和人脸图像中的背景信息来挖掘出业务风险的问题,从而提高欺诈风险的检测准确性。
发明内容
为解决上述问题,本发明提供一种基于位置和图像的风险挖掘方法、装置、存储介质及设备。
第一方面,本发明实施例提供一种基于位置和图像的风险挖掘方法,包括:
获取多个已有业务订单,所述业务订单包括用户图像和位置信息;
提取所述多个已有业务订单中的位置信息;
对所述多个已有业务订单中的位置信息进行聚类,得到多个位置库;
针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。
在一些实现方式中,所述提取用户图像的背景图像特征,包括:
针对每个用户图像进行人像分割,提取相应的背景图像;
针对每个背景图像,利用预先训练的图像特征提取模型提取背景图像特征。
在一些实现方式中,所述方法还包括:
针对每个所述位置与图像特征库,采用聚类算法对该位置与图像特征库内的所有背景图像特征进行聚类,得到每个所述位置与图像特征库对应的多个图像特征类,进而确定所述多个图像特征类中每个图像特征类对应的已有业务订单。
在一些实现方式中,所述的基于位置和背景的风险挖掘方法,还包括:
获取新的业务订单;
根据所述新的业务订单中的位置信息,确定所述新的业务订单所属的位置与图像特征库。
在一些实现方式中,所述方法还包括:针对每个位置库计算中心位置和覆盖半径,所述中心位置为位置库中位置信息的平均值,所述覆盖半径为以所述中心位置为圆心,覆盖位置库中所有位置信息的最小半径;
所述根据所述新的业务订单中的位置信息,确定所述新的业务订单所属的位置与图像特征库,包括:
计算所述新的业务订单中位置信息和每个位置与图像特征库的中心位置的距离;
确定所述距离是否在对应位置与图像特征库的覆盖半径内;
若所述距离在对应位置与图像特征库的覆盖半径内,则确定所述新的业务订单属于该位置与图像特征库。
在一些实现方式中,所述在确定所述新的业务订单所属位置与图像特征库的情况下,还包括:
提取所述新的业务订单中用户图像的背景图像特征;
检索所述新的业务订单所属的每个位置与图像特征库,确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,及所述N个背景图像特征对应的业务订单。
在一些实现方式中,所述新的业务订单所属的位置与图像特征库为一个,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
计算所述新的业务订单中用户图像的背景图像特征与所述位置与图像特征库中各背景图像特征的相似度,得到最相似的前M个背景图像特征;
从所述M个背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
在一些实现方式中,所述新的业务订单所属的位置与图像特征库为两个以上,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
针对每个所属的位置与图像特征库,计算所述新的业务订单中用户图像的背景图像特征与位置与图像特征库中背景图像特征的相似度,得到最相似的前M个背景图像特征;
将各所属的位置与图像特征库中的所述最相似的前M个背景图像特征合并;
从合并后的背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
在一些实现方式中,所述新的业务订单中用户图像有多个时,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
将多个用户图像的背景图像特征分别与各位置与图像特征库中的背景图像特征进行匹配,得到每个用户图像的背景图像特征对应的最相似的前N个背景图像特征;
将各用户图像的背景图像特征对应的最相似的N个背景图像特征汇总后进行排序,取前N个背景图像特征作为最相似的N个背景图像特征。
第二方面,本发明实施例提供一种基于位置和背景的风险挖掘装置,包括:
获取模块,用于获取多个已有业务订单,所述业务订单包括用户图像和位置信息;
提取模块,用于提取所述多个已有业务订单中的位置信息;
聚类模块,用于对所述多个已有业务订单中的位置信息进行聚类,得到多个位置库;
建库模块,用于针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如第一方面所述的方法。
第四方面,本发明实施例提供一种计算机设备,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如第一方面所述的方法。
本发明的一个或多个实施例至少能够带来如下有益效果:
本发明提供的基于位置和背景的风险挖掘方法、装置、存储介质及设备,通过提取获取的多个已有业务订单中的位置信息;对多个已有业务订单中的位置信息进行聚类,得到多个位置库;针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。通过利用GPS信息,将图像聚类/图像检索限制在相邻地域内。在较小的范围内,图像背景相似时地理位置相似的概率大大提高,有效消除了歧义性。并且在较小的范围内,干扰图像的数量大幅降低,图像聚类和图像检索的精度大幅提升,具有扩展性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的供一种基于位置和背景的风险挖掘方法流程图;
图2是本发明实施例提供的业务订单示意图;
图3是本发明实施例提供的位置与图像特征库构建过程示意图;
图4是本发明实施例提供的离线聚类流程示意图;
图5是本发明实施例提供的在线检索流程示意图;
图6是本发明实施例提供的一种基于位置和背景的风险挖掘装置框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人在业务中发现,很多身份仿冒或者中介代办的业务订单呈现聚集性,来自于相对固定的地理位置和房间。对于同一个中介代办的业务订单,表现为这些高风险业务订单的位置(GPS信息)相近,图像的背景有相似性。因此,通过发掘位置聚集和背景相似的订单,可以有效挖掘出未知的中介办公点和/或欺诈团伙所在地;还可以在线判断一个新订单是否来自某个已知的中介办公点和/或其他团伙,提前发现风险。
特别的,相比于单独使用位置(GPS)信息,图像背景信息能够做进一步的筛选,避免将正常的业务订单聚集现象误判为风险业务订单,如人口密集区域的订业务订单自然相对多,但并不具有上述风险。
相关技术中,只考虑使用图像背景信息,而没有考虑结合位置(GPS)信息,这会在有反欺诈风险挖掘需求的业务场景下,存在如下缺点:
1)业务场景下具有歧义性。由于真实世界中存在很多装修风格相似的场所,图像背景相似的两个业务订单,其地理位置并不一定相近或相同。即,图像相似不能确定性的保障地理位置相近,和业务需求不直接一致。
2)技术上扩展性不足。由于大部分图像是干扰图像(即和查询图像不是同一地理位置),这会导致在索引库的大量图像中通过图像特征向量寻找相似的图像的正确性受限,干扰图像的数量越大,检索出错误图像的概率越高。
实施例一
如图1所示,本实施例提供一种基于位置和背景的风险挖掘方法,可以包括:
步骤S101、获取多个已有业务订单,业务订单包括用户图像和位置信息。
应当理解的是,业务订单可以为结构化信息,多个已有业务订单中除了包括用户图像和位置信息外,还可以包括唯一性的订单id以标识业务订单,例如图2所示,每一行是一条独立的业务订单,图中的字段仅为示例,但通常至少包括这些字段或等价信息(如GPS可以等价改为具体地址)。在本实施例的使用环境下,等价信息需要转换成GPS。其中的订单号即订单id,图像下载URL为用户图像的下载地址,经度和纬度(GPS信息)为位置信息。获取的已有业务订单应当是大量的,足以在对其中的位置信息提取后聚类出多个类,以挖掘已有业务订单中的风险,审核涉嫌中介代办类的聚集的业务订单,实现基于背景和位置的反欺诈,已有业务订单的数量可以根据需要设定,本实施例不做具体限定。
步骤S102、提取多个已有业务订单中的位置信息。
一些情形中,订单信息中的位置信息为地址时,先转换为经度和纬度再使用。
步骤S103、对多个已有业务订单中的位置信息进行聚类,得到多个位置库。
本实施例中采用聚类算法,对多个已有业务订单中的位置信息进行聚类,得到多个位置库,应当说明的是,这里允许存在一些业务订单经过聚类算法后,不归属任何一个类,这样的类别不属于风险类,可直接忽略。
本实施例不限定具体的聚类算法,但需要使用不事先指定类别数量的聚类算法,也可以组合使用多种聚类算法以提升效果。示例性的,本实施例可以用现有技术中的DBSCAN聚类算法。一些情况下,也可以组合使用多种聚类算法以提升效果,示例性的,可以先使用DBSCAN聚类算法,再用Birch算法拆分过大的类别。
在得到多个位置库的情况下,针对每个位置库计算中心位置和覆盖半径,中心位置为位置库中所有位置信息的平均值,覆盖半径为以中心位置为圆心,覆盖当前位置库中所有位置信息的最小半径。
步骤S104、针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。
在每个位置库内,对位置库内业务订单的用户图像进行背景图像特征提取,得到对应的位置与图像特征库,这一库中包含了一类位置信息对应的背景图像特征集合。这一步是每个位置库分别处理,位置库之间互不干扰。
在一些实现方式中,提取用户图像的背景图像特征,可进一步包括:
步骤S104a、针对每个用户图像进行人像分割,提取相应的背景图像。
本实施例不限定具体的人像分割算法及其训练方法,示例性的,本实施例可以使用现有技术中的ExtremeC3Net模型实现人像分割。
步骤S104b、针对每个背景图像,利用预先训练的图像特征提取模型提取背景图像特征。
具体的,背景图像特征可以指背景图像特征向量,本实施例不限定具体的图像特征提取模型和其训练方法,也不限定背景图像特征向量的维度和其是否是浮点数、二进制数。示例性的,可以使用现有技术中的DELG模型提取2048维的浮点数的特征向量。
在一些实现方式中,在前述得到多个位置库的情况下,本方法还可以包括:
步骤S105、针对每个位置与图像特征库,采用聚类算法对该位置与图像特征库内的所有背景图像特征进行聚类,得到每个位置与图像特征库对应的多个图像特征类,进而确定多个图像特征类中每个图像特征类对应的已有业务订单。
在前述离线(offline)建库的基础上,对每个位置与图像特征库进行离线聚类,能够进一步离线从已有业务订单中挖掘存在风险的业务订单。
以对第K个位置与图像特征库的离线聚类处理为例进行说明:
采用聚类算法,对位置与图像特征库内的所有背景图像特征进行聚类,得到多个图像特征类,返回每个图像特征类对应的业务订单,供业务方做进一步审查。
本实施例不限定具体的聚类算法,一些情况下,优选使用不事先指定类别数量的聚类算法,也可以组合使用多种聚类算法以提升效果。示例性的,可以采用DBSCAN聚类算法。
应当说明的是,允许存在一些业务订单中用户图像的背景图像特征经过聚类后,不归属任何一个图像特征类,这样的类别不属于风险类,可直接忽略。
在一些实现方式中,在前述离线构建位置与图像特征库和/或离线聚类的基础上,本方法还可以进行在线检索,以在线(online)实时判断一个新业务订单的风险。进而,本实施例的方法还包括:
步骤S201、获取新的业务订单;应当理解的是,新的业务订单中也是包含用户图像和位置信息的。
步骤S202、根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库。
提取新的业务订单中的位置信息,当订单信息中的位置信息为地址时,先转换为经度和纬度再使用。
在一些实现方式中,步骤S202中根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库,可进一步包括:
步骤S202a、计算新的业务订单中位置信息和每个位置与图像特征库的中心位置的距离。
步骤S202b、确定该距离是否在对应位置与图像特征库的覆盖半径内。
步骤S202c、若该距离在对应位置与图像特征库的覆盖半径内,则确定新的业务订单属于该位置与图像特征库。
具体地,根据新的业务订单中的位置信息,确定新的业务订单落在哪个位置与图像特征库,可以这样进行:计算新的业务订单中的位置信息和每个位置与图像特征库的中心位置的距离,判断该距离是否在该位置与图像特征库的覆盖半径内。即判断和/>的大小;其中,G是新的业务订单中的位置信息,/>是第i个位置与图像特征库的中心位置,/>是该位置与图像特征库的覆盖半径。若/>则说明新的业务订单在第i个位置与图像特征库的范围内,否则新的业务订单不在第i个位置与图像特征库的范围内。
需要说明的是,新的业务订单可能不归属任何一个已有的位置与图像特征库,则表明该位置信息的周边地区无历史业务订单,此情况下结束流程。新的业务订单也可以归属于多个已有的位置与图像特征库,则表明该位置信息在多个位置与图像特征库对应的地区的交界处,则该位置信息的邻域覆盖多个位置与图像特征库。
一些实现方式中,在确定新的业务订单所属位置与图像特征库的情况下,本方法还包括:
步骤S301、提取新的业务订单中用户图像的背景图像特征。
新的业务订单中用户图像的背景图像特征的提取可以通过预先训练的图像特征提取模型实现。具体的,背景图像特征可以指背景图像特征向量,本实施例不限定具体的图像特征提取模型和其训练方法,也不限定背景图像特征向量的维度和其是否是浮点数、二进制数。示例性的,可以使用现有技术中的DELG模型提取2048维的浮点数的特征向量。
步骤S302、检索新的业务订单所属的每个位置与图像特征库,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,及N个背景图像特征对应的业务订单。
本实施例中,在确定出新的业务订单所属位置与图像特征库的情况下,在每个所属的位置与图像特征库中,确定与新的业务订单中用户图像的背景图像特征相似的背景图像特征,从中确定最相似的N个背景图像特征并返回这N个背景图像特征对应的业务订单。本实施例不限定检索方法和前后处理方式。示例性的,可采用现有技术中的faiss检索引擎。
一些情形中,新的业务订单所属的位置与图像特征库为一个,进一步地,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
步骤S302a1、计算新的业务订单中用户图像的背景图像特征与该位置与图像特征库中各背景图像特征的相似度,得到最相似的前M个背景图像特征。
步骤S302a2、从这M个背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
其中,相似度可以通过相似度度量函数计算得到,预设度量阈值可以根据需求设定,N≤M,通过预设度量阈值过滤掉相似度不够的背景图像特征,得到最终的N个最相似的背景图像特征,并返回这N个背景图像特征对应的业务订单。应当理解的是,也可能M个背景图像特征均达到预设度量阈值,此时N=M。
另一些情形中,新的业务订单所属的位置与图像特征库为两个以上,进一步地,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
步骤S302b1、针对每个所属的位置与图像特征库,计算新的业务订单中用户图像的背景图像特征与位置与图像特征库中背景图像特征的相似度,得到最相似的前M个背景图像特征。
步骤S302b2、将各所属的位置与图像特征库中的最相似的前M个背景图像特征合并。
步骤S302b3、从合并后的背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
在新的业务订单所属的位置与图像特征库不止一个(新的业务订单中的位置信息的邻域包括多个库)时,针对每个所属的位置与图像特征库计算得到最相似的前M个背景图像特征,再将各所属的位置与图像特征库汇总合并,对合并后的结果进行过滤,剔除相似度不够的背景图像特征,排序后最终得到N个最相似的背景图像特征并返回这N个背景图像特征对应的业务订单。
在实际应用中,新的业务订单中用户图像可能有多个(即用户拍摄了多张图像),进而确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
步骤S302c1、将多个用户图像的背景图像特征分别与各位置与图像特征库中的背景图像特征进行匹配,得到每个用户图像的背景图像特征对应的最相似的前N个背景图像特征。
步骤S302c2、将各用户图像的背景图像特征对应的最相似的N个背景图像特征汇总后进行排序,取前N个背景图像特征作为最相似的N个背景图像特征。
在用户图像可能有多个时,分别对每个用户提取背景图像特征向量,分别检索所属的位置与图像特征库,得到各自的检索结果;再将各张用户图像的检索结果合并,根据相似度排序,从合并后的结果中,得到最终的N个相似特征向量,找到对应的业务订单返回。应当理解的是,针对每张用户图像确定N个背景图像特征的方式可以参考前述两类情形,此处不再赘述。
实施例二
本实施例提供一个具体应用实例。
在实际使用中,定时根据历史业务订单重新构建位置与图像特征库,构建过程参照图3进行处理。目的是将新增的订单加入到库中。随着新的业务订单的到来,库的构建将发生变化,更新出新的库。本实施例对定时周期不做限定。示例性的,可以每天重新全量构建,也可以每天只重新构建被新的业务订单影响的地区的库,每7天再重新全量构建。
在构建完成后,对构建的位置与图像特征库有两种用法
A、离线使用,使用流程如图4所示。目的是挖掘库中的风险的业务订单。
B、在线使用,使用流程如图5所示。目的是实时判断新的业务订单是否有风险。
实施例三
与实施例一对应地,如图6所示,本实施例提供一种基于位置和背景的风险挖掘装置,可以包括:
获取模块601,用于获取多个已有业务订单,业务订单包括用户图像和位置信息;
提取模块602,用于提取多个已有业务订单中的位置信息;
聚类模块603,用于对多个已有业务订单中的位置信息进行聚类,得到多个位置库;
建库模块604,用于针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库。
在得到多个位置库的情况下,针对每个位置库计算中心位置和覆盖半径,中心位置为位置库中所有位置信息的平均值,覆盖半径为以中心位置为圆心,覆盖当前位置库中所有位置信息的最小半径。
在每个位置库内,对位置库内业务订单的用户图像进行背景图像特征提取,得到对应的位置与图像特征库,这一库中包含了一类位置信息对应的背景图像特征集合。这一步是每个位置库分别处理,位置库之间互不干扰。
在一些实现方式中,提取用户图像的背景图像特征,可进一步包括:
针对每个用户图像进行人像分割,提取相应的背景图像;
针对每个背景图像,利用预先训练的图像特征提取模型提取背景图像特征。
在一些实现方式中,在前述得到多个位置库的情况下,聚类模块603还可以用于:针对每个位置与图像特征库,采用聚类算法对该位置与图像特征库内的所有背景图像特征进行聚类,得到每个位置与图像特征库对应的多个图像特征类,进而确定多个图像特征类中每个图像特征类对应的已有业务订单。
在前述离线(offline)建库的基础上,对每个位置与图像特征库进行离线聚类,能够进一步离线从已有业务订单中挖掘风险。
在一些实现方式中,在前述离线构建位置与图像特征库和/或离线聚类的基础上,本方法还可以进行在线检索,以在线(online)实时判断一个新业务订单的风险。进而,本实施例的装置还包括:
在线检索模块,用于获取新的业务订单;根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库。
在一些实现方式中,根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库,可进一步包括:
计算新的业务订单中位置信息和每个位置与图像特征库的中心位置的距离;确定该距离是否在对应位置与图像特征库的覆盖半径内;若该距离在对应位置与图像特征库的覆盖半径内,则确定新的业务订单属于该位置与图像特征库。
一些实现方式中,在确定新的业务订单所属位置与图像特征库的情况下,在线检索模块,还用于:提取新的业务订单中用户图像的背景图像特征;检索新的业务订单所属的每个位置与图像特征库,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,及N个背景图像特征对应的业务订单。
一些情形中,新的业务订单所属的位置与图像特征库为一个,进一步地,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
计算新的业务订单中用户图像的背景图像特征与该位置与图像特征库中各背景图像特征的相似度,得到最相似的前M个背景图像特征;从这M个背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
另一些情形中,新的业务订单所属的位置与图像特征库为两个以上,进一步地,确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
针对每个所属的位置与图像特征库,计算新的业务订单中用户图像的背景图像特征与位置与图像特征库中背景图像特征的相似度,得到最相似的前M个背景图像特征;将各所属的位置与图像特征库中的最相似的前M个背景图像特征合并;从合并后的背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
在实际应用中,新的业务订单中用户图像可能有多个(即用户拍摄了多张图像),进而确定与新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,可以包括:
将多个用户图像的背景图像特征分别与各位置与图像特征库中的背景图像特征进行匹配,得到每个用户图像的背景图像特征对应的最相似的前N个背景图像特征;将各用户图像的背景图像特征对应的最相似的N个背景图像特征汇总后进行排序,取前N个背景图像特征作为最相似的N个背景图像特征。应当理解的是,针对每张用户图像确定N个背景图像特征的方式可以参考前述两类情形,此处不再赘述。
应当理解的是,本实施例的装置具备方法实施例的全部有益效果。
本领域的技术人员应当明白,上述各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何限定的硬件和软件结合。
实施例四
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被一个或多个处理器执行时,实现前述实施例的方法或者装置的模块。
本实施例中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。方法可参照本发明前述实施例,此处不再赘述。
实施例五
本实施例提供一种计算机设备,包括存储器和一个或多个处理器,存储器上存储有计算机程序,计算机程序被一个或多个处理器执行时实现前述实施例的方法或前述实施例的装置的模块。
本实施例中,处理器可以是专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(ProgrammableLogic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例中的方法。在处理器上运行的计算机程序被执行时所实现的方法可参照本发明前述实施例,此处不再赘述。
本发明实施例提供的方案,通过利用GPS信息,将图像聚类/图像检索限制在相邻地域内。在较小的范围内,图像背景相似时地理位置相似的概率大大提高,有效消除了歧义性。并且在较小的范围内,干扰图像的数量大幅降低,图像聚类和图像检索的精度大幅提升,具有扩展性。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种基于位置和图像的风险挖掘方法,其特征在于,包括:
获取多个已有业务订单,所述业务订单包括用户图像和位置信息;
提取所述多个已有业务订单中的位置信息;
对所述多个已有业务订单中的位置信息进行聚类,得到多个位置库;
针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库;
获取新的业务订单;
根据所述新的业务订单中的位置信息,确定所述新的业务订单所属的位置与图像特征库;
针对每个位置库计算中心位置和覆盖半径,所述中心位置为位置库中位置信息的平均值,所述覆盖半径为以所述中心位置为圆心,覆盖位置库中所有位置信息的最小半径;
所述根据所述新的业务订单中的位置信息,确定所述新的业务订单所属的位置与图像特征库,包括:
计算所述新的业务订单中位置信息和每个位置与图像特征库的中心位置的距离;
确定所述距离是否在对应位置与图像特征库的覆盖半径内;
若所述距离在对应位置与图像特征库的覆盖半径内,则确定所述新的业务订单属于该位置与图像特征库。
2.根据权利要求1基于位置和图像的风险挖掘方法,其特征在于,所述提取用户图像的背景图像特征,包括:
针对每个用户图像进行人像分割,提取相应的背景图像;
针对每个背景图像,利用预先训练的图像特征提取模型提取背景图像特征。
3.根据权利要求1基于位置和图像的风险挖掘方法,其特征在于,还包括:
针对每个所述位置与图像特征库,采用聚类算法对该位置与图像特征库内的所有背景图像特征进行聚类,得到每个所述位置与图像特征库对应的多个图像特征类,进而确定所述多个图像特征类中每个图像特征类对应的已有业务订单。
4.根据权利要求1基于位置和图像的风险挖掘方法,其特征在于,在确定所述新的业务订单所属位置与图像特征库的情况下,还包括:
提取所述新的业务订单中用户图像的背景图像特征;
检索所述新的业务订单所属的每个位置与图像特征库,确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,及所述N个背景图像特征对应的业务订单。
5.根据权利要求4基于位置和图像的风险挖掘方法,其特征在于,所述新的业务订单所属的位置与图像特征库为一个,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
计算所述新的业务订单中用户图像的背景图像特征与所述位置与图像特征库中各背景图像特征的相似度,得到最相似的前M个背景图像特征;
从所述M个背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
6.根据权利要求4基于位置和图像的风险挖掘方法,其特征在于,所述新的业务订单所属的位置与图像特征库为两个以上,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
针对每个所属的位置与图像特征库,计算所述新的业务订单中用户图像的背景图像特征与位置与图像特征库中背景图像特征的相似度,得到最相似的前M个背景图像特征;
将各所属的位置与图像特征库中的所述最相似的前M个背景图像特征合并;
从合并后的背景图像特征中过滤掉相似度不足预设度量阈值的背景图像特征,得到最终的最相似的N个背景图像特征。
7.根据权利要求4基于位置和图像的风险挖掘方法,其特征在于,所述新的业务订单中用户图像有多个时,所述确定与所述新的业务订单中用户图像的背景图像特征最相似的N个背景图像特征,包括:
将多个用户图像的背景图像特征分别与各位置与图像特征库中的背景图像特征进行匹配,得到每个用户图像的背景图像特征对应的最相似的前N个背景图像特征;
将各用户图像的背景图像特征对应的最相似的N个背景图像特征汇总后进行排序,取前N个背景图像特征作为最相似的N个背景图像特征。
8.一种基于位置和图像的风险挖掘装置,其特征在于,包括:
获取模块,用于获取多个已有业务订单,所述业务订单包括用户图像和位置信息;
提取模块,用于提取所述多个已有业务订单中的位置信息;
聚类模块,用于对所述多个已有业务订单中的位置信息进行聚类,得到多个位置库;
建库模块,用于针对每个位置库对应的已有业务订单,提取用户图像的背景图像特征,得到各位置库对应的背景图像特征集合,构成对应的位置与图像特征库;
在线检索模块,用于获取新的业务订单;根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库;
所述聚类模块还用于针对每个位置库计算中心位置和覆盖半径,所述中心位置为位置库中位置信息的平均值,所述覆盖半径为以所述中心位置为圆心,覆盖位置库中所有位置信息的最小半径;
根据新的业务订单中的位置信息,确定新的业务订单所属的位置与图像特征库包括:
计算所述新的业务订单中位置信息和每个位置与图像特征库的中心位置的距离;
确定所述距离是否在对应位置与图像特征库的覆盖半径内;
若所述距离在对应位置与图像特征库的覆盖半径内,则确定所述新的业务订单属于该位置与图像特征库。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至7中任一项所述的方法。
10.一种计算机设备,其特征在于,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211100450.9A CN116127337B (zh) | 2022-09-08 | 2022-09-08 | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211100450.9A CN116127337B (zh) | 2022-09-08 | 2022-09-08 | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127337A CN116127337A (zh) | 2023-05-16 |
CN116127337B true CN116127337B (zh) | 2023-12-08 |
Family
ID=86293748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211100450.9A Active CN116127337B (zh) | 2022-09-08 | 2022-09-08 | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127337B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409397B (zh) * | 2023-12-15 | 2024-04-09 | 河北远东通信系统工程有限公司 | 一种基于位置概率的实时人像比选方法、装置及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335115A (zh) * | 2019-07-01 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种业务订单处理方法及装置 |
CN111985531A (zh) * | 2020-07-10 | 2020-11-24 | 招联消费金融有限公司 | 异常资源需求集群的确定方法、装置、设备和存储介质 |
CN112070144A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 图像聚类方法、装置、电子设备以及存储介质 |
CN112418167A (zh) * | 2020-12-10 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 图像的聚类方法、装置、设备和存储介质 |
CN113538015A (zh) * | 2021-08-03 | 2021-10-22 | 杭银消费金融股份有限公司 | 一种基于图像场景识别的反欺诈方法与系统和装置 |
CN113850556A (zh) * | 2021-10-18 | 2021-12-28 | 丰图科技(深圳)有限公司 | 运单生成方法、装置、电子设备和可读存储介质 |
-
2022
- 2022-09-08 CN CN202211100450.9A patent/CN116127337B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335115A (zh) * | 2019-07-01 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种业务订单处理方法及装置 |
CN111985531A (zh) * | 2020-07-10 | 2020-11-24 | 招联消费金融有限公司 | 异常资源需求集群的确定方法、装置、设备和存储介质 |
CN112070144A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 图像聚类方法、装置、电子设备以及存储介质 |
CN112418167A (zh) * | 2020-12-10 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 图像的聚类方法、装置、设备和存储介质 |
CN113538015A (zh) * | 2021-08-03 | 2021-10-22 | 杭银消费金融股份有限公司 | 一种基于图像场景识别的反欺诈方法与系统和装置 |
CN113850556A (zh) * | 2021-10-18 | 2021-12-28 | 丰图科技(深圳)有限公司 | 运单生成方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116127337A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446281B (zh) | 确定用户亲密度的方法、装置及存储介质 | |
CN110166991B (zh) | 用于定位电子设备的方法、设备、装置以及存储介质 | |
CN109885643B (zh) | 一种基于语义轨迹的位置预测方法及存储介质 | |
CN107665289B (zh) | 一种运营商数据的处理方法及系统 | |
CN111078818B (zh) | 地址分析方法、装置、电子设备及存储介质 | |
CN111680102A (zh) | 基于人工智能的定位数据处理方法及相关设备 | |
CN110020144B (zh) | 一种推荐模型建立方法及其设备、存储介质、服务器 | |
CN116127337B (zh) | 基于位置和图像的风险挖掘方法、装置、存储介质及设备 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112258254A (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN112214677A (zh) | 一种兴趣点推荐方法、装置、电子设备及存储介质 | |
CN111127062A (zh) | 一种基于空间搜索算法的群体欺诈识别方法及装置 | |
CN106446102B (zh) | 基于地图围栏的终端定位方法和装置 | |
CN115687732A (zh) | 基于ai和流式计算的用户分析方法及系统 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
Li et al. | Geospatial data mining on the web: Discovering locations of emergency service facilities | |
JP5637073B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110619090A (zh) | 一种区域吸引力评估方法及设备 | |
CN113516302B (zh) | 业务风险分析方法、装置、设备及存储介质 | |
Eshun et al. | Two de-anonymization attacks on real-world location data based on a hidden Markov model | |
Xia et al. | Predicting human mobility using sina weibo check-in data | |
CN112416922A (zh) | 一种团伙关联数据挖掘方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |