CN111858937A - 一种虚假地址信息识别的方法及装置 - Google Patents
一种虚假地址信息识别的方法及装置 Download PDFInfo
- Publication number
- CN111858937A CN111858937A CN202010713128.8A CN202010713128A CN111858937A CN 111858937 A CN111858937 A CN 111858937A CN 202010713128 A CN202010713128 A CN 202010713128A CN 111858937 A CN111858937 A CN 111858937A
- Authority
- CN
- China
- Prior art keywords
- address information
- verified
- determining
- account
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013145 classification model Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims description 115
- 238000012795 verification Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012954 risk control Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/126—Applying verification of the received information the source of the received data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/60—Context-dependent security
- H04W12/63—Location-dependent; Proximity-dependent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Remote Sensing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种虚假地址信息识别的方法及装置,首先确定账户的待核实地址信息,之后根据该账户在预设时间段内上报的各地理位置信息,在预先划分的地理范围中,采用训练完成的分类模型,确定该账户的常驻范围,之后根据该待核实地址信息与该常驻范围对应的网格的匹配结果,确定该待核实地址信息是否是虚假的地址信息。可见,在本申请中,确定的该账户的常驻范围,是通过该账户历史上报的地理位置信息以及分类模型确定的,由于该账户上报的地理位置信息不仅是真实的,还是对应于该账户的,所以确定的该常驻范围不仅真实也可确定是该账户的,所以通过对该待核实地址信息与该常驻范围进行匹配,可以使得对虚假地址信息的识别准确率更高。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种虚假地址信息识别的方法及装置。
背景技术
随着信息技术的发展,通过网络执行的业务越来越多,通常可对用户提供的地址信息的真实性进行核实,来保证执行业务时的安全性。如,对的账户的基本信息进行核实,若可判明该账户的地址信息是虚假的,则该账户存在较高风险,在执行业务时需要谨慎对待。
在现有技术中,通常采用通过搜索引擎核实以及物流信息核实的方式,对地址信息进行核实。
具体的,通过搜索引擎进行地址信息的核实,就是将该待核实的地址信息输入现有的搜索引擎中进行搜索,通过该搜索引擎已经收录的地址信息,确定该待核实的地址信息是否真实存在。通过物流信息进行地址信息的核实,则是通过已经收录的物流信息中已有的地址信息,对该待核实的地址信息的真实性进行核实。
但是,通过搜索引擎进行地址信息的核实时,核实结果的准确率以及覆盖率,均基于选择的搜索引擎已经收录的地址信息的数量而决定,即,当选用的搜索引擎收录的地址信息多且覆盖地域广的话,核实结果的准确率和覆盖率可能较高,而通常搜索引擎对于繁华地域的地址信息的收录较为全面准确,但对于偏远地区的地址信息的收录则相对较低,所以基于搜索引擎的地质信息核实的准确率不稳定,整体上不够准确。
对于通过物流信息进行地址信息核实的方法来说,首先通常物流业为了保证使用物流业务的用户的隐私,对于物流信息保护较为严密,导致物流信息难以获得,另一方面,物流信息的准确性与真实性并不是必须要核实的信息,例如,用户名“孙悟空”、地址“某市某区某小区东门”等等,上述物流信息虽然不真实、不准确,但是也无碍物流业务的进行,但是却无法用于对待验证的地址信息进行核实,所以使用物流信息进行待验证的地址信息的核实也难以保证准确率和覆盖率。
进一步地,即使用户提供的地址信息是真实的,但是也难以核实该地址是否是该用户的工作地址或者居住地址,即,该地址信息是真实的,但并非该用户的地址,例如,用户a将用户b的家庭住址c作为自己的家庭住址,假设用户b的家庭住址c是一个真实存在的地址,则在现有技术中,仅能识别该家庭住址c是真实的,而无法确定该家庭住址c是否是该用户a的,对于用户a来说,该家庭住址c实际上是虚假的地址信息,而这类虚假的地址信息在现有技术中尚难以识别,导致基于地址信息进行风险控制的准确率降低。
可见,由于现有技术中对于地址信息的核实的方法存在上述缺点,导致对虚假地址信息识别的准确性低。
发明内容
本申请实施例提供一种虚假地址信息识别的方法,用于解决由于现有技术对地址信息的核实存在准确率低、难以核实地址与账户的对应关系,导致虚假地址信息核实的准确率低的问题。
本申请实施例提供一种虚假地址信息识别的装置,用于解决由于现有技术对地址信息的核实存在准确率低、难以核实地址与账户的对应关系,导致虚假地址信息核实的准确率低的问题。
本申请实施例采用下述技术方案:
一种虚假地址信息识别的方法,包括:
确定账户的待核实地址信息;
根据所述账户在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻范围;
将所述待核实地址信息与所述常驻范围进行匹配;
根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
一种虚假地址信息识别的装置,包括:
第一确定模块,确定账户的待核实地址信息;
第二确定模块,根据所述账户在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻范围;
匹配模块,将所述待核实地址信息与所述常驻范围进行匹配;
识别模块,根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
首先确定账户的待核实地址信息,之后根据该账户在预设时间段内上报的各地理位置信息,在预先划分的地理范围中,采用训练完成的分类模型,确定使用该账户的用户的常驻范围,之后根据该待核实地址信息与该常驻范围对应的网格的匹配结果,确定该待核实地址信息是否是虚假的地址信息。可见,在本申请中,确定的使用该账户的用户的常驻范围,是通过该账户历史上报的地理位置信息以及分类模型确定的,由于该账户上报的地理位置信息不仅是真实的,还是对应于该账户的,所以确定的该常驻范围不仅真实也可确定是该账户的,所以通过对该待核实地址信息与该常驻范围进行匹配,可以使得对虚假地址信息的识别准确率更高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种虚假地址信息识别的过程;
图2为本申请实施例提供的地图网格的示意图;
图3为本申请实施例提供的一种虚假地址信息识别的装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种虚假地址信息识别的过程,具体包括以下步骤:
S101:确定账户的待核实地址信息。
在现有技术中,通常服务提供方存在对地址信息进行核实的需求,所以通常由服务提供方的服务器进行地址信息的核实。当然服务提供方也可以委托第三方进行该地址信息的核实。其中,对地址信息的核实可由服务器根据预设条件进行的(如,以固定频率或者定期进行地址信息的核实等等),或者由第三方发起的(如,第三方服务器提出对该地址信息的核实请求),本申请对如何开始进行地址信息的核实并不做具体限定。
另外,一般情况下是由用户通过账户向服务器提供地址信息,所以地址信息通常与账户是对应的,于是,在本申请实施例中,可由服务器先确定账户的待核实地址信息。
具体的,该待核实地址信息可以是该账户已经设置的账户信息中的家庭住址、工作地址等等用户常驻的地址,则该服务器在确定需要对该账户进行风险控制时,便可调用该账户已经设置的各地址信息,作为该账户的待核实地址信息。
或者,该待核实地址信息也可是该服务器向该账户发送地址询问信息后,该账户返回的地址信息,其中,该地址询问信息可包含文本信息、音频信息、视频信息中的至少一种,例如,该文本信息可以是“请您提供详细的家庭住址”或者“请您提供详细的工作地址”等等,以使得该账户向该服务器返回该待核实地址信息。则,该服务器可先确定需要进行风险控制的账户,再向该账户发送地址询问信息,并接受该账户返回的地址信息,作为该账户的待核实地址信息。
当然,具体该服务器如何确定该账户的待核实地址信息本申请并不做具体限定,可由工作人员根据实际应用时的需要进行设置。另外,该服务器在确定该账户的该待核实地址信息时,具体是确定该账户的家庭住址还是工作地址也可由工作人员根据实际应用时的需要进行设置,或者,该待核实地址信息可以同时包括该账户的家庭住址以及工作地址。
需要说明的是,在本申请实施例中,该服务器可以是单独的一台设备,也可以是由多台设备组成的系统,即,分布式服务器。
S102:根据所述账户在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻范围。
由于现代社会中人们的生活轨迹是较为固定,且具有规律性的,如,工作日白天在办公场所工作或者在学校学习,夜间回到住所休息,而除了工作日之外,人们在节假日的行动轨迹就相对较为随机,除了在住所休息以外,还可能去一些景点、商圈等地点放松休闲。而由于人们这种较为固定的、具有规律性的生活轨迹,使得通过确定用户不同时段的位置信息,可以较为准确的确定该用户的生活区域以及工作区域。
于是,在本申请实施例中,当该服务器确定了该账户的待核实地址信息之后,该服务器还可以进一步确定该账户的常驻范围,作为使用该账户的用户的常驻范围,以便后续对该待核实地址信息进行核实,并进行虚假地址信息识别。
具体的,首先,由于需要确定使用该账户的用户的生活轨迹(以下简称为账户的生活轨迹),以确定使用该账户的用户的常驻范围,所以该服务器可以先确定该账户上报的各地理位置信息,其中,所述上报可以是该账户登录后,根据预设的时间频率(如,30分钟一次),向该服务器发送的该账户当前登录的设备的地理位置信息,或者是该账户在登录时,向该服务器发送的该账户当前登录的设备的地理位置信息,该账户上报地理位置信息的方式,可以根据实际应用的需要进行设置,也可以采用与现有技术中实时获取用户地址本的方法,确定该账户上报的各地理位置信息,具体方法申请不做限定。由于该账户在同一地点停留的时间越长,则该账户在该地点上报的地理位置信息越多,所以可以通过上报的各地理位置信息确定使用该账户的用户的常驻范围,即,该账户的常驻范围。
另外,该账户上报的各地理位置信息,可以是该账户上报的部分地理位置信息,也可是该账户上报的全部地理位置信息,具体可根据实际应用的需要设置。
进一步地,由于人们的工作地点以及居住地点通常是较为固定的,在大多数情况下短时间内不会改变,而另一方面,现代社会人员的流动性相对较高,所以在本申请中,该服务器可以确定该账户在预设时间段内上报的各地理位置信息。该预设时间段可以是当前时刻向前回溯的一段时间,例如,假设当前时刻为2016年11月11号,该预设时间段是回溯4个月,则该服务器可确定2016年7月11号至2016年11月11号之间该账户上报的各地理位置信息,也可以是该由指定开始时间,至指定结束时间内的时间段,例如,1月1日至6月1日之间的时间,为该预设时间段,具体可由工作人员根据实际应用的需要进行设置,本申请不做具体限定。
更进一步地,该预设时间段具体时长可由工作人员根据实际应用时的需要进行设置,例如4个月、9个月等等,而由于通常房屋租赁的时间最少是以半年为期,所以若该预设时间段的时长超过6个月则该账户的生活轨迹出现变化的可能性提高,当然,该预设时间段的时长本申请并不做具体限定,同样可由工作人员根据实际应用的需要进行设置。则通过确定预设时间段内该账户上报的各地理位置信息可以确定该账户较为规律的生活轨迹,既不会因为采集过长的时间段内的各地理位置信息,确定出多条生活轨迹,也不会因为采集过短时间段内的各地理位置信息,而难以确定该账户的生活轨迹。
其次,在本申请中,由于设备的定位精度并不固定,地理位置信息的定位精度在设备受到环境影响时会出现误差,所以该账户上报的各地理位置信息在定位精度上也并不完全一致,所以为了更加准确的确定使用该账户的用户的常驻范围,该服务器还可以根据预设的网格大小,将地图划分为若干网格,并以该地图上的各网格,作为预先划分的地理范围,以各地位范围取代精准定位的地理位置信息,确定使用该账户的用户的常驻范围,避免由于定位精度的误差带来的影响,增加地理位置信息的定位精度的冗余,其中该地图划分的网格可如图2所示。
图2为本申请实施例提供的地图网格的示意图,可见,该服务器中存储的地图已经预先划分成网格状,其中每个网格的为虚线的正方形每个网格可以用经纬度的方式进行表示。并且,该网格的边长可由工作人员根据实际应用的需要进行设置,例如,该正方形网格的边长为500米。需要说明的是,该预先划分的网格的边长越短,则确定的使用该账户的用户的常驻范围越精准,但同时,对于该账户上报的地理位置信息的精度要求就越高,定位精度的误差带来的影响越大。当然,该网格也可是其他形状,如圆形、三角形等等,本申请对此不做具体限定。
之后,该服务器可以根据该预先划分的各网格,确定该账户在预设时间段内上报的各地理位置信息在各网格中的出现的次数以及时间,并且确定该账户在各网格中的特征值,其中,该特征值可如表1所示。
特征值标识 | 特征值描述 |
出现次数占比 | 在该网格内出现次数占总出现次数的比例 |
出现天数占比 | 在该网格内出现天数占总出现天数的比例 |
工作日天数占比 | 在该网格内工作日出现天数占总出现天数的比例 |
节假日天数占比 | 在该网格内节假日出现天数占总出现天数的比例 |
工作日白天占比 | 在该网格内工作日白天出现天数占总出现天数的比例 |
工作日夜间占比 | 在该网格内工作日夜间出现天数占总出现天数的比例 |
节假日白天占比 | 在该网格内节假日白天出现天数占总出现天数的比例 |
节假日夜间占比 | 在该网格内节假日夜间出现天数占总出现天数的比例 |
表1
通过表1可见,通过上述8个特征值可以确定每个网格中,该账户出现的频率高低、该账户出现的时间段等信息,如,针对每个网格,通过该出现次数占比以及出现天数占比可以确定该网格是否是该账户经常出现的网格,显然若该网格不是该账户经常出现的网格则该网格是使用该账户的用户的常驻范围的概率较低、通过该工作日天数占比可以确定该网格是否是使用该账户的用户的常驻范围,显然由于人们工作日的出行轨迹通常较为固定,所以在工作日出现次数较多的网格,更有可能是使用该账户的用户的常驻范围、通过该节假日天数占比可以确定该网格是否不是该账户工作或者居住的地区(例如,用户经常周末去某体育馆健身,则节假日在该体育馆对应的网格中出现的次数较多,但该网格并不是该用户的工作或者居住的地区)、通过该工作日白天占比可以确定该网格是否是该账户的工作区域、工作日夜间占比可以确定该网格是否是该账户的居住区域,等等。也就是说,上述在各网格中确定的特征值可以反应出该账户在该地图划分的网格中的生活轨迹以及生活规律,并且可以排除该账户低频出现的地域(即,该账户不常出现的地理范围)对于确定使用该账户的用户的常驻范围的干扰,以便更准确的确定使用该账户的用户的常驻范围对应的网格,并且还可以确定该账户的生活区域对应的网格以及工作区域对应的网格。
另外,由于通常账户在上报的地理位置信息时,该地理位置信息可携带有上报时的时间,所以在本申请中,该服务器可以通过各地理位置位置信息上报时的时间,确定表1中的部分特征值。其中该上报时的时间(简称,上报时间)可以是该服务器接收到该地理位置信息时,该服务器的系统时间,也可以是该地理位置信息被确定时的时间信息,又或者可以是该地理位置信息由设备发送至该服务器时,该设备的发送时间。其中,若采用该服务器的系统时间,则确定各账户的地理位置信息的上报时间可以较为统一,方便管理,但是存在网络信息延时带来的误差,当然,具体采用何种上报时间,本申请并不做具体限定,可由工作人员根据实际应用时的需要进行设置。
最后,该服务器还可根据已经训练完成的分类模型,确定各网格中,使用该账户的用户经常出现的网格,作为使用该账户的用户的常驻范围。即,该服务器可以将该账户对应的在各网格中的特征值,输入该训练完成的分类模型中,并根据该分类模型输出的对各网格的分类结果,确定各网格中属于使用该账户的用户的常驻范围的网格。
需要说明的是,该服务器可以选择上述一个或者多个特征值,用于确定使用该账户的用户的常驻范围,本申请并不限定该服务器必须使用全部的特征值来确定使用该账户的用户的常驻范围,同时,本申请也不限定仅采用上述表1所示的8种特征值来确定使用该账户的用户的常驻范围,该特征值的确定具体可以由工作人员根据实际应用的需要进行设置。
其中,对该分类模型的训练过程,可以是:
首先,该服务器可将预先确定多个地理位置信息已经核实为真实的账户,即,已知真实地址信息的账户,作为训练样本,之后采集各训练样本上报的各地理位置信息,并针对每个训练样本,确定该训练样本在各网格中的特征值,即,根据该训练样本在各网格中出现的次数以及时间,确定该训练样本在各网格中的特征值。
然后,该服务器可将各训练样本分别对应的各特征值,依次输入该分类模型中,并得到分类结果。其中,该分类模型初始的参数,可以随机生成,或者由工作人员设置,该分类结果为,该分类模型对于每一个训练样本,确定每一个网格是属于常驻范围对应的网格还是属于非常驻范围对应的网格。
再后,该服务器可根据各训练样本已知真实地址信息分别对应的坐标在各网格中的位置,确定该分类模型的分类结果的正确率,并根据该正确率调整该分类模型中的参数。
上述过程可以重复循环进行,直到预设的重复次数为止,或者该分类模型的分类结果的正确率达到预设的阈值为止,该预设的阈值可由工作人员根据需要设置。
进一步地,在本申请中,该分类模型可包括:随机森林、逻辑回归、神经网络等等分类算法,本申请对具体采用何种分类模型并不限定。
S103:将所述待核实地址信息与所述常驻范围进行匹配。
S104:根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
在本申请实施例中,当该服务器通过训练完成的分类模型,在各网格中,确定使用该账户的用户的常驻范围对应的网格之后,该服务器便可将该待核实地址信息与该常驻范围进行匹配,并判断该待核实地址信息是否是虚假地址信息。
具体的,该服务器首先,可以根据该待核实地址信息对应的地球经度以及地球纬度,确定该待核实地址信息的坐标,之后该服务器可在各网格中,确定该待核实地址信息的坐标对应的网格,最后,判断该待核实地址信息对应的网格与使用该账户的用户的常驻范围对应的网格是否相同(即,判断该待核实的地址信息的坐标是否落入该常驻范围对应的网格内),若是,则确定该待核实地址信息不是虚假地址信息,若否,则确定该待核实地址信息是虚假地址信息。
其中,该待核实地址信息对应的网格与使用该账户的用户的常驻范围对应的网格匹配,便意味着该待核实地址信息的坐标位于使用该账户的用户的常驻范围对应的网格中。
通过如图1所示的风险控制的方法,该服务器可确定使用该账户的用户的常驻范围对应的网格,之后再将该账户的待核实地址信息对应的网格与使用该账户的用户的常驻范围对应的网格进行匹配,并根据匹配结果确定该待核实地址信息是否是虚假地址信息。可见,在对该账户的待核实地址进行核实时,该服务器确定的使用该账户的用户的常驻范围是基于该账户历史上报的地理位置信息,在预先划分的地图网格中确定的,所以该常驻范围对应的网格的可信度较高,并且可以确定该常驻范围对应的网格是该账户的,则基于该常驻范围对应的网格对该待核实地址信息进行匹配时,该匹配结果的准确度较高,以此得到较为准确的虚假地址信息的识别结果,使得对虚假地址信息识别的准确率提高。
另外,由于不同设备的定位精度可能不完全一致,并且在不同的外部条件下,同一设备的定位精度也可能出现差异,而若该账户上报的地理位置信息中存在定位精度较低的地理位置信息时,则有可能导致后续确定的使用该账户的用户的常驻范围对应的网格不准确,进而影响后续对虚假地址信息识别的准确率。
所以在本申请实施例中,该服务器在确定该账户在预设时间段内上报的各地理位置信息时,还可以根据预设的定位精度阈值,从各地理位置信息中,选择定位精度不小于该定位精度阈值的地理位置信息,作为该账户的待核实地址信息输入该训练完成的分类模型中,确定使用该账户的用户的常驻范围对应的网格。
同理,对于各训练样本来说,该服务器也可以针对每个训练样本,从预设时间段内上报的各地理位置信息中,确定定位精度不小于该定位精度阈值的地理位置信息,训练该分类模型。
进一步地,在本申请中,由于不同的分类模型对于不同类型的数据的效果不一致,而训练样本的地理位置信息的分布规律通常也是随机的,例如,工作地点与居住地点很近的训练样本,以及工作地点与居住地点很远的训练样本等等,可能导致对于同样的训练样本,不同的分类模型得到的分类结果的准确性不完全一致,于是在本申请实施例中,该服务器在训练该分类模型时,可以采用常用的方法从多种分类模型中选择效果较好的分类模型,作为确定该常驻范围对应的网格的分类模型,具体的,该服务器可采用多种分类模型分别对该训练样本进行训练,并分别计算每个分类模型对应的受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC曲线)下的面积(Area Under Curve,AUC),并可将AUC最大的分类模型作为训练完成的分类模型,当然,具体选用哪一个分类模型也可以由工作人员根据实际应用的需要进行选择,例如,考虑时间成本,选择分类速度较快的分类模型,作为训练完成的分类模型等等,本申请并不做具体限定。
更进一步地,如上所述不同的类型的数据训练出的分类模型可能存在差异,所以为了提高分类模型的适用性,在本申请实施例中,该服务器可以选择预设比例的训练样本,用于对各分类模型进行测试,则该服务器在训练各该分类模型时采用的样本与计算的AUC时采用的样本可不完全相同,以达到更好的分类模型的选择结果,其中,该预设的比例可由工作人员设置,本申请并不限定。
另外,由于训练样本的生活轨迹也不是完全固定不变的,所以在采用各训练样本训练该分类模型时,针对每个训练样本,该服务器也可确定该训练样本的一段时间内上报的各地理位置信息,其中该一段时间也可以与该预设时间段一致,也可以不一致,具体该一段时间的起始点与结束点可由工作人员根据实际应用时的需要进行确定,例如,从确定该训练样本的地址信息为真实时开始,回溯4个月内的该训练样本上报的各地理位置信息等等,本申请并不做具体限定。
进一步地,由于表1中所示的各特征值所能体现的该账户的生活轨迹以及生活规律,并且,通过各地理位置信息的上报时间,通过该特征值该分类模型确定的分类结果中,还可以区分使用该账户的用户的常驻范围还可包括,使用该账户的用户的常驻居住范围以及使用该账户的用户的常驻工作范围。
则在步骤S101中该服务器确定的该账户的待核实地址信息还可包括:待核实居住地址信息以及待核实工作地址信息。于是,该训练完成的分类模型,通过该账户上报的各地理位置信息,可以确定该账户对应常驻居住范围以及常驻工作范围。
更进一步地,该分类模型在确定各训练样本时,可以确定已知真实居住地址信息以及已知真实工作地址信息的若干账户,作为训练样本,并针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在每个网格中的次数以及时间,再根据该训练样本在每个网格中出现的次数和时间,确定该训练样本在各网格中对应的特征值,最后根据各训练样本在各网格中对应的特征值、各训练样本已知真实居住地址信息以及各训练样本已知真实工作地址信息,训练所述分类模型,则所述分类模型在确定常驻范围时,可以仅以将常驻范围确定为常驻居住范围以及常驻工作范围。
另外,在步骤S103中,当该待核实地址信息为待核实居住地址信息时,根据该待核实居住地址信息对应的经度以及纬度,确定该待核实居住地址信息的坐标;判断该待核实居住地址信息的坐标是否落入该常驻居住范围内;若是,则确定该待核实地址信息不是虚假地址信息;若否,则确定该待核实地址信息是虚假地址信息,当该待核实地址信息为待核实工作地址信息时,根据该待核实工作地址信息对应的经度以及纬度,确定该待核实工作地址信息的坐标;判断该待核实工作地址信息的坐标是否落入该常驻工作范围内;若是,则确定该待核实地址信息不是虚假地址信息;若否,则确定该待核实地址信息是虚假地址信息。
通常金融机构在对申请贷款或者信用卡的账户的风险进行判断时,需要账户提供如,身份信息、联系信息、资产信息等信息,并对各信息进行核实,来确定对该账户的潜在风险,以进行后续的操作。其中,联系信息可包括:电话号码、地址信息等等。
于是,本申请另一实施例中,该地址信息的核实,可以是该账户在向金融机构申请信用卡或者信贷服务时,该金融机构对该账户的地址信息进行核实,则该服务器可以是该金融机构的用于对地址信息核实的服务器,或者该金融机构可以是向该服务器发起地址信息核实请求的第三方,其中,通常金融机构对于地址信息的核实出于两个方面,一方面是对该地址信息的真实性进行核实,另一方面,是对该地址信息是否是该账户的进行核实。
进一步地,在通过步骤S101~S104之后,该服务器可以确定该账户的该待核实地址信息是否是虚假的地址信息,并且,该服务器不仅可以确定该待核实地址信息的真实性,同时也可以确定该待核实地址信息与该账户是否对应,即,该待核实地址信息是否与使用该账户的用户的常驻范围匹配。
更进一步地,该待核实地址信息可以是该账户的待核实居住地址信息和/或该账户的待核实工作地址信息,则通过对该待核实地址信息是否是虚假地址信息的识别,可以确定该账户的风险,如,若该账户提供的是虚假地址信息,则该账户骗取贷款的可能性较高,反之亦然。例如,假设用户d通过账户e,向银行f申请信用卡业务,并且根据银行的要求,提供了居住地址g以及工作地址h,进一步假设该银行f的服务器i确定该账户e的待核实地址信息分别为,待核实居住地址,即居住地址g,以及待核实工作地址,即居住地址h,则该服务器i可先根据该账户e在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,分别确定该账户e的常驻居住范围以及该账户e的常驻工作范围,再分别将该待核实居住地址信息与该常驻居住范围,以及该待核实工作地址信息与该常驻工作范围进行匹配,最后根据该待核实居住地址信息与该常驻居住范围的匹配结果以及该待核实工作地址信息与该常驻工作范围的匹配结果,确定该待核实居住地址信息以及该待核实工作地址是否是虚假地址信息,并且,该服务器i可以仅当该待核实居住地址信息以及该待核实工作地址有一个是虚假地址信息时,确定该账户e的风险较高,不向该账户e提供信用卡业务,或者降低向该账户e提供的信用额度。当然,具体确定该账户提供的是虚假地址信息后,后续采取何种操作本申请并不做具体限定。
需要说明的是,本申请实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S101和步骤S102的执行主体可以为设备1,步骤S103的执行主体可以为设备2;又比如,步骤S101的执行主体可以为设备1,步骤S102和步骤S103的执行主体可以为设备2;等等,即,该服务器可以是由多台设备组成的分布式服务器。同时,本申请实施例所提供的方法的各步骤的执行主体也不限定为服务器,也可以是终端,该终端可以是手机、个人电脑、平板电脑等设备。
基于图1所示的虚假地址信息识别过程,本申请实施例还对应提供一种虚假地址信息识别的装置,如图3所示。
图3为本申请实施例提供的一种虚假地址信息识别的装置的结构示意图,包括:
第一确定模块201,确定账户的待核实地址信息;
第二确定模块202,根据所述账户在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻范围;
匹配模块203,将所述待核实地址信息与所述常驻范围进行匹配;
识别模块204,根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
所述地理位置信息包括:经度、纬度。
所述地理位置信息还包括:定位精度,所述第二确定模块202,根据预设的定位精度阈值,从所述账户在预设时间段内上报的各地理位置信息中,确定定位精度不小于所述预设的定位精度阈值的地理位置信息,根据定位精度不小于所述预设的定位精度阈值的地理位置信息,以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻范围。
所述第二确地模块,根据预设的网格大小,将地图划分为若干网格,将所述地图上的各网格,作为预先划分的地理范围。
所述第二确定模块202,采用下述方法训练所述分类模型:确定若干已知真实地址信息的账户,作为训练样本,针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在各网格中的次数以及时间,根据该训练样本在各网格中出现的次数和时间,确定该训练样本在各网格中对应的特征值,根据各训练样本在各网格中对应的特征值,以及各训练样本已知真实地址信息,训练所述分类模型。
所述第二确定模块202,根据所述账户在预设时间段内上报的各地理位置信息,确定所述账户在各网格中对应的特征值,将所述账户在各网格中对应的特征值输入所述训练完成的分类模型中,确定所述账户的常驻范围。
所述识别模块204,根据所述待核实地址信息对应的经度以及纬度,确定所述待核实地址信息的坐标,判断所述待核实地址信息的坐标是否落入所述常驻范围内,若是,则确定所述待核实地址信息不是虚假地址信息,若否,则确定所述待核实地址信息是虚假地址信息。
所述待核实地址信息包括:待核实居住地址信息以及待核实工作地址信息,所述第二确定模块202,根据所述账户在预设时间段内上报的各地理位置信息以及训练完成的分类模型,在预先划分的地理范围中,确定所述账户常驻居住范围以及常驻工作范围。
所述第二确定模块202,训练所述分类模型,确定已知真实居住地址信息以及已知真实工作地址信息的若干账户,作为训练样本,针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在每个网格中的次数以及时间,根据该训练样本在每个网格中出现的次数和时间,确定该训练样本在各网格中对应的特征值,根据各训练样本在各网格中对应的特征值、各训练样本已知真实居住地址信息以及各训练样本已知真实工作地址信息,训练所述分类模型,以使得所述分类模型用于确定常驻居住范围以及常驻工作范围。
该训练样本在任一网格中对应的特征值包括:该训练样本在该网格内出现次数占总出现次数的比例、该训练样本在该网格内出现天数占总出现天数的比例、该训练样本在该网格内工作日出现天数占总出现天数的比例、该训练样本在该网格内节假日出现天数占总出现天数的比例、该训练样本在该网格内工作日白天出现天数占总出现天数的比例、该训练样本在该网格内工作日夜间出现天数占总出现天数的比例、该训练样本在该网格内节假日白天出现天数占总出现天数的比例、该训练样本在该网格内节假日夜间出现天数占总出现天数的比例中的至少一种。
所述识别模块204,当所述待核实地址信息为待核实居住地址信息时,根据所述待核实居住地址信息对应的经度以及纬度,确定所述待核实居住地址信息的坐标;判断所述待核实居住地址信息的坐标是否落入所述常驻居住范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息,当所述待核实地址信息为待核实工作地址信息时,根据所述待核实工作地址信息对应的经度以及纬度,确定所述待核实工作地址信息的坐标;判断所述待核实工作地址信息的坐标是否落入所述常驻工作范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息。
具体的,上述如图3所示的虚假地址信息识别的装置可以位于服务器中,该服务器具体可以是一台设备,也可以是由多台设备组成的系统,即,分布式服务器。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (24)
1.一种虚假地址信息识别的方法,所述方法包括:
确定账户的待核实地址信息;
根据所述账户的各地理位置信息以及训练完成的分类模型,确定所述账户的常驻范围;
将所述待核实地址信息与所述常驻范围进行匹配;
根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
2.如权利要求1所述的方法,所述地理位置信息包括:经度、纬度。
3.如权利要求2所述的方法,所述地理位置信息还包括:定位精度;
根据所述账户的各地理位置信息以及训练完成的分类模型,确定所述账户的常驻范围,具体包括:
根据预设的定位精度阈值,从所述账户在预设时间段内上报的各地理位置信息中,确定定位精度不小于所述预设的定位精度阈值的地理位置信息;
根据定位精度不小于所述预设的定位精度阈值的地理位置信息,以及训练完成的分类模型,确定所述账户的常驻范围。
4.如权利要求1所述的方法,还包括:
根据预设的网格大小,将地图划分为若干网格;
将所述地图上的各网格,作为预先划分的地理范围。
5.如权利要求4所述的方法,所述确定所述账户的常驻范围,具体包括:
在所述预先划分的地理范围中,确定所述账户的常驻范围。
6.如权利要求5所述的方法,采用下述方法训练所述分类模型:
确定若干已知真实地址信息的账户,作为训练样本;
针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在各网格中的次数;
根据该训练样本在各网格中出现的次数,确定该训练样本在各网格中对应的特征值;
根据各训练样本在各网格中对应的特征值,以及各训练样本已知真实地址信息,训练所述分类模型。
7.如权利要求5所述的方法,确定所述账户的常驻范围,具体包括:
根据所述账户在预设时间段内上报的各地理位置信息,确定所述账户在各网格中对应的特征值;
将所述账户在各网格中对应的特征值输入所述训练完成的分类模型中,确定所述账户的常驻范围。
8.如权利要求1所述的方法,根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息,具体包括:
根据所述待核实地址信息对应的经度以及纬度,确定所述待核实地址信息的坐标;
判断所述待核实地址信息的坐标是否落入所述常驻范围内;
若是,则确定所述待核实地址信息不是虚假地址信息;
若否,则确定所述待核实地址信息是虚假地址信息。
9.如权利要求1所述的方法,所述待核实地址信息包括:待核实居住地址信息以及待核实工作地址信息;
确定所述账户常驻范围,具体包括:
确定所述账户的常驻居住范围以及常驻工作范围。
10.如权利要求9所述的方法,训练所述分类模型,具体包括:
确定已知真实居住地址信息以及已知真实工作地址信息的若干账户,作为训练样本;
针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在每个网格中的次数以及时间;
根据该训练样本在每个网格中出现的次数和时间,确定该训练样本在各网格中对应的特征值;
根据各训练样本在各网格中对应的特征值、各训练样本已知真实居住地址信息以及各训练样本已知真实工作地址信息,训练所述分类模型,所述分类模型用于确定常驻居住范围以及常驻工作范围。
11.如权利要求10所述的方法,该训练样本在任一网格中对应的特征值包括:该训练样本在该网格内出现次数占总出现次数的比例、该训练样本在该网格内出现天数占总出现天数的比例、该训练样本在该网格内工作日出现天数占总出现天数的比例、该训练样本在该网格内节假日出现天数占总出现天数的比例、该训练样本在该网格内工作日白天出现天数占总出现天数的比例、该训练样本在该网格内工作日夜间出现天数占总出现天数的比例、该训练样本在该网格内节假日白天出现天数占总出现天数的比例、该训练样本在该网格内节假日夜间出现天数占总出现天数的比例中的至少一种。
12.如权利要求9所述的方法,根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息,具体包括:
当所述待核实地址信息为待核实居住地址信息时,根据所述待核实居住地址信息对应的经度以及纬度,确定所述待核实居住地址信息的坐标;判断所述待核实居住地址信息的坐标是否落入所述常驻居住范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息;
当所述待核实地址信息为待核实工作地址信息时,根据所述待核实工作地址信息对应的经度以及纬度,确定所述待核实工作地址信息的坐标;判断所述待核实工作地址信息的坐标是否落入所述常驻工作范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息。
13.一种虚假地址信息识别的装置,包括:
第一确定模块,确定账户的待核实地址信息;
第二确定模块,根据所述账户的各地理位置信息以及训练完成的分类模型,确定所述账户的常驻范围;
匹配模块,将所述待核实地址信息与所述常驻范围进行匹配;
识别模块,根据所述待核实地址信息与所述常驻范围的匹配结果,确定所述待核实地址信息是否是虚假地址信息。
14.如权利要求13所述的装置,所述地理位置信息包括:经度、纬度。
15.如权利要求14所述的装置,所述地理位置信息还包括:定位精度,
所述第二确定模块,根据预设的定位精度阈值,从所述账户在预设时间段内上报的各地理位置信息中,确定定位精度不小于所述预设的定位精度阈值的地理位置信息;
根据定位精度不小于所述预设的定位精度阈值的地理位置信息,以及训练完成的分类模型,确定所述账户的常驻范围。
16.如权利要求13所述的装置,所述第二确定模块,根据预设的网格大小,将地图划分为若干网格,将所述地图上的各网格,作为预先划分的地理范围。
17.如权利要求16所述的装置,所述第二确定模块,具体用于:
在所述预先划分的地理范围中,确定所述账户的常驻范围。
18.如权利要求17所述的装置,所述分类模型是采用下述方法训练的:
确定若干已知真实地址信息的账户,作为训练样本;
针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在各网格中的次数;
根据该训练样本在各网格中出现的次数,确定该训练样本在各网格中对应的特征值;
根据各训练样本在各网格中对应的特征值,以及各训练样本已知真实地址信息,训练所述分类模型。
19.如权利要求13所述的装置,所述第二确定模块,根据所述账户在预设时间段内上报的各地理位置信息,确定所述账户在各网格中对应的特征值,将所述账户在各网格中对应的特征值输入所述训练完成的分类模型中,确定所述账户的常驻范围。
20.如权利要求13所述的装置,所述识别模块,根据所述待核实地址信息对应的经度以及纬度,确定所述待核实地址信息的坐标,判断所述待核实地址信息的坐标是否落入所述常驻范围内,若是,则确定所述待核实地址信息不是虚假地址信息,若否,则确定所述待核实地址信息是虚假地址信息。
21.如权利要求13所述的装置,所述待核实地址信息包括:待核实居住地址信息以及待核实工作地址信息,所述第二确定模块,确定所述账户常驻居住范围以及常驻工作范围。
22.如权利要求21所述的装置,所述第二确定模块,训练所述分类模型,确定已知真实居住地址信息以及已知真实工作地址信息的若干账户,作为训练样本,针对每个训练样本,根据该训练样本上报的若干地理位置信息,确定该训练样本出现在每个网格中的次数以及时间,根据该训练样本在每个网格中出现的次数和时间,确定该训练样本在各网格中对应的特征值,根据各训练样本在各网格中对应的特征值、各训练样本已知真实居住地址信息以及各训练样本已知真实工作地址信息,训练所述分类模型,所述分类模型用于确定常驻居住范围以及常驻工作范围。
23.如权利要求22所述的装置,该训练样本在任一网格中对应的特征值包括:该训练样本在该网格内出现次数占总出现次数的比例、该训练样本在该网格内出现天数占总出现天数的比例、该训练样本在该网格内工作日出现天数占总出现天数的比例、该训练样本在该网格内节假日出现天数占总出现天数的比例、该训练样本在该网格内工作日白天出现天数占总出现天数的比例、该训练样本在该网格内工作日夜间出现天数占总出现天数的比例、该训练样本在该网格内节假日白天出现天数占总出现天数的比例、该训练样本在该网格内节假日夜间出现天数占总出现天数的比例中的至少一种。
24.如权利要求21所述的装置,所述识别模块,当所述待核实地址信息为待核实居住地址信息时,根据所述待核实居住地址信息对应的经度以及纬度,确定所述待核实居住地址信息的坐标;判断所述待核实居住地址信息的坐标是否落入所述常驻居住范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息,当所述待核实地址信息为待核实工作地址信息时,根据所述待核实工作地址信息对应的经度以及纬度,确定所述待核实工作地址信息的坐标;判断所述待核实工作地址信息的坐标是否落入所述常驻工作范围内;若是,则确定所述待核实地址信息不是虚假地址信息;若否,则确定所述待核实地址信息是虚假地址信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010713128.8A CN111858937B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611153869.5A CN107066478B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
CN202010713128.8A CN111858937B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611153869.5A Division CN107066478B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858937A true CN111858937A (zh) | 2020-10-30 |
CN111858937B CN111858937B (zh) | 2024-04-30 |
Family
ID=59619172
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010713128.8A Active CN111858937B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
CN201611153869.5A Active CN107066478B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611153869.5A Active CN107066478B (zh) | 2016-12-14 | 2016-12-14 | 一种虚假地址信息识别的方法及装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10733217B2 (zh) |
EP (1) | EP3557447A4 (zh) |
JP (1) | JP6756921B2 (zh) |
KR (1) | KR102208892B1 (zh) |
CN (2) | CN111858937B (zh) |
TW (1) | TWI699652B (zh) |
WO (1) | WO2018107993A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022014A (zh) * | 2022-05-30 | 2022-09-06 | 平安银行股份有限公司 | 登录风险识别方法、装置、设备及存储介质 |
CN115333954A (zh) * | 2022-08-10 | 2022-11-11 | 明淑英 | 虚假地址云端分析平台 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858937B (zh) * | 2016-12-14 | 2024-04-30 | 创新先进技术有限公司 | 一种虚假地址信息识别的方法及装置 |
CN110069626B (zh) * | 2017-11-09 | 2023-08-04 | 菜鸟智能物流控股有限公司 | 一种目标地址的识别方法、分类模型的训练方法以及设备 |
CN110392122B (zh) * | 2018-04-16 | 2021-12-07 | 腾讯大地通途(北京)科技有限公司 | 地址类型的确定方法和装置、存储介质、电子装置 |
US10721242B1 (en) * | 2018-04-27 | 2020-07-21 | Facebook, Inc. | Verifying a correlation between a name and a contact point in a messaging system |
US10462080B1 (en) | 2018-04-27 | 2019-10-29 | Whatsapp Inc. | Verifying users of an electronic messaging system |
CN108416672A (zh) * | 2018-05-11 | 2018-08-17 | 试金石信用服务有限公司 | 金融风险评估方法、系统、服务器及存储介质 |
CN109359186B (zh) * | 2018-10-25 | 2020-12-08 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN109636568A (zh) * | 2018-10-25 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 电话号码的风险检测方法、装置、设备及存储介质 |
CN109919357B (zh) * | 2019-01-30 | 2021-01-22 | 创新先进技术有限公司 | 一种数据确定方法、装置、设备及介质 |
CN111667127B (zh) * | 2019-03-05 | 2023-04-18 | 杭州海康威视系统技术有限公司 | 一种智能监管方法、装置及电子设备 |
CN109978075B (zh) * | 2019-04-04 | 2021-09-28 | 江苏满运软件科技有限公司 | 车辆虚假位置信息识别方法、装置、电子设备、存储介质 |
CN110599200B (zh) * | 2019-09-10 | 2022-11-01 | 携程计算机技术(上海)有限公司 | Ota酒店的虚假地址的检测方法、系统、介质及设备 |
CN110807068B (zh) * | 2019-10-08 | 2022-09-23 | 北京百度网讯科技有限公司 | 换设备用户的识别方法、装置、计算机设备和存储介质 |
CN110708333B (zh) * | 2019-10-22 | 2022-04-01 | 深圳市卡牛科技有限公司 | 一种位置验证方法以及相关设备 |
CN110807685B (zh) * | 2019-10-22 | 2021-09-07 | 上海钧正网络科技有限公司 | 信息处理方法、装置、终端及可读存储介质 |
CN113034157B (zh) * | 2019-12-24 | 2023-12-26 | 中国移动通信集团浙江有限公司 | 集团成员识别方法、装置及计算设备 |
CN111310462A (zh) * | 2020-02-07 | 2020-06-19 | 北京三快在线科技有限公司 | 用户属性的确定方法、装置、设备及存储介质 |
CN111400442B (zh) * | 2020-02-28 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 常驻地址分析方法、装置、设备及可读存储介质 |
US11803748B2 (en) * | 2020-05-29 | 2023-10-31 | Sap Se | Global address parser |
US11436240B1 (en) * | 2020-07-03 | 2022-09-06 | Kathleen Warnaar | Systems and methods for mapping real estate to real estate seeker preferences |
CN113076752A (zh) * | 2021-03-26 | 2021-07-06 | 中国联合网络通信集团有限公司 | 识别地址的方法和装置 |
CN113609290A (zh) * | 2021-07-28 | 2021-11-05 | 北京沃东天骏信息技术有限公司 | 一种地址识别方法及装置、存储介质 |
CN113722617A (zh) * | 2021-09-30 | 2021-11-30 | 京东城市(北京)数字科技有限公司 | 企业实际办公地址的识别方法、装置及电子设备 |
CN114066606B (zh) * | 2021-11-17 | 2024-07-19 | 四川新网银行股份有限公司 | 一种基于文本转义为gps距离的资料虚假识别系统及方法 |
CN115374713B (zh) * | 2022-10-25 | 2022-12-27 | 成都新希望金融信息有限公司 | 一种gps真伪识别模型的训练方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122624A (en) * | 1998-05-28 | 2000-09-19 | Automated Transaction Corp. | System and method for enhanced fraud detection in automated electronic purchases |
US20040139049A1 (en) * | 1996-08-22 | 2004-07-15 | Wgrs Licensing Company, Llc | Unified geographic database and method of creating, maintaining and using the same |
CN103825942A (zh) * | 2014-02-24 | 2014-05-28 | 可牛网络技术(北京)有限公司 | 自动查询应用程序app行为报告的方法、装置及服务器 |
CN104361023A (zh) * | 2014-10-22 | 2015-02-18 | 浙江中烟工业有限责任公司 | 一种情境感知的移动终端烟草信息推送方法 |
CN104463668A (zh) * | 2014-10-24 | 2015-03-25 | 南京邦科威信息科技有限公司 | 一种在线信用审核方法及装置 |
US20150095352A1 (en) * | 2013-10-01 | 2015-04-02 | Stuart H. Lacey | Systems and Methods for Sharing Verified Identity Documents |
CN104598573A (zh) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | 一种用户的生活圈提取方法及系统 |
CN104765873A (zh) * | 2015-04-24 | 2015-07-08 | 百度在线网络技术(北京)有限公司 | 用户相似度确定方法和装置 |
CN105260795A (zh) * | 2015-10-13 | 2016-01-20 | 广西师范学院 | 一种基于条件随机场的重点人员位置时空预测方法 |
CN105447129A (zh) * | 2015-11-18 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 个性化内容获取方法、用户属性挖掘方法、系统和装置 |
KR20160042648A (ko) * | 2014-10-10 | 2016-04-20 | 나이스평가정보 주식회사 | 고객정보 진위여부검증 지원시스템 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
WO2016119704A1 (zh) * | 2015-01-27 | 2016-08-04 | 北京嘀嘀无限科技发展有限公司 | 一种为按需服务提供信息的方法及系统 |
CN106027544A (zh) * | 2016-06-24 | 2016-10-12 | 深圳前海征信中心股份有限公司 | 地址信息的校验方法、云服务器及手持终端 |
CN107066478B (zh) * | 2016-12-14 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种虚假地址信息识别的方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6728767B1 (en) * | 2000-08-18 | 2004-04-27 | Cisco Technology, Inc. | Remote identification of client and DNS proxy IP addresses |
GB2402841B (en) * | 2003-06-10 | 2005-05-11 | Whereonearth Ltd | A method of providing location based information to a mobile terminal within a communications network |
US7454192B1 (en) * | 2005-02-04 | 2008-11-18 | Sprint Communications Company, L.P. | Postal address validation using mobile telephone location information |
US20080102819A1 (en) * | 2006-10-30 | 2008-05-01 | Henrik Bengtsson | System and method for verifying contact data |
US8220034B2 (en) | 2007-12-17 | 2012-07-10 | International Business Machines Corporation | User authentication based on authentication credentials and location information |
US8863258B2 (en) | 2011-08-24 | 2014-10-14 | International Business Machines Corporation | Security for future log-on location |
US20150310434A1 (en) | 2014-04-29 | 2015-10-29 | Dennis Takchi Cheung | Systems and methods for implementing authentication based on location history |
US20160132930A1 (en) * | 2014-11-10 | 2016-05-12 | Brian Handly | Mobile Device Proximity Determination |
US20170017921A1 (en) * | 2015-07-16 | 2017-01-19 | Bandwidth.Com, Inc. | Location information validation techniques |
-
2016
- 2016-12-14 CN CN202010713128.8A patent/CN111858937B/zh active Active
- 2016-12-14 CN CN201611153869.5A patent/CN107066478B/zh active Active
-
2017
- 2017-09-21 TW TW106132406A patent/TWI699652B/zh active
- 2017-12-04 WO PCT/CN2017/114441 patent/WO2018107993A1/zh unknown
- 2017-12-04 KR KR1020197020451A patent/KR102208892B1/ko active IP Right Grant
- 2017-12-04 JP JP2019531993A patent/JP6756921B2/ja active Active
- 2017-12-04 EP EP17880372.2A patent/EP3557447A4/en not_active Withdrawn
-
2019
- 2019-06-13 US US16/440,895 patent/US10733217B2/en active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040139049A1 (en) * | 1996-08-22 | 2004-07-15 | Wgrs Licensing Company, Llc | Unified geographic database and method of creating, maintaining and using the same |
US6122624A (en) * | 1998-05-28 | 2000-09-19 | Automated Transaction Corp. | System and method for enhanced fraud detection in automated electronic purchases |
US20150095352A1 (en) * | 2013-10-01 | 2015-04-02 | Stuart H. Lacey | Systems and Methods for Sharing Verified Identity Documents |
CN103825942A (zh) * | 2014-02-24 | 2014-05-28 | 可牛网络技术(北京)有限公司 | 自动查询应用程序app行为报告的方法、装置及服务器 |
KR20160042648A (ko) * | 2014-10-10 | 2016-04-20 | 나이스평가정보 주식회사 | 고객정보 진위여부검증 지원시스템 |
CN104361023A (zh) * | 2014-10-22 | 2015-02-18 | 浙江中烟工业有限责任公司 | 一种情境感知的移动终端烟草信息推送方法 |
CN104463668A (zh) * | 2014-10-24 | 2015-03-25 | 南京邦科威信息科技有限公司 | 一种在线信用审核方法及装置 |
CN104598573A (zh) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | 一种用户的生活圈提取方法及系统 |
WO2016119704A1 (zh) * | 2015-01-27 | 2016-08-04 | 北京嘀嘀无限科技发展有限公司 | 一种为按需服务提供信息的方法及系统 |
CN104765873A (zh) * | 2015-04-24 | 2015-07-08 | 百度在线网络技术(北京)有限公司 | 用户相似度确定方法和装置 |
CN105260795A (zh) * | 2015-10-13 | 2016-01-20 | 广西师范学院 | 一种基于条件随机场的重点人员位置时空预测方法 |
CN105447129A (zh) * | 2015-11-18 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 个性化内容获取方法、用户属性挖掘方法、系统和装置 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
CN106027544A (zh) * | 2016-06-24 | 2016-10-12 | 深圳前海征信中心股份有限公司 | 地址信息的校验方法、云服务器及手持终端 |
CN107066478B (zh) * | 2016-12-14 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种虚假地址信息识别的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022014A (zh) * | 2022-05-30 | 2022-09-06 | 平安银行股份有限公司 | 登录风险识别方法、装置、设备及存储介质 |
CN115333954A (zh) * | 2022-08-10 | 2022-11-11 | 明淑英 | 虚假地址云端分析平台 |
CN115333954B (zh) * | 2022-08-10 | 2024-03-15 | 河南龙翼信息技术有限公司 | 虚假地址云端分析系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2018107993A1 (zh) | 2018-06-21 |
EP3557447A1 (en) | 2019-10-23 |
CN107066478A (zh) | 2017-08-18 |
US10733217B2 (en) | 2020-08-04 |
TW201822032A (zh) | 2018-06-16 |
EP3557447A4 (en) | 2019-11-20 |
CN111858937B (zh) | 2024-04-30 |
TWI699652B (zh) | 2020-07-21 |
KR102208892B1 (ko) | 2021-01-29 |
KR20190094230A (ko) | 2019-08-12 |
CN107066478B (zh) | 2020-06-09 |
JP6756921B2 (ja) | 2020-09-16 |
US20190294620A1 (en) | 2019-09-26 |
JP2020502673A (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066478B (zh) | 一种虚假地址信息识别的方法及装置 | |
US10991248B2 (en) | Parking identification and availability prediction | |
CN108446281B (zh) | 确定用户亲密度的方法、装置及存储介质 | |
CN109146638B (zh) | 异常金融交易群体的识别方法及装置 | |
CN109636091B (zh) | 一种需求文档风险识别方法及装置 | |
US8825624B2 (en) | Life arcs as an entity resolution feature | |
CN110032698A (zh) | 信息显示方法和装置、信息处理方法和装置 | |
CN110650531B (zh) | 一种基站坐标标定方法、系统、存储介质及设备 | |
CN113344567B (zh) | 一种聚合码的支付页面的访问方法、装置、设备及介质 | |
CN111967853A (zh) | 一种报送监管数据的方法、装置、设备和可读介质 | |
CN109146395B (zh) | 一种数据处理的方法、装置及设备 | |
CN110163470B (zh) | 事件评估方法及装置 | |
CN115936762A (zh) | 景区人流量的预测方法、装置、设备及存储介质 | |
CN111967769A (zh) | 一种风险识别方法、装置、设备及介质 | |
CN113220801B (zh) | 一种结构化数据分类方法、装置、设备及介质 | |
CN111127065A (zh) | 用户职住地的获取方法和装置 | |
CN111160861B (zh) | 一种业务权限的续签方法、装置以及设备 | |
CN115907986B (zh) | 资产核对方法和装置、介质和计算机设备 | |
US11860753B1 (en) | Monitoring a distributed ledger network using hierarchical validation workflows | |
US11748656B1 (en) | Decision tree learning with missing data | |
CN113034157B (zh) | 集团成员识别方法、装置及计算设备 | |
CN116645157A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN111143746B (zh) | 一种灰度任务的发布方法、装置及设备 | |
CN118797519A (zh) | 异常用户处理方法、装置、存储介质及程序产品 | |
CN114817283A (zh) | 一种信息变更的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |