CN112632409A - 同一用户识别方法、装置、计算机设备和存储介质 - Google Patents

同一用户识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112632409A
CN112632409A CN202011529926.1A CN202011529926A CN112632409A CN 112632409 A CN112632409 A CN 112632409A CN 202011529926 A CN202011529926 A CN 202011529926A CN 112632409 A CN112632409 A CN 112632409A
Authority
CN
China
Prior art keywords
user
information
address
database
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011529926.1A
Other languages
English (en)
Inventor
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011529926.1A priority Critical patent/CN112632409A/zh
Publication of CN112632409A publication Critical patent/CN112632409A/zh
Priority to PCT/CN2021/126044 priority patent/WO2022134829A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种同一用户识别方法、装置、计算机设备和存储介质,该方法包括:接收用户的申购信息,申购信息包括用户信息和申购产品信息;将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分;将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入申购用户数据库中。上述方法根据申购股票的用户的用户信息确定可能是同一申购用户的多个用户,以避免同一用户重复申购,保证股票申购的公平性。

Description

同一用户识别方法、装置、计算机设备和存储介质
技术领域
本发明涉及消息队列技术领域,特别是涉及同一用户识别方法、装置、计算机设备和存储介质。
背景技术
目前,在金融市场上,对用户申购股票的数量和次数都是有一定的限制条件的。例如,对于首次公开募股(IPO)的股票而言,通常股票的首次申购价格低于股票正式上市以后的申购价格,因此,为了股票申购的公平性,限制每个用户只有一次申购的机会。
现有的股票交易控制系统,能够根据用户在申购股票时,填写的用户信息中具有唯一性的用户ID(如用户身份)避免同一用户重复申购首次公开募股(IPO)的股票。然而,一旦已经申购过IPO的用户填写的用户信息中用户ID是他人的用户ID,那么现有的股票交易控制系统将无法筛选出该重复用户。因此,为了防止申购集中,影响股票申购分配结果,有必要找出重复申购的申请者,进行防重处理。
发明内容
基于此,有必要提供一种同一用户识别方法、装置、计算机设备和存储介质。
第一方面提供了一种同一用户识别方法,包括:
接收用户的申购信息,所述申购信息包括用户信息和申购产品信息;
将所述用户信息与所述申购产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分;
将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入所述申购用户数据库中。
在其中一个实施例中,所述将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分,包括:
获取所述用户的历史申购信息,基于所述历史申购信息,扩充所述用户的用户信息;
基于所述用户信息和所述申购数据库中的用户信息中重合的个人信息,确定评价所述用户与所述申购用户数据库中的用户是同一用户的概率评分指标;
对各个所述概率评分指标进行归一化处理;
采用优序图法确定各个所述概率评分指标的权重;
根据各个所述概率评分指标的权重和归一化处理结果计算所述用户与所述申购用户数据库中的用户是同一用户的概率评分。
在其中一个实施例中,所述将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,还包括:
基于所述用户信息,提取所述用户的唯一标识;
遍历所述申购用户数据库中的用户信息,确定是否存在与所述用户的唯一标识重合的信息,如果有,则向所述用户发送重复申购的提醒信息。
在其中一个实施例中,所述用户信息至少包括所述用户的唯一标识和地址信息;所述确定用户的地址信息与所述申购数据库中的地址信息重合,包括:
基于注意力机制的LSTM神经网络模型将所述用户的地址信息划分为第一部分和第二部分,以及将申购信息库的用户的地址信息划分为第一部分和第二部分,其中,所述第一部分包括行政区域地址,所述第二部分为所述地址信息中除所述第一部分的地址信息;
基于所述用户的地址信息的第一部分,从所述申购数据库中查找与所述用户的地址信息的第一部分重合的地址信息;
如果找到重合的第一部分,则将所述用户的地址信息和所述申购数据库中的地址信息传入网络地图的地理信息编码接口,查询这两个地址信息在所述网络地图中对应的目标经纬度;
如果两个地址的目标经纬度的距离差小于预设距离阈值,则确定所述两个地址相同。
在其中一个实施例中,所述确定用户的地址信息与所述申购数据库中的地址信息重合,还包括:
从所述用户的申购信息中抽取地址信息;
基于地址解析模型,得到所述地址信息所属的获取所述地址参数所属的行政区划编码、经纬度及地址等级,其中,所述行政区划包括省、直辖市、市、区县和详细地址部分中的至少一种;
根据所述行政区划查找对应的省市区内地址节点,通过中文分词将详细地址与地址数据库中的数据进行匹配,计算文本相似度;
选取文本相似度较高的预设数量的地址节点,计算各所述地址节点与所述地址信息对应经纬度的距离偏移值,选取所述距离偏移值中最小值对应的地址节点作为更新后的用户的地址信息。
在其中一个实施例中,所述确定用户的地址信息与所述申购数据库中的地址信息重合,还包括:如果确定所述用户的地址信息与所述申购数据库中的地址信息重合,则确定具有相同地址信息的用户是否是属于预先存储的家庭关联用户,如果是家庭关联用户则对所述家庭关联用户进行标记。
在其中一个实施例中,所述将是同一用户的概率评分高于预设阈值的两个用户进行关联之后,还包括:
获取所述用户的历史申购金融产品信息,所述历史申购金融产品信息包括所述用户的地址信息,以及申购金融产品的购买时间;
根据所述历史申购金融产品信息生成对比信息,所述对比信息包括所述购买时间以及所述地址信息的对应关系;
根据所述用户本次申购信息的地址信息是否包含在所述对比信息中的地址信息的范围内确认所述待识别用户是否为可疑用户。
第二方面提供了一种同一用户识别装置,包括:
信息接收单元,用于接收用户的申购信息,所述申购信息包括用户信息和申购产品信息;
信息比对单元,用于将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分;
关联单元,用于将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的所述两个用户进行概率评分标记后存入所述申购用户数据库中。
第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述同一用户识别方法的步骤。
第四方面提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述同一用户识别方法的步骤。
上述同一用户识别方法、系统、计算机设备和存储介质,首先,接收用户的申购信息,申购信息包括用户信息和申购产品信息;将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分;将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入申购用户数据库中。从而,根据申购股票的用户的用户信息确定可能是同一申购用户的多个用户,以避免同一用户重复申购,保证股票申购的公平性。
附图说明
图1为一个实施例中提供的同一用户识别方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3为一个实施例中同一用户识别方法的流程图;
图4为一个实施例中同一用户识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1为一个实施例中提供的同一用户识别方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及客户端120。
计算机设备110为服务端,例如为金融机构服务器,计算机设备110上安装有申购数据库以及对用户信息进行识别的应用程序。客户端120上安装有申购产品的申购信息输入工具,当需要申购产品时,用户可以通过客户端110输入申购信息,并将申购信息输入给计算机设备110,计算机设备110接收到申购信息后,基于该用户的用户信息执行对该用户与申购数据库中存储的用户是同一用户的概率评分。
需要说明的是,客户端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及客户端110可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种同一用户识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种同一用户识别方法。该计算机设备的网络接口用于与客户端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
参阅图3为本申请实施例提供的一种同一用户识别方法的流程示意图,该方法可以包括:
步骤101、接收用户的申购信息,申购信息包括用户信息和申购产品信息。
该步骤中,用户通过客户端(如笔记本)向服务器(如平安金融系统服务器、港交所服务器等)输入对首次公开募股的股票(IPO)的申购信息,其中,用户信息可以包括用户的唯一标识、地址信息和电话号码,申购产品信息至少包括产品ID和申购数量。用户的唯一标识是用于唯一识别上传申购信息的用户,可以是用户的身份证号,也可以是用户在该交易系统中注册的用户帐号等,只要具有唯一性即可。产品ID是用于唯一识别申购产品的标识,可以是产品名称(如XXX股票),也可以是产品代码(如平安银行股票代码[000001])等。申购数量是指用户想购买限额产品的数量和/或金额等。通常情况下,首次公开募股(IPO)的股票,用户首先进行申购请求,但是不进行股票交易,待上市完成后才进行股票交易,此时用户的申购数量只是用户意向购买的申购数量,并不是最终的成交数量。
步骤102、将用户信息与申购产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分。
该步骤中,申购用户数据库中存储的是用户通过客户端输入的且审核通过的用户信息。
在一种实施例中,在步骤102中将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对之前,还包括:
步骤102a、基于用户信息,提取用户的唯一标识。
步骤102b、遍历申购用户数据库中的用户信息,确定是否存在与用户的唯一标识重合的信息,如果有,则向用户发送重复申购的提醒信息。
可以理解的是,由于用户的唯一标识具有唯一性,因此,当用户的唯一标识相同时,说明该用户在之前已经申购过了,因此,此时向用户发送重复申购的提醒信息,并拒绝该用户的申购信息,从而,可以避免后续用户信息与申购用户数据库中的用户信息进行不比要的比对运算。
步骤103、将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入申购用户数据库中。
该步骤中,由于无法确定那个用户是真正要买股票的用户,那些用户是冒充的用户,故在该步骤中,只要本次进行申购的用户的用户信息与申购用户数据库中存储的用户信息进行比对后,本次进行申购的用户与用户与申购用户数据库中的用户是同一用户的概率评分大于预设概率评分阈值,则对这些用户进行记录,以待后续判断,例如,港交所或者SFC人员拿到名单后展开调查核对,填写可疑反馈,如果确认则拒绝重复数据,且进入观察名单。如果没有确认证据,则允许IPO申请,数据申请合法。
可以理解的是,经过运算处理得到本次申购的用户可以与申购信息库中的一个或者多个用户具有是同一用户的可能性,例如,本次申购的用户为A,与申购信息库中的用户B和用户C都具有是同一用户的可能性,此时需要记录A发分别与B和C是同一用户的概率评分,还有建立用户A和用户B的关联,以及建立用户A和用户C的关联。当然,也可以是:设置一第一概率评分阈值,本次申购的用户可能与至少一个已经存在于申购信息库中的用户是同一用户的概率评分高于预设分数,例如,本次申购用户A与申购信息库中的用户B和用户C是同一用户的概率评分均高于第一概率评分阈值,但是,用户A与申购信息库中的用户B和用户D是同一用户的概率评分不高于第一概率评分阈值,那么此时,将用户A与用户B、用户C的关联以及概率评分入库即可,用户A与用户D的关联不入库。
本申请,首先,接收用户的申购信息,申购信息包括用户信息和申购产品信息;将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分;将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入申购用户数据库中。从而,在消费端保证了消息能够写入消息队列,且对无法写入消息队列的消息也进行了记录。监听消费端对消息的消费情况能保证签收的消息被消费,且无法消费消息也进行了记录。从而,根据申购股票的用户的用户信息确定可能是同一申购用户的多个用户,以避免同一用户重复申购,保证股票申购的公平性。
在本申请实施例的一些变更实施方式中,步骤102、将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分,可以包括:
步骤1021、获取用户的历史申购信息,基于历史申购信息,扩充用户的用户信息。
该步骤中,用户的历史申购信息可以是通过当地服务器或第三方获得的用户在本词申购产品之前申购金融产品时记录的用户的历史申购信息。在这里扩展用户信息是指,从用户的历史申购信息中提取用户本次用户信息中没有的用户信息补充到本次从用户信息中。
步骤1022、基于用户信息和申购数据库中的用户信息中重合的个人信息,确定评价用户与申购用户数据库中的用户是同一用户的概率评分指标;
该步骤中,将用户信息中的每一项数据(如地址、电话号码等)与申购信息库中的用户信息的每一项数据进行一一比对,确定那些数据是重合的,对于每一项重合的数据对应不同的概率评分指标,然后根据概率评分指标计算用户的概率评分。在这里那些数据是重合的例如,用户信息有:用户ID(用户的唯一标识)、用户地址,两项,与申购信息库中的用户信息进行比对的结果是:申购信息库中有1个用户有数据重合,即用户ID是不同的,但是用户地址是重合的,此时则根据用户地址重合这一结果确定是同一用户的概率评分。再例如,用户信息有:用户ID、用户地址和联系方式,三项,用户ID是不同的,用户地址是重合的,联系方式是重合的,此时则根据用户地址重合、用户联系方式重合这一结果确定是同一用户的概率评分。
步骤1023、对各个概率评分指标进行归一化处理;
该步骤中,对各个概率评分指标进行归一化的目的,是为了使各个概率评分指标值对应的量纲一致、基本度量单位统一,归一化后,所有的值会落到[0,1]之间。例如,相同为1,不相同为0。
步骤1024、采用优序图法确定各个概率评分指标的权重;
该步骤中,针对用户的n(例如5)个概率评分指标,建立n*n的概率评分指标矩阵;并在矩阵对角线填0.5,0.5表示概率评分指标自身对自身一样重要。矩阵填充规则,若行上的概率评分指标A比列上的概率评分指标B重要,则A行B列交叉格内填值为1;若行上的概率评分指标A与列上的概率评分指标B重要性相同,则A行B列交叉格内填值为0.5;若行上的概率评分指标A比列上的概率评分指标B不重要,则A行B列交叉格内填值为0。这n个概率评分指标的重要性判定,根据行业经验分析。
步骤1025、根据各个概率评分指标的权重和归一化处理结果计算用户的概率评分。
该步骤中,用户的概率评分Score=∑Wi*Bi_new,其中,i取值1-5,Bi_new为归一化后的第i个概率评分指标的值。
在本申请实施例的一些变更实施方式中,用户信息至少包括用户的唯一个人信息和用户的地址信息;本实施例的方法还包括:如果两个用户的申购信息有相同的地址信息,则确定具有相同地址信息的用户是否是属于预存的家庭关联用户,如果是家庭关联用户则存储这两个用户是家庭关联关系。
在本申请实施例的一些变更实施方式中,用户信息至少包括用户的唯一标识和地址信息;步骤1022、基于用户信息和申购数据库中的用户信息中重合的个人信息,可以包括:
步骤1022a、基于注意力机制的LSTM神经网络模型将用户的地址信息划分为第一部分和第二部分,以及将申购信息库的用户的地址信息划分为第一部分和第二部分,其中,第一部分包括行政区域地址,第二部分为地址信息中除第一部分的地址信息。
其中,注意力机制的LSTM神经网络模型具备分词功能,并且其分词功能必须经过训练,其中所训练的训练样本采用标注了分词位置的地址信息文本,然后将训练样本经过编码、向量化等处理后后输入到第一注意力机制的LSTM神经网络模型中以输出分词的词汇和分词的位置,经过调整神经网络各节点的权重,使注意力机制的LSTM神经网络模型的损失函数收敛,将输出分词的位置与标注的分词位置一致。
步骤1022b、针对提取的用户信息的地址信息的第一部分,从提取的申购信息库中的地址信息的第一部分信息中,查找与该第一部分匹配的第一部分。
可以理解的是,对地址信息进行分割,将分割结果中除最后一部分外的地址信息作为第一部分,最后一部分的地址信息作为第二部分,也就是将用户的地址信息中省市划分为一级地址词条S0,区域划分为二级地址词条S1,街道划分为三级地址词条S2,小区和具体门牌划分为四级地址词条S3。以地址信息为“北京市朝阳区亚运村街道安慧北里小区1号楼401室”为例,“北京市”即一级词条S0,朝阳区”即二级词条S1,“亚运村街道”即三级词条S2,“安慧北里小区1号楼401室”即四级词条S3。
步骤1022c、如果找到匹配的第一部分,则将用户信息的地址信息和购信息库中的地址信息传入网络地图的地理信息编码接口,查询这两个地址信息在网络地图中对应的目标经纬度。
该步骤中,网络地图的地理信息编码接口,也就是采用地址解析方法解析地址信息,可以采用现有地图供应商提供的地址解析方法,例如,高德地图、百度地图或谷歌(google)地图等等,在该些地图供应商提供的地理编码数据库中进行地址解析,得到用户的地址信息的经纬度信息。
步骤1022d、如果这两个地址的目标经纬度的距离差小于第一阈值时,则确定这两个地址相同。
在本申请实施例的一些变更实施方式中,为了统一用户信息的格式(即保证用户地址信息的完整性),确定用户的地址信息与申购数据库中的地址信息重合,还包括:
步骤1022e、从用户的申购信息中抽取地址信息。
步骤1022f、基于地址解析模型,得到地址信息所属的获取地址参数所属的行政区划编码、经纬度及地址等级,其中,行政区划包括省、直辖市、市、区县和详细地址部分中的至少一种。
步骤1022g、根据行政区划查找对应的省市区内地址节点,通过中文分词将详细地址与地址数据库中的数据进行匹配,计算文本相似度。
其中,首先将输入的地址信息中的省份、城市和区县等提取出来,将地址分为省/直辖市、市、区/县和详细地址等部分,根据行政区划名称寻找对应的省市区内地址节点数据,通过中文分词将详细地址与ES地址库中的数据进行匹配,并计算文本相似度,匹配到相似度最高的若干个地址节点数据。
步骤1022h、选取文本相似度较高的预设数量的地址节点,计算各地址节点与地址信息对应经纬度的距离偏移值,选取距离偏移值中最小值对应的地址节点作为更新后的用户的地址信息。
其中,在得到预设数量的地址节点后,将这些地址节点所对应的经纬度分别与调用高德API得到的经纬度进行对比,计算距离偏移值,选取距离偏移值中最小值对应的地址节点作为更新后的用户的地址信息。例如,用户输入地址参数“北京市燕山天池旅游中心”,使用高德地址编码API转换为坐标“116.184712,40.654428”。经过中文分词进行分析,得到以下信息:北京市及详细地址:燕山天池旅游中心,匹配到样例表中相似度最高的5个地址,根据得到的经纬度计算偏移值,最小偏移值所对应的地址为“北京市燕山天池旅游公司”,对应的文本相似度为0.9,则输出标准化地址:北京市延庆区昌赤路与滦赤路交叉口南50米燕山天池会议中心,相似度分数:90。
在本申请实施例的一些变更实施方式中,将是同一用户的概率评分高于预设阈值的两个用户进行关联之后,还包括:
步骤104、获取用的历史购买股票信息,历史购买股票信息包括用户在购买过程中所处的地址信息,以及与购买股票对应的购买时间;
步骤105、根据历史购买股票信息生成对比信息,对比信息包括购买录时间以及地址信息的对应关系;
该步骤中,将历史购买股票信息中的各地址信息按照出现次数由高至低的顺序进行排序,并根据次序在指定名次之前的地址信息及其对应的购买时间生成对比信息。
步骤106、根据用户本次购买股票的地址信息是否包含在对比信息中的地址信息的范围内确认待识别用户是否为可疑用户。
该步骤中,可疑用户指的是冒充的用户,在获取到当前用户的对比信息以及当前地址信息之后,该步骤即可多方面进行对比,确认当前验证的是否为真实的用户本人。在需要根据待识别用户当前的登录地址是否包含在对比信息中的地址信息的范围内确认待识别用户是否为可疑用户时,首先判断判断地址信息是否包含在对比信息的范围中,如果地址信息包含在对比信息的范围中时,则确认验证通过,如果地址信息不包含在对比信息的范围中时,则进一步判断地址信息距离最近一次的对比信息的地址信息的距离是否小于预设的阈值,若是确认验证通过;若否确认验证不通过。
进一步地,在本申请实施例的一些变更实施方式中,该方法还包括:步骤107、根据预设的申购限额算法,确定用户ID对应的限额数量;根据用户信息和限额数量确定是否完成股票申购交易。
该步骤可以发生在,股票真正交易过程中,预设的申购限额算法可以是随机分配用户的限额数据量,当然根据不同的股票可以有不同的确定用户的限额数据量的方法。
在该步骤中,确定是否完成股票申购交易的场景可以是:如果用户没有关联的用户,且用户的申购数量在其对应的限额数量内,则基于申购产品信息完成交易;如果用户有关联的用户,且用户与关联用户是同一用户的概率评分大于第二概率评分阈值,则判断这些用户的申购数量之和是否超过这些用户中的任一用户的限额数量,如果关联用户的申购数量之和没有超过这些用户中的任一用户的限额数量,则基于申购产品信息完成交易;如果这些用户的申购数量之和超过这些用户中的任一用户的限额数量,则向用户发出重复申购信息,即不能完成申购交易;在这里第二概率评分阈值可以设置的大一些,大于第一概率评分阈值,即这些用户大概率是同一用户,故此时暂时中止这些用户的申购交易,以避免同一用户的重复申购。
进一步参考图4,作为对上述方法的实现,本申请实施例提供了一种同一用户识别的装置的一个实施例,该同一用户识别的装置的实施例与图3所示的同一用户识别方法的实施例相对应,由此,上文针对图3中同一用户识别方法描述的操作和特征同样适用于同一用户识别装置及其中包含的模块,在此不再赘述。
如图4所示,该同一用户识别装置可以包括:
信息接收单元411,用于接收用户的申购信息,申购信息包括用户信息和申购产品信息;
信息比对单元412,用于将用户信息与产品信息对应的申购用户数据库中的用户信息进行比对,得到用户与申购用户数据库中的用户是同一用户的概率评分;
关联单元413,用于将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入申购用户数据库中。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种疑用户识别方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种疑用户识别装置的部分或全部步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种同一用户识别方法,其特征在于,包括:
接收用户的申购信息,所述申购信息包括用户信息和申购产品信息;
将所述用户信息与所述申购产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分;
将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的两个用户进行概率评分标记后存入所述申购用户数据库中。
2.根据权利要求1所述的方法,其特征在于,所述将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分,包括:
获取所述用户的历史申购信息,基于所述历史申购信息,扩充所述用户的用户信息;
基于所述用户信息和所述申购数据库中的用户信息中重合的个人信息,确定评价所述用户与所述申购用户数据库中的用户是同一用户的概率评分指标;
对各个所述概率评分指标进行归一化处理;
采用优序图法确定各个所述概率评分指标的权重;
根据各个所述概率评分指标的权重和归一化处理结果计算所述用户与所述申购用户数据库中的用户是同一用户的概率评分。
3.根据权利要求1所述的方法,其特征在于,所述将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,还包括:
基于所述用户信息,提取所述用户的唯一标识;
遍历所述申购用户数据库中的用户信息,确定是否存在与所述用户的唯一标识重合的信息,如果有,则向所述用户发送重复申购的提醒信息。
4.根据权利要求1所述的方法,其特征在于,所述用户信息至少包括所述用户的唯一标识和地址信息;所述确定用户的地址信息与所述申购数据库中的地址信息重合,包括:
基于注意力机制的LSTM神经网络模型将所述用户的地址信息划分为第一部分和第二部分,以及将申购信息库的用户的地址信息划分为第一部分和第二部分,其中,所述第一部分包括行政区域地址,所述第二部分为所述地址信息中除所述第一部分的地址信息;
基于所述用户的地址信息的第一部分,从所述申购数据库中查找与所述用户的地址信息的第一部分重合的地址信息;
如果找到重合的第一部分,则将所述用户的地址信息和所述申购数据库中的地址信息传入网络地图的地理信息编码接口,查询这两个地址信息在所述网络地图中对应的目标经纬度;
如果两个地址的目标经纬度的距离差小于预设距离阈值,则确定所述两个地址相同。
5.根据权利要求4所述的方法,其特征在于,所述确定用户的地址信息与所述申购数据库中的地址信息重合,还包括:
从所述用户的申购信息中抽取地址信息;
基于地址解析模型,得到所述地址信息所属的获取所述地址参数所属的行政区划编码、经纬度及地址等级,其中,所述行政区划包括省、直辖市、市、区县和详细地址部分中的至少一种;
根据所述行政区划查找对应的省市区内地址节点,通过中文分词将详细地址与地址数据库中的数据进行匹配,计算文本相似度;
选取文本相似度较高的预设数量的地址节点,计算各所述地址节点与所述地址信息对应经纬度的距离偏移值,选取所述距离偏移值中最小值对应的地址节点作为更新后的用户的地址信息。
6.根据权利要求4所述的方法,其特征在于,所述确定用户的地址信息与所述申购数据库中的地址信息重合,还包括:如果确定所述用户的地址信息与所述申购数据库中的地址信息重合,则确定具有相同地址信息的用户是否是属于预先存储的家庭关联用户,如果是家庭关联用户则对所述家庭关联用户进行标记。
7.根据权利要求1所述的方法,其特征在于,所述将是同一用户的概率评分高于预设阈值的两个用户进行关联之后,还包括:
获取所述用户的历史申购金融产品信息,所述历史申购金融产品信息包括所述用户的地址信息,以及申购金融产品的购买时间;
根据所述历史申购金融产品信息生成对比信息,所述对比信息包括所述购买时间以及所述地址信息的对应关系;
根据所述用户本次申购信息的地址信息是否包含在所述对比信息中的地址信息的范围内确认所述待识别用户是否为可疑用户。
8.一种同一用户识别装置,其特征在于,包括:
信息接收单元,用于接收用户的申购信息,所述申购信息包括用户信息和申购产品信息;
信息比对单元,用于将所述用户信息与所述产品信息对应的申购用户数据库中的用户信息进行比对,得到所述用户与所述申购用户数据库中的用户是同一用户的概率评分;
关联单元,用于将是同一用户的概率评分高于预设阈值的两个用户进行关联,且将关联的所述两个用户进行概率评分标记后存入所述申购用户数据库中。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述同一用户识别方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述同一用户识别方法的步骤。
CN202011529926.1A 2020-12-22 2020-12-22 同一用户识别方法、装置、计算机设备和存储介质 Pending CN112632409A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011529926.1A CN112632409A (zh) 2020-12-22 2020-12-22 同一用户识别方法、装置、计算机设备和存储介质
PCT/CN2021/126044 WO2022134829A1 (zh) 2020-12-22 2021-10-25 同一用户识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011529926.1A CN112632409A (zh) 2020-12-22 2020-12-22 同一用户识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112632409A true CN112632409A (zh) 2021-04-09

Family

ID=75320966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011529926.1A Pending CN112632409A (zh) 2020-12-22 2020-12-22 同一用户识别方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112632409A (zh)
WO (1) WO2022134829A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134829A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 同一用户识别方法、装置、计算机设备和存储介质
CN114780682A (zh) * 2022-04-22 2022-07-22 浪潮卓数大数据产业发展有限公司 一种解析数据评估方法、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172792A (zh) * 2023-11-02 2023-12-05 赞塔(杭州)科技有限公司 客户信息管理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9811830B2 (en) * 2013-07-03 2017-11-07 Google Inc. Method, medium, and system for online fraud prevention based on user physical location data
CN106446969B (zh) * 2016-12-01 2020-06-19 北京小米移动软件有限公司 用户识别的方法及装置
CN107590684A (zh) * 2017-08-21 2018-01-16 时趣互动(北京)科技有限公司 一种基于用户购买数据实时下发优惠券的方法及装置
CN111522838B (zh) * 2020-04-23 2023-07-21 数网金融有限公司 地址相似度计算方法及装置
CN112632409A (zh) * 2020-12-22 2021-04-09 深圳壹账通智能科技有限公司 同一用户识别方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134829A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 同一用户识别方法、装置、计算机设备和存储介质
CN114780682A (zh) * 2022-04-22 2022-07-22 浪潮卓数大数据产业发展有限公司 一种解析数据评估方法、设备及介质
CN114780682B (zh) * 2022-04-22 2024-05-10 浪潮卓数大数据产业发展有限公司 一种解析数据评估方法、设备及介质

Also Published As

Publication number Publication date
WO2022134829A1 (zh) 2022-06-30

Similar Documents

Publication Publication Date Title
US11985037B2 (en) Systems and methods for conducting more reliable assessments with connectivity statistics
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
CN112632409A (zh) 同一用户识别方法、装置、计算机设备和存储介质
US8311907B2 (en) System and method for detecting fraudulent transactions
CN107563757B (zh) 数据风险识别的方法及装置
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN109086317B (zh) 风险控制方法和相关装置
CN111178005B (zh) 数据处理系统、方法及存储介质
CN111125118B (zh) 关联数据查询方法、装置、设备及介质
CN116150349A (zh) 一种数据产品安全合规性检查方法、装置及服务器
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN113112323B (zh) 基于数据分析的异常订单识别方法、装置、设备及介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN106156130A (zh) 一种数据处理方法及装置
CN110795466A (zh) 基于大数据处理的反欺诈方法、服务器及计算机可读存储介质
CN109857748B (zh) 一种合同数据处理方法、装置及电子设备
CN112686732B (zh) 异常地址数据识别方法、装置、设备、介质
CN112632381B (zh) 信息查询方法、装置、计算机设备和存储介质
CN115879819A (zh) 企业信用评估方法及装置
CN107798603B (zh) 交易数据处理方法和装置
CN109636578A (zh) 信贷信息的风险检测方法、装置、设备及可读存储介质
CN114943479A (zh) 业务事件的风险识别方法、装置、设备及计算机可读介质
CN110766091B (zh) 一种套路贷团伙的识别方法及系统
CN112508472A (zh) 多人查看同一账号下订单信息的方法及系统
AU2020104100A4 (en) An Electronic Data Analysis System and Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40049888

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination