CN111221923B - 用户身份查证方法、装置、存储介质及电子设备 - Google Patents

用户身份查证方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111221923B
CN111221923B CN202010009097.8A CN202010009097A CN111221923B CN 111221923 B CN111221923 B CN 111221923B CN 202010009097 A CN202010009097 A CN 202010009097A CN 111221923 B CN111221923 B CN 111221923B
Authority
CN
China
Prior art keywords
log information
data set
classification
determining
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010009097.8A
Other languages
English (en)
Other versions
CN111221923A (zh
Inventor
任晓霞
李克伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010009097.8A priority Critical patent/CN111221923B/zh
Publication of CN111221923A publication Critical patent/CN111221923A/zh
Application granted granted Critical
Publication of CN111221923B publication Critical patent/CN111221923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种用户身份查证方法、装置、存储介质及电子设备,方法包括:获取包含多条日志信息的第一数据集,其中,日志信息中包含揭示用户身份的身份认定信息;根据身份认定信息,对第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;根据分类中每条日志信息的产生时间,对第二数据集中的分类进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。利用分类中每条日志的产生时间,对分类后的日志信息进行进一步筛选,不仅能够进一步提升确定具有关联关系的日志信息的准确性,还可以减少数据量,以提升进行一致性关系分析的系统的性能。

Description

用户身份查证方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种用户身份查证方法、装置、存储介质及电子设备。
背景技术
在股票和证券行业中,“老鼠仓”是指一种营私舞弊,损公肥私的腐败行径,具体指庄家在用公有资金拉升股价之前,先用自己个人(例如机构负责人、操盘手及其亲属,关系户等)的资金在低位建仓,待用公有资金将股价拉升到高位后,利用个人的资金所建的仓位率先卖出股票获利。
对于“老鼠仓”问题的解决方式,现有技术中可以通过数据分析,确定出两个股票交易账户对应的买家(即两个实体)之间存在关系。例如,可以通过设备唯一信息一致性关系,来确定两个实体间是有关联关系的。而目前,对产生的数据进行分析处理的过程中,由于每天产生的数据过于庞大,在较短的时间(例如两个月)内,就会随着数据量的增多,导致进行一致性关系分析的系统的性能明显降低。因此,如何在准确地确定两个实体间的关联关系的基础上,尽可能提升系统性能,是一个较难解决的问题。
发明内容
本申请实施例的目的在于提供一种用户身份查证方法、装置、存储介质及电子设备,以在准确地确定两个实体间的关联关系的基础上,尽可能提升系统性能。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种用户身份查证方法,所述方法包括:获取包含多条日志信息的第一数据集,其中,所述日志信息中包含揭示用户身份的身份认定信息;根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。
通过对日志信息进行分类,每个分类中包含的日志信息对应的用户身份均具有关联关系。而利用分类中每条日志的产生时间,对分类后的日志信息进行进一步筛选,不仅能够进一步提升确定具有关联关系的日志信息的准确性,还可以减少数据量,以提升进行一致性关系分析的系统的性能。
结合第一方面,在第一方面的第一种可能的实现方式中,获取包含多条日志信息的第一数据集,包括:获取原始数据集;根据预设的过滤条件,对所述原始数据集进行过滤,确定出所述第一数据集,其中,所述过滤条件用于过滤机构不关心的日志信息。
根据预设的过滤条件对原始数据进行过滤,可以减少需要处理的数据量,以提升进行一致性关系分析的系统的性能,同时也能够尽可能提高第一数据集的质量,从而有利于提高基于日志信息确定具有关联关系的用户身份时的准确性。
结合第一方面,在第一方面的第二种可能的实现方式中,根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,包括:确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类;根据确定出的分类,确定出包含多个分类的第二数据集。
通过确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类,进一步确定出第二数据集。这样能够尽可能全面地确定出具有关联关系的实体,并将其确定为同一个分类。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述身份认定信息包括公网IP(Internet Protocol,互联网协议)、设备唯一信息和手机号码,确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类,包括:确定出每条日志信息中的公网IP、设备唯一信息和手机号码;根据所述公网IP、所述设备唯一信息和所述手机号码,将所有的所述公网IP、所述设备唯一信息和所述手机号码中任一项具有关联关系的日志信息确定为同一个分类。
公网IP、设备唯一信息和手机号码,这些信息相同或关联,通常说明其用户具有较为亲密的关系,因此,通过将公网IP、设备唯一信息和手机号码中任一项具有关联关系的日志信息确定为同一个分类,能够尽可能全面地确定出日志信息对应的实体之间的关联关系。
结合第一方面,在第一方面的第四种可能的实现方式中,根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,包括:确定出所述第二数据集的所述分类中每条日志信息的产生时间;将所述产生时间与该分类中所有其他日志信息的产生时间之间的最小时间差值超出预设时间值的日志信息从该分类中去除,以对所述第二数据集中每个分类进行筛选。
通过对同一分类中的每条日志信息的产生时间进行分析,将其中产生时间与其他日志信息的产生时间的最小的时间差值都超出预设时间值的日志信息从该分类中去除,可以排除一些时间间隔较大(时间间隔大说明相互之间的独立性较高)的日志信息,从而尽可能提升确定出的同一分类中的日志信息所对应的用户身份具有关联关系的准确性。
结合第一方面,在第一方面的第五种可能的实现方式中,基于筛选后的分类确定出用于揭示用户身份关系的有效数据集,包括:确定出所述筛选后的每个分类中所述日志信息的数量;将所述日志信息的数量在预设数量阈值范围内的分类保留;根据保留的分类,确定出用于揭示用户身份关系的有效数据集。
通过对因分类中日志信息的数量过高(可能由于身份认定信息属于小群体内公用的,例如多人公用的公网IP、多人公用的终端等)或过低(例如一个分类中只有一条日志信息,则属于与其他日志信息没有关联的日志信息)而不满足条件的分类进行排除,可以进一步提高方法的准确性,而减少的数据量有利于提升进行一致性关系分析的系统的性能。
结合第一方面,或者结合第一方面的第一种至第五种中任一可能的实现方式,在第一方面的第六种可能的实现方式中,在所述基于筛选后的分类确定出用于揭示用户身份关系的有效数据集之后,所述方法还包括:基于所述有效数据集中的分类生成对应的图谱。
根据有效数据集中的分类生成对应的图谱,通过图谱展示日志信息之间地关联关系,可以直观地展示日志信息对应的用户身份(或者可以理解为实体)之间的关联关系。
第二方面,本申请实施例提供一种用户身份查证装置,所述装置包括:获取模块,用于获取包含多条日志信息的第一数据集,其中,所述日志信息中包含揭示用户身份的身份认定信息;分类模块,用于根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;筛选模块,用于根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如第一方面或第一方面的可能的实现方式中任一项所述的用户身份查证方法的步骤。
第四方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现第一方面或第一方面的可能的实现方式中任一项所述的用户身份查证方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种用户身份查证系统的示意图。
图2为本申请实施例提供的一种电子设备的结构示意图。
图3为本申请实施例提供的一种用户身份查证方法的流程图。
图4为本申请实施例提供的一种用户身份查证装置的结构框图。
图标:10-用户身份查证系统;11-服务器;12-终端;20-电子设备;21-存储器;22-通信模块;23-总线;24-处理器;30-户身份查证装置;31-获取模块;32-分类模块;33-筛选模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,图1为本申请实施例提供的一种用户身份查证系统的示意图。
在本实施例中,用户身份查证系统10可以包括服务器11和终端12。其中,服务器11可以为:例如网络服务器、云服务器、服务器集群、数据服务器等;终端12可以为:例如智能手机、平板电脑、个人电脑、个人数字助理等。服务器11与外部的数据中心连接,用于获取外部的数据,外部的数据中心可以是一个或多个交易所的数据中心,对应的,获取的数据可以是在该交易所进行交易而产生的交易数据。服务器11与终端12连接,用于将处理后的数据发送给终端12,使得终端12对处理后的数据进行展示、保存等。当然,此处的终端12可以为投资机构的终端、研究所的终端等。本实施例中以投资机构应用用户身份查证系统为例,终端12对应为投资机构的终端,但不作为限定。
请参阅图2,图2示出了本申请实施例提供的一种电子设备20的结构框图。在本实施例中,电子设备20可以与服务器11对应,也可以与终端12对应,此处不作限定。
示例性的,电子设备20可以包括:通过网络与外界连接的通信模块22、用于执行程序指令的一个或多个处理器24、总线23、不同形式的存储器21,例如,磁盘、ROM(Read-OnlyMemory,只读存储器)、或RAM(Random Access Memory,随机存取存储器),或其任意组合。其中,存储器21、通信模块22和处理器24之间通过总线23连接。
示例性的,存储器21中存储有程序。处理器24可以从存储器21调用并运行这些程序,从而便可以通过运行程序而执行用户身份查证方法。
另外,在电子设备20与终端12对应时,电子设备20在上述结构的基础上,还可以包括通过总线23与其他模块(存储器21、通信模块22、处理器24)通信连接的显示器,实现对图谱的展示。
请参阅图3,图3为本申请实施例提供的一种用户身份查证方法的流程图。在本实施例中,用户身份查证方法可以包括步骤S10、步骤S20和步骤S30,而服务器可以执行用户身份查证方法的这些步骤。
下面以投资机构应用的用户身份查证系统为例,对用户身份查证方法进行介绍。在本实施例中,外部的数据中心每天会产生大量的数据(例如交易数据),每一条数据可以为一条日志信息,其中,每条日志信息中可以包括日志信息的产生时间,以及用于揭示用户身份的身份认定信息(例如公网IP、设备唯一信息和手机号码等,其中,设备唯一信息可以为终端的硬件信息,具备唯一性)。
基于此,服务器可以执行步骤S10。
步骤S10:获取包含多条日志信息的第一数据集,其中,每条所述日志信息中包含揭示用户身份的身份认定信息。
在本实施例中,服务器可以从外部的数据中心获取原始数据集,其中,原始数据集中包括多条日志信息(这里的多条日志信息,可以是获取的一整天的交易数据,一条交易数据即一条日志信息)。
而为了减少数据处理量,可以对原始数据集中的日志信息进行筛选。在本实施例中,服务器可以根据预设的过滤条件,对原始数据集进行过滤,以确定出第一数据集。
示例性的,由于投资机构只需要关心涉及到本机构的数据即可,因此,为了大幅降低数据的处理量,预设的过滤条件可以为将本机构不关心的数据进行过滤的条件。例如,将本机构涉及的用户,或者涉及的股票、基金、债券等金融产品,作为过滤的条件,不满足条件的,即从原始数据集中剔除。从而,可以对原始数据进行过滤,以大量降低数据处理量。
而原始数据集中的日志信息,难免会存在一些不满足条件甚至无参考价值的日志信息,例如空数据(其中没有数据,通常由日志信息产生时的出错而导致)的日志信息、重复的日志信息等。为了提升日志信息的质量,可以利用预设的过滤条件(非空筛选、去重筛选)对这些数据进行过滤,从而能够提升日志信息的质量,也有利于减少数据处理量。
对原始数据进行过滤后,服务器可以确定出包含多条日志信息的第一数据集。基于此,服务器可以执行步骤S20。
步骤S20:根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联。
在本实施例中,服务器可以确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类。这样能够尽可能全面地确定出具有关联关系的实体,并将其确定为同一个分类。
示例性的,身份认定信息可以包括公网IP、设备唯一信息和手机号码等。服务器可以确定出每条日志信息中的公网IP、设备唯一信息和手机号码。之后即可根据公网IP、设备唯一信息和手机号码,将所有的公网IP、设备唯一信息和手机号码中任一项具有关联关系的日志信息确定为同一个分类。其中,设备唯一信息表示基于终端设备的能够证明终端的身份唯一性的信息,例如,MAC地址(Media Access Control Address,媒体存取控制位址,亦称物理地址)、CPU(Central Processing Unit,中央处理器)序号,BIOS(Basic InputOutput System,基本输入输出系统)序号等,此处不作限定。
例如,100条日志信息,其中有5条日志信息的公网IP相同,但设备唯一信息和手机号均不同。在其余95条日志信息(不包含公网IP相同的5条)中存在1条日志信息的设备唯一信息与公网IP相同的5条日志信息中的1条日志信息对应的设备唯一信息相同。而由此确定出的6条日志信息中对应的手机号之间既不相同也无关联(手机号之间的关联可以理解为手机号对应的用户之间存在关系,例如,若两个手机号对应的用户之间为父子,母子,夫妻等关系时,则认为两个手机号之间相关关联,当然,此处列举的手机号对应的用户之间的关系仅为示例,本申请并不受限于此)。但在其余94条日志信息(不包含公网IP相同的5条,以及,不包含与5条中任一对应的设备唯一信息相同的1条)中,存在4条日志信息与确定具有关联的6条日志信息对应的手机号存在关联。那么,可以将这10条日志信息作为一个分类,表示这些日志信息对应的用户身份(实体)之间具有关联关系。
需要说明的是,公网IP这个参数可以选取“相同”作为认定对应的用户身份(实体)具有关联关系的指标,设备唯一信息这个参数也可以选取“相同”作为认定对应的用户身份(实体)具有关联关系的指标,而手机号这个参数可以选取“相同”或者“关联(即前述的互相关联的手机号)”作为认定对应的用户身份(实体)具有关联关系的指标。
公网IP、设备唯一信息和手机号码,这些信息相同或关联,通常说明其用户具有较为亲密的关系,因此,通过将公网IP、设备唯一信息和手机号码中任一项具有关联关系的日志信息确定为同一个分类,能够尽可能全面地确定出日志信息对应的实体之间的关联关系。
由此,可以根据第一数据集中的多条日志信息确定出多个分类。确定出多个分类后,即可得到包含这些分类的第二数据集。
确定出第二数据集后,服务器可以执行步骤S30。
步骤S30:根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。
从交易的角度上来说,交易的时间非常重要,不同时间,其交易的金融产品(例如股票、债券等)的交易价格都可能相差极大,因此,交易时间的间隔越大,则说明两笔交易之间的独立性越强。基于此,为了尽可能提升确定出的分类中日志信息对应的用户身份(实体)具有关联关系的准确性,服务器可以根据基于时间确定出的筛选规则,对分类中的日志信息进行筛选。
此处以服务器对第二数据集中的一个分类进行筛选为例(对第二数据集中的其他分类的筛选也可以参照此过程进行)进行说明,但不作为限定。
示例性的,服务器可以确定出第二数据集的同一分类中每条日志信息的产生时间(可以与交易时间对应)。以及,服务器可以确定出同一分类中每条日志信息的产生时间与该分类中其他日志信息的产生时间之间的最小时间差值,并将最小时间差值超出预设值的日志信息剔除。
例如,第二数据集中的一个分类中4条日志信息和对应的产生时间分别为:A日志信息(产生时间为11:20:02)、B日志信息(产生时间为11:18:16)、C日志信息(产生时间为15:45:09)和D日志信息(产生时间为10:31:48)。那么,A日志信息的产生时间与该分类中其他日志信息的产生时间之间的时间差值分别为:A与B相差1分46秒;A与C相差4小时25分7秒;A与D相差48分14秒。那么,A日志信息对应的最小时间差值为1分46秒,而预设值为1小时(也可以为2小时、30分等,此处不作限定,以实际情况为准),因此,A日志信息是可以保留的。同理,B日志信息对应的最小时间差值为1分46秒,未超出预设值,保留;C日志信息对应的最小时间差值为4小时25分7秒,超出了预设值,剔除;D日志信息对应的最小时间差值为46分28秒,未超出预设值,保留。
由此,可以对第二数据集的分类中的日志信息进行进一步的筛选,以确定出筛选后的分类。
通过对同一分类中的每条日志信息的产生时间进行分析,将其中产生时间与其他日志信息的产生时间的最小的时间差值都超出预设时间值的日志信息从该分类中去除,可以排除一些时间间隔较大(时间间隔大说明相互之间的独立性较高)的日志信息,从而尽可能提升确定出的同一分类中的日志信息所对应的用户身份具有关联关系的准确性。
需要说明的是,以上通过日志信息的产生时间对分类中的日志信息进行筛选的方式,只是多种方式中的一种,不应视为对本申请的限定。
而分类中日志信息的数量是否反常,通常可以反映该分类中日志信息对应的用户身份具有关联关系的可信度。此处的特殊情况例如,一个分类中由于日志信息的公网IP相同,具有108条日志信息,有极大可能性是由于此公网IP为小群体内公用的公网IP。而一个分类中只包含一条日志信息的情况,表明该条日志信息对应的用户身份(实体),在本次的数据集中没有与之具有关联关系的用户身份(实体)。
因此,为了进一步提升确定出的分类中日志信息对应的用户身份(实体)具有关联关系的准确性,在本实施例中,服务器可以根据分类中日志信息的数量,对分类进行进一步筛选。
在本实施例中,服务器可以确定出筛选后的每个分类中日志信息的数量,将日志信息的数量在预设数量阈值范围内的分类保留,以确定出用于揭示用户身份关系的有效数据集。
示例性的,以服务器对一个分类的筛选过程为例进行介绍。服务器可以确定出根据产生时间筛选后的分类中的日志信息的数量,以及,将日志信息的数量与预设数量阈值进行比较,判断该分类中日志信息的数量是否在预设数量阈值范围内。若该分类中日志信息的数量在预设数量阈值范围内,则保留该分类;若该分类中日志信息的数量不在预设数量阈值范围内,则剔除该分类。
例如,根据产生时间对日志信息进行筛选后的4个分类,分类及其对应的日志信息的数量分别为:W分类对应的日志信息的数量为25条;X分类对应的日志信息的数量为12条;Y分类对应的日志信息的数量为3条;Z分类对应的日志信息的数量为1条;预设数量阈值为2至20。那么,W分类和Z分类剔除,保留X分类和Y分类。
因此,通过对因分类中日志信息的数量过高(可能由于身份认定信息属于小群体内公用的,例如多人公用的公网IP、多人公用的终端等)或过低(例如一个分类中只有一条日志信息,则属于与其他日志信息没有关联的日志信息)而不满足条件的分类进行排除,可以进一步提高方法的准确性。
对经日志信息数量筛选后的分类进行筛选后,服务器可以基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。
而确定出有效数据集后,服务器可以根据有效数据集中的分类,基于每个分类生成包含该分类中所有日志信息的图谱,并将图谱发送给终端。
当然,也可以是服务器将有效数据集发送给终端,由终端根据有效数据集中的分类,基于每个分类生成包含该分类中所有日志信息的图谱。因此,此处不应视为对本申请的限定。
根据有效数据集中的分类生成对应的图谱,通过图谱展示日志信息之间地关联关系,可以直观地展示日志信息对应的用户身份(实体)之间的关联关系。
需要说明的是,本申请实施例中的用户身份查证方法,可以一天统计一次,也可以一天统计多次,或者多天统计一次,此处不作限定。
本实施例以一天统计一次为例,服务器还可以获取多次的统计结果(即获取服务器多天确定出的有效数据集),并确定出其中连续多次(例如10次)与新开户(例如开户时间为一个月内)的用户身份执行同向交易(同买或同卖)的用户身份,并将二者合并为一个分类。当然,为了提高准确性,可以对交易的时间进行一定的限制(例如二者的交易时间差不超过4小时)。通过这样的方式,可以准确全面确定出具有关联关系的用户身份,从而有利于解决“老鼠仓”问题。
以及,通过服务器处理数据中心的数据,在将数据处理后发送给终端,由于过滤掉的部分数据,因此可以缓解服务器需要记录和处理的数据量过大的压力,也可以大大地减少终端需要存储的数据,有利于保持用户身份查证系统的性能,避免由于数据量过大和堆积过快而造成的系统性能降低的问题。
请参阅图4,基于同一发明构思,本申请实施例还提供一种用户身份查证装置30,包括:
获取模块31,用于获取包含多条日志信息的第一数据集,其中,所述日志信息中包含揭示用户身份的身份认定信息;分类模块32,用于根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;筛选模块33,用于根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集。
在本实施例中,所述获取模块31,还用于获取原始数据集;根据预设的过滤条件,对所述原始数据集进行过滤,确定出所述第一数据集,其中,所述过滤条件用于过滤机构不关心的日志信息。
在本实施例中,所述分类模块32,还用于确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类;根据确定出的分类,确定出包含多个分类的第二数据集。
在本实施例中,所述身份认定信息包括公网IP、设备唯一信息和手机号码,所述分类模块32,还用于确定出每条日志信息中的公网IP、设备唯一信息和手机号码;根据所述公网IP、所述设备唯一信息和所述手机号码,将所有的所述公网IP、所述设备唯一信息和所述手机号码中任一项具有关联关系的日志信息确定为同一个分类。
在本实施例中,所述筛选模块33,还用于确定出所述第二数据集的所述分类中每条日志信息的产生时间;将所述产生时间与该分类中所有其他日志信息的产生时间之间的最小时间差值超出预设时间值的日志信息从该分类中去除,以对所述第二数据集中每个分类进行筛选。
在本实施例中,所述筛选模块33,还用于确定出所述筛选后的每个分类中所述日志信息的数量;将所述日志信息的数量在预设数量阈值范围内的分类保留;根据保留的分类,确定出用于揭示用户身份关系的有效数据集。
在本实施例中,所述装置还包括图谱模块,所述图谱模块,在所述筛选模块33基于筛选后的分类确定出用于揭示用户身份关系的有效数据集之后,用于基于所述有效数据集中的分类生成对应的图谱。
本申请实施例还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如本申请实施例提供的用户身份查证方法的步骤。
综上所述,本申请实施例提供一种用户身份查证方法、装置、存储介质及电子设备,通过对日志信息进行分类,每个分类中包含的日志信息对应的用户身份均具有关联关系。而利用分类中每条日志的产生时间,对分类后的日志信息进行进一步筛选,不仅能够进一步提升确定具有关联关系的日志信息的准确性,还可以减少数据量,以提升进行一致性关系分析的系统的性能。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
另外,作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种用户身份查证方法,其特征在于,所述方法包括:
获取包含多条日志信息的第一数据集,其中,所述日志信息中包含揭示用户身份的身份认定信息;
根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;
根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集;
其中,所述根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,包括:
确定出所述第二数据集的所述分类中每条日志信息的产生时间;
将所述产生时间与该分类中所有其他日志信息的产生时间之间的最小时间差值超出预设时间值的日志信息从该分类中去除,以对所述第二数据集中每个分类进行筛选;
所述基于筛选后的分类确定出用于揭示用户身份关系的有效数据集,包括:
确定出所述筛选后的每个分类中所述日志信息的数量;
将所述日志信息的数量在预设数量阈值范围内的分类保留;
根据保留的分类,确定出用于揭示用户身份关系的有效数据集。
2.根据权利要求1所述的用户身份查证方法,其特征在于,获取包含多条日志信息的第一数据集,包括:
获取原始数据集;
根据预设的过滤条件,对所述原始数据集进行过滤,确定出所述第一数据集,其中,所述过滤条件用于过滤机构不关心的日志信息。
3.根据权利要求1所述的用户身份查证方法,其特征在于,根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,包括:
确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类;
根据确定出的分类,确定出包含多个分类的第二数据集。
4.根据权利要求3所述的用户身份查证方法,其特征在于,所述身份认定信息包括公网IP、设备唯一信息和手机号码,确定出每条日志信息中的身份认定信息,并将身份认定信息相互关联的日志信息确定为一个分类,包括:
确定出每条日志信息中的公网IP、设备唯一信息和手机号码;
根据所述公网IP、所述设备唯一信息和所述手机号码,将所有的所述公网IP、所述设备唯一信息和所述手机号码中任一项具有关联关系的日志信息确定为同一个分类。
5.根据权利要求1至4中任一项所述的用户身份查证方法,其特征在于,在所述基于筛选后的分类确定出用于揭示用户身份关系的有效数据集之后,所述方法还包括:
基于所述有效数据集中的分类生成对应的图谱。
6.一种用户身份查证装置,其特征在于,所述装置包括:
获取模块,用于获取包含多条日志信息的第一数据集,其中,所述日志信息中包含揭示用户身份的身份认定信息;
分类模块,用于根据所述身份认定信息,对所述第一数据集中的日志信息进行分类,确定出包含多个分类的第二数据集,其中,每个分类中的日志信息对应的用户身份相互关联;
筛选模块,用于根据所述分类中每条日志信息的产生时间,对所述第二数据集中所述分类的日志信息进行筛选,并基于筛选后的分类确定出用于揭示用户身份关系的有效数据集;
所述筛选模块,具体用于确定出所述第二数据集的所述分类中每条日志信息的产生时间;将所述产生时间与该分类中所有其他日志信息的产生时间之间的最小时间差值超出预设时间值的日志信息从该分类中去除,以对所述第二数据集中每个分类进行筛选;以及确定出所述筛选后的每个分类中所述日志信息的数量;将所述日志信息的数量在预设数量阈值范围内的分类保留;根据保留的分类,确定出用于揭示用户身份关系的有效数据集。
7.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的用户身份查证方法的步骤。
8.一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至5中任一项所述的用户身份查证方法的步骤。
CN202010009097.8A 2020-01-03 2020-01-03 用户身份查证方法、装置、存储介质及电子设备 Active CN111221923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010009097.8A CN111221923B (zh) 2020-01-03 2020-01-03 用户身份查证方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010009097.8A CN111221923B (zh) 2020-01-03 2020-01-03 用户身份查证方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111221923A CN111221923A (zh) 2020-06-02
CN111221923B true CN111221923B (zh) 2023-08-25

Family

ID=70825887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010009097.8A Active CN111221923B (zh) 2020-01-03 2020-01-03 用户身份查证方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111221923B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106102090A (zh) * 2016-06-14 2016-11-09 国家计算机网络与信息安全管理中心 一种lte多接口数据回填方法和装置
CN106549790A (zh) * 2015-09-22 2017-03-29 华为技术有限公司 一种用于溯源的映射表的更新方法和装置
CN109120960A (zh) * 2017-06-23 2019-01-01 武汉矽感科技有限公司 基于电视机的行为日志采集方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192278B2 (en) * 2016-03-16 2019-01-29 Institute For Information Industry Traceable data audit apparatus, method, and non-transitory computer readable storage medium thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106549790A (zh) * 2015-09-22 2017-03-29 华为技术有限公司 一种用于溯源的映射表的更新方法和装置
CN106102090A (zh) * 2016-06-14 2016-11-09 国家计算机网络与信息安全管理中心 一种lte多接口数据回填方法和装置
CN109120960A (zh) * 2017-06-23 2019-01-01 武汉矽感科技有限公司 基于电视机的行为日志采集方法及装置

Also Published As

Publication number Publication date
CN111221923A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN106875078B (zh) 交易风险检测方法、装置及设备
CN108449327A (zh) 一种账号清理方法、装置、终端设备及存储介质
CN110895758B (zh) 存在作弊交易的信用卡账户的筛选方法、装置及系统
CN113139687B (zh) 一种预测信用卡用户违约的方法及装置
CN109615389A (zh) 电子支付交易风险控制方法、装置、服务器及存储介质
CN112085488A (zh) 一种通用积分账户管理方法及系统
CN110930218A (zh) 一种识别欺诈客户的方法、装置及电子设备
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
CN110807643A (zh) 一种用户信任评估方法、装置及设备
CN113360269A (zh) 一种任务分配方法、装置、服务器及存储介质
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN112950359B (zh) 一种用户识别方法和装置
CN111221923B (zh) 用户身份查证方法、装置、存储介质及电子设备
CN111861738A (zh) 风控规则筛选方法、装置、计算机设备及存储介质
CN112184238A (zh) 金融租赁行业的反洗钱监控方法、装置、电子设备及介质
CN108960111B (zh) 人脸识别方法、系统及终端设备
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN113610175B (zh) 一种业务策略生成方法、装置及计算机可读存储介质
CN114971887A (zh) 信贷系统的作业监控方法及装置、存储介质、电子设备
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114492628A (zh) 信用额度调整方法、装置、计算机设备及存储介质
CN109325102B (zh) 一种识别非法单据的方法以及识别装置
CN114140241A (zh) 一种交易监控指标的异常识别方法及装置
CN113487440A (zh) 模型生成、健康险理赔的确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant