CN112732697B - 关联数据一致性处理方法、装置、存储介质及电子设备 - Google Patents

关联数据一致性处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112732697B
CN112732697B CN202110082722.6A CN202110082722A CN112732697B CN 112732697 B CN112732697 B CN 112732697B CN 202110082722 A CN202110082722 A CN 202110082722A CN 112732697 B CN112732697 B CN 112732697B
Authority
CN
China
Prior art keywords
data record
data
records
record
user identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110082722.6A
Other languages
English (en)
Other versions
CN112732697A (zh
Inventor
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Dajiaying Information Technology Co Ltd
Original Assignee
Suzhou Dajiaying Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Dajiaying Information Technology Co Ltd filed Critical Suzhou Dajiaying Information Technology Co Ltd
Priority to CN202110082722.6A priority Critical patent/CN112732697B/zh
Publication of CN112732697A publication Critical patent/CN112732697A/zh
Application granted granted Critical
Publication of CN112732697B publication Critical patent/CN112732697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Computer Security & Cryptography (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于关联数据一致性处理方法、装置、存储介质及电子设备,该方法包括访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;根据清洗结果,得到处理后的数据记录。本公开可以提升数据正确率。

Description

关联数据一致性处理方法、装置、存储介质及电子设备
技术领域
本公开涉及互联网通信领域,尤其涉及关联数据一致性处理方法、装置、存储介质及电子设备。
背景技术
相关技术中应用程序为了充分适应市场,提升用户粘度,很多场景中可以服务于多种用户,并且可以为每种用户提供多种使用功能的途径。不同种类的用户通过不同途径使用应用程序提供的功能的过程中,可能产生多条数据,而事实上,在很多场景中,产生的多条数据并不一定符合用户的真实情况,即数据记录与真实情景相背离,出现数据记录间不一致,以及数据记录与真实情景不一致的情况,而对于数据不一致问题的忽视或者处理失当可能导致部分不良用户存在作弊行为,影响了数据记录的正确性,为数据进一步处理带来困难,也降低了应用程序的用户粘度。
发明内容
本公开提供关联数据一致性处理方法、装置、存储介质及电子设备,以至少解决相关技术中部分不良用户存在作弊行为,影响了数据记录的正确性的技术问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种关联数据一致性处理方法,包括:
访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;
在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;
根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;
根据清洗结果,得到处理后的数据记录。
在一示例性的实施方式中,所述根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据中确定唯一符合数据一致性的数据记录,包括:
获取所述关联数据记录中每个数据记录的数据记录来源;
若所述关联数据记录中各个所述数据记录的数据记录来源取值不唯一,则在各个所述数据记录覆盖数据记录来源中,确定可靠度最高的目标来源,在所述关联数据记录中删除数据记录来源取值不等于所述目标来源的数据记录。
在一示例性的实施方式中,所述根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据中确定唯一符合数据一致性的数据记录,包括:
若所述关联数据记录中各个所述数据记录的数据记录来源取值唯一,则获取所述各个所述数据记录的第二用户标识;
若所述第二用户标识的获取结果为空,则为数据记录产生时间最近的数据记录确定第二用户标识,并将补充第二用户标识后的所述数据记录确定为目标数据记录。
在一示例性的实施方式中,所述获取所述各个所述数据记录的第二用户标识之后,所述方法还包括:
若所述第二用户标识的获取结果唯一,则根据所述关联数据记录中的各个数据记录得到数据记录集;
若所述数据记录集中仅有一条数据记录,则根据提取结果确定目标数据记录。
在一示例性的实施方式中,在所述根据所述关联数据记录中的各个数据记录得到数据记录集之后,所述方法还包括:
若所述数据记录集有多条数据记录,则获取所述数据记录集中每个数据记录的第一用户行为描述;
若所述数据记录集中各个所述数据记录的第一用户行为描述唯一,则将所述数据记录集中数据记录产生时间最早的数据记录确定为目标数据记录;
若所述数据记录集中各个所述数据记录的第一用户行为描述不唯一,则将所述数据记录集中数据记录产生时间最晚的数据记录确定为目标数据记录。
在一示例性的实施方式中,所述获取所述各个所述数据记录的第二用户标识之后,所述方法还包括:
若所述第二用户标识的获取结果不唯一,则获取所述关联数据记录中每个数据记录的第一用户行为描述;
若所述关联数据记录中各个所述数据记录的第一用户行为描述唯一,则将所述关联数据记录中数据记录产生时间最晚的数据记录确定为目标数据记录;
若所述关联数据记录中各个所述数据记录的第一用户行为描述不唯一,则对所述关联数据记录中的数据记录进行复核,根据复核结果确定目标数据记录。
根据本公开实施例的第二方面,提供一种关联数据一致性处理装置,包括:
数据记录获取模块,用于访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;
关联数据确定模块,用于在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;
清洗模块,用于根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;
处理结果获取模块,用于根据清洗结果,得到处理后的数据记录。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的关联数据一致性处理。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施方式所述的关联数据一致性处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一种实施方式中提供的关联数据一致性处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例提供的关联数据一致性处理方法,对于关联数据,从数据来源可靠度,第二用户标识获取结果,第一用户行为描述获取结果,结合行为学逻辑和心理学逻辑对关联数据进行自动清洗,得到大概率与事实具备一致性的数据,缩小不良用户的作弊空间,提升数据正确率,从而确保为用户公平合理提供数据服务,提升用户粘度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的关联数据一致性处理流程示意图;
图2是根据一示例性实施例示出的一种情况下进行数据清洗的示意图;
图3是根据一示例性实施例示出的根据对于第二用户标识的识别结果对数据记录进行甄选的示意图;
图4是根据一示例性实施例示出的对数据记录集进行甄选的示意图;
图5是根据一示例性实施例示出的一种关联数据一致性处理装置的示意图;
图6是根据一示例性实施例示出的关联数据一致性处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应用程序可以服务于一种或多种用户,以招聘类应用软件为例,其至少可以服务于求职者,招聘者和猎头者。对于每种用户,应用程序也可以为其提供多种使用某种功能的途径。以招聘类应用软件为求职者跟进求职进展为例,求职者可以通过操作运行有应用程序的录入设备录入求职进展,在一些场景中,可以将该录入设备设置于求职者的报名现场,求职者在报名现场通过操作所述录入设备进行签到,即可跟进求职进展。求职者也可以通过与猎头者的交互,由猎头者将求职者的求职进展录入所述应用程序,也可以通过与应用程序相关的门店负责人将相关求职者的求职进展录入所述应用程序。
应用程序提供的实现某种功能的多种手段在一定程度上提升了应用程序的可操作性,但是每种手段也可以独立生成对应的数据记录,这就带来了数据不一致的风险。如果不能及时对数据不一致进行处理,可能影响应用程序的使用,降低应用程序的数据的正确性。比如,猎头者通过求职者的求职进展获得自身的工作绩效,因此,不排除猎头者可能为了体现自身的工作能力,自行录入虚假的求职进展,或者将其它猎头者的工作成果窃为己有。
为了解决数据一致性问题,及时对数据进行清洗,确保数据正确度,本公开实施例提供关联数据一致性处理方法,从数据记录的多个维度横向比较存在关联的数据记录之间的关系,从中确定最大概率与真实情况相符合的数据记录,滤除数据不一致的数据记录。基于具备高度数据一致性的记录进行后续的数据处理,降低了不良用户作弊风险,确保了应用程序的实施效果,提升了用户粘度。
图1是根据一示例性实施例示出的一种关联数据一致性处理方法的流程图,包括以下步骤:
在步骤S10中,访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系。
本公开实施例中可以根据第一用户标识和第二用户标识来进行一致性数据处理,一致性数据处理的基础是第一用户标识和第二用户标识存在的关联关系。第一用户和第二用户可以是发生某个事件时的参与双方,某个事件发生唯一对应一条数据记录,而其它表征这一事件的其它数据记录则有可能是数据不一致的需要被清理的数据记录。
示例性的,以第一用户为求职者,第二用户为猎头者为例,猎头者a介绍求职者A到甲公司进行工作,则可以对应生成一条数据记录,求职者A可以对应于第一用户标识,猎头者a可以对应于第二用户标识。对于猎头者a介绍求职者A到甲公司进行工作这一事件,可以生成这样一条数据记录A:
第一用户标识:求职者A的标识;
第二用户标识:猎头者a的标识;
数据记录来源:录入设备;
数据记录产生时间:20200113;
第一用户行为描述:求职者A于20200110在甲公司上班。
但是,可能另一猎头B企图将求职者A的求职进展成果据为己有,自行录入数据记录B:
第一用户标识:求职者A的标识;
第二用户标识:猎头者B的标识;
数据记录来源:录入设备;
数据记录产生时间:20200115;
第一用户行为描述:求职者A于20200110在甲公司上班。
这种场景中,服务器内可能存在两条用于描述相同事件的记录,数据记录A与事件是一致的,数据记录B与事件是不一致的,而相关技术中缺少自行对于数据记录B的甄别处理手段,从而导致了数据不一致问题。以招聘类应用软件为例,这可能导致动机不良的猎头者通过作弊窃取其它猎头者的成果,威胁合法用户利益,降低用户粘度。
在一个示例性的实施方式中,应用程序可以使用区块链存储各个用户通过各种途径产生的数据记录,将区块链作为数据存储空间,通过与区块链的交互得到预设时间区间内的多条数据记录,并对其进行一致性处理,将处理后的结果保存在关系型数据库中,以便于对处理结果进行访问。
在一个示例性的实施方式中,一个区块链网络可以具备多个通道,多个通道不互通,每个通道可以对应于一个物理地址区间,由这一物理地址区间产生的数据记录被存储在对应的通道指向的区块链节点中,每个区块链节点均可以布设智能合约解析器。本公开实施例中构建的智能合约解析器,可以实现关系型数据和KV键值数据的相互转换,所述关系型数据可以被关系型数据库解析处理,并支持对外访问;KV键值数据可以被区块链存储。本公开实施例通过智能合约解析器,实现了基于区块链存储大数据的数据记录,以及对数据记录进行提取,基于关系型数据库存储具备一致性的数据记录,并基于关系型数据库支持对外访问的技术方案。与之形成对应的,相关技术中区块链数据难以支持关系查询语言的查询,这显著降低了查询效率,难以实现数据存储和数据访问的性能平衡。
以获取一条数据记录为例,将所述数据记录作为新增记录,智能合约解析器需要将该新增记录转换为KV键值数据存储在对应的区块链节点中,所述区块链节点中的数据记录包括新增记录的操作名、新增数据记录指向的表名、新增记录指向的表名对应的新增记录主键值、每个新增记录主键值对应的新增记录其它属性值。
具体地,根据新增记录指向的表名和新增记录主键值构建KV键值模型中的K键,基于新增记录主键值对应的新增记录其它属性值构建KV键值模型中的V值,得到对应的KV键值数据。
在本公开实施例中,可以通过获取数据记录,将数据记录转化为KV键值数据存储在区块链中,对区块链中数据进行定期清洗的方式进行一致性的数据处理。
示例性的,在步骤S10中,可以每隔预设时间提取一次在该预设时间区间内区块链中新增的数据,将这部分数据通过智能合约解析器还原为多条数据记录,并对数据记录进行一致性清洗,将清洗后的具备一致性的数据存储在关系型数据库的数据记录表中,从而便于提供基于数据记录表的后续数据服务。
在一个示例性的实施场景中,以招聘类应用程序为例,可以以日为单位对猎头的工作绩效进行考核,则可以提取该日中被记录在区块链中的全部KV键值数据,通过智能合约解析器将该全部KV键值数据还原为多条数据记录,对该多条数据记录进行清洗,将清洗后的具备一致性的数据记录存储在数据记录表中,即可根据存入该数据记录表中的数据记录进行后续的数据处理,示例性的,可以计算各个猎头的工作绩效。
在步骤S20中,在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录。
本公开实施例中每个第一用户在预设时间区间内至多发生一个事件,也就是说,第一用户标识唯一对应一条目标数据记录,如若存在多条包括第一用户标识的数据记录,本公开中将这一类记录称之为关联记录,通过对关联记录进行处理,在关联记录中选择唯一一条目标数据记录,将关联记录中的非目标数据记录清洗掉,实现了数据一致性处理。
以上文示例为例进行说明,数据记录A和数据记录B即为关联记录:
数据记录A:第一用户标识:求职者A的标识;
第二用户标识:猎头者a的标识;
数据记录来源:录入设备;
数据记录产生时间:20200113;
第一用户行为描述:于20200110在甲公司上班。
数据记录B:第一用户标识:求职者A的标识;
第二用户标识:猎头者B的标识;
数据记录来源:录入设备;
数据记录产生时间:20200115;
第一用户行为描述:于20200110在甲公司上班。
在步骤S30中,根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录。
本公开实施例中可以根据关联数据记录中各个数据记录之间的关系,对各个数据记录进行智能化分析,从而确定最大概率与事实相一致的数据记录,实现关联数据记录的清洗。
在一个示例性实施方式中,如图2所示,其示出了一种情况下进行数据清洗的示意图,包括:
在步骤S31中,获取所述关联数据记录中每个数据记录的数据记录来源。
在步骤S32中,若所述关联数据记录中各个所述数据记录的数据记录来源取值不唯一,则在各个所述数据记录覆盖数据记录来源中,确定可靠度最高的目标来源,在所述关联数据记录中删除数据记录来源取值不等于所述目标来源的数据记录。
示例性的,若招聘类应用软件可以提供三种数据来源,即用户可以使用三种方式录入数据记录,分别为通过录入设备录入,通过负责人录入和通过猎头录入,可以认为录入设备录入结果最为可靠,而猎头录入场景中,由于猎头与数据记录存在利益关系,可能产生作弊行为,因此,由猎头录入的数据记录可靠程度最低。因此,若关联数据记录中多个数据记录不只来源于唯一一个途径,则将从可靠程度最高的途径得来的数据记录保留,其它的数据记录删除,本公开实施例中通过可靠度来进行数据筛选,将可靠度作为数据清洗的最主要标准,从而较大概率得到与事实相一致的目标数据记录,降低作弊风险,提升数据正确度。
在删除数据记录来源取值不等于所述目标来源的数据记录之后,所述关联数据如果只剩下一条记录,则其被确定为目标数据记录,若所述关联数据中还剩下多于一条的数据记录,还可以通过本文后续的步骤进一步甄选出目标数据记录,即进入步骤S33。
在步骤S33中,若所述关联数据记录中各个所述数据记录的数据记录来源取值唯一,则获取所述各个所述数据记录的第二用户标识。
当然,若所述关联数据记录中各个所述数据记录的数据记录来源取值唯一,并且所述关联数据记录中仅存在一条数据记录,则将仅存的所述一条数据记录确定为目标数据记录,若该仅存的一条数据记录缺少第二用户标识,则可以为其补充,补充方法参考下文,在此不进行赘述。
本公开实施例中,第一用户标识和第二用户标识对于确定目标数据记录最为重要,因此,在基于数据来源可靠度进行数据筛选的基础上,若关联数据中包括多条数据记录,则本公开实施例进一步根据第二用户标识的获取结果实现关联数据记录的进一步甄选。
在一个示例性的实施例中,请参考图3,其示出了根据对于第二用户标识的识别结果对数据记录进行甄选的示意图,包括:
在步骤S331中,若所述第二用户标识的获取结果为空,则为数据记录产生时间最近的数据记录确定第二用户标识,并将补充第二用户标识后的所述数据记录确定为目标数据记录。
示例性的,如果所述关联记录中存在两条数据记录,均来自于录入设备,并且都缺少第二用户标识,则可以根据相关的其它数据为最近产生的数据记录补充第二用户标识后得到目标数据记录。比如,可以根据第一用户标识查询第一用户的相关数据,从中提取出跟第一用户产生交集的第二用户,将该第二用户对应的第二用户标识补充进去。或者也可以交由人工审核模块,通过人工介入的方式为该数据记录补充第二用户标识。
在步骤S332中,若所述第二用户标识的获取结果唯一,则根据所述关联数据记录中的各个数据记录得到数据记录集。
当然若所述数据记录集中仅有一条数据记录,则根据提取结果确定目标数据记录,处理方式参考上文,在此不再赘述。若存在多条数据记录,请参考图4,其示出了对数据记录集进行甄选的示意图,包括:
在步骤S3321中,获取所述数据记录集中每个数据记录的第一用户行为描述。
在步骤S3322中,若所述数据记录集中各个所述数据记录的第一用户行为描述唯一,则将所述数据记录集中数据记录产生时间最早的数据记录确定为目标数据记录。
本公开实施例中,在预设时间区间内第一用户至多产生一种行为,因此,若存在多个第一用户行为描述相同的行为,即所述数据记录集中存在第一用户行为描述相同的多个数据记录,则将数据记录产生时间最早的数据记录确定为目标数据记录。
示例性的,以招聘类应用软件为例,若记录求职者A在猎头者a的引荐下报名了企业A,这个事件在早上7点和晚上6点各生成了一条数据记录,则这两条数据记录中第一用户标识、第二用户标识和第一行为描述都相同,可以被判定为重复录入,将早上7点的数据记录自动确定为目标数据记录,即第一用户大概率在早上7点产生了报名行为,而晚上6点则大概率是用户的重复报名行为,其对应的数据记录不能作为目标数据记录。
在步骤S3323中,若所述数据记录集中各个所述数据记录的第一用户行为描述不唯一,则将所述数据记录集中数据记录产生时间最晚的数据记录确定为目标数据记录。
示例性的,在预设时间区间内第一用户至多产生一种行为,因此,若存在多个第一用户行为描述不同的行为,并且第一用户标识和第二用户标识相同,则可以认为数据记录产生时间最晚的数据记录对应的事件大概率是最终发生的事件,将这一数据记录确定为目标数据记录。
示例性的,以招聘类应用软件为例,若在早上七点求职者A在猎头者a的引荐下报名了企业A,在晚上6点求职者A在猎头者a的引荐下报名了企业B,则这两条数据记录中第一用户标识、第二用户标识相同,差别点仅在于第一用户行为描述不同,根据用户行为学合理推理可知,如果用户去了企业A报名后在企业A服务,则不可能在同一天再去企业B报名,因此,可以认为用户实际上最终选择到企业B报名,因此,将用户到企业B报名的记录确定为目标数据记录。
本公开实施例对于存在多条具备相同第一用户标识和第二用户标识的数据,根据行为学合理推理,视第一用户行为描述的不同情况,对应选择了最大概率与事实具备一致性的目标数据记录,提升目标数据记录正确度,也避免不良用户可能的在已知第一用户标识和第二用户标识的情况下构建虚假数据进行作弊的可能。
在步骤S333中,若所述第二用户标识的获取结果不唯一,则获取所述关联数据记录中每个数据记录的第一用户行为描述。
在一个示例性实施方式中,若所述关联数据记录中各个所述数据记录的第一用户行为描述唯一,则将所述关联数据记录中数据记录产生时间最晚的数据记录确定为目标数据记录。
以招聘类应用软件为例,若在早上七点求职者A在猎头者a的引荐下报名了企业A,在晚上6点求职者A在猎头者B的引荐下报名了企业A,则这两条数据记录中第一用户标识相同并且第一用户行为描述相同,但是第二用户标识不同。根据用户行为学合理推理可知,用户在猎头者a的引荐下有意向报名企业A,但是是在猎头者B的工作中确认了在企业A报名,因此,最终猎头者B的工作直接触发了用户到企业A报名的事件,因此,将其对应的记录确定为目标数据记录。
在一个示例性实施方式中,若所述关联数据记录中各个所述数据记录的第一用户行为描述不唯一,则对所述关联数据记录中的数据记录进行复核,根据复核结果确定目标数据记录。
以招聘类应用软件为例,若在早上七点求职者A在猎头者a的引荐下报名了企业A,在晚上6点求职者A在猎头者B的引荐下报名了企业B,则这两条数据记录中只有第一用户标识相同,其余参数均不相同。这种情况猎头者a和猎头者B都可能是作弊者,企图生成与自己相关的数据记录,提升自己的绩效,因此,这种情况难以根据用户行为学推理得到较为正确的结果,需要借助于人工复核确定最终的目标数据记录。
在步骤S40中,根据清洗结果,得到处理后的数据记录。
对于在步骤S10中得到的多条数据记录中,对于任意的关联数据记录,都可以被最终确定唯一的一个目标数据记录,并清洗掉非目标数据记录,并将清洗结果作为处理后的数据记录进行存储。示例性的,可以将处理后的数据记录存储在数据记录表中,所述数据记录表可以按照预设时间维度进行数据组织,并支持数据记录的查询和修改。
本公开实施例提供的一种关联数据一致性处理方法,对于关联数据,从数据来源可靠度,第二用户标识获取结果,第一用户行为描述获取结果,结合行为学逻辑和心理学逻辑对关联数据进行自动清洗,得到大概率与事实具备一致性的数据,缩小不良用户的作弊空间,提升数据正确率,从而确保为用户公平合理提供数据服务,提升用户粘度。
图5是根据一示例性实施例示出的一种关联数据一致性处理装置的框图。参照图5,该装置包括:
数据记录获取模块10,用于访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;
关联数据确定模块20,用于在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;
清洗模块30,用于根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;
处理结果获取模块40,用于根据清洗结果,得到处理后的数据记录。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中任一种实施方式中提供的关联数据一致性处理方法的步骤。
该电子设备可以终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图6是根据一示例性实施例示出的执行关联数据一致性处理方法的电子设备的框图,该电子设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在电子设备1000上执行存储介质1020中的一系列指令操作。电子设备1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中,输入输出接口100可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备1000还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
在示例性实施例中,还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一视频关联数据一致性处理方法的步骤。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一种实施方式中提供的关联数据一致性处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种关联数据一致性处理方法,其特征在于,包括:
访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;
在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;
根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;
根据清洗结果,得到处理后的数据记录。
2.根据权利要求1所述的关联数据一致性处理方法,其特征在于,所述根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据中确定唯一符合数据一致性的数据记录,包括:
获取所述关联数据记录中每个数据记录的数据记录来源;
若所述关联数据记录中各个所述数据记录的数据记录来源取值不唯一,则在各个所述数据记录覆盖数据记录来源中,确定可靠度最高的目标来源,在所述关联数据记录中删除数据记录来源取值不等于所述目标来源的数据记录。
3.根据权利要求2所述的关联数据一致性处理方法,其特征在于,所述根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据中确定唯一符合数据一致性的数据记录,包括:
若所述关联数据记录中各个所述数据记录的数据记录来源取值唯一,则获取所述各个所述数据记录的第二用户标识;
若所述第二用户标识的获取结果为空,则为数据记录产生时间最近的数据记录确定第二用户标识,并将补充第二用户标识后的所述数据记录确定为目标数据记录。
4.根据权利要求3中所述的关联数据一致性处理方法,其特征在于,所述获取所述各个所述数据记录的第二用户标识之后,所述方法还包括:
若所述第二用户标识的获取结果唯一,则根据所述关联数据记录中的各个数据记录得到数据记录集;
若所述数据记录集中仅有一条数据记录,则根据提取结果确定目标数据记录。
5.根据权利要求4中所述的关联数据一致性处理方法,其特征在于,所述在所述根据所述关联数据记录中的各个数据记录得到数据记录集之后,所述方法还包括:
若所述数据记录集有多条数据记录,则获取所述数据记录集中每个数据记录的第一用户行为描述;
若所述数据记录集中各个所述数据记录的第一用户行为描述唯一,则将所述数据记录集中数据记录产生时间最早的数据记录确定为目标数据记录;
若所述数据记录集中各个所述数据记录的第一用户行为描述不唯一,则将所述数据记录集中数据记录产生时间最晚的数据记录确定为目标数据记录。
6.根据权利要求3或4所述的关联数据一致性处理方法,其特征在于,所述获取所述各个所述数据记录的第二用户标识之后,所述方法还包括:
若所述第二用户标识的获取结果不唯一,则获取所述关联数据记录中每个数据记录的第一用户行为描述;
若所述关联数据记录中各个所述数据记录的第一用户行为描述唯一,则将所述关联数据记录中数据记录产生时间最晚的数据记录确定为目标数据记录;
若所述关联数据记录中各个所述数据记录的第一用户行为描述不唯一,则对所述关联数据记录中的数据记录进行复核,根据复核结果确定目标数据记录。
7.一种关联数据一致性处理装置,其特征在于,包括:
数据记录获取模块,用于访问数据记录存储空间,得到预设时间区间内的多条数据记录,每条所述数据记录包括第一用户标识、第二用户标识、数据记录来源、数据记录产生时间、第一用户行为描述,所述第二用户标识与所述第一用户标识存在关联关系;
关联数据确定模块,用于在所述多条数据记录中确定出关联数据记录,所述关联数据记录为第一用户标识相同的数据记录;
清洗模块,用于根据所述数据记录来源和所述第二用户标识对每个所述关联数据记录进行清洗,以在所述关联数据记录中确定唯一符合数据一致性的目标数据记录;
处理结果获取模块,用于根据清洗结果,得到处理后的数据记录。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任意一项所述的关联数据一致性处理方法。
9.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任意一项所述的关联数据一致性处理方法。
CN202110082722.6A 2021-01-21 2021-01-21 关联数据一致性处理方法、装置、存储介质及电子设备 Active CN112732697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110082722.6A CN112732697B (zh) 2021-01-21 2021-01-21 关联数据一致性处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110082722.6A CN112732697B (zh) 2021-01-21 2021-01-21 关联数据一致性处理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112732697A CN112732697A (zh) 2021-04-30
CN112732697B true CN112732697B (zh) 2022-09-09

Family

ID=75594731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110082722.6A Active CN112732697B (zh) 2021-01-21 2021-01-21 关联数据一致性处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112732697B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596587A (zh) * 2018-04-12 2018-09-28 乐蜜有限公司 提现审核方法、装置、电子设备、程序产品和存储介质
CN110502549A (zh) * 2019-07-08 2019-11-26 招联消费金融有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN110928917A (zh) * 2019-11-11 2020-03-27 北京齐尔布莱特科技有限公司 一种目标用户的确定方法、装置、计算设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386533B2 (en) * 2010-11-30 2013-02-26 Oracle International Corporation Records management of database tables

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596587A (zh) * 2018-04-12 2018-09-28 乐蜜有限公司 提现审核方法、装置、电子设备、程序产品和存储介质
CN110502549A (zh) * 2019-07-08 2019-11-26 招联消费金融有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN110928917A (zh) * 2019-11-11 2020-03-27 北京齐尔布莱特科技有限公司 一种目标用户的确定方法、装置、计算设备及介质

Also Published As

Publication number Publication date
CN112732697A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
US20140244664A1 (en) Method and Apparatus For Determining Similarity Information For Users of a Network
CN109284289B (zh) 数据集处理方法、装置、计算机设备及存储介质
US11809406B2 (en) Event records in a log file
CN109117172B (zh) 一种目标终端的终端版本号识别的方法及装置
CN110717647A (zh) 决策流构建方法、装置、计算机设备和存储介质
CN112631686A (zh) 数据处理方法、装置、计算机设备和存储介质
US20190197140A1 (en) Automation of sql tuning method and system using statistic sql pattern analysis
CN111177481B (zh) 用户标识映射方法及装置
CN112732697B (zh) 关联数据一致性处理方法、装置、存储介质及电子设备
CN114416485A (zh) 数据处理方法及装置
CN113901021A (zh) 用于多版本数据库的升级脚本生成方法、装置与电子设备
CN113793174A (zh) 数据关联方法、装置、计算机设备和存储介质
CN110059077A (zh) 一种数据核对方法、装置、设备和存储介质
CN113721950A (zh) 一种资损防控处理方法及装置
CN111651741A (zh) 用户身份识别方法、装置、计算机设备和存储介质
CN112819582B (zh) 订单数据显示方法、装置、存储介质及电子设备
CN112667655B (zh) 多端交互中的数据流转方法、装置、存储介质及电子设备
CN114781517A (zh) 风险识别的方法、装置及终端设备
CN110148011B (zh) 基于大数据的活跃量下降分析方法、装置、设备及介质
CN113448747A (zh) 数据传输方法、装置、计算机设备和存储介质
CN110399399B (zh) 用户分析的方法、装置、电子设备和存储介质
CN112883053B (zh) 多角色数据处理方法、装置、存储介质及电子设备
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质
CN113542796B (zh) 视频评测方法、装置、计算机设备和存储介质
CN113037822B (zh) 基于无线网络和云计算的媒体数据平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant