CN114820079B - 人群确定方法、装置、设备及介质 - Google Patents
人群确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114820079B CN114820079B CN202210557139.0A CN202210557139A CN114820079B CN 114820079 B CN114820079 B CN 114820079B CN 202210557139 A CN202210557139 A CN 202210557139A CN 114820079 B CN114820079 B CN 114820079B
- Authority
- CN
- China
- Prior art keywords
- identification information
- user identification
- condition
- fusion
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种人群确定方法、装置、设备及介质,涉及数据处理技术领域,具体涉及人工智能、云计算领域,可适用于人群确定场景。具体实现方案为:确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。本公开能够用户业务数据的处理效率,实现实时确定人群。
Description
技术领域
本公开涉及数据处理技术领域,具体涉及人工智能、云计算领域,可用于人群确定场景。
背景技术
RT-CDP(Real Time Customer Data Platform,实时客户数据平台)为企业提供线上、线下数据的打通管理的同时,企业可以使用精细化的客户分群,进行多场景的增育活动(比如自动化营销的手段,节假日促销通知,生日祝福短信,直播活动等等)。
实现RT-CDP的客户数据实时处理,对于挖掘维护客户以及驱动业务运营转化具有重要意义。
发明内容
本公开提供了一种人群确定方法、装置、设备及介质。
根据本公开的一方面,提供了一种人群确定方法,该方法包括:
确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;
在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;
根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。
根据本公开的另一方面,提供了一种人群确定装置,包括:
数据匹配模块,用于确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;
用户标识信息添加模块,用于在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;
中间结果处理模块,用于根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的人群确定方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任一实施例所述的人群确定方法。
根据本公开的技术,能够提高用户业务数据的处理效率,实现实时确定人群。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种人群确定方法的流程图;
图2是根据本公开实施例提供的另一种人群确定方法的流程图;
图3是根据本公开实施例提供的又一种人群确定方法的流程图;
图4是根据本公开实施例提供的又一种人群确定方法的流程图;
图5是根据本公开实施例提供的又一种人群确定方法的流程图;
图6是根据本公开实施例提供的又一种人群确定方法的流程图;
图7是根据本公开实施例提供的一种人群确定装置的结构示意图;
图8是用来实现本公开实施例的人群确定方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种人群确定方法的流程图,本公开实施例适用于基于RT-CDP进行人群确定的情况。该方法可以由人群确定装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于承载人群确定功能的电子设备中。如图1所示,本实施例的人群确定方法可以包括:
S101,确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件。
S102,在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中。
S103,根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。
其中,用户业务数据是指与业务相关的用户维度数据,用户业务数据是人群确定的数据基础。用户业务数据可能属于相同用户可能属于不同用户,用户业务数据可以是多源异构数据,可以同时包括多种不同类型数据,不同用户业务数据的数据格式以及存储位置可能存在差异。用户业务数据在得到用户明示授权的情况下得到。
其中,人群确定条件用于对用户业务数据进行筛选,人群确定条件可以根据不同业务场景灵活设定,可选的,通过条件配置界面中的条件配置模板配置人群确定条件,以保证人群确定条件的配置灵活性。
基于人群确定条件可以圈定满足业务需求的用户业务数据。人群确定条件的基本组成单位为条件块,条件块用于确定人群筛选条件,不同条件块可以从不同维度限制人群筛选条件。原子条件是构成条件块的基本组成单位,可选的,一个条件块包括至少两个原子条件,原子条件是人群确定条件的构成主体。可选的,通过对至少两个原子条件进行逻辑运算,将得到的逻辑运算结果确定为条件块。一个人群确定条件包括至少两个条件块,对至少两个条件块进行逻辑运算,可以得到人群确定条件。示例性的,逻辑运算可以是或运算或者且运算,具体逻辑运算类型在这里不作限定,具体根据实际业务需求确定。
可选的,构成同一人群确定条件的不同条件块互不相同,属于同一人群确定条件的条件块所包括的原子条件互不相同。
确定用户业务数据是否符合人群确定条件中的原子条件,可选的,将用户业务数据与人群确定条件中的原子条件进行匹配。示例性的,可以在人群确定条件中任选一个条件块,将用户业务数据与该条件块中的原子条件逐一匹配。
若匹配成功则可以确定用户业务数据符合人群确定条件中的原子条件。相对的,若匹配不成功则可以确定用户业务数据不符合人群确定条件中的原子条件。
在用户业务数据符合人群确定条件中的任一原子条件的情况下,表明该条用户业务数据与人群确定条件所圈定的人群相关,将该用户业务数据对应的用户标识信息添加到对应原子条件的中间结果中。
确定用户业务数据是否符合人群确定条件中的原子条件,可选的,确定属于当前时间片的用户业务数据是否符合人群确定条件中的原子条件,将符合任一原子条件的,且属于当前时间片的用户标识信息添加到对应原子条件的中间结果中。可选的,原子条件的中间结果是以缓存机制进行存储,原子条件的中间结果中包括属于其他时间片且符合人群确定条件中原子条件的用户标识信息,其他时间片一般是指在当前时间片之前的时间片。当前时间片对应的时间跨度具体根据实际业务需求确定,在这里不作限定,示例性的,当前时间片可以是3天。上述技术方案通过确定属于当前时间片的用户业务数据是否符合原子条件,提高了资源利用效率,保证用户业务数据处理实时性。
原子条件为条件块的基本组成单位。在原子条件的中间结果发生变化的情况下,同时需要更新原子条件所属的条件块的中间结果。由于不同条件块可以从不同维度限制人群筛选条件,不同条件块的中间结果中的用户标识信息可能存在交叉重叠的情况。也就是说,条件块的中间结果中不同用户标识信息可能对应相同用户。对至少两个条件块的中间结果进行聚合,将可能属于同一用户的用户标识信息进行聚合,从而将碎片化的用户业务数据进行整合梳理,得到人群确定结果。
本公开实施例提供的技术方案,通过设置人群确定条件,将符合人群确定条件中原子条件的用户业务数据添加到该原子条件的中间结果中;根据原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果,可以提高用户业务数据处理效率,实现实时确定人群。
在一个可选的实施例中,所述人群确定条件通过如下方式确定:根据条件类别和条件运算规则,对初始的人群筛选条件进行重构得到人群确定条件,使不同所述条件块之间为或运算,不同所述原子条件之间为和运算。
其中,条件运算规则用于将原子条件进行组合构成人群确定条件。基于条件运算规则对原子条件进行运算,可以得到条件块,基于条件运算规则对条件块进行运算可以得到人群确定条件。条件运算规则根据实际业务需求确定,在这里不作限定。示例性的,条件运算规则可以是对或运算或者且运算。
条件类别与用户业务数据的数据类别相对应,示例性的,用户业务数据可以包括:用户标识信息、属性特征数据和业务事件数据,条件类别相应可以包括:标识类、属性类和事件类。为了方便表述,以Id表示标识类,以P表示属性类,以E表示事件类。
初始的人群筛选条件根据业务需求确定,初始的人群筛选条件的不通过条件块之间和属于同一条件块中的不同原子条件之间的运算类型并不受限,示例性的,初始的人群筛选条件可以是(P1 and E1)or(P2 or Id1),其中,and表示且运算,or表示或运算,P1、P2、P1和Id1分别表示原子条件。将初始的人群筛选条件进行重构,使得不同条件块之间为或运算,不同原子条件之间为和运算,具体的将(P1 and E1)or(P2 and Id1)重构为(P1 and E1and P2)or(P1 and E1 and Id1)。(P1 and E1 and P2)和(P1 and E1 and Id1)分别表示条件块。
构成人群确定条件的条件块之间为或运算,表示用户业务数据符合任一条件块即满足人群确定条件。构成条件块的原子条件之间为和运算,表明用户业务数据需要符合条件块中全部的原子条件才能满足该条件块。
上述技术方案提供了人群确定条件的重构方式,通过使不同条件块之为或运算,不同原子条件之间的和运算,使得在用户业务数据不符合条件块中任一原始条件的情况下,即可确定用户业务数据不符合该条件块。在用户业务数据符合任一条件块的情况下,即可确定用户业务数据满足人群确定条件,无需综合人群确定条件的全部条件块,可以减少条件判断次数。若任一新的人群确定条件包括已有的条件块,则直接获取该条件块的中间结果,无需重复进行数据查询,提高了数据查询效率,为实现实时人群确定提供了技术支持。
在一个可选的实施例中,对所述条件块中条件类别相同的原子条件进行合并。
确定用户业务数据是否符合原子条件,可以基于原子条件的条件类别,在存储介质中查询对应数据类型的用户业务数据,再确定用户业务数据是否满足原子条件。由于用户业务数据一般为多源异构数据,不同数据类型的用户业务数据大多存储在不同存储介质中,相同数据类型的用户业务数据有更高的可能性存储在相同存储介质,将条件块中条件类别相同的原子条件进行合并,将相同数据类型的用户业务数据进行合并查询,可以有效提高用户业务数据的处理效率,为实现实时人群确定提供了技术支持。
继续以上例进行说明,在对初始的人群筛选条件(P1 and E1)or(P2 or Id1)进行重构得到人群确定条件(P1 and E1 and P2)or(P1 and E1 and Id1)。对条件块中条件类别相同的原子条件进行合并,具体的是将条件块(P1 and E1 and P2)中相同条件类别的P1和P2进行合并得到((P1 and P2)and E1)。经过合并处理的人群确定条件为((P1 and P2)and E1)or(P1 and E1 and Id1)。
图2是根据本公开实施例提供的另一种人群确定方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。本公开实施例提供了另一种人群确定方法,本实施例是在上述实施例的基础上提出的一种可选方案。具体的,本公开实施例在操作“将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中”之后,追加了操作“确定该原子条件的时间窗口和行为操作;根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效;在失效的情况下,从该原子条件的中间结果中滤除所述用户标识信息”
参见图2,本实施例提供的人群确定方法包括:
S201,确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件。
S202,在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中。
S203,确定该原子条件的时间窗口和行为操作。
原子条件的时间窗口决定了该原子条件的中间结果中用户标识信息的有效时长,用于确定用户标识信息是否失效。原子条件的时间窗口根据实际业务需求确定,在这里不作限定,示例性的,原子条件的时间窗口可以是5天。
原子条件的行为操作用于从行为操作维度对用户业务数据进行筛选。
S204,根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效。
时间窗口和行为操作分别从不同维度确定用户标识信息是否失效。
可选的,将时间窗口和行为操作为两个并列条件判断用户标识信息是否失效。具体的,可以分别基于时间窗口和行为操作确定用户标识信息是否失效。根据时间窗口确定用户标识信息是否失效,可选的,根据用户标识信息的接收时间戳确定用户标识信息是否在时间窗口内,进而判断用户标识信息是否失效。或者根据时间窗口为用户标识信息添加定时器,根据定时器的倒计时确定用户标识信息是否在时间窗口内,进而判断用户标识信息是否失效。若用户标识信息不在时间窗口内或者该户标识信息不存在行为操作,则确定用户标识信息失效。
用户标识信息的行为操作一般具备时间特征,也就是说用户标识信息的行为操作存在对应的操作时间。因此,还可以将时间窗口作为先决条件,对用户标识信息是否失效进行初步判断,若用户标识信息不在时间窗口内,确定用户标识信息存在失效可能。此时进一步根据行为操作最终确定用户标识信息是否失效。
S205,在失效的情况下,从该原子条件的中间结果中滤除所述用户标识信息。
用户标识信息失效则表明用户标识信息对于人群确定的参考价值不高,从提高资源利用率角度出发,从该原子条件的中间结果中滤除失效的用户标识信息,继续保留有效的用户标识信息。
S206,根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。
将失效的用户标识信息从原子条件的中间结果中滤除,使得原子条件的中间结果中均为有效的用户标识信息。根据原子条件的中间结果更新该原子条件所属的条件块的中间结果,从而保证条件块的中间结果的有效性,对至少两个条件块的中间结果进行聚合得到人群确定结果,进而提高了人群确定结果的准确性。
本公开实施例提供的技术方案,通过确定该原子条件的时间窗口和行为操作;根据时间窗口和行为操作,确定用户标识信息是否失效;在失效的情况下,从该原子条件的中间结果中滤除用户标识信息。不仅提高了资源利用率,还提高了人群确定的准确性。
在一个可选实施例中,所述根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效,包括:根据所述时间窗口,为所述用户标识信息添加定时器;在所述定时器倒计时结束且所述时间窗口中所述用户标识信息不存在所述行为操作的情况下,确定所述用户标识信息失效。
其中,定时器用于确定用户标识信息的有效时长,在定时器倒计时结束之前,可以确定用户标识信息是有效的,在定时器倒计时结束以后,用户标识信息存在失效可能。在这种情况下,通过判断用户标识信息是否存在行为操作,最终确定用户标识信息是否失效。
若在定时器倒计时结束,且时间窗口中该用户标识信息不存在行为操作的情况下,确定该用户标识信息失效;相对的,若在定时器倒计时结束,且时间窗口中该用户标识信息存在行为操作的情况下,确定用户标识信息有效。
上述技术方案通过根据时间窗口,为用户标识信息添加定时器,在定时器倒计时结束且时间窗口中该用户标识信息不存在行为操作的情况下,确定该用户标识信息失效,保证了用户标识信息有效性确定的准确性,避免根据单一的时间窗口或者行为操作,导致用户标识有效性确定不准确,造成从中间结果中错误滤除有效的用户标识信息的情况发生,提高了人群确定的准确性。
图3是根据本公开实施例提供的又一种人群确定方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。具体的,人群确定方法还包括:在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息;在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点。
参见图3,本实施例提供的人群确定方法包括:
S301,在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息。
其中,身份融合条件用于确定不同用户标识信息是否属于同一用户。身份融合条件根据实际业务需求确定,在这里不作限制。受到用户标识分配规则影响,同一用户可能存在多个不同的用户标识信息。基于身份融合条件可以确定不同用户标识信息是否属于同一用户。
在两个用户标识信息满足身份融合条件的情况下,从两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息。第一用户标识信息即将变更为第二用户标识信息。
S302,在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点。
其中,主融合关系表中记录有身份融合过程中融合起点到融合终点的直接关系,主融合关系表并不维护身份融合的融合路径。主融合关系表用于记录融合起点和融合终点的映射关系。当前融合记录用于记录最近一次身份融合过程中融合起点和融合终点的映射关系。
示例性的,第一用户标识信息为1001,第二用户标识信息为1002,当前融合记录为1001-1002,表示第一用户标识信息变更为第二用户标识信息。
可选的,第一用户标识信息和第二用户标识信息关联的其他用户业务数据,存储在主融合关系表之外,其中,其他用户业务数据可以包括属性特征数据和业务事件数据。在对第一用户标识信息和第二用户标识信息进行身份融合的过程中,存储第二用户标识信息关联的其他用户业务数据,并保留与第一用户标识信息关联的其他用户业务数据。
可以知道的是,从节约资源成本角度出发,会对用户业务数据基于时间维度进行冷热分层存储。在很多业务应用场景中,用户业务数据的参考价值会随时间推移逐渐降低,用户业务数据的数据使用频率也会相应降低。可选的,根据用户业务数据的数据使用频率,将用户业务数据分为热、温和冷三类。热数据表示使用频率在第一频率范围内的用户业务数据,示例性的,可以将时间范围在三个月内用户业务数据确定为热数据;温数据,表示使用频率在第二使用频率范围的用户业务数据,示例性的,温数据对应的时间范围可以是三个月到一年;冷数据表示使用频率在第三使用范围内的用户业务数据,示例性的,冷数据对应的时间范围可以为一年之外。其中,第一使用频率范围大于第二使用频率范围且大于第三使用频率范围。第二使用频率范围大于第三使用频率范围,第三使用频率范围最小。为了数据处理性能,可以将热数据和温数据存放在同一个存储集群,将冷数据放在另外的存储集群。
在上述冷热分层的数据存储方式下,属于同一用户的用户业务数据可能存储在不同存储介质中,一旦该用户需要身份融合,则需要从各存储介质中迁移中该用户的用户业务数据,并更新该用户的用户业务数据,再将更新后的用户业务数据存储到对应的存储介质中,数据处理效率十分低下。本公开实施例通过构建主融合关系表,利用主融合关系表记录身份融合过程中融合起点到融合终点的直接关系,使得无需对分散存在不同存储介质中的用户业务数据进行变更,简化了数据处理过程,提高了数据处理速度,为实现实时人群确定提供了技术支持。
图4是根据本公开实施例提供的又一种人群确定方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。具体的,在操作“在主融合关系表中生成当前融合记录”之后追加操作“确定所述主融合关系表中是否存在以所述第一用户标识信息为融合起点的第一融合记录;所述第一融合记录的融合终点为第三用户标识信息;对所述第二用户标识信息和所述第三用户标识信息的版本进行比较,得到版本比较结果;根据所述版本比较结果,对所述第一融合记录或所述当前融合记录进行调整。”
参见图4,本实施例提供的人群确定方法包括:
S401,在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息。
S402,在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点。
S403,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合起点的第一融合记录;所述第一融合记录的融合终点为第三用户标识信息。
第一融合记录是指以第一用户标识信息以融合起点的融合记录,当前融合记录同样是以第一用户标识信息为融合起点。第一融合记录与当前融合记录的融合终点不同,两条融合记录的融合终点相互矛盾。
主融合关系表是用于记录身份融合过程中融合起点到融合终点的直接关系。在一个融合起点存在两个不同的融合终点的情况下,需要进一步确定两个融合终点哪一个为最终的融合终点。以避免合路径中涉及过多的用户标识信息,影响数据查询性能。
S404,对所述第二用户标识信息和所述第三用户标识信息的版本进行比较,得到版本比较结果。
其中,第二用户标识信息和第三用户标识信息均对应第一用户标识信息。分别确定第二用户标识信息和第三用户标识信息的版本,对第二用户标识信息和第三用户标识信息的版本进行比较,得到版本比较结果。其中,版本比较结果可以用于在第二用户标识信息和第三用户标识信息中确定第一用户标识信息实际对应的融合终点。
S405,根据所述版本比较结果,对所述第一融合记录或所述当前融合记录进行调整。
根据版本比较结果,可以确定第二用户标识和第三用户标识的版本哪个更高。将版本更高的一个用户标识信息作为第一用户标识信息实际对应的融合终点。
在第二用户标识信息的版本高于第三用户标识信息的版本的情况下,对第一融合记录进行调整;相对的,在第二用户标识信息的版本低于第三用户标识信息的版本的情况下,对当前融合记录进行调整,以保证融合记录的准确性。
本公开实施例提供的技术方案,通过在当前融合记录和第一融合记录包括相同融合起点的情况下,对第二用户标识信息和第三用户标识信息的版本进行比较,根据版本比较结果,对第一融合记录或者当前融合记录进行调整,保证融合记录的准确性,有利于提高后续的数据查询效率。
在一个可选的实施例中,根据所述版本比较结果,对所述第一融合记录进行调整,包括:在所述第二用户标识信息的版本高于所述第三用户标识信息的版本的情况下,将所述第一融合记录的融合起点修改为所述第三用户标识信息,且将所述第一融合记录的融合终点修改为所述第二用户标识信息。
其中,第一融合记录是以第一用户标识信息为融合起点,以第三用户标识信息为融合终点。当前融合记录是以第一用户标识信息为融合起点,以第二用户标识信息为融合终点。第二用户标识信息的版本高于第三用户标识信息的版本的情况下,第二用户标识信息为第一用户标识信息对应的融合终点。第三用户标识信息为第一用户标识信息与第二用户标识信息融合过程的中间节点,第一用户标识信息应该是由第三用户标识信息变更为第二用户标识信息的。由于主融合关系表仅用于身份融合过程中记录融合起点和融合终点的直接关系,这种情况下,需要对主融合关系表中的第一融合记录进行调整,具体的,将第一融合记录的融合起点修改为第三用户标识信息,同时将第一融合记录的融合终点修改为第二用户标识信息,示例性的,第一用户标识信息为1001,第二用户标识信息为1002,第三用户标识信息为1003。未经调整的第一融合记录为:1001-1003;在第二用户标识信息的版本高于第三用户标识信息的版本的情况下,对第一融合记录进行调整,调整后的第一融合记录为1003-1002。
可选的,构建副融合关系表记录身份融合过程中的融合路径,即记录1001-1003-1002,同时还可以对应记录每次身份融合的融合时间戳,即记录1001-1003对应的融合时间戳,以及1003-1002对应的融合时间戳,已备后续数据查询使用。在对主融合关系表中的第一融合记录进行调整,并将当前融合记录添加至主融合关系表中,即将1001-1002添加至主融合关系表中。
在一个可选的实施例中,根据所述版本比较结果,对所述当前融合记录进行调整,包括:在所述第二用户标识信息的版本低于所述第三用户标识信息的版本的情况下,将所述当前融合记录的融合起点修改为所述第二用户标识信息,且将所述当前融合记录的融合终点修改为所述第三用户标识信息。
在第二用户标识信息的版本低于第三用户标识信息的版本的情况下,第三用户标识信息为第一用户标识信息对应的融合终点。第二用户标识信息为第一用户标识信息与第三用户标识信息融合过程的中间节点,第一用户标识信息应该是由第二用户标识信息变更为第三用户标识信息的。由于主融合关系表仅用于记录身份融合过程中融合起点和融合终点的直接关系,这种情况下,需要对主融合关系表中的当前融合记录进行调整,具体的,将当前融合记录的融合起点修改为第二用户标识信息,同时将当前融合记录的融合终点修改为第三用户标识信息,示例性的,第一用户标识信息为1001,第二用户标识信息为1002,第三用户标识信息为1003。未经调整的当前融合记录为:1001-1002;在第三用户标识信息的版本高于第二用户标识信息的版本的情况下,对当前融合记录进行调整,调整后的当前融合记录为1002-1003。对主融合关系表中的当前融合记录进行调整,并在主融合记录中保留第一融合记录,也就是说,主融合关系表中同时包括1001-1003和1002-1003。1001和1002均为1003对应的融合起点。
上述技术方案,分别提供了在第二用户标识信息的版本高于第三用户标识信息的版本的情况下,对第一融合记录进行调整的调整方案,和在第二用户标识信息的版本低于第三用户标识信息的版本的情况下,对当前融合记录进行调整的调整方案,使得主融合关系表仅包括身份融合过程中融合起点和融合终点的直接关系,避免了融合路径涉及过多用户标识信息,有利于提高后数据查询效率,为实现实时人群确定提供了技术支持。
在一个可选的实施例中,所述第二用户标识信息和所述第三用户标识信息的版本分别为所述第二用户标识信息和所述第三用户标识信息的接收时间戳。
其中,接收时间戳用于确定用户标识信息的接收时间。根据第二用户标识信息和第三用户标识信息的接收时间戳,可以分别确定第二用户标识信息和第三用户标识信息接收时间。可选的,以当前时间为时间原点向前追溯,接收时间戳越接近当前时间的用户标识信息,其版本越高。上述技术方案通过将用户标识信息的接收时间戳作为用户标识信息的版本,从时间维度确定用户标识信息的版本,便于进行对用户标识信息进行身份融合,同时有利于提高后续数据查询效率。
图5是根据本公开实施例提供的又一种人群确定方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。具体的,在操作“在主融合关系表中生成当前融合记录”之后追加操作“确定所述主融合关系表中是否存在以所述第一用户标识信息为融合终点的第二融合记录;在存在的情况下,将所述第二融合记录的融合终点由所述第一用户标识信息更新为所述第二用户标识信息。”
参见图5,本实施例提供的人群确定方法包括:
S501,在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息。
S502,在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点。
S503,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合终点的第二融合记录。
可以知道的是,主关融合关系表中仅记录身份融合过程中融合起点到融合终点的直接关系。在第一用户标识信息和第二用户标识信息满足身份融合条件的情况下,确定主融合关系表中是否存在以第一用户标识信息为融合终点的第二融合记录。主融合关系表中之前作为融合终点的第一用户标识信息,将不再是融合终点,第一用户标识成为身份融合过程中的中间节点,主融合关系表中的融合终点变更为第二用户标识信息。
S504,在存在的情况下,将所述第二融合记录的融合终点由所述第一用户标识信息更新为所述第二用户标识信息。
其中,第二融合记录是指主融合关系表中以第一用户标识信息为融合终点的融合记录。第二融合记录的数量为至少一个,具体需要根据实际情况确定,在这里不作限定。
在主融合关系表中存在以第一用户标识信息为融合终点的第二融合记录的情况下,保留第二融合记录的融合起点不变,将第二融合记录的融合终点由第一用户标识信息更新为第二用户标识信息。不同第二融合记录的融合起点存在差异。
本公开实施例提供的技术方案,再将第一用户标识信息和第二标识信息进行身份融合的情况下,将第二融合记录的融合终点由第一用户标识信息更新为所述第二用户标识信息,使得主融合关系表中仅记录身份融合过程中融合起点到融合终点的直接关系,以避免融合路径中涉及过多的用户标识信息,影响数据查询性能,为实现实时人群确定提供了技术支持。
图6是根据本公开实施例提供的又一种人群确定方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。具体的,人群确定方法还包括:获取数据查询请求;其中,所述数据查询请求包括待查询的目标用户标识信息;从所述主融合关系表中查询与所述目标用户标识信息关联的其他用户标识信息;分别采用所述目标用户标识信息和所述其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将所述目标用户行为数据和所述其他用户行为数据均作为查询结果。
参见图6,本实施例提供的人群确定方法包括:
S601,获取数据查询请求;其中,所述数据查询请求包括待查询的目标用户标识信息。
其中,数据查询请求用于在主融合关系表中查询待查询的目标用户标识信息。数据查询请求可以是RT-CDP使用者产生的,用于向RT-CDP请求与目标用户标识信息关联的用户行为数据。例如,RT-CDP使用者可以是某个自媒体平台,该自媒体平台基于数据查询请求向RT-CDP请求目标用户标识信息相关的用户行为数据,以确定目标用户标识信息代表的用户是否为其潜在客户。
S602,从所述主融合关系表中查询与所述目标用户标识信息关联的其他用户标识信息。
主融合关系表中记录身份融合过程的融合终点和融合起点。从主融合关系表中查询与目标用户标识信息关联的其他用户标识信息,具体的,将目标用户标识信息作为融合终点,在主融合关系表中查询与目标用户标识信息对应的融合起点。查询到的与目标用户标识信息对应的所有融合起点为与目标用户标识信息关联的其他用户标识信息。
S603,分别采用所述目标用户标识信息和所述其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将所述目标用户行为数据和所述其他用户行为数据均作为查询结果。
用户标识信息可以唯一标识一组用户行为数据,用户行为数据存储在主融合关系表以外。可选的,用户行为数据包括用户行为类型和用户行为时间等。利用目标用户标识信息可以查询到目标用户行为数据,利用其他用户标识信息可以查询其他用户行为数据。将目标行为数据和其他用户行为数据作为查询结果。
本公开实施例提供的技术方案,通过从主融合关系表中查询与目标用户标识信息关联的其他用户标识信息,再采用目标用户标识信息和其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将目标用户行为数据和其他用户行为数据均作为查询结果,基于主融合关系表查询与目标用户标识信息相关联的用户行为数据,提高了数据查询效率,为实现实时人群确定提供了技术支持。
图7是根据本公开实施例提供的一种人群确定装置的结构示意图。本公开实施例适用于基于RT-CDP进行人群确定的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例所述的人群确定方法。如图7所示,该人群确定装置700包括:
数据匹配模块701,用于确定用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;
用户标识信息添加模块702,用于在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;
中间结果处理模块703,用于根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果。
本公开实施例提供的技术方案,通过设置人群确定条件,将符合人群确定条件中原子条件的用户业务数据添加到该原子条件的中间结果中;根据原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果,可以提高用户业务数据处理效率,实现实时确定人群。
可选的,所述人群确定条件通过如下方式确定:根据条件类别和条件运算规则,对初始的人群筛选条件进行重构得到人群确定条件,使不同所述条件块之间为或运算,不同所述原子条件之间为和运算。
可选的,装置700还包括:原子条件合并模块,具体用于对所述条件块中条件类别相同的原子条件进行合并。
可选的,装置700还包括:时间窗口和行为操作确定模块,用于将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中之后,确定该原子条件的时间窗口和行为操作;用户标识信息有效性确定模块,用于根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效;用户标识信息滤除模块,用于在失效的情况下,从该原子条件的中间结果中滤除所述用户标识信息。
可选的,所述用户标识信息有效性确定模块,包括:添加定时器子模块,用于根据所述时间窗口,为所述用户标识信息添加定时器;用户标识信息有效性确定子模块,用于在所述定时器倒计时结束且所述时间窗口中所述用户标识信息不存在所述行为操作的情况下,确定所述用户标识信息失效。
可选的,装置700还包括:待处理用户标识信息确定模块,用于在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息;融合记录生成模块,用于在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点。
可选的,装置700还包括:融合起点确定模块,用于在主融合关系表中生成当前融合记录之后,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合起点的第一融合记录;所述第一融合记录的融合终点为第三用户标识信息;版本比较结果确定模块,用于对所述第二用户标识信息和所述第三用户标识信息的版本进行比较,得到版本比较结果;当前融合记录调整模块,用于根据所述版本比较结果,对所述第一融合记录或所述当前融合记录进行调整。
可选的,当前融合记录调整模块,包括:第一融合记录调整子模块,具体用于在所述第二用户标识信息的版本高于所述第三用户标识信息的版本的情况下,将所述第一融合记录的融合起点修改为所述第三用户标识信息,且将所述第一融合记录的融合终点修改为所述第二用户标识信息。
可选的,当前融合记录调整模块,包括:当前融合记录调整子模块,具体用于在所述第二用户标识信息的版本低于所述第三用户标识信息的版本的情况下,将所述当前融合记录的融合起点修改为所述第二用户标识信息,且将所述当前融合记录的融合终点修改为所述第三用户标识信息。
可选的,其中,所述第二用户标识信息和所述第三用户标识信息的版本分别为所述第二用户标识信息和所述第三用户标识信息的接收时间戳。
可选的,装置700还包括:融合终点确定模块,用于在主融合关系表中生成当前融合记录之后,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合终点的第二融合记录;融合终点更新模块,用于在存在的情况下,将所述第二融合记录的融合终点由所述第一用户标识信息更新为所述第二用户标识信息。
可选的,装置700,还包括:数据查询请求获取模块,用于获取数据查询请求;其中,所述数据查询请求包括待查询的目标用户标识信息;用户标识信息查询模块,用于从所述主融合关系表中查询与所述目标用户标识信息关联的其他用户标识信息;查询结果确定模块,用于分别采用所述目标用户标识信息和所述其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将所述目标用户行为数据和所述其他用户行为数据均作为查询结果。
本公开实施例所提供的人群确定装置可执行本公开任意实施例所提供的人群确定方法,具备执行人群确定方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户业务数据的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如人群确定方法。例如,在一些实施例中,人群确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的人群确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行人群确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程人群确定装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (24)
1.一种人群确定方法,包括:
确定属于当前时间片的用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;所述条件块用于筛选人群;
在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;所述原子条件的中间结果中包括属于其他时间片且符合人群确定条件中原子条件的用户标识信息,其他时间片是指在当前时间片之前的时间片;
根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果;
所述方法还包括:在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息;在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点;其中,所述身份融合条件用于确定不同用户标识信息是否属于同一用户。
2.根据权利要求1所述的方法,其中,所述人群确定条件通过如下方式确定:
根据条件类别和条件运算规则,对初始的人群筛选条件进行重构得到人群确定条件,使不同所述条件块之间为或运算,不同所述原子条件之间为和运算。
3.根据权利要求2所述的方法,还包括:
对所述条件块中条件类别相同的原子条件进行合并。
4.根据权利要求1所述的方法,所述将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中之后,还包括:
确定该原子条件的时间窗口和行为操作;
根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效;
在失效的情况下,从该原子条件的中间结果中滤除所述用户标识信息。
5.根据权利要求4所述的方法,其中,所述根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效,包括:
根据所述时间窗口,为所述用户标识信息添加定时器;
在所述定时器倒计时结束且所述时间窗口中所述用户标识信息不存在所述行为操作的情况下,确定所述用户标识信息失效。
6.根据权利要求1所述的方法,所述在主融合关系表中生成当前融合记录之后,还包括:
确定所述主融合关系表中是否存在以所述第一用户标识信息为融合起点的第一融合记录;所述第一融合记录的融合终点为第三用户标识信息;
对所述第二用户标识信息和所述第三用户标识信息的版本进行比较,得到版本比较结果;
根据所述版本比较结果,对所述第一融合记录或所述当前融合记录进行调整。
7.根据权利要求6所述的方法,其中,根据所述版本比较结果,对所述第一融合记录进行调整,包括:
在所述第二用户标识信息的版本高于所述第三用户标识信息的版本的情况下,将所述第一融合记录的融合起点修改为所述第三用户标识信息,且将所述第一融合记录的融合终点修改为所述第二用户标识信息。
8.根据权利要求6所述的方法,其中,根据所述版本比较结果,对所述当前融合记录进行调整,包括:
在所述第二用户标识信息的版本低于所述第三用户标识信息的版本的情况下,将所述当前融合记录的融合起点修改为所述第二用户标识信息,且将所述当前融合记录的融合终点修改为所述第三用户标识信息。
9.根据权利要求6所述的方法,其中,
所述第二用户标识信息和所述第三用户标识信息的版本分别为所述第二用户标识信息和所述第三用户标识信息的接收时间戳。
10.根据权利要求1所述的方法,所述在主融合关系表中生成当前融合记录之后,还包括:
确定所述主融合关系表中是否存在以所述第一用户标识信息为融合终点的第二融合记录;
在存在的情况下,将所述第二融合记录的融合终点由所述第一用户标识信息更新为所述第二用户标识信息。
11.根据权利要求1所述的方法,还包括:
获取数据查询请求;其中,所述数据查询请求包括待查询的目标用户标识信息;
从所述主融合关系表中查询与所述目标用户标识信息关联的其他用户标识信息;
分别采用所述目标用户标识信息和所述其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将所述目标用户行为数据和所述其他用户行为数据均作为查询结果。
12.一种人群确定装置,包括:
数据匹配模块,用于确定属于当前时间片的用户业务数据是否符合人群确定条件中的原子条件;所述人群确定条件包括条件块,所述条件块包括原子条件;所述条件块用于筛选人群;
用户标识信息添加模块,用于在所述用户业务数据符合任一原子条件的情况下,将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中;所述原子条件的中间结果中包括属于其他时间片且符合人群确定条件中原子条件的用户标识信息,其他时间片是指在当前时间片之前的时间片;
中间结果处理模块,用于根据该原子条件的中间结果更新该原子条件所属的条件块的中间结果,并对至少两个条件块的中间结果进行聚合得到人群确定结果;
所述装置还包括:待处理用户标识信息确定模块,用于在两个用户标识信息满足身份融合条件的情况下,从所述两个用户标识信息中确定待删除的第一用户标识信息和待保留的第二用户标识信息;
融合记录生成模块,用于在主融合关系表中生成当前融合记录;所述当前融合记录以所述第一用户标识信息为融合起点,且以所述第二用户标识信息为融合终点;其中,所述身份融合条件用于确定不同用户标识信息是否属于同一用户。
13.根据权利要求12所述的装置,其中,所述人群确定条件通过如下方式确定:
根据条件类别和条件运算规则,对初始的人群筛选条件进行重构得到人群确定条件,使不同所述条件块之间为或运算,不同所述原子条件之间为和运算。
14.根据权利要求13所述的装置,还包括:
原子条件合并模块,具体用于对所述条件块中条件类别相同的原子条件进行合并。
15.根据权利要求12所述的装置,所述装置还包括:
时间窗口和行为操作确定模块,用于将所述用户业务数据所属的用户标识信息添加到该原子条件的中间结果中之后,确定该原子条件的时间窗口和行为操作;
用户标识信息有效性确定模块,用于根据所述时间窗口和所述行为操作,确定所述用户标识信息是否失效;
用户标识信息滤除模块,用于在失效的情况下,从该原子条件的中间结果中滤除所述用户标识信息。
16.根据权利要求15所述的装置,其中,所述用户标识信息有效性确定模块,包括:
添加定时器子模块,用于根据所述时间窗口,为所述用户标识信息添加定时器;
用户标识信息有效性确定子模块,用于在所述定时器倒计时结束且所述时间窗口中所述用户标识信息不存在所述行为操作的情况下,确定所述用户标识信息失效。
17.根据权利要求12所述的装置,所述装置还包括:
融合起点确定模块,用于在主融合关系表中生成当前融合记录之后,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合起点的第一融合记录;所述第一融合记录的融合终点为第三用户标识信息;
版本比较结果确定模块,用于对所述第二用户标识信息和所述第三用户标识信息的版本进行比较,得到版本比较结果;
当前融合记录调整模块,用于根据所述版本比较结果,对所述第一融合记录或所述当前融合记录进行调整。
18.根据权利要求17所述的装置,其中,当前融合记录调整模块,包括:
第一融合记录调整子模块,具体用于在所述第二用户标识信息的版本高于所述第三用户标识信息的版本的情况下,将所述第一融合记录的融合起点修改为所述第三用户标识信息,且将所述第一融合记录的融合终点修改为所述第二用户标识信息。
19.根据权利要求17所述的装置,其中,当前融合记录调整模块,包括:
当前融合记录调整子模块,具体用于在所述第二用户标识信息的版本低于所述第三用户标识信息的版本的情况下,将所述当前融合记录的融合起点修改为所述第二用户标识信息,且将所述当前融合记录的融合终点修改为所述第三用户标识信息。
20.根据权利要求17所述的装置,其中,
所述第二用户标识信息和所述第三用户标识信息的版本分别为所述第二用户标识信息和所述第三用户标识信息的接收时间戳。
21.根据权利要求12所述的装置,所述装置还包括:
融合终点确定模块,用于在主融合关系表中生成当前融合记录之后,确定所述主融合关系表中是否存在以所述第一用户标识信息为融合终点的第二融合记录;
融合终点更新模块,用于在存在的情况下,将所述第二融合记录的融合终点由所述第一用户标识信息更新为所述第二用户标识信息。
22.根据权利要求12所述的装置,还包括:
数据查询请求获取模块,用于获取数据查询请求;其中,所述数据查询请求包括待查询的目标用户标识信息;
用户标识信息查询模块,用于从所述主融合关系表中查询与所述目标用户标识信息关联的其他用户标识信息;
查询结果确定模块,用于分别采用所述目标用户标识信息和所述其他用户标识信息查询目标用户行为数据和其他用户行为数据,且将所述目标用户行为数据和所述其他用户行为数据均作为查询结果。
23. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的人群确定方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-11中任一项所述的人群确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557139.0A CN114820079B (zh) | 2022-05-20 | 2022-05-20 | 人群确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557139.0A CN114820079B (zh) | 2022-05-20 | 2022-05-20 | 人群确定方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820079A CN114820079A (zh) | 2022-07-29 |
CN114820079B true CN114820079B (zh) | 2023-04-18 |
Family
ID=82517222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210557139.0A Active CN114820079B (zh) | 2022-05-20 | 2022-05-20 | 人群确定方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820079B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782966A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 用户分群方法、装置、计算机设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105187237B (zh) * | 2015-08-12 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 查找相关联的用户标识的方法和装置 |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
CN111179007A (zh) * | 2019-07-03 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 展示信息的处理方法及装置、电子设备 |
US20210241120A1 (en) * | 2020-01-30 | 2021-08-05 | Experian Information Solutions, Inc. | Systems and methods for identifying synthetic identities |
CN117149597A (zh) * | 2020-03-11 | 2023-12-01 | 北京水滴科技集团有限公司 | 用户行为分析系统、方法、存储介质及计算设备 |
-
2022
- 2022-05-20 CN CN202210557139.0A patent/CN114820079B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782966A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 用户分群方法、装置、计算机设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114820079A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247798B (zh) | 构建搜索词库的方法和装置 | |
CN113515545A (zh) | 数据查询方法、装置、系统、电子设备以及存储介质 | |
CN112328592A (zh) | 数据存储方法、电子设备及计算机可读存储介质 | |
CN113836314A (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN115291806A (zh) | 一种处理方法、装置、电子设备及存储介质 | |
CN113722600A (zh) | 应用于大数据的数据查询方法、装置、设备及产品 | |
CN111191050B (zh) | 知识图谱本体模型构建的方法和装置 | |
CN114820079B (zh) | 人群确定方法、装置、设备及介质 | |
CN116611411A (zh) | 一种业务系统报表生成方法、装置、设备及存储介质 | |
CN114997414B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114610719B (zh) | 跨集群数据处理方法、装置、电子设备以及存储介质 | |
CN116383207A (zh) | 一种数据标签管理方法、装置、电子设备和存储介质 | |
CN115640280A (zh) | 数据迁移方法及装置 | |
CN114003717A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115408546A (zh) | 一种时序数据管理方法、装置、设备及存储介质 | |
CN116028517A (zh) | 一种融合数据库系统及电子设备 | |
CN113626438B (zh) | 一种数据表管理的方法、装置、计算机设备及存储介质 | |
CN114661736A (zh) | 电子地图更新方法、装置、电子设备、存储介质及产品 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN115840738A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
CN114969444A (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN114518848A (zh) | 分级存储系统和存储数据的处理方法、装置、设备和介质 | |
CN113360689B (zh) | 图像检索系统、方法、相关装置及计算机程序产品 | |
CN115458103B (zh) | 医疗数据处理方法、装置、电子设备及可读存储介质 | |
CN112966179B (zh) | 信息的统一管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |