CN113822691A - 用户账号的识别方法、装置、系统和介质 - Google Patents
用户账号的识别方法、装置、系统和介质 Download PDFInfo
- Publication number
- CN113822691A CN113822691A CN202011175750.4A CN202011175750A CN113822691A CN 113822691 A CN113822691 A CN 113822691A CN 202011175750 A CN202011175750 A CN 202011175750A CN 113822691 A CN113822691 A CN 113822691A
- Authority
- CN
- China
- Prior art keywords
- user
- node
- vector
- nodes
- data segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 160
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012512 characterization method Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000009471 action Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005295 random walk Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种用户账号的识别方法,包括:获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录;基于操作时间和操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段;基于针对每个用户的至少一个操作数据段生成物品关系图;利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;基于针对每个用户的操作数据段的向量之间的关联性,确定用户的用户账号的类别。本公开提供了一种用户账号的识别装置、系统和介质。
Description
技术领域
本公开涉及计算机技术领域技术领域,更具体地,涉及一种用户账号的识别方法、装置、系统和介质。
背景技术
用户性别在电商领域非常重要,是用户画像的最基础的属性标签,在人群挑选和个性化推荐上的应用也非常广泛。而用户的识别并非仅男女的存在,有些应用项目里,需要推荐的商品不是很性别化,或者家庭化。将家庭用户识别出来是很有必要的。除了推荐领域,反欺诈等领域也是广泛,比如账号异常识别等。所以将用户账号进行单一账号和多用户账号识别,及单一账号的性别识别是非常重要的。
在实现本公开构思的过程中,发明人发现相关技术中对于用户账号的识别仅有男、女和未识别三种类别。但实际上很多账号存在家人共用的情况,这种情况对用户账号仅二分的策略已经不再适用,无法确定用户账号的类别。
发明内容
有鉴于此,本公开提供了一种用户账号的识别方法、装置、系统和介质。
本公开的一个方面提供了一种用户账号的识别方法,包括:获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,所述操作记录包括物品标识、操作时间以及操作类型;基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识;基于针对每个用户的至少一个操作数据段生成物品关系图,其中,所述物品关系图包括多个节点以及连接所述多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重;利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别。
根据本公开的实施例,所述基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段包括:基于所述操作时间对所述多条操作记录进行排序;将排序后的多条操作记录中满足预设条件的操作记录作为一个操作数据段的结束,对所述多条操作记录进行截断,得到至少一个操作数据段。
根据本公开的实施例,所述预设条件包括以下任意一种:所述操作记录的操作类型为指定操作类型;所述操作记录的操作时间与下一操作记录的操作时间的差值大于预设数值;所述操作记录为所述排序后的多条操作记录中的最后一条操作记录。
根据本公开的实施例,所述基于针对每个用户的至少一个操作数据段生成物品关系图包括:针对每个操作数据段,以所述操作数据段中的每个物品标识为节点,按照预设数量窗口依次确定所述操作数据段中彼此相邻的预设数量的节点,以所述预设数量的节点中的每两个节点为节点对,生成多个节点对,连接所述节点对中的两个节点得到该两个节点的边;将所述多个节点对中相同的节点进行合并,并基于所述多个节点对中相同的节点对的数量确定该相同的节点对中的两个节点的边的权重,生成所述物品关系图。
根据本公开的实施例,所述向量表征模型包括图采样子模型和词向量子模型;所述利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量包括:利用所述图采样子模型对所述物品关系图进行处理,生成多个采样序列,其中,每个采样序列包括多个节点,每个节点包括该节点表征的物品的属性信息;利用所述词向量子模型对所述多个采样序列进行处理,得到针对所述采样序列中的每个节点的向量。
根据本公开的实施例,所述利用所述图采样子模型对所述物品关系图进行处理,生成多个采样序列包括:以所述物品关系图中的每个节点为起点节点,基于所述起始节点的邻居节点的度,计算从所述起始节到所述邻居节点的概率;基于从所述起始节到所述邻居节点的概率,生成多条路径,其中,每条路径表征一个采样序列。
根据本公开的实施例,所述基于针对每个节点的向量,确定针对每个操作数据段的向量包括:针对每个操作数据段,基于所述操作数据段中每个物品标识出现的次数以及与该物品标识对应的节点的向量,确定所述操作数据段的向量。
根据本公开的实施例,所述基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别包括:基于所述每个操作数据段的向量之间的距离,对所述每个操作数据段的向量进行聚类,得到多个向量簇;如果同一用户的所有操作数据段的向量属于同一向量簇,则确定该用户的用户账号的类别为单一账号,如果同一用户的操作数据段的向量属于不同的向量簇,则确定该用户的用户账号的类别为多用户账号;针对类别为单一账号的用户账号,利用分类模型对所述用户账号表征的用户的操作数据段的向量进行处理,得到所述用户账号的性别类别。
根据本公开的实施例,所述操作类型包括下单、点击、浏览、关注和加购中的一种或多种,所述方法还包括:在所述针对每个用户的多条操作记录进行划分之前,对所述多条操作记录进行预处理,所述预处理包括以下至少之一:从所述多条操作记录中剔除浏览操作的持续时间小于第一阈值的操作记录;基于企业用户信息表,从所述多条操作记录中剔除企业用户的操作记录;从所述多条操作记录中剔除在预设时长内点击操作的次数高于第二预设阈值的操作记录;基于所述操作记录中的物品标识的物品品类,从所述多条操作记录中剔除物品标识属于指定物品品类的操作记录。
本公开的另一个方面提供了一种用户账号的识别装置,包括:获取模块,用于获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,所述操作记录包括物品标识、操作时间以及操作类型;划分模块,用于基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识;第一生成模块,用于基于针对每个用户的至少一个操作数据段生成物品关系图,其中,所述物品关系图包括多个节点以及连接所述多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重;第二生成模块,用于利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;确定模块,用于基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
根据本公开的实施例,采用了获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,基于操作记录的操作时间和操作类型,生成针对用户的操作数据段,基于针对用户的操作数据段生成物品关系图,利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对操作数据段的向量;基于用户的操作数据段的向量之间的关联性,确定该用户的用户账号的类别的技术手段。由于由于同一用户的操作数据段具有较强的关联性,可以基于用户账号产生的操作数据段的向量之间的关联性确定该用户账号是否为同一用户使用,进一步确定用户账号的类别,能够解决相关技术中针对多用户账号无法识别类别的问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了可以应用本公开实施例的用户账号的识别方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的用户账号的识别方法的流程图;
图3示意性示出了根据本公开实施例的对每个用户的多条操作记录进行划分的方法的流程图;
图4示意性示出了根据本公开实施例的确定用户的类别的方法的流程图;
图5示意性示出了根据本公开实施例的基于针对每个用户的至少一个操作数据段生成物品关系图的方法的流程图;
图6示意性示出了根据本公开实施例的物品关系图示意图;
图7示意性示出了根据本公开实施例的生成针对每个节点的向量的方法的流程图;
图8示意性示出了根据本公开实施例的生成多个采样序列的方法的流程图;
图9示意性示出了根据本公开的实施例的用户账号的识别装置的框图;以及
图10示意性示出了根据本公开实施例的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在实现本公开构思的过程中,发明人发现可以基于用户的行为数据进行用户性别的预测,以便确定用户账号或者用户所使用的设备的设备账号的性别属性。具体地,首先构造用户的特征数据和训练样本。例如选取用户三年(可以是任意时长)的下单数据,基于下单数据,统计用户在三级品类(或其他级别品类)上的下单占比以及统计用户在物品标题分词上的下单占比。
示例性地,下单数据中共有十种品类,计算每种品类的下单量与总的下单量的占比,得到用户在每个品类上的下单占比。物品标题分词指的是对物品标题进行划分得到的分词,可以对大量的物品标题进行划分,得到分词词典。示例性地,如果用户的下单数据中共包含了十种分词,计算每种分词的下单量与总的下单量的占比,得到用户在物品标题分词上的下单占比。
一般地,物品品类和物品标题分词与性别具有强关联关系,例如,品类中的女装与女性具有强关联关系,又例如,分词中的裙子与女性也具有强关联关系。因此可以基于利用用户在品类上的下单占比以及物品标题分词上的下单占比对用户的账号进行性别预测。
根据本公开的实施例,首先需要进行特征检测和预处理,对三级品类和分词,进行卡方独立性检验,挑选与用户性别强相关的词和品类。然后将特征降维,降维可以是纵向的裁剪。然后基于预处理后的特征数据,可以使用LR(Logistic Regression,逻辑回归)模型或者Xgboost(Extreme Gradient Boosting,极端梯度提升)等模型进行二分类预测。具体地,选取实名认证的用户作为真实的数据,以实名认证的用户在品类上的下单占比以及物品标题分词上的下单占比为样本,以实名认证的用户真实性别为标签,将样本输入到模型中,基于模型输出的预测结果与用户真实性别之间的误差调整模型参数,更新模型,利用更新后的模型继续上述训练步骤,直至模型输出的预测结果与标签之间的误差满足预设条件,得到训练好的模型。利用该训练好的模型可以对新输入的未知用户在品类上的下单占比以及物品标题分词上的下单占比,输出该未知用户的性别类别。
但是上述方法存在以下缺点:(1)在模型特征的选取上,如果选取所有分词和品类,特征不仅稀疏并且维度爆炸。如果不选取所有分词和品类,就得依靠前期的特征预处理,比如卡方独立性检验,挑选出与用户性别强相关的词,这样前期工作很费时,并且后期模型更迭耗费代价巨大。(2)剔除的特征覆盖的用户失去特征,将无法进行预测,该部分用户将被划分为未识别类别。(3)无法根据该模型将家庭账号分割出来,需要利用同样的方式作用到设备账号上,得到设备账号的性别属性,综合账号多设备结果才能得到家庭用户类别,例如同一用户的用户账号和设备账号的性别属性不同的情况下(同一账号不同性别的家庭成员使用造成的),可以确定该用户账号为家庭账号,由此,用户账号的识别和设备账号的识别分成两套模型,账号性别预测的方式复制一份作用到设备上,得到设备的性别,这样处理,不仅工作重复冗余且耗时。(4)实名认证的用户中存在家庭账号,购物性别呈现中性,如果放到模型中训练,对模型的影响非常大。
本公开的实施例提供了一种用户账号的识别方法和装置,包括:获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,操作记录包括物品标识、操作时间以及操作类型;基于操作时间和操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识;基于针对每个用户的至少一个操作数据段生成物品关系图,其中,物品关系图包括多个节点以及连接多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重;利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;基于针对每个用户的操作数据段的向量之间的关联性,确定用户的类别。
图1示意性示出了可以应用本公开实施例的用户账号的识别方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器103可以是提供各种服务的服务器,例如对用户利用终端设备101所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的用户账号的识别方法一般可以由服务器103执行。相应地,本公开实施例所提供的用户账号的识别装置一般可以设置于服务器103中。本公开实施例所提供的用户账号的识别方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用户账号的识别装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的用户账号的识别方法的流程图。
如图2所示,该方法包括操作S201~S205。
在操作S201,获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,操作记录包括物品标识、操作时间以及操作类型。
根据本公开的实施例,预设时间段例如可以是一天,也可以是其他预设时长。用户针对物品的多条操作记录包括操作对象即物品的标识(如编号)、操作时间和操作类型,其中,操作类型可以包括下单、浏览、关注、加购和点击。每个操作类型(type)可以用一个编号表示,例如下单表示为1,浏览表示为2,关注表示为3,加购表示为4,点击表示为5。每条操作记录可以表示为user_log_acct(用户标识),sku_id(物品标识),action_time(操作执行时间),type(操作类型)。例如,操作记录为937922,357022,2018-02-04,1表示用户937922在2018年2月4日购买了商品357022。
根据本公开的实施例,在获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录之后,可以对多条操作记录进行预处理,预处理包括以下至少之一:从多条操作记录中剔除浏览操作的持续时间小于第一阈值的操作记录;基于企业用户信息表,从多条操作记录中剔除企业用户的操作记录;从多条操作记录中剔除在预设时长内点击操作的次数高于第二预设阈值的操作记录;基于操作记录中的物品标识的物品品类,从多条操作记录中剔除物品标识属于指定物品品类的操作记录。
根据本公开的实施例,预处理主要用于对操作记录进行数据清洗。具体地,点击后的停留时间小于一个阈值(比如1分钟),认为是无效的点击数据。基于企业客户表,除去企业和采买性质的操作数据。在预设时长(如近3个月内)点击次数高于一个阈值(比如8400次,平均每天点击80次),主要目的是剔除疑似刷单、羊毛党用户。剔除“快消品”、赠品、礼品卡等非实质性商品及大家都会共买的商品(如卫生纸等)。
在操作S202,基于操作时间和操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识。
根据本公开的实施例,参照图3对本公开实施例的对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段的具体步骤进行说明。
图3示意性示出了根据本公开实施例的对每个用户的多条操作记录进行划分的方法的流程图。
如图3所示,包括操作S301~S302。
在操作S301,基于操作时间对多条操作记录进行排序。
在操作S302,将排序后的多条操作记录中满足预设条件的操作记录作为一个操作数据段的结束,对多条操作记录进行截断,得到至少一个操作数据段。
根据本公开的实施例,首先可以按照用户为组,以操作时间对操作记录进行升序排序。确定满足如下条件之一的动作时为一个操作数据段(session)的结束。
条件1,当操作类型为指定的类型,例如以下单为指定的动作类型,type=1表示用户在此处的行为为下单,则该type=1的操作记录处为一个session的结束。
条件2,当前操作记录的操作时间与下一个操作记录的操作时间的间隔大于了30分钟。例如当前的action_time=‘2020-06-27 12:00:00’,下一个action_time=’2020-06-27 14:00:00’。确定该两个动作的操作记录属于两个不同的session。
条件3,排序后操作记录中的最后一条操作记录为一个session的结束。
示例性地,user_log_acct=’028589’的用户在2020-06-28的行为序列为:[′70283896646&2020-06-28 16:17:27&2′,′8261861&2020-06-28 16:26:12&2′,′100001743807&2020-06-28 17:13:16&2′,……],其中,100001743807&2020-06-28 17:13:16&2表示,用户028589在action_time=2020-06-28 17:13:16开始浏览(点击)了商品100001743807。然后对用户的动作时间action_time进行升序排列,并按照上述条件1至3进行session的切割。例如分割结果可以是如下的2个session:session 1为[′5676879′,′70283896646′],session 2为[′70283896646′,′28646660199′,′70405391188′,……,′8048364′,′100001594573′]。
其中,每个session中的物品标识之间具有关联关系,可以表征用户在操作当前物品之后再操作与当前物品同一session中的其他物品的概率较大。示例性地,session 1包括两个物品编号′5676879′,和′70283896646′,用户在操作′5676879′的物品之后再操作′70283896646′的概率较大。
在操作S203,基于针对每个用户的至少一个操作数据段生成物品关系图,其中,物品关系图包括多个节点以及连接多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重。
根据本公开的实施例,针对每个session,以该session中的每个物品标识为节点,以物品标识之间的关联关系为边生成物品关系图。示例性地,以session 1为例,session 1中的两个物品编码分别为两个节点,该两个节点之间具有一条边(′5676879′,′70283896646′),该条边的初始权重值可以是1,如果其它用户也生成了这样的物品对,则权重可以加1。以某一天内多个用户的数据为例,获取每个用户的操作数据段session,基于每个session构造物品对,基于生成相同物品对的用户的数量,确定物品对的边的权重。
根据本公开的实施例,在该物品关系图中,物品关系图中每个节点表征了一个物品,每个节点还可以包括物品的品类、品牌、店铺、价格等属性信息。
在操作S204,利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量。
根据本公开的实施例,向量表征模型可以包括图采样子模型和词向量子模型,可以首先通过图采样子模型对物品关系图进行采样,例如利用Random walk(随机游走)算法对物品关系图进行采样。随机游走算法是一种可重复访问已访问节点的深度优先遍历算法,给定当前访问起始节点,从其邻居节点中随机或按照概率采样节点作为下一个访问节点,重复如此过程,直至访问序列长度满足预设条件,得到多条访问路径序列。词向量子模型例如可以是word2vec模型,以多条访问路径序列作为句子输入到word2vec模型,word2vec模型输出序列中每个节点表征的物品的Embedding向量。
根据本公开的实施例,基于每个节点的向量,可以得到每个操作数据段session的向量。示例性的,上述session1[′5676879′,′70283896646′],seesion1的向量可以根据编号为′5676879′的物品的节点的向量以及编号为′70283896646′的物品的节点的向量确定。
根据本公开的实施例,操作S204具体可以为针对每个操作数据段,基于操作数据段中每个物品标识出现的次数以及与该物品标识对应的节点的向量,确定操作数据段的向量。
一般地,用户的行为服从泊松分布,针对seesion中每个物品的向量,可以采用平方根加权算法表示seesion的向量。例如,seesion1中的两个物品均只出现一次,因此可以直接对两者的向量求平均即可得到seesion1的向量。
又例如,比如seesion s有物品(a,a,b,a),其中,物品a出现了3次,物品b出现了1次,则seesion s的向量表示为如下公式(一)。
其中,embed(a)表示物品a的向量,embed(b)表示物品b的向量。
在操作S205,基于针对每个用户的操作数据段的向量之间的关联性,确定用户的类别。
根据本公开的实施例,参照图4对本公开实施例的确定用户的类别的具体步骤进行说明。
图4示意性示出了根据本公开实施例的确定用户的类别的方法的流程图。
如图4所示,包括操作S401~S403。
在操作S401,基于每个操作数据段的向量之间的距离,对每个操作数据段的向量进行聚类,得到多个向量簇。
根据本公开的实施例,可以获取多个用户的操作行为数据,生成多个用户的操作数据段session,每个用户一般具有多个session,例如用户User1具有session1、session2和session3,用户User2具有session4和session5,用户User3具有session6、session7和session8等等。通过通用的分类算法(如affinity propagation算法,该算法优点是不需要指定聚类中心的个数,更适用于用户量大场景)对所有用户的session的向量进行聚类,得到多个向量簇,同一向量簇中的session之间的关联性较强。
在操作S402,如果同一用户的所有操作数据段的向量属于同一向量簇,则确定该用户的用户账号的类别为单一账号,如果同一用户的操作数据段的向量属于不同的向量簇,则确定该用户的用户账号的类别为多用户账号。
根据本公开的实施例,由于session是由用户的操作行为数据生成的,因此,单一账号即个人用户账号的session应具有较强的关联性,即单一账号的session大概率会分类到同一向量簇。而多用户账号如家庭账号或企业账号等,由于由多个成员共同使用,每个成员的操作行为数据的关联性不强,则该用户账号的session会被分类到不同的向量簇中。因此,如果一个用户账号的多个session通过聚类算法聚类到同一个向量簇,则说明该用户账号的为单一用户账号,如果一个用户账号的多个session通过聚类算法聚类到多个不同的向量簇,则说明该用户账号的为多用户账号,如家庭账号等。
示例性地,如果User1的操作数据段session1、session2和session3均分类到一个向量簇,则说明User1为单一用户账号。如果User2的操作数据段session4和session5分类到不同的向量簇,则说明User2为多用户账号。
在操作S403,针对类别为单一账号的用户账号,利用分类模型对用户账号表征的用户的操作数据段的向量进行处理,得到用户账号的性别类别。
根据本公开的实施例,将除去多用户账号后的剩余账号即单一账号可以进一步进行男、女性别二分类。可以直接利用session的Embedding向量作为用户账号的行为特征数据。由于每个用户的session个数不一致,但是传统模型要求输入的特征长度是一致的,再加上seesion是有时序关系在其中的,所以在模型的挑选上可以选择有很强时序性表示的RNN(Recurrent Neural Network,循环神经网络)模型进行二分类。
根据本公开的实施例,可以获取大量的实名制认证的用户账号的session向量为样本,进行RNN模型的训练。具体的,以实名制认证的用户账号的真实性别为标签,将用户账号的session的向量输入到RNN模型中,基于RNN模型输出的预测结果和真实性别标签之间的误差调整模型参数,更新RNN模型,利用新的RNN模型重复上述训练过程直至RNN模型的预测误差满意一定条件,得到训练好的RNN模型。利用该训练好的RNN模型对新输入的用户账号的session的向量进行处理,可以得到该新输入的用户账号的性别属性。
根据本公开的实施例,获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,基于操作记录的操作时间和操作类型,生成针对用户的操作数据段,基于针对用户的操作数据段生成物品关系图,利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对操作数据段的向量;基于用户的操作数据段的向量之间的关联性,确定该用户的用户账号的类别。由于同一用户的操作数据段具有较强的关联性,可以基于用户账号产生的操作数据段的向量之间的关联性确定该用户账号是否为同一用户使用,进一步确定用户账号的类别,能够解决相关技术中针对多用户账号无法识别类别的问题。
进一步地,相比于相关技术中利用用户账号和设备账号分别进行性别预测,基于两套预测结果综合确定用户账号类别的方案,本公开实施例仅需要一套针对用户账号的类别识别方案,便可以识别出用户账号是否为多用户账号以及用户账号的性别属性,方案复杂度大大降低,减小耗时,提高用户账号识别的效率。
下面参考图5~图8,结合具体实施例对图2所示的方法做进一步说明。
图5示意性示出了根据本公开实施例的基于针对每个用户的至少一个操作数据段生成物品关系图的方法的流程图。
如图5所示,操作S203包括操作S501~S502。
在操作S501,针对每个操作数据段,以操作数据段中的每个物品标识为节点,按照预设数量窗口依次确定操作数据段中彼此相邻的预设数量的节点,以预设数量的节点中的每两个节点为节点对,生成多个节点对,连接节点对中的两个节点得到该两个节点的边。
根据本公开的实施例,可以获取多个用户中的每个用户的操作数据段session,以session中每个物品标识为节点,构造物品节点对。构造物品节点对的方式可以是:针对每个session,选定预设数量窗口,用该预设数量窗口依次框住该session中的预设数量的节点,以该预设数量的节点中的每两个节点作为节点对。
示例性地,针对一个session 3,该session 3中包括节点A、节点B、节点C和节点D,可以表示为session=[A,B,C,D],如果预设数量窗口为2,预设数量窗口依次框住(A,B),(B,C)和(C,D),则构造的节点对包括(A,B),(B,C)和(C,D),如果预设数量窗口为3,预设数量窗口依次框住(A,B,C)和(B,C,D),则构造的节点对包括(A,B),(A,C),(B,C),(B,D)和(C,D)。
在操作S502,将多个节点对中相同的节点进行合并,并基于多个节点对中相同的节点对的数量确定该相同的节点对中的两个节点的边的权重,生成物品关系图。
根据本公开的实施例,相同的节点进行合并,例如,(A,B)和(A,C)中的节点A可以合并为同一节点A,(B,C)和(B,D)中的节点B可以合并为同一节点B,连接节点对的两个节点可以得到边。基于生成相同物品对的用户的数量,可以确定物品对的边的权重。
根据本公开的实施例,每个session可以构造多个节点对,不同的session可以构造出相同的节点对,每个节点对中两个节点的边的初始权重可以为1,然后基于其他session构造出的相同节点对的数量,可以对该相同节点对中的两个节点之间的边的权重进行累加。例如,session 3构造出的节点对包括(A,B),(A,C),(B,C),(B,D)和(C,D),session 4构造出的节点对包括(A,B),(A,E),(B,E),(C,D),则session 3和session 4构造出了相同的节点对(A,B)和(C,D),则节点对A和节点B之间的边的权重加1,对节点C和节点D之间的边的权重加1。以此类推,可以提取多条数据,构造出大量的节点对以及边数据。其中,构造节点对可以在python中用networkx包进行读取,在spark中用graphx进行处理。
图6示意性示出了根据本公开实施例的物品关系图示意图。
其中,图6左侧部分为构造出的节点对,图6右侧部分为基于节点对生成的物品关系图。如图6所示,节点对包括(p,q1),(p,q2),(p,q3)和(p,q4)等等。将相同的节点合并,可以得到如图6右侧所示的物品关系图。
图7示意性示出了根据本公开实施例的生成针对每个节点的向量的方法的流程图。
根据本公开的实施例,向量表征模型可以包括图采样子模型和词向量子模型,可以首先通过图采样子模型对物品关系图进行采样,例如利用Random walk(随机游走)算法对物品关系图进行采样。随机游走算法是一种可重复访问已访问节点的深度优先遍历算法,给定当前访问起始节点,从其邻居节点中随机或按照概率采样节点作为下一个访问节点,重复如此过程,直至访问序列长度满足预设条件,得到多条访问路径序列。词向量子模型例如可以是word2vec模型,以多条访问路径序列作为句子输入到word2vec模型,word2vec模型输出序列中每个节点表征的物品的Embedding向量。
如图7所示,操作S204包括操作S701~S702。
在操作S701,利用图采样子模型对物品关系图进行处理,生成多个采样序列,其中,每个采样序列包括多个节点,每个节点包括该节点表征的物品的属性信息。
下面结合图6和图8对操作S701进行说明。
图8示意性示出了根据本公开实施例的生成多个采样序列的方法的流程图。
如图8所示,操作S701包括操作S801~S802。
在操作S801,以物品关系图中的每个节点为起点节点,基于起始节点的邻居节点的度,计算从起始节到邻居节点的概率。
在操作S802,基于从起始节到邻居节点的概率,生成多条路径,其中,每条路径表征一个采样序列。
根据本公开的实施例,利用随机游走算法以每个节点为起始节点,从其邻居节点中按照概率采样节点作为下一个访问节点,重复如此过程,得到多条访问路径序列,每条访问路径包括随机游走算法依次采样到的节点。
根据本公开的实施例,当前节点到下一个节点的概率可以基于节点的度确定,其中,节点的度为该节点的邻居节点(或边)的数量,例如,参照图6,节点p的度为4,节点q1的度为1,节点q2的度为2,节点q3的度为3,节点q4的度为4。则如果当前节点为p,则下一个节点为q2的概率可以用如下公式二表示。
由公式二可知,当前节点为p,则下一个节点为q2的概率0.24。依次计算访问每个节点的概率,按照概率大小确定访问路径。例如,在节点p的邻居节点中,从节点p访问q2的概率最大,在节点q2的邻居节点中,从节点q2访问节点S3(图6中未示出)的概率最大,则可以得到路径p,q2,S3。
可以理解,基于访问节点的概率确定访问路径相比于随机访问节点确定访问路径,能够减少爆品被采样的概率,更加适用于电商领域。
根据本公开的实施例,在得到多条采样序列之后,可以剔除序列中的无效序列。此处主要剔除序列中的单点数据,因为采样过程中会出现如下的序列p,p,p,p,即由p点访问得到的下一个点还是p。
在操作S702,利用词向量子模型对多个采样序列进行处理,得到针对采样序列中的每个节点的向量。
根据本公开的实施例,采样得到的访问路径序列可以作为word2vec模型的输入,word2vec模型是用于产生词向量的模型,word2vec模型可以基于序列中节点的属性编码,生成节点的向量编码。其中,节点表征物品,节点的属性包括品类、品牌、店铺、价格(分箱处理后分为不同的价格段)等。在生成节点的向量编码的过程中,以使得节点之间关联度最大为目标,其中,节点之间边的权重可以表征节点之间关联度。具体地,在生成节点的向量编码的过程中,基于节点之间边的权重表征的关联程度,使得编码后的向量之间的关联程度与节点间的权重对应为目标,得到每个节点的向量。
根据本公开的实施例提供的word2vec模型,在原始的word2vec模型基础上,加入了side info(辅助信息),主要有物品的三级品类、品牌、店铺、价格(分箱处理后分为不同的价格段)等表征这个商品的属性信息。这样做有个好处是覆盖了足够多的物品。在原始的word2vec算法里,当物品不出现在序列中时,就无法得到该品的向量。但是,根据本公开的实施例提供的word2vec模型,由于加入了辅助信息,可以用与未知物品的相似物品的向量的加权组合来近似表示未知物品的向量。
图9示意性示出了根据本公开的实施例的用户账号的识别装置的框图。
如图9所示,用户账号的识别装置900包括获取模块901、划分模块902、第一生成模块903、第二生成模块904和确定模块905。
获取模块901用于获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,操作记录包括物品标识、操作时间以及操作类型。
划分模块902用于基于操作时间和操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识。
第一生成模块903用于基于针对每个用户的至少一个操作数据段生成物品关系图,其中,物品关系图包括多个节点以及连接多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重。
第二生成模块904用于利用向量表征模型对物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量。
确定模块905用于基于针对每个用户的操作数据段的向量之间的关联性,确定用户的用户账号的类别。
根据本公开的实施例,划分模块902包括排序单元和截断单元。
排序单元用于基于操作时间对多条操作记录进行排序。
截断单元用于将排序后的多条操作记录中满足预设条件的操作记录作为一个操作数据段的结束,对多条操作记录进行截断,得到至少一个操作数据段。
根据本公开的实施例,预设条件包括以下任意一种:操作记录的操作类型为指定操作类型;操作记录的操作时间与下一操作记录的操作时间的差值大于预设数值;操作记录为排序后的多条操作记录中的最后一条操作记录。
根据本公开的实施例,第一生成模块903包括第一生成单元和第二生成单元。
第一生成单元用于针对每个操作数据段,以操作数据段中的每个物品标识为节点,按照预设数量窗口依次确定操作数据段中彼此相邻的预设数量的节点,以预设数量的节点中的每两个节点为节点对,生成多个节点对,连接节点对中的两个节点得到该两个节点的边。
第二生成单元用于将多个节点对中相同的节点进行合并,并基于多个节点对中相同的节点对的数量确定该相同的节点对中的两个节点的边的权重,生成物品关系图。
根据本公开的实施例,向量表征模型包括图采样子模型和词向量子模型。第二生成模块904包括第一处理单元和第二处理单元。
第一处理单元用于利用图采样子模型对物品关系图进行处理,生成多个采样序列,其中,每个采样序列包括多个节点,每个节点包括该节点表征的物品的属性信息。
第二处理单元用于利用词向量子模型对多个采样序列进行处理,得到针对采样序列中的每个节点的向量。
根据本公开的实施例,第二生成模块904还包括第一确定单元。
第一确定单元用于针对每个操作数据段,基于操作数据段中每个物品标识出现的次数以及与该物品标识对应的节点的向量,确定操作数据段的向量。
根据本公开的实施例,第一处理单元包括计算子单元和生成子单元。
计算子单元用于以物品关系图中的每个节点为起点节点,基于起始节点的邻居节点的度,计算从起始节到邻居节点的概率。
生成子单元用于基于从起始节到邻居节点的概率,生成多条路径,其中,每条路径表征一个采样序列。
根据本公开的实施例,确定模块905包括聚类单元、第二确定单元和第三处理单元。
聚类单元用于基于每个操作数据段的向量之间的距离,对每个操作数据段的向量进行聚类,得到多个向量簇。
第二确定单元用于如果同一用户的所有操作数据段的向量属于同一向量簇,则确定该用户的用户账号的类别为单一账号,如果同一用户的操作数据段的向量属于不同的向量簇,则确定该用户的用户账号的类别为多用户账号。
第三处理单元用于针对类别为单一账号的用户账号,利用分类模型对用户账号表征的用户的操作数据段的向量进行处理,得到用户账号的性别类别。
根据本公开的实施例,操作类型包括下单、点击、浏览、关注和加购中的一种或多种。用户账号的识别装置900还包括预处理模块。
预处理模块用于在划分模块902针对每个用户的多条操作记录进行划分之前,对多条操作记录进行预处理,预处理包括以下至少之一:从多条操作记录中剔除浏览操作的持续时间小于第一阈值的操作记录;基于企业用户信息表,从多条操作记录中剔除企业用户的操作记录;从多条操作记录中剔除在预设时长内点击操作的次数高于第二预设阈值的操作记录;基于操作记录中的物品标识的物品品类,从多条操作记录中剔除物品标识属于指定物品品类的操作记录。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块901、划分模块902、第一生成模块903、第二生成模块904和确定模块905中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,获取模块901、划分模块902、第一生成模块903、第二生成模块904和确定模块905中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块901、划分模块902、第一生成模块903、第二生成模块904和确定模块905中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中用户账号的识别装置部分与本公开的实施例中用户账号的识别方法部分是相对应的,用户账号的识别装置部分的描述具体参考用户账号的识别方法部分,在此不再赘述。
图10示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。图10示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,根据本公开实施例的计算机系统1000包括处理器1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1003中,存储有系统1000操作所需的各种程序和数据。处理器1001、ROM1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统1000还可以包括输入/输出(I/O)接口1005,输入/输出(I/O)接口1005也连接至总线1004。系统1000还可以包括连接至I/O接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (12)
1.一种用户账号的识别方法,包括:
获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,其中,所述操作记录包括物品标识、操作时间以及操作类型;
基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识;
基于针对每个用户的至少一个操作数据段生成物品关系图,其中,所述物品关系图包括多个节点以及连接所述多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重;
利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;以及
基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别。
2.根据权利要求1所述的方法,其中,所述基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段包括:
基于所述操作时间对所述多条操作记录进行排序;以及
将排序后的多条操作记录中满足预设条件的操作记录作为一个操作数据段的结束,对所述多条操作记录进行截断,得到至少一个操作数据段。
3.根据权利要求2所述的方法,其中,所述预设条件包括以下任意一种:
所述操作记录的操作类型为指定操作类型;
所述操作记录的操作时间与下一操作记录的操作时间的差值大于预设数值;
所述操作记录为所述排序后的多条操作记录中的最后一条操作记录。
4.根据权利要求1所述的方法,其中,所述基于针对每个用户的至少一个操作数据段生成物品关系图包括:
针对每个操作数据段,以所述操作数据段中的每个物品标识为节点,按照预设数量窗口依次确定所述操作数据段中彼此相邻的预设数量的节点,以所述预设数量的节点中的每两个节点为节点对,生成多个节点对,连接所述节点对中的两个节点得到该两个节点的边;以及
将所述多个节点对中相同的节点进行合并,并基于所述多个节点对中相同的节点对的数量确定该相同的节点对中的两个节点的边的权重,生成所述物品关系图。
5.根据权利要求1所述的方法,其中,所述向量表征模型包括图采样子模型和词向量子模型;所述利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量包括:
利用所述图采样子模型对所述物品关系图进行处理,生成多个采样序列,其中,每个采样序列包括多个节点,每个节点包括该节点表征的物品的属性信息;以及
利用所述词向量子模型对所述多个采样序列进行处理,得到针对所述采样序列中的每个节点的向量。
6.根据权利要求5所述的方法,其中,所述利用所述图采样子模型对所述物品关系图进行处理,生成多个采样序列包括:
以所述物品关系图中的每个节点为起点节点,基于所述起始节点的邻居节点的度,计算从所述起始节到所述邻居节点的概率;以及
基于从所述起始节到所述邻居节点的概率,生成多条路径,其中,每条路径表征一个采样序列。
7.根据权利要求1所述的方法,其中,所述基于针对每个节点的向量,确定针对每个操作数据段的向量包括:
针对每个操作数据段,基于所述操作数据段中每个物品标识出现的次数以及与该物品标识对应的节点的向量,确定所述操作数据段的向量。
8.根据权利要求1所述的方法,其中,所述基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别包括:
基于所述每个操作数据段的向量之间的距离,对所述每个操作数据段的向量进行聚类,得到多个向量簇;
如果同一用户的所有操作数据段的向量属于同一向量簇,则确定该用户的用户账号的类别为单一账号,如果同一用户的操作数据段的向量属于不同的向量簇,则确定该用户的用户账号的类别为多用户账号;以及
针对类别为单一账号的用户账号,利用分类模型对所述用户账号表征的用户的操作数据段的向量进行处理,得到所述用户账号的性别类别。
9.根据权利要求1所述的方法,其中,所述操作类型包括下单、点击、浏览、关注和加购中的一种或多种,所述方法还包括:
在所述针对每个用户的多条操作记录进行划分之前,对所述多条操作记录进行预处理,所述预处理包括以下至少之一:
从所述多条操作记录中剔除浏览操作的持续时间小于第一阈值的操作记录;
基于企业用户信息表,从所述多条操作记录中剔除企业用户的操作记录;
从所述多条操作记录中剔除在预设时长内点击操作的次数高于第二预设阈值的操作记录;
基于所述操作记录中的物品标识的物品品类,从所述多条操作记录中剔除物品标识属于指定物品品类的操作记录。
10.一种用户账号的识别装置,包括:
获取模块,用于获取多个用户中的每个用户在预设时间段内针对物品的多条操作记录,所述操作记录包括物品标识、操作时间以及操作类型;
划分模块,用于基于所述操作时间和所述操作类型,针对每个用户的多条操作记录进行划分,得到针对该用户的至少一个操作数据段,其中,每个操作数据段包括具有关联关系的物品标识;
第一生成模块,用于基于针对每个用户的至少一个操作数据段生成物品关系图,其中,所述物品关系图包括多个节点以及连接所述多个节点的多条边,每个节点表征一个物品,每条边表征与该条边连接的两个节点之间的关联关系,每条边具有针对该条边而设置的权重;
第二生成模块,用于利用向量表征模型对所述物品关系图进行处理,生成针对每个节点的向量,基于针对每个节点的向量,确定针对每个操作数据段的向量;
确定模块,用于基于针对每个用户的操作数据段的向量之间的关联性,确定所述用户的用户账号的类别。
11.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175750.4A CN113822691A (zh) | 2020-10-28 | 2020-10-28 | 用户账号的识别方法、装置、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175750.4A CN113822691A (zh) | 2020-10-28 | 2020-10-28 | 用户账号的识别方法、装置、系统和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822691A true CN113822691A (zh) | 2021-12-21 |
Family
ID=78924904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011175750.4A Pending CN113822691A (zh) | 2020-10-28 | 2020-10-28 | 用户账号的识别方法、装置、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822691A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730283A (zh) * | 2022-10-19 | 2023-03-03 | 广州易幻网络科技有限公司 | 一种账号登录风控系统、方法、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118043A (zh) * | 2011-11-16 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种用户账号的识别方法及设备 |
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN110555451A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN110738509A (zh) * | 2018-07-20 | 2020-01-31 | 北京京东金融科技控股有限公司 | 量化用户之间关联程度的方法和装置 |
CN111209925A (zh) * | 2018-11-21 | 2020-05-29 | 北京京东尚科信息技术有限公司 | 性别预测方法、装置和计算机可读存储介质 |
CN111209173A (zh) * | 2020-01-02 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种性别预测方法、装置、存储介质、以及电子设备 |
-
2020
- 2020-10-28 CN CN202011175750.4A patent/CN113822691A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118043A (zh) * | 2011-11-16 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种用户账号的识别方法及设备 |
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
US20170193399A1 (en) * | 2015-12-30 | 2017-07-06 | Xiaomi Inc. | Method and device for conducting classification model training |
CN110555451A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN110738509A (zh) * | 2018-07-20 | 2020-01-31 | 北京京东金融科技控股有限公司 | 量化用户之间关联程度的方法和装置 |
CN111209925A (zh) * | 2018-11-21 | 2020-05-29 | 北京京东尚科信息技术有限公司 | 性别预测方法、装置和计算机可读存储介质 |
CN111209173A (zh) * | 2020-01-02 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种性别预测方法、装置、存储介质、以及电子设备 |
Non-Patent Citations (2)
Title |
---|
KAIKAI DENG等: "A Multiuser Identification Algorithm Based on Internet of Things", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》 * |
杨奕卓;于洪涛;黄瑞阳;刘正铭;: "基于融合表示学习的跨社交网络用户身份匹配", 计算机工程, no. 09 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730283A (zh) * | 2022-10-19 | 2023-03-03 | 广州易幻网络科技有限公司 | 一种账号登录风控系统、方法、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783534B2 (en) | Method, system and computer readable medium for creating a profile of a user based on user behavior | |
CN104077723B (zh) | 一种社交网络推荐系统及方法 | |
CN110335123B (zh) | 基于社交电商平台的商品推荐方法、系统、计算机可读介质以及装置 | |
CN113722611A (zh) | 政务服务的推荐方法、装置、设备及计算机可读存储介质 | |
CN112989059A (zh) | 潜在客户识别方法及装置、设备及可读计算机存储介质 | |
CN112149003B (zh) | 商品社群推荐方法、装置和计算机设备 | |
CN112258301B (zh) | 商品推荐方法、装置、系统、可读存储介质及电子设备 | |
CN114297509A (zh) | 用户兴趣向量生成方法、产品推荐方法、装置、设备、介质 | |
CN108512674B (zh) | 用于输出信息的方法、装置和设备 | |
CN105389714B (zh) | 一种从行为数据识别用户特性的方法 | |
CN112560105B (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN113822691A (zh) | 用户账号的识别方法、装置、系统和介质 | |
CN112685635A (zh) | 基于分类标签的项目推荐方法、装置、服务器和存储介质 | |
CN111787042B (zh) | 用于推送信息的方法和装置 | |
CN112330373A (zh) | 用户行为分析方法、装置及计算机可读存储介质 | |
Kumar et al. | Cuisine prediction based on ingredients using tree boosting algorithms | |
CN113495991A (zh) | 一种推荐方法和装置 | |
CN111967924A (zh) | 商品推荐方法、商品推荐装置、计算机设备和介质 | |
CN113837843B (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN113327154B (zh) | 基于大数据的电商用户讯息推送方法及系统 | |
CN115423555A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
WO2021204039A1 (zh) | 用于推送信息的方法和装置 | |
CN116739626A (zh) | 商品数据挖掘处理方法、装置、电子设备及可读介质 | |
CN113158032A (zh) | 一种信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |