CN110472137B - 识别模型的负样本构建方法、装置和系统 - Google Patents

识别模型的负样本构建方法、装置和系统 Download PDF

Info

Publication number
CN110472137B
CN110472137B CN201910606078.0A CN201910606078A CN110472137B CN 110472137 B CN110472137 B CN 110472137B CN 201910606078 A CN201910606078 A CN 201910606078A CN 110472137 B CN110472137 B CN 110472137B
Authority
CN
China
Prior art keywords
user
article
probability distribution
item
candidate set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910606078.0A
Other languages
English (en)
Other versions
CN110472137A (zh
Inventor
孙召伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910606078.0A priority Critical patent/CN110472137B/zh
Publication of CN110472137A publication Critical patent/CN110472137A/zh
Application granted granted Critical
Publication of CN110472137B publication Critical patent/CN110472137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及机器学习技术领域,尤其涉及一种识别模型的负样本构建方法、装置和系统,包括:获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数;这样,使得构造的样本类别不仅能够平衡,而且不影响负样本模型的输出。

Description

识别模型的负样本构建方法、装置和系统
技术领域
本发明涉及机器学习技术领域,尤其涉及一种识别模型的负样本构建方法、装置和系统。
背景技术
随着互联网数据的爆炸式增长,对这些互联网数据进行有效提取,以便提供与用户行为相匹配的信息,成为亟待解决的问题。
目前,个性化信息推荐是解决这一问题的有效方法,它通过跟踪用户的历史行为,提取用户的兴趣特征并构建负样本模型,分析信息与用户特征的匹配程度,从而给用户推荐可能感兴趣的信息。但是在负样本模型构建的过程中,只依靠用户的历史行为对该用户进行特征匹配,不仅会导致负样本的样本信息过于单调,还会导致数据类别的不平衡,从而影响负样本模型的输出。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中构造负样本的样本信息过于单调从而导致类别不平衡影响负样本模型输出的技术缺陷。
本发明提供一种和别模型的负样本构建方法,包括如下步骤:
获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;
采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;
根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;
将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
在其中一个实施例中,所述历史行为数据包括用户登录平台的天数;
根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还包括:
通过大数据平台采集用户登录平台的天数,根据一定时间段内的登录天数计算用户活跃度;
根据所述用户活跃度进行概率分布统计得到第一概率分布参数的计算公式如下:
其中,P(u)表示第一概率分布参数,u表示用户,N(u)表示用户u在T时间段内的登录天数,|T|表示时间T的长度,P(u)∈(0,1]。
在其中一个实施例中,所述特征数据包括物品被点击的用户数;
根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还包括:
通过大数据平台采集物品被点击的用户数,根据物品在一段时间内被点击的用户数计算物品流行度;
根据所述物品流行度进行概率分布统计得到第二概率分布参数的计算公式如下:
其中,P(i)表示第二概率分布参数,i表示物品,Ni表示物品i在一段时间内被点击的用户数;s表示物品集,P(i)∈(0,1]。
在其中一个实施例中,所述根据所述历史行为数据对所述物品候选集进行调整的步骤,包括:
通过所述第一概率分布参数获取用户活跃度的第一概率分布分数值阈值;
根据所述历史行为数据确定异常活跃用户,并对所述异常活跃用户进行欠采样,其中,所述异常活跃用户是指用户活跃度的概率分布分数值大于第一概率分布分数值阈值的用户;
根据所述欠采样结果对所述物品候选集中的用户集进行调整。
在其中一个实施例中,所述根据所述特征数据对所述物品候选集进行调整的步骤,包括:
通过所述第二概率分布参数获取对象流行度的第二概率分布分数值阈值;
根据所述特征数据确定冷门物品,并对所述冷门物品进行过采样;其中,所述冷门对象是指物品流行度的概率分布分数值小于第二概率分布分数值阈值的物品;
根据所述过采样结果对所述物品候选集的物品集进行调整。
在其中一个实施例中,根据所述调整物品候选集中各个用户的历史行为数据计算用户活跃度概率分布参数的步骤,包括:
获取所述物品候选集中各个用户的第一概率分布参数,以及所述调整物品候选集中的用户集;其中,所述第一概率分布参数根据所述用户的历史行为数据计算得到;
根据所述第一概率分布参数和所述调整物品候选集中的用户集计算用户活跃度概率分布参数。
在其中一个实施例中,根据所述调整物品候选集中各个物品的特征数据计算物品流行度概率分布参数的步骤,包括:
获取所述物品候选集中各个物品的第二概率分布参数,以及所述调整物品候选集中的物品集;其中,所述第二概率分布参数根据所述物品的特征数据计算得到;
根据所述第二概率分布参数和所述调整物品候选集中的物品集计算物品流行度概率分布参数。
在其中一个实施例中,根据所述历史行为数据和特征数据对所述物品候选集进行调整的步骤,还包括:
根据所述历史行为数据确定沉默用户,并对所述沉默用户进行过采样,根据所述过采样结果对所述物品候选集中的用户集进行调整;
根据所述特征数据确定热门物品,并对所述热门物品进行欠采样,根据所述欠采样结果对所述物品候选集的物品集进行调整。
本发明还提供了一种识别模型的负样本构建装置,其包括:
第一处理模块,用于获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;
调整模块,用于采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;
第二处理模块,用于根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;
采样模块,用于将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本发明还提供了一种识别模型的负样本构建系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并且能够在所述计算机处理器中执行的计算机程序,所述计算机处理器执行所述计算机程序时实现如上述实施例中任意一项所述方法中的步骤。
上述的识别模型的负样本构建方法、装置和系统,首先获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;最后将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本方案在负样本构建的过程中,同时考虑用户活跃度和物品流行度,可以使得构造的数据集最大程度地逼近真实的样本分布,并且考虑物品流行度的分布能够控制负样本构造模型中长尾物品出现的比例适中,不会影响真实的数据分布,考虑用户活跃度的分布使得在负样本构造过程中不会低估活跃用户的样本量以及高估沉默用户的样本量,进而使得构造的样本类别能够平衡,从而不影响负样本模型的输出。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例方案的应用环境图;
图2是一个实施例的识别模型的负样本构建方法流程图;
图3是一个实施例的识别模型的负样本构建装置结构示意图;
图4是一个实施例中计算机设备的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参考图1所示,图1是本发明实施例的应用环境图;本实施例中,本发明的技术方案可以基于服务器120实现,如图1中,服务器120与用户终端110之间通过网络进行数据交互。在本发明实施例中,服务器120通过网络获取用户终端110的样本信息,并对获取到的样本信息进行概率分布统计以及比例调整,然后在数据库中对随机数进行条件查询等相关操作;这里所指的服务器120是指实现各种后台功能的设备;特别地,这里所指的数据库是指能够查询SQL语言的数据库。
在一个实施例中,如图2所示,图2为一个实施例的识别模型的负样本构建方法流程图,本实施例中提出了一种识别模型的负样本构建方法,具体可以包括以下步骤:
S110:获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合。
在此步骤中,通过大数据平台采集应用平台的注册用户,并将所有的注册用户构成一个用户的集合,即用户集。
接着,通过大数据平台采集应用平台中展示的物品,将所有展示的物品构成一个物品的集合,即物品集。
基于上述说明,获取用户集和物品集,在数据库中对用户集与物品集进行笛卡尔积的方式如下:
假设用户集为(u1,u2),物品集为(i1,i2,i3),构造用户集和物品集的笛卡尔积:
u1 i1
u1 i2
u1 i3
u2 i1
u2 i2
u2 i3
上述将用户集与物品集进行笛卡尔积的目的是为了将不相关的两个集合进行笛卡尔积后,形成相关关联的物品候选集,该物品候选集表征所述用户集中各个用户所能选择的物品集中的物品的集合。
本实施例中,通过将用户集与物品集进行笛卡尔积后,可在得到的物品候选集中筛选出异常的数据,如异常活跃的用户、沉默的用户、冷门的物品以及热门的物品等。
S120:采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集。
本步骤中,通过大数据平台采集用户的历史行为数据,历史行为数据包括用户登录平台的次数、浏览网页的时间等,根据用户登录平台次数以及浏览网页的时间确定用户的活跃度相关信息。
举例来说,用户的活跃度相关信息包括上述采集的用户登录平台次数以及浏览网页的时间等信息,通过用户登录平台次数以及浏览网页等不同信息确定每个用户的用户活跃度,根据不同用户的用户活跃度对物品候选集进行调整。其中,用户的活跃度相关信息可以包含上述一种或多种特征,还可以包含其他特征,本发明实施例不做限制。
这里调整的方式可以是根据用户的历史行为数据计算用户活跃度的概率分布图,根据该概率分布图对用户活跃度中异常活跃用户或沉默用户进行欠采样或者过采样。
本步骤中还包括通过大数据平台采集被物品的特征数据,物品的特征数据包括用户对被行为物品的点击率、购买率等信息,根据被用户行为的物品的点击率和购买率等信息确定物品流行度信息,然后根据物品流行度信息对物品候选集进行调整。
其中,被用户行为的物品指的是被用户点击、浏览或购买的物品,物品流行度信息指的是根据被用户点击、浏览或购买单个物品的用户数量确定该物品的流行度高低,上述特征数据还可以包含其他特征数据,本发明实施例不做限制。
这里调整的方式还可以是根据物品的特征数据计算物品流行度的概率分布图,根据该概率分布图对物品流行度中冷门物品或热门物品进行过采样或者欠采样。
本实施例中,通过采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集,用户活跃度越高,被抽到的负样本物品也越多,物品越流行,被抽到的概率越大,这样构造的数据集更符合长尾分布。
S130:根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表。
本步骤中,通过上述S120对物品候选集中的各个物品和各个用户进行比例调整,对异常活跃的用户以及过于冷门的物品进行处理,防止漏掉部分长尾物品,降低异常活跃用户和冷门物品对负样本模型的影响。
其中,异常活跃用户指的是用户登录平台的次数、浏览网页的时间等过于频繁,超过设定的阈值的用户,冷门物品指的是被用户点击、浏览或购买单个物品的用户数小于设定的阈值的物品。
对物品候选集中的各个物品和各个用户进行比例调整后,得到调整物品候选集,然后根据该调整物品候选集中各个用户的历史行为数据和各个物品的特征数据对用户活跃度的概率分布重新进行计算,以得到调整物品候选集中每个用户的用户活跃度概率分布参数,以及每个物品的物品流行度概率分布参数,将各个用户的用户活跃度概率分布参数进行统计后得到用户活跃度表,将各个物品的物品流行度概率分布参数进行统计后得到物品流行度表。
S140:将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本步骤中,将步骤S130中生成的用户活跃度表和物品流行度表进行关联,并生成一列随机数,具体过程如下:
需要说明的是,上述关联表中随机数的取值仅仅作为一个举例,还可以通过其他方式确定其他形式的取值,本发明实施例不再详细举例,并且不作限制。
当生成随机数后,在数据库中对生成的随机数通过SQL条件查询来实现随机数的选取,伪代码逻辑如下:
SELECT user,item
WHEREAnd/>
通过上述伪代码实现随机数的选取,即负样本的采样,其中,表示用户活跃度,/>表示物品流行度,r表示随机数,当随机数同时满足既小于用户活跃度的概率分布值又小于物品流行度的概率分布值时,确定该随机数对应的用户和物品为负样本。
上述的识别模型的负样本构建方法,首先获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;最后将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本方案在负样本构建的过程中,同时考虑用户活跃度和物品流行度,可以使得构造的数据集最大程度地逼近真实的样本分布,并且考虑物品流行度的分布能够控制负样本构造模型中长尾物品出现的比例适中,不会影响真实的数据分布,考虑用户活跃度的分布使得在负样本构造过程中不会低估活跃用户的样本量以及高估沉默用户的样本量,进而使得构造的样本类别能够平衡,从而不影响负样本模型的输出。
在一个实施例中,所述历史行为数据包括用户登录平台的天数;步骤S120中根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还可以包括:
(1)通过大数据平台采集用户登录平台的天数,根据一定时间段内的登录天数计算用户活跃度;
(2)根据所述用户活跃度进行概率分布统计得到第一概率分布参数的计算公式如下:
其中,P(u)表示第一概率分布参数,u表示用户,N(u)表示用户u在T时间段内的登录天数,|T|表示时间T的长度,P(u)∈(0,1]。
上述过程中,通过大数据平台中的日志信息采集用户登录平台的天数,根据一定时间段内的登录天数计算用户活跃度,再利用上述计算公式得到用户活跃度的概率分布参数,即第一概率分布参数,根据该第一概率分布参数可以得到用户活跃度的概率分布图,依据此概率分布图可以进行随机抽样获得负样本。
在一个实施例中,所述特征数据包括物品被点击的用户数;步骤S120中根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还可以包括:
(1)通过大数据平台采集物品被点击的用户数,根据物品在一段时间内被点击的用户数计算物品流行度;
(2)根据所述物品流行度进行概率分布统计得到第二概率分布参数的计算公式如下:
其中,P(i)表示第二概率分布参数,i表示物品,Ni表示物品i在一段时间内被点击的用户数;s表示物品集,P(i)∈(0,1]。
上述过程中,通过网络爬虫或在展示页面设置埋点等方式采集物品被点击的用户数,根据物品在一段时间内被点击的用户数计算物品流行度,再利用上述计算公式得到物品流行度的概率分布参数,即第二概率分布参数,根据该第二概率分布参数可以得到物品流行度的概率分布图,依据此概率分布图可以进行随机抽样获得负样本。
在一个实施例中,步骤S120中根据所述历史行为数据对所述物品候选集进行调整的步骤,可以包括:
(1)通过所述第一概率分布参数获取用户活跃度的第一概率分布分数值阈值;
(2)根据所述历史行为数据获取异常活跃用户,并对所述异常活跃用户进行欠采样,其中,所述异常活跃用户是指用户活跃度的概率分布分数值大于第一概率分布分数值阈值的用户;
(3)根据所述欠采样结果对所述物品候选集中的用户集进行调整。
上述过程中,根据用户的历史行为数据确定用户的第一概率分布参数,通过第一概率分布参数可以获取用户活跃度的概率分布分数值,根据概率分布分数值可以确定第一概率分布分数值阈值,这里的第一概率分布分数值阈值指的是异常活跃用户的概率分布分数值阈值。
举例来说,取异常活跃用户的第一概率分布分数值阈值为99%,当异常活跃用户的百分数大于99%时,该用户则为异常活跃用户。
需要说明的是,这里所指的取异常活跃用户的第一概率分布分数值阈值为99%,还可以取其他分数值,本发明实施例不做限制。
当确定异常活跃用户后,将该部分异常活跃用户进行欠采样,降低异常活跃用户对负样本模型的影响。
在一个实施例中,步骤S130中根据所述调整物品候选集中各个用户的历史行为数据计算用户活跃度概率分布参数的步骤,可以包括:
(1)获取所述物品候选集中各个用户的第一概率分布参数,以及所述调整物品候选集中的用户集;其中,所述第一概率分布参数根据所述用户的历史行为数据计算得到;
(2)根据所述第一概率分布参数和所述调整物品候选集中的用户集计算用户活跃度概率分布参数。
对异常活跃用户进行欠采样后得到用户活跃度概率分布参数的计算公式如下:
其中,U表示所述调整物品候选集中的用户集,P(u)表示第一概率分布参数,表示用户活跃度概率分布参数,P(u)∈(0,1],/>
通过重新计算采样后的第一概率分布参数,并利用上述计算公式得到用户活跃度概率分布参数,上述过程的计算是通过SQL代码实现。
需要说明的是,上述公式中的欠采样比例0.75值可根据实际情况进行调整,在此不作限定。
在一个实施例中步骤S120中根据所述特征数据对所述物品候选集进行调整的步骤,可以包括:
(1)通过所述第二概率分布参数获取物品流行度的第二概率分布分数值阈值;
(2)根据所述特征数据确定冷门物品,并对所述冷门物品进行过采样;其中,所述冷门物品是指物品流行度的概率分布分数值小于第二概率分布分数值阈值的物品;
(3)根据所述过采样结果对所述物品候选集的物品集进行调整。
上述过程中,根据物品的特征数据确定物品的第二概率分布参数,通过第二概率分布参数可以获取物品流行度的概率分布分数值,根据概率分布分数值可以确定第二概率分布分数值阈值,这里的第二概率分布分数值阈值指的是冷门物品的概率分布分数值阈值。
举例来说,取冷门物品的第二概率分布分数值阈值为1%,当物品流行百分数小于1%时,该物品则为冷门物品。
需要说明的是,这里所指的冷门物品的第二概率分布分数值阈值为1%,还可以取其他分数值,本发明实施例不做限制。
当确定冷门物品后,将该部分冷门物品进行过采样,提高冷门物品在负样本模型中的样本分布。
在一个实施例中,步骤S130中根据所述调整物品候选集中各个物品的特征数据计算物品流行度概率分布参数的步骤,可以包括:
(1)获取所述物品候选集中各个物品的第二概率分布参数,以及所述调整物品候选集中的物品集;其中,所述第二概率分布参数根据所述物品的特征数据计算得到;
(2)根据所述第二概率分布参数和所述调整物品候选集中的物品集计算物品流行度概率分布参数。
通过重新计算采样后的第二概率分布参数,并利用用户活跃度概率分布参数的计算公式,重新设定过采样的比例值,得到物品流行度概率分布参数,上述过程的计算是通过SQL代码实现。
在一个实施例中,步骤S120中根据所述历史行为数据和特征数据对所述物品候选集进行调整的步骤,还可以包括:
(1)根据所述历史行为数据确定沉默用户,并对所述沉默用户进行过采样,根据所述过采样结果对所述物品候选集中的用户集进行调整;
(2)根据所述特征数据确定热门物品,并对所述热门物品进行欠采样,根据所述欠采样结果对所述物品候选集的物品集进行调整。
本实施例中,根据用户的历史行为数据确定用户的第一概率分布参数后,通过第一概率分布参数可以获取用户活跃度的概率分布分数值,根据概率分布分数值可以确定沉默用户的概率分布分数值阈值。
举例来说,取沉默用户的概率分布分数值阈值为2%,当沉默用户的百分数小于2%时,视该用户为沉默用户,对沉默用户进行过采样,提高沉默用户在负样本模型中的样本分布。
本实施例中,根据物品的特征数据确定物品的第二概率分布参数后,还可以通过第二概率分布参数可以获取物品流行度的概率分布分数值,根据概率分布分数值可以确定热门物品的概率分布分数值阈值。
举例来说,取热门物品的概率分布分数值阈值为90%,当物品流行百分数大于90%时,该物品则为热门物品,对热门物品进行欠采样,降低热门物品对负样本模型的影响。
在一个实施例中,如图3所示,图3为一个实施例中的识别模型的负样本构建装置结构示意图,本实施例中提供了一种识别模型的负样本构造装置,其包括:第一处理模块210、调整模块220、第二处理模块230、和采样模块240,其中:
第一处理模块210:用于获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合。
本模块中,通过大数据平台采集应用平台的注册用户,并将所有的注册用户构成一个用户的集合,即用户集。
接着,通过大数据平台采集应用平台中展示的物品,将所有展示的物品构成一个物品的集合,即物品集。
基于上述说明,获取用户集和物品集,在数据库中对用户集与物品集进行笛卡尔积的方式如下:
假设用户集为(u1,u2),物品集为(i1,i2,i3),构造用户集和物品集的笛卡尔积:
上述将用户集与物品集进行笛卡尔积的目的是为了将不相关的两个集合进行笛卡尔积后,形成相关关联的物品候选集,该物品候选集表征所述用户集中各个用户所能选择的物品集中的物品的集合。
本实施例中,通过将用户集与物品集进行笛卡尔积后,可在得到的物品候选集中筛选出异常的数据,如异常活跃的用户、沉默的用户、冷门的物品以及热门的物品等。
调整模块220:用于采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集。
本模块中,通过大数据平台采集用户的历史行为数据,历史行为数据包括用户登录平台的次数、浏览网页的时间等,根据用户登录平台次数以及浏览网页的时间确定用户的活跃度相关信息。
举例来说,用户的活跃度相关信息包括上述采集的用户登录平台次数以及浏览网页的时间等信息,通过用户登录平台次数以及浏览网页等不同信息确定每个用户的用户活跃度,根据不同用户的用户活跃度对物品候选集进行调整。其中,用户的活跃度相关信息可以包含上述一种或多种特征,还可以包含其他特征,本发明实施例不做限制。
这里调整的方式可以是根据用户的历史行为数据计算用户活跃度的概率分布图,根据该概率分布图对用户活跃度中异常活跃用户或沉默用户进行欠采样或者过采样。
本模块中还包括通过大数据平台采集被物品的特征数据,物品的特征数据包括用户对被行为物品的点击率、购买率等信息,根据被用户行为的物品的点击率和购买率等信息确定物品流行度信息,然后根据物品流行度信息对物品候选集进行调整。
其中,被用户行为的物品指的是被用户点击、浏览或购买的物品,物品流行度信息指的是根据被用户点击、浏览或购买单个物品的用户数量确定该物品的流行度高低,上述特征数据还可以包含其他特征数据,本发明实施例不做限制。
这里调整的方式还可以是根据物品的特征数据计算物品流行度的概率分布图,根据该概率分布图对物品流行度中冷门物品或热门物品进行过采样或者欠采样。
本实施例中,通过采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集,用户活跃度越高,被抽到的负样本物品也越多,物品越流行,被抽到的概率越大,这样构造的数据集更符合长尾分布。
第二处理模块230:用于根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表。
本模块中,通过上述S120对物品候选集中的各个物品和各个用户进行比例调整,对异常活跃的用户以及过于冷门的物品进行处理,防止漏掉部分长尾物品,降低异常活跃用户和冷门物品对负样本模型的影响。
其中,异常活跃用户指的是用户登录平台的次数、浏览网页的时间等过于频繁,超过设定的阈值的用户,冷门物品指的是被用户点击、浏览或购买单个物品的用户数小于设定的阈值的物品。
对物品候选集中的各个物品和各个用户进行比例调整后,得到调整物品候选集,然后根据该调整物品候选集中各个用户的历史行为数据和各个物品的特征数据对用户活跃度的概率分布重新进行计算,以得到调整物品候选集中每个用户的用户活跃度概率分布参数,以及每个物品的物品流行度概率分布参数,将各个用户的用户活跃度概率分布参数进行统计后得到用户活跃度表,将各个物品的物品流行度概率分布参数进行统计后得到物品流行度表。
采样模块240:用于将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本模块中,将步骤S130中生成的用户活跃度表和物品流行度表进行关联,并生成一列随机数,具体过程如下:
需要说明的是,上述关联表中随机数的取值仅仅作为一个举例,还可以通过其他方式确定其他形式的取值,本发明实施例不再详细举例,并且不作限制。
当生成随机数后,在数据库中对生成的随机数通过SQL条件查询来实现随机数的选取,伪代码逻辑如下:
SELECT user,item
WHEREAnd/>
通过上述伪代码实现随机数的选取,即负样本的采样,其中,表示用户活跃度,/>表示物品流行度,r表示随机数,当随机数同时满足既小于用户活跃度的概率分布值又小于物品流行度的概率分布值时,确定该随机数对应的用户和物品为负样本。
上述的识别模型的负样本构建装置,首先获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;最后将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
本方案在负样本构建的过程中,同时考虑用户活跃度和物品流行度,可以使得构造的数据集最大程度地逼近真实的样本分布,并且考虑物品流行度的分布能够控制负样本构造模型中长尾物品出现的比例适中,不会影响真实的数据分布,考虑用户活跃度的分布使得在负样本构造过程中不会低估活跃用户的样本量以及高估沉默用户的样本量,进而使得构造的样本类别能够平衡,从而不影响负样本模型的输出。
关于识别模型的负样本构建装置的具体限定可以参见上文中对于识别模型的负样本构建方法的限定,在此不再赘述。上述识别模型的负样本构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图4所示,图4为一个实施例中计算机设备的内部结构示意图。该计算机设备310包括通过系统总线313连接的处理器314、非易失性存储介质315、存储器311和网络接口312。其中,该计算机设备310的非易失性存储介质315存储有操作系统317和计算机程序316,该计算机程序316被处理器314执行时,可使得处理器314实现一种识别模型的负样本构建方法。该计算机设备310的处理器314用于提供计算和控制能力,支撑整个计算机设备310的运行。该计算机设备310的存储器311中存储有计算机程序316,该计算机程序316被处理器314执行时,可使得处理器314执行一种识别模型的负样本构建方法。该计算机设备310的网络接口312用于与移动终端连接通信。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种识别模型的负样本构建系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并且能够在所述计算机处理器中执行的计算机程序,所述计算机处理器执行所述计算机程序时实现如上述实施例中任意一项所述识别模型的负样本构建方法中的步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种识别模型的负样本构建方法,其特征在于,包括如下步骤:
获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;
采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;
根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;
将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本;
所述历史行为数据包括用户登录平台的天数;
根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还包括:
通过大数据平台采集用户登录平台的天数,根据一定时间段内的登录天数计算用户活跃度;
根据所述用户活跃度进行概率分布统计得到第一概率分布参数的计算公式如下:
其中,表示第一概率分布参数,/>表示用户,/>表示用户/>在/>时间段内的登录天数,/>表示时间/>的长度,/>
所述特征数据包括物品被点击的用户数;
根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集的步骤之前,还包括:
通过大数据平台采集物品被点击的用户数,根据物品在一段时间内被点击的用户数计算物品流行度;
根据所述物品流行度进行概率分布统计得到第二概率分布参数的计算公式如下:
其中,表示第二概率分布参数,/>表示物品,/>表示物品/>在一段时间内被点击的用户数;/>表示物品集,/>
所述根据所述历史行为数据对所述物品候选集进行调整的步骤,包括:
通过所述第一概率分布参数获取用户活跃度的第一概率分布分数值阈值;
根据所述历史行为数据确定异常活跃用户,并对所述异常活跃用户进行欠采样,其中,所述异常活跃用户是指用户活跃度的概率分布分数值大于第一概率分布分数值阈值的用户;
根据所述欠采样结果对所述物品候选集中的用户集进行调整;
所述根据所述特征数据对所述物品候选集进行调整的步骤,包括:
通过所述第二概率分布参数获取对象流行度的第二概率分布分数值阈值;
根据所述特征数据确定冷门物品,并对所述冷门物品进行过采样;其中,所述冷门物品是指物品流行度的概率分布分数值小于第二概率分布分数值阈值的物品;
根据所述过采样结果对所述物品候选集的物品集进行调整。
2.根据权利要求1所述的方法,其特征在于,根据所述调整物品候选集中各个用户的历史行为数据计算用户活跃度概率分布参数的步骤,包括:
获取所述物品候选集中各个用户的第一概率分布参数,以及所述调整物品候选集中的用户集;其中,所述第一概率分布参数根据所述用户的历史行为数据计算得到;
根据所述第一概率分布参数和所述调整物品候选集中的用户集计算用户活跃度概率分布参数。
3.根据权利要求2所述的方法,其特征在于,根据所述调整物品候选集中各个物品的特征数据计算物品流行度概率分布参数的步骤,包括:
获取所述物品候选集中各个物品的第二概率分布参数,以及所述调整物品候选集中的物品集;其中,所述第二概率分布参数根据所述物品的特征数据计算得到;
根据所述第二概率分布参数和所述调整物品候选集中的物品集计算物品流行度概率分布参数。
4.根据权利要求3所述的方法,其特征在于,根据所述历史行为数据和特征数据对所述物品候选集进行调整的步骤,还包括:
根据所述历史行为数据确定沉默用户,并对所述沉默用户进行过采样,根据所述过采样结果对所述物品候选集中的用户集进行调整;
根据所述特征数据确定热门物品,并对所述热门物品进行欠采样,根据所述欠采样结果对所述物品候选集的物品集进行调整。
5.一种识别模型的负样本构建装置,其特征在于,应用于权利要求1-4中任一项所述的识别模型的负样本构建方法,该装置包括:
第一处理模块,用于获取用户集和物品集,并将所述用户集和物品集进行笛卡尔积得到物品候选集;其中,所述物品候选集表征所述用户集中的各个用户所能选择的物品集中的物品的集合;
调整模块,用于采集所述用户集中各个用户的历史行为数据以及所述物品集中各个物品的特征数据,根据所述历史行为数据和特征数据对所述物品候选集进行调整得到调整物品候选集;
第二处理模块,用于根据所述调整物品候选集中各个用户的历史行为数据和各个物品的特征数据计算用户活跃度概率分布参数和物品流行度概率分布参数,并生成用户活跃度表和物品流行度表;
采样模块,用于将所述用户活跃度表与所述物品流行度表进行关联并生成一列随机数,将所述随机数的值小于所述随机数对应的用户活跃度和物品流行度的概率分布值的用户和物品作为识别模型的负样本。
6.一种识别模型的负样本构建系统,其特征在于,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并且能够在所述计算机处理器中执行的计算机程序,所述计算机处理器执行所述计算机程序时实现如权利要求1至4任意一项所述方法中的步骤。
CN201910606078.0A 2019-07-05 2019-07-05 识别模型的负样本构建方法、装置和系统 Active CN110472137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910606078.0A CN110472137B (zh) 2019-07-05 2019-07-05 识别模型的负样本构建方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910606078.0A CN110472137B (zh) 2019-07-05 2019-07-05 识别模型的负样本构建方法、装置和系统

Publications (2)

Publication Number Publication Date
CN110472137A CN110472137A (zh) 2019-11-19
CN110472137B true CN110472137B (zh) 2023-07-25

Family

ID=68506775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910606078.0A Active CN110472137B (zh) 2019-07-05 2019-07-05 识别模型的负样本构建方法、装置和系统

Country Status (1)

Country Link
CN (1) CN110472137B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111085B (zh) * 2021-04-08 2024-01-30 达观数据有限公司 基于流式数据的自动化层级探索方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107424007A (zh) * 2017-07-12 2017-12-01 北京京东尚科信息技术有限公司 一种构建电子券敏感度识别模型的方法和装置
CN108616491A (zh) * 2016-12-13 2018-10-02 北京酷智科技有限公司 一种恶意用户的识别方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN108616491A (zh) * 2016-12-13 2018-10-02 北京酷智科技有限公司 一种恶意用户的识别方法和系统
CN107424007A (zh) * 2017-07-12 2017-12-01 北京京东尚科信息技术有限公司 一种构建电子券敏感度识别模型的方法和装置

Also Published As

Publication number Publication date
CN110472137A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN111079022B (zh) 基于联邦学习的个性化推荐方法、装置、设备及介质
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
US11100421B2 (en) Customized website predictions for machine-learning systems
US9699042B2 (en) Systems and methods of classifying sessions
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN109086394B (zh) 搜索排序方法、装置、计算机设备和存储介质
US20190138586A1 (en) Adaptive Modification of Content Presented in Electronic Forms
CN110413868B (zh) 信息推荐方法、装置、系统及存储介质
WO2021135562A1 (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN106997549A (zh) 一种广告信息的推送方法及系统
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
US10909145B2 (en) Techniques for determining whether to associate new user information with an existing user
CN110825977A (zh) 一种数据推荐方法及相关设备
CN111967914A (zh) 基于用户画像的推荐方法、装置、计算机设备和存储介质
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN106709805B (zh) 一种用户收益数据获取方法及系统
CN112579854A (zh) 信息处理方法、装置、设备和存储介质
CN110472137B (zh) 识别模型的负样本构建方法、装置和系统
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
JP6872853B2 (ja) 検出装置、検出方法及び検出プログラム
WO2011008282A2 (en) Evaluation of website visitor based on value grade
CN108920492B (zh) 一种网页分类方法、系统、终端及存储介质
CN111340062A (zh) 一种映射关系确定方法及装置
CN115393100A (zh) 资源推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant