CN110851708A - 负样本的抽取方法、装置、计算机设备和存储介质 - Google Patents
负样本的抽取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110851708A CN110851708A CN201910985141.6A CN201910985141A CN110851708A CN 110851708 A CN110851708 A CN 110851708A CN 201910985141 A CN201910985141 A CN 201910985141A CN 110851708 A CN110851708 A CN 110851708A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- negative sample
- label
- point object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 89
- 230000006399 behavior Effects 0.000 claims abstract description 86
- 238000009826 distribution Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 9
- 238000009827 uniform distribution Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 10
- 238000012549 training Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 8
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000001960 triggered effect Effects 0.000 description 8
- 230000009193 crawling Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及机器学习技术领域,尤其涉及一种负样本的抽取方法、装置、计算机设备和存储介质,包括:获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息;获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重;根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率;根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本;本方案不仅优化了负样本的抽样逻辑,还降低了模型训练过程中的计算量以及提高了模型效果和评价指标。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种负样本的抽取方法、装置、计算机设备和存储介质。
背景技术
目前,个性化信息推荐已经被各大互联网平台广泛采用,它通过跟踪用户的历史行为,提取用户的兴趣特征,分析信息与用户特征的匹配程度,从而给用户推荐可能感兴趣的信息。
例如,推荐系统会将应用平台中收集到的用户的样本信息送入训练模型中进行训练,通过比较样本信息中的正负样本来模拟用户可能感兴趣的信息,其中,负样本的选取对训练模型的效果起到关键性的作用;但是,目前推荐系统在对负样本进行选取时,通常采用随机抽样的方式,这种方式选取的负样本价值度较低,容易影响推荐效果。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中采用随机抽样的方式选取的负样本价值度较低,容易影响推荐效果的技术缺陷。
本申请提供一种负样本的抽取方法,包括如下步骤:
获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息;
获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重;
根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率;
根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
在一个实施例中,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息的步骤,包括:
通过所述页面埋点信息确定所述展示页面中的各个埋点对象,以及所述埋点对象对应的埋点数据;其中,所述埋点数据包括埋点属性和交互信息;
根据所述埋点属性确定所述埋点对象的标签信息,以及根据所述交互信息确定所述埋点对象的流行度信息。
在一个实施例中,通过所述历史行为信息确定用户在所述应用平台中的标签权重的步骤,包括:
根据所述历史行为信息确定用户在所述应用平台中的各个行为对象,以及所述行为对象对应的行为数据;
根据所述行为数据统计所述行为对象中各个标签对应的标签数据,并将所述标签数据进行归一化处理后得到用户在所述应用平台中的标签权重。
在一个实施例中,根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率的步骤,包括:
根据所述标签权重对应的标签以及各个埋点对象的标签信息确定用户对各个埋点对象的兴趣度;其中,在所述标签权重中没有与所述埋点对象的标签信息对应的标签时,所述兴趣度取零;
根据所述兴趣度确定所述应用平台中各个埋点对象被用户抽样的抽样概率。
在一个实施例中,所述流行度信息包括各个埋点对象被用户点击的次数;
根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列的步骤,包括:
根据各个埋点对象被用户点击的次数和抽样概率得到各个埋点对象的元素值;
将各个埋点对象的元素值进行累计得到埋点对象的分布序列,并将所述埋点对象的分布序列作为负样本分布序列。
在一个实施例中,从所述负样本分布序列中抽取负样本的步骤,包括:
获取预设抽取数据,根据所述预设抽取数据构建均匀分布序列,并通过二分法查找所述均匀分布序列中的元素在所述负样本分布序列中的位置信息;
根据所述位置信息确定所述负样本分布序列中各个位置的索引值并形成索引值序列,将所述索引值序列作为负样本抽样序列抽取负样本。
在一个实施例中,从所述负样本分布序列中抽取负样本的步骤之后,还包括:
当所述展示页面中的埋点对象无交互信息时,将所述负样本分布序列中对应的埋点对象进行去除处理;
根据去除处理后的各个埋点对象的流行度信息和抽样概率生成新的负样本分布序列。
本申请还提供了一种负样本的抽取装置,其包括:
第一获取模块,用于获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息;
第二获取模块,用于获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重;
数据处理模块,用于根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率;
样本抽取模块,用于根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
本申请还提供了一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上述实施例中任意一项所述负样本的抽取方法中的步骤。
本申请还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述负样本的抽取方法的步骤。
上述负样本的抽取方法、装置、计算机设备和存储介质,通过应用平台获取该应用平台的展示页面中的页面埋点信息,以及用户在该应用平台中的历史行为信息,然后根据该页面埋点信息以及用户的历史行为信息确定该展示页面中各个埋点对象的抽样概率,并由抽样概率以及埋点对象确定负样本分布序列,从而通过该负样本分布序列抽取负样本。本方案利用上述抽样方式进行负样本抽样,不仅优化了负样本的抽样逻辑,还降低了模型训练过程中的计算量以及提高了模型效果和评价指标。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例的负样本的抽取方法的应用环境图;
图2是一个实施例的负样本的抽取方法流程图;
图3为本申请各个实施例的分布流程图;
图4为一个实施例的负样本的抽取装置结构示意图;
图5是一个实施例的计算机设备的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参考图1所示,图1是本发明实施例的应用环境图;本实施例中,本发明的技术方案可以基于服务器120实现,如图1中,服务器120与用户终端110之间通过网络进行数据交互。在本发明实施例中,服务器120通过网络获取用户终端110中应用平台的页面埋点信息以及用户在该应用平台的历史行为信息,并根据页面埋点信息以及用户的历史行为信息进行相关操作;这里所指的服务器120是指实现各种后台功能的设备。
在一个实施例中,如图2所示,图2为一个实施例的负样本的抽取方法流程图,本实施例中提出了一种负样本的抽取方法,具体可以包括以下步骤:
S110:获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息。
本申请中,当用户在应用平台中有相应的行为时,需要对用户的行为信息进行监测,以及对该应用平台中展示的信息进行采集,以便为用户推荐符合用户行为习惯的信息。
因而,本步骤中,获取应用平台中展示页面中的页面埋点信息,该页面埋点信息可通过网页爬取的方式,从展示页面中爬取各个展示对象对应的埋点信息,并对爬取到的该展示页面中各个展示对象的埋点信息进行统计,进而得到该展示页面的页面埋点信息。
可以理解的是,应用平台中有多个展示页面,该展示页面指的是展示给用户并供用户浏览的网页页面,该展示页面中显示有多种展示对象,该展示对象指的是展示页面中展示给用户并供用户点击、浏览的对象,相应地,为了获取展示页面中某些展示对象的相关信息,需要对该展示对象设置对应的埋点信息,网络爬虫通过爬取展示对象的埋点信息获取与该展示对象对应的相关信息,该埋点信息包括被埋点的展示对象,即埋点对象,以及该埋点对象对应的埋点数据。
其中,应用平台包括音视频类应用平台、金融平台、购物平台等;展示对象包括应用平台中展示的视频、音乐、书籍等有传播性质的物品或金融保险、消费品等。
通过上述方式获取页面埋点信息,能够丰富负样本抽样过程中样本的相关信息,并且在获取到展示页面中的页面埋点信息后,由页面埋点信息确定各个埋点对象的标签信息和流行度信息。
比如:页面埋点信息中包括商品A的物品属性、点击、搜索以及购买记录等信息,由物品属性信息可以得到物品A的标签信息,由物品A点击、搜索以及购买记录等信息可以得到物品A的流行度信息。
S120:获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重。
本步骤中,通过大数据平台记录的数据获取用户在应用平台中的历史行为信息,根据用户的历史行为信息确定用户在应用平台中的标签权重。
具体地,大数据平台中保存有各个用户在某一应用平台中的历史行为数据,可通过大数据平台调取某一用户在某段时间内的历史行为数据,跟踪用户的历史行为,了解用户有行为物品的标签信息,并根据该物品的标签信息计算出标签权重,从而确定用户对其他未行为的物品的兴趣程度。
其中,用户的历史行为信息包括有用户在应用平台中点击、购买、播放、浏览、分享的信息;根据用户在应用平台中的历史行为信息,即可确定该历史行为信息对应的物品的标签权重。
S130:根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率。
本步骤中,通过上述步骤S110获取到应用平台的展示页面中各个埋点对象的标签信息,以及通过步骤S120获取到用户在该应用平台中的历史行为信息,并根据该历史行为信息确定用户的标签权重后,可进一步根据该标签权重和各个埋点对象的标签信息确定各个埋点对象的抽样系数和抽样概率。
比如,用户A的标签权重为:label1:0.125,label2:0.125,label3:0.375,label4:0.125,label5:0.25;其中,label1、label2、label3、label4、label5分别指的是各个标签;埋点对象x的标签信息包括label2、label4和label5,则可根据用户A中label2、label4和label5对应的标签权重来计算用户A对埋点对象x的抽样系数,并由该抽样系数得到埋点对象x的抽样概率。
例如,埋点对象x的抽样概率计算公式为rating=cnt^sample_alpha,其中,sample_alpha指的是埋点对象x的抽样系数,根据该计算公式以及抽样系数即可得到埋点对象x的抽样概率。
需要说明的是,这里的抽样系数指的是根据场景需求,按照一定的策略进行自动或手动设定,以计算埋点对象的抽样概率的系数;其中,抽样系数的值大于等于0且小于等于1;抽样概率指的是每个埋点对象被选为负样本的概率。
S140:根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
本步骤中,由步骤S130确定各个埋点对象的抽样概率后,结合各个埋点对象的流行度信息即可生成负样本分布序列,并可通过该负样本分布序列抽取负样本。
其中,各个埋点对象的流行度信息指的是根据各个埋点对象被点击的次数、被购买的频率以及被搜索的次数等确定的各个埋点对象被大众熟悉的程度以及被消费的频次等。
上述负样本的抽取方法,通过应用平台获取该应用平台的展示页面中的页面埋点信息,以及用户在该应用平台中的历史行为信息,然后根据该页面埋点信息以及用户的历史行为信息确定该展示页面中各个埋点对象的抽样概率,并由抽样概率以及埋点对象确定负样本分布序列,从而通过该负样本分布序列抽取负样本。本方案利用上述抽样方式进行负样本抽样,不仅优化了负样本的抽样逻辑,还降低了模型训练过程中的计算量以及提高了模型效果和评价指标。
如图3所示,图3为本申请各个实施例的分布流程图;下面对分别对各个实施例进行详细概括:
在一个实施例中,步骤S110中根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息的步骤,可以包括:
S111:通过所述页面埋点信息确定所述展示页面中的各个埋点对象,以及所述埋点对象对应的埋点数据;其中,所述埋点数据包括埋点属性和交互信息;
S112:根据所述埋点属性确定所述埋点对象的标签信息,以及根据所述交互信息确定所述埋点对象的流行度信息。
本实施例中,应用平台中展示页面中的页面埋点信息可通过网页爬取的方式,从展示页面中爬取各个展示对象对应的埋点信息,并对爬取到的该展示页面中各个展示对象的埋点信息进行统计,进而得到该展示页面的页面埋点信息。
可以理解的是,为了获取展示页面中某些展示对象的相关信息,需要对该展示对象设置对应的埋点信息,网络爬虫通过爬取展示对象的埋点信息获取与该展示对象对应的相关信息,该埋点信息包括被埋点的展示对象,即埋点对象,以及该埋点对象对应的埋点数据;该埋点对象可以是展示页面的各个控件,包括文本框、按钮、超链接图片等等,埋点对象的埋点数据包括埋点属性和交互信息,该埋点属性可以是该埋点对象对应的id或name,交互信息可以是该埋点对象被触发的次数、购买该埋点对象对应的物品的次数等等。
当获取到埋点对象的埋点属性后,根据该埋点属性即可得到该埋点对象的标签信息。比如,埋点对象的埋点属性为“超洋气女士镂空包”包的超链接图片,则表示该埋点对象的标签信息为“女士”、“包”、“洋气”。需要说明的是,单一的埋点对象对应的标签信息至少为一个。
当获取到埋点对象的交互信息后,根据该交互信息即可确定该埋点对象的流行度信息。比如,根据埋点对象的交互信息中埋点对象被触发的次数确定流行度信息,当埋点对象被触发的次数明显高于该展示页面的其他埋点对象被触发的次数时,则表示该埋点对象的流行程度很高,被大众认可程度高,因而该埋点对象被用户所触发的概率相对较高;当埋点对象被触发的次数明显低于该展示页面的其他埋点对象被触发的次数时,则表示该埋点对象的流行度很低,被大众认可程度相对较低,因而该埋点对象被用户触发的概率相对较低。
上述实施例中,考虑到展示页面中各个埋点对象的标签信息,以及埋点对象的流行度信息,以便根据各个埋点对象的流行度信息确定用户可能感兴趣的物品以及该物品对应的标签。
在一个实施例中,步骤S120中通过所述历史行为信息确定用户在所述应用平台中的标签权重的步骤,可以包括:
S121:根据所述历史行为信息确定用户在所述应用平台中的各个行为对象,以及所述行为对象对应的行为数据;
S122:根据所述行为数据统计所述行为对象中各个标签对应的标签数据,并将所述标签数据进行归一化处理后得到用户在所述应用平台中的标签权重。
本实施例中,通过大数据平台收集用户在应用平台中的历史行为信息,该历史行为信息包括在该应用平台中的行为对象,即浏览、点击、搜索的对象,并获取这些行为对象对应的行为数据,即浏览、点击、搜索对象的次数、频率等。
当得到用户在该应用平台中的行为数据后,根据该行为数据统计行为对象中各个标签对应的标签数据,并将该标签数据进行归一化处理后得到用户在该应用平台中的标签权重。
可以理解的是,根据用户在应用平台中的行为数据得到的各个标签对应的标签数据,该标签数据的数值范围没有统一的界限,对于直接根据该标签数据计算用户在该应用平台中的标签权重来说是比较复杂的,因此,需要对各个标签数据进行归一化处理,以便简化标签权重的计算过程。
如通过用户点击历史获取在该应用平台中的标签权重:
用户A的行为数据,即点击历史为:埋点对象x:label1,label2,label5、埋点对象y:label3,lebel5、埋点对象z:labell3,label4,label5;
因此,得到用户A的标签数据为:label1:1,label2:1,label3:3,label4:1,label5:2;
设定数据的取值范围为(0,1),将标签数据映射到0~1范围之内处理,即,将上述各个标签数据对应的数值变为(0,1)之间的小数,例如:{2.5 3.5 0.5 1.5}经归一化后变成了{0.3125 0.4375 0.0625 0.1875},其归一化过程为:2.5+3.5+0.5+1.5=8,2.5/8=0.3125,3.5/8=0.4375,0.5/8=0.0625,1.5/8=0.1875,该归一化过程就是将括号里面的总和变成1,然后计算出每个数占总和的比例。
因而,上述用户A的标签数据经归一化处理后,得到A的标签权重为:label1:0.125,label2:0.125,label3:0.375,label4:0.125,label5:0.25。
上述实施例中,通过用户在应用平台的行为数据得到该用户的标签权重,进而可根据用户的标签权重选择负样本,提高负样本训练模型的模型效果和评价指标。
在一个实施例中,步骤S130中根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率的步骤,可以包括:
S131:根据所述标签权重对应的标签以及各个埋点对象的标签信息确定用户对各个埋点对象的兴趣度;其中,在所述标签权重中没有与所述埋点对象的标签信息对应的标签时,所述兴趣度取零;
S132:根据所述兴趣度确定所述应用平台中各个埋点对象被用户抽样的抽样概率。
本实施例中,当获取到用户在该应用平台中的标签权重,以及该标签权重对应的标签、各个埋点对象的标签信息后,可根据标签权重对应的标签模拟用户对各个埋点对象的兴趣度。
比如,物品x的标签为:label1,label2,label5,用户A对于物品x的兴趣度为X=(0.125+0.125+0.25)/2=0.25,特别地,对于物品p的标签为label6,label7,在用户A的行为数据中没有用户A感兴趣的label,所以用户A对于物品p的兴趣度为0。
当确定好各个埋点对象的兴趣度后,令抽样系数sample_alpha=1-X,因而可得到物品x的抽样系数为1-X=1-0.25=0.75,继而可得到物品x的抽样概率rating为rating=cnt^(1-X)=cnt^0.75;用户A对于物品p的兴趣度为0,从而物品p的抽样系数为1-X=1-0=1,继而物品p的抽样概率为rating为rating=cnt^(1-x)=cnt^1。
由于用户的标签权重是经归一化处理后得到的,所以X的值始终满足0≤X≤1,当X为1时,用户兴趣度最大,当X为0时没有兴趣度,且负样本抽样的目的是为了抽取用户不感兴趣的商品,因而上述用户对物品的兴趣度越小,被抽样的概率越大,当用户对物品的兴趣度为0时,物品的抽样概率为cnt^1,相当于对cnt的衰减最少,被抽样的概率最大。
进一步地,对于没有物品标签的场景,可根据场景需求,按照一定的策略对抽样系数sample_alpha进行手动设定。
其中,考虑商品驱热性的策略分析,可设置sample_alpha为1,此时完全基于流行抽样;考虑长尾分布的策略分析,可设置sample_alpha为0,此时完全基于正态分布抽样。
在一个实施例中,所述流行度信息包括各个埋点对象被用户点击的次数;步骤S140中根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列的步骤,可以包括:
S141:根据各个埋点对象被用户点击的次数和抽样概率得到各个埋点对象的元素值;
S142:将各个埋点对象的元素值进行累计得到埋点对象的分布序列,并将所述埋点对象的分布序列作为负样本分布序列。
本实施例中,获取各个埋点对象的流行度信息,该流行度信息包括埋点对象在一段周期内被用户点击的次数,如:item1:300,item2:100,表示埋点对象item1在一段时间内被用户点击300次,埋点对象item2在一段时间内被用户点击100次,因而每个埋点对象item被选作负样本的概率,即抽样概率为rating=cnt^sample_alpha,然后进行索引,即可得到各个埋点对象的元素值item_rating。
当得到各个埋点对象的元素值item_rating后,计算元素值item_rating的累计和序列,作为每个item被选为负样本的概率得到样本分布序列为:Item_rating=item_rating.cusum()/item_rating.sum()。
上述实施例中,基于埋点对象的流行度信息、用户的标签权重的负样本样本序列获取过程中,通过item_rating计算得到累计和序列,把item_rating中全部元素看做一条直线,元素值越大,在直线中占据的长度越长,最终该元素值被选取的概率也越大。
在一个实施例中,步骤S140中从所述负样本分布序列中抽取负样本的步骤,可以包括:
S143:获取预设抽取数据,根据所述预设抽取数据构建均匀分布序列,并通过二分法查找所述均匀分布序列中的元素在所述负样本分布序列中的位置信息;
S144:根据所述位置信息确定所述负样本分布序列中各个位置的索引值并形成索引值序列,将所述索引值序列作为负样本抽样序列抽取负样本。
本实施例中,计算item_rating的累计和序列,作为每个item被选为负样本的概率得到负样本分布序列后,可设定抽取N个负样本,进而构建长度为N值为[0,1]的均匀分布序列rd,其中,rd=[2.22255397e-01,4.83157712e-01,8.52519503e-01,……,3.22300400e-01];
接着,由均匀分布序列rd得到负样本抽样序列neg_samples。首先设定函数searchsorted(item_rating,rd),通过searchsorted(item_rating,rd),即二分法查找均匀分布序列rd中的元素在负样本分布序列item_rating中的位置,并返回位置索引值,得到的索引值序列即为负样本抽样序列neg_samples,即neg_samples=searchsorted(item_rating,rd)。
上述实施例中,通过item_rating计算得到累计和序列,把item_rating中全部元素看做一条直线,元素值越大,在直线中占据的长度越长,而均匀分布序列通过二分法在直线中选取的每个点概率是一样的,所以item_rating序列中的元素值越大,最终被选取的概率越大。
在一个实施例中,步骤S140从所述负样本分布序列中抽取负样本的步骤之后,还可以包括:
S151:当所述展示页面中的埋点对象无交互信息时,将所述负样本分布序列中对应的埋点对象进行去除处理;
S152:根据去除处理后的各个埋点对象的流行度信息和抽样概率生成新的负样本分布序列。
本实施例中,当展示页面中的埋点对象无交互信息时,即用户没有浏览该展示页面的展示对象,在用户不知道该展示页面中展示对象是否存在的情况下,可将上述负样本分布序列item_rating中被用户点击或搜索过的item去除,然后再重新计算去除后的负样本分布序列item_rating,进一步得到重新计算后的负样本分布序列,通过此算法可以模拟用户的交互信息,从而确定负样本抽样。
上述实施例,当展示页面中的埋点对象无交互信息时,可将上述计算得到的负样本分布序列item_rating中被用户点击或搜索过的item去除,这样可以降低模型训练过程中的计算量。
在一个实施例中,如图4所示,图4为一个实施例的负样本的抽取装置结构示意图,本实施例中提供了一种负样本的抽取装置,其包括:第一获取模块210、第二获取模块220、数据处理模块230和样本抽取模块240,其中:
第一获取模块210,用于获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息。
本申请中,当用户在应用平台中有相应的行为时,需要对用户的行为信息进行监测,以及对该应用平台中展示的信息进行采集,以便为用户推荐符合用户行为习惯的信息。
因而,本步骤中,获取应用平台中展示页面中的页面埋点信息,该页面埋点信息可通过网页爬取的方式,从展示页面中爬取各个展示对象对应的埋点信息,并对爬取到的该展示页面中各个展示对象的埋点信息进行统计,进而得到该展示页面的页面埋点信息。
可以理解的是,应用平台中有多个展示页面,该展示页面指的是展示给用户并供用户浏览的网页页面,该展示页面中显示有多种展示对象,该展示对象指的是展示页面中展示给用户并供用户点击、浏览的对象,相应地,为了获取展示页面中某些展示对象的相关信息,需要对该展示对象设置对应的埋点信息,网络爬虫通过爬取展示对象的埋点信息获取与该展示对象对应的相关信息,该埋点信息包括被埋点的展示对象,即埋点对象,以及该埋点对象对应的埋点数据。
其中,应用平台包括音视频类应用平台、金融平台、购物平台等;展示对象包括应用平台中展示的视频、音乐、书籍等有传播性质的物品或金融保险、消费品等。
通过上述方式获取页面埋点信息,能够丰富负样本抽样过程中样本的相关信息,并且在获取到展示页面中的页面埋点信息后,由页面埋点信息确定各个埋点对象的标签信息和流行度信息。
比如:页面埋点信息中包括商品A的物品属性、点击、搜索以及购买记录等信息,由物品属性信息可以得到物品A的标签信息,由物品A点击、搜索以及购买记录等信息可以得到物品A的流行度信息。
第二获取模块220,用于获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重。
本步骤中,通过大数据平台记录的数据获取用户在应用平台中的历史行为信息,根据用户的历史行为信息确定用户在应用平台中的标签权重。
具体地,大数据平台中保存有各个用户在某一应用平台中的历史行为数据,可通过大数据平台调取某一用户在某段时间内的历史行为数据,跟踪用户的历史行为,了解用户有行为物品的标签信息,并根据该物品的标签信息计算出标签权重,从而确定用户对其他未行为的物品的兴趣程度。
其中,用户的历史行为信息包括有用户在应用平台中点击、购买、播放、浏览、分享的信息;根据用户在应用平台中的历史行为信息,即可确定该历史行为信息对应的物品的标签权重。
数据处理模块230,用于根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率。
本步骤中,通过上述步骤S110获取到应用平台的展示页面中各个埋点对象的标签信息,以及通过步骤S120获取到用户在该应用平台中的历史行为信息,并根据该历史行为信息确定用户的标签权重后,可进一步根据该标签权重和各个埋点对象的标签信息确定各个埋点对象的抽样系数和抽样概率。
比如,用户A的标签权重为:label1:0.125,label2:0.125,label3:0.375,label4:0.125,label5:0.25;其中,label1、label2、label3、label4、label5分别指的是各个标签;埋点对象x的标签信息包括label2、label4和label5,则可根据用户A中label2、label4和label5对应的标签权重来计算用户A对埋点对象x的抽样系数,并由该抽样系数得到埋点对象x的抽样概率。
例如,埋点对象x的抽样概率计算公式为rating=cnt^sample_alpha,其中,sample_alpha指的是埋点对象x的抽样系数,根据该计算公式以及抽样系数即可得到埋点对象x的抽样概率。
需要说明的是,这里的抽样系数指的是根据场景需求,按照一定的策略进行自动或手动设定,以计算埋点对象的抽样概率的系数;其中,抽样系数的值大于等于0且小于等于1;抽样概率指的是每个埋点对象被选为负样本的概率。
样本抽取模块240,用于根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
本步骤中,由步骤S130确定各个埋点对象的抽样概率后,结合各个埋点对象的流行度信息即可生成负样本分布序列,并可通过该负样本分布序列抽取负样本。
其中,各个埋点对象的流行度信息指的是根据各个埋点对象被点击的次数、被购买的频率以及被搜索的次数等确定的各个埋点对象被大众熟悉的程度以及被消费的频次等。
上述负样本的抽取装置,通过应用平台获取该应用平台的展示页面中的页面埋点信息,以及用户在该应用平台中的历史行为信息,然后根据该页面埋点信息以及用户的历史行为信息确定该展示页面中各个埋点对象的抽样概率,并由抽样概率以及埋点对象确定负样本分布序列,从而通过该负样本分布序列抽取负样本。本方案利用上述抽样方式进行负样本抽样,不仅优化了负样本的抽样逻辑,还降低了模型训练过程中的计算量以及提高了模型效果和评价指标。
关于负样本的抽取装置的具体限定可以参见上文中对于负样本的抽取方法的限定,在此不再赘述。上述负样本的抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的负样本的抽取方法的步骤。
如图5所示,图5为一个实施例的计算机设备的内部结构示意图。该计算机设备310包括通过系统总线313连接的处理器314、非易失性存储介质315、存储器311和网络接口312。其中,该计算机设备310的非易失性存储介质315存储有操作系统317和计算机程序316,该计算机程序316被处理器314执行时,可使得处理器314实现负样本的抽取方法。该计算机设备310的处理器314用于提供计算和控制能力,支撑整个计算机设备310的运行。该计算机设备310的存储器311中存储有计算机程序316,该计算机程序316被处理器314执行时,可使得处理器314执行负样本的抽取方法。该计算机设备310的网络接口312用于与移动终端连接通信。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的负样本的抽取方法的步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种负样本的抽取方法,其特征在于,包括如下步骤:
获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息;
获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重;
根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率;
根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
2.根据权利要求1所述的负样本的抽取方法,其特征在于,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息的步骤,包括:
通过所述页面埋点信息确定所述展示页面中的各个埋点对象,以及所述埋点对象对应的埋点数据;其中,所述埋点数据包括埋点属性和交互信息;
根据所述埋点属性确定所述埋点对象的标签信息,以及根据所述交互信息确定所述埋点对象的流行度信息。
3.根据权利要求1所述的负样本的抽取方法,其特征在于,通过所述历史行为信息确定用户在所述应用平台中的标签权重的步骤,包括:
根据所述历史行为信息确定用户在所述应用平台中的各个行为对象,以及所述行为对象对应的行为数据;
根据所述行为数据统计所述行为对象中各个标签对应的标签数据,并将所述标签数据进行归一化处理后得到用户在所述应用平台中的标签权重。
4.根据权利要求3所述的负样本的抽取方法,其特征在于,根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率的步骤,包括:
根据所述标签权重对应的标签以及各个埋点对象的标签信息确定用户对各个埋点对象的兴趣度;其中,在所述标签权重中没有与所述埋点对象的标签信息对应的标签时,所述兴趣度取零;
根据所述兴趣度确定所述应用平台中各个埋点对象被用户抽样的抽样概率。
5.根据权利要求1所述的负样本的抽取方法,其特征在于,所述流行度信息包括各个埋点对象被用户点击的次数;
根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列的步骤,包括:
根据各个埋点对象被用户点击的次数和抽样概率得到各个埋点对象的元素值;
将各个埋点对象的元素值进行累计得到埋点对象的分布序列,并将所述埋点对象的分布序列作为负样本分布序列。
6.根据权利要求5所述的负样本的抽取方法,其特征在于,从所述负样本分布序列中抽取负样本的步骤,包括:
获取预设抽取数据,根据所述预设抽取数据构建均匀分布序列,并通过二分法查找所述均匀分布序列中的元素在所述负样本分布序列中的位置信息;
根据所述位置信息确定所述负样本分布序列中各个位置的索引值并形成索引值序列,将所述索引值序列作为负样本抽样序列抽取负样本。
7.根据权利要求2所述的负样本的抽取方法,其特征在于,从所述负样本分布序列中抽取负样本的步骤之后,还包括:
当所述展示页面中的埋点对象无交互信息时,将所述负样本分布序列中对应的埋点对象进行去除处理;
根据去除处理后的各个埋点对象的流行度信息和抽样概率生成新的负样本分布序列。
8.一种负样本的抽取装置,其特征在于,包括:
第一获取模块,用于获取应用平台中展示页面的页面埋点信息,根据所述页面埋点信息确定各个埋点对象的标签信息和流行度信息;
第二获取模块,用于获取用户在所述应用平台中的历史行为信息,并通过所述历史行为信息确定用户在所述应用平台中的标签权重;
数据处理模块,用于根据所述标签权重和各个埋点对象的标签信息,确定所述应用平台中各个埋点对象被用户抽样的抽样概率;
样本抽取模块,用于根据各个埋点对象的流行度信息和抽样概率生成负样本分布序列,并从所述负样本分布序列中抽取负样本。
9.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的负样本的抽取方法的步骤。
10.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述的负样本的抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985141.6A CN110851708B (zh) | 2019-10-16 | 2019-10-16 | 负样本的抽取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985141.6A CN110851708B (zh) | 2019-10-16 | 2019-10-16 | 负样本的抽取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851708A true CN110851708A (zh) | 2020-02-28 |
CN110851708B CN110851708B (zh) | 2023-11-03 |
Family
ID=69596736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910985141.6A Active CN110851708B (zh) | 2019-10-16 | 2019-10-16 | 负样本的抽取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851708B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681067A (zh) * | 2020-04-17 | 2020-09-18 | 清华大学 | 基于图注意力网络的长尾商品推荐方法及系统 |
CN112596992A (zh) * | 2020-11-25 | 2021-04-02 | 新华三大数据技术有限公司 | 应用活跃度的计算方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
US20190057159A1 (en) * | 2017-08-15 | 2019-02-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, server, and storage medium for recalling for search |
CN110046254A (zh) * | 2019-04-18 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
WO2019165944A1 (zh) * | 2018-02-28 | 2019-09-06 | 中国银联股份有限公司 | 基于转移概率网络的商户推荐方法及其系统 |
CN110321038A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 信息展示位置的调整方法、装置、终端和存储介质 |
-
2019
- 2019-10-16 CN CN201910985141.6A patent/CN110851708B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
US20190057159A1 (en) * | 2017-08-15 | 2019-02-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, server, and storage medium for recalling for search |
WO2019165944A1 (zh) * | 2018-02-28 | 2019-09-06 | 中国银联股份有限公司 | 基于转移概率网络的商户推荐方法及其系统 |
CN110046254A (zh) * | 2019-04-18 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110321038A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 信息展示位置的调整方法、装置、终端和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681067A (zh) * | 2020-04-17 | 2020-09-18 | 清华大学 | 基于图注意力网络的长尾商品推荐方法及系统 |
CN111681067B (zh) * | 2020-04-17 | 2023-10-31 | 清华大学 | 基于图注意力网络的长尾商品推荐方法及系统 |
CN112596992A (zh) * | 2020-11-25 | 2021-04-02 | 新华三大数据技术有限公司 | 应用活跃度的计算方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110851708B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191240B (zh) | 一种进行商品推荐的方法和装置 | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN108205768A (zh) | 数据库建立方法和数据推荐方法及装置、设备和存储介质 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN111737418B (zh) | 搜索词和商品的相关性预测方法、设备和存储介质 | |
CN105159910A (zh) | 信息推荐方法和装置 | |
CN112380449B (zh) | 信息推荐方法、模型训练方法及相关装置 | |
CN108153792A (zh) | 一种数据处理方法和相关装置 | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN113837842A (zh) | 一种基于用户行为数据的商品推荐方法及设备 | |
CN116562992B (zh) | 一种建模用户新兴趣不确定性的物品推荐方法、装置及介质 | |
CN111861605A (zh) | 业务对象推荐方法 | |
CN110851708A (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN112132660A (zh) | 商品推荐方法、系统、设备及存储介质 | |
CN111680213B (zh) | 信息推荐方法、数据处理方法及装置 | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN117172887B (zh) | 商品推荐模型训练方法及商品推荐方法 | |
CN112036987B (zh) | 确定推荐商品的方法和装置 | |
CN110020195B (zh) | 文章推荐方法及装置、存储介质、电子设备 | |
CN116071133A (zh) | 基于大数据的跨境电商环境分析方法、系统及计算设备 | |
CN110827044A (zh) | 提取用户兴趣模式的方法和装置 | |
CN112069388B (zh) | 实体推荐方法、系统、计算机设备和计算机可读存储介质 | |
CN110472137B (zh) | 识别模型的负样本构建方法、装置和系统 | |
WO2017219317A1 (zh) | 一种基于搜索内容的信息推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |