CN108304426B - 标识的获取方法及装置 - Google Patents
标识的获取方法及装置 Download PDFInfo
- Publication number
- CN108304426B CN108304426B CN201710290180.5A CN201710290180A CN108304426B CN 108304426 B CN108304426 B CN 108304426B CN 201710290180 A CN201710290180 A CN 201710290180A CN 108304426 B CN108304426 B CN 108304426B
- Authority
- CN
- China
- Prior art keywords
- identifier
- target
- preset
- identifiers
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种标识的获取方法及装置。其中,该方法包括:从多个数据源中获取与预定操作对应的标识;根据标识的特征信息以及预设特征词从标识中获取初始标识;根据预设权重以及特征信息确定初始标识的特征参数;从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。采用上述技术方案,解决了现有技术中获取用于训练的标识的准确度低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种标识的获取方法及装置。
背景技术
在众多推荐领域,比如广告推荐、游戏推荐、视频推荐、新闻推荐等,常常需要将资源投放给某一特定领域用户(定向用户)来提升资源的投放效果,而定向用户的挖掘,通常采用训练预测模型的方式,包括LR(逻辑回归)、RF(随机森林)、GBDT(梯度提升决策树)等,而以上任何模型效果好坏的关键,就是在其训练阶段选择训练样本(可以是用户的标识)的准确性,即正负样本选择的是否足够精准。而通常获取真实正样本的方法,是根据CRM(客户关系管理)获得真实可靠的正样本数据,但往往这类数据规模较小,从而导致训练出的模型特征不够明显,从而影响模型训练效果。
现有的训练数据样本获取的方式,多数是基于用户行为从单一数据源中获取规则匹配的人群,作为正样本集,负样本集则是从大盘中随机选取;这样单数据源的方式很容易导致样本有偏,同时生成的样本集规模也相对较小,除此之外选出的样本集也不易区分出每个样本的纯净度。
在现有的训练数据样本获取的方式中,如图1所示,根据要挖掘的特定人群,准备样本表征词和优化规则,在单一的用户行为日志中,通过模式匹配(正则匹配)方式挖掘出带有样本表征词特征的人群,作为其训练数据正样本人群,负样本人群则是在大盘人群中排除正样本人群后,随机选择的样本。这种方式将会导致以下缺陷:首先用户行为日志单一,搜索匹配的人群有限,样本易偏;其次,正样本人群通过模式匹配挖掘后,不足以说明正样本的纯净度和可靠性。以上缺陷导致了现有的训练数据样本获取的方式获取用于训练的标识的准确度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标识的获取方法及装置,以至少解决现有技术中获取用于训练的标识的准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种标识的获取方法,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。
根据本发明实施例的另一方面,还提供了一种标识的获取装置,包括:第一获取模块,用于从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;第二获取模块,用于根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;确定模块,用于根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;第三获取模块,用于从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述标识的获取方法。
在本发明实施例中,从多个数据源中获取与预定操作对应的标识,其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的预定操作;根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。也就是说,在目标数据源中记录了标识对应的帐号以及帐号执行过的预定操作,从中获取预定操作对应的标识,使得标识的获取途径更加的广泛,避免了从单一的用户日志获取标识规模较小导致的获取的标识有偏的问题,再根据标识的特征信息以及预设特征词初步地筛选出初始标识,并根据预设权重和特征信息为初始标识确定特征参数来表示出初始标识执行该预定操作的频率,然后从初始标识中获取特征参数高于预设参数的第一目标标志,使得第一目标标识中包括的标识均为执行预定操作频率较高的标识,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的一种标识的获取方法的示意图;
图2是根据本发明实施例的一种可选的标识的获取方法的应用环境示意图;
图3是根据本发明实施例的一种可选的标识的获取方法的示意图;
图4是根据本发明实施例的一种可选的标识的获取装置的示意图一;
图5是根据本发明实施例的一种可选的标识的获取装置的示意图二;
图6是根据本发明实施例的一种可选的标识的获取装置的示意图三;
图7是根据本发明实施例的一种可选的标识的获取装置的示意图四;
图8是根据本发明实施例的一种可选的标识的获取装置的示意图五;
图9是根据本发明实施例的一种可选的标识的获取装置的示意图六;
图10是根据本发明实施例的一种可选的标识的获取方法的应用场景示意图;以及
图11是根据本发明实施例的一种可选的标识的获取设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
在本发明实施例中,提供了一种上述标识的获取方法的实施例。作为一种可选的实施方式,该标识的获取方法可以但不限于应用于如图2所示的应用环境中,服务器202,用于从多个数据源中获取与预定操作对应的标识,根据标识的特征信息以及预设特征词从标识中获取初始标识,根据标识的特征信息以及预设特征词从标识中获取初始标识,从初始标识中获取第一目标标识;其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的操作;特征信息用于表示预定操作的特征;预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;第一目标标识是初始标识中特征参数高于预设参数的标识的集合。
在本实施例中,在目标数据源中记录了标识对应的帐号以及帐号执行过的操作,服务器202从中获取预定操作对应的标识,使得标识的获取途径更加的广泛,避免了从单一的用户日志获取标识规模较小导致的获取的标识有偏的问题,再根据标识的特征信息以及预设特征词初步地筛选出初始标识,并根据预设权重和特征信息为初始标识确定特征参数来表示出初始标识执行该预定操作的频率,然后从初始标识中获取特征参数高于预设参数的第一目标标志,使得第一目标标识中包括的标识均为执行预定操作频率较高的标识,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
可选地,在本实施例中,服务器202用于:获取第一特征词与第二特征词,其中,预设特征词包括第一特征词和第二特征词;从标识中获取初始标识,其中,初始标识对应的特征信息中携带第一特征词且未携带第二特征词。
可选地,在本实施例中,服务器202用于:获取预设权重,其中,预设权重的值越大表示目标数据源中的帐号执行预定操作的频率越高;从特征信息中获取时间信息和频次信息,其中,时间信息用于指示标识执行预定操作的时间,频次信息用于指示标识执行预定操作的频次;根据预设权重、时间信息以及频次信息确定特征参数,其中,特征参数的值越大表示初始标识执行预定操作的频率越高。
可选地,在本实施例中,服务器202用于:获取目标数据源中执行预定操作的帐号在目标数据源中包括的全部帐号中所占的比例;根据比例为目标数据源分配预设权重,其中,比例越大的数据源分配的预设权重越大;或者,获取第一标识集合与预设标识集合中相同标识的数量,其中,第一标识集合是初始标识中在一个目标数据源中包括的标识的集合;根据数量与第一标识集合中标识的数量之间的比值为目标数据源分配预设权重,其中,比值越大的数据源分配的预设权重越大。
可选地,在本实施例中,服务器202用于:计算初始标识在每个目标数据源中对应的时间信息和频次信息的乘积;根据预设权重计算乘积的加权和,得到特征参数。
可选地,在本实施例中,服务器202用于:从标识对应的预定操作中获取用于表示预定操作的特征的信息,其中,用于表示预定操作的特征的信息包括:预定操作对应的特征词,时间信息和频次信息;将特征词、时间信息以及频次信息存储为预设格式,得到特征信息。
可选地,在本实施例中,服务器202用于:将初始标识按照特征参数从高到低进行排列;从排列后的标识中选择出第一目标标识,其中,第一目标标识包括在排列后的标识中排在前N位的标识;或者,从初始标识中获取特征参数的值大于或者等于预设值的第一目标标识。
可选地,在本实施例中,服务器202用于:将第一目标标识与预设目标标识进行匹配;在第一目标标识与预设目标标识匹配成功的情况下,确定出第一目标标识为所需的标识;在第一目标标识与预设目标标识匹配不成功的情况下,重新获取第一目标标识。
可选地,在本实施例中,服务器202还用于:判断第一目标标识与预设目标标识中是否包括大于或者等于预设数量的相同标识;在判断出第一目标标识与预设目标标识中包括大于或者等于预设数量的相同标识的情况下,确定第一目标标识与预设目标标识匹配成功。
可选地,在本实施例中,服务器202还用于:获取多个数据源中包括的帐号对应的标识;从多个数据源中包括的帐号对应的标识中随机获取除第一目标标识之外的标识,得到第二目标标识,其中,第二目标标识中包括的标识的数量与第一目标标识中包括的标识的数量相同。
可选地,在本实施例描述的应用环境中,还可以包括客户端,客户端通过网络与服务器202连接,服务器202还用于:根据第一目标标识和第二目标标识训练预测模型;根据预测模型从多个数据源包括的标识中为待推送资源获取待推送标识;向待推送标识对应的帐号所使用的客户端推送待推送资源。
可选地,在本实施例中,上述客户端可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他进行区域共享的硬件设备。上述网络可以包括但不限于以下至少之一:广域网、城域网、局域网。上述只是一种示例,本实施例对此不做任何限定。
根据本发明实施例,提供了一种标识的获取方法,如图3所示,该方法包括:
S302,从多个数据源中获取与预定操作对应的标识,其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的操作;
S304,根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;
S306,根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;
S308,从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。
可选地,在本实施例中,上述标识的获取方法可以但不限于应用于获取标识样本进行模型训练,利用训练结果为客户端推送资源的场景中。其中,上述客户端可以但不限于为各种类型的软件,例如,搜索软件、社交软件、即时通讯软件、新闻资讯软件、游戏软件、购物软件等。具体的,可以但不限于应用于在上述获取标识样本进行模型训练,利用训练结果为购物软件的客户端推送资源的场景中,或还可以但不限于应用于在上述获取标识样本进行模型训练,利用训练结果为搜索软件的客户端推送资源的场景中,以实现标识样本的获取。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,多个数据源可以是各种平台、软件、网站、应用程序等。例如:社交应用、搜索引擎、电商网站、广告平台等。
可选地,在本实施例中,标识在不同数据源中可以对应不同的帐号。举例来说,一个用户可能在多个应用上都注册了帐号,例如:在社交平台上注册了帐号A,在购物网站上注册了帐号B,在即时通讯应用上注册了帐号C,该用户可以将上述平台上的三个帐号关联起来,那么,上述三个帐号A、B、C就可以对应同一个标识用来唯一标识该用户。
可选地,在本实施例中,上述目标数据源中可以包括一个或者多个数据源。也就是说,数据源中记录了标识对应的该数据源中的账号,以及该帐号执行过的操作。与预定操作对应的标识可能记录在多个数据源中一个数据源里,还可能记录在多个数据源中的几个数据源里。
可选地,在本实施例中,预定操作可以是标识执行过的某个行为或者用于表征该行为的词组。例如:如果要挖掘的用户是购买母婴类产品的用户,那么预定操作可以是“点击带有奶粉或者纸尿裤的词条”,或者“奶粉”、“纸尿裤”等词组。从多个数据源中获取的与预定操作对应的标识可以首先获取搜索引擎中搜索过“奶粉”、“纸尿裤”的帐号,购物网站中购买过奶粉或者纸尿裤的帐号,即时通讯软件中发送过带有“奶粉”、“纸尿裤”等词组的消息的帐号以及在多个数据源中点击过带有奶粉或者纸尿裤的词条的帐号,再获取上述这些帐号对应的标识。
可选地,在本实施例中,初始标识中可以但不限于包括一个或者多个标识。预设特征词可以但不限于是一个或者多个特征词。第一目标标识中可以但不限于包括一个或者多个标识。
可选地,在本实施例中,预设权重可以用于指示目标数据源中的帐号执行预定操作的频率。换句话说,预设权重可以用来表示目标数据源中的帐号对预定操作的关注程度,这个关注程度可以但不限于用目标数据源中的帐号执行预定操作的频率来表示。在这里,目标数据源中的帐号执行预定操作的频率可以但不限于指目标数据源中的帐号有多少是经常执行该预定操作的(比如:频率超过每天5次执行该预定操作的账号占目标数据源中总账号数的50%)。或者还可以但不限于用目标数据源中的帐号执行预定操作的显著性来表示目标数据源中的帐号执行预定操作的频率。目标数据源中的帐号执行预定操作的显著性可以通过计算初始标识中在目标数据源中记录有帐号的标识在历史数据(比如:上一次推送资源的标识)中所占的比例来确定。
可选地,在本实施例中,预设权重可以是根据目标数据源中的帐号执行预定操作的频率为目标数据源设置的,还可以是根据目标数据源中的帐号执行预定操作的频率通过模型训练的方式计算得到的。
可见,通过上述步骤,在目标数据源中记录了标识对应的帐号以及帐号执行过的操作,从中获取预定操作对应的标识,使得标识的获取途径更加的广泛,避免了从单一的用户日志获取标识规模较小导致的获取的标识有偏的问题,再根据标识的特征信息以及预设特征词初步地筛选出初始标识,并根据预设权重和特征信息为初始标识确定特征参数来表示出初始标识执行该预定操作的频率,然后从初始标识中获取特征参数高于预设参数的第一目标标志,使得第一目标标识中包括的标识均为执行预定操作频率较高的标识,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
作为一种可选的方案,根据标识的特征信息以及预设特征词从标识中获取初始标识包括:
S1,获取第一特征词与第二特征词,其中,预设特征词包括第一特征词和第二特征词;
S2,从标识中获取初始标识,其中,初始标识对应的特征信息中携带第一特征词且未携带第二特征词。
可选地,在本实施例中,预设特征词可以但不限于包括第一特征词和第二特征词。预设特征词可以用来表示一类用户人群的特征,其可以包括正向表征词和负向表征词,其中,正向表征词(相当于上述第一特征词),即通俗意义上的关键词(keywords),用来表征特征人群,负向表征词(相当于上述第二特征词),即过滤词(filter_words),负向表征词的作用,在于去噪,即去掉某些多词拼接后的噪声,从而让正向表征词更能表征特征人群。
通过上述步骤,根据标识的特征信息以及预设特征词中包括的第一特征词和第二特征词从标识中获取初始标识,实现了对标识的初步筛选。
作为一种可选的方案,根据预设权重以及特征信息确定初始标识的特征参数包括:
S1,获取预设权重,其中,预设权重的值越大表示目标数据源中的帐号执行预定操作的频率越高;
S2,从特征信息中获取时间信息和频次信息,其中,时间信息用于指示标识执行预定操作的时间,频次信息用于指示标识执行预定操作的频次;
S3,根据预设权重、时间信息以及频次信息确定特征参数,其中,特征参数的值越大表示初始标识执行预定操作的频率越高。
可选地,在本实施例中,可以但不限于通过以下方式之一获取预设权重:
方式一,获取目标数据源中执行预定操作的帐号在目标数据源中包括的全部帐号中所占的比例;根据比例为目标数据源分配预设权重,其中,比例越大的数据源分配的预设权重越大。
例如,目标数据源有三个,分别是目标数据源A、目标数据源B和目标数据源C,在目标数据源A中共有100个帐号,其中有34个帐号执行过预定操作,在目标数据源B中共有200个帐号,其中有25个帐号执行过预定操作,在目标数据源C中共有100个帐号,其中有56个帐号执行过预定操作。那么,获取到目标数据源A、目标数据源B和目标数据源C对应的比例分别为34%、12.5%和56%,根据获取到的比为目标数据源A、目标数据源B和目标数据源C分别分配的预设权重2、1、3。
方式二,获取第一标识集合与预设标识集合中相同标识的数量,其中,第一标识集合是初始标识中在一个目标数据源中包括的标识的集合;根据数量与第一标识集合中标识的数量之间的比值为目标数据源分配预设权重,其中,比值越大的数据源分配的预设权重越大。
可选地,在本实施例中,预设标识集合可以但不限于指前一次获取的第一目标标识中目标数据源包括的标识,或者是根据前一次推送数据的标识中目标数据源包括的标识。
在一个可选的实施方式中,预设标识集合以前一次获取的第一目标标识中目标数据源包括的标识为例,目标数据源A对应的预设标识集合A中包括40个标识,目标数据源B对应的预设标识集合B中包括30个标识,目标数据源C对应的预设标识集合C中包括40个标识;初始标识中包括的来自目标数据源A、目标数据源B和目标数据源C的标识的数量分别是20、40、40,那么,目标数据源A对应的第一标识集合A中包括20个标识,目标数据源B对应的第一标识集合B中包括40个标识,目标数据源C对应的第一标识集合C中包括40个标识,其中,将第一标识集合A与预设标识集合A中的标识进行匹配,获取到第一标识集合A与预设标识集合A中相同标识的数量为10,将第一标识集合B与预设标识集合B中的标识进行匹配,获取到第一标识集合B与预设标识集合B中相同标识的数量为5,将第一标识集合C与预设标识集合C中的标识进行匹配,获取到第一标识集合C与预设标识集合C中相同标识的数量为20,根据获取到的上述相同标识的数量为目标数据源A、目标数据源B和目标数据源C分别分配的预设权重2、1、3。
可选地,在本实施例中,可以通过以下方式确定特征参数:计算初始标识在每个目标数据源中对应的时间信息和频次信息的乘积,再根据预设权重计算乘积的加权和,得到特征参数。
在一个可选的实施方式中,可以通过以下公式计算上述特征参数:
其中,source代表的是数据源,这里有n个数据源;weight代表的是每个数据源上的预设权重;time代表的是上述时间信息,可以用abs(用户行为发生时间-当前挖掘时间),即行为时间差的绝对值来表示上述时间信息,其作为用户行为时间衰减参数,即行为发生距离当前时间越近,则其特征参数越大,距离当前时间越远,特征参数越小;action代表上述频次信息,可以用来表示用户行为频次,这里取了sigmoid函数,对其做了归一化处理;其表示行为频次越多,特征参数越高。
可见,通过上述步骤,根据预设权重以及特征信息确定初始标识的特征参数,为初始标识打分,可以用来衡量初始标识执行预定操作的频率,从而从初始标识中筛选出的第一目标标识更能代表预定操作,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
作为一种可选的方案,在根据标识的特征信息以及预设特征词从标识中获取初始标识之前,还包括:
S1,从标识对应的预定操作中获取用于表示预定操作的特征的信息,其中,用于表示预定操作的特征的信息包括:预定操作对应的特征词,时间信息和频次信息;
S2,将特征词、时间信息以及频次信息存储为预设格式,得到特征信息。
可见,通过上述步骤,将从标识对应的预定操作中获取的用于表示预定操作的特征的信息整理为预定格式进行存储,从而使得特征词的比对更加快速便捷。
作为一种可选的方案,从初始标识中获取第一目标标识包括以下之一:
S1,将初始标识按照特征参数从高到低进行排列;从排列后的标识中选择出第一目标标识,其中,第一目标标识包括在排列后的标识中排在前N位的标识;
S2,从初始标识中获取特征参数的值大于或者等于预设值的第一目标标识。
可选地,在本实施例中,可以对特征参数进行从高到低的排序,将排在前N位的标识作为特征参数高于预设参数的标识,得到第一目标标识。
可选地,在本实施例中,可以设定预设值,将值大于或者等于该预设值的特征参数对应的标识作为第一目标标识。
可见,通过上述步骤,通过对特征参数进行从高到低的排序,或者,设定预设值的方式获取第一目标标识可以清楚地从初始标识中选择出更能代表预定操作的标识。
作为一种可选的方案,在从初始标识中获取第一目标标识之后,还包括:
S1,将第一目标标识与预设目标标识进行匹配;
S2,在第一目标标识与预设目标标识匹配成功的情况下,确定出第一目标标识为所需的标识;在第一目标标识与预设目标标识匹配不成功的情况下,重新获取第一目标标识。
可选地,在本实施例中,可以通过以下方式对第一目标标识与预设目标标识进行匹配:判断第一目标标识与预设目标标识中是否包括大于或者等于预设数量的相同标识,并在判断出第一目标标识与预设目标标识中包括大于或者等于预设数量的相同标识的情况下,确定第一目标标识与预设目标标识匹配成功。
可选地,在本实施例中,预设目标标识可以是上一次获取的第一目标标识,还可以是预先设定的目标标识。
可选地,在本实施例中,重新获取第一目标标识时可以但不限于通过重新设定预定操作来重新获取预定操作对应的标识从而获取第一目标标识。还可以但不限于通过重新为目标数据源分配预设权重来重新获取第一目标标识。
可见,通过上述步骤,将第一目标标识与预设目标标识进行匹配,如果匹配成功了则可以确定当前获取的第一目标标识满足模型训练的需要,也就是说,第一目标标识是所需的标识。反之,如果匹配不成功,则说明当前获取的第一目标标识不满足模型训练的需要,可以重新获取第一目标标识。
作为一种可选的方案,在从初始标识中获取第一目标标识之后,还包括:
S1,获取多个数据源中包括的帐号对应的标识;
S2,从多个数据源中包括的帐号对应的标识中随机获取除第一目标标识之外的标识,得到第二目标标识,其中,第二目标标识中包括的标识的数量与第一目标标识中包括的标识的数量相同。
可选地,在本实施例中,第一目标标识可以作为模型训练的正样本,在获取了第一目标标识之后,还可以从多个数据源的全部的标识中获取第二目标标识作为模型训练的负样本。
作为一种可选的方案,在从多个数据源中包括的帐号对应的标识中随机获取除第一目标标识之外的标识,得到第二目标标识之后,还包括:
S1,根据第一目标标识和第二目标标识训练预测模型;
S2,根据预测模型从多个数据源包括的标识中为待推送资源获取待推送标识;
S3,向待推送标识推送待推送资源。
可选地,在本实施例中,获取的第一目标标识和第二目标标识可以用来进行预测模型的训练,从而使得通过预测模型获取的待推送标识能够更加准确的代表预定操作所指向的人群。从而能够使得推送资源的效率能够更高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述标识的获取方法的标识的获取装置,如图4所示,该装置包括:
1)第一获取模块42,用于从多个数据源中获取与预定操作对应的标识,其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的操作;
2)第二获取模块44,用于根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;
3)确定模块46,用于根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;
4)第三获取模块48,用于从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。
可选地,在本实施例中,上述标识的获取装置可以但不限于应用于获取标识样本进行模型训练,利用训练结果为客户端推送资源的场景中。其中,上述客户端可以但不限于为各种类型的软件,例如,搜索软件、社交软件、即时通讯软件、新闻资讯软件、游戏软件、购物软件等。具体的,可以但不限于应用于在上述获取标识样本进行模型训练,利用训练结果为购物软件的客户端推送资源的场景中,或还可以但不限于应用于在上述获取标识样本进行模型训练,利用训练结果为搜索软件的客户端推送资源的场景中,以实现标识样本的获取。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,多个数据源可以是各种平台、软件、网站、应用程序等。例如:社交应用、搜索引擎、电商网站、广告平台等。
可选地,在本实施例中,标识在不同数据源中可以对应不同的帐号。举例来说,一个用户可能在多个应用上都注册了帐号,例如:在社交平台上注册了帐号A,在购物网站上注册了帐号B,在即时通讯应用上注册了帐号C,该用户可以将上述平台上的三个帐号关联起来,那么,上述三个帐号A、B、C就可以对应同一个标识用来唯一标识该用户。
可选地,在本实施例中,上述目标数据源中可以包括一个或者多个数据源。也就是说,数据源中记录了标识对应的该数据源中的账号,以及该帐号执行过的操作。与预定操作对应的标识可能记录在多个数据源中一个数据源里,还可能记录在多个数据源中的几个数据源里。
可选地,在本实施例中,预定操作可以是标识执行过的某个行为或者用于表征该行为的词组。例如:如果要挖掘的用户是购买母婴类产品的用户,那么预定操作可以是“点击带有奶粉或者纸尿裤的词条”,或者“奶粉”、“纸尿裤”等词组。从多个数据源中获取的与预定操作对应的标识可以首先获取搜索引擎中搜索过“奶粉”、“纸尿裤”的帐号,购物网站中购买过奶粉或者纸尿裤的帐号,即时通讯软件中发送过带有“奶粉”、“纸尿裤”等词组的消息的帐号以及在多个数据源中点击过带有奶粉或者纸尿裤的词条的帐号,再获取上述这些帐号对应的标识。
可选地,在本实施例中,初始标识中可以但不限于包括一个或者多个标识。预设特征词可以但不限于是一个或者多个特征词。第一目标标识中可以但不限于包括一个或者多个标识。
可选地,在本实施例中,预设权重可以用于指示目标数据源中的帐号执行预定操作的频率。换句话说,预设权重可以用来表示目标数据源中的帐号对预定操作的关注程度,这个关注程度可以但不限于用目标数据源中的帐号执行预定操作的频率来表示。在这里,目标数据源中的帐号执行预定操作的频率可以但不限于指目标数据源中的帐号有多少是经常执行该预定操作的(比如:频率超过每天5次执行该预定操作的账号占目标数据源中总账号数的50%)。或者还可以但不限于用目标数据源中的帐号执行预定操作的显著性来表示目标数据源中的帐号执行预定操作的频率。目标数据源中的帐号执行预定操作的显著性可以通过计算初始标识中在目标数据源中记录有帐号的标识在历史数据(比如:上一次推送资源的标识)中所占的比例来确定。
可选地,在本实施例中,预设权重可以是根据目标数据源中的帐号执行预定操作的频率为目标数据源设置的,还可以是根据目标数据源中的帐号执行预定操作的频率通过模型训练的方式计算得到的。
可见,通过上述装置,在目标数据源中记录了标识对应的帐号以及帐号执行过的操作,从中获取预定操作对应的标识,使得标识的获取途径更加的广泛,避免了从单一的用户日志获取标识规模较小导致的获取的标识有偏的问题,再根据标识的特征信息以及预设特征词初步地筛选出初始标识,并根据预设权重和特征信息为初始标识确定特征参数来表示出初始标识执行该预定操作的频率,然后从初始标识中获取特征参数高于预设参数的第一目标标志,使得第一目标标识中包括的标识均为执行预定操作频率较高的标识,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
作为一种可选的方案,如图5所示,第二获取模块44包括:
1)第一获取单元52,用于获取第一特征词与第二特征词,其中,预设特征词包括第一特征词和第二特征词;
2)第二获取单元54,用于从标识中获取初始标识,其中,初始标识对应的特征信息中携带第一特征词且未携带第二特征词。
可选地,在本实施例中,预设特征词可以但不限于包括第一特征词和第二特征词。预设特征词可以用来表示一类用户人群的特征,其可以包括正向表征词和负向表征词,其中,正向表征词(相当于上述第一特征词),即通俗意义上的关键词(keywords),用来表征特征人群,负向表征词(相当于上述第二特征词),即过滤词(filter_words),负向表征词的作用,在于去噪,即去掉某些多词拼接后的噪声,从而让正向表征词更能表征特征人群。
通过上述装置,根据标识的特征信息以及预设特征词中包括的第一特征词和第二特征词从标识中获取初始标识,实现了对标识的初步筛选。
作为一种可选的方案,如图6所示,确定模块46包括:
1)第三获取单元62,用于获取预设权重,其中,预设权重的值越大表示目标数据源中的帐号执行预定操作的频率越高;
2)第四获取单元64,用于从特征信息中获取时间信息和频次信息,其中,时间信息用于指示标识执行预定操作的时间,频次信息用于指示标识执行预定操作的频次;
3)确定单元66,用于根据预设权重、时间信息以及频次信息确定特征参数,其中,特征参数的值越大表示初始标识执行预定操作的频率越高。
可选地,在本实施例中,第三获取单元62用于以下之一:
获取目标数据源中执行预定操作的帐号在目标数据源中包括的全部帐号中所占的比例;根据比例为目标数据源分配预设权重,其中,比例越大的数据源分配的预设权重越大;
获取第一标识集合与预设标识集合中相同标识的数量,其中,第一标识集合是初始标识中在一个目标数据源中包括的标识的集合;根据数量与第一标识集合中标识的数量之间的比值为目标数据源分配预设权重,其中,比值越大的数据源分配的预设权重越大。
例如,目标数据源有三个,分别是目标数据源A、目标数据源B和目标数据源C,在目标数据源A中共有100个帐号,其中有34个帐号执行过预定操作,在目标数据源B中共有200个帐号,其中有25个帐号执行过预定操作,在目标数据源C中共有100个帐号,其中有56个帐号执行过预定操作。那么,获取到目标数据源A、目标数据源B和目标数据源C对应的比例分别为34%、12.5%和56%,根据获取到的比为目标数据源A、目标数据源B和目标数据源C分别分配的预设权重2、1、3。
可选地,在本实施例中,预设标识集合可以但不限于指前一次获取的第一目标标识中目标数据源包括的标识,或者是根据前一次推送数据的标识中目标数据源包括的标识。
在一个可选的实施方式中,预设标识集合以前一次获取的第一目标标识中目标数据源包括的标识为例,目标数据源A对应的预设标识集合A中包括40个标识,目标数据源B对应的预设标识集合B中包括30个标识,目标数据源C对应的预设标识集合C中包括40个标识;初始标识中包括的来自目标数据源A、目标数据源B和目标数据源C的标识的数量分别是20、40、40,那么,目标数据源A对应的第一标识集合A中包括20个标识,目标数据源B对应的第一标识集合B中包括40个标识,目标数据源C对应的第一标识集合C中包括40个标识,其中,将第一标识集合A与预设标识集合A中的标识进行匹配,获取到第一标识集合A与预设标识集合A中相同标识的数量为10,将第一标识集合B与预设标识集合B中的标识进行匹配,获取到第一标识集合B与预设标识集合B中相同标识的数量为5,将第一标识集合C与预设标识集合C中的标识进行匹配,获取到第一标识集合C与预设标识集合C中相同标识的数量为20,根据获取到的上述相同标识的数量为目标数据源A、目标数据源B和目标数据源C分别分配的预设权重2、1、3。
可选地,在本实施例中,第四获取单元64用于:计算初始标识在每个目标数据源中对应的时间信息和频次信息的乘积;根据预设权重计算乘积的加权和,得到特征参数。
在一个可选的实施方式中,可以通过以下公式计算上述特征参数:
其中,source代表的是数据源,这里有n个数据源;weight代表的是每个数据源上的预设权重;time代表的是上述时间信息,可以用abs(用户行为发生时间-当前挖掘时间),即行为时间差的绝对值来表示上述时间信息,其作为用户行为时间衰减参数,即行为发生距离当前时间越近,则其特征参数越大,距离当前时间越远,特征参数越小;action代表上述频次信息,可以用来表示用户行为频次,这里取了sigmoid函数,对其做了归一化处理;其表示行为频次越多,特征参数越高。
可见,通过上述装置,根据预设权重以及特征信息确定初始标识的特征参数,为初始标识打分,可以用来衡量初始标识执行预定操作的频率,从而从初始标识中筛选出的第一目标标识更能代表预定操作,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。
可选地,在本实施例中,该装置还包括:
第六获取模块,用于从标识对应的预定操作中获取用于表示预定操作的特征的信息,其中,用于表示预定操作的特征的信息包括:预定操作对应的特征词,时间信息和频次信息;
存储模块,用于将特征词、时间信息以及频次信息存储为预设格式,得到特征信息。
可见,通过上述装置,将从标识对应的预定操作中获取的用于表示预定操作的特征的信息整理为预定格式进行存储,从而使得特征词的比对更加快速便捷。
作为一种可选的方案,如图7所示,第三获取模块48包括以下之一:
1)处理单元72,用于将初始标识按照特征参数从高到低进行排列;从排列后的标识中选择出第一目标标识,其中,第一目标标识包括在排列后的标识中排在前N位的标识;
2)第五获取单元74,用于从初始标识中获取特征参数的值大于或者等于预设值的第一目标标识。
可选地,在本实施例中,可以对特征参数进行从高到低的排序,将排在前N位的标识作为特征参数高于预设参数的标识,得到第一目标标识。
可选地,在本实施例中,可以设定预设值,将值大于或者等于该预设值的特征参数对应的标识作为第一目标标识。
可见,通过上述装置,通过对特征参数进行从高到低的排序,或者,设定预设值的方式获取第一目标标识可以清楚地从初始标识中选择出更能代表预定操作的标识。
作为一种可选的方案,如图8所示,上述装置还包括:
1)匹配模块82,用于将第一目标标识与预设目标标识进行匹配;
2)处理模块84,用于在第一目标标识与预设目标标识匹配成功的情况下,确定出第一目标标识为所需的标识;在第一目标标识与预设目标标识匹配不成功的情况下,重新获取第一目标标识。
可选地,在本实施例中,匹配模块82用于:判断第一目标标识与预设目标标识中是否包括大于或者等于预设数量的相同标识;在判断出第一目标标识与预设目标标识中包括大于或者等于预设数量的相同标识的情况下,确定第一目标标识与预设目标标识匹配成功。
可选地,在本实施例中,预设目标标识可以是上一次获取的第一目标标识,还可以是预先设定的目标标识。
可选地,在本实施例中,重新获取第一目标标识时可以但不限于通过重新设定预定操作来重新获取预定操作对应的标识从而获取第一目标标识。还可以但不限于通过重新为目标数据源分配预设权重来重新获取第一目标标识。
可见,通过上述装置,将第一目标标识与预设目标标识进行匹配,如果匹配成功了则可以确定当前获取的第一目标标识满足模型训练的需要,也就是说,第一目标标识是所需的标识。反之,如果匹配不成功,则说明当前获取的第一目标标识不满足模型训练的需要,可以重新获取第一目标标识。
作为一种可选的方案,如图9所示,上述装置还包括:
1)第四获取模块92,用于获取多个数据源中包括的帐号对应的标识;
2)第五获取模块94,用于从多个数据源中包括的帐号对应的标识中随机获取除第一目标标识之外的标识,得到第二目标标识,其中,第二目标标识中包括的标识的数量与第一目标标识中包括的标识的数量相同。
可选地,在本实施例中,第一目标标识可以作为模型训练的正样本,在获取了第一目标标识之后,还可以从多个数据源的全部的标识中获取第二目标标识作为模型训练的负样本。
可选地,在本实施例中,上述装置还包括:
训练模块,用于根据第一目标标识和第二目标标识训练预测模型;
第七获取模块,用于根据预测模型从多个数据源包括的标识中为待推送资源获取待推送标识;
推送模块,用于向待推送标识推送待推送资源。
可选地,在本实施例中,获取的第一目标标识和第二目标标识可以用来进行预测模型的训练,从而使得通过预测模型获取的待推送标识能够更加准确的代表预定操作所指向的人群。从而能够使得推送资源的效率能够更高。
实施例3
本发明实施例的应用环境可以但不限于参照实施例1中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述标识的获取方法的一种可选的具体应用示例。
作为一种可选的实施例,上述标识的获取方法可以但不限于应用于如图10所示的对标识进行获取的场景中。多个数据源为服务器提供数据,服务器根据从数据源得到的数据进行第一目标标识和第二目标标识的获取,再根据第一目标标识和第二目标标识进行预测模型的训练,通过训练好的预测模型从全部标识中筛选出待推送资源的标识,将待推送资源推送给筛选出的标识登录的客户端。
在一个可选的实施方式中,多个数据源可以包括社交/搜索/电商/广告/移动app等领域,以使用标识的用户在社交/搜索/电商/广告/移动app等领域的用户行为作为标识的特征信息,通过文本语义挖掘各个垂直行业上的初选人群;通过第一标识集合与预设标识集合中相同标识的匹配验证目标数据源中历史效果的显著性得到预设权重,并根据预设权重以及频率信息(例如:用户行为频度)和时间信息(例如:时间衰减因子),为初选标识排序;通过选定排在前N位的标识得到第一目标标识,通过第一目标标识与预设目标标识的匹配进行历史效果显著性的交叉验证,可有效选定训练数据的正样本;在大盘活跃人群中减去上述选定的正样本集合,从剩余集合中随机获取相同规模大小的第二目标标识作为负样本集合。从而实现服务器对第一目标标识和第二目标标识的获取。
在本实施方式中,通过文本语义特征挖掘获取训练数据正负样本,融合了用户在社交/搜索/电商/广告/移动app等领域的多种用户行为特征,然后通过用户行为频次因子(即上述频次信息)和行为时间衰减因子(即上述时间信息),以及用户在不同行为上的历史效果验证,给予用户不同的行为权重因子(即上述预设权重),综合以上各要素,给用户做打分(即上述获取的特征参数)并排序,进而可以根据分值排序,有效判定正样本(即上述第一目标标识)的纯净度,并根据需要自由选择排位在前N位的标识作为训练数据正样本。从而解决了用户行为单一,以及正样本纯净度低的问题。
在本实施例中,能够融合用户在互联网多种场景的行为特征,挖掘出具体特定表征意义的用户人群对应的标识,并通过校验检测,获得纯净度较高的正负样本。
为实现上述要求,本实施例中的上述服务器可以包括以下功能模块:
1)特征表征词收集模块,用于根据需要筛选的特定人群对应的标识的特征定义其特征表征词(相当于上述预设特征词),其包括正向表征词(相当于上述第一特征词)和负向表征词(相当于上述第二特征词),其中正向表征词,即通俗意义上的关键词(keywords),负向表征词,即过滤词(filter_words),负向表征词的作用,在于去噪,即去掉某些多词拼接后的噪声,从而让正向表征词更能表征我们的特征人群。
2)用户多种行为特征融合模块,用于通过用户在社交/搜索/电商/广告/移动app等领域的多种行为表述,从中提炼(用户标识-特征表述串-时间信息-频次信息)这几个关键元素。
3)模式匹配模块,用于根据特征表征词收集模块中的特征表征词,在用户多种行为特征融合模块中的用户多种行为数据(用户标识-特征表述串-时间信息-频次信息)中,通过模式匹配方式,去搜索含有正向表征词,但不含有负向表征词的用户标识作为初选标识。
4)用户打分模块,用于对模式匹配模块中的初选标识进行打分(即获取特征参数),打分涉及两部分,一部分是对数据源的预设权重(weight)进行计算,一部分是细化到每个数据源内部,计算每个初选标识的行为分值;其中weight的计算,有两种方式,一是分数据源切分人群包,通过第一标识集合与预设标识集合中相同标识的匹配分别验证单个目标数据源上人群包的显著性,根据显著性的相对值,来分配当前数据源的预设权重;另一种方式,是通过模型训练的方式,比如LR方式来训练得到最终的数据源预设权重,具体来说,首先给每个数据源赋个初始权重值,然后根据根据初选的小规模正负样本,将每个数据源作为其feature来训练,最终迭代收敛后,模型即可吐出每个数据源的预设权重。
数据源预设权重确定后,再根据以下公式给每个初始标识打分:
其中,source代表的是数据源,这里有n个数据源;weight代表的是每个数据源上的预设权重;time为时间信息,在本是示例中,以abs(用户行为发生时间-当前挖掘时间),即行为时间差的绝对值为例,其作为用户行为时间衰减参数,即行为发生距离当前时间越近,则其分值越大,距离当前时间越远,分值越小;action为频次信息,用于代表用户标识的行为频次,这里取了sigmoid函数,对其做了归一化处理,其表示行为频次越多,分值越高。
5)正负样本选择模块,用于根据用户打分模块中对初选人群的打分排序,选择排在前N位的标识(N值为多少可根据要挖掘的定向标识的不同,以及特征参数在标识中的数量分布,而自由设定),选定后,前N位的标识即为正样本,在大盘活跃用户的标识中排除正样本集合,从剩余集合中选择同正样本1:1规模的人群作为负样本标识。
通过文本语义特征挖掘,获取训练数据正负样本,可以有效规避通常意义的种子人群规模过小,而导致模型训练特征不明显的问题;同时由于通过历史效果检验以及用户行为打分,可以用来衡量样本优劣,从而提升了样本选择的准确度。
实施例4
根据本发明实施例,还提供了一种用于实施上述标识的获取方法的标识的获取设备,如图11所示,该设备包括:
1)通讯接口1102,设置为从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;
2)处理器1104,与通讯接口1102连接,设置为根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。
3)存储器1106,与通讯接口1102及处理器1104连接,设置为存储第一目标标识。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,从多个数据源中获取与预定操作对应的标识,其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的预定操作;
S2,根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;
S3,根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;
S4,从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S1,获取第一特征词与第二特征词,其中,预设特征词包括第一特征词和第二特征词;
S2,从标识中获取初始标识,其中,初始标识对应的特征信息中携带第一特征词且未携带第二特征词。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取预设权重,其中,预设权重的值越大表示目标数据源中的帐号执行预定操作的频率越高;从特征信息中获取时间信息和频次信息,其中,时间信息用于指示标识执行预定操作的时间,频次信息用于指示标识执行预定操作的频次;根据预设权重、时间信息以及频次信息确定特征参数,其中,特征参数的值越大表示初始标识执行预定操作的频率越高。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取目标数据源中执行预定操作的帐号在目标数据源中包括的全部帐号中所占的比例;根据比例为目标数据源分配预设权重,其中,比例越大的数据源分配的预设权重越大;或者,获取第一标识集合与预设标识集合中相同标识的数量,其中,第一标识集合是初始标识中在一个目标数据源中包括的标识的集合;根据数量与第一标识集合中标识的数量之间的比值为目标数据源分配预设权重,其中,比值越大的数据源分配的预设权重越大。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:计算初始标识在每个目标数据源中对应的时间信息和频次信息的乘积;根据预设权重计算乘积的加权和,得到特征参数。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从标识对应的预定操作中获取用于表示预定操作的特征的信息,其中,用于表示预定操作的特征的信息包括:预定操作对应的特征词,时间信息和频次信息;将特征词、时间信息以及频次信息存储为预设格式,得到特征信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将初始标识按照特征参数从高到低进行排列;从排列后的标识中选择出第一目标标识,其中,第一目标标识包括在排列后的标识中排在前N位的标识;或者,从初始标识中获取特征参数的值大于或者等于预设值的第一目标标识。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将第一目标标识与预设目标标识进行匹配;在第一目标标识与预设目标标识匹配成功的情况下,确定出第一目标标识为所需的标识;在第一目标标识与预设目标标识匹配不成功的情况下,重新获取第一目标标识。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:判断第一目标标识与预设目标标识中是否包括大于或者等于预设数量的相同标识;在判断出第一目标标识与预设目标标识中包括大于或者等于预设数量的相同标识的情况下,确定第一目标标识与预设目标标识匹配成功。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取多个数据源中包括的帐号对应的标识;从多个数据源中包括的帐号对应的标识中随机获取除第一目标标识之外的标识,得到第二目标标识,其中,第二目标标识中包括的标识的数量与第一目标标识中包括的标识的数量相同。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:根据第一目标标识和第二目标标识训练预测模型;根据预测模型从多个数据源包括的标识中为待推送资源获取待推送标识;向待推送标识推送待推送资源。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种标识的获取方法,其特征在于,包括:
从多个数据源中获取与预定操作对应的账号,确定所述账号对应的标识,以使得同一用户在多个数据源中的所述账号 与所述同一用户的标识关联,其中,所述预定操作为标识执行过的行为或者用于表征所述行为的词组,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;
根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;
获取预设权重,所述预设权重用于指示所述目标数据源中的帐号对所述预定操作的关注程度,预设权重的获取方式包括以下之一:获取所述目标数据源中执行所述预定操作的帐号在所述目标数据源中包括的全部帐号中所占的比例,根据所述比例为所述目标数据源分配所述预设权重,其中,所述比例越大的数据源分配的所述预设权重越大;获取第一标识集合与预设标识集合中相同标识的数量,其中,所述第一标识集合是所述初始标识中在一个所述目标数据源中包括的标识的集合,所述预设标识集合指前一次获取的第一目标标识中目标数据源包括的标识,或者是根据前一次推送数据的标识中目标数据源包括的标识,根据所述数量与所述第一标识集合中标识的数量之间的比值为所述目标数据源分配所述预设权重,其中,所述比值越大的数据源分配的所述预设权重越大;
根据所述预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述特征参数用于指示所述初始标识执行所述预定操作的频率;
从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合;
将所述第一目标标识与预设目标标识进行匹配,其中,所述预设目标标识是上一次获取的第一目标标识;
在所述第一目标标识与所述预设目标标识匹配成功的情况下,确定出所述第一目标标识为所需的标识。
2.根据权利要求1所述的方法,其特征在于,根据所述标识的所述特征信息以及所述预设特征词从所述标识中获取所述初始标识包括:
获取第一特征词与第二特征词,其中,所述预设特征词包括所述第一特征词和所述第二特征词;
从所述标识中获取所述初始标识,其中,所述初始标识对应的特征信息中携带所述第一特征词且未携带所述第二特征词。
3.根据权利要求1所述的方法,其特征在于,根据所述预设权重以及所述特征信息确定所述初始标识的所述特征参数包括:
从所述特征信息中获取时间信息和频次信息,其中,所述时间信息用于指示所述标识执行所述预定操作的时间,所述频次信息用于指示所述标识执行所述预定操作的频次;
根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数,其中,所述特征参数的值越大表示所述初始标识执行所述预定操作的频率越高。
4.根据权利要求3所述的方法,其特征在于,根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数包括:
计算所述初始标识在每个所述目标数据源中对应的所述时间信息和所述频次信息的乘积;
根据所述预设权重计算所述乘积的加权和,得到所述特征参数。
5.根据权利要求3所述的方法,其特征在于,在根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识之前,所述方法还包括:
从所述标识对应的所述预定操作中获取用于表示所述预定操作的特征的信息,其中,所述用于表示所述预定操作的特征的信息包括:所述预定操作对应的特征词,所述时间信息和所述频次信息;
将所述特征词、所述时间信息以及所述频次信息存储为预设格式,得到所述特征信息。
6.根据权利要求1所述的方法,其特征在于,从所述初始标识中获取所述第一目标标识包括以下之一:
将所述初始标识按照所述特征参数从高到低进行排列;从排列后的标识中选择出所述第一目标标识,其中,所述第一目标标识包括在排列后的标识中排在前N位的标识;
从所述初始标识中获取所述特征参数的值大于或者等于预设值的所述第一目标标识。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在从所述初始标识中获取所述第一目标标识之后,所述方法还包括:
在所述第一目标标识与所述预设目标标识匹配不成功的情况下,重新获取所述第一目标标识。
8.根据权利要求1所述的方法,其特征在于,将所述第一目标标识与所述预设目标标识进行匹配包括:
判断所述第一目标标识与所述预设目标标识中是否包括大于或者等于预设数量的相同标识;
在判断出所述第一目标标识与所述预设目标标识中包括大于或者等于预设数量的相同标识的情况下,确定所述第一目标标识与所述预设目标标识匹配成功。
9.根据权利要求1至6中任一项所述的方法,其特征在于,在从所述初始标识中获取所述第一目标标识之后,所述方法还包括:
获取所述多个数据源中包括的帐号对应的标识;
从所述多个数据源中包括的帐号对应的标识中随机获取除所述第一目标标识之外的标识,得到第二目标标识,其中,所述第二目标标识中包括的标识的数量与所述第一目标标识中包括的标识的数量相同。
10.根据权利要求9所述的方法,其特征在于,在从所述多个数据源中包括的帐号对应的标识中随机获取除所述第一目标标识之外的标识,得到第二目标标识之后,所述方法还包括:
根据所述第一目标标识和所述第二目标标识训练预测模型;
根据所述预测模型从所述多个数据源包括的标识中为待推送资源获取待推送标识;
向所述待推送标识推送所述待推送资源。
11.一种标识的获取装置,其特征在于,包括:
第一获取模块,用于从多个数据源中获取与预定操作对应的账号,确定所述账号对应的标识,以使得同一用户在多个数据源中的所述账号 与所述同一用户的标识关联,其中,所述预定操作为标识执行过的行为或者用于表征所述行为的词组,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的操作;
第二获取模块,用于根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;
确定模块,用于:
获取预设权重,所述预设权重用于指示所述目标数据源中的帐号对所述预定操作的关注程度,预设权重的获取方式包括以下之一:获取所述目标数据源中执行所述预定操作的帐号在所述目标数据源中包括的全部帐号中所占的比例,根据所述比例为所述目标数据源分配所述预设权重,其中,所述比例越大的数据源分配的所述预设权重越大;获取第一标识集合与预设标识集合中相同标识的数量,其中,所述第一标识集合是所述初始标识中在一个所述目标数据源中包括的标识的集合所述预设标识集合指前一次获取的第一目标标识中目标数据源包括的标识,或者是根据前一次推送数据的标识中目标数据源包括的标识,根据所述数量与所述第一标识集合中标识的数量之间的比值为所述目标数据源分配所述预设权重,其中,所述比值越大的数据源分配的所述预设权重越大;
根据所述预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述特征参数用于指示所述初始标识执行所述预定操作的频率;
第三获取模块,用于从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合;
其中,所述确定模块还用于将所述第一目标标识与预设目标标识进行匹配,其中所述预设目标标识是上一次获取的第一目标标识;在所述第一目标标识与所述预设目标标识匹配成功的情况下,确定出所述第一目标标识为所需的标识。
12.根据权利要求11所述的装置,其特征在于,所述第二获取模块包括:
第一获取单元,用于获取第一特征词与第二特征词,其中,所述预设特征词包括所述第一特征词和所述第二特征词;
第二获取单元,用于从所述标识中获取所述初始标识,其中,所述初始标识对应的特征信息中携带所述第一特征词且未携带所述第二特征词。
13.根据权利要求11所述的装置,其特征在于,所述确定模块包括:
第四获取单元,用于从所述特征信息中获取时间信息和频次信息,其中,所述时间信息用于指示所述标识执行所述预定操作的时间,所述频次信息用于指示所述标识执行所述预定操作的频次;
确定单元,用于根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数,其中,所述特征参数的值越大表示所述初始标识执行所述预定操作的频率越高。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在电子设备执行如权利要求1-10中任一项所述的标识的获取方法。
15.一种电子设备,其特征在于,所述电子设备用于执行如权利要求1-10中任一项所述的标识的获取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710290180.5A CN108304426B (zh) | 2017-04-27 | 2017-04-27 | 标识的获取方法及装置 |
PCT/CN2018/081337 WO2018196553A1 (zh) | 2017-04-27 | 2018-03-30 | 标识的获取方法及装置、存储介质以及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710290180.5A CN108304426B (zh) | 2017-04-27 | 2017-04-27 | 标识的获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304426A CN108304426A (zh) | 2018-07-20 |
CN108304426B true CN108304426B (zh) | 2021-12-17 |
Family
ID=62872225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710290180.5A Active CN108304426B (zh) | 2017-04-27 | 2017-04-27 | 标识的获取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108304426B (zh) |
WO (1) | WO2018196553A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636433A (zh) * | 2018-10-16 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 基于大数据分析的养卡识别方法、装置、设备和存储介质 |
CN110472879B (zh) * | 2019-08-20 | 2022-05-17 | 秒针信息技术有限公司 | 一种资源效果的评估方法、装置、电子设备及存储介质 |
CN110991296B (zh) * | 2019-11-26 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 视频标注方法、装置、电子设备及计算机可读存储介质 |
CN111651657B (zh) * | 2020-06-04 | 2024-05-24 | 深圳前海微众银行股份有限公司 | 情报监控方法、装置、设备及计算机可读存储介质 |
CN111967915A (zh) * | 2020-08-27 | 2020-11-20 | 北京明略昭辉科技有限公司 | 媒体文件投放方法和装置、存储介质及电子装置 |
CN112187746A (zh) * | 2020-09-15 | 2021-01-05 | 北京明略昭辉科技有限公司 | 一种设备标识的生成方法及装置 |
CN113780744B (zh) * | 2021-08-13 | 2023-12-29 | 唯品会(广州)软件有限公司 | 货物组合方法、装置及电子设备 |
CN114461699B (zh) * | 2022-01-28 | 2024-06-04 | 嘉兴职业技术学院 | 一种基于跨境电商平台的大数据用户挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090888A (zh) * | 2013-12-10 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 一种用户行为数据的分析方法和装置 |
CN106126592A (zh) * | 2016-06-20 | 2016-11-16 | 北京小米移动软件有限公司 | 搜索数据的处理方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120052683A (ko) * | 2010-11-16 | 2012-05-24 | 한국전자통신연구원 | 지능형 서비스를 위한 다자간 상황정보 공유 장치 및 방법 |
CN102819804A (zh) * | 2011-06-07 | 2012-12-12 | 阿里巴巴集团控股有限公司 | 一种商品信息的推送方法及设备 |
CN103593368A (zh) * | 2012-08-16 | 2014-02-19 | 深圳市世纪光速信息技术有限公司 | 数据源选择方法、服务器、终端和系统 |
CN102831234B (zh) * | 2012-08-31 | 2015-04-22 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN104156366B (zh) * | 2013-05-13 | 2017-11-21 | 中国移动通信集团浙江有限公司 | 一种向移动终端推荐网络应用的方法和网络服务器 |
CN104317865B (zh) * | 2014-10-16 | 2017-06-09 | 南京邮电大学 | 一种基于音乐情感特征匹配的社交网络搜索交友方法 |
CN105430504B (zh) * | 2015-11-27 | 2019-04-02 | 中国科学院深圳先进技术研究院 | 基于电视观看日志挖掘的家庭成员结构识别方法与系统 |
-
2017
- 2017-04-27 CN CN201710290180.5A patent/CN108304426B/zh active Active
-
2018
- 2018-03-30 WO PCT/CN2018/081337 patent/WO2018196553A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090888A (zh) * | 2013-12-10 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 一种用户行为数据的分析方法和装置 |
CN106126592A (zh) * | 2016-06-20 | 2016-11-16 | 北京小米移动软件有限公司 | 搜索数据的处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
职场新人如何做产品画像?;记小忆;《https://51zhishang.com/article/detail/1330.html》;20160707;1 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304426A (zh) | 2018-07-20 |
WO2018196553A1 (zh) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304426B (zh) | 标识的获取方法及装置 | |
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
US20160379268A1 (en) | User behavior data analysis method and device | |
CN104281622B (zh) | 一种社交媒体中的信息推荐方法和装置 | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
US20230115406A1 (en) | Method and System for Providing a User Agent String Database | |
US10025807B2 (en) | Dynamic data acquisition method and system | |
US20140095308A1 (en) | Advertisement distribution apparatus and advertisement distribution method | |
CN103685307A (zh) | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 | |
CN102365637A (zh) | 表征用户信息 | |
CN107870945B (zh) | 内容分级方法和装置 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN105491444A (zh) | 一种数据识别处理方法以及装置 | |
CN112307297B (zh) | 一种基于优先级规则的用户标识统一方法及系统 | |
CN110782291A (zh) | 广告投放用户确定方法及装置、存储介质及电子装置 | |
CN110209921B (zh) | 媒体资源的推送方法和装置、以及存储介质和电子装置 | |
CN113327146A (zh) | 一种信息追踪方法和装置 | |
CN112182520B (zh) | 非法账号的识别方法、装置、可读介质及电子设备 | |
CN111612085A (zh) | 一种对等组中异常点的检测方法及装置 | |
CN110263318B (zh) | 实体名称的处理方法、装置、计算机可读介质及电子设备 | |
US11120004B2 (en) | Method and system for analyzing a user agent string | |
CN111027065B (zh) | 一种勒索病毒识别方法、装置、电子设备及存储介质 | |
CN108804501A (zh) | 一种检测有效信息的方法及装置 | |
CN108596647B (zh) | 一种广告投放方法、装置及电子设备 | |
CN110598211A (zh) | 文章的识别方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |