CN108153857A - 一种用于对网络访问数据进行关联处理的方法和系统 - Google Patents

一种用于对网络访问数据进行关联处理的方法和系统 Download PDF

Info

Publication number
CN108153857A
CN108153857A CN201711408640.6A CN201711408640A CN108153857A CN 108153857 A CN108153857 A CN 108153857A CN 201711408640 A CN201711408640 A CN 201711408640A CN 108153857 A CN108153857 A CN 108153857A
Authority
CN
China
Prior art keywords
keyword
data item
network address
user
weighted value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711408640.6A
Other languages
English (en)
Inventor
向园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201711408640.6A priority Critical patent/CN108153857A/zh
Publication of CN108153857A publication Critical patent/CN108153857A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于对网络访问数据进行关联处理的方法和系统,所述方法通过获取关键词相关的第一数据项以及其第一权重值、用户相关的第二数据项以及其第二权重值,计算获取关键词与用户相关联的第三数据项和权重值,根据第三权重值向用户推荐相应的关键词。本发明的方案,基于用户搜索关键词和点击关键词的网络地址的共现,提出基于关键词权重计算和用户标识权重的计算方法,将用户标识对应的网络地址的权重与网络关键词和网络地址的权重相匹配,从而为用户推荐感兴趣的关键词。可应用在lookalike、用户兴趣分类等项目中,使人群扩展和用户画像效果更好,应用在DMP中,帮助广告主更好的筛选人群进行广告投放。

Description

一种用于对网络访问数据进行关联处理的方法和系统
技术领域
本发明涉及互联网技术领域,具体涉及一种用于对网络访问数据进行关联处理的方法、系统以及移动终端。
背景技术
短文本(如搜索query、文章标题等)的term weight在文本检索、文本相关性、核心词提取等任务中都有非常重要的作用。term weight在文本分类特征提取、意图预测、推荐系统中也都有重要的作用。
现有技术中,用户在进行网络浏览的过程中,通常需要为用户推荐更为感兴趣的网络关键词或者网络地址,以方便用户的进一步浏览。目前的推词技术主要是根据网络关键词的排序来推荐,不能全面的反映用户的兴趣、习惯等特性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种用于对网络访问数据进行关联处理的方法和系统。
根据本发明的一个方面,提供了一种用于对网络访问数据进行关联处理的方法,其包括:
获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;
根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;
获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;
根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;
根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
优选地,所述每个关键词对应多个网络地址,所述每个网络地址对应多个关键词;所述第一数据项包括一个关键词和与所述关键词对应的一个网络地址。
优选地,所述第一数据项的网络地址的统计次数,根据所述网络地址的点击次数的统计值获取。
优选地,所述动态调整系数,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比获取。
优选地,所述关键词包括短文本包含的多个点击标题的集合。
优选地,所述第一数据项的第一权重值,根据如下方式确定:
获取短文本的所有点击标题集合,分别计算所述点击标题相对于所述短文本的权重;计算所述短文本的权重,并根据所述短文本的权重和所述点击标题相对于所述短文本的权重,计算所述点击标题的权重;所述权重计算根据对应的网络地址的统计次数进行;
根据所述统计次数和动态调整系数来确定每个第一数据项的第一权重值。
优选地,所述点击标题相对于所述短文本的权重,根据如下方式获取:
对所述点击标题分别统计点击词频作为统计次数;
根据所述统计次数和所述点击标题相对于所述短文本的特征空间,获取所述点击标题相对于所述短文本的权重。
优选地,所述点击标题相对于所述短文本的特征空间,包括:
所述点击标题本身及上下文点击标题和点击标题本身的相对位置的组合特征、所述点击标题本身和其在所述短文本中绝对位置特征的组合、所述点击标题本身与上下文点击标题的组合特征、所述点击标题本身前后词的组合和/或所述点击标题自身词长。
优选地,所述第二数据项包括用户标识和与用户标识对应的网络地址,所述网络地址根据用户访问网络的网络地址获取。
优选地,所述第二权重值,根据所述用户标识对应的网络地址的点击次数加权统计,得到所述统计次数;根据所述统计次数确定所述第二权重值。
优选地,所述第三数据项,根据所述第一数据项和第二数据项中网络地址的匹配合并获取,将能够匹配的网络地址对应的关键词和用户标识相匹配,生成第三数据项。
优选地,所述第三权重值,根据所述第三数据项中的关键词对应的第一数据项的第一权重值和所述第三数据项中的用户标识对应的第二数据项中的第二权重值,通过相乘或相加的方式匹配获取。
优选地,所述方法还包括:
根据所述第三权重值的排序,为用户推荐对应的第三数据项中关键词。
优选地,所述方法还包括:
将所述第一数据项根据第一权重值分别计算分值;
根据所述分值大小将所述第一数据项排序;
根据所述第一数据项排序,为所述用户推荐所述第一数据项对应的所述关键词。
优选地,所述方法还包括:
将所述关键词根据其对应的第三权重值的大小进行排序,根据排序结果向所述用户推荐设定数量的关键词。
优选地,所述第一权重值,根据如下方式获取:
对第一数据项的关键词所属的短文本和关键词分别进行分词,得到所述短文本下的索引项t集合term_titlei,i=1,2,……,n;其中,所述n为所述短文本中关键词的数目;并对每个所述索引项提取预设数量的特征向量,得到所述索引项的特征空间;
对所述term_titlei中的所有索引项根据网络地址统计次数,选取预设数量topN的词频集合的term:title_topN;
获取所述term_titlei与所述短文本分词结果term_query的交集Ui;如果所述索引项在Ui和title_topN中,则标注所述索引项为关键词正样本,否则,标注所述索引项为关键词负样本;
将所述每个索引项的关键词正样本标注、关键词负样本标注和特征空间作为训练样本,训练关键词的权重计算模型;
根据所述关键词的权重计算模型,计算所述关键词的权重。
优选地,所述方法还包括:
对获取的短文本下的所有关键词数据进行筛选,如果所述短文本对应的关键词数目少于预设阈值或者所述短文本下所有关键词的总次数小于预设阈值,删除所述短文本以及关键词数据。
优选地,所述特征向量,包括:
所述索引项本身及上下文索引项和索引项本身的相对位置的组合特征、所述索引项本身和其在所述短文本中绝对位置特征的组合、所述索引项本身与上下文索引项的组合特征、所述索引项本身前后词的组合和/或所述索引项自身词长。
优选地,所述方法还包括:
所述权重计算模型为最大熵模型。
根据本发明的另一方面,提供了一种用于对网络访问数据进行关联处理的系统,包括:
第一数据项单元,用于获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;
第一权重值单元,用于根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;
第二数据项单元,用于获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;
第二权重值单元,用于根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;
第三权重值单元,用于根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
优选地,所述每个关键词对应多个网络地址,所述每个网络地址对应多个关键词;所述第一数据项包括一个关键词和与所述关键词对应的一个网络地址。
优选地,所述第一数据项的网络地址的统计次数,根据所述网络地址的点击次数的统计值获取。
优选地,所述动态调整系数,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比获取。
优选地,所述关键词包括短文本包含的多个点击标题的集合。
优选地,所述第一数据项的第一权重值,根据如下方式确定:
获取短文本的所有点击标题集合,分别计算所述点击标题相对于所述短文本的权重;计算所述短文本的权重,并根据所述短文本的权重和所述点击标题相对于所述短文本的权重,计算所述点击标题的权重;所述权重计算根据对应的网络地址的统计次数进行;
根据所述统计次数和动态调整系数来确定每个第一数据项的第一权重值。
优选地,所述点击标题相对于所述短文本的权重,根据如下方式获取:
对所述点击标题分别统计点击词频作为统计次数;
根据所述统计次数和所述点击标题相对于所述短文本的特征空间,获取所述点击标题相对于所述短文本的权重。
优选地,所述点击标题相对于所述短文本的特征空间,包括:
所述点击标题本身及上下文点击标题和点击标题本身的相对位置的组合特征、所述点击标题本身和其在所述短文本中绝对位置特征的组合、所述点击标题本身与上下文点击标题的组合特征、所述点击标题本身前后词的组合和/或所述点击标题自身词长。
优选地,所述第二数据项包括用户标识和与用户标识对应的网络地址,所述网络地址根据用户访问网络的网络地址获取。
优选地,所述第二权重值,根据所述用户标识对应的网络地址的点击次数加权统计,得到所述统计次数;根据所述统计次数确定所述第二权重值。
优选地,所述第三数据项,根据所述第一数据项和第二数据项中网络地址的匹配合并获取,将能够匹配的网络地址对应的关键词和用户标识相匹配,生成第三数据项。
优选地,所述第三权重值,根据所述第三数据项中的关键词对应的第一数据项的第一权重值和所述第三数据项中的用户标识对应的第二数据项中的第二权重值,通过相乘或相加的方式匹配获取。
优选地,所述系统还包括:
根据所述第三权重值的排序,为用户推荐对应的第三数据项中关键词。
优选地,所述系统还包括:
将所述第一数据项根据第一权重值分别计算分值;
根据所述分值大小将所述第一数据项排序;
根据所述第一数据项排序,为所述用户推荐所述第一数据项对应的所述关键词。
优选地,所述系统还包括:
将所述关键词根据其对应的第三权重值的大小进行排序,根据排序结果向所述用户推荐设定数量的关键词。
根据本发明的另一方面,提供了一种移动终端,包括或用于执行如上所述的系统。
根据本发明上述的一个或多个技术方案,通过获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。本发明的方案,基于用户搜索关键词和点击关键词的网络地址的共现,提出基于关键词权重计算和用户标识权重的计算方法,将用户标识对应的网络地址的权重与网络关键词和网络地址的权重相匹配,从而为用户推荐感兴趣的关键词。可应用在lookalike、用户兴趣分类等项目中,使人群扩展和用户画像效果更好,应用在数据管理平台(DMP,Data Management Platform)中,帮助广告主更好的筛选人群进行广告投放。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的用于对网络访问数据进行关联处理的方法流程图;
图2示出了根据本发明一个实施例的用于对网络访问数据进行关联处理的权重计算方法的流程图;
图3示出了根据本发明一个实施例的权重计算模型训练方法的流程图;
图4示出了根据本发明一个实施例的用于对网络访问数据进行关联处理的系统结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本实施例的用于对网络访问数据进行关联处理的方法流程图,参照图1,所述方法可以包括:
步骤101,获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址。例如,第一数据项为<QUERY,URL>,并且每个第一数据项具有相应的点击次数(也可以称为统计次数)C1,C2,C3,......,Cn。
在本发明一个实施例中,通常需要获取多个关键词。关键词即为网络关键词,可以根据海量用户网络搜索点击的日常用户数据提取获得。网络关键词通常以用户点击关键词的形式存在,其中包括了海量用户点击关键词的统计次数以及所述关键词对应的网络地址。
一般来说,一个关键词可以对应多个网络地址,一个网络地址通常也可以对应多个关键词。例如,搜索引擎中,用户输入搜索关键词后,通常会为用户推荐多个候选的包括该关键词的网络地址。同理,通常也会有多个关键词对应到同一个网络地址中。
通常,获取的关键词可以分别包含一个相关联的关键词数据集。这个关键词数据集中可以包括该关键词以及与其对应的多个第一数据项。这里的第一数据项是一个数据对,其中包括了关键词和关键词对应的网络地址。
第一数据项中的关键词和网络地址都是一一对应的,而且,通常,第一数据项中仅包括一个关键词和一个网络地址。如果一个关键词对应多个网络地址,则需要分别生成多个数据项。同理,同一个网络地址对应的不同关键词也需要生成多个数据项。
这里的数据项中包含了关键词和网络地址以及二者的对应关系。进一步还可以包括关键词和对应网络地址的统计次数,也即用户点击该网络地址和关键词的次数的统计值。
第一数据项中包括了关键词和网络地址以及对应的统计次数,则可以为每个第一数据项分配一个权重。
步骤102,根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值。
第一数据项中的网络地址会根据用户实际点击的次数而产生一个统计次数,这个统计次数是用户点击该关键词以及该网络地址的次数的统计值。举例来说,用户由于关键词A而点击对应的网络地址B,才能算是一次点击,否则,用户单纯的点击关键词A而并没有指向相应的网络地址B,或者用户点击别的关键词而进入网络地址B,均不能作为统计结果。
根据第一数据项中的网络地址的点击次数的统计次数,可以得到一个权重值。这个权重值可以通过用户点击所述网络地址的次数与用户总的点击次数的比例而计算得到。
为了更为精准的得到权重值,需要对上述的权重值进行修正。由于上述权重值在计算过程中,未能考虑总体的关键词的权重,因而,需要引入动态调整系数来进行修正。动态调整系数实际上是解决不同的关键词之间权重分配比例的问题,避免有的关键词点击总次数很少,但其对应的某些网络地址的点击权重较大的问题。
动态调整系数通常是在上述计算出的权重基础上,乘以对应关键词在总的关键词集合中的权重。可以采用对数计算的方式,将网络地址对应于每个关键词的权重与关键词的权重求对数,计算得到总体的权重值,即为第一权重值。
举例来说,第一数据项中包括了关键词QUERY和对应的网络地址URL。则第一权重值可以根据如下方式计算得到:
其中,n为与关键词QUERY相关联的URL的总数,i为当前URL的编号,Ci为当前URL的点击次数(统计次数)。
其中动态调整系数为
步骤103,获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址。例如,第二数据项为<USER_ID,URL>,并且每个第一数据项具有相应的点击次数(也可以称为统计次数)D1,D2,D3,......,Dn。
用户标识为用户登陆网络后的唯一标识,可以唯一的区分每个用户。每个用户标识可以关联一个用户数据集。
每个用户数据集中,包括用户标识和与其关联的第二数据项。第二数据项即为用户标识和用户登陆网络访问的网络地址。当用户登陆网络,访问网络后,可以将用户标识和网络地址相关联,形成第二数据项,与用户标识关联。
第二数据项中,用户标识用以唯一确认用户身份,网络地址表征用户登陆网络访问的网络地址。通常,用户登陆网络会访问多个网络地址,则需要生成多个第二数据项,每个数据项中仅包括一个网络地址。
步骤104,根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值。
第二数据项中的网络地址可以根据用户点击的次数进行排序。排序的结果即为用户感兴趣的结果排序。也即,通过网络地址的统计次数可以得到用户感兴趣的结果。结合总体用户的点击网络地址的数量,可以得到具体的权重,即为第二权重值。
举例来说,第二数据项中包括了用户标识USER_ID和对应的网络地址URL。则第二权重值可以根据如下方式计算得到:
其中,n为与用户标识相关联的URL的总数,i为当前URL的编号,Di为当前URL的点击次数(统计次数)。
第二权重值表征的是用户登陆网络后点击网络地址的权重,可以认为反应了用户的兴趣指向。
步骤105,根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
由于第一数据项和第二数据项中均存在网络地址,因而,二者可以存在重合。将二者的网络地址合并操作,或者匹配操作,可以得到第一数据项和第二数据项的关联关系,也即得到了关键词和用户标识的关联关系。将关联的关键词和用户标识相关联,得到第三数据项。
第三数据项中包含关键词和用户标识,通常反应了用户感兴趣的关键词。进一步需要将第三数据项进行排序,然后可以推荐给用户相关的关键词。
第三数据项的排序,根据第三权重值进行。第三权重值的计算是根据第一权重值和第二权重值的相加或者相乘来计算的。也即,根据第一权重值和第二权重值计算得到第三权重值,根据第三权重值对相应的第三数据项进行排序,选取其中排序靠前的预定数量的第三数据项包括的关键词,向用户推荐。
所述动态调整系数,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比获取。
所述关键词包括短文本包含的多个点击标题的集合。获取短文本的所有点击标题集合,分别计算所述点击标题相对于所述短文本的权重;计算所述短文本的权重,并根据所述短文本的权重和所述点击标题相对于所述短文本的权重,计算所述点击标题的权重;所述权重计算根据对应的网络地址的统计次数进行;根据所述统计次数和动态调整系数来确定每个第一数据项的第一权重值。
本实施例中,通过获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。本发明的方案,基于用户搜索关键词和点击关键词的网络地址的共现,提出基于关键词权重计算和用户标识权重的计算方法,将用户标识对应的网络地址的权重与网络关键词和网络地址的权重相匹配,从而为用户推荐感兴趣的关键词。可应用在lookalike、用户兴趣分类等项目中,使人群扩展和用户画像效果更好,应用在DMP中,帮助广告主更好的筛选人群进行广告投放。
实施例二
通常的关键词权重计算,可以根据搜索的点击日志,其中关键词所位于的短文本以及相应的权重,可以用以计算关键词的权重,也即第一权重值。图2示出了本实施例的用于对网络访问数据进行关联处理的方法流程图,参照图2,所述方法可以包括:
步骤201,根据搜索的点击日志,对短文本query和其点击标题title分别进行分词并根据所述query下各个索引项term的交集标注所述term为关键词正负样本;结合所述term的特征空间,机器学习训练term的权重计算模型;
步骤202,获取待计算权重的短文本query下的所有点击标题title集合,对所述query和其点击title分别进行分词,对分词得到的每个term提取第一预设数量的特征向量,得到所述term的特征空间;
步骤203,根据所述权重计算模型,对所述每个query下的term的特征空间进行计算,得到所述每个term的权重。
可选地,如图3所示,所述权重计算模型训练方法具体包括:
步骤301,分析搜索的点击日志,获取短文本query下的所有点击标题title集合;
query:[title1:count1,title2:count2,…,titlen:countn]。
其中titlei表示这个query下的某个title,counti表示titlei对应的点击次数。
步骤302,对所述query和其点击title分别进行分词,得到所述query下的索引项term集合term_titlei,i=1,2,……,n;其中,所述n为所述query中点击title的数目;并对每个所述term提取第二预设数量的特征向量,得到所述term的特征空间;
步骤303,对所述term_titlei中的所有term统计词频,选取第三预设数量topN的词频集合的term:title_topN;
步骤304,获取所述term_titlei相互的交集Ui;如果所述term在Ui和title_topN中,则标注所述term为关键词正样本,否则,标注所述term为关键词负样本;
步骤305,将所述每个term的关键词正样本标注、关键词负样本标注和特征空间作为训练样本,训练权重计算模型。
在上述步骤302中,在对title进行分词后,需对每个所述term提取第二预设数量的特征向量,得到所述term的特征空间。可选地,其中的特征向量包括:
所述term本身及上下文term和term本身的相对位置的组合特征、所述term本身和其在所述query中绝对位置特征的组合、所述term本身与上下文term的组合特征、所述term本身前后词的组合和/或所述term自身词长。
如表1所示,对title进行分词后,每个term提取相应的特征,特征列表如表1所示:
表1特征列表
以query={A,B,C,D,E}中以C为例,五个特征维度分别如下所示:
term本身及上下文term和本身term的相对位置的组合特征:
Tn_{relative_position}
A_-2B_-1C_0D_1E_2。
term本身和其在query中绝对位置特征的组合:T0_{position in query},其中绝对位置可以分段离散。
对绝对位置分三段,则C的特征为:C_0_2。
term本身与上下文term的组合特征:T0_Tn
C_0_A_-2C_0_B_-1C_0_D_1C_0_E_2。
term本身前后词的组合:T-1_T1
B_-1_D_1
词长,utf-8编码长度。
可选地,在所述步骤301之后,还可包括:对获取的短文本query下的所有点击标题title数据进行筛选,如果所述query对应的点击title数目少于第四阈值或者所述query下所有点击title的总次数小于第五阈值,删除所述query以及点击title数据。
对步骤301获取的短文本query下的所有点击标题title数据进行筛选,如果一个query对应的点击title数目少于一定的阈值(如4)或者一个query下所有点击title的总次数小于一定的阈值,过滤该条数据。
上述所述的第一预设数量、第二预设数量、第三预设数量、第四阈值和第五阈值,均可谓根据需要设定,并能够根据需要调整。
在term的自动标注和提取特征向量之后,得到训练样本,再用机器学习方法进行模型训练,可选地,可采用最大熵模型作为权重计算模型,进行模型训练。对预测样本进行分词后,对每个term提取上面所述的特征空间,利用训练得到的模型,得到每个term的重要性分值,即得到样本的term weight,分值越大,该term越重要。
本实施例提供的短文本权重计算方法,提供了第一权重值的另外一种具体的计算方案,可应用在lookalike、用户兴趣分类等项目中,使人群扩展和用户画像效果更好,应用在DMP中,帮助广告主更好的筛选人群进行广告投放。
实施例三
图4示出了本实施例的一种用于对网络访问数据进行关联处理的系统结构示意图,参照图4,所述系统可以包括:
第一数据项单元401,用于获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;
第一权重值单元402,用于根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;
第二数据项单元403,用于获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;
第二权重值单元404,用于根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;
第三权重值单元405,用于根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
优选地,所述每个关键词对应多个网络地址,所述每个网络地址对应多个关键词;所述第一数据项包括一个关键词和与所述关键词对应的一个网络地址。
优选地,所述第一数据项的网络地址的统计次数,根据所述网络地址的点击次数的统计值获取。
优选地,所述动态调整系数,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比获取。
优选地,所述关键词包括短文本包含的多个点击标题的集合。
优选地,所述第一数据项的第一权重值,根据如下方式确定:
获取短文本的所有点击标题集合,分别计算所述点击标题相对于所述短文本的权重;计算所述短文本的权重,并根据所述短文本的权重和所述点击标题相对于所述短文本的权重,计算所述点击标题的权重;所述权重计算根据对应的网络地址的统计次数进行;
根据所述统计次数和动态调整系数来确定每个第一数据项的第一权重值。
优选地,所述点击标题相对于所述短文本的权重,根据如下方式获取:
对所述点击标题分别统计点击词频作为统计次数;
根据所述统计次数和所述点击标题相对于所述短文本的特征空间,获取所述点击标题相对于所述短文本的权重。
优选地,所述点击标题相对于所述短文本的特征空间,包括:
所述点击标题本身及上下文点击标题和点击标题本身的相对位置的组合特征、所述点击标题本身和其在所述短文本中绝对位置特征的组合、所述点击标题本身与上下文点击标题的组合特征、所述点击标题本身前后词的组合和/或所述点击标题自身词长。
优选地,所述第二数据项包括用户标识和与用户标识对应的网络地址,所述网络地址根据用户访问网络的网络地址获取。
优选地,所述第二权重值,根据所述用户标识对应的网络地址的点击次数加权统计,得到所述统计次数;根据所述统计次数确定所述第二权重值。
优选地,所述第三数据项,根据所述第一数据项和第二数据项中网络地址的匹配合并获取,将能够匹配的网络地址对应的关键词和用户标识相匹配,生成第三数据项。
优选地,所述第三权重值,根据所述第三数据项中的关键词对应的第一数据项的第一权重值和所述第三数据项中的用户标识对应的第二数据项中的第二权重值,通过相乘或相加的方式匹配获取。
优选地,所述系统还包括:
根据所述第三权重值的排序,为用户推荐对应的第三数据项中关键词。
优选地,所述系统还包括:
将所述第一数据项根据第一权重值分别计算分值;
根据所述分值大小将所述第一数据项排序;
根据所述第一数据项排序,为所述用户推荐所述第一数据项对应的所述关键词。
优选地,所述系统还包括:
将所述关键词根据其对应的第三权重值的大小进行排序,根据排序结果向所述用户推荐设定数量的关键词。
根据本发明上述的一个或多个技术方案,通过获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。本发明的方案,基于用户搜索关键词和点击关键词的网络地址的共现,提出基于关键词权重计算和用户标识权重的计算方法,将用户标识对应的网络地址的权重与网络关键词和网络地址的权重相匹配,从而为用户推荐感兴趣的关键词。可应用在lookalike、用户兴趣分类等项目中,使人群扩展和用户画像效果更好,应用在DMP中,帮助广告主更好的筛选人群进行广告投放。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述仅是本发明的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明精神的前提下,可以作出若干改进、修改和变形,这些改进、修改和变形都应视为落在本申请的保护范围内。

Claims (10)

1.一种用于对网络访问数据进行关联处理的方法,所述方法包括:
获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;
根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;
获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;
根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;以及
根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
2.如权利要求1所述的方法,所述每个关键词对应多个网络地址,所述每个网络地址对应多个关键词;并且所述第一数据项包括一个关键词和与所述关键词对应的一个网络地址。
3.如权利要求1所述的方法,根据所述网络地址的点击次数的统计值确定所述第一数据项的网络地址的统计次数。
4.如权利要求1所述的方法,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比确定所述动态调整系数。
5.如权利要求1所述的方法,所述关键词包括短文本所包含的多个点击标题的集合。
6.一种用于对网络访问数据进行关联处理的系统,包括:
第一数据项单元,用于获取与多个关键词中每个关键词相关联的关键词数据集,其中每个关键词数据集包括与关键词相关联的多个第一数据项,并且所述第一数据项包括:关键词和网络地址;
第一权重值单元,用于根据所述第一数据项的网络地址的统计次数和动态调整系数来确定每个第一数据项的第一权重值;
第二数据项单元,用于获取与多个用户标识中每个用户标识相关联的用户数据集,其中每个用户数据集包括与用户标识相关联的多个第二数据项,并且所述第二数据项包括:用户标识和网络地址;
第二权重值单元,用于根据所述第二数据项的网络地址的统计次数来确定每个第二数据项的第二权重值;
第三权重值单元,用于根据将相同网络地址进行合并操作对所述第一数据项和第二数据项关联处理,以生成包括关键词和用户标识的第三数据项,并且根据所述第一权重值和第二权重值确定所述第三数据项的第三权重值。
7.如权利要求6所述的系统,所述每个关键词对应多个网络地址,所述每个网络地址对应多个关键词;并且所述第一数据项包括一个关键词和与所述关键词对应的一个网络地址。
8.如权利要求6所述的系统,根据所述网络地址的点击次数的统计值确定所述第一数据项的网络地址的统计次数。
9.如权利要求6所述的系统,根据每个所述关键词对应的网络地址的统计次数相对于所有关键词总的统计次数的占比确定所述动态调整系数。
10.如权利要求6所述的系统,所述关键词包括短文本包含的多个点击标题的集合。
CN201711408640.6A 2017-12-22 2017-12-22 一种用于对网络访问数据进行关联处理的方法和系统 Pending CN108153857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408640.6A CN108153857A (zh) 2017-12-22 2017-12-22 一种用于对网络访问数据进行关联处理的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408640.6A CN108153857A (zh) 2017-12-22 2017-12-22 一种用于对网络访问数据进行关联处理的方法和系统

Publications (1)

Publication Number Publication Date
CN108153857A true CN108153857A (zh) 2018-06-12

Family

ID=62465261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408640.6A Pending CN108153857A (zh) 2017-12-22 2017-12-22 一种用于对网络访问数据进行关联处理的方法和系统

Country Status (1)

Country Link
CN (1) CN108153857A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255656A (zh) * 2018-08-31 2019-01-22 有米科技股份有限公司 一种基于复合模型的用户扩展方法、装置及系统
CN109325179A (zh) * 2018-09-17 2019-02-12 青岛海信网络科技股份有限公司 一种内容推广的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN103176982A (zh) * 2011-12-20 2013-06-26 中国移动通信集团浙江有限公司 一种电子图书推荐的方法及系统
CN103324645A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种网页推荐方法和装置
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN105956161A (zh) * 2016-05-17 2016-09-21 北京奇虎科技有限公司 一种信息推荐方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN103176982A (zh) * 2011-12-20 2013-06-26 中国移动通信集团浙江有限公司 一种电子图书推荐的方法及系统
CN103324645A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种网页推荐方法和装置
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN105956161A (zh) * 2016-05-17 2016-09-21 北京奇虎科技有限公司 一种信息推荐方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255656A (zh) * 2018-08-31 2019-01-22 有米科技股份有限公司 一种基于复合模型的用户扩展方法、装置及系统
CN109255656B (zh) * 2018-08-31 2020-09-18 有米科技股份有限公司 一种基于复合模型的用户扩展方法、装置及系统
CN109325179A (zh) * 2018-09-17 2019-02-12 青岛海信网络科技股份有限公司 一种内容推广的方法及装置
CN109325179B (zh) * 2018-09-17 2020-12-04 青岛海信网络科技股份有限公司 一种内容推广的方法及装置

Similar Documents

Publication Publication Date Title
CN105426528B (zh) 一种商品数据的检索排序方法及系统
CN108550068B (zh) 一种基于用户行为分析的个性化商品推荐方法及系统
CN104933100B (zh) 关键词推荐方法和装置
CN107862022B (zh) 文化资源推荐系统
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
US8380694B2 (en) Method and system for aggregating reviews and searching within reviews for a product
TWI557664B (zh) Product information publishing method and device
US8515937B1 (en) Automated identification and assessment of keywords capable of driving traffic to particular sites
CN107122467B (zh) 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN106339383B (zh) 一种搜索排序方法及系统
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN105045875B (zh) 个性化信息检索方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN105574216A (zh) 基于概率模型和用户行为分析的个性化推荐方法、系统
TW201401089A (zh) 基於點擊率的搜索排序方法及裝置
CN104268142B (zh) 基于可拒绝策略的元搜索结果排序方法
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN103064945A (zh) 基于本体的情境搜索方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN107193883B (zh) 一种数据处理方法和系统
CN106156135A (zh) 查询数据的方法及装置
CN104050197B (zh) 一种信息检索系统评测方法和装置
CN111915409B (zh) 基于物品的物品推荐方法、装置、设备及存储介质
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612