CN110020209B - 内容和搜索词的相关性确定方法及系统、展示方法及系统 - Google Patents

内容和搜索词的相关性确定方法及系统、展示方法及系统 Download PDF

Info

Publication number
CN110020209B
CN110020209B CN201910312790.XA CN201910312790A CN110020209B CN 110020209 B CN110020209 B CN 110020209B CN 201910312790 A CN201910312790 A CN 201910312790A CN 110020209 B CN110020209 B CN 110020209B
Authority
CN
China
Prior art keywords
search
content
target
search word
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312790.XA
Other languages
English (en)
Other versions
CN110020209A (zh
Inventor
胡军
赵晓萌
梁召
陈英傑
吴桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910312790.XA priority Critical patent/CN110020209B/zh
Publication of CN110020209A publication Critical patent/CN110020209A/zh
Application granted granted Critical
Publication of CN110020209B publication Critical patent/CN110020209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种内容和搜索词的相关性确定方法及系统、展示方法及系统,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,检验参数用于保证预设位置的内容被展示的概率,在确定目标搜索词所属的搜索词类型后,从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数。由于本发明对搜索词进行了分类,因此在对搜索词进行分类可以充分考虑各个情况,从而使得基于每个搜索词类型对应的检验参数相近或相同,从而可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,提高相关性参数的准确性。

Description

内容和搜索词的相关性确定方法及系统、展示方法及系统
技术领域
本发明涉及互联网技术领域,更具体的说,涉及一种内容和搜索词的相关性确定方法及系统、展示方法及系统。
背景技术
点击率是指网站页面上某一内容被点击的次数与被显示次数之比。点击率是一个百分比,反映了网页上某一内容的受关注程度。在统计点击率时,内容(比如视频、音频、图文内容的导航链接)只要出现在展示页面,就作为一次显示。通常展示页面上包含几条甚至十几条内容,相对于排名靠前的内容,用户看到排名靠后的内容的概率较低。因此,这种点击率统计方法,使得排名靠后的内容的显示次数相对于用户真实看到的次数偏高,导致排名靠后的内容的点击率偏低。可以理解,在排序模型中,点击率较高的内容通常更容易获得更高的排序位置。这样,将会直接引起排序中的马太效应,也即,初始排序靠前的内容的点击率更高,相对应的排序位置更高,反之,初始排序靠后的内容的点击率偏低,相对应的排序位置也偏低,从而影响整个排序系统的生态循环。
解决上述问题最直接的办法是预估展示页面中每一条内容被用户点击的概率,基于该概率修正内容被显示次数的偏差。传统方案中,提出了多种点击模型对用户的点击行为进行建模,比如基于位置的模型(POSITION-BASED MODEL)、级联模型(CASCADE MODEL)、动态贝叶斯网络模型(DYNAMIC BAYESIAN NETWORK MODEL)等。然而,上述模型都没有考虑如何实时处理用户的点击行为,预测内容和搜索词之间的相关性。
基于此,本领域技术人员提出了一种用户浏览模型(USER BROWSING MODEL),用户浏览模型主要包括两个参数,检验参数以及内容和搜索词之间的相关性参数,检验参数决定了不同位置的内容被浏览到的概率,从而影响用户在搜索结果页点击某一内容的概率,进而影响内容和搜索词的相关项参数的确定。由于在不同的搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数的差异较大,从而使得基于该检验参数确定的内容和搜索词的相关性参数的准确性不高。
发明内容
有鉴于此,本发明公开一种内容和搜索词的相关性确定方法及系统、展示方法及系统,以实现有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高基于检验参数确定的内容和搜索词的相关性参数的准确性。
一种内容和搜索词的相关性确定方法,包括:
确定目标搜索词所属的搜索词类型;
基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数。
可选的,所述对应关系的获取过程如下:
按照所述预设分类标准对搜索词进行分类;
采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系。
可选的,所述预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
可选的,所述采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系,具体包括:
获取搜索日志数据;
从所述搜索日志数据中提取出预设字段组成数据集;
采用所述用户浏览模型对所述数据集进行训练,得到每种搜索词类型对应的检验参数。
可选的,所述基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数,具体包括:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
一种内容展示方法,所述内容展示方法基于权利要求1~5所述的相关性确定方法,所述内容展示方法还包括:
基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
展示排序后的所述目标内容。
一种内容和搜索词的相关性确定系统,包括:
第一确定单元,用于确定目标搜索词所属的搜索词类型;
查找单元,用于基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
预测单元,用于基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数。
可选的,还包括:
分类单元,用于按照所述预设分类标准对搜索词进行分类;
第二确定单元,用于采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系。
可选的,所述预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
可选的,所述第二确定单元具体用于:
获取搜索日志数据;
从所述搜索日志数据中提取出预设字段组成数据集;
采用所述用户浏览模型对所述数据集进行训练,得到每种搜索词类型对应的检验参数。
可选的,所述预测单元具体用于:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
一种内容展示系统,所述内容展示系统包括:上述所述的相关性确定系统,所述内容展示系统还包括:
排序单元,用于基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
展示单元,用于展示排序后的所述目标内容。
从上述的技术方案可知,本发明公开了一种内容和搜索词的相关性确定方法及系统、展示方法及系统,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于保证预设位置的内容被用户浏览到的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种内容和搜索词的相关性确定方法流程图;
图2为本发明实施例公开的一种采用预设用户浏览模型确定每种搜索词类型对应的检验参数的方法流程图;
图3为本发明实施例公开的一种采用检验参数预测目标内容与目标搜索词的相关性参数的示例图;
图4为本发明实施例公开的一种内容展示方法流程图;
图5为本发明实施例公开的一种内容和搜索词的相关性确定系统的结构示意图;
图6为本发明实施例公开的一种内容展示系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明基于用户浏览模型(User Browsing Model,UBM)确定内容和搜索词的相关性。
为方便理解本发明所要保护的内容和搜索词的相关性确定方法,现对用户浏览模型介绍如下:
假设用户从上往下浏览搜索结果,当用户看到一个内容时,用户点击该内容的概率取决于该内容和搜索词的相关性,即:
P(Cu=1)=P(Eu=1)·P(Au=1)
P(Au=1)=αuq (1);
其中,Cu表示用户是否在搜索结果页中点击了内容u,Cu取值为0或者1,P(Cu=1)表示用户在搜索结果页点击内容u的概率,P(Cu=1)表示用户在搜索结果页未点击内容u的概率;Eu表示用户在搜索结果页是否真实看到内容u,Eu取值为0或者1,P(Eu=1)表示用户在搜索结果页看到内容u的概率,P(Eu=0)表示用户在搜索结果页未看到内容u的概率;Au表示内容u与搜索词是否相关,取值为0或者1,P(Au=1)表示内容u和搜索词的相关度,取值范围为[0,1],也可以用αuq表示,αuq可称为内容和搜索词的相关性参数。
假设用户浏览位置为r的内容u的概率取决于上次点击内容的位置r′以及两个内容之间的距离,两个内容之间的距离越大,位置为r的内容u被浏览到的概率越小,位置为r的内容u被用户浏览到的概率为γrr′,概率γrr′也可以称为检验参数,检验参数γrr′可用如下公式表示:
P(Er=1|C1=c1,...,Cr-1=cr-1)=γrr′(2);
其中,Er表示用户是否看到搜索结果页中第r位置的内容u,取值为0或者1;C1表示用户是否点击了搜索结果页中第一位置的内容,取值为0或者1,同理,Cr-1表示用户是否点击了搜索结果页第r-1位置的内容;c1,...cr-1表示实际取值,|为条件概率符号。
因此,用户浏览模型主要包含两个模型参数:内容和搜索词的相关性参数αuq,以及检验参数γrr′,在实际应用中,可基于搜索到的用户点击日志,采用期望最大化算法迭代计算上述两个模型参数。
基于上述论述可知,检验参数γrr′决定了位置为r的内容u被浏览到的概率,位置为r的内容u被浏览到的概率又决定了用户在搜索结果页点击内容u的概率P(Cu=1),用户在搜索结果页点击内容u的概率P(Cu=1)又决定了内容和搜索词的相关性参数αuq。由此可以得出结论,检验参数γrr′的准确性会影响内容和搜索词的相关性参数αuq的准确性。
虽然采用上述方法可以估算内容和搜索词的相关性参数αuq,但是直接应用上述方法所确定的相关性参数αuq的准确性不高,原因在于,在不同类型的搜索词下,搜索场景不同,用户搜索意图不同,所确定的检验参数γrr′会存在较大差异,从而使得计算得到的内容和搜索词的相关性参数αuq准确性不高。
本申请的发明人经过研究后发现,对于不同的搜索词,用户在搜索到目标内容后,用户浏览目标内容的下面内容的概率不同。比如,对于专辑类搜索词,通常用户的搜索意图很明确,就是检索相关专辑,因此,在查找到所需专辑后,用户浏览下面内容的概率比较小;而对于明星类等搜索词,用户浏览属性较强,用户在点击一个内容后,浏览下面内容的概率非常高。由此本申请的发明人得出结论,有必要对搜索词进行分类,在不同的分类下,分别训练得到不同的检验参数。
基于此,本发明实施例公开了一种内容和搜索词的相关性确定方法及系统、展示方法及系统,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于表征预设位置的内容被展示的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
参见图1,本发明一实施例公开的一种内容和搜索词的相关性确定方法流程图,该方法包括步骤:
步骤S101、确定目标搜索词所属的搜索词类型;
在实际应用中,可根据目标搜索词的特征,该特征也即对搜索词的分类标准,来确定该目标搜索词所属的搜索词类型。这是因为相同类型的搜索词具有相同或相似的特征。
步骤S102、基于确定的所述目标搜索词的类型,从预先存储的搜索词类型和检验参数的对应关系中,得到所述目标搜索词对应的目标检验参数;
每一种搜索词类型都对应相同的检验参数,检验参数用于表征预设位置的内容被展示的概率,也即预设位置的内容被用户浏览到的概率,因此,在确定目标搜索词所属的搜索词类型后,就可以确定该目标搜索词对应的目标检验参数。
其中,搜索词类型和检验参数的对应关系的获取过程具体如下:
按照预设分类标准对搜索词进行分类,采用预设用户浏览模型确定每种搜索词类型对应的检验参数。
需要说明的是,本实施例中的预设用户浏览模型也即上述所述的用户浏览模型。
可以理解,对搜索词进行分类的标准为:同一类型的搜索词具有相近甚至相同的检验参数γrr′。用户浏览位置为r的内容u的概率取决于上次点击内容的位置r′以及两个内容之间的距离,为方便叙述,此处将位置为r的内容u被浏览到的概率γrr′,记为检验参数γrr′。
在实际应用中,可能影响检验参数γrr′的分类特征包括:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置。
其中,搜索词点击率:搜索词下所有的点击次数除以搜索次数。
搜索词类型:包括专辑、明星、游戏、体育、资讯等类型。
搜索词点击熵:搜索词下基于用户点击分布计算出来的熵,熵越大表明该搜索词下用户点击越分散。
搜索词平均点击位置:搜索词下点击位置的加权平均。
可根据应用场景,选择上述一种或者几种特征的组合对搜索词进行分类。
因此,预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
参见图2,本发明一实施例公开的一种采用预设用户浏览模型确定每种搜索词类型对应的检验参数的方法流程图,该方法包括步骤:
步骤S201、获取搜索日志数据;
步骤S202、从所述搜索日志数据中提取出预设字段组成数据集;
所述数据集的格式为:query-class|query|event_id|impression|click|pos|docid_list_str|time。
其中,query-class是搜索词分类;query为搜索词;event_id是标识一次搜索行为的id;对于展示日志,impression=1;对于点击日志,click=1;pos为内容的展示位置;docid_list_str为内容id,对于展示日志,docid_list_str是所有展示的内容的id的拼接,对于点击日志,docid_list_str为用户点击的内容id;time为展示或者点击发生的时间。
步骤S203、采用用户浏览模型对所述数据集进行训练,得到每种类型的搜索词对应的检验参数。
需要说明的是,采用用户浏览模型对数据集进行训练,得到每种类型的搜索词对应的检验参数的具体过程,可参见现有成熟方案,此处不再赘述。
步骤S103、基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数。
具体的,对于用户的每一次搜索请求,根据检验参数可以确定用户浏览搜索结果页中各个内容的概率。如图3所示,假如用户点击了第三个内容,由于用户在浏览搜索结果页时,通常是从第一个内容从上向下逐个浏览,因此,若用户点击了第三个内容,则可以认为用户已经浏览过前三个内容,此时,前3个内容的展示次数+1;用户浏览第四个内容的概率为γ43,第四个内容的展示次数+γ43;用户浏览第五个内容的概率为γ53,第五个内容的展示次数+γ53。按照这种方法,统计预设时间段内,各个内容的内容点击次数(click_count)和内容展示次数(impression_count),基于同一内容的内容点击次数和内容展示次数,得到内容和搜索词的相关性参数,相关性参数ctr的计算过程如下:
ctr=click_count/impression_count (3)。
因此,步骤S105的实现过程具体如下:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
其中,本发明得到的目标内容与目标搜索词的相关性参数,可以作为搜索排序特征,也可以作为生成学习排序模型训练数据集的标签,等等。
综上可知,本发明公开的内容和搜索词的相关性确定方法,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于保证预设位置的内容被用户浏览到的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
另外,本发明可以离线确定检验参数,在线实时预设内容和搜索词的相关性参数,因此,在预设相关性参数阶段不需要大量数据运算,从而能够保证预测的实时性。
为进一步优化上述实施例,参见图4,本发明一实施例公开的一种内容展示方法流程图,该方法包括步骤:
步骤S301、确定目标搜索词所属的搜索词类型;
步骤S302、基于确定的所述目标搜索词的类型,从预先存储的搜索词类型和检验参数的对应关系中,得到所述目标搜索词对应的目标检验参数;
步骤S303、基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数;
步骤S304、基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
基于上述论述可知,当用户看到一个内容时,用户点击该内容的概率取决于该内容和搜索词的相关性,因此,在确定目标内容和目标搜索词的相关性参数后,就可以基于相关性参数确定目标内容被用户点击的概率,从而基于目标内容被用户点击的概率,就可对目标内容在搜索页面中的展示位置进行排序。
步骤S305、展示排序后的所述目标内容。
需要说明的是,本实施例中的步骤S301~步骤S303的具体工作原理,请参见图1所示实施例中的步骤S101~步骤S103。
综上可知,本发明公开了一种内容展示方法,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于表征预设位置的内容被展示的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数,进而根据相关性参数对目标内容进行排序。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
与上述方法实施例相对应,本发明还公开了一种内容和搜索词的相关性确定系统。
参见图5,本发明一实施例公开的一种内容和搜索词的相关性确定系统的结构示意图,该系统包括:
第一确定单元401,用于确定目标搜索词所属的搜索词类型;
在实际应用中,可根据目标搜索词的特征,该特征也即对搜索词的分类标准,来确定该目标搜索词所属的搜索词类型。这是因为相同类型的搜索词具有相同或相似的特征。
查找单元402,用于基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
其中,搜索结果被展示的概率指的是搜索结果被用户浏览到的概率。
每一种搜索词类型都对应相同的检验参数,因此,在确定目标搜索词所属的搜索词类型后,就可以确定该目标搜索词对应的目标检验参数。
其中,搜索词类型和检验参数的对应关系的获取过程具体如下:
按照预设分类标准对搜索词进行分类,采用预设用户浏览模型确定每种搜索词类型对应的检验参数。
需要说明的是,本实施例中的预设用户浏览模型也即上述所述的用户浏览模型。
因此,相关性确定系统,其特征在于,还可以包括:
分类单元,用于按照所述预设分类标准对搜索词进行分类;
第二确定单元,用于采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系。
可以理解,对搜索词进行分类的标准为:同一类型的搜索词具有相近甚至相同的检验参数γrr′。用户浏览位置为r的内容u的概率取决于上次点击内容的位置r′以及两个内容之间的距离,为方便叙述,此处将位置为r的内容u被浏览到的概率γrr′,记为检验参数γrr′。
在实际应用中,可能影响检验参数γrr′的分类特征包括:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置。
其中,搜索词点击率:搜索词下所有的点击次数除以搜索次数。
搜索词类型:包括专辑、明星、游戏、体育、资讯等类型。
搜索词点击熵:搜索词下基于用户点击分布计算出来的熵,熵越大表明该搜索词下用户点击越分散。
搜索词平均点击位置:搜索词下点击位置的加权平均。
可根据应用场景,选择上述一种或者几种特征的组合对搜索词进行分类。
因此,预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
本实施例中,第二确定单元具体用于:
获取搜索日志数据;从所述搜索日志数据中提取出预设字段组成数据集;采用所述用户浏览模型对所述数据集进行训练,得到每种搜索词类型对应的检验参数。
所述数据集的格式为:query-class|query|event_id|impression|click|pos|docid_list_str|time。
其中,query-class是搜索词分类;query为搜索词;event_id是标识一次搜索行为的id;对于展示日志,impression=1;对于点击日志,click=1;pos为内容的展示位置;docid_list_str为内容id,对于展示日志,docid_list_str是所有展示的内容的id的拼接,对于点击日志,docid_list_str为用户点击的内容id;time为展示或者点击发生的时间。
预测单元403,用于基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数。
具体的,预测单元403具体可以用于:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
其中,本发明得到的目标内容与目标搜索词的相关性参数,可以作为搜索排序特征,也可以作为生成学习排序模型训练数据集的标签,等等。
综上可知,本发明公开的内容和搜索词的相关性确定系统,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于保证预设位置的内容被展示的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
另外,本发明可以离线确定检验参数,在线实时预设内容和搜索词的相关性参数,因此,在预设相关性参数阶段不需要大量数据运算,从而能够保证预测的实时性。
为进一步优化上述实施例,参见图6,本发明一实施例公开的一种内容展示系统的结构示意图,该系统包括:
第一确定单元501,用于确定目标搜索词所属的搜索词类型;
查找单元502,用于基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
预测单元503,用于基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数;
排序单元504,用于基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
基于上述论述可知,当用户看到一个内容时,用户点击该内容的概率取决于该内容和搜索词的相关性,因此,在确定目标内容和目标搜索词的相关性参数后,就可以基于相关性参数确定目标内容被用户点击的概率,从而基于目标内容被用户点击的概率,就可对目标内容在搜索页面中的展示位置进行排序。
展示单元505,用于展示排序后的所述目标内容。
需要特别说明的是,第一确定单元501、查找单元502和预测单元503的具体工作原理,请参见图5所示实施例中的第一确定单元401、查找单元402和预测单元403.
综上可知,本发明公开了一种内容展示系统,预先对搜索词进行了分类,并确定了各个搜索词类型和检验参数的对应关系,该检验参数用于表征预设位置的内容被展示的概率,这样,在确定目标搜索词所属的搜索词类型后,就可以从各个搜索词类型和检验参数的对应关系中,确定目标搜索词对应的目标检验参数,从而基于目标检验参数确定目标内容与目标搜索词的相关性参数,进而根据相关性参数对目标内容进行排序。由于本发明对搜索词进行了分类,因此在对搜索词进行分类时,可以充分考虑各个情况,比如搜索场景、用户搜索意图等,从而使得基于每个搜索词类型对应的检验参数相近或相同,因此,本发明可以有效避免在不同搜索词下,因搜索场景不同,用户搜索意图不同,导致检验参数差异较大的情况的出现,从而提高了基于检验参数确定的内容和搜索词的相关性参数的准确性。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种内容和搜索词的相关性确定方法,其特征在于,包括:
确定目标搜索词所属的搜索词类型;
基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数;
其中,所述基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数,具体包括:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
2.根据权利要求1所述的相关性确定方法,其特征在于,所述对应关系的获取过程如下:
按照所述预设分类标准对搜索词进行分类;
采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系。
3.根据权利要求1或2所述的相关性确定方法,其特征在于,所述预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
4.根据权利要求2所述的相关性确定方法,其特征在于,所述采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系,具体包括:
获取搜索日志数据;
从所述搜索日志数据中提取出预设字段组成数据集;
采用所述用户浏览模型对所述数据集进行训练,得到每种搜索词类型对应的检验参数。
5.一种内容展示方法,其特征在于,所述内容展示方法基于权利要求1~4任意所述的相关性确定方法,所述内容展示方法还包括:
基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
展示排序后的所述目标内容。
6.一种内容和搜索词的相关性确定系统,其特征在于,包括:
第一确定单元,用于确定目标搜索词所属的搜索词类型;
查找单元,用于基于确定的所述搜索词类型,从预先存储的搜索词类型和检验参数的对应关系中,查找到所述目标搜索词对应的目标检验参数,所述检验参数用于表征预设位置的内容被展示的概率,所述搜索词类型按照预设分类标准确定;
预测单元,用于基于所述目标检验参数确定目标内容与所述目标搜索词的相关性参数;
其中,所述预测单元具体用于:
统计预设时间段内,所述目标内容的内容点击次数,以及基于所述目标检验参数确定的所述目标内容的内容展示次数;
将所述内容点击次数和所述内容展示次数求商,得到所述目标内容与所述目标搜索词的相关性参数。
7.根据权利要求6所述的相关性确定系统,其特征在于,还包括:
分类单元,用于按照所述预设分类标准对搜索词进行分类;
第二确定单元,用于采用预设用户浏览模型确定每种类型的搜索词对应的检验参数,得到搜索词类型和检验参数的所述对应关系。
8.根据权利要求6或7所述的相关性确定系统,其特征在于,所述预设分类标准为:搜索词点击率、搜索词类型、搜索词点击熵和搜索词平均点击位置中的任意一种或几种分类特征组合。
9.根据权利要求7所述的相关性确定系统,其特征在于,所述第二确定单元具体用于:
获取搜索日志数据;
从所述搜索日志数据中提取出预设字段组成数据集;
采用所述用户浏览模型对所述数据集进行训练,得到每种搜索词类型对应的检验参数。
10.一种内容展示系统,其特征在于,所述内容展示系统包括:权利要求6~9任意所述的相关性确定系统,所述内容展示系统还包括:
排序单元,用于基于目标内容和目标搜索词的相关性参数,对所述目标内容进行排序;
展示单元,用于展示排序后的所述目标内容。
CN201910312790.XA 2019-04-18 2019-04-18 内容和搜索词的相关性确定方法及系统、展示方法及系统 Active CN110020209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312790.XA CN110020209B (zh) 2019-04-18 2019-04-18 内容和搜索词的相关性确定方法及系统、展示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312790.XA CN110020209B (zh) 2019-04-18 2019-04-18 内容和搜索词的相关性确定方法及系统、展示方法及系统

Publications (2)

Publication Number Publication Date
CN110020209A CN110020209A (zh) 2019-07-16
CN110020209B true CN110020209B (zh) 2022-03-22

Family

ID=67191720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312790.XA Active CN110020209B (zh) 2019-04-18 2019-04-18 内容和搜索词的相关性确定方法及系统、展示方法及系统

Country Status (1)

Country Link
CN (1) CN110020209B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598102A (zh) * 2019-09-05 2019-12-20 北京字节跳动网络技术有限公司 确定搜索项目的顺序的方法、装置、电子设备和计算机可读存储介质
CN112148923B (zh) * 2020-08-18 2023-12-26 北京达佳互联信息技术有限公司 搜索结果的排序方法、排序模型的生成方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN103034660A (zh) * 2011-10-10 2013-04-10 阿里巴巴集团控股有限公司 信息提供方法、装置及系统
CN104142999A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索结果展示方法及装置
CN106339897A (zh) * 2016-08-18 2017-01-18 腾讯科技(深圳)有限公司 确定投放策略的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100527132C (zh) * 2007-06-22 2009-08-12 腾讯科技(深圳)有限公司 分类样本集的优化方法和内容相关广告服务器
US8229786B2 (en) * 2010-04-06 2012-07-24 Yahoo! Inc. Click probability with missing features in sponsored search
CN104750713A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
CN107704467B (zh) * 2016-08-09 2021-08-24 百度在线网络技术(北京)有限公司 搜索质量评估方法及装置
US20180096379A1 (en) * 2016-10-05 2018-04-05 Iquanti Inc. Methods and systems for estimating Click-Through-Rate for a SERP layout
US20180225711A1 (en) * 2017-02-08 2018-08-09 Mylikes, Inc. Determining ad ranking and placement based on bayesian statistical inference
CN108255954A (zh) * 2017-12-20 2018-07-06 广州优视网络科技有限公司 应用检索方法、装置、存储介质以及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034660A (zh) * 2011-10-10 2013-04-10 阿里巴巴集团控股有限公司 信息提供方法、装置及系统
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN104142999A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索结果展示方法及装置
CN106339897A (zh) * 2016-08-18 2017-01-18 腾讯科技(深圳)有限公司 确定投放策略的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"在线广告中点击率预测研究";肖垚 等;《华东师范大学学报(自然科学版)》;20171006(第5期);第80-86页 *
"基于特征学习的广告点击率预估技术研究";张志强;《计算机学报》;20151009;第39卷(第4期);第780-792页 *

Also Published As

Publication number Publication date
CN110020209A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US10366119B2 (en) Customized content stream utilizing dwelltime-based machine learning
US10348550B2 (en) Method and system for processing network media information
JP5542812B2 (ja) クエリ識別および関連付け
JP6152173B2 (ja) 商品検索結果の順位付け
US8311957B2 (en) Method and system for developing a classification tool
US7885952B2 (en) Cloaking detection utilizing popularity and market value
CN108460082B (zh) 一种推荐方法及装置,电子设备
US8694362B2 (en) Taxonomy based targeted search advertising
US8355997B2 (en) Method and system for developing a classification tool
US20160379268A1 (en) User behavior data analysis method and device
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN109753601B (zh) 推荐信息点击率确定方法、装置及电子设备
JP2015191655A (ja) 推奨ページを生成するための方法及び装置
US20140258002A1 (en) Semantic model based targeted search advertising
US20110264507A1 (en) Facilitating keyword extraction for advertisement selection
WO2015148393A1 (en) Data search processing
CN109460519B (zh) 浏览对象推荐方法及装置、存储介质、服务器
US20090089285A1 (en) Method of detecting spam hosts based on propagating prediction labels
WO2014173349A1 (zh) 网页分类标准获取方法、装置及网页分类方法、装置
US8626585B1 (en) Selection of images to display next to textual content
CN103718178A (zh) 利用从结构化文档中提取的特征来改善搜索关联性
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
US11682060B2 (en) Methods and apparatuses for providing search results using embedding-based retrieval
CN106462644B (zh) 标识来自多个结果页面标识的优选结果页面
WO2015124024A1 (zh) 一种提升信息的曝光率的方法和装置、确定搜索词的价值的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant