CN107526846B - 频道排序模型的生成、排序方法、装置、服务器和介质 - Google Patents

频道排序模型的生成、排序方法、装置、服务器和介质 Download PDF

Info

Publication number
CN107526846B
CN107526846B CN201710890479.4A CN201710890479A CN107526846B CN 107526846 B CN107526846 B CN 107526846B CN 201710890479 A CN201710890479 A CN 201710890479A CN 107526846 B CN107526846 B CN 107526846B
Authority
CN
China
Prior art keywords
channel
data
characteristic data
keyword
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710890479.4A
Other languages
English (en)
Other versions
CN107526846A (zh
Inventor
吴海君
郭菲菲
陈晓雯
关方兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201710890479.4A priority Critical patent/CN107526846B/zh
Publication of CN107526846A publication Critical patent/CN107526846A/zh
Application granted granted Critical
Publication of CN107526846B publication Critical patent/CN107526846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种频道排序模型的生成、排序方法、装置、服务器和介质。所述频道排序模型的生成方法包括:确定与至少一个关键词对应的频道需求特征数据;根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;使用与目标关键词对应的频道需求特征数据,及单次用户点击数据构造训练样本;根据训练样本对设定排序模型进行训练,生成频道排序模型。本发明实施例的技术方案解决了现有技术中不存在可根据搜索关键词确定垂直搜索频道需求度的模型及不能依据搜索关键词对搜索结果页面中的垂直搜索频道按照需求度进行排列显示的技术缺陷,生成可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型。

Description

频道排序模型的生成、排序方法、装置、服务器和介质
技术领域
本发明实施例涉及垂直搜索频道排序技术领域,尤其涉及一种频道排序模型的生成、排序方法、装置、服务器和介质。
背景技术
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
现如今大部分的通用搜索引擎的搜索结果页面中都会显示垂直搜索频道,以方便用户针对输入的搜索关键词进行定向搜索。一般来说,垂直搜索频道的顺序都是由人工确定的,各个垂直搜索频道会以固定的排列顺序在网页中进行显示。
各个垂直搜索频道以固定的排列顺序在网页中显示,不利于用户方便、快速地获取所需垂直搜索频道。
发明内容
有鉴于此,本发明实施例提供了一种频道排序模型的生成、排序方法、装置、服务器和介质,以解决现有技术中不存在可根据搜索关键词确定垂直搜索频道需求度的模型、以及不能依据搜索关键词对搜索结果页面中的垂直搜索频道按照需求度进行排列显示的技术缺陷。
在第一方面,本发明实施例提供了一种频道排序模型的生成方法,包括:
确定与至少一个关键词对应的频道需求特征数据,其中,所述频道需求特征数据根据用户行为数据确定,所述用户行为数据与用户针对与所述关键词对应的搜索结果执行的用户操作相匹配;
根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本;
根据所述训练样本对设定排序模型进行训练,生成频道排序模型。
在第二方面,本发明实施例提供了一种频道的排序方法,包括:
获取与待搜索关键词对应的频道需求特征数据;
将所述频道需求特征数据输入至频道排序模型中,获取所述频道排序模型输出的与所述待搜索关键词对应的各个频道的需求度;
按照所述各个频道的需求度,确定所述各个频道在所述待搜索关键词的搜索结果中的排布顺序。
在第三方面,本发明实施例提供了一种频道排序模型的生成装置,包括:
频道需求特征数据获取模块,用于确定与至少一个关键词对应的频道需求特征数据,其中,所述频道需求特征数据根据用户行为数据确定,所述用户行为数据与用户针对与所述关键词对应的搜索结果执行的用户操作相匹配;
单次用户点击数据构造模块,用于根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
训练样本构造模块,用于使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本;
频道排序模型生成模块,用于根据所述训练样本对设定排序模型进行训练,生成频道排序模型。
在第四方面,本发明实施例提供了一种频道的排序装置,包括:
频道需求特征数据获取模块,用于获取与待搜索关键词对应的频道需求特征数据;
需求度获取模块,用于将所述频道需求特征数据输入至频道排序模型中,获取所述频道排序模型输出的与所述待搜索关键词对应的各个频道的需求度;
排布顺序确定模块,用于按照所述各个频道的需求度,确定所述各个频道在所述待搜索关键词的搜索结果中的排布顺序。
在第五方面,本发明实施例提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的频道排序模型的生成方法。
在第六方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的频道排序模型的生成方法。
在第七方面,本发明实施例提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的频道的排序方法。
在第八方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的频道的排序方法。
本发明实施例提供了一种频道排序模型的生成、排序方法、装置、服务器和介质,通过首先确定与至少一个关键词对应的频道需求特征数据,然后根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据,然后使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本,最后根据训练样本对设定排序模型进行训练,生成频道排序模型,并根据频道排序模型以及与待搜索关键词对应的频道需求特征确定与待搜索关键词对应的各个频道的需求度,按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序,解决了现有技术中不存在可根据搜索关键词确定垂直搜索频道需求度的模型、、以及不能依据搜索关键词对搜索结果页面中的垂直搜索频道按照需求度进行排列显示的技术缺陷,可以生成可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型。
附图说明
图1是本发明实施例一提供的一种频道排序模型的生成方法的流程图;
图2是本发明实施例二提供的一种频道排序模型的生成方法的流程图;
图3是本发明实施例三提供的一种频道排序模型的生成方法的流程图;
图4是本发明实施例四提供的一种频道排序模型的生成装置的结构图;
图5是本发明实施例五提供的一种频道的排序方法的流程图;
图6是本发明实施例六提供的一种频道的排序装置的结构图;
图7是本发明实施例七中的一种服务器的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在这里需要说明的是,本发明实施例中所述的所有频道均为垂直搜索频道,为了叙述简便,本发明实施例中均以“频道”代替“垂直搜索频道”进行表述。
实施例一
图1为本发明实施例一提供的一种频道排序模型的生成方法的流程图,本实施例的方法可以由频道排序模型的生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器中。本实施例的方法具体包括:
101、确定与至少一个关键词对应的频道需求特征数据。
在本实施例中,关键词具体是指用户使用搜索引擎进行搜索时,在搜索栏中输入的一个单独词组,或是输入的一句话中的一个关键词组。
在本实施例中,频道需求特征数据具体是指根据用户行为数据确定的,可以表征用户对搜索结果的选取倾向的数据,其中,用户行为数据是与用户针对与关键词对应的搜索结果执行的用户操作相匹配的。具体而言,频道需求特征数据具体可以是频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据等数据。
其中,频道需求档位具体是指对关键词而言各个频道的需求程度,示例性的,对于关键词“大话西游”来说,“视频”频道的需求度应为强需求,“图片”频道的需求度应为中需求,“地图”频道的需求应为没有需求等。
其中,频道点击特征数据具体是指用于表征某一词组作为搜索关键词时,在搜索结果页面中,各个频道被选取点击情况的数据。示例性的,以“大话西游”作为搜索关键词的100个搜索结果页面中,“视频”这一频道被选取点击的次数为85次,“图片”这一频道被选取点击的次数为15次,那么,对应的频道点击特征数据包括:视频频道点击85次、图片频道点击15次、视频频道的点击率为85%以及图片频道的点击率为15%。
其中,结果类特征数据具体是指用于表征关键词的搜索结果中,同一类的搜索结果的选取点击情况的数据。示例性的,以“大话西游”作为搜索关键词,每个搜索结果页面中有10条搜索结果,在5个搜索结果页面中的50个搜索结果中有35条为视频频道的搜索结果,10条为图片频道的搜索结果,5条为人物频道的搜索结果,35条视频频道的搜索结果中有8条被用户选取点击,10条图片频道的搜索结果中有1条被用户选取点击,5条人物频道的搜索结果中有1条被用户选取点击,那么,对应的结果类特征数据包括:视频结果类点击8次、图片结果类点击1次、人物结果类点击1次、视频结果类的点击率为80%、图片结果类的点击率为10%以及人物结果类的点击率为10%。
其中,频道满意度特征数据具体是指用户在关键词的搜索结果页面中选取某频道,进入对应的频道页之后的行为数据所对应的特征数据,示例性的,用户搜索“大话西游”之后,在搜索结果页面中选取了“视频”这一频道,进入对应的视频搜索页面之后,用户在该页面停留浏览时间为20秒钟,并分别选取点击了视频搜索页面的搜索结果中的两个视频进行浏览,那么,对应的频道满意度特征数据为视频频道浏览20秒钟以及视频频道搜索结果选取点击2个。
进一步需要说明的是,一个关键词对应的频道需求特征数据是通过对大量的与该关键词的搜索结果对应的用户行为数据进行统计的结果,用户行为数据的份数可以达到一万份或十万份,甚至更多,用户行为数据的量越大统计得到的关键词对应的频道需求特征数据越准确,但是同时也会增加运算量,因此,可以依据实际情况选取数量适当的用户行为数据进行统计分析。
102、根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据。
在本实施例中,单次用户点击数据具体是指用于表征在一个关键词的一个搜索结果页面中,用户对频道的点击情况的数据。
示例性的,用户以“大话西游”为关键词进行搜索,在搜索结果页面中,用户选取点击了“视频”这一频道,那么此时单次用户点击数据为:视频频道点击1次,其余频道均点击0次。
由于一般来说,用户在搜索结果页面中一次只能选取点击一个频道,因此,单次用户点击数据的内容均为某一频道点击1次,其余频道均点击0次。
进一步地,由于现有技术中,在关键词的搜索结果页面中各个频道的排列显示顺序都是固定不变的,这种情况下统计得到的单次用户点击数据有可能存在偏差,因此,在本实施例中,在所选取的目标用户的搜索结果页面中可以将各个频道的排列显示顺序进行循环更改,这样可以使得单次用户点击数据的偏差较小。例如,在第一用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“视频、新闻、图片、人物、地图、贴吧、网页”,在第二用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“网页、视频、新闻、图片、人物、地图、贴吧”,在第三用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“贴吧、网页、视频、新闻、图片、人物、地图”。
进一步地,由于用户在对关键词进行搜索时,会对一些频道有天然兴趣偏向,不论搜索关键词为何,总会选取点击具有天然兴趣偏向的频道进行查看,但是有时这些具有天然兴趣偏向的频道的搜索结果用户满意度较低,因此,在本实施例中,还可以依据频道需求特征数据对单次用户点击数据进行清洗。示例性的,用户以“大话西游”为关键词进行搜索,在搜索结果页面中,用户选取点击了“图片”这一具有天然兴趣偏向的频道,但是“大话西游”对应的频道满意度特征数据中图片频道的停留时间为2秒钟,由于停留时间过短,因此可以判断“图片”这一频道对于“大话西游”这一搜索关键词来说需求度不高,因此,应将由“用户以“大话西游”为关键词进行搜索,在搜索结果页面中,用户选取点击了“图片”这一具有天然兴趣偏向的频道”这一用户行为生成的单次用户点击数据删除,以防对“大话西游”对应的训练样本造成不良影响。
103、使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本。
在本实施例中,训练样本是由目标关键词对应的频道需求特征数据和单次用户点击数据得到的。
具体而言,可以将针对关键词A的一份单次用户点击数据区分为正样本和负样本,例如,可以将该单次用户点击数据中点击次数大于0的频道作为正样本,将该单次用户点击数据中点击次数为0的频道作为负样本,然后将上述正样本与关键词A对应的频道需求特征数据组合形成正训练样本,将上述负样本与关键词A对应的频道需求特征数据组合形成负训练样本,最后由正训练样本和负训练样本组成一份训练样本。
进一步需要说明的是,与任一关键词对应的频道需求特征数据均为一组相同特征数据,因此,在构造训练样本时,与目标关键词所对应的任一单次用户点击数据相结合的目标关键词对应的频道需求特征数据均为一组相同的特征数据,可见,针对同一关键词构造的每份训练样本的区别主要是单次用户点击数据中正、负样本的区别。
104、根据训练样本对设定排序模型进行训练,生成频道排序模型。
在本实施例中,在构造完成训练样本之后,使用训练样本对设定排序模型进行训练,生成频道排序模型。其中,设定排序模型具体可以是决策树模型等。
进一步地,当使用训练样本对决策树模型进行训练得到频道排序模型之后,可以根据频道排序模型得到与关键词对应的频道的需求度。示例性的,当用户输入搜索关键词A之后,首先获取与关键词A对应的频道需求特征数据,然后将与关键词A对应的频道需求特征数据输入至频道排序模型,频道排序模型输出针对关键词A的各个频道的需求度,最后可以依据针对关键词A的各个频道的需求度对各个频道进行排序,将排序结果显示在关键词A的搜索结果页面中。
本发明实施例一提供了一种频道排序模型的生成方法,通过首先确定与至少一个关键词对应的频道需求特征数据,然后根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据,然后使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本,最后根据训练样本对设定排序模型进行训练,生成频道排序模型,解决了现有技术中不存在可根据搜索关键词确定垂直搜索频道需求度的模型的技术缺陷,可以生成可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型。
实施例二
图2是本发明实施例二提供的一种频道排序模型的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将确定与关键词对应的需求特征数据,具体化为:根据频道需求分档规则和用户行为数据,确定与关键词对应的频道需求档位;根据用户行为数据,获取频道点击特征数据,其中,频道点击特征数据反映不同频道的用户点击特征;根据用户行为数据,获取结果类特征数据,其中,结果类特征数据反映与同一频道对应的搜索结果的整体用户点击特征;在用户行为数据中获取与频道页对应的频道页行为数据,根据频道页行为数据,获取与关键词对应的频道满意度特征数据;将频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据作为频道需求特征数据。
进一步地,将根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据,具体化为:在获取目标用户针对目标关键词的网络查询请求时,在与目标关键词对应的搜索结果中按照设定频道显示规则显示各个频道,其中,设定频道显示规则用于调整各个频道在搜索结果中的排布顺序;根据目标用户在搜索结果中选择的目标频道,构造单次用户点击数据。
进一步地,在根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据之后,在使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本之前,还具体包括:根据频道满意度特征数据,修正单次用户点击数据。
进一步地,将使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本,具体化为:将单次用户点击数据中,点击次数大于零的频道设置为正样本,点击次数为零的频道设置为负样本;将正样本、正样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为正训练样本;将负样本、负样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为负训练样本。
相应的,本实施例的方法具体包括:
201、根据频道需求分档规则和用户行为数据,确定与关键词对应的频道需求档位。
在本实施例中,与关键词对应的频道需求档位具体是指对于某个关键词,各个频道的需求度,例如,可以将频道需求档位划分为没有预测结果,弱需求,中需求以及强需求四挡。
具体而言,可以是首先根据自然语言处理技术,获取关键词的词性和依存关系,然后根据热门频道的频道需求分档规则、关键词的词性和依存关系以及用户行为数据,获取与关键词对应的热门频道的频道需求档位,最后根据冷门频道的频道需求分档规则、关键词的词性和依存关系以及字面模式知识库,获取与关键词对应的冷门频道需的频道求档位。
其中,热门频道具体可以是视频、图片以及新闻等频道,冷门频道具体可以是地图以及文库等频道。
其中,热门频道的需求分档规则具体可以是依据关键词的词性和依存关系,同时结合用户点击行为数据,通过分类模型对关键词进行需求分档。
其中,冷门频道的需求分档规则具体可以是将关键词的词性和依存关系与字面模式知识库相结合,依据结合的结果对关键词进行需求分档。
202、根据用户行为数据,获取频道点击特征数据。
在本实施例中,频道点击特征数据用于反映不同频道的用户点击特征,具体是指用于表征某一词组作为搜索关键词时,在搜索结果页面中,各个频道被选取点击情况的数据,典型的可以是频道点击量以及频道点击率等数据。
示例性的,以“华为mate10”作为搜索关键词的2000个搜索结果页面中,“图片”这一频道被选取点击的次数为1500次,“网页”这一频道被选取点击的次数为300次,“新闻”这一频道被选取点击的次数为200次那么,对应的频道点击特征数据包括:图片频道点击1500次、网页频道点击300次、新闻频道点击200次、图片频道的点击率为75%、网页频道的点击率为15%以及新闻频道的点击楼率为10%。
203、根据用户行为数据,获取结果类特征数据。
在本实施例中,结果类特征数据用于反映与同一频道对应的搜索结果的整体用户点击特征,具体是指用于表征关键词的搜索结果中,同一类的搜索结果的选取点击情况的数据,其中,同一类的搜索结果具体是指对应与同一频道的搜索结果。结果类特征数据典型的可以是结果类点击量,结果类点击率,以及结果类展现占比等数据。
进一步地,关键词的搜索结果页面中除了显示各个频道以外,同时还会显示设定数量(例如10条)的搜索结果,这些搜索结果其实是某一频道下对应于关键词的一个搜索结果。因此,可以将各个搜索结果分别与频道相对应,并根据对应于同一频道的所有搜索结果的用户点击特征得到该频道的结果类特征数据。
示例性的,以“华为mate10”作为搜索关键词,每个搜索结果页面中有10条搜索结果,在1000个搜索结果页面中的5000个搜索结果中有3500条为图片频道的搜索结果,1000条为网页频道的搜索结果,500条为新闻频道的搜索结果,3500条图片频道的搜索结果中有800条被用户选取点击,1000条网页频道的搜索结果中有100条被用户选取点击,500条新闻频道的搜索结果中有100条被用户选取点击,那么,对应的结果类特征数据包括:图片结果类点击800次、网页结果类点击100次、新闻结果类点击100次、图片结果类的点击率为80%、网页结果类的点击率为10%以及新闻结果类的点击率为10%。
204、在用户行为数据中获取与频道页对应的频道页行为数据,根据频道页行为数据,获取与关键词对应的频道满意度特征数据。
在本实施例中,频道页具体是指在关键词的搜索结果中选取点击某一频道后进入的网页页面。频道页行为数据用户行为数据具体是与用户针对与频道页执行的用户操作相匹配的行为数据。频道满意度特征数据具体是指频道页行为数据所对应的特征数据,典型的可以是停留时间以及频道页点击量等数据。
示例性的,用户搜索“华为mate10”之后,在搜索结果页面中选取了“图片”这一频道,进入对应的图片搜索页面之后,用户在该页面停留浏览时间为30秒钟,并分别选取点击了图片搜索页面中的5个搜索结果进行浏览,那么,对应的频道满意度特征数据为图片频道浏览30秒钟以及图片搜索结果选取点击5个。
205、将频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据作为频道需求特征数据。
在本实施例中,在确定了频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据之后,将上述四类数据作为频道需求特征数据。
206、在获取目标用户针对目标关键词的网络查询请求时,在与目标关键词对应的搜索结果中按照设定频道显示规则显示各个频道。
在本实施例中,设定频道显示规则具体可以是将各个频道的排列显示顺序进行循环更改,或是将各个频道的排列显示顺序进行随机更改等,本实施例对此不进行限制。
示例性的,将各个频道的排列显示顺序进行循环更改具体可以是:在第一用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“视频、新闻、图片、人物、地图、贴吧、网页”,在第二用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“新闻、图片、人物、地图、贴吧、网页、视频”,在第三用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“图片、人物、地图、贴吧、网页、视频、新闻”。
示例性的,将各个频道的排列显示顺序进行随机更改具体可以是:在第一用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“视频、新闻、图片、人物、地图、贴吧、网页”,在第二用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“贴吧、图片、视频、网页、人物、新闻、地图,在第三用户针对关键词A的搜索结果页面中各个频道的排列显示顺序为“人物、图片、地图、贴吧、新闻、视频、网页”。
207、根据目标用户在搜索结果中选择的目标频道,构造单次用户点击数据。
本领域技术人员可以理解的是,用户在搜索结果页面对频道进行选取点击时,一般来说,每次只能对一个频道进行选取点击,因此,在本实施例中,单次用户点击数据的数据结果具体可以是某一频道的点击次数为1次,其余频道的点击次数为0次。
示例性的,用户在关键词A的搜索结果中选取了“新闻”这一频道,那么对应的单次用户点击数据为新闻频道点击1次,其余频道点击0次。
208、根据频道满意度特征数据,修正单次用户点击数据。
在本实施例中,会根据频道满意度特征数据对单次用户点击数据进行修正。
示例性的,用户对关键词A进行搜索,并在搜索结果页面中选取点击了“图片”这一频道,那么对应的单次用户点击数据为图片频道点击1次,其余频道到点击0次,同时还获取了与关键词A对应的频道满意度特征数据,其中图片频道的停留时间为2秒,一般来说,如果搜索结果符合用户的预期,那么用户在搜索结果页面的停留时间不会短至2秒,一般会达到10秒钟或20秒钟以上,因此可以确认图片频道页的搜索结果不符合用户的预期,那么,此时应将上述单次用户点击数据“图片频道点击1次,其余频道到点击0次”删除,以防生成不准确的训练样本。
209、将单次用户点击数据中,点击次数大于零的频道设置为正样本,点击次数为零的频道设置为负样本。
在本实施例中,根据单次用户点击数据,将频道设置为正样本或负样本,具体而言,将一份单次用户点击数据中点击次数大于零的频道设置为正样本,点击次数为零的频道设置为负样本。
示例性的,一份单次用户点击数据为“新闻频道点击1次,其余频道点击0次”,那么对于本份单次用户点击数据来说,新闻频道为正样本,其余所有频道均为负样本。
210、将正样本、正样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为正训练样本。
在本实施例中,将正样本、正样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为正训练样本。
示例性的,用户选取点击了关键词A的搜索结果中的视频频道,由此得到一份单次用户点击数据为“视频频道点击1次,其余频道点击0次”,那么,正样本视频频道、正样本点击1次以及关键词A对应的频道需求特征数据共同作为一份正训练样本。
211、将负样本、负样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为负训练样本。
在本实施例中,将负样本、负样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为负训练样本。
示例性的,用户选取点击了关键词A的搜索结果中的搜索频道,由此得到一份单次用户点击数据为“视频频道点击1次,其余频道点击0次”,那么,负样本视频频道以外的其余频道、负样本点击0次以及关键词A对应的频道需求特征数据共同作为一份负训练样本。
212、根据正负训练样本对设定排序模型进行训练,生成频道排序模型。
本发明实施例二提供了一种频道排序模型的生成方法,具体化了频道需求特征数据的确定方式,将频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据共同作为频道需求特征数据,具体化了单次用户点击数据的构造方法,将各个频道按照设定频道显示规则在与目标关键词对应的搜索结果中进行显示,以减小单次用户点击数据的偏差,具体增加了单次用户点击数据的修正步骤,同时还具体化了训练样本的构造过程,将根据单次用户点击数据区分正负样本,进而确定正负训练样本。该方法减小了由于垂直搜索频道固定的排布显示顺序导致的单次用户点击数据的偏差,还滤除了由于用户对垂直搜索频道的天然偏向导致的不良单次用户点击数据,并生成了可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型
实施例三
图3是本发明实施例三提供的一种频道排序模型的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据频道需求分档规则和用户行为数据,确定与关键词对应的频道需求档位,具体化为:根据自然语言处理技术,获取关键词的词性和依存关系;根据第一类频道的频道需求分档规则、关键词的词性和依存关系以及用户行为数据,获取与关键词对应的第一类频道的频道需求档位;根据第二类频道的频道需求分档规则、关键词的词性和依存关系以及字面模式知识库,获取与关键词对应的第二类频道需的频道求档位。
进一步地,将根据用户行为数据,获取结果类特征数据,具体化为:将搜索结果与频道一一对应;在用户行为数据中获取与同一类搜索结果相对应的搜索结果行为数据,根据搜索结果行为数据,确定同一类搜索结果对应的结果类特征数据,其中,同一类搜索结果为与同一频道对应的搜索结果。
进一步地,将根据频道满意度特征数据,修正单次用户点击数据,具体化为:根据频道满意度判断规则和频道满意度特征数据,获取不满意频道;将不满意频道的点击次数大于零的单次用户点击数据删除。
进一步地,将设定排序模型优化为决策树模型。
相应的,本实施例的方法具体包括:
301、根据自然语言处理技术,获取关键词的词性和依存关系。
在本实施例中,自然语言处理技术具体是指NLP(Natural Language Processing)自然语言处理技术等语言处理技术。本领域技术人员可以理解的是,通过使用NLP技术可以对词组进行语音识别、中文自动分词、词性标注、信息检索、信息抽取、文字校对等处理。
在本实施例中,会根据自然语言处理技术,获取关键词的词性和依存关系。
302、根据第一类频道的频道需求分档规则、关键词的词性和依存关系以及用户行为数据,获取与关键词对应的第一类频道的频道需求档位。
在本实施例中,第一类频道具体可以是热门的频道,也就是用户感兴趣度较高的频道。
在本实施例中,对于热门频道,可以将关键词的词性和依存关系与用户行为数据相结合,将结合结果输入分类模型得到关键词的需求分档,即与关键词对应的热门频道的频道需求档位。
303、根据第二类频道的频道需求分档规则、关键词的词性和依存关系以及字面模式知识库,获取与关键词对应的第二类频道的频道需求档位。
在本实施例中,第二类频道具体可以是冷门的频道,也就是用户感兴趣度较低的频道。
在本实施例中,对于冷门频道,可以将关键词的词性和依存关系与字面模式知识库相结合,然后根据结合结果以及相应大打分规则进行需求打分,进而得到与关键词对应的冷门频道的频道需求档位。
304、根据用户行为数据,获取频道点击特征数据。
305、将搜索结果与频道一一对应。
在本实施例中,通过将搜索结果与频道一一对应,以此确定结果类特征数据。
本领域技术人员可以理解的是,各个搜索结果本身就是与某一频道相对应的,因此可以很容易地实现搜索结果与频道的一一对应。
306、在用户行为数据中获取与同一类搜索结果相对应的搜索结果行为数据,根据搜索结果行为数据,确定同一类搜索结果对应的结果类特征数据。
在本实施例中,同一类搜索结果具体是指与同一频道对应的搜索结果。搜索结果行为数据具体是指与用户对同一类搜索结果执行的用户操作相匹配的数据。
示例性的,对关键词A的100个搜索结果页面中共有1000条搜索结果,其中700条搜索结果为新闻频道的搜索结果,200条搜索结果为网页频道的搜索结果,100条搜索结果为视频频道的搜索结果,其中有80条新闻频道的搜索结果被用户选取点击,有15条网页频道的搜索结果被用户选取点击,有5条视频频道的搜索结果被用户选取点击,那么,对应的结果类特征数据包括新闻结果类点击量80、网页结果类点击量15以及视频结果类点击量5等。
307、在用户行为数据中获取与频道页对应的频道页行为数据,根据频道页行为数据,获取与关键词对应的频道满意度特征数据。
308、将频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据作为频道需求特征数据。
309、根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据。
310、根据频道满意度判断规则和频道满意度特征数据,获取不满意频道。
在本实施例中,频道满意度判断规则具体可以是频道页停留时间小于X秒钟,则认为该频道为不满意频道,还可以是频道页中的搜索结果没有被用户选取点击,则认为该频道为不满意频道等,本实施例对此不进行限制。
在本实施例中,依据频道满意度判断规则和频道满意度特征数据,即可获取不满意频道。
311、将不满意频道的点击次数大于零的单次用户点击数据删除。
在本实施例中,在确定与关键词对应的不满意频道之后,会将与关键词对应的、不满意频道的点击次数大于零的单次用户点击数据进行删除。
312、使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本。
313、根据训练样本对决策树模型进行训练,生成频道排序模型。
在本实施例中,设定排序模型为决策树模型,电信的可以是200棵树,最大深度为4的决策树模型。
本发明实施例三提供了一种频道排序模型的生成方法,具体化了频道需求档位的确定方法,对第一类频道和第二类频道使用不同的方法确定频道需求档位,具体化了结果类特征数据的获取方法,对同一来搜索结果分别确定结果类特征数据,同时还具体化了单次用户点击数据的修正方法,将不满意频道的点击次数大于零的单次用户点击数据删除。该方法可以获取更加准确的频道需求档位和结果类特征数据,还可以滤除单次用户点击数据中的不良数据,可以生成可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型。
实施例四
图4是本发明实施例四提供的一种频道排序模型的生成装置的结构图。如图4所示,所述装置包括:频道需求特征数据获取确定模块401、单次用户点击数据构造模块402、训练样本构造模块403以及频道排序模型生成模块404,其中:
频道需求特征数据获取模块401,用于确定与至少一个关键词对应的频道需求特征数据,其中,频道需求特征数据根据用户行为数据确定,用户行为数据与用户针对与关键词对应的搜索结果执行的用户操作相匹配;
单次用户点击数据构造模块402,用于根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
训练样本构造模块403,用于使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本;
频道排序模型生成模块404,用于根据训练样本对设定排序模型进行训练,生成频道排序模型。
本发明实施例四提供了一种频道排序模型的生成装置,通过首先确定与至少一个关键词对应的频道需求特征数据,然后根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据,然后使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本,最后根据训练样本对设定排序模型进行训练,生成频道排序模型,解决了现有技术中不存在可根据搜索关键词确定垂直搜索频道需求度的模型的技术缺陷,可以生成可依据搜索关键词的频道需求特征数据准确确定垂直搜索频道需求度的模型。
在上述各实施例的基础上,频道需求特征数据获取模块可以包括:
频道需求档位获取单元,用于根据频道需求分档规则和用户行为数据,确定与关键词对应的频道需求档位;
频道点击特征数据获取单元,用于根据用户行为数据,获取频道点击特征数据,其中,频道点击特征数据反映不同频道的用户点击特征;
结果类特征数据获取单元,用于根据用户行为数据,获取结果类特征数据,其中,结果类特征数据反映与同一频道对应的搜索结果的整体用户点击特征;
频道满意度特征数据获取单元,用于在用户行为数据中获取与频道页对应的频道页行为数据,根据频道页行为数据,获取与关键词对应的频道满意度特征数据;
频道需求特征数据确定单元,用于将频道需求档位、频道点击特征数据、结果类特征数据以及频道满意度特征数据作为频道需求特征数据。
在上述各实施例的基础上,频道需求档位获取单元可以包括:
语言处理子单元,用于根据自然语言处理技术,获取关键词的词性和依存关系;
第一频道需求档位确定子单元,用于根据第一类频道的频道需求分档规则、关键词的词性和依存关系以及用户行为数据,获取与关键词对应的第一类频道的频道需求档位;
第二频道需求档位确定子单元,用于根据第二类频道的频道需求分档规则、关键词的词性和依存关系以及字面模式知识库,获取与关键词对应的第二类频道需的频道求档位。
在上述各实施例的基础上,结果类特征数据获取单元可以包括:
结果频道对应子单元,用于将搜索结果与频道一一对应;
结果类特征数据确定子单元,用于在用户行为数据中获取与同一类搜索结果相对应的搜索结果行为数据,根据搜索结果行为数据,确定同一类搜索结果对应的结果类特征数据,其中,同一类搜索结果为与同一频道对应的搜索结果。
在上述各实施例的基础上,单次用户点击数据构造模块可以包括:
频道显示单元,用于在获取目标用户针对目标关键词的网络查询请求时,在与目标关键词对应的搜索结果中按照设定频道显示规则显示各个频道,其中,设定频道显示规则用于调整各个频道在搜索结果中的排布顺序;
点击数据构造单元,用于根据目标用户在搜索结果中选择的目标频道,构造单次用户点击数据。
在上述各实施例的基础上,还可以包括:
点击数据修正模块,用于在根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据之后,在使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本之前,根据频道满意度特征数据,修正单次用户点击数据。
在上述各实施例的基础上,点击数据修正模块可以包括:
不满意频道获取单元,用于根据频道满意度判断规则和频道满意度特征数据,获取不满意频道;
点击数据删除单元,用于将不满意频道的点击次数大于零的单次用户点击数据删除。
在上述各实施例的基础上,训练样本构造模块可以包括:
样本设置单元,用于将单次用户点击数据中,点击次数大于零的频道设置为正样本,点击次数为零的频道设置为负样本;
正训练样本确定单元,用于将正样本、正样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为正训练样本;
负训练样本确定单元,用于将负样本、负样本对应的单次用户点击数据中的数据、以及与目标关键词对应的频道需求特征数据作为负训练样本。
在上述各实施例的基础上,设定排序模型可以为决策树模型。
本发明实施例所提供的频道排序模型的生成装置可用于执行本发明任意实施例提供的频道排序模型的生成方法,具备相应的功能模块,实现相同的有益效果。
实施例五
图5为本发明实施例五提供的一种频道的排序方法的流程图,本实施例的方法可以由频道的排序装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器中。本实施例的方法具体包括:
501、获取与待搜索关键词对应的频道需求特征数据。
在本实施例中,在获取到用户对待搜索关键词的网络查询请求时,首先需要获取本发明任一实施例中得到的频道需求特征数据,也可以根据本发明任一实施例中获取频道需求特征数据的方法重新获取频道需求数据,本实施例对此不进行限制。
502、将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度。
在本实施例中,在获取频道需求特征数据之后,会将频道需求特征数据输入至频道排序模型中,频道排序模型会输出与待搜索关键词对应的各个频道的需求度。
503、按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序。
在本实施例中,在获取与待搜索关键词对应的各个频道的需求度之后,可以根据需求度确定各个频道在待搜索关键词的搜索结果中的排布顺序,一般来说,会按照需求度从大到小依次显示各个频道。
本发明实施例五提供了一种频道的排序方法,通过先获取与待搜索关键词对应的频道需求特征数据,然后将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度,最后按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序,解决了现有技术中不能依据搜索关键词对搜索结果页面中的垂直搜索频道按照需求度进行排列显示的技术缺陷,实现了根据用户输入的搜索关键词动态变换各个垂直搜索频道的排列显示位置,提升了用户的使用体验,同时显著提升了各频道的点击率。
实施例六
图6是本发明实施例六提供的一种频道的排序装置的结构图。如图6所示,所述装置包括:频道需求特征数据获取模块601、需求度获取模块602、以及排布顺序确定模块603,其中:
频道需求特征数据获取模块601,用于获取与待搜索关键词对应的频道需求特征数据;
需求度获取模块602,用于将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度;
排布顺序确定模块603,用于按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序。
本发明实施例六提供了一种频道的排序装置,通过先获取与待搜索关键词对应的频道需求特征数据,然后将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度,最后按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序,解决了现有技术中不能依据搜索关键词对搜索结果页面中的垂直搜索频道按照需求度进行排列显示的技术缺陷,实现了根据用户输入的搜索关键词动态变换各个垂直搜索频道的排列显示位置,提升了用户的使用体验,同时显著提升了各频道的点击率。
本发明实施例所提供的频道的排序装置可用于执行本发明任意实施例提供的频道的排序方法,具备相应的功能模块,实现相同的有益效果。
实施例七
图7为本发明实施例七提供的一种服务器的结构示意图。图7示出了适于用来实现本发明实施方式的示例性服务器12的框图。图7显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的频道排序模型的生成方法。也即,所述处理单元执行所述程序时实现:
确定与至少一个关键词对应的频道需求特征数据,其中,频道需求特征数据根据用户行为数据确定,用户行为数据与用户针对与关键词对应的搜索结果执行的用户操作相匹配;
根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本;
根据训练样本对设定排序模型进行训练,生成频道排序模型。
又例如实现本发明实施例所提供的频道的排序方法。也即,所述处理单元执行所述程序时实现:
获取与待搜索关键词对应的频道需求特征数据;
将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度;
按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序。
实施例八
本发明实施例八提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明所述的频道排序模型的生成方法,所述频道排序模型的生成方法包括:
确定与至少一个关键词对应的频道需求特征数据,其中,频道需求特征数据根据用户行为数据确定,用户行为数据与用户针对与关键词对应的搜索结果执行的用户操作相匹配;
根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
使用与目标关键词对应的频道需求特征数据,以及单次用户点击数据构造训练样本;
根据训练样本对设定排序模型进行训练,生成频道排序模型。
同时,本发明实施例八还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明所述的频道的排序方法,所述频道的排序方法包括:
获取与待搜索关键词对应的频道需求特征数据;
将频道需求特征数据输入至频道排序模型中,获取频道排序模型输出的与待搜索关键词对应的各个频道的需求度;
按照各个频道的需求度,确定各个频道在待搜索关键词的搜索结果中的排布顺序。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种频道排序模型的生成方法,其特征在于,包括:
确定与至少一个关键词对应的频道需求特征数据,所述频道需求特征数据包括频道需求档位、频道点击特征数据、结果类特征数据和频道满意度特征数据中的其中一种,其中,所述频道需求特征数据根据用户行为数据确定,是表征用户对搜索结果的选取倾向的数据,所述用户行为数据与用户针对与所述关键词对应的搜索结果执行的用户操作相匹配;
根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本;
根据所述训练样本对设定排序模型进行训练,生成频道排序模型。
2.根据权利要求1所述的方法,其特征在于,所述确定与关键词对应的需求特征数据,包括:
根据频道需求分档规则和所述用户行为数据,确定与所述关键词对应的频道需求档位;
根据所述用户行为数据,获取频道点击特征数据,其中,所述频道点击特征数据反映不同频道的用户点击特征;
根据所述用户行为数据,获取结果类特征数据,其中,所述结果类特征数据反映与同一频道对应的搜索结果的整体用户点击特征;
在所述用户行为数据中获取与频道页对应的频道页行为数据,根据所述频道页行为数据,获取与所述关键词对应的频道满意度特征数据;
将所述频道需求档位、所述频道点击特征数据、所述结果类特征数据以及所述频道满意度特征数据作为所述频道需求特征数据。
3.根据权利要求2所述的方法,其特征在于,所述根据频道需求分档规则和所述用户行为数据,确定与所述关键词对应的频道需求档位,包括:
根据自然语言处理技术,获取所述关键词的词性和依存关系;
根据第一类频道的频道需求分档规则、所述关键词的词性和依存关系以及所述用户行为数据,获取与所述关键词对应的所述第一类频道的频道需求档位;
根据第二类频道的频道需求分档规则、所述关键词的词性和依存关系以及字面模式知识库,获取与所述关键词对应的所述第二类频道的频道需 求档位。
4.根据权利要求2所述的方法,其特征在于,所述根据所述用户行为数据,获取结果类特征数据,包括:
将所述搜索结果与所述频道一一对应;
在所述用户行为数据中获取与同一类搜索结果相对应的搜索结果行为数据,根据所述搜索结果行为数据,确定所述同一类搜索结果对应的结果类特征数据,其中,所述同一类搜索结果为与同一频道对应的搜索结果。
5.根据权利要求1所述的方法,其特征在于,所述根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据,包括:
在获取目标用户针对所述目标关键词的网络查询请求时,在与所述目标关键词对应的搜索结果中按照设定频道显示规则显示各个频道,其中,所述设定频道显示规则用于调整各个频道在搜索结果中的排布顺序;
根据所述目标用户在所述搜索结果中选择的目标频道,构造单次用户点击数据。
6.根据权利要求1所述的方法,其特征在于,在所述根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据之后,在所述使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本之前,还包括:
根据所述频道满意度特征数据,修正所述单次用户点击数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述频道满意度特征数据,修正所述单次用户点击数据,包括:
根据频道满意度判断规则和所述频道满意度特征数据,获取不满意频道;
将所述不满意频道的点击次数大于零的所述单次用户点击数据删除。
8.根据权利要求1所述的方法,其特征在于,所述使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本,包括:
将所述单次用户点击数据中,点击次数大于零的频道设置为正样本,点击次数为零的频道设置为负样本;
将所述正样本、所述正样本对应的所述单次用户点击数据中的点击数据、以及与所述目标关键词对应的所述频道需求特征数据作为正训练样本;
将所述负样本、所述负样本对应的所述单次用户点击数据中的点击数据、以及与所述目标关键词对应的所述频道需求特征数据作为负训练样本。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述设定排序模型为决策树模型。
10.一种频道的排序方法,其特征在于,包括:
获取与待搜索关键词对应的频道需求特征数据,所述频道需求特征数据包括频道需求档位、频道点击特征数据、结果类特征数据和频道满意度特征数据中的其中一种,其中,所述频道需求特征数据是表征用户对搜索结果的选取倾向的数据;
将所述频道需求特征数据输入至频道排序模型中,获取所述频道排序模型输出的与所述待搜索关键词对应的各个频道的需求度;
按照所述各个频道的需求度,确定所述各个频道在所述待搜索关键词的搜索结果中的排布顺序。
11.一种频道排序模型的生成装置,其特征在于,包括:
频道需求特征数据获取模块,用于确定与至少一个关键词对应的频道需求特征数据,所述频道需求特征数据包括频道需求档位、频道点击特征数据、结果类特征数据和频道满意度特征数据中的其中一种,其中,所述频道需求特征数据根据用户行为数据确定,是表征用户对搜索结果的选取倾向的数据,所述用户行为数据与用户针对与所述关键词对应的搜索结果执行的用户操作相匹配;
单次用户点击数据构造模块,用于根据目标用户在与目标关键词对应的搜索结果中选择的目标频道,构造单次用户点击数据;
训练样本构造模块,用于使用与所述目标关键词对应的频道需求特征数据,以及所述单次用户点击数据构造训练样本;
频道排序模型生成模块,用于根据所述训练样本对设定排序模型进行训练,生成频道排序模型。
12.一种频道的排序装置,其特征在于,包括:
频道需求特征数据获取模块,用于获取与待搜索关键词对应的频道需求特征数据,所述频道需求特征数据包括频道需求档位、频道点击特征数据、结果类特征数据和频道满意度特征数据中的其中一种,其中,所述频道需求特征数据是表征用户对搜索结果的选取倾向的数据;
需求度获取模块,用于将所述频道需求特征数据输入至频道排序模型中,获取所述频道排序模型输出的与所述待搜索关键词对应的各个频道的需求度;
排布顺序确定模块,用于按照所述各个频道的需求度,确定所述各个频道在所述待搜索关键词的搜索结果中的排布顺序。
13.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的频道排序模型的生成方法。
14.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一项所述的频道排序模型的生成方法。
15.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求10中所述的频道的排序方法。
16.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求10中所述的频道的排序方法。
CN201710890479.4A 2017-09-27 2017-09-27 频道排序模型的生成、排序方法、装置、服务器和介质 Active CN107526846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710890479.4A CN107526846B (zh) 2017-09-27 2017-09-27 频道排序模型的生成、排序方法、装置、服务器和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710890479.4A CN107526846B (zh) 2017-09-27 2017-09-27 频道排序模型的生成、排序方法、装置、服务器和介质

Publications (2)

Publication Number Publication Date
CN107526846A CN107526846A (zh) 2017-12-29
CN107526846B true CN107526846B (zh) 2021-09-24

Family

ID=60737534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710890479.4A Active CN107526846B (zh) 2017-09-27 2017-09-27 频道排序模型的生成、排序方法、装置、服务器和介质

Country Status (1)

Country Link
CN (1) CN107526846B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804491A (zh) * 2018-03-27 2018-11-13 优视科技新加坡有限公司 项目推荐方法、装置、计算设备及存储介质
CN109582776B (zh) * 2018-12-04 2021-07-09 北京羽扇智信息科技有限公司 模型的生成方法及装置、电子设备及存储介质
CN110362743A (zh) * 2019-06-24 2019-10-22 北京字节跳动网络技术有限公司 一种资讯频道的显示方法、装置、介质和电子设备
CN111368153B (zh) * 2020-03-23 2023-08-29 百度在线网络技术(北京)有限公司 搜索方法及装置
EP3913503A4 (en) 2020-03-23 2022-01-12 Baidu Online Network Technology (Beijing) Co., Ltd. RESEARCH METHOD AND APPARATUS
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113434661A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 公文拟稿提示方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591880A (zh) * 2011-01-14 2012-07-18 阿里巴巴集团控股有限公司 信息提供方法及装置
CN103530385A (zh) * 2013-10-18 2014-01-22 北京奇虎科技有限公司 基于垂直搜索频道的信息搜索方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486781A (zh) * 2010-12-03 2012-06-06 阿里巴巴集团控股有限公司 一种搜索排序方法和装置
US9390174B2 (en) * 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
CN103514299B (zh) * 2013-10-18 2018-04-17 北京奇虎科技有限公司 信息搜索方法和装置
CN106250464B (zh) * 2016-07-28 2020-04-28 北京百度网讯科技有限公司 排序模型的训练方法及装置
CN106777282B (zh) * 2016-12-29 2018-07-13 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591880A (zh) * 2011-01-14 2012-07-18 阿里巴巴集团控股有限公司 信息提供方法及装置
CN103530385A (zh) * 2013-10-18 2014-01-22 北京奇虎科技有限公司 基于垂直搜索频道的信息搜索方法及装置

Also Published As

Publication number Publication date
CN107526846A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CN109033140B (zh) 一种确定搜索结果的方法、装置、设备和计算机存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN103514299B (zh) 信息搜索方法和装置
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
US20080215548A1 (en) Information search method and system
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN112163614A (zh) 一种主播分类方法、装置、电子设备及存储介质
CN112632285A (zh) 一种文本聚类方法、装置、电子设备及存储介质
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN110020110B (zh) 媒体内容推荐方法、装置及存储介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
US9092409B2 (en) Smart scoring and filtering of user-annotated geocoded datasets
CN110659419B (zh) 确定目标用户的方法及相关装置
CN111199148B (zh) 文本相似度确定方法、装置、存储介质和电子设备
KR20210084641A (ko) 정보를 송신하는 방법 및 장치
CN107622058A (zh) 制作外文地名库的方法、装置、电子导航芯片及服务器
CN111949767A (zh) 一种文本关键词的查找方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant