CN106897301A - 一种搜索质量的评测方法、装置及电子设备 - Google Patents

一种搜索质量的评测方法、装置及电子设备 Download PDF

Info

Publication number
CN106897301A
CN106897301A CN201510958921.3A CN201510958921A CN106897301A CN 106897301 A CN106897301 A CN 106897301A CN 201510958921 A CN201510958921 A CN 201510958921A CN 106897301 A CN106897301 A CN 106897301A
Authority
CN
China
Prior art keywords
search
search results
quality
evaluated
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510958921.3A
Other languages
English (en)
Inventor
郑小波
孙靓
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510958921.3A priority Critical patent/CN106897301A/zh
Publication of CN106897301A publication Critical patent/CN106897301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请公开了一种搜索质量的评测方法、装置及电子设备,以及一种搜索引擎坏例的挖掘方法、装置及电子设备。其中所述搜索质量的评测方法包括:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据质量特征,通过预先生成的搜索结果分类器,获取待评测搜索结果的搜索质量。采用本申请提供的方法,能够根据新增质量评测结果更新搜索结果分类器,以提高搜索结果分类器的模型准确度,从而达到提高搜索质量的评测准确度的效果。

Description

一种搜索质量的评测方法、装置及电子设备
技术领域
本申请涉及搜索引擎技术领域,具体涉及一种搜索质量的评测方法、装置及电子设备。本申请同时涉及一种搜索引擎坏例的挖掘方法、装置及电子设备。
背景技术
在搜索引擎技术领域中,搜索引擎系统的复杂性导致无法对每一个查询词都能给出最好的搜索结果,存在一些用户需求没有满足、体验不好的情况,即:搜索坏例(badcase)。为避免将搜索坏例展示给用户,搜索引擎系统需要提前发现并解决可能存在的搜索坏例,以保证搜索结果的质量,从而提高用户体验。
目前,常用的搜索坏例的挖掘方法包括:人工挖掘法和基于规则的挖掘法。下面对这两种方法的原理及优缺点进行简要说明。
1)人工挖掘法
该方式是最原始的方法,完全依赖于人工进行搜索坏例的挖掘。由于该方法过分依赖于人的经验,因此,有经验的人对搜索坏例具有较强的识别能力,而经验少的人则很难发现搜索坏例。可见,该方法存在以下缺点:耗费大量人力、挖掘效率低、坏例发现量少且随机性大,因此,该方法无法解决根本问题。
2)基于规则的挖掘法
该方法通过预先设定的规则筛选出搜索坏例。然而,筛选规则的设定依赖于规则制定人员的经验,并且在运营过程中需要相关人力不断介入,以更新规则、增加新规则,从而提高搜索坏例的识别精度。
此外,2012年百度公司申请了一个名称为《一种搜索引擎坏例的挖掘方法和装置》的中国专利,该专利的公开号为103577464A。该专利提出的搜索引擎坏例的挖掘方法包括如下步骤:1)在待挖掘的session日志中确定同一query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量;2)通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;3)如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在badcase。
通过分析该专利给出的技术方案,能够发现该技术方案未实现闭环,即:无法根据新发现的搜索坏例正向影响挖掘模型,以调优挖掘模型,从而提高挖掘模型的识别精度。
综上所述,现有技术存在对搜索结果的质量评测准确度低的问题。
发明内容
本申请提供一种搜索质量的评测方法、装置及电子设备,以解决现有技术存在对搜索结果的质量评测准确度低的问题。本申请另外提供一种搜索坏例的挖掘方法、装置及电子设备。
本申请提供一种搜索质量的评测方法,包括:
获取待评测搜索结果的对搜索质量产生影响的质量特征;
根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
可选的,还包括:
通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。
可选的,在所述从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器之前,还包括:
获取所述历史搜索结果的质量特征与质量评测记录集。
可选的,所述获取所述历史搜索结果的质量特征与质量评测记录集,包括:
针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;
根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;
将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
可选的,在所述根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征之后,还包括:
对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,所述机器学习算法包括分类算法;所述分类算法包括决策树算法。
可选的,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:
获取对所述待评测搜索结果的搜索质量的人工评测结果;
根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
可选的,所述更新所述搜索结果分类器,包括:
将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;
通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
可选的,还包括:
生成所述待评测搜索结果的所述质量特征。
可选的,所述生成所述待评测搜索结果的所述质量特征,包括:
根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;
根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
可选的,在所述根据所述统计数据集,生成所述质量特征之后,还包括:
对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,还包括:
获取所述待评测搜索结果。
可选的,所述获取所述待评测搜索结果,包括:
以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
可选的,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。
可选的,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:
显示所述待评测搜索结果。
可选的,所述质量特征包括:搜索结果的数量、搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量的至少一者。
可选的,所述搜索质量包括优例、坏例或不确定。
相应的,本申请还提供一种搜索质量的评测装置,包括:
获取特征单元,用于获取待评测搜索结果的对搜索质量产生影响的质量特征;
评测单元,用于根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
可选的,还包括:
训练单元,用于通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。
可选的,还包括:
获取训练集单元,用于获取所述历史搜索结果的质量特征与质量评测记录集。
可选的,所述获取训练集单元包括:
检索子单元,用于针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;
生成子单元,用于根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;
合成子单元,用于将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
可选的,所述获取训练集单元还包括:
归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,还包括:
获取新样本单元,用于获取对所述待评测搜索结果的搜索质量的人工评测结果;
更新分类器单元,用于根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
可选的,所述更新分类器单元包括:
更新训练集子单元,用于将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;
训练子单元,用于通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
可选的,还包括:
生成单元,用于生成所述待评测搜索结果的所述质量特征。
可选的,所述生成单元包括:
检索子单元,用于根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;
生成子单元,用于根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
可选的,所述生成单元还包括:
归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,还包括:
获取评测对象单元,用于获取所述待评测搜索结果。
可选的,所述获取评测对象单元包括:
检索子单元,用于以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
选取子单元,用于从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
可选的,还包括:
显示单元,用于显示被评测为坏例的所述待评测搜索结果。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储搜索质量的评测装置,所述搜索质量的评测装置被所述处理器执行时,包括如下步骤:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
此外,本申请还提供一种搜索坏例的挖掘方法,包括:
获取待挖掘的搜索结果集;
针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;
根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
可选的,所述获取待挖掘的搜索结果集,包括:
以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果;
根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
可选的,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。
可选的,还包括:
显示所述搜索坏例。
相应的,本申请还提供一种搜索坏例的挖掘装置,包括:
获取单元,用于获取待挖掘的搜索结果集;
评测单元,用于针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;
筛选单元,用于根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
可选的,所述获取单元包括:
检索子单元,用于以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
设置子单元,用于针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果;
合成子单元,用于根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
可选的,还包括:
显示单元,用于显示所述搜索坏例。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,用于存储搜索坏例的挖掘装置,所述搜索坏例的挖掘装置被所述处理器执行时,包括如下步骤:获取待挖掘的搜索结果集;针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
与现有技术相比,本申请具有以下优点:
本申请提供的搜索质量的评测方法、装置及电子设备,通过获取待评测搜索结果的对搜索质量产生影响的质量特征,并根据质量特征,通过预先生成的搜索结果分类器,能够获取待评测搜索结果的搜索质量。采用本申请提供的方法,能够根据新增质量评测结果更新搜索结果分类器,以提高搜索结果分类器的模型准确度,从而达到提高搜索质量的评测准确度的效果。
附图说明
图1是本申请的搜索质量的评测方法实施例的流程图;
图2是本申请的搜索质量的评测方法实施例生成质量特征的具体流程图;
图3是本申请的搜索质量的评测方法实施例获取待评测搜索结果的具体流程图;
图4是本申请的搜索质量的评测方法实施例获取训练集的具体流程图;
图5是本申请的搜索质量的评测方法实施例更新搜索结果分类器的具体流程图;
图6是本申请的搜索质量的评测装置实施例的示意图;
图7是本申请的搜索质量的评测装置实施例的具体示意图;
图8是本申请的搜索质量的评测装置实施例的又一具体示意图;
图9是本申请的电子设备实施例的示意图;
图10是本申请的搜索坏例的挖掘方法实施例的流程图;
图11是本申请的搜索坏例的挖掘方法实施例获取待挖掘的搜索结果集的具体流程图;
图12是本申请的搜索坏例的挖掘装置实施例的示意图;
图13是本申请的搜索坏例的挖掘装置实施例的具体示意图;
图14是本申请的又一电子设备实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了一种搜索质量的评测方法、装置及电子设备,一种搜索坏例的挖掘方法、装置及电子设备。在下面的实施例中逐一进行详细说明。
本申请提供的搜索质量的评测方法,其核心的基本思想是:通过引入机器学习算法,在已标注搜索质量的历史搜索数据基础上,训练生成搜索结果分类器,并根据待评测搜索结果的质量特征,通过生成的搜索结果分类器对待评测搜索结果的搜索质量进行评测。由于能够根据新增质量评测结果更新搜索结果分类器,以提高搜索结果分类器的模型准确度,从而达到提高搜索质量的评测准确度的效果。
请参考图1,其为本申请的搜索质量的评测方法实施例的流程图。所述方法包括如下步骤:
步骤S101:获取待评测搜索结果的对搜索质量产生影响的质量特征。
本申请实施例所述的待评测搜索结果是指,搜索引擎根据用户输入的查询词检索获取的搜索结果。对于一个查询词,搜索引擎能够检索到多条符合条件的数据,将这些数据称为搜索结果。
本申请实施例提供的搜索结果质量的评测方法,基于搜索结果的各种质量特征,通过预先生成的搜索结果分类器,对搜索结果的质量进行评测。所述的质量特征是指,对搜索质量产生影响的、统计类型的信息,包括:搜索结果的数量、搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量的至少一者。其中,搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量,均与用户对搜索结果的操作相关。
要实施本申请实施例提供的搜索质量的评测方法,在获取待评测搜索结果的质量特征之前,还需要生成待评测搜索结果的质量特征。请参考图2,其为本申请的搜索质量的评测方法实施例生成质量特征的具体流程图。在本实施例中,生成待评测搜索结果的质量特征,包括如下步骤:
步骤S201:根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集。
本申请实施例所述的质量特征基于存储在搜索日志中的待评测搜索结果的统计数据集获取。在实际应用中,搜索引擎的日志系统可实时地将用户对搜索结果的各种操作结果的统计数据存储在搜索日志中。
在本实施例中,搜索日志为电子商务网站中商品搜索场景下产生的查询词维度的搜索日志,日志数据内容格式如表1所示:
表1 日志数据内容格式
由表1可见,以查询词维度建立的搜索日志包括如下信息:查询词、搜索类目、搜索商品结果数、搜索商品的页面浏览数量(即:PV,Page View)、浏览搜索商品的用户数量(即:UV,User View)、搜索商品的点击数量(即:IPV)、点击搜索商品的用户数量(即:IPV_UV)、成交数量、支付数量等字段,这些字段信息即为搜索结果的统计数据集。
需要说明的是,如果搜索日志是商品维度的信息点击曝光日志,则首先需要根据信息点击曝光日志,生成搜索结果的统计数据集,以提取质量特征。
本申请实施例所述的待评测搜索结果与查询词一一对应,在查询词维度的搜索日志中,日志记录的标识字段为查询词。因此,本实施例根据待评测搜索结果对应的查询词,对搜索日志进行检索,获取待评测搜索结果的各种统计数据。
步骤S203:根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
在获取到待评测搜索结果的各种统计数据后,就可以将其中对搜索质量产生影响的统计数据作为质量特征。
需要注意的是,在实际应用中,为了能够根据影响搜索质量的各个质量特征对搜索结果的搜索质量进行综合评分,还需要对步骤S203生成的各个未归一化的质量特征进行归一化处理,以能够对这些质量特征进行计算。
要实施本申请实施例提供的搜索质量的评测方法,在获取待评测搜索结果的质量特征之前,还需要获取待评测搜索结果。请参考图3,其为本申请的搜索质量的评测方法实施例获取待评测搜索结果的具体流程图。在本实施例中,获取待评测搜索结果,包括如下步骤:
步骤S301:以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词。
本申请实施例提供的搜索质量的评测方法,对已经曝光给用户的搜索结果进行评测。由于待评测搜索结果与查询词一一对应,并且搜索日志中日志记录的标识字段为查询词,因此,本实施例所述的待评测搜索结果也即待评测查询词。
在本实施例中,以预设的选取规则为查询条件,对搜索日志进行检索,获取符合预设选取规则的历史查询词。所述的预设选取规则包括但不限于:历史查询词对应的搜索结果的页面浏览数量大于预设的页面浏览量阈值。应用该选取规则的意义为:从搜索日志中提取搜索结果的页面浏览数量(即:PV)大于一定数量的日志,过滤掉低PV的查询词。
步骤S303:从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
获取到符合预设选取规则的历史查询词后,可以将其中任何一个历史查询词对应的历史搜索结果作为待评测搜索结果。
通过步骤S101获取到待评测搜索结果的质量特征后,就可以进入步骤S103通过预先生成的搜索结果分类器对待评测搜索结果的搜索质量进行评测。
步骤S103:根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
本申请实施例提供的搜索质量的评测方法,通过预先生成的搜索结果分类器对待评测搜索结果的搜索质量进行评测。因此,要实施本申请实施例提供的方法,首先需要生成搜索结果分类器。
本申请实施例所述的搜索结果分类器是指,通过机器学习算法从历史搜索结果的质量特征与质量评测记录集中学习获得的搜索结果分类器。作为训练集的历史搜索结果的质量特征与质量评测记录集,其实质为:历史搜索结果的质量特征和质量评测结果组成的向量对集合。
在本实施例中,根据预设的选取规则从搜索日志中选取部分历史查询词,对这些查询词的搜索结果做人工评测,形成训练集中的质量评测结果。例如,根据查询词所属行业,从各个行业中选取预设比例的查询词组成待人工评测的查询集。在实际应用中,还可以根据查询词的页面浏览量等数据选取查询词。在本实施例中,根据预设的选取规则从搜索日志中抽取200-500条查询词,并根据人的经验,将搜索结果的质量评价为优例(goodcase)、坏例(badcase)或难以定论(faircase)类型。
要根据历史搜索结果的质量特征与质量评测记录集学习获得搜索结果分类器,首先需要获取历史搜索结果的质量特征与质量评测记录集,即:获取训练集。请参考图4,其为本申请的搜索质量的评测方法实施例获取训练集的具体流程图。在本实施例中,获取历史搜索结果的质量特征与质量评测记录集,包括如下步骤:
步骤S401:针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集。
步骤S401与上述步骤S201相对应,不同之处仅在于:步骤S201的处理对象为待评测搜索结果,而步骤S401针对各个历史搜索结果分别进行处理。两个步骤相同之处此处不再赘述,相关说明详见步骤S201部分。
步骤S403:根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征。
步骤S403与上述步骤S203相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S203部分。
同样的,根据历史搜索结果的统计数据集生成历史搜索结果的质量特征之后,还需要对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
步骤S405:将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
通过步骤S403生成各个历史搜索结果的质量特征之后,再将由历史搜索结果的质量特征和质量评测结果组成的向量对集合,作为历史搜索结果的质量特征与质量评测记录集。
通过上述步骤S401至步骤S405获取到历史搜索结果的质量特征与质量评测记录集之后,就可以通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得搜索结果分类器。
在本实施例中,采用C4.5决策树算法从历史搜索结果的质量特征与质量评测记录集中学习获得搜索结果分类器。决策树是一种常用的分类方法,属于有监督的机器学习算法。所谓有监督的机器学习,就是给定样本集,每个样本都有一组属性和一个类别,这些类别是事先确定的,通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。在本实施例中,样本集中的样本即为:历史搜索结果的质量特征与质量评测记录,样本属性即为:历史搜索结果的质量特征,样本类别即为:质量评测结果。
需要说明的是,在实际应用中,也可以采用其它分类算法,例如,ID3决策树算法等。不同算法生成的搜索质量的准确度不同,不同算法的计算复杂度也不相同,在实际应用中,根据具体应用需求,可以选择任意一种分类算法对搜索结果的质量进行评测。上述各种不同的分类算法都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
通过机器学习算法学习获得搜索结果分类器之后,就可以根据步骤S101获取到的待评测搜索结果的质量特征,通过预先生成的搜索结果分类器,获取待评测搜索结果的搜索质量分类结果。
在实际应用中,如果待评测搜索结果的搜索质量为坏例,通常会将该待评测搜索结果显示给搜索评测等人员,以对搜索坏例进行人工评测,并基于这些搜索坏例,推动搜索引擎的升级改进,使搜索引擎更加精准。
在本实施例中,通过搜索评测等人员对搜索坏例进行人工评测后,可以将该搜索结果作为新样本添加到历史搜索结果的质量特征与质量评测记录集中,以重新训练生成新的搜索结果分类器。请参考图5,其为本申请的搜索质量的评测方法实施例更新搜索结果分类器的具体流程图。在本实施例中,如果待评测搜索结果的搜索质量为坏例,则本申请提供的方法还包括如下步骤:
步骤S501:获取对所述待评测搜索结果的搜索质量的人工评测结果。
要更新搜索结果分类器,首先需要获取新样本,即:新增的搜索坏例。
步骤S503:根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
获取到新增搜索坏例之后,就可以根据新增搜索坏例更新搜索结果分类器。具体的,更新所述搜索结果分类器,包括如下步骤:1)将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;2)通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
通过上述搜索坏例对搜索结果分类器的正向反馈过程,能够优化搜索结果分类器,即:提高搜索结果分类器的准确性,从而提高下一阶段搜索质量的评测结果的质量。
在上述的实施例中,提供了一种搜索质量的评测方法,与之相对应的,本申请还提供一种搜索质量的评测装置。该装置是与上述方法的实施例相对应。
请参看图6,其为本申请的搜索质量的评测装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种搜索质量的评测装置,包括:
获取特征单元101,用于获取待评测搜索结果的对搜索质量产生影响的质量特征;
评测单元103,用于根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
请参看图7,其为本申请的搜索质量的评测装置实施例的具体示意图。可选的,还包括:
训练单元201,用于通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。
可选的,还包括:
获取训练集单元200,用于获取所述历史搜索结果的质量特征与质量评测记录集。
可选的,所述获取训练集单元200包括:
检索子单元2001,用于针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;
生成子单元2003,用于根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;
合成子单元2005,用于将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
可选的,所述获取训练集单元200还包括:
归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,还包括:
获取新样本单元203,用于获取对所述待评测搜索结果的搜索质量的人工评测结果;
更新分类器单元205,用于根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
可选的,所述更新分类器单元205包括:
更新训练集子单元,用于将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;
训练子单元,用于通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
请参看图8,其为本申请的搜索质量的评测装置实施例的又一具体示意图。可选的,还包括:
生成单元301,用于生成所述待评测搜索结果的所述质量特征。
可选的,所述生成单元301包括:
检索子单元3011,用于根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;
生成子单元3013,用于根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
可选的,所述生成单元301还包括:
归一化处理子单元3015,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
可选的,还包括:
获取评测对象单元300,用于获取所述待评测搜索结果。
可选的,所述获取评测对象单元300包括:
检索子单元3001,用于以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
选取子单元3003,用于从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
可选的,还包括:
显示单元,用于显示被评测为坏例的所述待评测搜索结果。
请参考图9,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:显示器901;处理器902;以及存储器903,所述存储器903被配置成存储搜索质量的评测装置,所述搜索质量的评测装置被所述处理器902执行时,包括如下步骤:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
本申请提供的搜索质量的评测方法、装置及电子设备,通过获取待评测搜索结果的对搜索质量产生影响的质量特征,并根据质量特征,通过预先生成的搜索结果分类器,能够获取待评测搜索结果的搜索质量。采用本申请提供的方法,能够根据新增质量评测结果更新搜索结果分类器,从而提高搜索结果分类器的模型准确度,进而达到提高搜索质量的评测准确度的效果。
与上述的搜索质量的评测方法相对应,本申请还提供一种搜索坏例的挖掘方法。请参考图10,其为本申请提供的一种搜索坏例的挖掘方法的实施例的流程示意图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种搜索坏例的挖掘方法包括:
步骤S1001:获取待挖掘的搜索结果集。
本申请实施例所述的待挖掘的搜索结果集包括多个搜索结果,应用本申请提供的搜索坏例的挖掘方法,能够从中发现被评价为搜索坏例的搜索结果。
请参考图11,其为本申请提供的搜索坏例的挖掘方法实施例获取待挖掘的搜索结果集的具体流程图。在本实施例中,获取待挖掘的搜索结果集,包括:
步骤S10011:以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词。
本申请实施例所述的质量特征包括搜索结果的页面浏览数量,所述的预设选取规则包括但不限于:历史查询词对应的搜索结果的页面浏览数量大于预设的页面浏览量阈值。
步骤S10011与上述步骤S301相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S301部分。
步骤S10013:针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果。
步骤S10013与上述步骤S303相对应,不同之处仅在于:步骤S303仅需选取一个特定历史查询词进行处理,而步骤S10013需要针对各个历史查询词分别进行处理。两个步骤相同之处此处不再赘述,相关说明详见步骤S303部分。
步骤S10015:根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
通过步骤S10013获取到各个历史查询词对应的历史搜索结果之后,就可以将这些历史搜索结果作为待挖掘的搜索结果。
步骤S1003:针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量。
步骤S1003与上述步骤S101和步骤S103部分相对应,步骤相同之处此处不再赘述,相关说明详见步骤S101和步骤S303部分。
步骤S1005:根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
最后,根据步骤S1003获取到的各个搜索结果的搜索质量,从待挖掘的搜索结果集中筛选出被评价为搜索坏例的搜索结果。
在本实施例中,在步骤S1005之后,还包括将被评测为搜索坏例的搜索结果显示给搜索评测等人员,以对搜索坏例进行人工评测,并基于这些搜索坏例,推动搜索引擎的升级改进,使搜索引擎更加精准。
在上述的实施例中,提供了一种搜索坏例的挖掘方法,与之相对应的,本申请还提供一种搜索坏例的挖掘装置。该装置是与上述方法的实施例相对应。
请参看图12,其为本申请的搜索坏例的挖掘装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种搜索坏例的挖掘装置,包括:
获取单元1201,用于获取待挖掘的搜索结果集;
评测单元1203,用于针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;
筛选单元1205,用于根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
请参看图13,其为本申请的搜索坏例的挖掘装置实施例的具体示意图。可选的,所述获取单元1201包括:
检索子单元12011,用于以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
设置子单元12013,用于针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果;
合成子单元12015,用于根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
可选的,还包括:
显示单元,用于显示所述搜索坏例。
请参考图14,其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的又一种电子设备,该电子设备包括:显示器1401;处理器1402;以及存储器1403,用于存储搜索坏例的挖掘装置,所述搜索坏例的挖掘装置被所述处理器执行时,包括如下步骤:获取待挖掘的搜索结果集;针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
本申请提供的搜索坏例的挖掘方法、装置及电子设备,通过获取待挖掘的搜索结果集,针对各个待挖掘的搜索结果,获取搜索结果的对搜索质量产生影响的质量特征,并根据质量特征,通过预先生成的搜索结果分类器,获取搜索结果的搜索质量,然后,再根据获取的搜索质量,从待挖掘的搜索结果集中筛选出搜索坏例的潜在集合。采用本申请提供的方法,能够根据新增搜索结果的质量评测结果更新搜索结果分类器,以提高搜索结果分类器的模型准确度,进而提高搜索坏例挖掘的准确度,进而帮助搜索评测等人员缩小搜索坏例的集合,从而达到提高发现和处理搜索坏例的工作效率的效果。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (39)

1.一种搜索质量的评测方法,其特征在于,包括:
获取待评测搜索结果的对搜索质量产生影响的质量特征;
根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
2.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:
通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。
3.根据权利要求2所述的搜索质量的评测方法,其特征在于,在所述从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器之前,还包括:
获取所述历史搜索结果的质量特征与质量评测记录集。
4.根据权利要求3所述的搜索质量的评测方法,其特征在于,所述获取所述历史搜索结果的质量特征与质量评测记录集,包括:
针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;
根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;
将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
5.根据权利要求4所述的搜索质量的评测方法,其特征在于,在所述根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征之后,还包括:
对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
6.根据权利要求2所述的搜索质量的评测方法,其特征在于,所述机器学习算法包括分类算法;所述分类算法包括决策树算法。
7.根据权利要求2所述的搜索结果质量的评测方法,其特征在于,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:
获取对所述待评测搜索结果的搜索质量的人工评测结果;
根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
8.根据权利要求7所述的搜索结果质量的评测方法,其特征在于,所述更新所述搜索结果分类器,包括:
将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;
通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
9.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:
生成所述待评测搜索结果的所述质量特征。
10.根据权利要求9所述的搜索质量的评测方法,其特征在于,所述生成所述待评测搜索结果的所述质量特征,包括:
根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;
根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
11.根据权利要求10所述的搜索质量的评测方法,其特征在于,在所述根据所述统计数据集,生成所述质量特征之后,还包括:
对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
12.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:
获取所述待评测搜索结果。
13.根据权利要求12所述的搜索质量的评测方法,其特征在于,所述获取所述待评测搜索结果,包括:
以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
14.根据权利要求13所述的搜索质量的评测方法,其特征在于,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。
15.根据权利要求1所述的搜索质量的评测方法,其特征在于,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:
显示所述待评测搜索结果。
16.根据权利要求1所述的搜索质量的评测方法,其特征在于,所述质量特征包括:搜索结果的数量、搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量的至少一者。
17.根据权利要求1所述的搜索结果质量的评测方法,其特征在于,所述搜索质量包括优例、坏例或不确定。
18.一种搜索质量的评测装置,其特征在于,包括:
获取特征单元,用于获取待评测搜索结果的对搜索质量产生影响的质量特征;
评测单元,用于根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
19.根据权利要求18所述的搜索质量的评测装置,其特征在于,还包括:
训练单元,用于通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。
20.根据权利要求19所述的搜索质量的评测装置,其特征在于,还包括:
获取训练集单元,用于获取所述历史搜索结果的质量特征与质量评测记录集。
21.根据权利要求20所述的搜索质量的评测装置,其特征在于,所述获取训练集单元包括:
检索子单元,用于针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;
生成子单元,用于根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;
合成子单元,用于将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。
22.根据权利要求21所述的搜索质量的评测装置,其特征在于,所述获取训练集单元还包括:
归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
23.根据权利要求19所述的搜索质量的评测装置,其特征在于,还包括:
获取新样本单元,用于获取对所述待评测搜索结果的搜索质量的人工评测结果;
更新分类器单元,用于根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。
24.根据权利要求23所述的搜索结果质量的评测装置,其特征在于,所述更新分类器单元包括:
更新训练集子单元,用于将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;
训练子单元,用于通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。
25.根据权利要求18所述的搜索质量的评测装置,其特征在于,还包括:
生成单元,用于生成所述待评测搜索结果的所述质量特征。
26.根据权利要求25所述的搜索质量的评测装置,其特征在于,所述生成单元包括:
检索子单元,用于根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;
生成子单元,用于根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。
27.根据权利要求26所述的搜索质量的评测装置,其特征在于,所述生成单元还包括:
归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。
28.根据权利要求18所述的搜索质量的评测装置,其特征在于,还包括:
获取评测对象单元,用于获取所述待评测搜索结果。
29.根据权利要求28所述的搜索质量的评测装置,其特征在于,所述获取评测对象单元包括:
检索子单元,用于以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
选取子单元,用于从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。
30.根据权利要求29所述的搜索质量的评测装置,其特征在于,还包括:
显示单元,用于显示被评测为坏例的所述待评测搜索结果。
31.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储搜索质量的评测装置,所述搜索质量的评测装置被所述处理器执行时,包括如下步骤:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。
32.一种搜索坏例的挖掘方法,其特征在于,包括:
获取待挖掘的搜索结果集;
针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;
根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
33.根据权利要求32所述的搜索坏例的挖掘方法,其特征在于,所述获取待挖掘的搜索结果集,包括:
以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果;
根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
34.根据权利要求33所述的搜索坏例的挖掘方法,其特征在于,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。
35.根据权利要求32所述的搜索坏例的挖掘方法,其特征在于,还包括:
显示所述搜索坏例。
36.一种搜索坏例的挖掘装置,其特征在于,包括:
获取单元,用于获取待挖掘的搜索结果集;
评测单元,用于针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;
筛选单元,用于根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
37.根据权利要求36所述的搜索坏例的挖掘装置,其特征在于,所述获取单元包括:
检索子单元,用于以预设选取规则为查询条件,对搜索日志进行检索,获取符合所述预设选取规则的历史查询词;
设置子单元,用于针对各个所述历史查询词,将所述历史查询词对应的历史搜索结果作为所述待挖掘的搜索结果;
合成子单元,用于根据各个所述待挖掘的搜索结果,形成所述待挖掘的搜索结果集。
38.根据权利要求36所述的搜索坏例的挖掘装置,其特征在于,还包括:
显示单元,用于显示所述搜索坏例。
39.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,用于存储搜索坏例的挖掘装置,所述搜索坏例的挖掘装置被所述处理器执行时,包括如下步骤:获取待挖掘的搜索结果集;针对各个待挖掘的搜索结果,获取所述搜索结果的对搜索质量产生影响的质量特征;并根据所述质量特征,通过预先生成的搜索结果分类器,获取所述搜索结果的搜索质量;根据所述搜索质量,从所述待挖掘的搜索结果集中筛选出搜索坏例。
CN201510958921.3A 2015-12-18 2015-12-18 一种搜索质量的评测方法、装置及电子设备 Pending CN106897301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958921.3A CN106897301A (zh) 2015-12-18 2015-12-18 一种搜索质量的评测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958921.3A CN106897301A (zh) 2015-12-18 2015-12-18 一种搜索质量的评测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN106897301A true CN106897301A (zh) 2017-06-27

Family

ID=59189774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958921.3A Pending CN106897301A (zh) 2015-12-18 2015-12-18 一种搜索质量的评测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN106897301A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536867A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111708890A (zh) * 2020-07-09 2020-09-25 腾讯科技(深圳)有限公司 一种搜索词确定方法和相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271348A (zh) * 2011-07-08 2011-12-07 电子科技大学 信息物理系统链路质量估计系统和方法
CN102332094A (zh) * 2011-10-24 2012-01-25 西安电子科技大学 半监督在线学习人脸检测方法
CN103177017A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种训练服务质量评估模型的方法及装置
CN103577464A (zh) * 2012-08-02 2014-02-12 百度在线网络技术(北京)有限公司 一种搜索引擎坏例的挖掘方法和装置
CN104077555A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 一种识别图片搜索中坏例的方法和装置
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271348A (zh) * 2011-07-08 2011-12-07 电子科技大学 信息物理系统链路质量估计系统和方法
CN102332094A (zh) * 2011-10-24 2012-01-25 西安电子科技大学 半监督在线学习人脸检测方法
CN103177017A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种训练服务质量评估模型的方法及装置
CN103577464A (zh) * 2012-08-02 2014-02-12 百度在线网络技术(北京)有限公司 一种搜索引擎坏例的挖掘方法和装置
CN104077555A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 一种识别图片搜索中坏例的方法和装置
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536867A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108536867B (zh) * 2018-04-24 2021-08-06 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111708890A (zh) * 2020-07-09 2020-09-25 腾讯科技(深圳)有限公司 一种搜索词确定方法和相关装置
CN111708890B (zh) * 2020-07-09 2023-09-19 腾讯科技(深圳)有限公司 一种搜索词确定方法和相关装置

Similar Documents

Publication Publication Date Title
Papacharalampous et al. Univariate time series forecasting of temperature and precipitation with a focus on machine learning algorithms: A multiple-case study from Greece
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN105447525A (zh) 一种数据预测分类方法及装置
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN106202329A (zh) 样本数据处理、数据识别方法和装置、计算机设备
CN106897262A (zh) 一种文本分类方法和装置以及处理方法和装置
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN104850567A (zh) 一种识别网络用户之间关联关系的方法和装置
CN111143838B (zh) 数据库用户异常行为检测方法
CN106934410A (zh) 数据的分类方法及系统
CN108346098A (zh) 一种风控规则挖掘的方法及装置
CN107679075A (zh) 网络监控方法和设备
CN107070897A (zh) 入侵检测系统中基于多属性哈希去重的网络日志存储方法
CN109408643B (zh) 基金相似度计算方法、系统、计算机设备和存储介质
CN107194468A (zh) 面向情报大数据的决策树增量学习方法
CN106897301A (zh) 一种搜索质量的评测方法、装置及电子设备
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN109409748B (zh) 一种耕地质量评价指标关联性的检核方法及系统
CN104794135A (zh) 一种对搜索结果进行排序的方法和装置
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN114722920A (zh) 一种基于图分类的深度图卷积模型钓鱼账户识别方法
Gorecki et al. Visual investigation of similarities in global terrorism database by means of synthetic social networks
CN110019659A (zh) 裁判文书的检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627

RJ01 Rejection of invention patent application after publication