CN109948030A - 网页搜索结果质量检测方法及装置 - Google Patents

网页搜索结果质量检测方法及装置 Download PDF

Info

Publication number
CN109948030A
CN109948030A CN201910150340.5A CN201910150340A CN109948030A CN 109948030 A CN109948030 A CN 109948030A CN 201910150340 A CN201910150340 A CN 201910150340A CN 109948030 A CN109948030 A CN 109948030A
Authority
CN
China
Prior art keywords
query statement
search result
result items
training sample
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910150340.5A
Other languages
English (en)
Inventor
邵彬
吴楠
田伟
李毅
陈炜鹏
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201910150340.5A priority Critical patent/CN109948030A/zh
Publication of CN109948030A publication Critical patent/CN109948030A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页搜索结果质量检测方法及装置,该方法包括:获取查询语句及与所述查询语句对应的搜索结果项;确定所述查询语句与所述搜索结果项的相似特征;将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。利用本发明,可以准确地判别网页搜索结果与用户搜索内容的相关性。

Description

网页搜索结果质量检测方法及装置
技术领域
本发明涉及网页搜索领域,具体涉及一种网页搜索结果质量检测方法及装置。
背景技术
搜索引擎作为互联网领域的搜索系统,已成为用户上网必不可少的工具之一。目前,随着互联网的不断发展,网络中的信息也呈现井喷式增长,如何快速并准确地在海量网络信息中获取用户关心的信息成为搜索引擎的核心问题。为此产生了站内搜索引擎,顾名思义,站内搜索引擎即网站内的信息搜索引擎。
随着搜索技术的不断普及,大多数站点都支持站内搜索功能,这样就会产生大量的站内搜索结果页面,但不同站点的搜索效果参差不齐,评估搜索结果的页面质量在网页搜索过程中对结果项排序起着非常重要的作用,而判别站内搜索结果的相关性是评估该类页面质量的关键。传统的判断方法是单纯计算查询语句与搜索结果之间的文本相似度,这种方法对查询语句和搜索结果页整体相关性的判断效果较差,判断结果的准确性有待提高。
发明内容
本发明实施例提供一种网页搜索结果质量检测方法及装置,以便能够准确地判别网页搜索结果与用户搜索内容的相关性。
为此,本发明提供如下技术方案:
一种网页搜索结果质量检测方法,所述方法包括:
获取查询语句及与所述查询语句对应的搜索结果项;
确定所述查询语句与所述搜索结果项的相似特征;
将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
可选地,所述方法还包括按照以下方式构建所述相关性判断模型:
收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本;
确定所述查询语句与对应的各训练样本的相关特征值;
利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征;
利用所述查询语句与所述训练样本的相似特征训练得到所述相关性判断模型。
可选地,所述确定所述查询语句与对应的各训练样本的相关特征值包括:
采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,得到对应特定方法的相关特征值;所述特定方法包括以下任意一种或多种:字符串匹配方法、词向量方法、集合相似度方法。
可选地,利用词向量方法计算所述查询语句与所述训练样本的相似度包括:
分别获取所述查询语句对应的语句向量及所述训练样本对应的样本向量;
分别将所述语句向量及所述样本向量映射为直方图;
利用所述直方图计算所述查询语句与所述训练样本的相似度。
可选地,所述分别将所述语句向量及所述文本向量映射为直方图包括:
分别为向量中的每维特征划分区间,并统计每个区间包含的特征个数;所述向量包括所述语句向量或所述样本向量;
根据所述特征个数绘制所述向量对应的直方图。
可选地,利用集合相似度方法计算所述查询语句与所述训练样本的相似度包括:
分别对所述查询语句和所述训练样本中的文本进行分词,得到查询语句分词集合和训练样本分词集合;
计算所述查询语句分词集合与所述训练样本分词集合的相似度。
可选地,所述构建所述相关性判断模型还包括:
检查收集的查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述确定所述查询语句与对应的各训练样本的相关特征值还包括:
如果收集的查询语句中包含特定信息,则计算所述训练样本与所述特定信息的匹配度,得到对应所述特定信息的相关特征值。
可选地,所述利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征包括:
利用所述查询语句与对应的训练样本的相关特征值,构建盒状图向量矩阵,将所述盒状图向量矩阵作为所述查询语句与所述训练样本的相似特征。
可选地,所述方法还包括:
检查所述查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
如果是,则计算所述搜索结果项与所述特定信息的匹配度,并根据所述搜索结果项与所述特定信息的匹配度确定所述搜索结果项与所述查询语句的相关性;
如果否,则执行所述确定所述查询语句与所述搜索结果项的相似特征的步骤。
可选地,所述方法还包括:
检查所述查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
如果是,则计算所述搜索结果项与所述特定信息的匹配度,并根据所述匹配度删除不相匹配的搜索结果项,对删除不相匹配的搜索结果项后剩余的搜索结果项执行所述确定所述查询语句与所述搜索结果项的相似特征的步骤;
如果否,则执行所述确定所述查询语句与所述搜索结果项的相似特征的步骤。
可选地,计算所述搜索结果项与所述查询语句中包含的地域信息的匹配度包括:
获取所述搜索结果项中包含的针对地域的描述信息;
根据预先建立的地理信息词表确定所述描述信息与所述查询语句中包含的地域信息是否存在包含关系;
如果是,则所述搜索结果项与所述查询语句中包含的地域信息的匹配度为相匹配;否则,所述搜索结果项与所述查询语句中包含的地域信息的匹配度为不相匹配。
一种网页搜索结果质量检测装置,所述装置包括:
获取模块,用于获取查询语句及与所述查询语句对应的搜索结果项;
相似特征确定模块,用于确定所述查询语句与所述搜索结果项的相似特征;
判断模块,用于将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
可选地,所述装置还包括:模型构建模块,用于构建所述相关性判断模型;所述模型构建模块包括:
数据收集单元,用于收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本;
特征值确定单元,用于确定所述查询语句与对应的各训练样本的相关特征值;
相似特征确定单元,用于利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征;
训练单元,用于利用所述查询语句与所述训练样本的相似特征训练得到所述相关性判断模型。
可选地,所述特征值确定单元包括:
第一确定单元,用于采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,得到对应特定方法的相关特征值;
所述第一确定单元包括以下任意一个或多个单元:
字符串匹配计算单元,用于利用字符串匹配方法计算所述查询语句与所述训练样本的相似度;
词向量计算单元,用于利用词向量方法计算所述查询语句与所述训练样本的相似度;
集合相似度计算单元,用于利用集合相似度方法计算所述查询语句与所述训练样本的相似度。
可选地,所述词向量计算单元包括:
向量获取子单元,用于分别获取所述查询语句对应的语句向量及所述训练样本对应的样本向量;
映射子单元,用于分别将所述语句向量及所述样本向量映射为直方图;
相似度计算子单元,用于利用所述直方图计算所述查询语句与所述训练样本的相似度。
可选地,所述映射子单元,具体用于分别为所述向量中的每维特征划分区间,并统计每个区间包含的特征个数;根据所述特征个数绘制所述向量对应的直方图;所述向量包括所述语句向量或所述样本向量。
可选地,所述集合相似度计算单元包括:
分词子单元,用于分别对所述查询语句和所述训练样本中的文本进行分词,得到查询语句分词集合和训练样本分词集合;
集合相似度计算子单元,用于计算所述查询语句分词集合与所述训练样本分词集合的相似度。
可选地,所述模型构建模块还包括:
特定信息检查单元,用于检查所述数据收集单元收集的查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述特征值确定单元还包括:
第二确定单元,用于在所述数据收集单元收集的查询语句中包含特定信息时,计算所述训练样本与所述特定信息的匹配度,得到对应所述特定信息的相关特征值。
可选地,所述相似特征确定单元,具体用于利用所述查询语句与对应的训练样本的相关特征值,构建盒状图向量矩阵,将所述盒状图向量矩阵作为所述查询语句与所述训练样本的相似特征。
可选地,所述装置还包括:检查模块和特定信息匹配模块;
所述检查模块,用于检查所述查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述特定信息匹配模块,用于在所述检查模块检查到所述查询语句中包含特定信息后,计算所述搜索结果项与所述特定信息的匹配度,并根据所述搜索结果项与所述特定信息的匹配度确定所述搜索结果项与所述查询语句的相关性;所述特定信息匹配模块包括以下任意一个或多个模块:型号信息匹配模块、计量单位信息匹配模块、时间信息匹配模块、地域信息匹配模块;
所述相似特征确定模块在所述检查模块检查到所述查询语句中未包含特定信息后,确定所述查询语句与所述搜索结果项的相似特征。
可选地,所述地域信息匹配模块包括:
描述信息获取单元,用于获取所述搜索结果项中包含的针对地域的描述信息;
关系判断单元,用于根据预先建立的地理信息词表确定所述描述信息与所述查询语句中包含的地域信息是否存在包含关系;如果是,则确定所述搜索结果项与所述查询语句中包含的地域信息的匹配度为相匹配;否则,确定所述搜索结果项与所述查询语句中包含的地域信息的匹配度为不相匹配。
可选地,所述装置还包括:检查模块和过滤模块;
所述检查模块,用于检查所述查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述过滤模块,用于在所述检查模块检查到所述查询语句中包含特定信息后,计算所述搜索结果项与所述特定信息的匹配度,并根据所述匹配度删除不相匹配的搜索结果项。
一种电子设备,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。
一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。
本发明实施例提供的网页搜索结果质量检测方法及装置,确定查询语句与对应的搜索结果项的相似特征,利用预先构建的相关性判断模型及所述相似特征,确定所述搜索结果项与所述查询语句的相关性。利用本发明方案,可以使相关性检测结果更准确。
进一步地,在确定查询语句与对应的搜索结果项的相似特征时,可以通过多种方法计算查询语句与对应的搜索结果项的相关特征值,得到多维相似特征,进而使确定的查询语句与搜索结果项的相似特征包含的信息更丰富,通过多方面、多角度的相似特征,可以使最终确定的相关性检测结果更准确。
进一步地,在利用相关性判断模型进行搜索结果项与查询语句的相关性之前,还可先检查所述查询语句中是否包含的型号、单位、地域、时间等特定信息,如果是,则可直接根据搜索结果项与所述特定信息的匹配度来确定所述搜索结果项与搜索语句的相关性,否则再利用相关性判断模型来确定搜索结果项与查询语句的相关性,从而使本发明方案可以更好地适应各种不同的应用环境。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例网页搜索结果质量检测方法中构建相关性判断模型的流程图;
图2是本发明实施例网页搜索结果质量检测方法的一种流程图;
图3是本发明实施例网页搜索结果质量检测方法的另一种流程图;
图4是本发明实施例中搜索结果的一个示例;
图5是本发明实施例网页搜索结果质量检测装置的一种结构框图;
图6是本发明实施例中模型构建模块的一种结构框图;
图7是本发明实施例网页搜索结果质量检测装置的另一种结构框图;
图8是本发明实施例网页搜索结果质量检测装置的另一种结构框图;
图9是根据一示例性实施例示出的一种用于网页搜索结果质量检测方法的装置的框图;
图10是本发明实施例中服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术中单纯通过计算查询语句与搜索结果之间的文本相似度确定搜索结果质量的方法存在的问题,本发明实施例提供的网页搜索结果检测方法及装置,首先确定查询语句与对应的搜索结果项的相似特征,然后利用预先构建的相关性判断模型及所述相似特征,确定搜索结果项与查询语句的相关性。
在构建相关性判断模型时,利用查询语句与搜索结果项的多维相似特征训练得到所述相关性判断模型。所述相关性判断模型可以采用二分类模型或者回归模型,其输入为查询语句与对应的搜索结果项的相似特征,输出为相关或不相关(采用二分类模型)或者为相关性得分(采用回归模型)。
在下面的实施例中,所述相关性判断模型以二分类模型为例进行说明。
如图1所示,是本发明实施例中构建相关性判断模型的流程图,包括以下步骤:
步骤101,收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本。
所述查询语句及与所述查询语句对应的搜索结果项可以通过历史查询记录来得到,每个查询语句对应有一个或多个搜索结果项。
所述搜索结果项对应一个网页,网页上的内容可以是纯文本、文本+图片、文本+视频等形式,在后续的计算中,可以只考虑所述搜索结果项对应网页中的文本内容,对所述搜索结果项对应网页中文本内容的提取可以采用现有技术,对此本发明实施例不做限定。
步骤102,确定所述查询语句与对应的各训练样本的相关特征值。
在本发明实施例中,可以采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,将所述相似度对应特定方法的相关特征值。所述特定方法可以是一种或多种,比如,字符串匹配方法、词向量方法、集合相似度方法等。
下面分别详细说明上述不同方法确定所述相关特征值的具体过程。
1)字符串匹配方法
利用字符串匹配方法计算所述查询语句与所述训练样本的相似度时,可以仅针对所述训练样本对应的网页标题进行计算,也就是说,计算所述查询语句与所述网页标题的相似度,具体可以采用直接匹配、按字匹配、按词匹配等方式计算,其中:
直接匹配是检查所述网页标题中是否包含所述查询语句,若包含,则相似度为1;否则,相似度为0。
按字匹配是指以字为单位,计算所述网页标题中包含的查询语句中的字在所述网页标题中所占比例,作为相似度。
按词匹配是指以词为单位,计算所述网页标题中包含的查询语句中的词在所述网页标题中所占比例,作为相似度。
将上述计算得到的相似度作为对应字符串匹配方法的相关特征值。
2)词向量方法
首先,针对查询语句及训练样本,分别对所述查询语句和所述训练样本中的文本进行分词,并分别获取每个分词对应的词向量,利用所述查询语句包含的所有分词对应的词向量得到对应所述查询语句的语句向量,利用所述训练样本包含的所有分词对应的词向量得到对应所述训练样本的样本向量;分别将所述语句向量和所述样本向量映射为直方图;然后利用所述直方图计算所述查询语句与所述训练样本的相似度,也就是说,计算所述查询语句对应的直方图与所述训练样本对应的直方图的相似度,将所述相似度作为对应词向量方法的相关特征值。
在确定所述语句向量对应的直方图时,可以为所述语句向量中的每维特征划分区间,统计每个区间包含的特征个数,根据所述特征个数绘制所述语句向量对应的直方图。
例如,查询语句对应的语句向量为一个200维的特征向量,其中包括的每维特征为(0~1)之间的数值,可以对(0~1)划分区间为(0~0.25)、(0.25~0.5)、(0.5~0.75)、(0.75~1),统计查询语句对应词向量包括的200维特征中,落在每个区间内的特征个数,并根据所述特征个数绘制直方图。
同样,在确定所述样本向量对应的直方图时,可以为所述样本向量中的每维特征划分区间,统计每个区间包含的特征个数,根据所述特征个数绘制所述样本向量对应的直方图。
两个直方图相似度的计算可采用现有技术,在此不再赘述。
当然,上述基于直方图的计算方式只是计算对应词向量方法的相关特征值的一种方式,在实际应用中,也可以采用直接计算对应所述查询语句的语句向量及对应所述训练样本的样本向量,比如利用欧式距离、余弦距离、曼哈顿距离来计算这两个向量的相似度,将计算得到的相似度作为对应词向量方法的相关特征值。
3)集合相似度方法
首先,分别对所述查询语句和所述训练样本中的文本进行分词,得到查询语句分词集合和训练样本分词集合;然后计算所述查询语句分词集合与所述训练样本分词集合的相似度;并将计算得到的相似度作为对应集合相似度方法的相关特征值。两个集合的相似度可以通过Jaccard系数、或系数、或Ochiai系数等方式来计算。
需要说明的是,在实际应用中,可以采用上述任意一种或多种方法计算所述查询语句与对应的训练样本的相关特征值,对此本发明实施例不做限定。
针对每个查询语句,通过上述过程,可以得到该查询语句与对应的每个搜索结果项即训练样本的一个或多个相关特征值。
进一步地,在实际应用中,针对一些特定的应用环境,有时查询语句中会包含一些特定信息,比如型号、计量单位、时间、地域等信息等。针对这种情况,还可以计算所述训练样本与所述特定信息的匹配度,得到对应所述特定信息的相关特征值。
需要说明的是,在计算所述训练样本与所述特定信息的匹配度的时,需要进行完全匹配计算,并且可以只针对训练样本的标题来计算,也就是说,计算所述训练样本的标题与所述特定信息的匹配度。
步骤103,利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征。
具体地,可以利用所述查询语句与对应的训练样本的相关特征值,构建盒状图向量矩阵,并将所述盒状图向量矩阵作为所述查询语句与所述训练样本的相似特征。
比如,针对查询语句与各训练样本对应的n个相关特征值,利用盒状图思想,分别提取每个相关特征值对应的最大值max、均值val、最小值min,并将提取的这些值作为盒状图参数。这样,依据查询语句对应的n个相关特征值,得到查询语句与所述训练样本基于盒状图的向量,作为查询语句与所述训练样本之间的相似特征。
例如:
查询语句<-->搜索结果项1:相关特征:P11、P21、…、Pn1;
查询语句<-->搜索结果项2:相关特征:P12、P22、…、Pn2;
……
查询语句<-->搜索结果项m:相关特征:P1m、P2m、…、Pnm。
利用盒状图思想,根据查询语句与各搜索结果项对应的相关特征值,得到基于盒状图的向量,具体地,提取每个相关特征值对应的参数:max、val、min,分别为:相关特征P1(max1、val1、min1)、相关特征P2(max2、val2、min2)、…、相关特征Pn(maxn、valn、minn),得到大小为(n×3)的矩阵。其中,相关特征P1,max1=max(P11,P12…,P1m),val1=val(P11,P12…,P1m),min1=min(P11,P12…,P1m);相关特征P2,max,2=max(P21,P22…,P2m),val2=val(P21,P22…,P2m),min2=min(P21,P22…,P2m)。
然后,由此构建所述查询语句对应所有训练样本基于盒状图的向量,作为该查询语句与对应训练样本之间的相似特征。
步骤104,利用所述查询语句与所述训练样本的相似特征训练得到相关性判断模型。
具体的训练过程与现有的机器学习模型的训练过程类似,在此不再详细描述。
利用上述训练得到的相关性判断模型,可以准确地判断搜索结果项与查询语句的相关性。
如图2所示,是本发明实施例网页搜索结果质量检测方法的流程图,包括以下步骤:
步骤201,获取查询语句及与所述查询语句对应的搜索结果项。
与所述查询语句对应的搜索结果项可以有一个或多个,在本发明实施例中,对于每个搜索结果项,需要单独确定该搜索结果项与所述查询语句的相关性。
步骤202,确定所述查询语句与所述搜索结果项的相似特征。
具体地,与前面构建相关性判断模型过程中确定查询语句与训练样本的相似特征的方法类似,首先需要计算所述查询语句与所述搜索结果项的相关特征值,然后利用所述查询语句与所述搜索结果项的相关特征值,确定所述查询语句与所述搜索结果项的相似特征。
需要说明的是,所述相关特征值的种类可以有一种或多种,而且,与相关性判断模型构建时的相关特征值的数量相同,比如前面提到的针对特定方法确定的各相关特征值、针对特定信息确定的各相关特征值,每种相关特征值的具体计算过程可参照前面的描述,在此不再赘述。
步骤203,将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
所述相关性判断模型为二分类模型或回归模型,以二分类模型为例,其输出为相关或不相关。利用所述相关性判断模型,可以确定与所述查询语句对应的每个搜索结果项与所述查询语句是否相关,进而可以根据相关性判断结果评估所述搜索结果项的质量。
本发明实施例提供的网页搜索结果质量检测方法,通过确定查询语句与对应的搜索结果项的相似特征,利用预先构建的相关性判断模型及所述相似特征,确定所述搜索结果项与所述查询语句的相关性。利用本发明方案,可以使相关性检测结果更准确。
进一步地,在实际应用中,针对一些特定的应用环境,比如针对房租赁的站内查询等,查询语句中会包含一些特定信息,比如型号、计量单位、时间、地域等信息。针对这种情况,在本发明方法另一实施例中,在利用相关性判断模型进行搜索结果项与查询语句的相关性之前,还可先检查所述查询语句中是否包含型号、单位、地域、时间等特定信息。如果是,则可直接根据所述搜索结果项与所述特定信息的匹配度确定所述搜索结果项与所述查询语句的相关性。
如图3所示,是本发明实施例网页搜索结果质量检测方法的另一种流程图,包括以下步骤:
步骤301,获取查询语句及与所述查询语句对应的搜索结果项。
步骤302,检查所述查询语句中是否包含特定信息。如果是,则执行步骤303;否则,执行步骤304。
步骤303,计算所述搜索结果项与所述特定信息的匹配度,并根据所述搜索结果项与所述特定信息的匹配度确定所述搜索结果项与所述查询语句的相关性。
所述特定信息包括但不限于以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息。需要说明的是,在计算所述搜索结果项与所述特定信息的匹配度时,需要进行完全匹配计算。
需要说明的是,在实际应用中,在计算所述搜索结果项与所述特定信息的匹配度时,可以针对搜索结果项的标题来计算,也就是说,计算所述搜索结果项的标题与所述特定信息的匹配度。
比如,查询语句为“我要3mm的钢”,查询语句中包含实体词“钢”,提取出查询语句中的长度信息“3mm”,据此对每个搜索结果项进行完全匹配计算,得到所述搜索结果项与长度信息“3mm”的匹配度,根据该匹配度确定所述搜索结果项是否与所述查询语句相关。
再比如,查询语句为“XX型号的显示器”,查询语句中包含实体词“显示器”,提取出查询语句中的型号信息“XX型号”,据此对每个搜索结果项进行完全匹配计算,得到所述搜索结果项与型号信息“XX型号”的匹配度,根据该匹配度确定所述搜索结果项是否与所述查询语句相关。
对于查询语句中包含时间信息的情况,匹配度的计算与上述类似,即进行完全匹配计算。
对于查询语句中包含地域信息的情况,匹配度的计算不同于上述针对其它特定信息的匹配度计算,具体可以采用以下方式:
预先爬取地理信息、行政区划表等构建地理信息词表,然后依据该地理信息词表确定所述搜索结果项中包含的针对地域的描述信息与查询语句中包含的地域信息是否存在包含关系;如果是,则匹配度为1,确定所述搜索结果项与所述查询语句相关;否则,匹配度为0,确定所述搜索结果项与所述查询语句不相关。
例如,查询语句为“海淀区两居室”,待检查的搜索结果项中包含“华清嘉园”、“中关村街道”等内容。
预先构建的地理信息词表中,关键词key为“海淀”的词,其value有:五道口、中关村街道、华清嘉园、魏公村等。根据查询语句中的“海淀”,查找地理信息词表,得到关键词“海淀”的所有value,然后利用多模式匹配(例如Wu-Manber方法)对搜索结果项进行匹配,匹配到,则匹配度为1;匹配不到,则匹配度为0。
步骤304,确定所述查询语句与所述搜索结果项的相似特征。
步骤305,将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
本发明实施例提供的网页搜索结果质量检测方法,在利用相关性判断模型进行搜索结果项与查询语句的相关性之前,首先检查所述查询语句中是否包含的型号、单位、地域、时间等特定信息,如果是,则直接根据搜索结果项与所述特定信息的匹配度来确定所述搜索结果项与搜索语句的相关性,否则再利用相关性判断模型来确定搜索结果项与查询语句的相关性,从而使本发明方案可以更好地适应各种不同的应用环境。
以某分类信息网站为例,假设该分类信息网站提供了各种分类信息的搜索查询功能,因此存在着大量的搜索结果项,利用本发明实施例提供的方法,对站内搜索结果项与查询语句的相关性进行检测。
比如,查询语句为“海淀两居室”,该查询语句中包含两个信息,一个是地点信息“海淀”,另一个则是查询的内容“两居室”;搜索结果为查询结果列表中的每一个搜索结果项,如图4所示。
如果使用传统的文本相似度计算搜索结果项与查询语句的相关性,由于搜索结果项中都不包含“海淀”两个字,所以计算得到的相似度都会很低。但通过地图可知,西直门、五道口、六道口、学院路、沙河等这些地点信息所指地点都在海淀区范围内,可见判断结果并不准确。
如果利用本发明实施例提供的方法,由于查询语句“海淀两居室”中包含地域信息“海淀”、型号信息“两”,通过搜索结果项与这些特定信息进行匹配,可以得到所述搜索结果项与查询语句是否相关性的准确判断。
另外,在有些应用中,查询语句中不仅包括有特定信息,而且还包括所述特定信息之外的其它信息,针对全网网页进行的搜索会得到大量的搜索结果项,在这种情况下,还可以先根据查询语句中是否包含特定信息对与所述查询语句对应的搜索结果项进行过滤,然后再对过滤后剩余的搜索结果项,利用相关性判断模型确定这些搜索结果项与所述查询语句是否相关。具体地,检查所述查询语句中是否包含特定信息;如果是,则计算所述搜索结果项与所述特定信息的匹配度,并根据所述匹配度删除不相匹配的搜索结果项,然后对删除不相匹配的搜索结果项后剩余的搜索结果项,确定所述查询语句与所述搜索结果项的相似特征,利用相关性判断模型确定所述搜索结果项与所述查询语句的相关性;如果否,则直接确定所述查询语句与所述搜索结果项的相似特征,然后利用相关性判断模型确定搜索结果项与所述查询语句的相关性。利用本实施例的方法,可以进一步提高相关性判断结果的准确性。
需要说明的是,在实际应用中,还可以进一步将利用本发明方案得到的检测结果作为对不同搜索引擎的搜索效果进行评价的依据,也可以使搜索引擎根据该检测结果对所有搜索结果项进行排序,将相关性差的搜索结果项排在后面,从而提升用户体验。
需要说明的是,在上述各附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
相应地,本发明实施例还提供一种网页搜索结果质量检测装置,如图5所示,是该装置的一种结构框图。
在该实施例中,所述装置包括以下各模块:
获取模块501,用于获取查询语句及与所述查询语句对应的搜索结果项;
相似特征确定模块502,用于确定所述查询语句与所述搜索结果项的相似特征;
判断模块503,用于将所述相似特征输入预先构建的相关性判断模型500,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
其中,所述相似特征确定模块502具体可以包括:特征值计算模块和相似特征确定模块(未图示)。所述特征值计算模块用于计算所述查询语句与所述搜索结果项的相关特征值;相似特征确定模块用于利用所述查询语句与所述搜索结果项的相关特征值,确定所述查询语句与所述搜索结果项的相似特征。
在本发明实施例中,所述相关特征值的种类可以有一种或多种,比如前面本发明方法实施例中提到的针对特定方法计算得到的各相关特征值,每种相关特征值的具体计算方式可参照前面的描述,在此不再赘述。
在实际应用中,所述相关性判断模型500可以由相应的模型构建模块预先来构建,所述模型构建模块可以作为本发明网页搜索结果质量检测装置的一部分,也可以独立于本发明网页搜索结果质量检测装置,对此不做限定。
如图6所示,是本发明实施例中模型构建模块的一种结构框图,包括以下各单元:
数据收集单元601,用于收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本;
特征值确定单元602,用于确定所述查询语句与对应的各训练样本的相关特征值;
相似特征确定单元603,用于利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征;
训练单元604,用于利用所述查询语句与所述训练样本的相似特征训练得到所述相关性判断模型。
其中,所述数据收集单元601可以通过读取历史查询记录来得到查询语句及与所述查询语句对应的搜索结果项,每个查询语句对应有一个或多个搜索结果项。
所述特征值确定单元602可以利用多种不同方式计算所述相关特征值,得到多维特征。当然,在一些应用环境下,也可以采用其中的任一维特征也可以得到较好的相关性判断模型,进而利用该相关性判断模型对搜索结果项进行检测,得到准确的检测结果。
在所述模型构建模块的一个具体实施例中,所述特征值确定单元602可以包括第一确定单元,用于采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,得到对应特定方法的相关特征值。所述第一确定单元可以包括以下任意一个或多个单元:
字符串匹配计算单元,用于利用字符串匹配方法计算所述查询语句与所述训练样本的相似度;
词向量计算单元,用于利用词向量方法计算所述查询语句与所述训练样本的相似度;
集合相似度计算单元,用于利用集合相似度方法计算所述查询语句与所述训练样本的相似度。
其中,所述词向量计算单元可以包括以下各子单元:
向量获取子单元,用于分别获取所述查询语句及所述训练样本对应的语句向量及样本向量;
映射子单元,用于分别将所述语句向量及所述样本向量映射为直方图,比如,为所述语句向量和所述样本向量中的每维特征划分区间,并统计每个区间包含的特征个数;根据所述特征个数绘制所述语句向量对应的直方图及所述样本向量对应的直方图;
相似度计算子单元,用于利用所述直方图计算所述查询语句与所述训练样本的相似度。两个直方图相似度的计算可采用现有技术,在此不再赘述。
其中,所述集合相似度计算单元可以包括以下各子单元:
分词子单元,用于分别对所述查询语句和所述训练样本中的文本进行分词,得到查询语句分词集合和训练样本分词集合;
集合相似度计算子单元,用于计算所述查询语句分词集合与所述训练样本分词集合的相似度。两个集合的相似度可以通过Jaccard系数、或系数、或Ochiai系数等方式来计算。
所述相似特征确定单元603具体可以利用所述查询语句与对应的训练样本的相关特征值,构建盒状图向量矩阵,将所述盒状图向量矩阵作为所述查询语句与所述训练样本的相似特征。比如,针对查询语句与各训练样本对应的n个相关特征值,利用盒状图思想,分别提取每个相关特征值对应的最大值max、均值val、最小值min,并将提取的这些值作为盒状图参数。这样,依据查询语句对应的n个相关特征值,得到查询语句与所述训练样本基于盒状图的向量,作为查询语句与所述训练样本之间的相似特征。
在所述模型构建模块的另一个具体实施例中,所述模型构建模块还可进一步包括:特定信息检查单元(未图示),用于检查所述数据收集单元收集的查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息。
相应地,在该模型构建模块的实施例中,所述特征值确定单元不仅包括上述第一确定单元,还包括第二确定单元。
其中,所述第二确定单元用于在所述数据收集单元收集的查询语句中包含特定信息时,计算所述训练样本与所述特定信息的匹配度,得到对应所述特定信息的相关特征值。
如图7所示,是本发明实施例网页搜索结果质量检测装置的另一种结构框图。
与图5所示实施例不同的是,在该实施例中,所述装置不仅包括前面所述的获取模块501、相似特征确定模块502、判断模块503,还包括:检查模块504和特定信息匹配模块505。
所述检查模块504用于检查所述查询语句中是否包含特定信息;
所述特定信息匹配模块505用于在所述检查模块504检查到所述查询语句中包含特定信息后,计算所述搜索结果项与所述特定信息的匹配度,并根据所述搜索结果项与所述特定信息的匹配度确定所述搜索结果项与所述查询语句的相关性。
相应地,在该实施例中,所述相似特征确定模块502需要在所述检查模块504检查到所述查询语句中未包含特定信息后,确定所述查询语句与所述搜索结果项的相似特征。
所述特定信息包括但不限于以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息。相应地,所述特定信息匹配模块505可以包括以下任意一个或多个模块:
型号信息匹配模块,用于计算所述搜索结果项与所述型号信息的匹配度,确定所述搜索结果项与所述查询语句的相关性;
计量单位信息匹配模块,用于计算所述搜索结果项与所述计量单位信息的匹配度,确定所述搜索结果项与所述查询语句的相关性;
时间信息匹配模块,用于计算所述搜索结果项与所述时间信息的匹配度,确定所述搜索结果项与所述查询语句的相关性;
地域信息匹配模块,用于计算所述搜索结果项与所述地域信息的匹配度,确定所述搜索结果项与所述查询语句的相关性。
上述各匹配模块计算相应特定信息与所述搜索结果项匹配度的具体方式可以参照前面本发明方法实施例中的描述。
需要说明的是,对于查询语句中包含地域信息的情况,匹配度的计算不同于上述针对其它特定信息的匹配度计算。在所述地域信息匹配模块的一种具体实施例中,所述地域信息匹配模块可以包括以下各单元:
描述信息获取单元,用于获取所述搜索结果项中包含的针对地域的描述信息;
关系判断单元,用于根据预先建立的地理信息词表确定所述描述信息与所述查询语句中包含的地域信息是否存在包含关系;如果是,则确定所述搜索结果项与所述查询语句中包含的地域信息的匹配度为相匹配;否则,确定所述搜索结果项与所述查询语句中包含的地域信息的匹配度为不相匹配。
所述地理信息词表可以通过地理信息、行政区划表等来构建,对此本发明实施例不做限定。
利用本发明实施例提供的网页搜索结果质量检测装置,可以准确地检测搜索结果项与查询语句的相关性。而且在实际应用中,还可以进一步将利用本发明方案得到的检测结果作为对不同搜索引擎的搜索效果进行评价的依据,也可以使搜索引擎根据该检测结果对所有搜索结果项进行排序,将相关性差的搜索结果项排在后面,从而提升用户体验。
如图8所示,是本发明实施例网页搜索结果质量检测装置的另一种结构框图。
与图5所示实施例不同的是,在该实施例中,所述装置不仅包括前面所述的获取模块501、相似特征确定模块502、判断模块503,还包括:检查模块504和过滤模块506。其中:
所述检查模块504用于检查所述查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述过滤模块506,用于在所述检查模块504检查到所述查询语句中包含特定信息后,计算所述搜索结果项与所述特定信息的匹配度,并根据所述匹配度删除不相匹配的搜索结果项。
在该实施例中,在所述查询语句中包含特定信息的情况下,先由过滤模块506将与所述特定信息不相匹配的搜索结果项过滤掉,然后再由相似特征确定模块502和判断模块503对过滤后剩余的搜索结果项进行相关性判断;在所述查询语句中未包含特定信息的情况下,直接由相似特征确定模块502和判断模块503对所有搜索结果项进行相关性判断。
利用本实施例的装置,可以进一步提高相关性判断结果的准确性。
图9是根据一示例性实施例示出的一种用于网页搜索结果质量检测方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
图10是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
显然,上面所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页搜索结果质量检测方法,其特征在于,所述方法包括:
获取查询语句及与所述查询语句对应的搜索结果项;
确定所述查询语句与所述搜索结果项的相似特征;
将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照以下方式构建所述相关性判断模型:
收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本;
确定所述查询语句与对应的各训练样本的相关特征值;
利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征;
利用所述查询语句与所述训练样本的相似特征训练得到所述相关性判断模型。
3.根据权利要求2所述的方法,其特征在于,所述确定所述查询语句与对应的各训练样本的相关特征值包括:
采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,得到对应特定方法的相关特征值;所述特定方法包括以下任意一种或多种:字符串匹配方法、词向量方法、集合相似度方法。
4.根据权利要求3所述的方法,其特征在于,利用词向量方法计算所述查询语句与所述训练样本的相似度包括:
分别获取所述查询语句对应的语句向量及所述训练样本对应的样本向量;
分别将所述语句向量及所述样本向量映射为直方图;
利用所述直方图计算所述查询语句与所述训练样本的相似度。
5.根据权利要求4所述的方法,其特征在于,所述分别将所述语句向量及所述文本向量映射为直方图包括:
分别为向量中的每维特征划分区间,并统计每个区间包含的特征个数;所述向量包括所述语句向量或所述样本向量;
根据所述特征个数绘制所述向量对应的直方图。
6.根据权利要求3所述的方法,其特征在于,利用集合相似度方法计算所述查询语句与所述训练样本的相似度包括:
分别对所述查询语句和所述训练样本中的文本进行分词,得到查询语句分词集合和训练样本分词集合;
计算所述查询语句分词集合与所述训练样本分词集合的相似度。
7.根据权利要求2所述的方法,其特征在于,所述构建所述相关性判断模型还包括:
检查收集的查询语句中是否包含特定信息,所述特定信息包括以下任意一种或多种:型号信息、计量单位信息、时间信息、地域信息;
所述确定所述查询语句与对应的各训练样本的相关特征值还包括:
如果收集的查询语句中包含特定信息,则计算所述训练样本与所述特定信息的匹配度,得到对应所述特定信息的相关特征值。
8.一种网页搜索结果质量检测装置,其特征在于,所述装置包括:
获取模块,用于获取查询语句及与所述查询语句对应的搜索结果项;
相似特征确定模块,用于确定所述查询语句与所述搜索结果项的相似特征;
判断模块,用于将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
9.一种电子设备,其特征在于,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现如权利要求1至7任一项所述的方法。
10.一种可读存储介质,其上存储有指令,所述指令被执行以实现如权利要求1至7任一项所述的方法。
CN201910150340.5A 2019-02-28 2019-02-28 网页搜索结果质量检测方法及装置 Pending CN109948030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910150340.5A CN109948030A (zh) 2019-02-28 2019-02-28 网页搜索结果质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910150340.5A CN109948030A (zh) 2019-02-28 2019-02-28 网页搜索结果质量检测方法及装置

Publications (1)

Publication Number Publication Date
CN109948030A true CN109948030A (zh) 2019-06-28

Family

ID=67008136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910150340.5A Pending CN109948030A (zh) 2019-02-28 2019-02-28 网页搜索结果质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN109948030A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472034A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 问答系统的检测方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN104615621A (zh) * 2014-06-25 2015-05-13 腾讯科技(深圳)有限公司 搜索中的相关性处理方法和系统
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN104615621A (zh) * 2014-06-25 2015-05-13 腾讯科技(深圳)有限公司 搜索中的相关性处理方法和系统
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472034A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 问答系统的检测方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10706094B2 (en) System and method for customizing a display of a user device based on multimedia content element signatures
Chon et al. Automatically characterizing places with opportunistic crowdsensing using smartphones
CN109918669B (zh) 实体确定方法、装置及存储介质
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN107330019A (zh) 搜索方法及装置
CN109522419A (zh) 会话信息补全方法及装置
CN107305566B (zh) 一种为搜索信息匹配图片的方法及装置
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN108345610A (zh) 一种获取数据资源的方法和装置、用于获取数据资源的装置
US9418076B2 (en) System and method for determining interests from location data
CN109933714A (zh) 一种词条权重的计算方法、搜索方法及相关装置
CN109815396A (zh) 搜索词权重确定方法及装置
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN109783656A (zh) 音视频数据的推荐方法、系统及服务器和存储介质
CN111984749A (zh) 一种兴趣点排序方法和装置
CN109308334A (zh) 信息推荐方法及装置、搜索引擎系统
CN108241690A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN108460651A (zh) 车辆推荐方法及装置
CN108874827A (zh) 一种搜索方法及相关装置
CN110472158A (zh) 一种搜索条目的排序方法和装置
CN109521888A (zh) 一种输入方法、装置和介质
CN110110207A (zh) 一种信息推荐方法、装置及电子设备
CN109783244A (zh) 处理方法和装置、用于处理的装置
CN107491453A (zh) 一种识别作弊网页的方法及装置
CN110197375A (zh) 一种相似用户识别方法、装置、相似用户识别设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628