【发明内容】
基于此,有必要提供一种搜索方法,方便用户选择需要的检索结果,给用户的操作带来便利。
一种搜索方法,包括以下步骤:
获取用户输入的查询字符;
对所述查询字符进行分类处理,得到查询字符的分类类别;
根据所述分类类别进行检索,得到检索结果。
优选地,所述对查询字符进行分类处理,得到查询字符的分类类别的步骤具体包括:
对信息站点进行数据内容抓取,提取分类关键词;
从所述查询字符中提取查询关键词;
将所述查询关键词与所述分类关键词进行匹配,得到所述查询关键词的分类类别。
优选地,还包括步骤:
对所述检索结果进行去重及排序处理;
展现所述去重及排序处理后的检索结果。
优选地,在对所述检索结果进行去重及排序处理的步骤之前还包括:
获取各个检索结果的点击次数;
将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
优选地,所述对检索结果进行去重及排序处理的步骤具体包括:
根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果;
根据点击次数权重对经过去重处理的检索结果进行排序。
优选地,当搜索视频时,所述对检索结果进行去重及排序处理的步骤具体为:
计算检索得到的视频的来源地址指纹,记为第一指纹;
计算检索得到的视频缩略图的内容指纹,记为第二指纹;
对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹;
根据第三指纹对检索得到的视频进行去重处理,删除重复的视频;
对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
优选地,在所述对检索结果进行去重及排序处理的步骤之后还包括:
将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量;
根据视频的缩略图质量从高到低对视频进行排序。
此外,还有必要提供一种搜索系统,方便用户选择需要的检索结果,给用户的操作带来便利。
一种搜索系统,包括:
信息获取模块,用于获取用户输入的查询字符;
分类模块,用于对所述查询字符进行分类处理,得到所述查询字符的分类类别;
检索模块,用于根据所述查询字符及所属的分类类别进行检索,得到检索结果。
优选地,所述信息获取模块还用于对信息站点进行数据内容抓取,所述分类模块还用于从抓取的数据内容中提取分类关键词;所述分类模块还用于从所述查询字符中提取查询关键词,将查询关键词与分类关键词进行匹配,得到所述查询关键词的分类类别。
优选地,还包括:
处理模块,用于对所述检索结果进行去重及排序处理;
展示模块,用于展现所述去重及排序处理后的检索结果。
优选地,还包括统计分析模块,所述统计分析模块用于获取各个检索结果的点击次数,将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
优选地,所述处理模块根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果,根据点击次数权重对经过去重处理的检索结果进行排序。
优选地,当搜索视频时,所述处理模块还用于计算检索得到的视频的来源地址指纹,记为第一指纹,计算检索得到的视频缩略图的内容指纹,记为第二指纹,对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹,根据第三指纹对检索得到的视频进行去重处理,删除重复的视频,对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
优选地,还包括缩略图模块,所述缩略图模块用于对视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量,所述处理模块根据视频的缩略图质量从高到低对视频进行排序。
上述搜索方法及系统,通过对用户输入的查询字符进行分类,再根据查询字符及所属的分类类别进行检索,得到的检索结果更加准确的满足用户搜索需求,方便用户选择需要的检索结果,给用户的操作带来便利。
【具体实施方式】
下面结合具体的实施例及附图对技术方案进行详细的描述。
如图1所示,在一个实施例中,一种搜索方法,包括以下步骤:
步骤S100,获取用户输入的查询字符。用户通过键盘、触摸屏等输入查询字符,如输入“建国大业”。
步骤S110,对查询字符进行分类处理,得到查询字符的分类类别。
如图2所示,将查询字符进行分类处理,得到查询字符的分类类别的具体步骤为:
步骤S210,对信息站点进行数据内容抓取,提取分类关键词。抓取信息站点的数据内容进行简单的分类,从数据内容中提取各分类关键词,建立分类关键词表。如数据内容为视频,对视频进行分类,可分为电影、电视剧、综艺、动漫等类别,电影类别提取分类关键词如“冰河世纪”。综艺类别提取分类关键词如“天天向上”。另外,如数据内容为新闻数据,对新闻数据进行分类,如体育、娱乐、财经等。
步骤S220,从查询字符中提取查询关键词。查询字符可包含一些多余字符,如“未来警察电影”,进行过滤处理,得到查询关键词“未来警察”。
步骤S230,将查询关键词与分类关键词进行匹配,得到查询关键词的分类类别。将查询关键词与分类关键词表中的分类关键词进行匹配,得出该查询关键词属于哪个分类类别,如将“未来警察”与分类关键词进行匹配,得出属于电影类别。其中,每个分类类别中对应至少一个分类关键词。
另外,对于同一数据内容有多个标题名称时,使用同义词映射方式进行分类匹配。如同一部电影,不同的名称,采用同义词映射方式分类。
步骤S120,根据查询字符及所属的分类类别进行检索,得到检索结果。
从查询字符中提取查询关键词后,根据查询关键词及分类类别进行检索,得到的检索结果大致满足用户的查询需求。
在一个实施例中,步骤S120之后,还包括对检索结果进行整合的步骤。以视频检索为例,得到检索视频后,根据分类类别,电影、电视剧、动漫、综艺等,进行整合展现更加丰富的信息,如剧名、导演、主演、年代、地区、电视剧集数、剧情介绍、海报等。
在一个实施例中,如图3所示,除了包括步骤S100至步骤S120,还包括:
步骤S130,对检索结果进行去重及排序处理。
检索结果中可能包含多个重复的数据,且对于同内容的数据,数据的质量差异较大,为了保证页面结果不重复,且用户有选择的余地,删除内容重复的数据,保留其中一个,具体步骤为:根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果。
对检索结果进行排序处理具体为:获取各个检索结果的点击次数,根据点击次数权重对经过去重处理的检索结果进行排序。各个互联网数据被点击的次数定期进行更新,以便指导排序。
互联网数据被点击的次数越多,反映了用户的喜好、视频的热度,使用其进行排序可获得较好的展现效果,较好的满足用户的需求。对互联网数据点击次数较高的,可优先进行链接检测,减少了链接地址错误的展示率。
为了防止个别信息站点对点击次数作弊,在一个实施例中,在步骤S130之前,还包括步骤:获取各个检索结果的点击次数;将检索结果的点击次数与预定阈值比较,若大于预定阈值,则对该检索结果的点击次数进行修正,若小于等于预定阈值,则保留该检索结果的点击次数。其中,对检索结果的点击次数进行修正具体可为设定一个上限值,将大于预定阈值的检索结果的点击次数均设为该上限值。各个互联网数据被点击的次数定期进行更新。对点击次数可进行平滑处理,模拟曲线,作为排序因子,对作弊进行排除。该排序因子可采用如下公式计算:
α+β(x+ε)+γlog10δ(x+ε)
其中,α、β、γ、δ、ε为常数,对于点击次数,分区间决定五个参数值。
互联网数据以视频为例,视频点击播放次数可能进行作弊而被放大。而在一定时间段内,点击次数上升的速度比值应该与市场份额比值相差不大。在进行某视频点击作弊判断时,可取出与其相似的其他站点的该视频,对一些列的站点视频点击次数与上传时间的比值作为上升速度,将上升速度与阈值比较,超过该阈值,则判定为作弊视频,可对该视频的点击次数进行修正。
在一个实施例中,搜索视频时,对检索得到的视频进行去重及排序处理的具体包括以下步骤:
(1)计算检索得到的视频的来源地址指纹,记为第一指纹。对检索得到的视频采用md5算法计算出其来源地址指纹。md5(Message Digest Algorithm,消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护,用以为文件产生数字指纹。
(2)计算检索得到的视频缩略图的内容指纹,记为第二指纹。使用md5算法计算出缩略图的内容指纹。
(3)对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹。对视频的标题字符串去噪处理是对标题文本的处理,如空格,标点等的处理,保证相同的视频能够通过指纹判断出来。采用md5算法计算得到第三指纹。
(4)根据第三指纹对检索得到的视频进行去重处理,删除重复的视频。第三指纹是通过去噪处理后的标题字符串及第二指纹结合得到的。视频内容相同的,第三指纹也应相同。根据第三指纹对视频进行去重处理,可删除重复的视频,获得需要的一个视频。
(5)对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
具有相同第二指纹的视频,可进行打散,保证不相邻,使得视频缩略图给人没有重复感。具有相同第一指纹的视频,进行打散,保证了来源地址的多样性。点击次数权重、时长权重、视频标题与查询字符匹配权重,构成一个权重集合,根据该权重集合对视频进行排序,可将高清视频和标清视频混排,既满足高清视频的体验需求,也满足低带宽用户的观看需求。
优选的实施例中,对视频进行去重及排序处理后,还包括步骤:
(a)将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量。
视频的缩略图质量差别比较大,低质量或无缩略图的视频将影响用户的选择。对无缩略图的视频进行标记,将视频缩略图转换为灰度图,采用算法,将灰度图的灰度值表示的为纯色图的进行标记,标识其缩略图为低质量缩略图。也可将灰度图的灰度值与预设的阈值比较,灰度值小于该阈值的为低质量,灰度值大于该阈值的为高质量。
(b)根据视频的缩略图质量从高到低对视频进行排序。
将视频的缩略图质量高的排在前面,方便用户选择。
另外,对于无缩略图或低质量的缩略图可进行缩略图替换,具体为:通过完整标题及时间范围结合进行限定检索,取检索结果中的第一个视频的缩略图,替换当前视频的缩略图。如此既保留了该无缩略图或低质量缩略图视频展现时的位置,也满足了用户进行查看时,观看缩略图的需求。
步骤S140,展现去重及排序处理后的检索结果。将进行去重及排序处理的检索结果展现给用户。
如图4所示,在一个实施例中,一种搜索系统,包括信息获取模块400、分类模块410和检索模块420。
信息获取模块400用于获取用户输入的查询字符。信息获取模块400获取用户通过键盘、触摸屏等输入查询字符,如输入的“建国大业”,还用于获取信息站点进行数据内容抓取,获取所有站点的数据内容。
分类模块410用于对查询字符进行分类处理,得到查询字符的分类类别。
首先,分类模块410用于对信息获取模块400抓取的数据内容,提取分类关键词。对数据内容进行简单的分类,从数据内容中提取各分类关键词,建立分类关键词表。如数据内容为视频,如对视频进行分类,可分为电影、电视剧、综艺、动漫等类别,电影类别提取分类关键词如“冰河世纪”。综艺类别提取分类关键词如“天天向上”。另外,如数据内容为新闻数据,对新闻数据进行分类,如体育、娱乐、财经等。
其次,分类模块410从查询字符中提取查询关键词,将查询关键词与分类关键词进行匹配,得到查询关键词的分类类别。查询字符可包含一些多余字符,如“未来警察电影”,分类模块410进行过滤处理,得到查询关键词“未来警察”,再将查询关键词与分类关键词表中的分类关键词进行匹配,得出该查询关键词属于哪个分类类别,如将“未来警察”与分类关键词进行匹配,得出属于电影类别。其中,每个分类类别中对应至少一个分类关键词。另外,对于同一数据内容有多个标题名称时,使用同义词映射方式进行分类匹配。如同一部电影,不同的名称,采用同义词映射方式分类。
检索模块420用于根据查询字符及所属的分类类别进行检索,得到检索结果。从查询字符中提取查询关键词后,根据查询关键词及分类类别进行检索,得到的检索结果大致满足用户的查询需求。
在一个实施例中,如图5所示,搜索系统除了包括信息获取模块400、分类模块410和检索模块420,还包括处理模块430、展示模块440、统计分析模块450和缩略图模块460。
处理模块430用于对检索结果进行去重及排序处理。检索结果中可能包含多个重复的数据,且对于同内容的数据,数据的质量差异较大,为了保证页面结果不重复,且用户有选择的余地,删除内容重复的数据,保留其中一个,处理模块430根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果。处理模块430对去重后的检索结果进行排序,排序的方式可为多种,如可按信息完整度从高到低排序。
展示模块440用于展现该去重及排序处理后的检索结果。
统计分析模块450用于获取各个检索结果的点击次数。互联网数据被点击的次数越多,反映了用户的喜好、视频的热度,使用其进行排序可获得较好的展现效果,较好的满足用户的需求。各个互联网数据被点击的次数定期进行更新,以便指导排序。
处理模块430还用于根据点击次数权重对经过去重处理的检索结果进行排序。另外,对互联网数据点击次数较高的,可优先进行链接检测,减少了链接地址错误的展示率。
为了防止个别信息站点对点击次数作弊,统计分析模块450还用于将检索结果的点击次数与预定阈值比较,若大于预定阈值,则对该检索结果的点击次数进行修正,若小于等于预定阈值,则保留该检索结果的点击次数。各个互联网数据被点击的次数定期进行更新。其中,对检索结果的点击次数进行修正具体可为设定一个上限值,将大于预定阈值的检索结果的点击次数均设为该上限值。对点击次数可进行平滑处理,模拟曲线,作为排序因子,对作弊进行排除。该排序因子可采用如下公式计算:
α+β(x+ε)+γlog10δ(x+ε)
其中,α、β、γ、δ、ε为常数,对于点击次数,分区间决定五个参数值。
互联网数据以视频为例,视频点击播放次数可能进行作弊而被放大。而在一定时间段内,点击次数上升的速度比值应该与市场份额比值相差不大。在进行某视频点击作弊判断时,可取出与其相似的其他站点的该视频,对一些列的站点视频点击次数与上传时间的比值作为上升速度,将上升速度与阈值比较,超过该阈值,则判定为作弊视频,可对该视频的点击次数进行修正。
在一个实施例中,搜索视频时,处理模块430对检索得到的视频进行去重及排序处理的具体过程如下:
(1)计算检索得到的视频的来源地址指纹,记为第一指纹。对检索得到的视频采用md5算法计算出其来源地址指纹。md5(Message Digest Algorithm,消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护,用以为文件产生数字指纹。
(2)计算检索得到的视频缩略图的内容指纹,记为第二指纹。使用md5算法计算出缩略图的内容指纹。
(3)对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹。对视频的标题字符串去噪处理是对标题文本的处理,如空格,标点等的处理,保证相同的视频能够通过指纹判断出来。采用md5算法计算得到第三指纹。
(4)根据第三指纹对检索得到的视频进行去重处理,删除重复的视频。第三指纹是通过去噪处理后的标题字符串及第二指纹结合得到的。视频内容相同的,第三指纹也应相同。根据第三指纹对视频进行去重处理,可删除重复的视频,获得需要的一个视频。
(5)对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
具有相同第二指纹的视频,可进行打散,保证不相邻,使得视频缩略图给人没有重复感。具有相同第一指纹的视频,进行打散,保证了来源地址的多样性。点击次数权重、时长权重、视频标题与查询字符匹配权重,构成一个权重集合,根据该权重集合对视频进行排序,可将高清视频和标清视频混排,既满足高清视频的体验需求,也满足低带宽用户的观看需求。
优选的实施例中,缩略图模块460还用于将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量,处理模块430根据视频的缩略图质量从高到低对视频进行排序。
视频的缩略图质量差别比较大,低质量或无缩略图的视频将影响用户的选择。对无缩略图的视频进行标记,将视频缩略图转换为灰度图,采用算法,将灰度图的灰度值表示的为纯色图的进行标记,标识其缩略图为低质量缩略图。也可将灰度图的灰度值与预设的阈值比较,灰度值小于该阈值的为低质量,灰度值大于该阈值的为高质量。将视频的缩略图质量高的排在前面,方便用户选择。
另外,对于无缩略图或低质量的缩略图可进行缩略图替换,检索模块420通过完整标题及时间范围结合进行限定检索,缩略图模块460取检索结果中的第一个视频的缩略图,替换当前视频的缩略图。如此既保留了该无缩略图或低质量缩略图视频展现时的位置,也满足了用户进行查看时,观看缩略图的需求。
上述搜索系统应用于搜索明星人物相关的视频时,信息获取模块400从互联网数据中获取明星全集,并实时跟踪信息更新到信息库中;分类模块410对获取的明星全集进行分类,如电影类、MV、综艺类等,可根据视频标题进行简单分类;信息获取模块400获取到用户输入的查询明星人物名称,分类模块410对该明星人物名称进行匹配,得到分类类别,检索模块420根据该查询字符及分类类别进行检索,处理模块430对检索结果进行判断,该检索结果的数据是否大于等于统计阈值,若是,则展示模块440将展现该类别的检索结果。
上述搜索系统应用于搜索影视剧时,针对同名影视剧,信息获取模块400可获取用户输入的查询字符中包括影视剧名加扩展关键词,检索模块420根据影视剧名加扩展关键词一起检索,排出同名剧的检索结果。该扩展关键词可为“主演是谁”等。
上述搜索方法及系统,不仅可应用检索视频数据,还可检索新闻数据等。
上述搜索方法及系统,通过对用户输入的查询字符进行分类,再根据查询字符及所属的分类类别进行检索,得到的检索结果更加准确的满足用户搜索需求,方便用户选择需要的检索结果,给用户的操作带来便利。
另外,采用对点击次数过高的数据进行排出,有效的防止点击作弊;采用对视频缩略图分析得出缩略图的质量,根据视频缩略图的质量进行排序,方便用户操作。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。