CN102737029A - 搜索方法及系统 - Google Patents

搜索方法及系统 Download PDF

Info

Publication number
CN102737029A
CN102737029A CN2011100842241A CN201110084224A CN102737029A CN 102737029 A CN102737029 A CN 102737029A CN 2011100842241 A CN2011100842241 A CN 2011100842241A CN 201110084224 A CN201110084224 A CN 201110084224A CN 102737029 A CN102737029 A CN 102737029A
Authority
CN
China
Prior art keywords
retrieval
video
result
fingerprint
clicks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100842241A
Other languages
English (en)
Other versions
CN102737029B (zh
Inventor
李翔
黄斌强
李盛韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110084224.1A priority Critical patent/CN102737029B/zh
Publication of CN102737029A publication Critical patent/CN102737029A/zh
Application granted granted Critical
Publication of CN102737029B publication Critical patent/CN102737029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种搜索方法及系统。该搜索方法包括以下步骤:获取用户输入的查询字符;对所述查询字符进行分类处理,得到查询字符的分类类别;根据所述查询字符及所属的分类类别进行检索,得到检索结果。上述搜索方法及系统,通过对用户输入的查询字符进行分类,再根据查询字符及分类类别进行检索,得到的检索结果更加准确的满足用户搜索需求,方便用户选择需要的检索结果,给用户的操作带来便利。

Description

搜索方法及系统
【技术领域】
本发明涉及搜索领域,特别涉及一种搜索方法及系统。
【背景技术】
随着互联网技术的发展,互联网越来越普及。用户从互联网获取数据的需求越来越强。互联网数据(如视频、新闻等)分享和观看站点越来越多,总的数据量相当庞大。搜索引擎的作用是帮助用户从海量的数据中查询满足需求的数据,为用户提供更好的数据推荐展现。
传统的搜索仅根据关键字的匹配进行检索,检索得到的结果数量很多,不方便用户快速从中选择需要的数据,给用户操作带来不便。
【发明内容】
基于此,有必要提供一种搜索方法,方便用户选择需要的检索结果,给用户的操作带来便利。
一种搜索方法,包括以下步骤:
获取用户输入的查询字符;
对所述查询字符进行分类处理,得到查询字符的分类类别;
根据所述分类类别进行检索,得到检索结果。
优选地,所述对查询字符进行分类处理,得到查询字符的分类类别的步骤具体包括:
对信息站点进行数据内容抓取,提取分类关键词;
从所述查询字符中提取查询关键词;
将所述查询关键词与所述分类关键词进行匹配,得到所述查询关键词的分类类别。
优选地,还包括步骤:
对所述检索结果进行去重及排序处理;
展现所述去重及排序处理后的检索结果。
优选地,在对所述检索结果进行去重及排序处理的步骤之前还包括:
获取各个检索结果的点击次数;
将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
优选地,所述对检索结果进行去重及排序处理的步骤具体包括:
根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果;
根据点击次数权重对经过去重处理的检索结果进行排序。
优选地,当搜索视频时,所述对检索结果进行去重及排序处理的步骤具体为:
计算检索得到的视频的来源地址指纹,记为第一指纹;
计算检索得到的视频缩略图的内容指纹,记为第二指纹;
对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹;
根据第三指纹对检索得到的视频进行去重处理,删除重复的视频;
对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
优选地,在所述对检索结果进行去重及排序处理的步骤之后还包括:
将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量;
根据视频的缩略图质量从高到低对视频进行排序。
此外,还有必要提供一种搜索系统,方便用户选择需要的检索结果,给用户的操作带来便利。
一种搜索系统,包括:
信息获取模块,用于获取用户输入的查询字符;
分类模块,用于对所述查询字符进行分类处理,得到所述查询字符的分类类别;
检索模块,用于根据所述查询字符及所属的分类类别进行检索,得到检索结果。
优选地,所述信息获取模块还用于对信息站点进行数据内容抓取,所述分类模块还用于从抓取的数据内容中提取分类关键词;所述分类模块还用于从所述查询字符中提取查询关键词,将查询关键词与分类关键词进行匹配,得到所述查询关键词的分类类别。
优选地,还包括:
处理模块,用于对所述检索结果进行去重及排序处理;
展示模块,用于展现所述去重及排序处理后的检索结果。
优选地,还包括统计分析模块,所述统计分析模块用于获取各个检索结果的点击次数,将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
优选地,所述处理模块根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果,根据点击次数权重对经过去重处理的检索结果进行排序。
优选地,当搜索视频时,所述处理模块还用于计算检索得到的视频的来源地址指纹,记为第一指纹,计算检索得到的视频缩略图的内容指纹,记为第二指纹,对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹,根据第三指纹对检索得到的视频进行去重处理,删除重复的视频,对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
优选地,还包括缩略图模块,所述缩略图模块用于对视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量,所述处理模块根据视频的缩略图质量从高到低对视频进行排序。
上述搜索方法及系统,通过对用户输入的查询字符进行分类,再根据查询字符及所属的分类类别进行检索,得到的检索结果更加准确的满足用户搜索需求,方便用户选择需要的检索结果,给用户的操作带来便利。
【附图说明】
图1为一个实施例中搜索方法的流程图;
图2为图1中查询字符进行分类处理,得到查询字符的分类类别的具体流程图;
图3为另一个实施例中搜索方法的流程图;
图4为一个实施例中搜索系统的结构示意图;
图5为另一个实施例中搜索系统的结构示意图。
【具体实施方式】
下面结合具体的实施例及附图对技术方案进行详细的描述。
如图1所示,在一个实施例中,一种搜索方法,包括以下步骤:
步骤S100,获取用户输入的查询字符。用户通过键盘、触摸屏等输入查询字符,如输入“建国大业”。
步骤S110,对查询字符进行分类处理,得到查询字符的分类类别。
如图2所示,将查询字符进行分类处理,得到查询字符的分类类别的具体步骤为:
步骤S210,对信息站点进行数据内容抓取,提取分类关键词。抓取信息站点的数据内容进行简单的分类,从数据内容中提取各分类关键词,建立分类关键词表。如数据内容为视频,对视频进行分类,可分为电影、电视剧、综艺、动漫等类别,电影类别提取分类关键词如“冰河世纪”。综艺类别提取分类关键词如“天天向上”。另外,如数据内容为新闻数据,对新闻数据进行分类,如体育、娱乐、财经等。
步骤S220,从查询字符中提取查询关键词。查询字符可包含一些多余字符,如“未来警察电影”,进行过滤处理,得到查询关键词“未来警察”。
步骤S230,将查询关键词与分类关键词进行匹配,得到查询关键词的分类类别。将查询关键词与分类关键词表中的分类关键词进行匹配,得出该查询关键词属于哪个分类类别,如将“未来警察”与分类关键词进行匹配,得出属于电影类别。其中,每个分类类别中对应至少一个分类关键词。
另外,对于同一数据内容有多个标题名称时,使用同义词映射方式进行分类匹配。如同一部电影,不同的名称,采用同义词映射方式分类。
步骤S120,根据查询字符及所属的分类类别进行检索,得到检索结果。
从查询字符中提取查询关键词后,根据查询关键词及分类类别进行检索,得到的检索结果大致满足用户的查询需求。
在一个实施例中,步骤S120之后,还包括对检索结果进行整合的步骤。以视频检索为例,得到检索视频后,根据分类类别,电影、电视剧、动漫、综艺等,进行整合展现更加丰富的信息,如剧名、导演、主演、年代、地区、电视剧集数、剧情介绍、海报等。
在一个实施例中,如图3所示,除了包括步骤S100至步骤S120,还包括:
步骤S130,对检索结果进行去重及排序处理。
检索结果中可能包含多个重复的数据,且对于同内容的数据,数据的质量差异较大,为了保证页面结果不重复,且用户有选择的余地,删除内容重复的数据,保留其中一个,具体步骤为:根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果。
对检索结果进行排序处理具体为:获取各个检索结果的点击次数,根据点击次数权重对经过去重处理的检索结果进行排序。各个互联网数据被点击的次数定期进行更新,以便指导排序。
互联网数据被点击的次数越多,反映了用户的喜好、视频的热度,使用其进行排序可获得较好的展现效果,较好的满足用户的需求。对互联网数据点击次数较高的,可优先进行链接检测,减少了链接地址错误的展示率。
为了防止个别信息站点对点击次数作弊,在一个实施例中,在步骤S130之前,还包括步骤:获取各个检索结果的点击次数;将检索结果的点击次数与预定阈值比较,若大于预定阈值,则对该检索结果的点击次数进行修正,若小于等于预定阈值,则保留该检索结果的点击次数。其中,对检索结果的点击次数进行修正具体可为设定一个上限值,将大于预定阈值的检索结果的点击次数均设为该上限值。各个互联网数据被点击的次数定期进行更新。对点击次数可进行平滑处理,模拟曲线,作为排序因子,对作弊进行排除。该排序因子可采用如下公式计算:
α+β(x+ε)+γlog10δ(x+ε)
其中,α、β、γ、δ、ε为常数,对于点击次数,分区间决定五个参数值。
互联网数据以视频为例,视频点击播放次数可能进行作弊而被放大。而在一定时间段内,点击次数上升的速度比值应该与市场份额比值相差不大。在进行某视频点击作弊判断时,可取出与其相似的其他站点的该视频,对一些列的站点视频点击次数与上传时间的比值作为上升速度,将上升速度与阈值比较,超过该阈值,则判定为作弊视频,可对该视频的点击次数进行修正。
在一个实施例中,搜索视频时,对检索得到的视频进行去重及排序处理的具体包括以下步骤:
(1)计算检索得到的视频的来源地址指纹,记为第一指纹。对检索得到的视频采用md5算法计算出其来源地址指纹。md5(Message Digest Algorithm,消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护,用以为文件产生数字指纹。
(2)计算检索得到的视频缩略图的内容指纹,记为第二指纹。使用md5算法计算出缩略图的内容指纹。
(3)对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹。对视频的标题字符串去噪处理是对标题文本的处理,如空格,标点等的处理,保证相同的视频能够通过指纹判断出来。采用md5算法计算得到第三指纹。
(4)根据第三指纹对检索得到的视频进行去重处理,删除重复的视频。第三指纹是通过去噪处理后的标题字符串及第二指纹结合得到的。视频内容相同的,第三指纹也应相同。根据第三指纹对视频进行去重处理,可删除重复的视频,获得需要的一个视频。
(5)对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
具有相同第二指纹的视频,可进行打散,保证不相邻,使得视频缩略图给人没有重复感。具有相同第一指纹的视频,进行打散,保证了来源地址的多样性。点击次数权重、时长权重、视频标题与查询字符匹配权重,构成一个权重集合,根据该权重集合对视频进行排序,可将高清视频和标清视频混排,既满足高清视频的体验需求,也满足低带宽用户的观看需求。
优选的实施例中,对视频进行去重及排序处理后,还包括步骤:
(a)将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量。
视频的缩略图质量差别比较大,低质量或无缩略图的视频将影响用户的选择。对无缩略图的视频进行标记,将视频缩略图转换为灰度图,采用算法,将灰度图的灰度值表示的为纯色图的进行标记,标识其缩略图为低质量缩略图。也可将灰度图的灰度值与预设的阈值比较,灰度值小于该阈值的为低质量,灰度值大于该阈值的为高质量。
(b)根据视频的缩略图质量从高到低对视频进行排序。
将视频的缩略图质量高的排在前面,方便用户选择。
另外,对于无缩略图或低质量的缩略图可进行缩略图替换,具体为:通过完整标题及时间范围结合进行限定检索,取检索结果中的第一个视频的缩略图,替换当前视频的缩略图。如此既保留了该无缩略图或低质量缩略图视频展现时的位置,也满足了用户进行查看时,观看缩略图的需求。
步骤S140,展现去重及排序处理后的检索结果。将进行去重及排序处理的检索结果展现给用户。
如图4所示,在一个实施例中,一种搜索系统,包括信息获取模块400、分类模块410和检索模块420。
信息获取模块400用于获取用户输入的查询字符。信息获取模块400获取用户通过键盘、触摸屏等输入查询字符,如输入的“建国大业”,还用于获取信息站点进行数据内容抓取,获取所有站点的数据内容。
分类模块410用于对查询字符进行分类处理,得到查询字符的分类类别。
首先,分类模块410用于对信息获取模块400抓取的数据内容,提取分类关键词。对数据内容进行简单的分类,从数据内容中提取各分类关键词,建立分类关键词表。如数据内容为视频,如对视频进行分类,可分为电影、电视剧、综艺、动漫等类别,电影类别提取分类关键词如“冰河世纪”。综艺类别提取分类关键词如“天天向上”。另外,如数据内容为新闻数据,对新闻数据进行分类,如体育、娱乐、财经等。
其次,分类模块410从查询字符中提取查询关键词,将查询关键词与分类关键词进行匹配,得到查询关键词的分类类别。查询字符可包含一些多余字符,如“未来警察电影”,分类模块410进行过滤处理,得到查询关键词“未来警察”,再将查询关键词与分类关键词表中的分类关键词进行匹配,得出该查询关键词属于哪个分类类别,如将“未来警察”与分类关键词进行匹配,得出属于电影类别。其中,每个分类类别中对应至少一个分类关键词。另外,对于同一数据内容有多个标题名称时,使用同义词映射方式进行分类匹配。如同一部电影,不同的名称,采用同义词映射方式分类。
检索模块420用于根据查询字符及所属的分类类别进行检索,得到检索结果。从查询字符中提取查询关键词后,根据查询关键词及分类类别进行检索,得到的检索结果大致满足用户的查询需求。
在一个实施例中,如图5所示,搜索系统除了包括信息获取模块400、分类模块410和检索模块420,还包括处理模块430、展示模块440、统计分析模块450和缩略图模块460。
处理模块430用于对检索结果进行去重及排序处理。检索结果中可能包含多个重复的数据,且对于同内容的数据,数据的质量差异较大,为了保证页面结果不重复,且用户有选择的余地,删除内容重复的数据,保留其中一个,处理模块430根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果。处理模块430对去重后的检索结果进行排序,排序的方式可为多种,如可按信息完整度从高到低排序。
展示模块440用于展现该去重及排序处理后的检索结果。
统计分析模块450用于获取各个检索结果的点击次数。互联网数据被点击的次数越多,反映了用户的喜好、视频的热度,使用其进行排序可获得较好的展现效果,较好的满足用户的需求。各个互联网数据被点击的次数定期进行更新,以便指导排序。
处理模块430还用于根据点击次数权重对经过去重处理的检索结果进行排序。另外,对互联网数据点击次数较高的,可优先进行链接检测,减少了链接地址错误的展示率。
为了防止个别信息站点对点击次数作弊,统计分析模块450还用于将检索结果的点击次数与预定阈值比较,若大于预定阈值,则对该检索结果的点击次数进行修正,若小于等于预定阈值,则保留该检索结果的点击次数。各个互联网数据被点击的次数定期进行更新。其中,对检索结果的点击次数进行修正具体可为设定一个上限值,将大于预定阈值的检索结果的点击次数均设为该上限值。对点击次数可进行平滑处理,模拟曲线,作为排序因子,对作弊进行排除。该排序因子可采用如下公式计算:
α+β(x+ε)+γlog10δ(x+ε)
其中,α、β、γ、δ、ε为常数,对于点击次数,分区间决定五个参数值。
互联网数据以视频为例,视频点击播放次数可能进行作弊而被放大。而在一定时间段内,点击次数上升的速度比值应该与市场份额比值相差不大。在进行某视频点击作弊判断时,可取出与其相似的其他站点的该视频,对一些列的站点视频点击次数与上传时间的比值作为上升速度,将上升速度与阈值比较,超过该阈值,则判定为作弊视频,可对该视频的点击次数进行修正。
在一个实施例中,搜索视频时,处理模块430对检索得到的视频进行去重及排序处理的具体过程如下:
(1)计算检索得到的视频的来源地址指纹,记为第一指纹。对检索得到的视频采用md5算法计算出其来源地址指纹。md5(Message Digest Algorithm,消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护,用以为文件产生数字指纹。
(2)计算检索得到的视频缩略图的内容指纹,记为第二指纹。使用md5算法计算出缩略图的内容指纹。
(3)对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹。对视频的标题字符串去噪处理是对标题文本的处理,如空格,标点等的处理,保证相同的视频能够通过指纹判断出来。采用md5算法计算得到第三指纹。
(4)根据第三指纹对检索得到的视频进行去重处理,删除重复的视频。第三指纹是通过去噪处理后的标题字符串及第二指纹结合得到的。视频内容相同的,第三指纹也应相同。根据第三指纹对视频进行去重处理,可删除重复的视频,获得需要的一个视频。
(5)对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
具有相同第二指纹的视频,可进行打散,保证不相邻,使得视频缩略图给人没有重复感。具有相同第一指纹的视频,进行打散,保证了来源地址的多样性。点击次数权重、时长权重、视频标题与查询字符匹配权重,构成一个权重集合,根据该权重集合对视频进行排序,可将高清视频和标清视频混排,既满足高清视频的体验需求,也满足低带宽用户的观看需求。
优选的实施例中,缩略图模块460还用于将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量,处理模块430根据视频的缩略图质量从高到低对视频进行排序。
视频的缩略图质量差别比较大,低质量或无缩略图的视频将影响用户的选择。对无缩略图的视频进行标记,将视频缩略图转换为灰度图,采用算法,将灰度图的灰度值表示的为纯色图的进行标记,标识其缩略图为低质量缩略图。也可将灰度图的灰度值与预设的阈值比较,灰度值小于该阈值的为低质量,灰度值大于该阈值的为高质量。将视频的缩略图质量高的排在前面,方便用户选择。
另外,对于无缩略图或低质量的缩略图可进行缩略图替换,检索模块420通过完整标题及时间范围结合进行限定检索,缩略图模块460取检索结果中的第一个视频的缩略图,替换当前视频的缩略图。如此既保留了该无缩略图或低质量缩略图视频展现时的位置,也满足了用户进行查看时,观看缩略图的需求。
上述搜索系统应用于搜索明星人物相关的视频时,信息获取模块400从互联网数据中获取明星全集,并实时跟踪信息更新到信息库中;分类模块410对获取的明星全集进行分类,如电影类、MV、综艺类等,可根据视频标题进行简单分类;信息获取模块400获取到用户输入的查询明星人物名称,分类模块410对该明星人物名称进行匹配,得到分类类别,检索模块420根据该查询字符及分类类别进行检索,处理模块430对检索结果进行判断,该检索结果的数据是否大于等于统计阈值,若是,则展示模块440将展现该类别的检索结果。
上述搜索系统应用于搜索影视剧时,针对同名影视剧,信息获取模块400可获取用户输入的查询字符中包括影视剧名加扩展关键词,检索模块420根据影视剧名加扩展关键词一起检索,排出同名剧的检索结果。该扩展关键词可为“主演是谁”等。
上述搜索方法及系统,不仅可应用检索视频数据,还可检索新闻数据等。
上述搜索方法及系统,通过对用户输入的查询字符进行分类,再根据查询字符及所属的分类类别进行检索,得到的检索结果更加准确的满足用户搜索需求,方便用户选择需要的检索结果,给用户的操作带来便利。
另外,采用对点击次数过高的数据进行排出,有效的防止点击作弊;采用对视频缩略图分析得出缩略图的质量,根据视频缩略图的质量进行排序,方便用户操作。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种搜索方法,包括以下步骤:
获取用户输入的查询字符;
对所述查询字符进行分类处理,得到查询字符的分类类别;
根据所述查询字符及所属的分类类别进行检索,得到检索结果。
2.根据权利要求1所述的搜索方法,其特征在于,所述对查询字符进行分类处理,得到查询字符的分类类别的步骤具体包括:
对信息站点进行数据内容抓取,提取分类关键词;
从所述查询字符中提取查询关键词;
将所述查询关键词与所述分类关键词进行匹配,得到所述查询关键词的分类类别。
3.根据权利要求1所述的搜索方法,其特征在于,还包括步骤:
对所述检索结果进行去重及排序处理;
展现所述去重及排序处理后的检索结果。
4.根据权利要求3所述的搜索方法,其特征在于,在对所述检索结果进行去重及排序处理的步骤之前还包括:
获取各个检索结果的点击次数;
将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
5.根据权利要求3所述的搜索方法,其特征在于,所述对检索结果进行去重及排序处理的步骤具体包括:
根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果;
根据点击次数权重对经过去重处理的检索结果进行排序。
6.根据权利要求3所述的搜索方法,其特征在于,当搜索视频时,所述对检索结果进行去重及排序处理的步骤具体为:
计算检索得到的视频的来源地址指纹,记为第一指纹;
计算检索得到的视频缩略图的内容指纹,记为第二指纹;
对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹;
根据第三指纹对检索得到的视频进行去重处理,删除重复的视频;
对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
7.根据权利要求6所述的搜索方法,其特征在于,在所述对检索结果进行去重及排序处理的步骤之后还包括:
将视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量;
根据视频的缩略图质量从高到低对视频进行排序。
8.一种搜索系统,其特征在于,包括:
信息获取模块,用于获取用户输入的查询字符;
分类模块,用于对所述查询字符进行分类处理,得到所述查询字符的分类类别;
检索模块,用于根据所述查询字符及所属的分类类别进行检索,得到检索结果。
9.根据权利要求8所述的搜索系统,其特征在于,所述信息获取模块还用于对信息站点进行数据内容抓取,所述分类模块还用于从抓取的数据内容中提取分类关键词;所述分类模块还用于从所述查询字符中提取查询关键词,将查询关键词与分类关键词进行匹配,得到所述查询关键词的分类类别。
10.根据权利要求8所述的搜索系统,其特征在于,还包括:
处理模块,用于对所述检索结果进行去重及排序处理;
展示模块,用于展现所述去重及排序处理后的检索结果。
11.根据权利要求10所述的搜索系统,其特征在于,还包括统计分析模块,所述统计分析模块用于获取各个检索结果的点击次数,将检索结果的点击次数与预定阈值比较,若大于所述预定阈值,则对所述检索结果的点击次数进行修正,若小于等于所述预定阈值,则保留所述检索结果的点击次数。
12.根据权利要求10所述的搜索系统,其特征在于,所述处理模块根据检索结果的网址、标题名称及信息完整度,从多个重复的检索结果中筛选出信息完整度最高的一个检索结果,根据点击次数权重对经过去重处理的检索结果进行排序。
13.根据权利要求10所述的搜索系统,其特征在于,当搜索视频时,所述处理模块还用于计算检索得到的视频的来源地址指纹,记为第一指纹,计算检索得到的视频缩略图的内容指纹,记为第二指纹,对检索得到的视频的标题字符串进行去噪处理,将去噪后的标题字符串和第二指纹进行计算得到第三指纹,根据第三指纹对检索得到的视频进行去重处理,删除重复的视频,对去重后具有相同第一指纹和/或第二指纹的视频根据点击次数权重、时长权重及视频标题与查询字符匹配权重进行排序。
14.根据权利要求10所述的搜索系统,其特征在于,还包括缩略图模块,所述缩略图模块用于对视频的缩略图转换为灰度图,根据灰度图的灰度值分析得出视频的缩略图的质量,所述处理模块根据视频的缩略图质量从高到低对视频进行排序。
CN201110084224.1A 2011-04-02 2011-04-02 搜索方法及系统 Active CN102737029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110084224.1A CN102737029B (zh) 2011-04-02 2011-04-02 搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110084224.1A CN102737029B (zh) 2011-04-02 2011-04-02 搜索方法及系统

Publications (2)

Publication Number Publication Date
CN102737029A true CN102737029A (zh) 2012-10-17
CN102737029B CN102737029B (zh) 2017-01-18

Family

ID=46992551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110084224.1A Active CN102737029B (zh) 2011-04-02 2011-04-02 搜索方法及系统

Country Status (1)

Country Link
CN (1) CN102737029B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530374A (zh) * 2013-10-15 2014-01-22 镇江三鑫科技信息有限公司 一种高效搜索方法
WO2014114143A1 (en) * 2013-01-23 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
WO2014173243A1 (en) * 2013-04-26 2014-10-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining webpages
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法
CN104484374A (zh) * 2014-12-08 2015-04-01 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
CN104767653A (zh) * 2015-01-29 2015-07-08 小米科技有限责任公司 一种网络接口监控的方法和装置
CN105786977A (zh) * 2016-02-05 2016-07-20 北京百度网讯科技有限公司 基于人工智能的移动搜索方法和装置
CN106231354A (zh) * 2016-07-28 2016-12-14 青岛海信传媒网络技术有限公司 节目聚合方法及装置
WO2017113725A1 (zh) * 2015-12-31 2017-07-06 乐视控股(北京)有限公司 一种关联信息的获取与排序方法和系统
CN107145510A (zh) * 2017-03-31 2017-09-08 西安科技大学 一种数学公式搜索方法及装置
CN104063370B (zh) * 2014-07-01 2017-09-22 北京博雅立方科技有限公司 一种基于关键词的智能分组方法及装置
CN107341268A (zh) * 2017-07-25 2017-11-10 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN107608981A (zh) * 2016-07-11 2018-01-19 顺丰科技有限公司 基于正则表达式的字符匹配方法及系统
CN109522390A (zh) * 2018-11-14 2019-03-26 山东大学 一种搜索结果展示方法和装置
CN109902713A (zh) * 2019-01-17 2019-06-18 平安城市建设科技(深圳)有限公司 基于数据分析的楼盘推荐方法、设备、存储介质及装置
CN111078965A (zh) * 2019-12-27 2020-04-28 王小虎 进出口商品认证查询系统
CN112035688A (zh) * 2019-06-04 2020-12-04 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
CN112380412A (zh) * 2020-11-11 2021-02-19 深圳供电局有限公司 一种基于大数据的筛选匹配信息的优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114295A (zh) * 2007-08-11 2008-01-30 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统
US7415460B1 (en) * 2007-12-10 2008-08-19 International Business Machines Corporation System and method to customize search engine results by picking documents
CN101996182A (zh) * 2009-08-13 2011-03-30 上海杉达学院 开放式快速查询系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN101114295A (zh) * 2007-08-11 2008-01-30 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
US7415460B1 (en) * 2007-12-10 2008-08-19 International Business Machines Corporation System and method to customize search engine results by picking documents
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统
CN101996182A (zh) * 2009-08-13 2011-03-30 上海杉达学院 开放式快速查询系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454568B2 (en) 2013-01-23 2016-09-27 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
WO2014114143A1 (en) * 2013-01-23 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method, apparatus and computer storage medium for acquiring hot content
WO2014173243A1 (en) * 2013-04-26 2014-10-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining webpages
US10110659B2 (en) 2013-04-26 2018-10-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining webpages
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法
CN103530374A (zh) * 2013-10-15 2014-01-22 镇江三鑫科技信息有限公司 一种高效搜索方法
CN104063370B (zh) * 2014-07-01 2017-09-22 北京博雅立方科技有限公司 一种基于关键词的智能分组方法及装置
CN104484374A (zh) * 2014-12-08 2015-04-01 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
CN104484374B (zh) * 2014-12-08 2018-11-16 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置
CN104767653A (zh) * 2015-01-29 2015-07-08 小米科技有限责任公司 一种网络接口监控的方法和装置
CN104767653B (zh) * 2015-01-29 2018-09-04 小米科技有限责任公司 一种网络接口监控的方法和装置
WO2017113725A1 (zh) * 2015-12-31 2017-07-06 乐视控股(北京)有限公司 一种关联信息的获取与排序方法和系统
CN105786977A (zh) * 2016-02-05 2016-07-20 北京百度网讯科技有限公司 基于人工智能的移动搜索方法和装置
CN105786977B (zh) * 2016-02-05 2020-03-03 北京百度网讯科技有限公司 基于人工智能的移动搜索方法和装置
CN107608981A (zh) * 2016-07-11 2018-01-19 顺丰科技有限公司 基于正则表达式的字符匹配方法及系统
CN107608981B (zh) * 2016-07-11 2021-11-12 深圳市丰驰顺行信息技术有限公司 基于正则表达式的字符匹配方法及系统
CN106231354A (zh) * 2016-07-28 2016-12-14 青岛海信传媒网络技术有限公司 节目聚合方法及装置
CN107145510A (zh) * 2017-03-31 2017-09-08 西安科技大学 一种数学公式搜索方法及装置
CN107341268A (zh) * 2017-07-25 2017-11-10 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN107341268B (zh) * 2017-07-25 2020-06-05 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN109522390A (zh) * 2018-11-14 2019-03-26 山东大学 一种搜索结果展示方法和装置
CN109902713A (zh) * 2019-01-17 2019-06-18 平安城市建设科技(深圳)有限公司 基于数据分析的楼盘推荐方法、设备、存储介质及装置
CN112035688A (zh) * 2019-06-04 2020-12-04 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
CN112035688B (zh) * 2019-06-04 2022-12-13 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
CN111078965A (zh) * 2019-12-27 2020-04-28 王小虎 进出口商品认证查询系统
CN112380412A (zh) * 2020-11-11 2021-02-19 深圳供电局有限公司 一种基于大数据的筛选匹配信息的优化方法

Also Published As

Publication number Publication date
CN102737029B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN102737029A (zh) 搜索方法及系统
CN109684513B (zh) 一种低质量视频识别方法及装置
CN106600343B (zh) 一种视频内容关联的在线视频广告管理方法及系统
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN103544216B (zh) 一种结合图像内容和关键字的信息推荐方法及系统
US9087297B1 (en) Accurate video concept recognition via classifier combination
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
US8478759B2 (en) Information presentation apparatus and mobile terminal
US20080294625A1 (en) Item recommendation system
CN104408115B (zh) 一种电视平台上基于语义链接的异构资源推荐方法和装置
CN103226569A (zh) 一种视频提供方法、装置和系统
CN104462573A (zh) 一种视频搜索结果展示方法及装置
KR101354721B1 (ko) 검색 시스템 및 검색 서비스 방법
CN102549603A (zh) 基于相关性的图像选择
US9398350B1 (en) Video matching service to offline counterpart
CN111861550B (zh) 一种基于ott设备的家庭画像构建方法及系统
CN110008378A (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
CN105786793A (zh) 解析口语文本信息的语义的方法和装置
CN105574030A (zh) 一种信息搜索方法及装置
TW200834355A (en) Information processing apparatus and method, and program
CN103688256A (zh) 基于评论信息确定视频质量参数的方法、装置和系统
CN113158048A (zh) 一种基于特征识别的移动互联网浏览内容智能推荐方法、系统、设备及存储介质
CN104363478B (zh) 一种节目标签关联规则分析系统及方法
WO2014108457A1 (en) Method for identifying objects in an audiovisual document and corresponding device
CN113204670B (zh) 一种基于注意力模型的视频摘要描述生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131015

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131015

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant