CN105574030B - 一种信息搜索方法及装置 - Google Patents
一种信息搜索方法及装置 Download PDFInfo
- Publication number
- CN105574030B CN105574030B CN201410546691.5A CN201410546691A CN105574030B CN 105574030 B CN105574030 B CN 105574030B CN 201410546691 A CN201410546691 A CN 201410546691A CN 105574030 B CN105574030 B CN 105574030B
- Authority
- CN
- China
- Prior art keywords
- information
- keyword
- search
- aggregate
- clicks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种信息搜索方法及装置,属于互联网通信领域。所述方法包括:接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,所述历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。所述装置包括:接收模块、搜索模块、筛选模块和发送模块。本发明能够提高筛选信息的准确性。
Description
技术领域
本发明涉及互联网通信领域,特别涉及一种信息搜索方法及装置。
背景技术
目前,为了使用户从海量的信息中快速查找需要的信息,出现了很多专门用于搜索信息的搜索平台。用户可以通过终端登录搜索平台来搜索需要的信息。例如,视频搜索平台是专门用于搜索视频的搜索平台,用户可以通过终端登录视频搜索平台来搜索需要的视频。
当前,现有技术提供了一种信息搜索方法,包括:终端接收用户输入的关键词,将该关键词发送给服务器。服务器根据该关键词获取所有与该关键词匹配的信息,计算每个信息与该关键词之间的相关度,然后根据技术人员事先凭经验设定的筛选条件,对获取的信息进行筛选,舍弃不满足筛选条件的信息。其中,筛选条件与信息的特征有关,信息的特征可以为相关度、点击量或更新时间等。例如,筛选条件可以为保留相关度大于预设阈值或点击量大于预设阈值的信息等。将剩余的信息按照相关度从高到低的顺序进行排序,将排序后的信息发送给终端。终端接收服务器发送的信息,将接收的信息显示给用户。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
技术人员凭经验设定筛选条件,由于技术人员的经验不足,从而很难设定出涵盖信息的所有特征的筛选条件,如此根据该筛选条件来筛选信息,导致筛选信息的准确性很低。
发明内容
为了提高筛选信息的准确性,本发明提供了一种信息搜索方法及装置。所述技术方案如下:
一种信息搜索方法,所述方法包括:
接收终端发送的关键词;
根据所述关键词,搜索与所述关键词匹配的信息;
从所述信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合;
向所述终端发送所述第一信息集合;
在所述从所述信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合之前,所述方法还包括:
根据历史搜索记录中包括的点击次数满足预设点击条件的信息的信息特征和所述信息对应的关键词的特征,通过预设的分类模型设置预设筛选条件,所述历史搜索记录中包括的历史搜索的关键词、所述关键词对应的信息和所述信息的点击次数。
一种信息搜索装置,所述装置包括:
接收模块,用于接收终端发送的关键词;
搜索模块,用于根据所述关键词,搜索与所述关键词匹配的信息;
筛选模块,用于从所述信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合;
发送模块,用于向所述终端发送所述第一信息集合;
在所述筛选模块执行操作之前,所述装置还用于根据历史搜索记录中包括的点击次数满足预设点击条件的信息的信息特征和所述信息对应的关键词的特征,通过预设的分类模型设置预设筛选条件,所述历史搜索记录中包括的历史搜索的关键词、所述关键词对应的信息和所述信息的点击次数。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
附图说明
图1是本发明实施例1提供的一种信息搜索方法流程图;
图2-1是本发明实施例2提供的一种信息搜索方法流程图;
图2-2是本发明实施例2提供的一种搜索接口的示意图;
图3是本发明实施例3提供的一种信息搜索方法流程图;
图4是本发明实施例4提供的一种信息搜索装置的结构示意图;
图5是本发明实施例5提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本发明实施例提供了一种信息搜索方法,包括:
步骤101:接收终端发送的关键词;
步骤102:根据该关键词,搜索与该关键词匹配的信息;
步骤103:从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;
步骤104:向终端发送第一信息集合。
优选地,从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,包括:
分别计算每个信息与该关键词之间的相关度;
将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于预设阈值的信息组成第二信息集合;
分别获取第二信息集合中包括的每个信息的信息特征,以及获取该关键词的特征;
根据第二信息集合中包括的每个信息的信息特征以及该关键词的特征,从第二信息集合中筛选出满足某一预设筛选条件的信息,将筛选的信息加入第一信息集合。
进一步地,接收终端发送的关键词之前,还包括:
从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合以及获取第三信息集合中的每个信息对应的关键词并构成关键词集合;
根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,设置预设筛选条件。
优选地,从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合,包括:
从第一搜索平台存储的历史搜索记录中,获取历史搜索记录中包括的每个信息的点击次数;
从每个信息中,获取点击次数大于预设次数阈值的信息并构成第三信息集合;或者,
从每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合。
进一步地,从每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合之后,还包括:
从第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合,第一关键词为关键词集合中包括的任一关键词;
根据第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合,第二搜索平台为搜索平台中除第一搜索平台以外的任一搜索平台;
从第四信息集合中获取信息类型与类型集合中的每种信息类型相同的信息,从第三信息集合中去除获取的信息。
优选地,根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,设置预设筛选条件,包括:
根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,通过分类模型统计预设筛选条件,该分类模型至少包括决策树模型、朴素贝叶斯模型和支持向量机。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
实施例2
本发明实施例提供了一种信息搜索方法。
当用户通过终端登录第一搜索平台来搜索需要的信息时,第一搜索平台可以通过本发明实施例提供的方法来搜索信息。其中,第一搜索平台为搜索平台中包括的任一搜索平台。
其中,搜索平台可以为视频搜索平台等,视频搜索平台是专门用于搜索视频的搜索平台。
参见图2-1,该方法具体包括:
其中,在搜索信息之前,需要通过如下步骤201-204的操作来设置筛选信息的预设筛选条件,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数。
步骤201:从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合,该预设点击条件为信息的点击次数大于预设次数阈值;
其中,用户通过第一搜索平台搜索信息时,第一搜索平台记录了用户搜索的关键词,以及根据该关键词搜索到的信息,同时记录了搜索到的每个信息被用户点击的点击次数,并将记录的用户历史搜索的关键词、该关键词对应的信息和该信息的点击次数组成历史搜索记录。
本步骤具体为,从第一搜索平台存储的历史搜索记录中,获取该历史搜索记录中包括的每个信息的点击次数。从历史搜索记录中包括的每个信息中,获取点击次数大于预设次数阈值的信息并构成第三信息集合。
例如,本发明实施例以搜索视频为例进行说明,则第一搜索平台为第一视频搜索平台,搜索的信息为视频。假设预设次数阈值为500次。第一视频搜索平台从第一视频搜索平台存储的如表1所示的历史搜索记录中,获取该历史搜索记录中包括的每个视频的点击次数,分别为Video1为1000次,Video2为1500次,Video3为800次,Video4为100次,Video5为50次,Video6为20次,Video7为10次,Video8为15次,Video9为30次。从该历史搜索记录中包括的每个视频中,获取点击次数大于预设次数阈值的视频,即获取了视频Video1、Video2和Video3,将获取的视频Video1、Video2和Video3构成第三视频集合U3。
表1
其中,由于第三信息集合中的每个信息的点击次数都大于预设次数阈值,说明很多用户搜索到这些信息之后浏览了这些信息,因此认为这些信息都是符合用户需求的。例如,假设用户根据关键词“张三出游”搜索信息,搜索出信息1和信息2,用户点击了信息1而没有点击信息2,则认为信息1是符号用户需求的信息,而信息2不是符号用户需求的信息。
步骤202:获取第三信息集合中的每个信息对应的关键词并构成关键词集合;
具体地,从历史搜索记录中获取第三信息集合中的每个信息对应的关键词,将获取的关键词构成关键词集合。
例如,从如表1所示的历史搜索记录中获取第三视频集合U3中的视频Video1、Video2和Video3对应的关键词均为“张三出游”,将获取的关键词“张三出游”构成关键词集合V1。
其中,根据上述步骤201和202的操作获取到第三信息集合和关键词集合之后,可以通过如下步骤203和204的操作来设置筛选信息的预设筛选条件。
步骤203:获取第三信息集合中的每个信息的信息特征,以及获取该关键词集合中的每个关键词的特征;
其中,信息的信息特征至少包括信息与关键词之间的相关度、信息的点击次数、信息的更新时间等,信息的文本内容中包括了信息的更新时间。关键词的特征至少包括关键词包括的每个分词的属性等,该属性可以为人名或地名等。第一搜索平台上事先设置了一种或几种属性及属性对应的分词库,属性对应的分词库中包括大量该属性的分词,对于不在事先设置的属性对应的分词库中的分词可以均设为“其他”属性。例如,假设第一搜索平台中事先设置了人名属性及其对应的人名库,人名库中包括分词“张三”,则关键词“张三出游”包括的分词“张三”的属性为人名,而分词“出游”的属性为“其他”属性。
本步骤具体为,对于第三信息集合中的每个信息,计算该信息与其对应的关键词之间的相关度。从历史搜索记录中获取该信息的点击次数,从该信息的文本内容中获取该信息的更新时间。将计算的相关度、获取的点击次数和更新时间组成该信息的信息特征。对于第三信息集合中的其他每个信息,都可以同该信息按照上述方式分别获取其他每个信息的信息特征。对于该关键词集合中的每个关键词,对该关键词进行分词处理,得到该关键词包括的每个分词,根据事先设置的属性及属性对应的分词库,确定每个分词的属性,将每个分词的属性确定为该关键词的特征。对于关键词集合中的其他每个关键词,都可以同该关键词按照上述方式分别获取其他每个关键词的特征。
其中,可以通过如下方式来计算信息与其对应的关键词之间的相关度,具体为:
对该信息对应的关键词进行分词处理,得到该关键词包括的每个分词。对该信息的文本内容进行扫描,确定该信息中包含的该关键词包括的分词的个数。计算确定的个数与该关键词包括的分词的总个数之间的比值,将计算的比值作为该信息与其对应的关键词之间的相关度。例如,关键词“张三出游”包括分词“张三”和“出游”,假设该关键词“张三出游”对应的信息1中仅包含分词“张三”,则信息1与该关键词“张三出游”之间的相关度为0.5。
例如,假设事先设置了属性人名及其对应的人名库,该人名库中包括分词“张三”。计算第三视频集合U3包括的视频Video1与其对应的关键词“张三出游”之间的相关度,假设计算的相关度为1。从如表1所示的历史搜索记录中获取视频Video1的点击次数为1000,从视频Video1的文本内容中获取视频Video1的更新时间,假设获取的更新时间为10月1日。将计算的相关度1、获取的点击次数1000和更新时间10月1日组成视频Video1的视频特征S1。同样按照上述方式获取视频Video2和Video3的视频特征分别为S2和S3。对关键词集合V1包括的关键词“张三出游”进行分词处理,得到关键词“张三出游”包括的分词“张三”和“出游”,根据事先设置的属性人名及其对应的人名库,确定出分词“张三”的属性为人名,分词“出游”的属性为“其他”属性,将分词“张三”的属性为人名和分词“出游”的属性为“其他”属性确定为关键词“张三出游”的特征T1。
步骤204:根据第三信息集合中的每个信息的信息特征和该关键词集合中的每个关键词的特征,设置预设筛选条件;
具体地,将第三信息集合中的每个信息的信息特征和该关键词集合中的每个关键词的特征输入给分类模型,通过分类模型进行训练学习,统计出预设筛选条件,该分类模型至少包括GBDT(Gradient Boosting Decision Tree,决策树模型)、朴素贝叶斯模型和SVM(Support Vector Machine,支持向量机)。
例如,假设分类模型为GBDT,将第三视频集合U3中的视频Video1、Video2和Video3的视频特征S1、S2和S3,以及该关键词集合V1中的关键词“张三出游”的特征T1输入给分类模型GBDT,通过分类模型GBDT进行训练学习,统计出预设筛选条件。
其中,可以统计出多个与信息的信息特征相关的预设筛选条件。例如,与信息和关键词之间的相关度有关的预设筛选条件,与信息的点击次数有关的预设筛选条件,或者与信息的更新时间有关的预设筛选条件等。
其中,对于分类模型可以通过如下方式来设置预设筛选模型,具体为:
对于与信息和关键词之间的相关度有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息与该关键词之间的相关度。从这些相关度中获取相关度最大的第一预设个数个相关度。计算获取的相关度的平均值,将该平均值作为预设相关度阈值。设置与相关度有关的预设筛选条件为筛选相关度大于该预设相关度阈值的信息。例如,假设第三信息集合中的每个信息与该关键词之间的相关度分别为0.5、0.2、0.85、1和0.9,第一预设个数为3。则从第三信息集合中的每个信息的特征中获取相关度最大的3个相关度分别为0.85、9和1。计算这三个相关度的平均值为0.92。将0.92作为预设相关度阈值。设置与相关度有关的预设筛选条件为筛选相关度大于0.92的信息。
对于与信息的点击次数有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息的点击次数。从这些点击次数中获取点击次数最大的第二预设个数个点击次数。计算获取的点击次数的平均值,将该平均值作为预设次数阈值。设置与点击次数有关的预设筛选条件为筛选点击次数大于该预设次数阈值的信息。例如,假设第三信息集合中的每个信息的点击次数分别为500、1000、1500、300和20,第二预设个数为4。则从第三信息集合中的每个信息的信息特征中获取点击次数最大的4个点击次数分别为300、500、1000和1500,计算这4个点击次数的平均值为825,将该平均值825作为预设次数阈值,设置与点击次数有关的预设筛选条件为筛选点击次数大于825的信息。
对于与信息的更新时间有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息的更新时间。确定位于这些更新时间的中位数位置的更新时间,计算该更新时间与当前时间之间的时间差,将该时间差确定为预设时间阈值,设置与更新时间有关的预设筛选条件为筛选更新时间与当前时间之间的时间差小于预设时间阈值的信息。例如,假设第三信息集合中每个信息的更新时间分别为10月1日、9月1日、11月1日、7月1日和8月1日,当前时间为12月1日,则位于这些更新时间的中位数位置的更新时间为9月1日,计算该更新时间9月1日与当前时间12月1日之间的时间差为3个月,将该时间差确定为预设时间阈值,设置与更新时间有关的预设筛选条件为筛选更新时间与当前时间之间的时间差小于3个月的信息。
其中,对于其他搜索平台,都可以同第一搜索平台按照上述步骤201-204的操作来设置筛选信息的预设筛选条件。
其中,通过上述步骤201-204的操作设置好预设筛选条件之后,可以通过如下步骤205-207的操作来搜索信息。
步骤205:接收终端发送的关键词;
其中,终端为用户提供了搜索接口,该搜索接口包括关键词输入框和搜索按钮。当用户需要搜索信息时,用户可以在关键词输入框中输入关键词,并通过点击搜索按钮向终端提交搜索请求。当终端接收到用户提交的搜索请求时,终端从关键词输入框中获取用户输入的关键词,并将该关键词发送给第一搜索平台。第一搜索平台接收终端发送的关键词。
例如,终端为用户A提供了如图2-2所示的搜索接口,该搜索接口包括关键词输入框和搜索按钮。当用户A需要搜索信息时,用户A可以在关键词输入框中输入关键词“张三庆生”,并通过点击搜索按钮向终端提交搜索请求。当终端接收到用户A提交的搜索请求时,终端从关键词输入框中获取用户A输入的关键词“张三庆生”,并将该关键词“张三庆生”发送给第一视频搜索平台。第一视频搜索平台接收终端发送的关键词“张三庆生”。
步骤206:根据该关键词,搜索与该关键词匹配的信息;
具体地,对该关键词进行分词处理,得到该关键词包括的每个分词。从资源库中搜索至少包含每个分词中的一个分词的信息,将搜索的信息确定为与该关键词匹配的信息。
例如。对该关键词“张三庆生”进行分词处理,得到该关键词“张三庆生”包括的分词“张三”和“庆生”。从资源库中搜索包含分词“张三”的视频,或这包含分词“庆生”的视频、或既包含分词“张三”也包含分词“庆生”的视频。假设搜索的视频为Video10、Video11和Video12,将搜索的视频Video10、Video11和Video12确定为与该关键词“张三庆生”匹配的视频。
其中,由于一般搜索出的与该关键词匹配的信息的数量非常多,由于搜索到的信息中有一些信息与关键词之间的相关度很低或更新时间很早等原因,因此这些信息很有可能不是用户需要的信息。所以通过上述步骤206的操作搜索到与该关键词匹配的每个信息之后,还需要通过如下步骤207的操作从搜索到的信息中筛选信息。
步骤207:从搜索的信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合;
具体地,分别计算搜索的每个信息与该关键词之间的相关度。将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于该预设阈值的的信息组成第二信息集合。分别获取第二信息集合中包括的每个信息的信息特征,以及获取该关键词的特征。根据第二信息集合中包括的每个信息的信息特征以及该关键词的特征,从第二信息集合中筛选出满足某一预设筛选条件的信息,将筛选的信息加入第一信息集合中。
其中,由于相关度大于预设阈值的信息与该关键词的相关度非常高,因此默认这部分信息极有可能是用户需要的信息,因此不必通过预设筛选条件对这部分信息进行筛选。
其中,计算每个信息与该关键词之间的相关度的操作,获取信息的信息特征的操作以及获取关键词的特征的操作均与步骤203中的操作相同,在此不再赘述。
例如,假设预设阈值为0.9。分别计算视频Video10、Video11和Video12与该关键词“张三庆生”之间的相关度,假设计算的相关度分别为1、0.8和0.6。将相关度大于预设阈值0.9的视频Video10组成第一视频集合U1,以及将相关度小于或等于该预设阈值0.9的的视频Video11和Video12组成第二视频集合U2。分别获取第二视频集合U2中包括的视频Video11和Video12的视频特征,假设获取的视频Video11和Video12和视频特征分别为S11和S12。获取该关键词“张三庆生”的特征T2。根据第二视频集合U2中包括的视频Video11和Video12的视频特征S11和S12以及该关键词“张三庆生”的特征T2,从第二视频集合U2中筛选出满足某一预设筛选条件的视频,假设筛选出的视频为Video11,将筛选的视频Video11加入第一视频集合U1中。
其中,通过上述步骤207的操作获取到第一信息集合之后,通过如下步骤208的操作将第一信息集合发送给终端。
步骤208:向终端发送第一信息集合。
例如,向终端发送第一视频集合U1,第一视频集合U1中包括视频Video10和Video11。
其中,对于其他任一搜索平台,都可以同第一搜索平台按照本发明实施例提供的方法来搜索信息。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
实施例3
本发明实施例提供了一种信息搜索方法。
当用户通过终端登录第一搜索平台来搜索需要的信息时,第一搜索平台可以通过本发明实施例提供的方法来搜索信息。其中,第一搜索平台为搜索平台中包括的任一搜索平台。
其中,搜索平台可以为视频搜索平台等,视频搜索平台是专门用于搜索视频的搜索平台。
参见图3,该方法具体包括:
其中,在搜索信息之前,需要通过如下步骤301-304的操作来设置筛选信息的预设筛选条件,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数。
步骤301:从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合,该预设点击条件为信息的点击次数小于或等于预设次数阈值;
其中,用户通过第一搜索平台搜索信息时,第一搜索平台记录了用户搜索的关键词,以及根据该关键词搜索到的信息,同时记录了搜索到的每个信息被用户点击的点击次数,并将记录的用户历史搜索的关键词、该关键词对应的信息和该信息的点击次数组成历史搜索记录。
本步骤具体为,从第一搜索平台存储的历史搜索记录中,获取该历史搜索记录中包括的每个信息的点击次数。从历史搜索记录中包括的每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合。
例如,本发明实施例以搜索视频为例进行说明,则第一搜索平台为第一视频搜索平台,搜索的信息为视频。假设预设次数阈值为500次。第一视频搜索平台从第一视频搜索平台存储的如表1所示的历史搜索记录中,获取该历史搜索记录中包括的每个视频的点击次数,分别为Video1为1000次,Video2为1500次,Video3为800次,Video4为100次,Video5为50次,Video6为20次,Video7为10次,Video8为15次,Video9为30次。从该历史搜索记录中包括的每个视频中,获取点击次数小于或等于预设次数阈值的视频,即获取了视频Video4、Video5、Video6、Video7、Video8和Video9,将获取的视频Video4、Video5、Video6、Video7、Video8和Video9构成第三视频集合U3。
其中,由于第三信息集合中的每个信息的点击次数都小于或等于预设次数阈值,说明很多用户搜索到这些信息之后没有浏览这些信息,因此认为这些信息都是不符合用户需求的。例如,假设用户根据关键词“张三出游”搜索信息,搜索出信息1和信息2,用户点击了信息1而没有点击信息2,则认为信息1是符号用户需求的信息,而信息2是不符号用户需求的信息。
步骤302:获取第三信息集合中的每个信息对应的关键词并构成关键词集合;
具体地,从历史搜索记录中获取第三信息集合中的每个信息对应的关键词,将获取的关键词构成关键词集合。
例如,从如表1所示的历史搜索记录中获取第三视频集合U3中的视频Video4、Video5和Video6对应的关键词均为“李四街拍”,以及获取视频Video7、Video8和Video9对应的关键词均为“王二获奖”,将获取的关键词“李四街拍”和“王二获奖”构成关键词集合V1。
其中,在第三信息集合中仍可能既存在符合用户需求的信息,也存在不符合用户需求的信息。因此在通过上述步骤301和步骤302的操作获取到第三信息集合和关键词集合之后,还可以通过如下步骤303的操作来去除第三信息集合中不符合用户需求的信息。
步骤303:去除第三信息集合中不满足预设条件的信息;
其中,第一关键词为关键词集合中的任一关键词。在第三信息集合中第一关键词对应的每个信息构成第四信息集合。在第二搜索平台存储的历史搜索记录中第一关键词对应的每个信息的信息类型构成类型集合。该预设条件为第四信息集合中包括的信息类型与类型集合中的每种信息类型相同的信息。
其中,第二搜索平台为搜索平台中除第一搜索平台以外的任一搜索平台。信息一般可以分为固定的几种类型。例如,视频一般可以分为电影类、电视剧类和综艺类等。
本步骤具体为,从第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合。根据第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合。从第四信息集合中获取信息类型与类型集合中的每种信息类型相同的信息,从第三信息集合中去除获取的信息。
例如,假设第一关键词为关键词“李四街拍”,视频Video4、Video5和Video6的视频类型分别为电影类、电视剧类和综艺类,第二搜索平台存储的历史搜索记录中“李四街拍”对应的视频的视频类型为综艺类。从第三视频集合U3中获取“李四街拍”对应的视频Video4、Video5和Video6并构成第四视频集合U4。根据“李四街拍”从第二搜索平台存储的历史搜索记录中获取对应的视频的视频类型综艺类并构成类型集合C1。从第四视频集合U4中获取视频类型与类型集合C1中的视频类型相同的视频,即获取视频类型为综艺类的视频Video6,从第三视频集合U3中去除获取的视频Video6。同样按照上述操作,当第一关键词为“王二获奖”时从第三视频集合中去除视频,假设去除的视频为Video9。则最终第三视频集合U3中包括视频Video4、Video5、Video7和Video8。
其中,根据上述步骤301-303的操作获取到第三信息集合和关键词集合之后,可以通过如下步骤304和305的操作来设置筛选信息的预设筛选条件。
步骤304:获取第三信息集合中的每个信息的信息特征,以及获取该关键词集合中的每个关键词的特征;
其中,信息的信息特征至少包括信息与关键词之间的相关度、信息的点击次数、信息的更新时间等,信息的文本内容中包括了信息的更新时间。关键词的特征至少包括关键词包括的每个分词的属性等,该属性可以为人名或地名等。第一搜索平台上事先设置了一种或几种属性及属性对应的分词库,属性对应的分词库中包括大量该属性的分词,对于不在事先设置的属性对应的分词库中的分词可以均设为“其他”属性。例如,假设第一搜索平台中事先设置了人名属性及其对应的人名库,人名库中包括分词“张三”,则关键词“张三出游”包括的分词“张三”的属性为人名,而分词“出游”的属性为“其他”属性。
本步骤具体为,对于第三信息集合中的每个信息,计算该信息与其对应的关键词之间的相关度。从历史搜索记录中获取该信息的点击次数,从该信息的文本内容中获取该信息的更新时间。将计算的相关度、获取的点击次数和更新时间组成该信息的信息特征。对于第三信息集合中的其他每个信息,都可以同该信息按照上述方式分别获取其他每个信息的信息特征。对于该关键词集合中的每个关键词,对该关键词进行分词处理,得到该关键词包括的每个分词,根据事先设置的属性及属性对应的分词库,确定每个分词的属性,将每个分词的属性确定为该关键词的特征。对于关键词集合中的其他每个关键词,都可以同该关键词按照上述方式分别获取其他每个关键词的特征。
其中,可以通过如下方式来计算信息与其对应的关键词之间的相关度,具体为:
对该信息对应的关键词进行分词处理,得到该关键词包括的每个分词。对该信息的文本内容进行扫描,确定该信息中包含的该关键词包括的分词的个数。计算确定的个数与该关键词包括的分词的总个数之间的比值,将计算的比值作为该信息与其对应的关键词之间的相关度。例如,关键词“张三出游”包括分词“张三”和“出游”,假设该关键词“张三出游”对应的信息1中仅包含分词“张三”,则信息1与该关键词“张三出游”之间的相关度为0.5。
例如,假设事先设置了属性人名及其对应的人名库,该人名库中包括分词“李四”和“王二”。计算第三视频集合U3包括的视频Video4与其对应的关键词“李四街拍”之间的相关度,假设计算的相关度为0.5。从如表1所示的历史搜索记录中获取视频Video4的点击次数为100,从视频Video4的文本内容中获取视频Video4的更新时间,假设获取的更新时间为10月1日。将计算的相关度0.5、获取的点击次数100和更新时间10月1日组成视频Video4的视频特征S4。同样按照上述方式获取视频Video5、Video7和Video8的视频特征分别为S5、S7和S8。对关键词集合V1包括的关键词“李四街拍”进行分词处理,得到关键词“李四街拍”包括的分词“李四”和“街拍”,根据事先设置的属性人名及其对应的人名库,确定出分词“李四”的属性为人名,分词“街拍”的属性为“其他”属性,将分词“李四”的属性为人名和分词“街拍”的属性为“其他”属性确定为关键词“李四街拍”的特征T1。同样按照上述操作获取关键词“王二获奖”的特征为T2。
步骤305:根据第三信息集合中的每个信息的信息特征和该关键词集合中的每个关键词的特征,设置预设筛选条件;
具体地,将第三信息集合中的每个信息的信息特征和该关键词集合中的每个关键词的特征输入给分类模型,通过分类模型进行训练学习,统计出预设筛选条件,该分类模型至少包括GBDT、朴素贝叶斯模型和SVM。
例如,假设分类模型为GBDT,将第三视频集合U3中的视频Video4、Video5、Video7和Video8的视频特征S4、S5、S7和S8,以及该关键词集合V1中的关键词“李四街拍”的特征T1和“王二获奖”的特征T2输入给分类模型GBDT,通过分类模型GBDT进行训练学习,统计出预设筛选条件。
其中,可以统计出多个与信息的信息特征相关的预设筛选条件。例如,与信息和关键词之间的相关度有关的预设筛选条件,与信息的点击次数相关的预设筛选条件,或者与信息的更新时间相关的预设筛选条件等。
其中,对于分类模型可以通过如下方式来设置预设筛选模型,具体为:
对于与信息和关键词之间的相关度有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息与该关键词之间的相关度。从这些相关度中获取相关度最大的第一预设个数个相关度。计算获取的相关度的平均值,将该平均值作为预设相关度阈值。设置与相关度有关的预设筛选条件为筛选相关度大于该预设相关度阈值的信息。例如,假设第三信息集合中的每个信息与该关键词之间的相关度分别为0.5、0.2、0.85、1和0.9,第一预设个数为3。则从第三信息集合中的每个信息的特征中获取相关度最大的3个相关度分别为0.85、9和1。计算这三个相关度的平均值为0.92。将0.92作为预设相关度阈值。设置与相关度有关的预设筛选条件为筛选相关度大于0.92的信息。
对于与信息的点击次数有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息的点击次数。从这些点击次数中获取点击次数最大的第二预设个数个点击次数。计算获取的点击次数的平均值,将该平均值作为预设次数阈值。设置与点击次数有关的预设筛选条件为筛选点击次数大于该预设次数阈值的信息。例如,假设第三信息集合中的每个信息的点击次数分别为500、1000、1500、300和20,第二预设个数为4。则从第三信息集合中的每个信息的信息特征中获取点击次数最大的4个点击次数分别为300、500、1000和1500,计算这4个点击次数的平均值为825,将该平均值825作为预设次数阈值,设置与点击次数有关的预设筛选条件为筛选点击次数大于825的信息。
对于与信息的更新时间有关的预设筛选条件,从第三信息集合中的每个信息的信息特征中获取每个信息的更新时间。确定位于这些更新时间的中位数位置的更新时间,计算该更新时间与当前时间之间的时间差,将该时间差确定为预设时间阈值,设置与更新时间有关的预设筛选条件为筛选更新时间与当前时间之间的时间差小于预设时间阈值的信息。例如,假设第三信息集合中每个信息的更新时间分别为10月1日、9月1日、11月1日、7月1日和8月1日,当前时间为12月1日,则位于这些更新时间的中位数位置的更新时间为9月1日,计算该更新时间9月1日与当前时间12月1日之间的时间差为3个月,将该时间差确定为预设时间阈值,设置与更新时间有关的预设筛选条件为筛选更新时间与当前时间之间的时间差小于3个月的信息。
其中,对于其他搜索平台,都可以同第一搜索平台按照上述步骤301-305的操作来设置筛选信息的预设筛选条件。
步骤306-309:与步骤205-208的操作相同,在此不再赘述。
其中,本发明实施例中的预设筛选条件与实施例2中的预设筛选条件不同。实施例2中的预设筛选条件是用于从搜索到的信息中筛选出符合信息特征要求的信息。而本发明实施例中的预设筛选条件是用于从搜索到的信息中先确定出不符合信息特征要求的信息,然后将剩余的信息作为筛选出的信息。第一搜索平台可以分别通过实施例2或实施例3提供的方法来搜索信息,也可以通过实施例2和实施例3相结合的方法来搜索信息。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
实施例4
参见图4,本发明实施例提供了一种信息搜索装置,包括:
接收模块401,用于接收终端发送的关键词;
搜索模块402,用于根据该关键词,搜索与该关键词匹配的信息;
选择模块403,用于从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;
发送模块404,用于向终端发送第一信息集合。
其中,选择模块403包括:
计算单元,用于分别计算每个信息与该关键词之间的相关度;
组成单元,用于将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于预设阈值的信息组成第二信息集合;
第一获取单元,用于分别获取第二信息集合中包括的每个信息的信息特征,以及获取该关键词的特征;
筛选单元,用于根据第二信息集合中包括的每个信息的信息特征以及关键词的特征,从第二信息集合中筛选出满足某一预设筛选条件的信息,将筛选的信息加入第一信息集合。
进一步地,该装置还包括:
获取模块,用于从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合以及获取第三信息集合中的每个信息对应的关键词并构成关键词集合;
设置模块,用于根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,设置预设筛选条件。
其中,获取模块包括:
第二获取单元,用于从第一搜索平台存储的历史搜索记录中,获取历史搜索记录中包括的每个信息的点击次数;
第三获取单元,用于从每个信息中,获取点击次数大于预设次数阈值的信息并构成第三信息集合;或者,
第四获取单元,用于从每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合。
进一步地,该获取模块还包括:
第五获取单元,用于从第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合,第一关键词为关键词集合中包括的任一关键词;
第六获取单元,用于根据第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合,第二搜索平台为搜索平台中除第一搜索平台以外的任一搜索平台;
去除单元,用于从第四信息集合中获取信息类型与类型集合中的每种信息类型相同的信息,从第三信息集合中去除获取的信息。
其中,设置模块,用于根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,通过分类模型统计预设筛选条件,该分类模型至少包括决策树模型、朴素贝叶斯模型和支持向量机。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
实施例5
图5是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器1900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收终端发送的关键词;
根据该关键词,搜索与该关键词匹配的信息;
从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件为根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;
向终端发送第一信息集合。
优选地,从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,包括:
分别计算每个信息与该关键词之间的相关度;
将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于预设阈值的信息组成第二信息集合;
分别获取第二信息集合中包括的每个信息的信息特征,以及获取该关键词的特征;
根据第二信息集合中包括的每个信息的信息特征以及该关键词的特征,从第二信息集合中筛选出满足某一预设筛选条件的信息,将筛选的信息加入第一信息集合。
进一步地,接收终端发送的关键词之前,还包括:
从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合以及获取第三信息集合中的每个信息对应的关键词并构成关键词集合;
根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,设置预设筛选条件。
优选地,从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合,包括:
从第一搜索平台存储的历史搜索记录中,获取历史搜索记录中包括的每个信息的点击次数;
从每个信息中,获取点击次数大于预设次数阈值的信息并构成第三信息集合;或者,
从每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合。
进一步地,从每个信息中,获取点击次数小于或等于预设次数阈值的信息并构成第三信息集合之后,还包括:
从第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合,第一关键词为关键词集合中包括的任一关键词;
根据第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合,第二搜索平台为搜索平台中除第一搜索平台以外的任一搜索平台;
从第四信息集合中获取信息类型与类型集合中的每种信息类型相同的信息,从第三信息集合中去除获取的信息。
优选地,根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,设置预设筛选条件,包括:
根据第三信息集合中的每个信息的信息特征和关键词集合中的每个关键词的特征,通过分类模型统计预设筛选条件,该分类模型至少包括决策树模型、朴素贝叶斯模型和支持向量机。
在本发明实施例中,接收终端发送的关键词;根据该关键词,搜索与该关键词匹配的信息;从该信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,该预设筛选条件是根据历史搜索记录进行设置的,该历史搜索记录中包括用户历史搜索的关键词、关键词对应的信息和信息的点击次数;向终端发送第一信息集合。由于根据历史搜索记录中包括的用户历史搜索的关键词、关键词对应的信息和信息的点击次数设置了预设筛选条件,如此设置的预设筛选条件涵盖的信息的特征比技术人员凭经验设定的预设筛选条件涵盖的特征要全面很多,根据该预设筛选条件来筛选信息,可以提高筛选信息的准确性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息搜索方法,其特征在于,所述方法包括:
接收终端发送的关键词;
根据所述关键词,搜索与所述关键词匹配的信息;
分别计算搜索到的每个信息与所述关键词之间的相关度;
将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于所述预设阈值的信息组成第二信息集合;
分别获取所述第二信息集合中包括的每个信息的信息特征,以及获取所述关键词的特征;
根据所述第二信息集合中包括的每个信息的信息特征以及所述关键词的特征,从所述第二信息集合中筛选出满足某一预设筛选条件的信息,将所述筛选的信息加入所述第一信息集合,所述预设筛选条件为根据历史搜索记录进行设置的,所述历史搜索记录中包括用户历史搜索的关键词、所述关键词对应的信息和所述信息的点击次数;
向所述终端发送所述第一信息集合。
2.如权利要求1所述的方法,其特征在于,所述接收终端发送的关键词之前,还包括:
从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合以及获取所述第三信息集合中的每个信息对应的关键词并构成关键词集合;
根据所述第三信息集合中的每个信息的信息特征和所述关键词集合中的每个关键词的特征,设置预设筛选条件。
3.如权利要求2所述的方法,其特征在于,所述从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合,包括:
从第一搜索平台存储的历史搜索记录中,获取所述历史搜索记录中包括的每个信息的点击次数;
从所述每个信息中,获取点击次数大于所述预设次数阈值的信息并构成第三信息集合;或者,
从所述每个信息中,获取点击次数小于或等于所述预设次数阈值的信息并构成第三信息集合。
4.如权利要求3所述的方法,其特征在于,所述从所述每个信息中,获取点击次数小于或等于所述预设次数阈值的信息并构成第三信息集合之后,还包括:
从所述第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合,所述第一关键词为所述关键词集合中包括的任一关键词;
根据所述第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合,所述第二搜索平台为搜索平台中除所述第一搜索平台以外的任一搜索平台;
从所述第四信息集合中获取信息类型与所述类型集合中的每种信息类型相同的信息,从所述第三信息集合中去除所述获取的信息。
5.如权利要求2所述的方法,其特征在于,所述根据所述第三信息集合中的每个信息的信息特征和所述关键词集合中的每个关键词的特征,设置预设筛选条件,包括:
根据所述第三信息集合中的每个信息的信息特征和所述关键词集合中的每个关键词的特征,通过分类模型统计预设筛选条件,所述分类模型至少包括决策树模型、朴素贝叶斯模型和支持向量机。
6.一种信息搜索装置,其特征在于,所述装置包括:
接收模块,用于接收终端发送的关键词;
搜索模块,用于根据所述关键词,搜索与所述关键词匹配的信息;
筛选模块,用于从所述信息中筛选出满足某一预设筛选条件的信息并组成第一信息集合,所述预设筛选条件为根据历史搜索记录进行设置的,所述历史搜索记录中包括用户历史搜索的关键词、所述关键词对应的信息和所述信息的点击次数;
发送模块,用于向所述终端发送所述第一信息集合;
其中,所述筛选模块包括:
计算单元,用于分别计算搜索到的每个信息与所述关键词之间的相关度;
组成单元,用于将相关度大于预设阈值的信息组成第一信息集合,以及将相关度小于或等于所述预设阈值的信息组成第二信息集合;
第一获取单元,用于分别获取所述第二信息集合中包括的每个信息的信息特征,以及获取所述关键词的特征;
筛选单元,用于根据所述第二信息集合中包括的每个信息的信息特征以及所述关键词的特征,从所述第二信息集合中筛选出满足某一预设筛选条件的信息,将所述筛选的信息加入所述第一信息集合。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,用于从第一搜索平台存储的历史搜索记录中,获取点击次数满足预设点击条件的信息并构成第三信息集合以及获取所述第三信息集合中的每个信息对应的关键词并构成关键词集合;
设置模块,用于根据所述第三信息集合中的每个信息的信息特征和所述关键词集合中的每个关键词的特征,设置预设筛选条件。
8.如权利要求7所述的装置,其特征在于,所述获取模块包括:
第二获取单元,用于从第一搜索平台存储的历史搜索记录中,获取所述历史搜索记录中包括的每个信息的点击次数;
第三获取单元,用于从所述每个信息中,获取点击次数大于所述预设次数阈值的信息并构成第三信息集合;或者,
第四获取单元,用于从所述每个信息中,获取点击次数小于或等于所述预设次数阈值的信息并构成第三信息集合。
9.如权利要求8所述的装置,其特征在于,所述获取模块还包括:
第五获取单元,用于从所述第三信息集合中获取第一关键词对应的每个信息并构成第四信息集合,所述第一关键词为所述关键词集合中包括的任一关键词;
第六获取单元,用于根据所述第一关键词从第二搜索平台存储的历史搜索记录中获取对应的信息的信息类型并构成类型集合,所述第二搜索平台为搜索平台中除所述第一搜索平台以外的任一搜索平台;
去除单元,用于从所述第四信息集合中获取信息类型与所述类型集合中的每种信息类型相同的信息,从所述第三信息集合中去除所述获取的信息。
10.如权利要求7所述的装置,其特征在于,所述设置模块,用于根据所述第三信息集合中的每个信息的信息特征和所述关键词集合中的每个关键词的特征,通过分类模型统计预设筛选条件,所述分类模型至少包括决策树模型、朴素贝叶斯模型和支持向量机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410546691.5A CN105574030B (zh) | 2014-10-16 | 2014-10-16 | 一种信息搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410546691.5A CN105574030B (zh) | 2014-10-16 | 2014-10-16 | 一种信息搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574030A CN105574030A (zh) | 2016-05-11 |
CN105574030B true CN105574030B (zh) | 2019-07-12 |
Family
ID=55884174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410546691.5A Active CN105574030B (zh) | 2014-10-16 | 2014-10-16 | 一种信息搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574030B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818105B (zh) | 2016-09-13 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 应用程序的推荐方法及服务器 |
CN106682439A (zh) * | 2016-12-30 | 2017-05-17 | 广州慧扬信息系统科技有限公司 | 基于研究性随访的病历筛选方法 |
CN111612554A (zh) * | 2019-02-22 | 2020-09-01 | 北京京东尚科信息技术有限公司 | 检索方法、装置和计算机可读存储介质 |
CN111428126A (zh) * | 2019-12-29 | 2020-07-17 | 王焕土 | 一种应用于网络平台的匹配找人框架模式及匹配搜索方法 |
CN112905610A (zh) * | 2021-01-30 | 2021-06-04 | 铁道警察学院 | 一种大数据的数据筛选模型及方法 |
CN113360779B (zh) * | 2021-08-09 | 2023-01-20 | 智者四海(北京)技术有限公司 | 内容推荐方法及装置、计算机设备及可读介质 |
CN116455861B (zh) * | 2023-04-17 | 2023-11-24 | 福建数智闽政科技有限公司 | 一种基于大数据的计算机网络安全监测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593353A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 信息搜索方法、展示信息排序权重值确定方法及其装置 |
CN103646070A (zh) * | 2013-12-06 | 2014-03-19 | 北京趣拿软件科技有限公司 | 搜索引擎的数据处理方法及装置 |
CN104123332A (zh) * | 2014-01-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 搜索结果的显示方法及装置 |
CN104636407A (zh) * | 2013-11-15 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 参数取值训练及搜索请求处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009148B2 (en) * | 2011-12-19 | 2015-04-14 | Microsoft Technology Licensing, Llc | Clickthrough-based latent semantic model |
-
2014
- 2014-10-16 CN CN201410546691.5A patent/CN105574030B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593353A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 信息搜索方法、展示信息排序权重值确定方法及其装置 |
CN104636407A (zh) * | 2013-11-15 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 参数取值训练及搜索请求处理方法和装置 |
CN103646070A (zh) * | 2013-12-06 | 2014-03-19 | 北京趣拿软件科技有限公司 | 搜索引擎的数据处理方法及装置 |
CN104123332A (zh) * | 2014-01-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 搜索结果的显示方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105574030A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574030B (zh) | 一种信息搜索方法及装置 | |
US9704185B2 (en) | Product recommendation using sentiment and semantic analysis | |
WO2017181612A1 (zh) | 个性化视频推荐方法及装置 | |
US11190821B2 (en) | Methods and apparatus for alerting users to media events of interest using social media analysis | |
KR101770683B1 (ko) | 소셜 네트워크 정보흐름 표시방법, 장치, 서버, 프로그램 및 컴퓨터가 판독가능한 기록매체 | |
US9372901B2 (en) | Searching for software applications based on application attributes | |
US9215243B2 (en) | Identifying and ranking pirated media content | |
CN107862022B (zh) | 文化资源推荐系统 | |
AU2017206171A1 (en) | Blending search results on online social networks | |
CN104462553B (zh) | 问答页面相关问题推荐方法及装置 | |
US11200244B2 (en) | Keyword reporting for mobile applications | |
US9710563B2 (en) | Search engine analytics and optimization for media content in social networks | |
CN106233282A (zh) | 使用设备能力的应用搜索 | |
CN106326391A (zh) | 多媒体资源推荐方法及装置 | |
US20220141188A1 (en) | Network Security Selective Anomaly Alerting | |
TWI629899B (zh) | Method and device for evaluating quality of multimedia resources | |
CN109753601A (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
CN105264526B (zh) | 基于垂直的查询选择化 | |
US20230139000A1 (en) | Graphical User Interface for Presentation of Network Security Risk and Threat Information | |
CN104462552B (zh) | 问答页面核心词提取方法和装置 | |
CN105653533B (zh) | 一种更新分类关联词集合的方法和装置 | |
CN105989171A (zh) | 媒体文件处理方法及装置 | |
US11556819B2 (en) | Collection apparatus, collection method, and collection program | |
CN109062945A (zh) | 一种社交网络的信息推荐方法、装置及系统 | |
CN109272005A (zh) | 一种识别规则的生成方法、装置和深度包检测设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |