CN104965839B - 一种同类信息的搜索方法及装置 - Google Patents
一种同类信息的搜索方法及装置 Download PDFInfo
- Publication number
- CN104965839B CN104965839B CN201410497608.XA CN201410497608A CN104965839B CN 104965839 B CN104965839 B CN 104965839B CN 201410497608 A CN201410497608 A CN 201410497608A CN 104965839 B CN104965839 B CN 104965839B
- Authority
- CN
- China
- Prior art keywords
- information
- search
- weight
- value
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种同类信息的搜索方法及装置,用于快速搜索同类信息,方便简单,准确率高。本发明实施例方法包括:接收用户输入的信息搜索种子;根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种同类信息的搜索方法及装置。
背景技术
运营商在阅读类产品运营过程中,将用户经常浏览的资讯打包推送给用户,例如,用户经常会浏览王力宏相关的资讯,那么可以将王力宏相关的资讯打包推送给用户,既契合了用户兴趣又提升了产品个性化推送。进一步地,若用户较喜欢浏览王力宏的资讯,那么可能也喜欢其他娱乐明星的相关资讯,因此,也可以将同类信息的资讯推送给用户,在一定程度上拓展用户的兴趣。
其中,在进行同类信息的资讯推送前,由人工在搜索引擎工具上输入已知的用户经常浏览的信息,搜索得到其相关的信息,然后从相关的信息中选出比较流行的同类信息,再将该同类信息有关的资讯推送给用户,同类信息选取过程主要依靠人工操作,相对代价太高,难以维持。
发明内容
针对上述缺陷,本发明实施例提供了一种同类信息的搜索方法及装置,用于自动化搜索同类信息,速度快、准确性高。
本发明实施例一方面提供了一种同类信息的搜索方法,可包括:
接收用户输入的信息搜索种子;
根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;
根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果。
本发明实施例另一方面提供了一种同类信息的搜索装置,可包括:
接收单元,用于接收用户输入的信息搜索种子;
查找单元,用于根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;
输出单元,用于根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果。
从以上技术方案可以看出,本发明实施例提供的同类信息的搜索方法具有以下优点:首先,根据用户输入的信息搜索种子,该信息搜索种子可以是一个或者多个,若是输入多个信息搜索种子,那么该多个信息搜索种子属于同类信息,然后根据信息搜索种子,在信息库中查找目标信息表,然后根据目标信息表的特征信息,对搜索信息进行排序,最后输出排序结果,实现自动化搜索,搜索速度快,准确性高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的同类信息的搜索方法的流程示意图;
图2a为本发明另一实施例提供的同类信息的搜索方法的流程示意图;
图2b为本发明实施例提供的排序结果的示意图;
图3为本发明实施例提供的同类信息的搜索装置的结构示意图。
具体实施方式
本发明实施例提供了一种同类信息的搜索方法,用于搜索同类信息,搜索速度快、准确性高,本发明实施例还提供了一种同类信息的搜索方法对应的装置。
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以用于运营商进行阅读类业务推送,也可以用于用户兴趣搜索等,在此不作限定。同类信息的搜索装置具体可以是一个搜索引擎,在同类信息的搜索装置的显示界面上设置有搜索输入栏,用于用户输入信息搜索种子进行同类信息搜索。该同类信息为相同领域中具有相同属性的信息,可以是人名、机构名、产品名等,例如,在娱乐领域中的明星名字,像王力宏、蔡依林、张惠妹等,在娱乐领域中具有明星名字这一相同属性。
在同类信息的搜索装置中还分配有信息库,用于存储信息表,该信息表中包括特征信息和多个搜索信息。其中,在信息库中每一个信息表以索引值存储,即每一个信息表对应一个索引值,信息表中的搜索信息与该索引值属于同类信息。
优选地,上述特征信息可以包括权重信息和综合值,其中,权重信息可以包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,而综合值通过权重信息得到。
举例来说,若权重信息中只包括同类信息权重,那么综合值也就是该同类信息权重;若权重信息中包括同类信息权重和百科信息,那么综合值等于同类信息权重与百科信息的乘积。可以理解,若权重信息中只有一种信息,那么该种信息也作为综合值,若权重信息中包括2种以上信息,那么综合值是2种以上信息的乘积。
其中,由于资讯在不断更新变化,为了保证搜索信息和特征信息是最新数据,在预设周期内,需要对搜索信息和特征信息进行更新,可以将预设周期设为一个星期、半个月或1个月。
具体地,搜索信息的更新主要是通过word2vec(word to vector)工具分别对上述所有信息表的索引值进行处理,得到与信息表相同数量的处理结果,即一个索引值对应一个处理结果,每一个处理结果包括相关信息和相关度,该相关信息包括第一搜索信息和/或第二搜索信息,该第一搜索信息与索引值属于同类信息,该第二搜索信息与索引值属于非同类信息,上述相关度表示相关信息与索引值的相关性。将处理结果中的第二搜索信息删除后或者直接使用处理结果中的第一搜索信息更新相应的搜索信息表中的搜索信息。
在特征信息的权重信息包括有同类信息权重时,在更新搜索信息后,利用上述处理结果中的相关度更新该权重信息中的同类信息权重,即相关度作为上述同类信息权重,同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。
可以理解的是,若上述任意两个或多个处理结果中具有重复的第一搜索信息,那么对该重复的第一搜索信息的所有相关度求和得到新的相关度,并用新的相关表替换处理结果中原来的相关度。
举例来说,有3个信息表,分别以王力宏、蔡依林和张惠妹作为索引值,那么在预设周期内,分别利用word2vec工具对王力宏、蔡依林和张惠妹三个索引值进行处理,分别得到第一处理结果、第二处理结果和第三处理结果,其中,第一处理结果和第二处理结果中均包括庾澄庆这一搜索信息,且其相关度分别为0.760032和0.823202,先对0.760032与0.823202求和,其和为1.583234,之后将第一处理结果中庾澄庆对应的相关度修改为1.583234,同样地,将第二处理结果中庾澄庆对应的相关度修改为1.583234。然后用修改后的处理结果中的第一搜索信息和相关度更新信息表。
其中,word2vec工具是google公司开源的一种词向量的搜索方法,其具体工作过程为现有技术,在此不进行详细介绍。如下表1是word2vec工具对王力宏进行搜索处理后输出的结果:
表1
相关信息 | 相关度 |
周华健 | 0.809602 |
陈奕迅 | 0.807628 |
周杰伦 | 0.789515 |
孙燕姿 | 0.773466 |
容祖儿 | 0.772208 |
周笔畅 | 0.766574 |
张学友 | 0.762664 |
演唱会 | 0.760035 |
林俊杰 | 0.759895 |
李宇春 | 0.758391 |
梁静茹 | 0.757478 |
刘若英 | 0.757014 |
若上述权重信息包括百科信息,那么在更新信息表中的搜索信息后,将获取百科信息更新特征信息中的权重信息的百科信息,同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。具体地可以获取资讯中关于信息表中搜索信息的百科信息,所述百科信息包括点赞信息、用户分享信息和浏览信息中的至少一种。当然,还可以获取其它百科信息,在此不作限定。
每个搜索信息在百度等百科里都有用户点赞信息、用户分享信息和浏览信息,这些信息在一定程度上反映该搜索信息的流行程度和受喜欢等,这些信息可以作为搜索信息的排序依据,可以让用户了解所搜索的搜索信息中哪些活跃程度更高。
若上述权重信息包括标题比例,那么在更新信息表中的搜索信息后,将获取标题比例更新特征信息中的权重信息的标题比例,同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。具体地可以统计所述搜索信息在资讯标题中出现的标题比例。
其中,资讯标题是最有信息量的信息,在资讯标题出现的搜索信息,说明该搜索信息的受欢迎或流程度更高,是热门话题。
具体地,可以对最近一段时间内一定数量的资讯标题进行统计,统计该搜索信息在这些资讯标题中出现的次数,该次数在资讯标题中所占的比例作为该搜索信息的标题比例。
若上述特征信息的权重信息包括主题分布率,那么在更新信息表中的搜索信息后,将获主题分布率更新权重信息中的特征信息的主题分布率,同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。具体地可以统计所述搜索信息的第一分布值和第二分布值,并计算第一分布值和第二分布值的比值得到主题分布率;其中,所述第一分布值为所述搜索信息在所属领域的资讯中出现的次数,所述第二分布值为所述搜索信息在所有资讯中出现的次数。
其中,对数量为第二分布值的资讯进行统计,也就是说该搜索信息均出现在第二分布值的资讯中,其中,第二分布值的资讯中有数量为第一分布值的娱乐资讯,那么第一分布值与第二分布值的比率作为该搜索信息的主题分布率。可以理解,一般搜索信息都会在其所属领域中比较活跃。
可以理解的是,在上述特征信息的权重信息进行了更新后,也要相应地更新综合值,综合值的获取请参阅上述介绍。
下面将以具体实施例,对本发明进行详细介绍。
请参阅图1,图1为本发明实施例提供的同类信息的搜索方法的流程示意图;如图1所示,一种同类信息的搜索方法包括:
S10、接收用户输入的信息搜索种子;
信息搜索种子可以是1个也可以是多个,为了控制搜索速度和搜索出来的搜索信息的数量,一般信息搜索种子的数量控制在1~10个之间。
可以理解的是,若有多个信息搜索种子,那么该多个信息搜索种子也属于同类信息。
S20、根据所述信息搜索种子,在信息库中查找目标信息表;
其中,上述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息,所述目标信息表中的搜索信息和所述信息搜索种子属于同类信息,所述同类信息为相同领域中具有相同属性的信息。
上述特征信息可以包括权重信息和综合值,其中,权重信息可以包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,而综合值通过权重信息得到
S30、根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果。
其中,排序结果中包括搜索信息、特征信息和所属领域。可以根据特征信息对搜索信息进行降序或升序排序。
本发明实施例中,通过根据用户输入的信息搜索种子,在信息库中查找与该信息搜索种子相关的目标信息表,然后根据目标信息表中的特征信息对该搜索信息进行排序,然后再输出排序结果,整个过程中搜索速度快、查找的同类信息准确性高。
请参阅图2a,图2a为本发明另一实施例提供的同类信息的搜索方法的流程示意图;如图2a所示,一种同类信息的搜索方法可包括:
S201、接收用户输入的信息搜索种子;
步骤S201与上述步骤S10相同,在此不再赘述。
S202、在所述信息库中查找与所述信息搜索种子匹配的索引值;
其中,信息表在信息库中通过一索引值保存,该索引值与信息表中的搜索信息是同类信息。
S203、根据所述索引值,获取目标信息表;
查找到索引值后,通过索引值则获取到目标信息表。
上述特征信息可以包括权重信息和综合值,其中,权重信息可以包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,而综合值通过权重信息得到
S204、根据所述目标信息表的特征信息中的综合值,对所述目标信息表的搜索信息进行排序并输出排序结果。
其中,上述排序结果包括所述目标信息表的搜索信息、所属领域、权重信息和综合值。
若权重信息中包括有同类信息权重、百科信息,那么输出的排序结果中分别包括搜索信息、所属领域、同类信息权重、百科信息、综合值。
若上述百科信息中包括有点赞信息、用户分享信息和浏览信息,那么输出的排序结果中可以显示:搜索信息、所属领域、同类信息权重、点赞信息、用户分享信息、浏览信息和综合值。也就是,输出的排序结果中可以将信息表中所记录的所有信息都显现给用户,以便用户根据需要对排序结果进行处理。当然,上述输出的排序结果中首列显示搜索信息,最后一列显示综合值,其它可以任意排列,不作限定。
具体可以参阅图2b所示,图2b为具体应用场景中,通过本发明实施例所提供的方法,通过某一明星名字搜索到的娱乐领域中的同类信息,在图2b中,特征信息具体包括有搜索信息、点赞信息、用户分享信息、转发信息、浏览信息、所属领域、同类信息权重、统计的出现在资讯标题中的次数、统计的资讯标题的数量、标题比例、第一分布值、第二分布值和综合值等。
其中,输出的排序结果中每两个信息之间通过分隔符“||”分开。
本发明实施例中,通过根据用户输入的信息搜索种子,在信息库中查找与该信息搜索种子匹配的索引值,然后根据索引值获取目标信息表,根据特征信息中的综合值对该搜索信息进行排序,然后再输出排序结果,整个过程中搜索速度快、查找的同类信息准确性高。
其中,若排序结果中以降序排序,那么其综合值越来越小,说明搜索信息在资讯中的受欢迎程度或流程程度越小,那么选择综合值满足预设范围的搜索信息作为优选的搜索信息,然后再输出,呈现给用户。
当然,用户可以根据输出的排序结果,根据需求自行选择相应的搜索信息。若本发明实施例用于阅读类业务的推送,那么可以将综合值满足预设范围的搜索信息直接输出,作为业务推送的基础。本发明还可以用户兴趣搜索,或者其它需要搜索同类信息的场景,在此不作限定。
请参阅图3,本发明实施例还提供了一种同类信息的搜索方法对应的装置,如图3所示,该同类信息的搜索装置包括:
接收单元310,用于接收用户输入的信息搜索种子;
查找单元320,用于根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;
输出单元330,用于根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果。
其中,通过接收单元310接收用户输入的信息搜索种子,之后查找单元320根据该信息搜索种子,在信息库中查找目标信息表,最后由输出单元330根据目标信息表的特征信息对搜索信息进行排序,再输出排序结果,搜索速度快,可以找到准确性更高的同类信息。
进一步地,上述信息表通过一索引值保存在信息库中,因而上述查找单元具体用于:在所述信息库中查找与所述信息搜索种子匹配的索引值;根据所述索引值,获取目标信息表。
进一步地,上述特征信息包括权重信息和综合值,所述综合值根据所述权重信息获取得到,所述权重信息包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,因此,输出单元具体用于,根据所述目标信息表的特征信息中的综合值,对所述目标信息表的搜索信息进行排序并输出排序结果,所述排序结果包括所述目标信息表的搜索信息、所属领域、权重信息和综合值。
上述信息表保存在同类信息的搜索装置的信息库中,为了保证搜索信息和特征信息是最新数据,在预设周期内,需要对搜索信息和特征信息进行更新,可以将预设周期设为一个星期、半个月或1个月。进而,上述同类信息的搜索装置还包括:
更新单元,用于在预设周期内对所述信息表的搜索信息和特征信息进行更新。
在一个应用场景中,上述更新单元可以包括:
第一更新单元,用于利用word2vec工具对所述信息表的索引值进行处理得到处理结果,所述处理结果包括相关信息和相关度,所述相关信息包括所述索引值的第一搜索信息和/或第二搜索信息,所述第一搜索信息与所述索引值属于同类信息,所述第二搜索信息与所述索引值属于非同类信息,所述相关度表示所述相关信息与所述索引值的相关性;利用所述处理结果中的第一搜索信息更新所述信息表中的搜索信息。
其中,在预设周期内,第一更新单元通过word2vec工具分别对上述所有信息表的索引值进行处理,得到与信息表相同数量的处理结果,即一个索引值对应一个处理结果,每一个处理结果包括相关信息和相关度,该相关信息包括第一搜索信息和/或第二搜索信息,该第一搜索信息与索引值属于同类信息,该第二搜索信息与索引值属于非同类信息,上述相关度表示相关信息与索引值的相关性。将处理结果中的第二搜索信息删除后或者直接使用处理结果中的第一搜索信息更新相应的搜索信息表中的搜索信息。
在另一个应用场景中,上述更新单元还包括:
第二更新单元,用于若所述特征信息的权重信息中包括所述同类信息权重,则在所述预设周期内且在所述信息表中的搜索信息更新后,利用所述处理结果中的相关度更新所述特征信息的权重信息,并同时更新所述综合值。
在特征信息的权重信息包括有同类信息权重时,在更新搜索信息后,第二更新单元利用上述处理结果中的相关度更新该权重信息中的同类信息权重,即相关度作为上述同类信息权重,同时,也要结合权重信息中其它信息是否被更新,然后更新综合值。
可以理解的是,若上述任意两个或多个处理结果中具有重复的第一搜索信息,那么对该重复的第一搜索信息的所有相关度求和得到新的相关度,并用新的相关表替换处理结果中原来的相关度。
在另一个应用场景中,上述更新单元还包括:
第三更新单元,用于若所述特征信息的权重信息中包括所述百科信息,则在所述预设周期内且在所述信息表中的搜索信息更新后,从资讯中获取关于所述搜索信息的百科信息,利用所述百科信息更新所述特征信息的权重信息,并同时更新所述综合值,所述百科信息包括点赞信息、用户分享信息和浏览信息中的至少一种。
每个搜索信息在百度等百科里都有用户点赞信息、用户分享信息和浏览信息,这些信息在一定程度上反映该搜索信息的流行程度和受喜欢等,这些信息可以作为搜索信息的排序依据,可以让用户了解所搜索的搜索信息中哪些活跃程度更高。
在另一个应用场景中,上述更新单元还包括:
第四更新单元,用于若所述权重信息包括标题比例,则在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息在资讯标题中出现的标题比例,利用所述标题比例更新所述特征信息的权重信息,并同时更新所述综合值。
其中,资讯标题是最有信息量的信息,在资讯标题出现的搜索信息,说明该搜索信息的受欢迎或流程度更高,是热门话题。
具体地,可以对最近一段时间内一定数量的资讯标题进行统计,统计该搜索信息在这些资讯标题中出现的次数,该次数在资讯标题中所占的比例作为该搜索信息的标题比例。
在另一个应用场景中,上述更新单元还包括:
第五更新单元,用于若所述权重信息包括主题分布率,则在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息的第一分布值和第二分布值,并计算第一分布值和第二分布值的比值得到主题分布率,利用所述主题分布率更新所述特征信息的权重信息,并同时更新所述综合值;其中,所述第一分布值为所述搜索信息在所属领域的资讯中出现的次数,所述第二分布值为所述搜索信息在所有资讯中出现的次数。
其中,对数量为第二分布值的资讯进行统计,也就是说该搜索信息均出现在第二分布值的资讯中,其中,第二分布值的资讯中有数量为第一分布值的娱乐资讯,那么第一分布值与第二分布值的比率作为该搜索信息的主题分布率。可以理解,一般搜索信息都会在其所属领域中比较活跃。
在本发明实施例中根据用户输入的信息搜索种子,该信息搜索种子可以是一个或者多个,若是输入多个信息搜索种子,那么该多个信息搜索种子属于同类信息,然后根据信息搜索种子,在信息库中查找目标信息表,其中,目标信息表中的搜索信息与信息搜索种子属于同类信息,则确保所搜索到的搜索信息与信息搜索种子属于同类信息,然后根据目标信息表的特征信息,对搜索信息进行排序,最后输出排序结果,实现自动化搜索,搜索速度快,准确性高。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种同类信息的搜索方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (17)
1.一种同类信息的搜索方法,其特征在于,包括:
接收用户输入的信息搜索种子;
根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;
根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果;
所述特征信息包括权重信息和综合值,所述综合值根据所述权重信息获取得到,所述权重信息包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,若所述权重信息中只包括一种信息的权重,则所述综合值为所述同类信息权重;若所述权重信息中包括两种以上的信息的权重,则所述综合值等于所述两种以上的信息的权重的乘积;
所述根据所述目标信息表的特征信息,对所有所述目标信息表的搜索信息进行排序并输出排序结果包括:
根据所述目标信息表的特征信息中的综合值,对所述目标信息表的搜索信息进行排序并输出排序结果,所述排序结果包括所述目标信息表的搜索信息、所属领域、权重信息和综合值。
2.根据权利要求1所述的方法,其特征在于,所述信息表通过索引值保存,所述索引值与所述信息表中的搜索信息属于同类信息;
根据所述信息搜索种子,在信息库中查找目标信息表包括:
在所述信息库中查找与所述信息搜索种子匹配的索引值;
根据所述索引值,获取目标信息表,所述索引值与所述目标信息表中的搜索信息属于同类信息。
3.根据权利要求1所述的方法,其特征在于,所述输出排序结果包括:
从所述排序结果中选择满足预设范围的综合值所对应的搜索信息,作为优选搜索信息并输出。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在预设周期内对所述信息表的搜索信息和特征信息进行更新。
5.根据权利要求4所述的方法,其特征在于,所述在预设周期内对所述信息表的搜索信息进行更新包括:
利用word2vec工具对所述信息表的索引值进行处理得到处理结果,所述处理结果包括相关信息和相关度,所述相关信息包括所述索引值的第一搜索信息和/或第二搜索信息,所述第一搜索信息与所述索引值属于同类信息,所述第二搜索信息与所述索引值属于非同类信息,所述相关度表示所述相关信息与所述索引值的相关性;
利用所述处理结果中的第一搜索信息更新所述信息表中的搜索信息。
6.根据权利要求5所述的方法,其特征在于,若所述特征信息的权重信息中包括所述同类信息权重,所述在预设周期内对所述信息表特征信息进行更新包括:
在所述预设周期内且在所述信息表中的搜索信息更新后,利用所述处理结果中的相关度更新所述特征信息的权重信息,并同时更新所述综合值。
7.根据权利要求5所述的方法,其特征在于,若所述特征信息的权重信息中包括所述百科信息,所述在预设周期内对所述信息表特征信息进行更新包括:
在所述预设周期内且在所述信息表中的搜索信息更新后,从资讯中获取关于所述搜索信息的百科信息,利用所述百科信息更新所述特征信息的权重信息,并同时更新所述综合值,所述百科信息包括点赞信息、用户分享信息和浏览信息中的至少一种。
8.根据权利要求5所述的方法,其特征在于,
若所述权重信息包括标题比例,所述在预设周期内对所述信息表特征信息进行更新包括:
在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息在资讯标题中出现的标题比例,利用所述标题比例更新所述特征信息的权重信息,并同时更新所述综合值。
9.根据权利要求5所述的方法,其特征在于,
若所述权重信息包括主题分布率,所述在预设周期内对所述信息表特征信息进行更新包括:
在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息的第一分布值和第二分布值,并计算第一分布值和第二分布值的比值得到主题分布率,利用所述主题分布率更新所述特征信息的权重信息,并同时更新所述综合值;其中,所述第一分布值为所述搜索信息在所属领域的资讯中出现的次数,所述第二分布值为所述搜索信息在所有资讯中出现的次数。
10.一种同类信息的搜索装置,其特征在于,包括:
接收单元,用于接收用户输入的信息搜索种子;
查找单元,用于根据所述信息搜索种子,在信息库中查找目标信息表,所述信息库包括多个信息表,所述信息表包括特征信息以及多个搜索信息,所述多个搜索信息属于同类信息;
输出单元,用于根据所述目标信息表的特征信息,对所述目标信息表的搜索信息进行排序并输出排序结果;
所述特征信息包括权重信息和综合值,所述综合值根据所述权重信息获取得到,所述权重信息包括同类信息权重、百科信息、标题比例和主题分布率中的至少一种,若所述权重信息中只包括一种信息的权重,则所述综合值为所述同类信息权重;若所述权重信息中包括两种以上的信息的权重,则所述综合值等于所述两种以上的信息的权重的乘积;
所述输出单元具体用于,根据所述目标信息表的特征信息中的综合值,对所述目标信息表的搜索信息进行排序并输出排序结果,所述排序结果包括所述目标信息表的搜索信息、所属领域、权重信息和综合值。
11.根据权利要求10所述的装置,其特征在于,所述信息表通过一索引值保存,所述索引值与所述信息表中的搜索信息属于同类信息;
所述查找单元具体用于,在所述信息库中查找与所述信息搜索种子匹配的索引值;根据所述索引值,获取目标信息表,所述索引值与所述目标信息表中的搜索信息属于同类信息。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括;
更新单元,用于在预设周期内对所述信息表的搜索信息和特征信息进行更新。
13.根据权利要求12所述的装置,其特征在于,所述更新单元包括第一更新单元;
所述第一更新单元用于,利用word2vec工具对所述信息表的索引值进行处理得到处理结果,所述处理结果包括相关信息和相关度,所述相关信息包括所述索引值的第一搜索信息和/或第二搜索信息,所述第一搜索信息与所述索引值属于同类信息,所述第二搜索信息与所述索引值属于非同类信息,所述相关度表示所述相关信息与所述索引值的相关性;利用所述处理结果中的第一搜索信息更新所述信息表中的搜索信息。
14.根据权利要求13所述的装置,其特征在于,所述更新单元还包括第二更新单元;
所述第二更新单元,用于若所述特征信息的权重信息中包括所述同类信息权重,则在所述预设周期内且在所述信息表中的搜索信息更新后,利用所述处理结果中的相关度更新所述特征信息的权重信息,并同时更新所述综合值。
15.根据权利要求13所述的装置,其特征在于,所述更新单元还包括第三更新单元;
所述第三更新单元,用于若所述特征信息的权重信息中包括所述百科信息,则在所述预设周期内且在所述信息表中的搜索信息更新后,从资讯中获取关于所述搜索信息的百科信息,利用所述百科信息更新所述特征信息的权重信息,并同时更新所述综合值,所述百科信息包括点赞信息、用户分享信息和浏览信息中的至少一种。
16.根据权利要求13所述的装置,其特征在于,所述更新单元还包括第四更新单元;
所述第四更新单元,用于若所述权重信息包括标题比例,则在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息在资讯标题中出现的标题比例,利用所述标题比例更新所述特征信息的权重信息,并同时更新所述综合值。
17.根据权利要求13所述的装置,其特征在于,所述更新单元还包括第五更新单元;
所述第五更新单元,用于若所述权重信息包括主题分布率,则在所述预设周期内且在所述信息表中的搜索信息更新后,统计所述搜索信息的第一分布值和第二分布值,并计算第一分布值和第二分布值的比值得到主题分布率,利用所述主题分布率更新所述特征信息的权重信息,并同时更新所述综合值;其中,所述第一分布值为所述搜索信息在所属领域的资讯中出现的次数,所述第二分布值为所述搜索信息在所有资讯中出现的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410497608.XA CN104965839B (zh) | 2014-09-25 | 2014-09-25 | 一种同类信息的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410497608.XA CN104965839B (zh) | 2014-09-25 | 2014-09-25 | 一种同类信息的搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104965839A CN104965839A (zh) | 2015-10-07 |
CN104965839B true CN104965839B (zh) | 2018-09-07 |
Family
ID=54219875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410497608.XA Active CN104965839B (zh) | 2014-09-25 | 2014-09-25 | 一种同类信息的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965839B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934631B (zh) * | 2019-03-13 | 2022-03-25 | 联想(北京)有限公司 | 问答信息处理方法、装置及计算机设备 |
CN109949137B (zh) * | 2019-03-28 | 2021-10-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079033A (zh) * | 2006-06-30 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种综合搜索结果的排序系统及方法 |
CN102184230A (zh) * | 2011-05-11 | 2011-09-14 | 北京百度网讯科技有限公司 | 一种搜索结果的展示方法及装置 |
CN103838754A (zh) * | 2012-11-23 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 信息搜索装置及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2579691A1 (en) * | 2004-09-16 | 2006-03-30 | Telenor Asa | A method, system, and computer program product for searching for, navigating among, and ranking of documents in a personal web |
-
2014
- 2014-09-25 CN CN201410497608.XA patent/CN104965839B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079033A (zh) * | 2006-06-30 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种综合搜索结果的排序系统及方法 |
CN102184230A (zh) * | 2011-05-11 | 2011-09-14 | 北京百度网讯科技有限公司 | 一种搜索结果的展示方法及装置 |
CN103838754A (zh) * | 2012-11-23 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 信息搜索装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104965839A (zh) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11698932B2 (en) | Media content item recommendation system | |
US11461380B2 (en) | System and method for tagging a region within a distributed video file | |
US9659278B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
CN104899302B (zh) | 向用户推荐音乐的方法和装置 | |
US10180967B2 (en) | Performing application searches | |
CN104636448B (zh) | 一种音乐推荐方法及装置 | |
JP2014512614A (ja) | 製品カテゴリ情報を判断する方法および装置 | |
CN102184211A (zh) | 文件系统和检索、写入、修改或删除文件的方法与装置 | |
CN106682012A (zh) | 商品对象信息搜索方法及装置 | |
CN107391509A (zh) | 标签推荐方法及装置 | |
US20150134664A1 (en) | Experience graph | |
CN101256587B (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
CN111368063A (zh) | 一种基于机器学习的信息推送方法以及相关装置 | |
US11853279B2 (en) | Data storage using vectors of vectors | |
CN105574030A (zh) | 一种信息搜索方法及装置 | |
CN103268345A (zh) | 影视数据的检索方法及装置 | |
CN108241713A (zh) | 一种基于多元切分的倒排索引检索方法 | |
US20130346385A1 (en) | System and method for a purposeful sharing environment | |
CN107357911A (zh) | 一种文本输入方法及装置 | |
CN104965839B (zh) | 一种同类信息的搜索方法及装置 | |
CN109241410A (zh) | 一种文章推荐方法和装置 | |
CN104166736A (zh) | 倒排索引文件的存储方法和装置 | |
US20080114789A1 (en) | Data item retrieval method and apparatus | |
CN105205062B (zh) | 数据存储方法、数据读取方法和装置 | |
CN103399879B (zh) | 基于用户搜索日志的兴趣实体获得方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |