CN105302810A - 一种信息搜索方法和装置 - Google Patents

一种信息搜索方法和装置 Download PDF

Info

Publication number
CN105302810A
CN105302810A CN201410262128.5A CN201410262128A CN105302810A CN 105302810 A CN105302810 A CN 105302810A CN 201410262128 A CN201410262128 A CN 201410262128A CN 105302810 A CN105302810 A CN 105302810A
Authority
CN
China
Prior art keywords
group
target group
data
users
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410262128.5A
Other languages
English (en)
Other versions
CN105302810B (zh
Inventor
顾思宇
张阔
刘华生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410262128.5A priority Critical patent/CN105302810B/zh
Publication of CN105302810A publication Critical patent/CN105302810A/zh
Application granted granted Critical
Publication of CN105302810B publication Critical patent/CN105302810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息搜索方法和装置,其中的方法具体包括:获取用户在搜索引擎中输入的查询串;根据所述查询串对应的搜索结果进行分析,得到对应的关键词;将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;将所述目标群组展现在所述搜索结果的页面。本发明实施例能够提高用户群组搜索的便捷性和效率。

Description

一种信息搜索方法和装置
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种信息搜索方法和装置。
背景技术
在大多数的社交网络平台中,都支持用户自己根据某一个特定的主题,比如兴趣爱好、共享的环境、特定身份、话题等建立用户群组。用户群组是供多用户聊天交流服务的用户集合,其可以是用户自发的兴趣小组(如巴萨球迷群),也可以是企业创建的客服账号;例如,QQ群(企业QQ群、用户QQ群、微信公众账号等等)是腾讯公司推出的聊天群体的群体平台案例,阿里旺旺群是阿里巴巴公司推出的购物咨询相关的聊天群体的群体平台案例,豆瓣小组是同类用户群组产品中的群体平台案例等等。用户获取某方面的特定信息时,通过搜索引擎进行搜索仅是单纯地被动获得网页结果,并不能就搜索的需求进行互动交流,往往需要根据需求加入一些用户群组,在群组中进行沟通交流才能获得对应的特定信息,用户若要加入已经建立的用户群组,一般都需要先搜索,再申请加入。
现有的搜索用户群组的方法主要是在群体平台中输入账号或关键词,群体平台会根据该账号或关键词搜索群体平台中各用户群组的账号、类型、描述文字和名称,并列出搜索结果。
现有的搜索用户群组的方法具有如下缺点:
第一,现有的群体平台众多,用户需要逐个打开各群体平台,在其内部分别搜索用户群组,上述在各群体平台中逐个搜索的过程无疑带来了操作繁琐的问题,降低了获取信息的效率;
第二,用户往往会在熟悉的群体平台做简单的搜索,例如,QQ用户在存在租房信息需求时,其搜索范围通常局限于QQ群,实际上,具有超大成员上限的豆瓣小组“北京租房”要比固定成员上限的QQ群具有更多、更独到的租房信息,降低了获取信息的容量。
发明内容
本发明实施例所要解决的技术问题是提供一种信息搜索方法和装置,能够提高用户群组搜索的便捷性和效率。
为了解决上述问题,本发明公开了一种信息搜索方法,包括:
获取用户在搜索引擎中输入的查询串;
根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
将所述目标群组展现在所述搜索结果的页面。
优选的,所述方法还包括:
依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的目标群组;
则所述将所述目标群组展现在所述搜索结果的页面的步骤,具体为将符合第一过滤条件的所述目标群组展现在所述搜索结果的页面。
优选的,所述依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的所述目标群组的步骤,包括:
提取各搜索结果对应网页的第一特征,以及,提取各目标群组对应索引数据的第二特征;
计算所述第一特征和所述第二特征之间的相似度值;
依据所述相似度值对各目标群组进行过滤,并保留相似度值符合第一过滤条件的所述目标群组。
优选的,所述方法还包括:
依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序;
则所述将所述目标群组展现在所述搜索结果的页面的步骤,具体为将排好序的所述目标群组展现在所述搜索结果的页面。
优选的,在所述将排好序的所述目标群组展现在所述搜索结果的页面步骤之前,所述方法还包括:
依据所述目标群组的摘要数据与所述检索词的相关度和/或各目标群组的群组重要度,对排好序的所述目标群组进行过滤,并保留符合第二过滤条件的所述目标群组;其中,所述群组重要度用于表示用户群组的重要程度;
则所述将排好序的所述目标群组展现在所述搜索结果的页面的步骤,具体为将符合第二过滤条件的所述目标群组展现在所述搜索结果的页面。
优选的,通过如下步骤生成所述用户群组的索引数据:
获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
依据所述群组资料数据和所述群组消息日志数据,生成用户群组的索引数据。
优选的,所述群组资料数据包括:群名称、群简介、群标签,所述群组消息日志数据包括群消息;
则所述依据所述群组资料数据和所述群组消息日志数据,生成用户群组的索引数据的步骤,包括:
抽取所述群组资料数据中的群名称、群名称的别名、群简介、群标签、群的锚名称作为基本信息;
抽取所述群消息的描述文字中符合预置频率条件的词汇作为扩展信息;
依据所述基本信息和所述扩展信息建立用户群组的索引数据。
优选的,所述依据所述检索词在群体平台中各用户群组的索引数据中进行检索,得到对应匹配的目标群组的步骤具体为,依据所述检索词在倒排索引表中进行检索,得到对应匹配的目标群组,所述倒排索引表依据所有用户群组的索引数据建立。
优选的,所述将所述目标群组展现在所述搜索结果的页面的步骤具体为,在所述搜索结果的页面展现所述目标群组对应的摘要数据。
另一方面,本发明还公开了一种信息搜索装置,包括:
接口单元,用于获取用户在搜索引擎中输入的查询串;
分析单元,用于根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
检索单元,用于将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;及
展现单元,用于将所述目标群组展现在所述搜索结果的页面。
优选的,所述装置还包括:用于依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的目标群组的第一过滤单元;
则所述展现单元,具体用于将符合第一过滤条件的所述目标群组展现在所述搜索结果的页面。
优选的,所述装置还包括:用于依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序的排序单元;
则所述展现单元,具体用于将排好序的所述目标群组展现在所述搜索结果的页面。
优选的,所述装置还包括:用于生成所述用户群组的索引数据的索引生成单元,所述索引生成单元包括:
获取子单元,用于获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
生成子单元,用于依据所述群组资料数据和群组消息日志数据,生成用户群组的索引数据。
优选的,所述展现单元,具体用于在所述搜索结果的页面展现所述目标群组的摘要数据。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例提供了一种在搜索引擎中网页搜索结果的页面中附着用户群组的方案,该方案将根据所述查询串对应的搜索结果得到的关键词作为符合当前用户查询意图的检索词,依据所述检索词在群体平台中各用户群组的索引数据中检索得到对应的目标群组,并将所述目标群组展现在所述搜索结果的页面。
其中,所述查询串为用户在搜索引擎中输入,其能够直接代表用户的查询意图;所述查询串的网页搜索结果对应关键词可以为在搜索结果中通过词频统计获得的一个或多个关键词,关键词相对于单一的上述查询串既能够间接代表用户的查询意图,又能够为用户的查询意图匹配到更多的用户群组,因此能够扩大检索系统的召回率,丰富了获取信息的容量;
由于该方案中的群体平台可以为多个群体平台,故该方案可以支持多个群体平台中用户群组,因此,本发明实施例无需用户逐个打开群体平台即可在网页搜索过程中获取多个群体平台中用户群组搜索结果,因此,能够提高用户群组搜索的便捷性和效率;并且,本发明实施例不仅可以为用户提供熟悉的群体平台中用户群组搜索结果,而且可以全面地为用户提供不熟悉或者完全陌生的群体平台中用户群组搜索结果。
附图说明
图1是本发明的一种信息搜索方法实施例一的步骤流程图;
图2是本发明的一种信息搜索方法实施例二的步骤流程图;
图3是本发明的一种信息搜索方法实施例三的步骤流程图;
图4是本发明的一种信息搜索方法实施例四的步骤流程图;
图5是本发明的一种信息搜索方法实施例五的步骤流程图;
图6是本发明实施例一种用户群组检索的服务流程的示意图;
图7是本发明的一种信息搜索装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明的一种信息搜索方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101、获取用户在搜索引擎中输入的查询串;
步骤102、根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
步骤103、将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
步骤104、将所述目标群组展现在所述网页搜索结果的页面。
随着网络信息搜索技术的不断发展,用户通过网上进行信息搜索获取所需信息,越来越成为日常生活以及工作中不可缺少的一部分。而通过QQ群、豆瓣小组等用户群组获取租房信息、二手信息、打折信息等所需信息也是现有的一种获取信息的主要方式,而由于QQ群、豆瓣小组等用户群组从属于群体平台,而群体平台也提供相应用户群组的搜索功能,故现有搜索用户群组的常规技术手段是在群体平台中搜索用户群组的方案。
而本发明实施例打破了上述技术常规,提供了一种在搜索引擎中网页搜索结果的页面中附着用户群组搜索结果的方案,该方案将所述查询串的网页搜索结果对应关键词作为符合当前用户查询意图的检索词,依据所述检索词在群体平台中各用户群组的索引数据中检索得到对应的目标群组,并将所述目标群组展现在所述网页搜索结果的页面。
其中,所述查询串的网页搜索结果对应关键词可以为在网页搜索结果中通过词频统计获得的一个或多个关键词,上述查询串的网页搜索结果对应关键词相对于单一的上述查询串既能够间接代表用户的查询意图,又能够为用户的查询意图匹配到更多的用户群组,因此能够扩大检索系统的召回率,其中,召回率是是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
在实际应用中,网页搜索结果的条目众多,可以仅针对第一页网页搜索结果进行词频统计以获得上述查询串的网页搜索结果对应关键词,另外可以采用TF-IDF(词频-逆向文件频率,termfrequency–inversedocumentfrequency)等词频统计方法,本发明实施例对具体的词频统计方法不加以限制。
在实际应用中,多数用户在建立用户群组时,都不会撰写描述文字或是描述文字不够详细,难以准确表达用户群组的主题;而用户群组的名称往往是用户随意起的,很多也不能正确表达群组的主题,因此用户必须对群组搜索结果进行手动筛选,故难以快速找到自己所要主题的群组;而所述用户群组的索引数据可以依据各用户群组的群组资料数据和群组消息日志数据进行生成,使索引数据符合用户群组主题,故应用所述用户群组的索引数据能够为用户提供更为精准的群组搜索结果,且能够提高用户获取用户群组及对应信息的速度。
由于所述查询串为用户在搜索引擎中输入,其能够直接代表用户的查询意图,故在本发明的一些实施例中,还可以将所述查询串分词为检索词,此种情况下,查询串对应的目标群组可以作为所述关键词对应的目标群组的补充,因此能够扩大检索系统的召回率,丰富了获取信息的容量。
总之,由于该方案中的群体平台可以为多个群体平台,故该方案可以支持多个群体平台中用户群组,本发明实施例无需用户逐个打开群体平台即可在网页搜索过程中获取多个群体平台中用户群组搜索结果,因此,能够提高用户群组搜索的便捷性和效率;并且,本发明实施例不仅可以为用户提供熟悉的群体平台中用户群组搜索结果,而且可以全面地为用户提供不熟悉或者完全陌生的群体平台中用户群组搜索结果。
本发明实施例中,可以通过如下步骤生成所述用户群组的索引数据:
步骤S100、获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
在实际应用中,可以通过与群体平台合作等方式获取群体平台中各用户群组的群组资料数据和群组消息日志数据。
在本发明的一种应用示例中,所述群组资料数据具体可以包括如下信息中的一项或多项:群名称、群简介、群标签、群成员、群成员列表、群备注、群的锚名称(即群成员对群的备注名称)、群组最大成员数量、群组的实际成员数量、群组是否是由官方或企业管理等等,例如“招商银行信用卡”为一企业QQ账号的示例,“招商银行信用卡中心”为一微信公众账号的示例。
所述群组消息日志数据可以为群体平台的日志中记录的用户,其用于记录群体平台中用户群组的群消息。在实际应用中,所述群消息具体可以包括用户群组中所有群组成员发布的消息。
在本发明的一些实施例中,除了获取群体平台中各用户群组的群组资料数据和群组消息日志数据外,还可以获取群体平台中各用户群组的群组成员资料,这里的群组成员资料具体可以包括群组成员的等级、上线时间、消息量等等。
步骤S101、依据所述群组资料数据和群组消息日志数据,生成用户群组的索引数据。
索引在检索领域可用于快速访问数据库表中的特定信息以增加检索速度。本发明实施例中,索引数据可提供指向存储在表的用户群组中的数据值的指针。
在本发明的一种优选实施例中,所述群组资料数据具体可以包括:群名称、群简介、群标签,所述群组消息日志数据具体可以包括群消息;
则所述依据所述群组资料数据和群组消息的日志数据,生成用户群组的索引数据的步骤,具体可以包括:
子步骤S111、抽取所述群组资料数据中的群名称、群名称的别名、群简介、群标签、群的锚名称作为基本信息;
子步骤S112、抽取所述群消息的描述文字中符合预置频率条件的词汇作为扩展信息;
由于群体平台更多的是群组成员之间的交流平台,所述群消息具体可以包括用户群组中所有群组成员发布的消息,因此,子步骤S112可以从所述群消息的描述文字中抽取符合预置频率条件的词汇作为扩展信息。在实际应用中,可以采用采用TF-IDF等词频统计方法对所述群消息的描述文字进行词频统计,并抽取其中的高频词汇作为扩展信息,这里的高频可与上述预置频率条件相应,可由本领域技术人员根据实际情况确定,本发明实施例对具体的预置频率条件不加以限制。
对于群组成员发布的消息中存在着的问答型的消息内容,例如,企业QQ账号“招商银行信用卡”在群消息的问题中经常包含“招行”、“商务卡”和“年费”等问题的描述文字,并且,在企业QQ账号“招商银行信用卡”的企业简介中也包含“商务卡”的信息,故子步骤S112可以从日志数据中抽取“招行”、“商务卡”和“年费”等高频词汇。
上述扩展信息作为基本信息的补充,能够使得用户群组具有更多的索引数据,从而上述检索词能够匹配到更多的用户群组,扩大检索系统的召回率。例如,从企业QQ账号“招商银行信用卡”中问题的描述文字中抽取了基本信息中没有的扩展信息—“蜡笔小新卡”,故在上述检索词中包括有“蜡笔小新卡”时同样可以定位到上述“招商银行信用卡”对应用户群组。
子步骤S113、依据所述基本信息和扩展信息建立用户群组的索引数据。
在本发明的一种优选实施例中,所述生成用户群组的索引数据的步骤,还可以包括:按照群组重要度从大到小的顺序,依据所有用户群组的索引数据建立倒排索引表;其中,所述群组重要度用于表示用户群组的重要程度;
则依据所述检索词在群体平台中各用户群组的索引数据中检索得到对应的目标群组的步骤具体可以为,依据所述检索词在倒排的所有用户群组的索引数据中进行检索,得到对应匹配的目标群组,所述倒排索引表依据所有用户群组的索引数据建立。
倒排索引(invertedindex)是一种索引方法,可被用来存储在在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,其源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。带有倒排索引的文件通常称为倒排文件(invertedfile)。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
本优选实施例中,所述群组重要度可用于表示用户群组的重要程度。在本发明的一种优选实施例中,所述群组重要度可以为依据用户群组的所述群组资料数据、群组成员资料数据和群组消息日志数据中任一种或多种数据中任一项或多项特征信息加权得到。
在本发明的一种应用示例中,所述特征信息具体可以包括:从群组资料数据中提取的群组最大成员数量、群组实际成员数量、群组是否是由官方或企业管理;从群组消息日志数据中提取的群组日均消息数量、群组活跃成员数量(即一定时间窗口内发言的用户数量);从群组成员资料数据中提取的群组成员的等级、上线时间、消息量,在实际应用中,可以对所述特征信息进行线性加权得到相应的群组重要度。当然,上述计算群重要度所使用的特征信息只是作为应用示例,而不理解为本发明实施例的应用限制。
在实际应用中,所述群组重要度可以采用等级或数值范围的形式来描述,例如,可以将群组重要度划分为若干个等级,如关键、重要、普通等等;也可以采用0~1之间的数值来描述,其中,0为最不重要,1表示最重要等等。
在本发明的一种优选实施例中,所述生成用户群组的索引数据的步骤,还可以包括:抽取所述群组资料数据中至少一项特征信息,生成用户群组的摘要数据。所述摘要数据在网页搜索结果的页面展现,可用于简明、确切地记述用户群组。在实际应用中,本领域技术人员可以根据实际需求选择需要展现的特征信息,并生成摘要数据。例如,可以选择群名称、群简介、群标签等特征信息。例如微信公众账号“招商银行信用卡中心”的摘要数据具体可以包括“招商银行信用卡中心”、“是官方公众账号”、“微信号”等等。
由于获取的各个群体平台之间的数据内容可能各不相同,因此,在本发明的一种优选实施例中,还可以对来自各群体平台的数据内容来源的群组资料信息数据制定标准,通过数据转换实现不同群体平台的数据在同一系统平台的统一。以腾讯QQ平台到本发明的系统平台的转换为例,可以将QQ群的群名称和微信群的昵称,都赋值给同一个群组名称字段。通过上述转换,能够实现多种群体平台的数据的整合。
在实际应用中,可以将各种群体平台中各用户群组的群组资料数据、群组消息日志数据和群组成员资料数据分别整合至本发明的系统平台的用户群组数据,并将整合完毕的统一标准的用户群组数据存入原始群组数据库。
另外,为了保持本发明的系统平台与各种群体平台中各用户群组的数据的一致性,可以定期从各种群体平台获取最新的数据,将新获取的数据与原始群组数据库的数据进行合并,并依据合并后的数据重新生成用户群组的索引数据和摘要数据。可以理解,本发明实施例对具体的更新周期不加以限制,其可以为12小时、24小时、48小时等等。
为使本领域技术人员更好地理解本发明实施例,下面以“招商银行信用卡中心”服务为例,对生成用户群组的索引数据和摘要数据的过程进行详细说明,具体可以包括如下步骤:
步骤S1、从各群体平台获取与“招商银行信用卡中心”服务相关的用户群组;
例如,可以分别从QQ和微信获取QQ企业群“招商银行信用卡”和微信公众账号“招商银行信用卡中心”等用户群组的群组资料数据、群组消息日志数据和群组成员资料数据。
步骤S2、将不同来源的用户群组的数据整合成统一的数据格式,并存储在原始群组数据库中;
例如,可以将上述“招商银行信用卡中心”和“招商银行信用卡”对应描述文字分别放于对应用户群组的名称字段,“个性签名”和“企业简介”对应描述文字分别放于对应用户群组的简介字段。在实际应用中,还可以根据需要设置其他字段,如群标签、群成员、群消息日志、群成员列表、群备注、群的锚名称、群组最大成员数量、群组的实际成员数量、群组是否是由官方或企业管理等等。
步骤S3、依据所述原始群组数据库中数据计算用户群组的群组重要度;
例如,可以从群组资料数据中提取群组最大成员数量、群组实际成员数量、群组是否是由官方或企业管理,从群组消息日志数据中提取群组日均消息数量、群组活跃成员数量(即一定时间窗口内发言的用户数量),从群组成员资料数据中提取群组成员的等级、上线时间、消息量,并对所提取的上述特征信息进行线性加权得到相应的每个用户群组的群组重要度。
步骤S4、抽取所述群组资料数据中的群名称、群名称的别名、群简介、群标签、群的锚名称作为基本信息,以及抽取所述群消息的描述文字中符合预置频率条件的词汇作为扩展信息;
例如,抽取的基本信息具体可以包括“招商银行信用卡中心”、“招商银行先后推出了粉丝卡、航空卡、百货卡、商务卡……”等,抽取的扩展信息具体可以包括“商务卡年费怎么收?”等信息。
步骤S5、按照群组重要度从大到小的顺序,依据所有用户群组的索引数据建立倒排索引表;其中,所述群组重要度用于表示用户群组的重要程度;
步骤S6、抽取所述群组资料数据中至少一项特征信息,生成用户群组的摘要数据;
步骤S7、监控所述原始群组数据库中用户群组在所属群体平台中的变化,依据所述变化从各种群体平台获取最新的数据,将新获取的数据与原始群组数据库的数据进行合并,并依据合并后的数据重新生成各用户群组的索引数据和摘要数据。
上述监控过程具体可以包括:对用户群组的群组资料数据中群组名称、简介等内容变化的监控,该监控能够生成符合最新用户群组的索引数据和摘要数据,以提高群组搜索结果的精度,其中精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;以及,对最新的群消息中问题的描述文字等内容变化的监控,能够使群组搜索结果跟进群消息中最新的与上述检索词相应的话题。
实施例二
参照图2,示出了本发明的一种信息搜索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201、获取用户在搜索引擎中输入的查询串;
步骤202、根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
步骤203、将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
步骤204、依据目标群组分别与各所述网页搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的所述目标群组;
步骤205、将符合第一过滤条件的所述目标群组展现在所述网页搜索结果的页面。
在实际应用中,所述目标群组的数量可能众多,例如检索词“北京租房”对应的目标群组可能有成百上千个,检索词“巴萨球迷”对应的目标群组可能有成千上万个,为了向用户提供包含所需租房信息或球迷群信息的用户群组,本实施例还可以依据用户群组与各所述网页搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的所述目标群组,由于滤除了不符合第一过滤条件的所述目标群组,因此能够提高群组搜索结果的精度。
在本发明的一种优选实施例中,所述依据用户群组与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的所述目标群组的步骤204,具体可以包括:
子步骤S241、提取各网页搜索结果对应网页的第一特征,以及,提取各用户群组对应索引数据的第二特征;
在实际应用中,所述第一特征具体可以包括网页对应的文本特征和主题特征中一种或多种,其中,可以采用向量空间模型来表示文本特征,对于网页而言,其文本特征可以很好表达该网页的针对性,但文本特征向量维度很高且具有稀疏性,在实际中不可避免地增加运算量;而主题特征可以采用主题模型训练的方法提取得到,判断出网页对应的主题,主题特征可以有效避免文本特征运算量过多的问题,但对于网页的针对性不如文本特征。
所述第二特征具体可以包括各用户群组对应索引数据的文本特征,本领域技术人员可以直接从各用户群组对应索引数据中抽取关键词作为所述第二特征,本领域技术人员对具体的抽取方法不加以限制。
子步骤S242、计算所述第一特征和第二特征之间的相似度值;
在实际应用中,可以采用余弦相似度等相似度算法计算所述第一特征和第二特征之间的相似度值。
其中,余弦相似度(cosinesimilarity)是信息检索中常用的相似度计算方式,可用来计算文件之间的相似度。在计算两文件的相似度前,需将文件表达成向量的形式,亦即将文件中所有的重要词汇都视为一个个的向量维度,以该词汇的权重为该维度的值,组合而成一向量,代表该文件,例如文件i表达成文件向量Di=(wi1,wi2,…,win),文件j表达成Dj=(wj1,wj2,…,wjn),则此两文件的余弦相似度计算公式为:
Cos ( D i , D j ) = Σ k = 1 n w ik w ij Σ k = 1 n w ik 2 Σ k = 1 n w jk 2
其中,0<k≤n,余弦相似度最小值为0,最大值为1。其几何意义,是计算两文件向量在高维度空间中的夹角,夹角越小,余弦相似度越大(角度0时,相似度为1),角度越大,余弦相似度越小(角度90度正交时,相似度为0)。此相似度将向量长度(即文件长度)正规化成长度为1.0的向量,因此文件的长短对相似度的影响不大,而是维度的数值(亦即词汇的权重)计算方式,影响较大。
当然,除了余弦相似度外,也可以采用其他相似度算法,如欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、汉明距离、杰卡德距离&杰卡德相似系数、相关系数&相关距离和信息熵等等,本发明实施例对具体的相似度算法不加以限制。
子步骤S243、依据所述相似度值对所述目标群组进行过滤,并保留相似度值符合第一过滤条件的所述目标群组。
例如,在采用余弦相似度等相似度算法计算所述第一特征和第二特征之间的相似度值时,可以根据相似度算法设置相应的第一过滤条件;所述第一过滤条件可用于限制用户群组的数量,例如其可以为相关度最大的前M个用户群组,其中M为大于1的整数;所述第一过滤条件还可用于限制上述相似度值,例如其可以为相似度值大于deta的用户群组,其中,0.8<deta<1,总之,本发明实施例对具体的第一过滤条件不加以限制。
另外,在实际应用中,网页搜索结果的条目众多,故可以仅针对第一页网页搜索结果计算其与用户群组之间的相似度,也即可以仅仅依据用户群组与第一页的所述网页搜索结果的相关度对所述目标群组进行过滤。
实施例三
参照图3,示出了本发明的一种信息搜索方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤301、获取用户在搜索引擎中输入的查询串;
步骤302、根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
步骤303、将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
步骤304、依据用户群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序;
步骤305、将排好序的所述目标群组展现在所述网页搜索结果的页面。
在实际应用中,所述目标群组的数量可能众多,例如检索词“北京租房”对应的目标群组可能有成百上千个,检索词“巴萨球迷”对应的目标群组可能有成千上万个,为了向用户提供包含所需租房信息或球迷群信息的用户群组,而用户在查找相关群组搜索结果时,往往仅查看排名靠前的几个群组搜索结果,故群组搜索结果的排序是一项关键的技术。
本实施例依据目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序。
其中,各群体平台的用户群组中,各用户群组的索引数据与所述检索词的相关度表示了检索词在用户群组的索引数据中的重要程度,某用户群组的索引数据与所述检索词的相关度越大,则该用户群组的排名越靠前,并将所得对应匹配的用户群组作为目标群组;
在实际应用中,可以根据所述检索词分别在对应用户群组的所有索引数据中的命中情况,计算各用户群组的索引数据与所述检索词的相关度,其中,所述命中情况具体可以包括如下信息中的一项或多项:各检索词在对应用户群组的所有索引数据中是否出现、检索词各个分词在命中内容中的紧密度和顺序;
其中,紧密度是描述文本所含信息紧密程度的量,其用于表示信息被人们表达和接受的稳定程度,如检索词为“中国银行”时,虽然该检索词各分词“中国”和“银行”均分别命中了目标群组1的索引数据“中国银行信用卡中心”和目标群组2的索引数据“中国农业银行”,但由于“中国银行信用卡中心”中的分词“中国”和“银行”连续,因此该检索词各个分词在目标群组1的命中内容中的紧密度显然好于该检索词各个分词在目标群组2的命中内容中的紧密度。
顺序用于描述文本在命中内容中的顺序,例如,在检索词为“招商银行”时,虽然该检索词的分词“招商”和“银行”均分别命中了目标群组1的索引数据“招商银行信用卡中心”和目标群组2的索引数据“工商银行招商路支行”,,但两分词命中的顺序不同,目标群组1的命中内容中的顺序与检索词对应的分词顺序相同,故可以认为该检索词的分词在目标群组1的命中内容中的顺序好于该检索词的分词在目标群组2的命中内容中的顺序。
在实际应用中,可以分别针对检索词在对应目标群组的所有索引数据中是否出现、检索词各个分词在命中内容中的紧密度和顺序等信息设置不同的相关度参数,并依据该相关度参数计算目标群组的索引数据与所述检索词的相关度,例如所述计算方法可以为对目标群组的多种相关度参数进行加权求和,本发明实施例对具体的计算方法不加以限制。其中,在设置相关度参数时,检索词在对应目标群组的所有索引数据中出现对应的第一相关度参数可以大于检索词在对应目标群组的所有索引数据中未出现对应的第一相关度参数,检索词各个分词在命中内容中紧密度的好坏可以与对应第二相关度参数的大小成正比,检索词各个分词在命中内容中顺序的好坏可以与对应第三相关度参数的大小成正比,本发明实施例对具体的相关度参数的设置方法不加以限制。
各目标群组的查询点击情况可用于表示用户在查询得到该目标群组时的点击倾向性,目标群组的查询点击倾向越强,则排序时的排名越靠前;其可依据查询点击日志中记录的目标群组的历史查询点击记录分析得到,也可以根据目标群组的资料构造形成的用户点击模型学习得到,本发明实施例对具体的获取目标群组的查询点击情况的方法不加以限制。
在具体实现中,可以采用相关性分数描述所述目标群组的索引数据与所述检索词的相关度,以及,采用点击模型分数描述目标群组的查询点击情况,对相关性分数和点击模型分数进行加权,并依据加权后的分数对所述目标群组进行排序。
在实际应用中,为了增强用户体验,可以从排好序的所述目标群组中选取全部或部分进行展现,例如,可以选取排在前面的前三个目标群组进行展现,当然,本领域技术人员可以根据实际需要选择需要展现的目标群组的数目。
总之,本实施例依据目标群组的索引数据与所述检索词的相关度和/或目标群组的查询点击情况,对所述目标群组进行排序,能够将与所述检索词的相关度较大的目标群组排在前面,或者,能够将查询点击倾向较强的目标群组排在前面,因此能够将最符合用户查询意图的与所述检索词的相关度较大和/或查询点击倾向较强的目标群组排在前面,因此能够增加用户的搜索体验。
实施例四
参照图4,示出了本发明的一种信息搜索方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤401、获取用户在搜索引擎中输入的查询串;
步骤402、根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
步骤403、将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
步骤404、依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序;
步骤405、依据所述目标群组的摘要数据与所述检索词的相关度和/或各目标群组的群组重要度,对排好序的所述目标群组进行过滤,并保留符合第二过滤条件的所述目标群组;其中,所述群组重要度用于表示用户群组的重要程度;
步骤406、将符合第二过滤条件的所述目标群组展现在所述网页搜索结果的页面。
在其他实施例中,根据所述查询串对应的搜索结果进行分析时,也可直接将所述查询串的分词作为关键词,则将所述查询串的分词作为检索词,并在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;并显示在所述搜索结果的页面。
在实施例三的基础上,本实施例还可以依据目标群组的摘要数据与所述检索词的相关度和/或各目标群组的群组重要度,对排好序的所述目标群组进行过滤,并保留符合第二过滤条件的所述目标群组,由于滤除了不符合第二过滤条件的所述目标群组,因此能够提高群组搜索结果的精度。
在实际应用中,可以从排好序的所述目标群组中选取全部或部分进行过滤。其中,摘要数据与所述检索词的相关度可用于表示检索词在目标群组的摘要数据中的重要程度,在实际应用中,可以根据所述检索词在对应目标群组的摘要数据中的命中情况计算用户群组的摘要数据与所述检索词的相关度,其中,所述命中情况具体可以包括如下信息中的一项或多项:检索词分别在对应目标群组的所有摘要数据中是否出现、检索词各个分词分别在命中内容中的紧密度和顺序;由于目标群组的摘要数据与所述检索词的相关度与目标群组的索引数据与所述检索词的相关度的原理和计算过程类似,故在此不做赘述,相互参照即可。
本领域技术人员可以依据实际情况确定所述目标群组的摘要数据与所述检索词的相关度对应的第二过滤条件,其中,对不同类型的目标群组可以采用不同的第二过滤条件,例如对于企业用户群组可以严格要求检索词与摘要数据中群名称或群名称别名匹配,对普通用户群组则可放松要求。
同理,也可以根据实际情况确定用户群组的群组重要度对应的第二过滤条件,例如,其可以为群组重要度等级超过重要等级的用户群组,或者,群组重要度数值大于alpha的用户群组等等,其中,0.8<alpha<1,总之,本发明实施例对具体的第二过滤条件不加以限制。
实施例五
参照图5,示出了本发明的一种信息搜索方法实施例五的步骤流程图,具体可以包括如下步骤:
步骤501、获取用户在移动客户端的无线搜索引擎中输入的查询串;
步骤502、根据所述查询串对应的无线搜索结果进行分析,得到对应的关键词;
步骤503、将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
步骤504、在所述无线搜索结果的页面展现所述目标群组的摘要数据。
用户可以进一步根据无线搜索结果和目标群组合成后返回至移动客户端,用户直接在移动客户端上调用的对应的即时通信软件与选定的目标群组进行沟通,在对应的群体平台中进行提问,获取需要的信息。
如前所述,摘要数据可用于简明、确切地记述用户群组的信息,将摘要数据展现在网页搜索结果的页面,用户可以依据所展现的摘要数据产生对相应用户群组的直观认识,从而可以确定是否点击该用户群组。
在具体实现中,所展现的用户群组可以位于网页搜索结果的页面中网页搜索结果的上方、右侧等任意位置。
在本发明的一种优选实施例中,所述摘要数据中还可以包括有用户群组的访问入口,所述访问入口可用于链接至群体平台中的该用户群组。例如,微信公众账号“招商银行信用卡中心”的访问入口可以为带有超级链接的“加为好友”或“对话”等标识,若用户点击“加为好友”或“对话”标识,则本发明实施例可以调用群体平台客户端或网页版的对应接口,使用户可以直接与对应的目标群组会话,或者,本发明实施例还可以发出安装群体平台客户端的问询提示。
参照图6,示出了本发明实施例一种用户群组检索的服务流程的示意图,具体可以包括如下步骤:
步骤601、接收用户针对网页搜索结果的页面中用户群组的访问入口的点击操作;
步骤602、调用所述访问入口对应网页或群体平台客户端的接口;
步骤603、依据调用结果,提示安装对应的群体平台客户端或开启网页会话窗口供用户直接会话对应用户群组。
为使本领域技术人员更好地理解本发明实施例,下面以“招商银行信用卡中心”服务为例,对信息搜索方法的过程进行详细说明。
应用示例一
在获取用户查询串“招行商务卡年费”后,通过检索用户群组的索引数据可以获得所有备选的用户群组,具体可以包括:QQ企业账号“招商银行信用卡”、微信公众账号“招商银行信用卡中心”、“悠龙印务”等与该查询串对应的目标群组,并拼接在网页搜索结果的页面的右侧,这些用户群组的由群组资料和消息日志组成的索引数据中都包含“招商银行”、“商务卡”和“年费”三个关键词。
应用示例二
在获取用户查询串“招行商务卡年费”后,首先通过该查询串获得网页搜索结果,然后对网页搜索结果进行关键词抽取,得到“招商银行”、“信用卡”和“招商银行信用卡”等等关键词,接着分别使用查询串“招行商务卡年费”和关键词“招商银行”、“信用卡”和“招商银行信用卡”等关键词作为检索词进行用户群组的检索,最后对检索结果包含的用户群组进行合并获得所有相关的用户群组,将这些用户群组作为与查询词“招行商务卡年费”对应匹配的目标群组。
通过数据可知,QQ企业账号“招商银行信用卡”在群消息的问题中经常包含“招行”、“商务卡”和“年费”等问题信息,在用户群组的企业简介中也包含“商务卡”的信息;相比较,其他用户群组虽然也包含“招商银行”的信息,但是对“商务卡年费”相关的信息没有提及;由此可以得知检索词与QQ企业账号“招商银行信用卡”的相关性分数大于检索词与其他用户群组的相关性分数。
同样,可以得知,由于微信公众账号“招商银行信用卡中心”的群名称、群简介等基本信息和扩展信息均可以命中查询串的分词“招行商务卡”和“年费”,故检索词与微信公众账号“招商银行信用卡中心”的相关性分数相对较高。
在QQ企业账号中,易知,假设同时在网页右侧展现“招商银行信用卡”和“悠龙印务”对应的目标群组,用户的查询点击行为必然倾向点击“招商银行信用卡”;由此可以得知“招商银行信用卡”查询点击分数大于“悠龙印务”的查询点击分数。
在实际应用中,可以对相关性分数和查询点击分数对目标群组进行经验权重加和,并排序。
在排序后,对所有目标群组和网页搜索结果的文本进行分词统计,获取其中文本的关键词和主题,然后使用余弦相似度分别计算各目标群组分别与各搜索结果之间的相关度,实际数据证明,QQ企业账号“招商银行信用卡”、微信公众账号“招商银行信用卡中心”符合第一过滤条件,因此,可以将该两个用户群组展现在所述网页搜索结果的页面的网页搜索结果中、上方或者右侧。
在搜索结果中匹配的目标群组还可以带有对应的超级链接的“加为好友”或“对话”等访问入口的标识,若用户点击选中的目标群组中的“加为好友”或“对话”标识,则本发明实施例可以调用群体平台客户端或网页版的对应接口,使用户可以直接与对应的目标群组会话,或者,本发明实施例还可以发出安装群体平台对应客户端的问询提示。
类似的,当查询串为“电子元器件去哪买便宜点”时,也可以在用户群组搜索结果中得到阿里旺旺相应的群组的访问入口,点击该访问入库后直接可以产生与阿里旺旺群组的会话或群体平台客户端的安装提示。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明一种信息搜索装置实施例的结构框图,具体可以包括如下模块:
接口单元701,用于获取用户在搜索引擎中输入的查询串;
分析单元702,用于根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
检索单元703,用于将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;及
展现单元704,用于将所述目标群组展现在所述网页搜索结果的页面。
在本发明的一种优选实施例中,所述装置还可以包括:用于依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的目标群组的第一过滤单元;
则所述展现单元704,可具体用于将符合第一过滤条件的所述目标群组展现在所述网页搜索结果的页面。
在本申请的一种优选实施例中,所述第一过滤单元具体可以包括:
提取子单元,用于提取各网页搜索结果对应网页的第一特征,以及,提取各目标群组对应索引数据的第二特征;
计算子单元,用于计算所述第一特征和所述第二特征之间的相似度值;
相似度过滤子单元,用于依据所述相似度值对各目标群组进行过滤,并保留相似度值符合第一过滤条件的所述目标群组。
在本发明的另一种优选实施例中,所述装置还可以包括:用于依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序的排序单元;则所述展现单元704,可具体用于将排好序的所述目标群组展现在所述网页搜索结果的页面。
在本发明的再一种优选实施例中,所述装置还可以包括:用于在所述将排好序的所述目标群组展现在所述网页搜索结果的页面操作之前,依据用户群组的摘要数据与所述检索词的相关度和/或各目标群组的群组重要度,对排好序的所述目标群组进行过滤,并保留符合第二过滤条件的所述目标群组的第二过滤单元;其中,所述群组重要度用于表示用户群组的重要程度;
则所述展现单元704,可具体用于将符合第二过滤条件的所述目标群组展现在所述网页搜索结果的页面。
在本发明的一种优选实施例中,所述装置还可以包括:用于生成所述用户群组的索引数据的索引生成单元,所述索引生成单元具体可以包括:
获取子单元,用于获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
生成子单元,用于依据所述群组资料数据和群组消息日志数据,生成用户群组的索引数据。
在本发明的另一种优选实施例中,所述群组资料数据具体可以包括:群名称、群简介、群标签,所述群组消息日志数据具体可以包括群消息;
则所述生成子单元具体可以包括:
第一抽取模块,用于抽取所述群组资料数据中的群名称、群名称的别名、群简介、群标签、群的锚名称作为基本信息;
第二抽取模块,用于抽取所述群消息的描述文字中符合预置频率条件的词汇作为扩展信息;及
建立模块,用于依据所述基本信息和扩展信息建立用户群组的索引数据。
在本发明的再一种优选实施例中,所述检索模块,可具体用于依据所述检索词在倒排索引表中进行检索,得到对应匹配的目标群组,所述倒排索引表依据所有用户群组的索引数据建立。
在本发明实施例中,优选的是,所述群组重要度可以为依据用户群组的所述群组资料数据、群组成员资料数据和群组消息日志数据中任一种或多种数据中任一项或多项特征信息加权得到。
在本发明实施例中,优选的是,所述展现单元704,可具体用于在所述网页搜索结果的页面展现所述目标群组的摘要数据。
在本发明实施例中,优选的是,所述摘要数据中可以包括有用户群组的访问入口.
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种信息搜索方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种信息搜索方法,其特征在于,包括:
获取用户在搜索引擎中输入的查询串;
根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;
将所述目标群组展现在所述搜索结果的页面。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的目标群组;
则所述将所述目标群组展现在所述搜索结果的页面的步骤,具体为将符合第一过滤条件的所述目标群组展现在所述搜索结果的页面。
3.根据权利要求2所述的方法,其特征在于,所述依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的所述目标群组的步骤,包括:
提取各搜索结果对应网页的第一特征,以及,提取各目标群组对应索引数据的第二特征;
计算所述第一特征和所述第二特征之间的相似度值;
依据所述相似度值对各目标群组进行过滤,并保留相似度值符合第一过滤条件的所述目标群组。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序;
则所述将所述目标群组展现在所述搜索结果的页面的步骤,具体为将排好序的所述目标群组展现在所述搜索结果的页面。
5.根据权利要求4所述的方法,其特征在于,在所述将排好序的所述目标群组展现在所述搜索结果的页面步骤之前,所述方法还包括:
依据所述目标群组的摘要数据与所述检索词的相关度和/或各目标群组的群组重要度,对排好序的所述目标群组进行过滤,并保留符合第二过滤条件的所述目标群组;其中,所述群组重要度用于表示用户群组的重要程度;
则所述将排好序的所述目标群组展现在所述搜索结果的页面的步骤,具体为将符合第二过滤条件的所述目标群组展现在所述搜索结果的页面。
6.根据权利要求1所述的方法,其特征在于,通过如下步骤生成所述用户群组的索引数据:
获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
依据所述群组资料数据和所述群组消息日志数据,生成用户群组的索引数据。
7.根据权利要求6所述的方法,其特征在于,所述群组资料数据包括:群名称、群简介、群标签,所述群组消息日志数据包括群消息;
则所述依据所述群组资料数据和所述群组消息日志数据,生成用户群组的索引数据的步骤,包括:
抽取所述群组资料数据中的群名称、群名称的别名、群简介、群标签、群的锚名称作为基本信息;
抽取所述群消息的描述文字中符合预置频率条件的词汇作为扩展信息;
依据所述基本信息和所述扩展信息建立用户群组的索引数据。
8.根据权利要求6所述的方法,其特征在于,所述依据所述检索词在群体平台中各用户群组的索引数据中进行检索,得到对应匹配的目标群组的步骤具体为,依据所述检索词在倒排索引表中进行检索,得到对应匹配的目标群组,所述倒排索引表依据所有用户群组的索引数据建立。
9.根据权利要求1所述的方法,其特征在于,所述将所述目标群组展现在所述搜索结果的页面的步骤具体为,在所述搜索结果的页面展现所述目标群组对应的摘要数据。
10.一种信息搜索装置,其特征在于,包括:
接口单元,用于获取用户在搜索引擎中输入的查询串;
分析单元,用于根据所述查询串对应的搜索结果进行分析,得到对应的关键词;
检索单元,用于将所述关键词作为检索词,依据所述检索词在群体平台的各用户群组的索引数据中分别进行检索,得到对应匹配的目标群组;及
展现单元,用于将所述目标群组展现在所述搜索结果的页面。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:用于依据所述目标群组分别与各所述搜索结果的相关度对所述目标群组进行过滤,并保留符合第一过滤条件的目标群组的第一过滤单元;
则所述展现单元,具体用于将符合第一过滤条件的所述目标群组展现在所述搜索结果的页面。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:用于依据所述目标群组的索引数据与所述检索词的相关度和/或各目标群组的查询点击情况,对所述目标群组进行排序的排序单元;
则所述展现单元,具体用于将排好序的所述目标群组展现在所述搜索结果的页面。
13.根据权利要求10所述的装置,其特征在于,还包括:用于生成所述用户群组的索引数据的索引生成单元,所述索引生成单元包括:
获取子单元,用于获取群体平台中各用户群组的群组资料数据和群组消息日志数据;
生成子单元,用于依据所述群组资料数据和群组消息日志数据,生成用户群组的索引数据。
14.根据权利要求10所述的装置,其特征在于,所述展现单元,具体用于在所述搜索结果的页面展现所述目标群组的摘要数据。
CN201410262128.5A 2014-06-12 2014-06-12 一种信息搜索方法和装置 Active CN105302810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410262128.5A CN105302810B (zh) 2014-06-12 2014-06-12 一种信息搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410262128.5A CN105302810B (zh) 2014-06-12 2014-06-12 一种信息搜索方法和装置

Publications (2)

Publication Number Publication Date
CN105302810A true CN105302810A (zh) 2016-02-03
CN105302810B CN105302810B (zh) 2019-07-09

Family

ID=55200086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410262128.5A Active CN105302810B (zh) 2014-06-12 2014-06-12 一种信息搜索方法和装置

Country Status (1)

Country Link
CN (1) CN105302810B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126521A (zh) * 2016-06-06 2016-11-16 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器
CN106972940A (zh) * 2017-03-31 2017-07-21 北京三快在线科技有限公司 群组通信方法、装置及电子设备
WO2017167043A1 (zh) * 2016-04-01 2017-10-05 阿里巴巴集团控股有限公司 一种基于用户的个性化数据搜索方法和装置
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN108153792A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种数据处理方法和相关装置
CN108170664A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
CN108268571A (zh) * 2017-01-04 2018-07-10 腾讯科技(深圳)有限公司 一种特征筛选方法及装置
CN108595400A (zh) * 2018-04-20 2018-09-28 广东电网有限责任公司 一种基于人工智能的工作报告生成方法
CN109938723A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种人体疾病风险的判别方法及设备
CN109938695A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种基于异质度指标的人体疾病风险预测方法及设备
CN110245170A (zh) * 2019-04-19 2019-09-17 联通系统集成有限公司 数据处理方法及系统
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置
CN110674382A (zh) * 2019-10-10 2020-01-10 网易(杭州)网络有限公司 数据访问方法及装置、数据访问系统
CN111324259A (zh) * 2020-03-18 2020-06-23 腾讯科技(成都)有限公司 群组创建方法、装置和存储介质
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及系统
CN113158046A (zh) * 2021-04-20 2021-07-23 深圳市富途网络科技有限公司 搜索信息的方法、装置、电子设备以及存储介质
CN113407586A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 数据检索方法、装置、办公系统、存储介质及电子设备
CN114154072A (zh) * 2021-12-08 2022-03-08 北京度友信息技术有限公司 检索方法、装置、电子设备以及存储介质
CN115334030A (zh) * 2022-08-08 2022-11-11 阿里健康科技(中国)有限公司 语音消息显示方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068377A (zh) * 2007-06-21 2007-11-07 中兴通讯股份有限公司 基于搜索引擎的群发系统及方法
CN102546454A (zh) * 2010-12-29 2012-07-04 上海博泰悦臻电子设备制造有限公司 基于车载终端的聊天群组的搜索方法及系统
US20120259882A1 (en) * 2011-04-06 2012-10-11 Google Inc. Mining for Product Classification Structures for Intenet-Based Product Searching
CN103390000A (zh) * 2012-05-09 2013-11-13 中国移动通信集团公司 一种网页搜索方法及网页搜索系统
CN103530414A (zh) * 2013-10-28 2014-01-22 北京国双科技有限公司 网页关键词的拓词方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068377A (zh) * 2007-06-21 2007-11-07 中兴通讯股份有限公司 基于搜索引擎的群发系统及方法
CN102546454A (zh) * 2010-12-29 2012-07-04 上海博泰悦臻电子设备制造有限公司 基于车载终端的聊天群组的搜索方法及系统
US20120259882A1 (en) * 2011-04-06 2012-10-11 Google Inc. Mining for Product Classification Structures for Intenet-Based Product Searching
CN103390000A (zh) * 2012-05-09 2013-11-13 中国移动通信集团公司 一种网页搜索方法及网页搜索系统
CN103530414A (zh) * 2013-10-28 2014-01-22 北京国双科技有限公司 网页关键词的拓词方法和装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167043A1 (zh) * 2016-04-01 2017-10-05 阿里巴巴集团控股有限公司 一种基于用户的个性化数据搜索方法和装置
CN107291753A (zh) * 2016-04-01 2017-10-24 阿里巴巴集团控股有限公司 一种基于用户的个性化数据搜索方法和装置
CN106126521A (zh) * 2016-06-06 2016-11-16 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器
US11606671B2 (en) 2016-06-06 2023-03-14 Tencent Technology (Shenzhen) Company Limited Method for mining social account of target object, server, and storage medium
CN106126521B (zh) * 2016-06-06 2018-06-19 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN108153792A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种数据处理方法和相关装置
CN108153792B (zh) * 2016-12-02 2023-04-18 阿里巴巴集团控股有限公司 一种数据处理方法和相关装置
CN108268571A (zh) * 2017-01-04 2018-07-10 腾讯科技(深圳)有限公司 一种特征筛选方法及装置
CN106972940B (zh) * 2017-03-31 2019-05-07 北京三快在线科技有限公司 群组通信方法、装置及电子设备
CN106972940A (zh) * 2017-03-31 2017-07-21 北京三快在线科技有限公司 群组通信方法、装置及电子设备
CN108170664B (zh) * 2017-11-29 2021-04-09 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
CN108170664A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
CN108595400A (zh) * 2018-04-20 2018-09-28 广东电网有限责任公司 一种基于人工智能的工作报告生成方法
CN110472158B (zh) * 2018-05-11 2024-01-30 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置
CN109938723A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种人体疾病风险的判别方法及设备
CN109938695A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种基于异质度指标的人体疾病风险预测方法及设备
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110334178B (zh) * 2019-03-28 2023-06-20 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110245170A (zh) * 2019-04-19 2019-09-17 联通系统集成有限公司 数据处理方法及系统
CN110674382A (zh) * 2019-10-10 2020-01-10 网易(杭州)网络有限公司 数据访问方法及装置、数据访问系统
CN111324259A (zh) * 2020-03-18 2020-06-23 腾讯科技(成都)有限公司 群组创建方法、装置和存储介质
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及系统
CN113158046A (zh) * 2021-04-20 2021-07-23 深圳市富途网络科技有限公司 搜索信息的方法、装置、电子设备以及存储介质
CN113158046B (zh) * 2021-04-20 2024-04-26 深圳市富途网络科技有限公司 搜索信息的方法、装置、电子设备以及存储介质
CN113407586A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 数据检索方法、装置、办公系统、存储介质及电子设备
CN113407586B (zh) * 2021-07-16 2023-09-22 北京百度网讯科技有限公司 数据检索方法、装置、办公系统、存储介质及电子设备
CN114154072A (zh) * 2021-12-08 2022-03-08 北京度友信息技术有限公司 检索方法、装置、电子设备以及存储介质
CN115334030A (zh) * 2022-08-08 2022-11-11 阿里健康科技(中国)有限公司 语音消息显示方法及装置
CN115334030B (zh) * 2022-08-08 2023-09-19 阿里健康科技(中国)有限公司 语音消息显示方法及装置

Also Published As

Publication number Publication date
CN105302810B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN105302810A (zh) 一种信息搜索方法和装置
CN102982153B (zh) 一种信息检索方法及其装置
CN106251174A (zh) 信息推荐方法及装置
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN104143005B (zh) 一种相关搜索系统及方法
Dong et al. Self-adaptive semantic focused crawler for mining services information discovery
Liao et al. Evaluating the effectiveness of search task trails
CN105677780A (zh) 可拓展的用户意图挖掘方法及其系统
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
CN103425691A (zh) 一种搜索方法和系统
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104077407A (zh) 一种智能数据搜索系统及方法
JP2015525418A (ja) 検索方法および装置
CN108153824A (zh) 目标用户群体的确定方法及装置
Ristanti et al. Cosine similarity for title and abstract of economic journal classification
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN110362663A (zh) 自适应多感知相似度检测和解析
CN104933475A (zh) 网络转发行为预测方法及装置
CN113190702A (zh) 用于生成信息的方法和装置
CN102737090B (zh) 网页搜索结果排序方法及装置
Cheng et al. A similarity integration method based information retrieval and word embedding in bug localization
CN110110218A (zh) 一种身份关联方法及终端
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant