CN105022761B - 群组查找方法和装置 - Google Patents

群组查找方法和装置 Download PDF

Info

Publication number
CN105022761B
CN105022761B CN201410182970.8A CN201410182970A CN105022761B CN 105022761 B CN105022761 B CN 105022761B CN 201410182970 A CN201410182970 A CN 201410182970A CN 105022761 B CN105022761 B CN 105022761B
Authority
CN
China
Prior art keywords
group
dimension
sorting
ranking
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410182970.8A
Other languages
English (en)
Other versions
CN105022761A (zh
Inventor
皮碧虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410182970.8A priority Critical patent/CN105022761B/zh
Publication of CN105022761A publication Critical patent/CN105022761A/zh
Application granted granted Critical
Publication of CN105022761B publication Critical patent/CN105022761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种群组查找方法,所述方法包括:接收携带有关键字的群组查找请求;响应于所述群组查找请求,查找到与所述关键字匹配的群组;根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值;根据所述多个维度各自的排序优先级别和所述每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序;返回经过排序的群组查找结果。本发明提供的群组查找方法,可以从多个角度对查找到的群组做全面的质量估计,将高质量、与用户需求更为贴近的群组优先推荐给用户,使用户能够快速查找到所需群组,从而提高了群组查找的效率。本发明还提供了一种群组查找装置。

Description

群组查找方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种群组查找方法和装置。
背景技术
群组是可表示多用户之间通信关系的数据对象,群组中的各个用户标识所对应的终端之间可以进行一对多、多对一以及多对多之间的通信。目前人们已经建立了数量庞大的群组,以方便具有共同兴趣的多个用户之间能够自由通信。若用户意图加入符合特定条件的群组,则需要通过群组查找的方式查找到其感兴趣的群组,进而才能执行加入群组的操作。
目前当用户凭借关键字进行群组查找的操作时,返回的查找结果通常是机械化的关键字匹配结果,无法满足用户查找群组的真实需求,这样导致用户需要不断进行尝试查找群组的操作,查找群组的效率很低,而且会增加提供群组查找服务的服务器的负荷。
发明内容
基于此,有必要针对传统的群组查找方法效率低的技术问题,提供一种群组查找方法和装置。
一种群组查找方法,所述方法包括:
接收携带有关键字的群组查找请求;
响应于所述群组查找请求,查找到与所述关键字匹配的群组;
根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值;
根据所述多个维度各自的排序优先级别和所述每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序;
返回经过排序的群组查找结果。
一种群组查找装置,所述装置包括:
请求接收模块,用于接收携带有关键字的群组查找请求;
群组查找模块,用于响应于所述群组查找请求,查找到与所述关键字匹配的群组;
排序值计算模块,用于根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值;
群组排序模块,用于根据所述多个维度各自的排序优先级别和所述每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序;
群组查找结果返回模块,用于返回经过排序的群组查找结果。
上述群组查找方法和装置,先根据群组查找请求所携带的关键字来查找到与关键字匹配的群组,然后对于每个查找到的群组分别计算其对应多个维度中每一维度的排序值。多个维度各自具有排序优先级别,综合考虑多个维度各自的排序优先级别以及每个查找到的群组所对应每一维度的排序值,来对查找到的群组进行排序,从而返回经过排序的群组查找结果。这样用户得到的群组查找结果体现了多个维度的排序优先级别和每个维度的排序因子,可以从多个角度对查找到的群组做全面的质量估计,将高质量、与用户需求更为贴近的群组优先推荐给用户,使用户能够快速查找到所需群组,从而提高了群组查找的效率。
附图说明
图1为一个实施例中群组查找方法的流程示意图;
图2为一个实施例中a=100,f=0.35时正相关函数的曲线示意图;
图3为一个实施例中贝塞尔曲线的示意图;
图4为一个实施例中根据多个维度各自的排序优先级别和每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序的步骤的流程示意图;
图5为另一个实施例中群组查找方法的流程示意图;
图6为一个实施例中群组查找装置的结构框图;
图7为图6中的排序值计算模块一个实施例的结构框图;
图8为图6中的群组排序模块一个实施例的结构框图;
图9为图6中的排序值计算模块另一个实施例的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种群组查找方法,本实施例以该方法应用于服务器来举例说明。该方法具体包括以下步骤:
步骤102,接收携带有关键字的群组查找请求。
用户在客户端操作以触发群组查找界面,在群组查找界面的输入框中输入关键字,并可指定排序方式信息,点击提交后可触发客户端向服务器发送该群组查找请求。该关键字是查找用户所需群组的依据,通常可由字符组成。该群组查找请求携带有用户所输入的关键字,还可以携带有指定排序方式信息和用户标识中的至少一种。指定排序方式信息用于表示用户设定的排序方式;用户标识是用户据以进行登录操作的凭据,用于唯一标识用户身份,比如用户标识可以是由字符组成的用户账号。服务器接收该群组查找请求。
其中,群组是可表示多用户之间通信关系的数据对象,群组中的各个用户标识所对应的终端之间可以进行一对多、多对一以及多对多之间的通信。可利用群组标识将多个用户标识联系起来而用来表示群组,群组中的任意一个用户标识所对应的终端能够与该群组中的其它用户标识所对应的终端通信,从而可以实现多方通信。群组包括但不限于即时通信群组、基于社交网络的群组、多人语音通信组、多人视频通信组、基于已有的群组而建立的讨论组、多人会话组等。
步骤104,响应于群组查找请求,查找到与关键字匹配的群组。
服务器响应于该群组查找请求,根据群组查找请求所携带的关键字来查找与该关键字匹配的群组。具体可以将该关键字进行分词获得关键字分词,判断该关键字分词是否存在于群组的群组文本资料中来判断该关键字是否与该群组匹配。从而可以查找到与关键字匹配的群组,获得查找到的群组。其中,群组文本资料包括但不限于群组标识、群组名称、群组介绍信息、群组分类信息、群组地理位置信息和群组标签信息等。
步骤106,根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值。
排序值是对查找到的群组进行排序的数值形式的直接依据,比如可以百分制分数的形式表示。预设了多个维度,对于每一个查找到的群组,服务器将计算其对应多个维度中每一个维度的排序值。具体计算对应一个维度的排序值时,根据该维度的排序因子进行计算。排序因子是指为对查找到的群组进行排序而计算相应的排序值时应考虑的因素或成分。排序因子包括但不限于群组成员数量、群组成员容量、是否为预设指定群组、群组活跃度、群组活跃等级、群组地理位置、是否被举报存在安全风险的群组安全属性、经服务器自动分析而确定的群组是否存在安全风险的群组安全属性、群组标志位、加入群组的难易等级、群组资料完整度、群组有效管理数、群组信息丰富度、群组关系稠密度、群组性别分布数据、群组年龄分布数据和根据关键字和群组文本资料计算获得的文本相关度。
其中群组成员数量表示查找到的群组中群组成员的数量。群组成员容量表示查找到的群组所能容纳的群组成员数量最大值。是否为预设指定群组,比如是否为认证群组或运营群组,可用于判断查找到的群组是否为具有特殊价值的群组。群组活跃度可表示查找到的群组中成员发言的频率、数量或者发言成员数量,若群组中成员发言的数量越多、或者发言频率越高、或者发言成员数量越多,则群组活跃度越高。而群组活跃等级可表示查找到的群组活跃程度属于预先划定的某个活跃度阶段,比如群组活跃等级可为不活跃、一般活跃、很活跃、非常活跃等,可根据群组的群组活跃度进行群组活跃等级的划分。
群组地理位置可用于综合反映群组中各个成员的位置,可由群组管理员事先标定,或者可利用群组中当前和/或已记录的各个成员的位置信息来即时确定群组地理位置。群组安全属性可用于表示查找到的群组是否存在安全风险,比如是否被用户举报,或者经服务器主动对群组进行安全分析(比如对群组中各成员的历史发言记录和/或群组文本资料进行文字或图像识别,判断是否存在敏感文字或图片)而确定的群组是否存在安全风险的群组安全属性。
群组标志位可用于表示查找到的群组是否具有特定属性,比如是否允许被查找,是否开通了某项业务等。加入群组的难易等级用于表示加入查找到的群组的难易程度,该加入群组的难易等级可由上述查找到的群组的加入验证方式、群组管理员是否在线、历史加入群组通过率和群组成员容量中的至少一种来量化并计算获得。群组资料完整度可用群组资料(比如群组文本资料)被填写的项目数量来衡量,比如群组资料共有5项资料需要填写,则填写4项比仅填写3项完整度要高。
群组有效管理数可用群组被群组管理员有效管理行为的次数来量化衡量,比如有效的删除或添加成员的次数、有效的添加或删除群组动态信息的次数等,管理行为是否有效可以通过判断管理行为是否在短时间内大量爆发来判断是否有效。信息丰富度可以用群组资料完整度和每个项目的群组资料所包含字符的多少来衡量。群组关系稠密度可以反映群组中成员好友关系网的复杂程度,可以用群组中成员好友关系链对数(即群组中成员为好友关系的数量)占群组中关系对数量的比值来计算获得。群组性别分布数据可利用已记录的群组资料中的性别项目统计并计算获得。群组年龄分布数据可利用已记录的群组资料中的年龄项目统计获得,可以用年龄段和群组中属于该年龄段的成员数量的对应关系来表示。
文本相关度可以表示关键字与群组文本资料的相关程度,从而可以反映出查找到的群组与关键字匹配的程度。在一个实施例中,文本相关度根据关键字分词在群组文本资料中的命中比例、关键字分词在群组文本资料中的占比、关键字分词在群组文本资料中的顺序、关键字分词在群组文本资料中的距离中的至少一种计算获得。
举例说明,若对关键字进行分词获得关键字分词,则可根据关键字分词在查找到的群组的群组文本资料中的命中比例,即命中分词个数占群组文本资料词总数的比例来计算获得命中得分。可根据关键字分词在群组文本资料中的占比来计算获得占比得分,具体比如关键字为“花园城”,则群组名称为“坪山招商花园城”的群组和群组名称为“花园城三期”的群组的占比得分不同。可根据关键字分词在查找到的群组的群组文本资料中的顺序来计算顺序得分,比如若关键字分词为ABC,名称为ABC的群组的顺序得分与名称为BAC或者CBA的群组的顺序得分不同。可根据关键字分词在查找到的群组文本资料中的距离来计算紧邻关系得分,比如若关键字分词为ABC,群组名称为ADBC、ADDBC、ADBDC的得分各不相同,因为ADBC中A与B间隔一个字符D的距离,ADDBC中A与B间隔两个字符D的距离,ADBDC中A与B以及B与C之间各间隔一个字符D的距离。然后可以根据计算获得的命中得分、占比得分、顺序得分和紧邻关系得分来综合计算文本相关度,比如可以计算命中得分、占比得分、顺序得分和紧邻关系得分的加权和或者加权平均值来作为文本相关度。
在一个实施例中,可以根据关键字分词中的附属连词来调整顺序得分。具体比如,关键字为“深圳人在河南”与“河南人在深圳”,或者“深圳的河南人”与“河南的深圳人”中,“在”和“的”这样的附属连词前后的分词具有一定的附属关系,分词顺序强相关,需要据此来调整顺序得分,以调整顺序得分在计算文本相关度时的比重,从而使得文本相关度能够一定程度上真实反映用户查找群组的需求。
在一个实施例中可以根据关键字分词中的分隔符来调整紧邻关系得分和顺序得分。具体比如,若关键字为“花园(空格)城”,与“花园城”相比,因分隔符的存在,用户表达的查找需求是不同的,此时可降低紧邻关系得分和顺序关系得分,从而降低紧邻关系得分和顺序关系得分在计算文本相关度时的比重。
步骤108,根据多个维度各自的排序优先级别和每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序。
多个维度中每个维度各自具有排序优先级别,且每个维度的排序优先级别高低各不相同,排序优先级别高的维度在排序时优先被考虑。具体地,总体上按照排序优先级别从高到低的顺序而根据相应的维度的排序值对查找到的群组进行排序,当多个群组对应同一维度的排序值相同时,再按照该多个群组对应的排序优先级别仅次于该同一维度的维度的排序值来对该多个群组进行局部排序。
在一个实施例中,多个维度的排序因子中排序优先级别最低的维度的排序因子包括排序优先级别非最低的各个维度的排序因子。排序优先级别非最低的维度是指多个维度中除去排序优先级别最低的维度的维度。本实施例中,排序优先级别最低的维度的排序因子包括其他维度的排序因子,这样在计算对应排序优先级别最低的维度的排序值时,综合考虑了其它各个维度的排序因子,可以更全面反映用户查找群组的真实需求,从而提高查找群组的效率。
步骤110,返回经过排序的群组查找结果。
具体地,对查找到的群组排序后,可根据排序后的群组生成经过排序的群组相关信息的列表,将该经过排序的群组相关信息的列表返回给发起群组查找请求的客户端。客户端显示该群组相关信息的列表,检测用户对列表中群组相关信息的选定操作,根据检测到的选定操作确定待加入的群组,从而向服务器发起加入群组的请求。服务器响应于该加入群组的请求,从而执行加入待加入的群组的操作。
上述群组查找方法,先根据群组查找请求所携带的关键字来查找到与关键字匹配的群组,然后对于每个查找到的群组分别计算其对应多个维度中每一维度的排序值。多个维度各自具有排序优先级别,综合考虑多个维度各自的排序优先级别以及每个查找到的群组所对应每一维度的排序值,来对查找到的群组进行排序,从而返回经过排序的群组查找结果。这样用户得到的群组查找结果体现了多个维度的排序优先级别和每个维度的排序因子,可以从多个角度对查找到的群组做全面的质量估计,将高质量、与用户需求更为贴近的群组优先推荐给用户,使用户能够快速查找到所需群组,从而提高了群组查找的效率。
在一个实施例中,在计算排序值时,对多个维度的排序因子中属于判断型的排序因子采用二值化量化,和/或对多个维度的排序因子中属于计数型的排序因子采用正相关函数进行量化,和/或对多个维度的排序因子中属于区间值型的排序因子采用二次贝塞尔曲线进行量化。对排序因子进行量化是为了统一排序值的取值范围,使得各个排序值能够在相同基准下比较。
具体地,判断型的排序因子是非此即彼的数据类型,可二值化为排序值最大值和排序值最小值两个值。排序值最大值和排序值最小值分别是事先设定的对应各个维度的排序值的最大值和最小值。属于判断型的排序因子包括但不限于群组标志位、群组管理员是否在线、是否被举报存在安全风险的群组安全属性、经服务器自动分析而确定的群组是否存在安全风险的群组安全属性、是否为预设指定群组等。
计数型的排序因子是数量逐渐累积的数据类型,可采用正相关函数进行量化,该正相关函数的因变量随着自变量的增大而增大。该正相关函数自变量的取值范围为[0,+∞),因变量的取值范围为[排序值最小值,排序值最大值),自变量为0时该正相关函数的因变量为排序值最小值,且该正相关函数的因变量随着自变量的增大而逐渐逼近最大值。属于计数型的排序因子包括但不限于通过统计发言数量而获得的群组活跃度。
在一个实施例中,该正相关函数为
Figure BDA0000499760100000081
其中a为预设的排序值最大值,f为可调因子,根据需要通过设定可调因子f而调整该正相关函数的曲线趋势。当a=100,f=0.35时,该正相关函数的曲线如图2所示。采用该正相关函数进行量化,优于直接用线性函数进行量化,因为该使用该函数曲线当自变量在值较小的一段范围内变化时因变量变化明显,通过调节f就可以使这一段范围能够就可能覆盖计数型排序因子的数量主要集中的区段。而超过这段范围后,自变量变化对因变量变化的影响很小,从而可以避免数量过大的异常数据的干扰。
区间值型的排序因子是可划分为一个或多个数值区段的数据类型,包括但不限于群组成员数量、群组成员容量、群组活跃等级、群组地理位置、加入群组的难易等级、群组资料完整度、群组有效管理数、群组信息丰富度、群组关系稠密度、群组性别分布数据、群组年龄分布数据和文本相关度。其中群组成员数量、群组成员容量、群组资料完整度、群组关系稠密度和文本相关度也可以作为计数型排序因子而利用上述正相关函数进行量化。
对于区间值型的排序因子,可以采用二次贝塞尔曲线进行量化。具体地二次贝塞尔曲线量化公式为(1-t)2P0+2(1-t)tP1+t2P2,t∈[0,1]。其中P0的坐标为(量化前最小值,排序值最小值),P2的坐标为(量化前最大值,排序值最大值),P1为可调坐标点,用于调节二次贝塞尔曲线的形状,可根据需要设定。二次贝塞尔曲线如图3所示。
在一个实施例中,区间值型排序因子也可以采用同计数型排序相同的正相关函数进行量化,性能略低于采用二次贝塞尔曲线进行量化的性能,比如可采用上述正相关函数
Figure BDA0000499760100000091
进行量化。
在一个实施例中,步骤106包括步骤11)~步骤12):
步骤11),根据排序优先级别非最低的各个维度的排序因子分别计算每个查找到的群组对应每个排序优先级别非最低的维度的排序值。
排序优先级别非最低的各个维度的排序因子可各不相同。若多个维度按照排序优先级别从高到低分别为第一维度、第二维度、第三维度和第四维度,那么第一、第二和第三维度为排序优先级别非最低的各个维度,此时分别计算每个查找到的群组对应第一维度、对应第二维度和对应第三维度的排序值。
步骤12),根据每个查找到的群组所对应排序优先级别非最低的各个维度的排序值的加权和以及排序优先级别最低的维度的排序因子计算每个查找到的群组所对应排序优先级别最低的维度的排序值。
具体地,可将每个查找到的群组对应第一、第二和第三维度的排序值进行加权求和,并结合排序优先级别最低的维度的排序因子来计算该查找到的群组所对应第四维度的排序值。本实施例中,计算对应排序优先级别最低的维度的排序值时,综合考虑了对应其它各个维度的排序值,可以更全面反映用户查找群组的真实需求,从而提高查找群组的效率。
在一个实施例中,该群组查找方法还包括:当检测到查找到的群组当前与排序因子相关的群组属性与已记录的相应群组属性不一致时,减少与不一致的群组属性相关的排序因子对应的排序值在计算加权和时的权重。
本实施例中,在步骤12)之前,检测查找到的群组当前与排序因子相关的群组属性是否与已记录的相应群组属性不一致,若是则减少该群组属性相关的排序因子的维度所对应的排序值来计算加权和。当前是指执行该步骤的当下,已记录的群组属性是指服务器上存储的历史群组属性。比如若一个维度的排序因子为同城排序,在判断是否同城时需要利用发起群组查找请求的终端的地理位置和查找到的群组的群组地理位置。在计算排序优先级别最低的维度的排序值前,判断该查找到的群组的群组地理位置是否与已记录的群组管理员标定的地理位置不一致,若不一致则降低同城排序的维度所对应的排序值在计算排序优先级别最低的维度对应的排序值时的比重。本实施例中,与排序因子相关的群组属性与已记录的相应群组属性不一致,说明该群组属性不可靠,因此需要降低其比重以保证排序优先级别最低的维度对应的排序值能够更加准确反映出群组的综合质量,使得最终的排序结果更加准确,从而提高查找群组的效率。
如图4所示,在一个实施例中,步骤108具体包括步骤402~步骤404:
步骤402,根据多个维度各自的排序优先级别、排序优先级别非最高的各个维度所对应的排序值最大值和查找到的群组的对应每一维度的排序值分别计算每个查找到的群组所对应的归一化排序值。
排序优先级别非最高的各个维度所对应的排序值最大值是事先设定的对应该维度的排序值数值的最大取值。对查找到的群组的对应每一维度的排序值结合多个维度各自的排序优先级别进行归一化处理获得归一化排序值,该归一化排序值能够同时体现多个维度各自的排序优先级别和对应每一维度的排序值。具体地,排序优先级别非最低的各个维度所对应的排序值的增量导致的归一化排序值的增量大于仅次于该维度的维度所对应的排序值最大值。这样归一化排序值就能够直接体现多个维度各自的排序优先级别。
更具体地,可使用公式
Figure BDA0000499760100000101
来计算查找到的群组所对应的归一化排序值。其中scoretotal为归一化排序值;N为维度数量;scorei为当按照维度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第i个维度所对应的排序值;maxi+1则表示当按照维度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第i+1个维度所对应的排序值最大值;i是用于计数的自变量,取值范围为[1,N-1]。这样排序优先级别最高的维度标识为1,其对应的排序值为score1;排序优先级别最低的维度标识为N,其对应的排序值为scoreN
在一个实施例中,还可以使用如下公式来计算查找到的群组所对应的归一化排序 值:
Figure BDA0000499760100000111
其中 scoretotal为归一化排序值;N为维度数量;scorej为当按照维度的排序优先级别从高到低的 顺序将N个维度排序时,查找到的群组的第j个维度所对应的排序值;maxj+1则表示当按照维 度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第j+1个维度所对应 的排序值最大值;j是用于计数的自变量,取值范围为[1,N-2]。这样排序优先级别最高的维 度标识为1,其对应的排序值为score1;排序优先级别最低的维度标识为N,其对应的排序值 为scoreN
结合公式举例说明,若共有四个维度,则归一化排序值的计算公式可表示为:scoretotal=(score1+1)·max2+(score2+1)·max3+(score3+1)·max4+score4。若第一维度对应的排序值score1产生了微小的变化△(△>0),加上1后再乘以max2,这样导致scoretotal发生了(△+1)·max2的变化,这个变化必然大于max2,而max2又是第二维度所对应的排序值的最大值,也就是说max2大于或等于第二维度所对应的任意排序值。这样在归一化排序值中排序优先级别高的维度所对应的排序值对归一化排序值的影响更大,归一化排序值体现了各个维度的排序优先级别。
步骤404,根据每个查找到的群组所对应的归一化排序值对查找到的群组进行排序。
具体按照计算获得的归一化排序值的大小对查找到的群组进行排序,可将归一化排序值大的群组排在前面,归一化排序值小的群组排在后面。
本实施例中,采用归一化处理方法计算归一化排序值,使得最终排序时仅需对各个查找到的群组的归一化排序值进行两两对比,而不必先对比排序优先级别最高的维度的排序值进行两两对比,再对排序优先级别次之的维度的排序值进行两两对比,依次类推,直至对排序优先级别最低的维度的排序值进行两两对比。这样大大降低了对比时的计算量,节省了计算资源,而且及大地提高了查找群组的效率,降低了服务器负荷。
如图5所示,在另一个实施例中,提供了一种群组查找方法,本实施例以该方法应用于服务器来举例说明。本实施例中维度数量为四个,且四个维度根据排序优先级别从高到低分别为用户维度、群组安全维度、群组特色维度和综合维度。该方法具体包括如下步骤:
步骤502,接收携带有关键字、用户标识和指定排序方式信息的群组查找请求。
用户在客户端操作以触发群组查找界面,在群组查找界面的输入框中输入关键字,并可指定排序方式信息,点击提交后可触发客户端向服务器发送该群组查找请求。该关键字是查找用户所需群组的依据,通常可由字符组成。该群组查找请求携带有用户所输入的关键字,还可以携带有指定排序方式信息和用户标识中的至少一种。指定排序方式信息用于表示用户设定的排序方式;用户标识是用户据以进行登录操作的凭据,用于唯一标识用户身份,比如用户标识可以是由字符组成的用户账号。服务器接收该群组查找请求。
步骤504,响应于群组查找请求,查找到与关键字匹配的群组。
服务器响应于该群组查找请求,根据群组查找请求所携带的关键字来查找与该关键字匹配的群组。具体可以将该关键字进行分词获得关键字分词,判断该关键字分词是否存在于群组的群组文本资料中来判断该关键字是否与该群组匹配。从而可以查找到与关键字匹配的群组,获得查找到的群组。其中,群组文本资料包括但不限于群组标识、群组名称、群组介绍信息、群组分类信息、群组地理位置信息和群组标签信息等。
步骤506,根据群组查找请求所携带的指定排序方式信息确定用户维度的排序因子并据以计算每个查找到的群组对应用户维度的排序值。
指定排序方式信息是可表示用户指定的排序方式的信息,比如按照群组成员数量排序、按照同城优先排序、按照群组活跃度排序等。根据该指定排序方式信息确定用户维度的排序因子,比如若按照群组成员数量排序则相应的用户维度的排序因子为群组成员数量;若按照同城优先排序则相应的用户维度的排序因子为群组地理位置和请求发起端的地理位置之间的地理距离;若按照群组活跃度排序则相应的用户维度的排序因子为群组活跃度。进而对用户维度的排序因子进行量化后据其以计算对应用户维度的排序值。在一个实施例中,用户维度的排序因子包括群组成员数量、是否为预设指定群组、群组活跃度、群组地理位置和群组活跃等级中的至少一种。
步骤508,获取查找到的群组的安全属性作为群组安全维度的排序因子并据以计算每个查找到的群组对应群组安全维度的排序值。
群组的安全属性可以根据用户举报信息来确定,也可以根据自动分析而确定,即群组安全维度的排序因子包括群组是否被举报存在安全风险的群组安全属性和经自动分析而确定的群组是否存在安全风险的群组安全属性。将群组的安全属性作为群组安全维度的排序因子进行量化后,据其以计算对应群组安全维度的排序值。
步骤510,根据与关键字相关的群组属性和群组查找请求所携带的用户标识所对应的用户数据以计算每个查找到的群组对应群组特色维度的排序值。
根据关键字可以确定与关键字相关的群组属性。比如若用户输入的关键字为“交友”,则与关键字相关的群组属性可为群组地理位置(用于判断是否同城),群组性别分布数据或者群组年龄分布数据。若用户输入的关键字为“瑜伽”,则与关键字相关的群组属性可为群组性别分布数据。若用户输入的关键字为“母婴”或“学习”,则与关键字相关的群组属性可为群组年龄分布数据。
用户标识所对应的用户数据包括本次群组查找的当前用户数据和历史用户数据。当前用户数据包括但不限于当前请求发起端的地理位置(近似为用户的地理位置)、当前所在城市、当前使用的终端类型等。历史用户数据包括但不限于是否长期使用移动客户端、高频查找关键字类别或者游戏行为等。
根据关键字相关的群组属性和用户标识所对应的用户数据,可以计算每个查找到的群组对应群组特色维度的排序值。比如关键字为“交友”时,可根据请求发起端的地理位置与查找到的群组的地理位置的距离是否在同城距离范围内,用户标识对应的性别或者年龄是否与查找到的群组的群组性别分布数据或者群组年龄分布数据匹配等来量化并计算对应群组特色维度的排序值。
步骤512,根据综合维度的排序因子计算对应所述综合维度的排序值。
在一个实施例中,所述综合维度的排序因子包括群组成员数量、群组成员容量、群组标志位、加入群组的难易等级、群组资料完整度、群组地理位置、群组有效管理数、群组信息丰富度、群组关系稠密度、群组活跃度、群组性别分布数据、群组年龄分布数据和根据所述关键字和群组文本资料计算获得的文本相关度中的至少一种。可根据综合维度的这些排序因子来计算对应综合维度的排序值。
在一个实施例中,该群组查找方法还包括:在计算各个排序值时,对多个维度的排序因子中属于判断型的排序因子采用二值化量化,和/或对多个维度的排序因子中属于计数型的排序因子采用正相关函数进行量化,和/或对多个维度的排序因子中属于区间值型的排序因子采用二次贝塞尔曲线进行量化。
在一个实施例中,步骤512具体包括:根据每个查找到的群组分别对应用户维度、群组安全维度和群组特色维度的排序值,以及综合维度的排序因子计算对应综合维度的排序值。本实施例中,利用对应其它维度的排序值结合综合维度的排序因子来计算其排序值,可以使得各个群组对应综合维度的排序值更加准确,更能反映用户查找群组的真实需求,从而提高查找群组的效率。
在一个实施例中,文本相关度根据关键字分词在群组文本资料中的命中比例、关键字分词在群组文本资料中的占比、关键字分词在群组文本资料中的顺序、关键字分词在群组文本资料中的距离中的至少一种计算获得。
步骤514,根据各个维度各自的排序优先级别、除去用户维度的各个维度的最大值和查找到的群组的对应每一维度的排序值分别计算每个查找到的群组所对应的归一化排序值。
除去用户维度的各个维度的最大值是指群组安全维度、群组特色维度和综合维度各自所对应的排序值最大值。对查找到的群组的对应每一维度的排序值结合四个维度各自的排序优先级别进行归一化处理获得归一化排序值,该归一化排序值能够体现四个维度各自的排序优先级别和对应每一维度的排序值。具体地,排序优先级别非最低的各个维度(用户维度、群组安全维度和群组特色维度)所对应的排序值的增量导致的归一化排序值的增量大于仅次于该维度的维度(即群组安全维度、群组特色维度和综合维度)所对应的排序值最大值。这样归一化排序值就能够直接体现多个维度各自的排序优先级别。
更具体地,N=4,可使用如下公式来计算查找到的群组所对应的归一化排序值:scoretotal=(score1+1)·max2+(score2+1)·max3+(score3+1)·max4+score4,其中scoretotal为归一化排序值;score1、score2、score3、score4分别为对应用户维度、群组安全维度、群组特色维度和综合维度的排序值;max2、max3、max4分别为对应群组安全维度、群组特色维度和综合维度的排序值最大值。
若用户维度对应的排序值score1产生了微小的变化△(△>0),加上1后再乘以max2,这样导致scoretotal发生了(△+1)·max2的变化,这个变化必然大于max2,而max2又是群组安全维度所对应的排序值的最大值,也就是说max2大于或等于群组安全维度所对应的任意排序值。这样在归一化排序值中排序优先级别高的维度所对应的排序值对归一化排序值的影响更大,归一化排序值体现了各个维度的排序优先级别。
步骤516,根据每个查找到的群组所对应的归一化排序值对查找到的群组进行排序。
具体按照计算获得的归一化排序值的大小对查找到的群组进行排序,归一化排序值大的群组排在前面,归一化排序值小的群组排在后面。
步骤518,返回经过排序的群组查找结果。
具体地,对查找到的群组排序后,可根据排序后的群组生成经过排序的群组相关信息的列表,将该经过排序的群组相关信息的列表返回给发起群组查找请求的客户端。客户端显示该群组相关信息的列表,检测用户对列表中群组相关信息的选定操作,根据检测到的选定操作确定待加入的群组,从而向服务器发起加入群组的请求。服务器响应于该加入群组的请求,从而执行加入待加入的群组的操作。
上述群组查找方法,通过步骤502~步骤518,当根据关键字查找到群组后,分别计算对应用户维度、群组安全维度、群组特色维度和综合维度的排序值,再根据这些排序值对查找到的群组进行排序。且四个维度根据排序优先级别从高到低分别为用户维度、群组安全维度、群组特色维度和综合维度。这样由于用户维度体现的是查找群组的用户的查找意图,用户感知强,优先按照用户查找意图进行排序。群组安全维度排序优先级别仅次于用户维度,群组是否安全是对查找到的群组进行排序需要考虑的因素。群组特色维度排序优先级别再次之,体现的是根据关键字预测出的与关键字相关的特色群组。排序优先级别最低的综合维度,体现的是群组整体的综合质量,在其它维度的排序值相同时可凭借综合维度的排序值来对查找到的群组进行排序。
在对查找到的群组进行排序时,通过归一化排序值来综合反映四个维度的排序优先级别和对应各个维度的排序值,不需要对应每个维度分别比对各个查找到的群组的排序值,只需要比对各个查找到的群组的归一化排序值即可,计算量少,节省了计算资源,而且极大地提高了查找群组的效率,降低了服务器负荷。
其中,上述步骤506~步骤512为根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值的步骤。上述步骤514~步骤516为根据多个维度各自的排序优先级别和每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序的步骤。
如图6所示,在一个实施例中,提供了一种群组查找装置,包括请求接收模块602、群组查找模块604、排序值计算模块606、群组排序模块608和群组查找结果返回模块610。
请求接收模块602,用于接收携带有关键字的群组查找请求。
该群组查找请求携带有用户所输入的关键字,还可以携带有指定排序方式信息和用户标识中的至少一种。指定排序方式信息用于表示用户设定的排序方式;用户标识是用户据以进行登录操作的凭据,用于唯一标识用户身份,比如用户标识可以是由字符组成的用户账号。请求接收模块602用于接收该群组查找请求。
群组查找模块604,用于响应于群组查找请求,查找到与关键字匹配的群组。
群组查找模块604用于响应于该群组查找请求,根据群组查找请求所携带的关键字来查找与该关键字匹配的群组。具体群组查找模块604可用于将该关键字进行分词获得关键字分词,判断该关键字分词是否存在于群组的群组文本资料中来判断该关键字是否与该群组匹配。从而可以查找到与关键字匹配的群组,获得查找到的群组。其中,群组文本资料包括但不限于群组标识、群组名称、群组介绍信息、群组分类信息、群组地理位置信息和群组标签信息等。
排序值计算模块606,用于根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值。
排序值是对查找到的群组进行排序的数值形式的直接依据,比如可以百分制分数的形式表示。预设了多个维度,排序值计算模块606用于对于每一个查找到的群组,计算其对应多个维度中每一个维度的排序值。具体计算对应一个维度的排序值时,排序值计算模块606用于根据该维度的排序因子进行计算。排序因子是指为对查找到的群组进行排序而计算相应的排序值时应考虑的因素或成分。排序因子包括但不限于群组成员数量、群组成员容量、是否为预设指定群组、群组活跃度、群组活跃等级、群组地理位置、是否被举报存在安全风险的群组安全属性、经服务器自动分析而确定的群组是否存在安全风险的群组安全属性、群组标志位、加入群组的难易等级、群组资料完整度、群组有效管理数、群组信息丰富度、群组关系稠密度、群组性别分布数据、群组年龄分布数据和根据关键字和群组文本资料计算获得的文本相关度。
文本相关度可以表示关键字与群组文本资料的相关程度,从而可以反映出查找到的群组与关键字匹配的程度。在一个实施例中,排序值计算模块606用于计算文本相关度时,根据关键字分词在群组文本资料中的命中比例、关键字分词在群组文本资料中的占比、关键字分词在群组文本资料中的顺序、关键字分词在群组文本资料中的距离中的至少一种来计算文本相关度。
具体地,排序值计算模块606可用于根据关键字分词在查找到的群组的群组文本资料中的命中比例,即命中分词个数占群组文本资料词总数的比例来计算获得命中得分。排序值计算模块606可用于根据关键字分词在群组文本资料中的占比来计算获得占比得分。排序值计算模块606可用于根据关键字分词在查找到的群组的群组文本资料中的顺序来计算顺序得分。排序值计算模块606可用于根据关键字分词在查找到的群组文本资料中的距离来计算紧邻关系得分。然后排序值计算模块606可用于根据计算获得的命中得分、占比得分、顺序得分和紧邻关系得分来综合计算文本相关度,比如可以计算命中得分、占比得分、顺序得分和紧邻关系得分的加权和或者加权平均值来作为文本相关度。
在一个实施例中,排序值计算模块606可用于根据关键字分词中的附属连词来调整顺序得分。“在”和“的”这样的附属连词前后的分词具有一定的附属关系,分词顺序强相关,需要据此来调整顺序得分,以调整顺序得分在计算文本相关度时的比重,从而使得文本相关度能够一定程度上真实反映用户查找群组的需求。在一个实施例中,排序值计算模块606可用于根据关键字分词中的分隔符来调整紧邻关系得分和顺序得分。
群组排序模块608,用于根据多个维度各自的排序优先级别和每个查找到的群组所对应每一维度的排序值对查找到的群组进行排序。
多个维度中每个维度各自具有排序优先级别,且每个维度的排序优先级别高低各不相同。具体地,群组排序模块608用于总体上按照排序优先级别从高到低的顺序而根据相应的维度的排序值对查找到的群组进行排序,当多个群组对应同一维度的排序值相同时,再按照该多个群组对应的排序优先级别仅次于该同一维度的维度的排序值来对该多个群组进行局部排序。
在一个实施例中,多个维度的排序因子中排序优先级别最低的维度的排序因子包括排序优先级别非最低的各个维度的排序因子。本实施例中,排序优先级别最低的维度的排序因子包括其他维度的排序因子,这样在计算对应排序优先级别最低的维度的排序值时,综合考虑了其它各个维度的排序因子,可以更全面反映用户查找群组的真实需求,从而提高查找群组的效率。
群组查找结果返回模块610,用于返回经过排序的群组查找结果。
具体地,对查找到的群组排序后,群组查找结果返回模块610可用于根据排序后的群组生成经过排序的群组相关信息的列表,将该经过排序的群组相关信息的列表返回给发起群组查找请求的客户端。客户端显示该群组相关信息的列表,检测用户对列表中群组相关信息的选定操作,根据检测到的选定操作确定待加入的群组,从而发起加入群组的请求。群组查找结果返回模块610可用于响应于该加入群组的请求,从而调用群组加入模块以执行加入待加入的群组的操作。
上述群组查找装置,先根据群组查找请求所携带的关键字来查找到与关键字匹配的群组,然后对于每个查找到的群组分别计算其对应多个维度中每一维度的排序值。多个维度各自具有排序优先级别,综合考虑多个维度各自的排序优先级别以及每个查找到的群组所对应每一维度的排序值,来对查找到的群组进行排序,从而返回经过排序的群组查找结果。这样用户得到的群组查找结果体现了多个维度的排序优先级别和每个维度的排序因子,可以从多个角度对查找到的群组做全面的质量估计,将高质量、与用户需求更为贴近的群组优先推荐给用户,使用户能够快速查找到所需群组,从而提高了群组查找的效率。
在一个实施例中,排序值计算模块606还用于在计算排序值时,对多个维度的排序因子中属于判断型的排序因子采用二值化量化,和/或对多个维度的排序因子中属于计数型的排序因子采用正相关函数进行量化,和/或对多个维度的排序因子中属于区间值型的排序因子采用二次贝塞尔曲线进行量化。对排序因子进行量化是为了统一排序值的取值范围,使得各个排序值能够在相同基准下比较。
具体地,判断型的排序因子是非此即彼的数据类型,排序值计算模块606可用于将其二值化为排序值最大值和排序值最小值两个值。排序值最大值和排序值最小值分别是事先设定的排序值的最大值和最小值。比如对应某一维度的排序值最小值可取0,排序值最大值可取100。属于判断型的排序因子包括但不限于群组标志位、群组管理员是否在线、是否被举报存在安全风险的群组安全属性、经服务器自动分析而确定的群组是否存在安全风险的群组安全属性、是否为预设指定群组等。
计数型的排序因子是数量逐渐累积的数据类型,排序值计算模块606可用于采用正相关函数对其进行量化,该正相关函数的因变量随着自变量的增大而增大。该正相关函数自变量的取值范围为[0,+∞),因变量的取值范围为[排序值最小值,排序值最大值),自变量为0时该正相关函数的因变量为排序值最小值,且该正相关函数的因变量随着自变量的增大而逐渐逼近最大值。属于计数型的排序因子包括但不限于通过统计发言数量而获得的群组活跃度。
在一个实施例中,该正相关函数为
Figure BDA0000499760100000201
其中a为预设的排序值最大值,f为可调因子,根据需要通过设定可调因子f而调整该正相关函数的曲线趋势。采用该正相关函数进行量化,优于直接用线性函数进行量化,因为该使用该函数曲线当自变量在值较小的一段范围内变化时因变量变化明显,通过调节f就可以使这一段范围能够就可能覆盖计数型排序因子的数量主要集中的区段。而超过这段范围后,自变量变化对因变量变化的影响很小,从而可以避免数量过大的异常数据的干扰。
区间值型的排序因子是可划分为一个或多个数值区段的数据类型,包括但不限于群组成员数量、群组成员容量、群组活跃等级、群组地理位置、加入群组的难易等级、群组资料完整度、群组有效管理数、群组信息丰富度、群组关系稠密度、群组性别分布数据、群组年龄分布数据和文本相关度。其中群组成员数量、群组成员容量、群组资料完整度、群组关系稠密度和文本相关度也可以作为计数型排序因子而利用上述正相关函数进行量化。
对于区间值型的排序因子,排序值计算模块606用于采用二次贝塞尔曲线对其进行量化。具体地二次贝塞尔曲线量化公式为(1-t)2P0+2(1-t)tP1+t2P2,t∈[0,1]。其中P0的坐标为(量化前最小值,排序值最小值),P2的坐标为(量化前最大值,排序值最大值),P1为可调坐标点,用于调节二次贝塞尔曲线的形状,可根据需要设定。
如图7所示,在一个实施例中,排序值计算模块606包括第一计算模块606a和第二计算模块606b。
第一计算模块606a,用于根据排序优先级别非最低的各个维度的排序因子分别计算每个查找到的群组对应每个排序优先级别非最低的维度的排序值。
第二计算模块606b,用于根据每个查找到的群组所对应排序优先级别非最低的各个维度的排序值的加权和以及排序优先级别最低的维度的排序因子计算每个查找到的群组所对应排序优先级别最低的维度的排序值。
综合维度的排序因子包括群组成员数量、群组成员容量、群组标志位、加入群组的难易等级、群组资料完整度、群组地理位置、群组有效管理数、群组信息丰富度、群组关系稠密度、群组活跃度、群组性别分布数据、群组年龄分布数据和根据关键字和群组文本资料计算获得的文本相关度中的至少一种。
本实施例中,计算对应排序优先级别最低的维度的排序值时,综合考虑了对应其它各个维度的排序值,可以更全面反映用户查找群组的真实需求,从而提高查找群组的效率。
在一个实施例中,排序值计算模块606还包括权重调整模块606c,用于当检测到查找到的群组当前与排序因子相关的群组属性与已记录的相应群组属性不一致时,减少与不一致的群组属性相关的排序因子对应的排序值在计算加权和时的权重。
本实施例中,权重调整模块606c用于检测查找到的群组当前与排序因子相关的群组属性是否与已记录的相应群组属性不一致,若是则减少该群组属性相关的排序因子的维度所对应的排序值来计算加权和。本实施例中,与排序因子相关的群组属性与已记录的相应群组属性不一致,说明该群组属性不可靠,因此需要降低其比重以保证排序优先级别最低的维度对应的排序值能够更加准确反映出群组的综合质量,使得最终的排序结果更加准确,从而提高查找群组的效率。
如图8所示,在一个实施例中,群组排序模块608包括归一化排序值计算模块608a和排序执行模块608b。
归一化排序值计算模块608a,用于根据多个维度各自的排序优先级别、除去用户维度的各个维度的最大值和查找到的群组的对应每一维度的排序值分别计算每个查找到的群组所对应的归一化排序值。
归一化排序值计算模块608a用于对查找到的群组的对应每一维度的排序值结合多个维度各自的排序优先级别进行归一化处理获得归一化排序值,该归一化排序值能够同时体现多个维度各自的排序优先级别和对应每一维度的排序值。具体地,排序优先级别非最低的各个维度所对应的排序值的增量导致的归一化排序值的增量大于仅次于该维度的维度所对应的排序值最大值。这样归一化排序值就能够直接体现多个维度各自的排序优先级别。
更具体地,归一化排序值计算模块608a可用于使用以下公式来计算查找到的群组所对应的归一化排序值:
Figure BDA0000499760100000221
其中scoretotal为归一化排序值;N为维度数量;scorei为当按照维度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第i个维度所对应的排序值;maxi+1则表示当按照维度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第i+1个维度所对应的排序值最大值;i是用于计数的自变量,取值范围为[1,N-1]。这样排序优先级别最高的维度标识为1,其对应的排序值为score1;排序优先级别最低的维度标识为N,其对应的排序值为scoreN
在一个实施例中,归一化排序值计算模块608a还可以用于使用公式
Figure BDA0000499760100000222
来计算查找到的群 组所对应的归一化排序值。其中scoretotal为归一化排序值;N为维度数量;scorej为当按照 维度的排序优先级别从高到低的顺序将N个维度排序时,查找到的群组的第j个维度所对应 的排序值;maxj+1则表示当按照维度的排序优先级别从高到低的顺序将N个维度排序时,查 找到的群组的第j+1个维度所对应的排序值最大值;j是用于计数的自变量,取值范围为[1, N-2]。这样排序优先级别最高的维度标识为1,其对应的排序值为score1;排序优先级别最 低的维度标识为N,其对应的排序值为scoreN
排序执行模块608b,用于根据每个查找到的群组所对应的归一化排序值对查找到的群组进行排序。
排序执行模块608b可用于具体按照计算获得的归一化排序值的大小对查找到的群组进行排序,可将归一化排序值大的群组排在前面,归一化排序值小的群组排在后面。
本实施例中,采用归一化处理方法计算归一化排序值,使得最终排序时仅需对各个查找到的群组的归一化排序值进行两两对比,而不必先对比排序优先级别最高的维度的排序值进行两两对比,再对排序优先级别次之的维度的排序值进行两两对比,依次类推,直至对排序优先级别最低的维度的排序值进行两两对比。这样大大降低了对比时的计算量,节省了计算资源,而且及大地提高了查找群组的效率,降低了服务器负荷。
如图9所示,在一个实施例中,多个维度根据排序优先级别从高到低分别为用户维度、群组安全维度、群组特色维度和综合维度。排序值计算模块606包括用户维度排序值计算模块606d、群组安全维度排序值计算模块606e、群组特色维度排序值计算模块606f和综合维度排序值计算模块606g。其中,用户维度排序值计算模块606d、群组安全维度排序值计算模块606e、群组特色维度排序值计算模块606f可以包含于上述第一计算模块606a。综合维度排序值计算模块606g可与第二计算模块606b为同一模块。
用户维度排序值计算模块606d,用于根据群组查找请求所携带的指定排序方式信息确定用户维度的排序因子并据以计算每个查找到的群组对应用户维度的排序值。
指定排序方式信息是可表示用户指定的排序方式的信息,比如按照群组成员数量排序、按照同城优先排序、按照群组活跃度排序等。用户维度排序值计算模块606d用于根据该指定排序方式信息确定用户维度的排序因子,进而用于对用户维度的排序因子进行量化后据其以计算对应用户维度的排序值。在一个实施例中,用户维度的排序因子包括群组成员数量、是否为预设指定群组、群组活跃度、群组地理位置和群组活跃等级中的至少一种。
群组安全维度排序值计算模块606e,用于获取查找到的群组的安全属性作为群组安全维度的排序因子并据以计算每个查找到的群组对应群组安全维度的排序值。
群组的安全属性可以根据用户举报信息来确定,也可以根据自动分析而确定,即群组安全维度的排序因子包括群组是否被举报存在安全风险的群组安全属性和经自动分析而确定的群组是否存在安全风险的群组安全属性。群组安全维度排序值计算模块606e用于将群组的安全属性作为群组安全维度的排序因子进行量化后,据其以计算对应群组安全维度的排序值。
群组特色维度排序值计算模块606f,用于根据与关键字相关的群组属性和群组查找请求所携带的用户标识所对应的用户数据以计算每个查找到的群组对应群组特色维度的排序值。
根据关键字可以确定与关键字相关的群组属性。用户标识所对应的用户数据包括本次群组查找的当前用户数据和历史用户数据。当前用户数据包括但不限于当前请求发起端的地理位置(近似为用户的地理位置)、当前所在城市、当前使用的终端类型等。历史用户数据包括但不限于是否长期使用移动客户端、高频查找关键字类别或者游戏行为等。从而根据关键字相关的群组属性和用户标识所对应的用户数据,可以计算每个查找到的群组对应群组特色维度的排序值。
综合维度排序值计算模块606g,用于根据综合维度的排序因子计算对应所述综合维度的排序值。
在一个实施例中,所述综合维度的排序因子包括群组成员数量、群组成员容量、群组标志位、加入群组的难易等级、群组资料完整度、群组地理位置、群组有效管理数、群组信息丰富度、群组关系稠密度、群组活跃度、群组性别分布数据、群组年龄分布数据和根据所述关键字和群组文本资料计算获得的文本相关度中的至少一种。综合维度排序值计算模块606g可用于根据综合维度的这些排序因子来计算对应综合维度的排序值。
在一个实施例中,综合维度排序值计算模块606g可用于根据每个查找到的群组分别对应用户维度、群组安全维度和群组特色维度的排序值,以及综合维度的排序因子计算对应综合维度的排序值。本实施例中,结合对应各个维度的排序值和综合维度的排序因子来综合计算综合维度的排序值,可以使得查找到的群组对应综合维度的排序值更加准确,更能反映用户查找群组的真实需求,从而提高查找群组的效率。
用于获取群组安全维度、群组特色维度和综合维度各自对应的排序值最大值。归一化排序值计算模块608a用于根据各个维度各自的排序优先级别、除去用户维度的各个维度的最大值和查找到的群组的对应每一维度的排序值分别计算每个查找到的群组所对应的归一化排序值。排序执行模块608b用于根据每个查找到的群组所对应的归一化排序值对查找到的群组进行排序。
在一个实施例中,排序值计算模块606所包括的权重调整模块606c,还用于当检测到查找到的群组当前与用户维度、群组安全维度或者群组安全维度的排序因子相关的群组属性与已记录的相应群组属性不一致时,减少与不一致的群组属性相关的排序因子对应的排序值在计算综合维度的排序值的加权和时的权重。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一计算机可读取存储介质中。该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (18)

1.一种群组查找方法,所述方法包括:
接收携带有关键字的群组查找请求;
响应于所述群组查找请求,查找到与所述关键字匹配的群组;
根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值;所述多个维度根据排序优先级别从高到低分别为用户维度、群组安全维度、群组特色维度和综合维度;其中,所述综合维度的排序因子包括所述用户维度、群组安全维度和群组特色维度的排序因子;
根据所述多个维度各自的排序优先级别、除去所述用户维度后的各个维度的排序值最大值、以及查找到的群组对应的每一维度的排序值,分别计算每个查找到的群组所对应的归一化排序值;其中,由排序优先级别非最低的各个维度所对应的排序值的增量所导致的归一化排序值的增量,大于仅次于该维度的维度所对应的排序值最大值,以使得所述归一化排序值体现所述多个维度各自的排序优先级别;
根据每个查找到的群组所对应的归一化排序值,对查找到的群组进行排序;
返回经过排序的群组查找结果。
2.根据权利要求1所述的方法,其特征在于,所述根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值,包括:
根据排序优先级别非最低的各个维度的排序因子分别计算每个查找到的群组对应每个排序优先级别非最低的维度的排序值;
根据每个查找到的群组所对应排序优先级别非最低的各个维度的排序值的加权和以及排序优先级别最低的维度的排序因子计算每个查找到的群组所对应排序优先级别最低的维度的排序值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当检测到所述查找到的群组当前与排序因子相关的群组属性与已记录的相应群组属性不一致时,减少与不一致的群组属性相关的排序因子对应的排序值在计算所述加权和时的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值,包括:
根据所述群组查找请求所携带的指定排序方式信息确定用户维度的排序因子并据以计算所述每个查找到的群组对应所述用户维度的排序值;
获取所述查找到的群组的安全属性作为群组安全维度的排序因子并据以计算所述每个查找到的群组对应所述群组安全维度的排序值;
根据与所述关键字相关的群组属性和所述群组查找请求所携带的用户标识所对应的用户数据以计算所述每个查找到的群组对应所述群组特色维度的排序值;
根据综合维度的排序因子计算对应所述综合维度的排序值。
5.根据权利要求4所述的方法,其特征在于,所述用户维度的排序因子包括群组成员数量、是否为预设指定群组、群组活跃度、群组地理位置和群组活跃等级中的至少一种;和/或,
所述群组安全维度的排序因子包括群组是否被举报存在安全风险的群组安全属性和经自动分析而确定的群组是否存在安全风险的群组安全属性;和/或,
所述综合维度的排序因子包括群组成员数量、群组成员容量、群组标志位、加入群组的难易等级、群组资料完整度、群组地理位置、群组有效管理数、群组信息丰富度、群组关系稠密度、群组活跃度、群组性别分布数据、群组年龄分布数据和根据所述关键字和群组文本资料计算获得的文本相关度中的至少一种。
6.根据权利要求4所述的方法,其特征在于,所述根据综合维度的排序因子计算对应所述综合维度的排序值,包括:
根据所述每个查找到的群组分别对应所述用户维度、群组安全维度和群组特色维度的排序值,以及所述综合维度的排序因子计算对应所述综合维度的排序值。
7.根据权利要求5所述的方法,其特征在于,所述文本相关度根据所述关键字分词在所述群组文本资料中的命中比例、所述关键字分词在所述群组文本资料中的占比、所述关键字分词在所述群组文本资料中的顺序、所述关键字分词在所述群组文本资料中的距离中的至少一种计算获得。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:在计算排序值时,对所述多个维度的排序因子中属于判断型的排序因子采用二值化量化,和/或对所述多个维度的排序因子中属于计数型的排序因子采用正相关函数进行量化,和/或对所述多个维度的排序因子中属于区间值型的排序因子采用二次贝塞尔曲线进行量化。
9.一种群组查找装置,其特征在于,所述装置包括:
请求接收模块,用于接收携带有关键字的群组查找请求;
群组查找模块,用于响应于所述群组查找请求,查找到与所述关键字匹配的群组;
排序值计算模块,用于根据多个维度的排序因子分别计算每个查找到的群组对应每一维度的排序值;所述多个维度根据排序优先级别从高到低分别为用户维度、群组安全维度、群组特色维度和综合维度;其中,所述综合维度的排序因子包括所述用户维度、群组安全维度和群组特色维度的排序因子;
群组排序模块,用于根据所述多个维度各自的排序优先级别、除去所述用户维度后的各个维度的排序值最大值、以及查找到的群组对应的每一维度的排序值,分别计算每个查找到的群组所对应的归一化排序值,并根据每个查找到的群组所对应的归一化排序值,对查找到的群组进行排序;其中,由排序优先级别非最低的各个维度所对应的排序值的增量所导致的归一化排序值的增量,大于仅次于该维度的维度所对应的排序值最大值,以使得所述归一化排序值体现所述多个维度各自的排序优先级别;
群组查找结果返回模块,用于返回经过排序的群组查找结果。
10.根据权利要求9所述的装置,其特征在于,所述排序值计算模块包括:
第一计算模块,用于根据排序优先级别非最低的各个维度的排序因子分别计算每个查找到的群组对应每个排序优先级别非最低的维度的排序值;
第二计算模块,用于根据每个查找到的群组所对应排序优先级别非最低的各个维度的排序值的加权和以及排序优先级别最低的维度的排序因子计算每个查找到的群组所对应排序优先级别最低的维度的排序值。
11.根据权利要求10所述的装置,其特征在于,所述排序值计算模块还包括权重调整模块,用于当检测到所述查找到的群组当前与排序因子相关的群组属性与已记录的相应群组属性不一致时,减少与不一致的群组属性相关的排序因子对应的排序值在计算所述加权和时的权重。
12.根据权利要求9所述的装置,其特征在于,所述排序值计算模块包括:
用户维度排序值计算模块,用于根据所述群组查找请求所携带的指定排序方式信息确定用户维度的排序因子并据以计算所述每个查找到的群组对应所述用户维度的排序值;
群组安全维度排序值计算模块,用于获取所述查找到的群组的安全属性作为群组安全维度的排序因子并据以计算所述每个查找到的群组对应所述群组安全维度的排序值;
群组特色维度排序值计算模块,用于根据与所述关键字相关的群组属性和所述群组查找请求所携带的用户标识所对应的用户数据以计算所述每个查找到的群组对应所述群组特色维度的排序值;
综合维度排序值计算模块,用于根据综合维度的排序因子计算对应所述综合维度的排序值。
13.根据权利要求12所述的装置,其特征在于,所述用户维度的排序因子包括群组成员数量、是否为预设指定群组、群组活跃度、群组地理位置和群组活跃等级中的至少一种;和/或,
所述群组安全维度的排序因子包括群组是否被举报存在安全风险的群组安全属性和经自动分析而确定的群组是否存在安全风险的群组安全属性;和/或,
所述综合维度的排序因子包括群组成员数量、群组成员容量、群组标志位、加入群组的难易等级、群组资料完整度、群组地理位置、群组有效管理数、群组信息丰富度、群组关系稠密度、群组活跃度、群组性别分布数据、群组年龄分布数据和根据所述关键字和群组文本资料计算获得的文本相关度中的至少一种。
14.根据权利要求12所述的装置,其特征在于,所述综合维度排序值计算模块还用于根据所述每个查找到的群组分别对应所述用户维度、群组安全维度和群组特色维度的排序值,以及所述综合维度的排序因子计算对应所述综合维度的排序值。
15.根据权利要求13所述的装置,其特征在于,所述文本相关度根据所述关键字分词在所述群组文本资料中的命中比例、所述关键字分词在所述群组文本资料中的占比、所述关键字分词在所述群组文本资料中的顺序、所述关键字分词在所述群组文本资料中的距离中的至少一种计算获得。
16.根据权利要求9所述的装置,其特征在于,所述排序值计算模块还用于在计算排序值时,将属于判断型的排序因子采用二值化进行量化,和/或将属于计数型的排序因子采用正相关函数进行量化,和/或将属于区间值型的排序因子采用二次贝塞尔曲线进行量化。
17.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
CN201410182970.8A 2014-04-30 2014-04-30 群组查找方法和装置 Active CN105022761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410182970.8A CN105022761B (zh) 2014-04-30 2014-04-30 群组查找方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410182970.8A CN105022761B (zh) 2014-04-30 2014-04-30 群组查找方法和装置

Publications (2)

Publication Number Publication Date
CN105022761A CN105022761A (zh) 2015-11-04
CN105022761B true CN105022761B (zh) 2020-11-03

Family

ID=54412740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410182970.8A Active CN105022761B (zh) 2014-04-30 2014-04-30 群组查找方法和装置

Country Status (1)

Country Link
CN (1) CN105022761B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337847A (zh) * 2015-11-17 2016-02-17 小米科技有限责任公司 即时通讯消息处理方法、装置和设备
CN105610682B (zh) * 2015-11-25 2018-10-09 浙江翼信科技有限公司 一种即时通信应用中将联系人添加至群组的方法和装置
CN105893044B (zh) * 2016-03-31 2019-05-21 广州华多网络科技有限公司 图标生成方法及装置
CN107092667B (zh) * 2017-04-07 2018-02-27 平安科技(深圳)有限公司 基于社交网络的群组查找方法和装置
CN106126521B (zh) * 2016-06-06 2018-06-19 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器
CN108066990B (zh) * 2016-11-18 2021-01-22 腾讯科技(深圳)有限公司 一种从候选用户列表中选择用户的方法、装置及服务器
CN106911487B (zh) * 2017-04-28 2019-12-24 广州市网星信息技术有限公司 一种进行语音聊天的方法和装置
CN106980703B (zh) * 2017-05-09 2020-06-30 北京三快在线科技有限公司 用于群组搜索的方法及装置、电子设备、计算机可读介质
CN107622076A (zh) * 2017-07-05 2018-01-23 北京奇安信科技有限公司 一种群组成员的资料查找方法及装置
CN107707370B (zh) * 2017-09-12 2019-08-16 Oppo广东移动通信有限公司 群组通信方法、服务器、终端及计算机存储介质
CN108259638B (zh) * 2017-12-11 2021-04-30 广东智媒云图科技股份有限公司 个人群组列表智能排序方法、智能终端及存储介质
CN108418950B (zh) * 2018-01-31 2019-10-18 维沃移动通信有限公司 消息提醒方法及移动终端
CN110221707A (zh) * 2018-03-01 2019-09-10 北京搜狗科技发展有限公司 一种英文输入方法、装置和电子设备
CN108595668A (zh) * 2018-04-28 2018-09-28 深圳春沐源控股有限公司 一种商品的自动排序方法、装置及计算机可读存储介质
CN110147500B (zh) * 2019-05-21 2021-11-16 北京奇艺世纪科技有限公司 一种信息推荐方法及装置
CN111431727B (zh) * 2020-02-19 2022-01-21 北京达佳互联信息技术有限公司 一种群组展示方法、装置、终端、服务器及系统
CN111382361B (zh) * 2020-03-12 2023-05-02 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN112559892A (zh) * 2020-08-03 2021-03-26 广州知弘科技有限公司 基于大数据的终端信息推荐系统
CN113706327B (zh) * 2021-09-08 2024-03-12 易儒网络科技有限公司 具有防垄断功能的网络群组组建方法及系统
CN114117253A (zh) * 2021-11-19 2022-03-01 北京达佳互联信息技术有限公司 群组搜索方法、装置、设备以及存储介质
CN114465969B (zh) * 2021-12-23 2023-07-04 珠海格力电器股份有限公司 通讯消息组的管理方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092856A (zh) * 2011-10-31 2013-05-08 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备
CN103309864A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种搜索结果显示方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763354B2 (en) * 2002-05-10 2004-07-13 Agentarts, Inc. Mining emergent weighted association rules utilizing backlinking reinforcement analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092856A (zh) * 2011-10-31 2013-05-08 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备
CN103309864A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种搜索结果显示方法、装置及系统

Also Published As

Publication number Publication date
CN105022761A (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
CN105022761B (zh) 群组查找方法和装置
US9940402B2 (en) Creating groups of users in a social networking system
CN107835113B (zh) 一种基于网络映射的社交网络中异常用户检测方法
KR101009830B1 (ko) 사회망에서 사용자들의 일치성 점수화
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
TW201909112A (zh) 圖像特徵獲取
US20130124437A1 (en) Social media user recommendation system and method
CN109815314A (zh) 一种意图识别方法、识别设备及计算机可读存储介质
WO2018192348A1 (zh) 数据处理方法、装置及服务器
US20230205775A1 (en) Offline evaluation of ranking functions
CN110991474A (zh) 一种机器学习建模平台
CN109063736B (zh) 数据分类方法、装置、电子设备及计算机可读存储介质
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
US11470032B2 (en) Method for recommending groups and related electronic device
CN109753561B (zh) 一种自动回复的生成方法及装置
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN108388652B (zh) 一种发送歌单标识的方法和装置
CN110959157B (zh) 加速大规模相似性计算
CN110555092A (zh) 舆情处理方法、装置及计算机可读存储介质
CN110674632A (zh) 一种确定安全级别的方法及装置、存储介质和设备
KR101918358B1 (ko) 맞춤형 정보를 제공하는 데이터 센터 시스템
CN114092216A (zh) 企业信贷评级方法、装置、计算机设备和存储介质
CN113158037A (zh) 一种面向对象的信息推荐方法和装置
CN113704566A (zh) 识别号主体识别方法、存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant