CN113761391A - 数据搜索方法、装置、介质及产品 - Google Patents

数据搜索方法、装置、介质及产品 Download PDF

Info

Publication number
CN113761391A
CN113761391A CN202111053818.6A CN202111053818A CN113761391A CN 113761391 A CN113761391 A CN 113761391A CN 202111053818 A CN202111053818 A CN 202111053818A CN 113761391 A CN113761391 A CN 113761391A
Authority
CN
China
Prior art keywords
account
score
accounts
determining
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111053818.6A
Other languages
English (en)
Inventor
杨飞
曹六一
张丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Electronics Co Ltd
Original Assignee
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Founder Electronics Co Ltd filed Critical Beijing Founder Electronics Co Ltd
Priority to CN202111053818.6A priority Critical patent/CN113761391A/zh
Publication of CN113761391A publication Critical patent/CN113761391A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据搜索方法、装置、介质及产品。该方法包括:数据搜索方法、装置、介质及产品。该方法包括:确定满足搜索要求的种子账户;确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。基于此,通过计算关联账户的得分,对关联账户进行排序,依照排序优先级获取与关联账户最具关联性的目标账户。从而使采集账户时具有先后顺序,与种子账户最具关联性的先采集,提高采集到有效账户的速度,减少了对无效数据的采集,减少计算资源的浪费。

Description

数据搜索方法、装置、介质及产品
技术领域
本发明涉及通信技术,尤其涉及一种数据搜索方法、装置、介质及产品。
背景技术
如今,社交媒体是人们彼此之间用来分享意见、见解、经验、观点的工具和平台,如何基于社交媒体中大量信息快速筛选得到相关联的信息的是一个重要的研究方向。
当前技术中,其中一种针对社交媒体中的用户信息的筛选方法为:对目标区域的用户账户信息均进行采集,然后再通过设置的筛选条件对用户做筛选,从而基于筛选得到关联的目标账户。
由于使用当前技术中的这种实现方式,所有用户账号之间无明显的采集先后顺序,会导致采集到有效账号的速度相对会很慢,无效数据多,资源消耗大。
发明内容
本发明提供一种数据搜索方法、装置、介质及产品,用以解决采集到有效账号的速度慢,无效数据多,资源消耗大的问题。
第一方面,本发明提供一种数据搜索方法,包括:
确定满足搜索要求的种子账户;
确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;
将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
可选地,所述确定满足搜索要求的种子账户,包括:
获取位于预定义的目标区域内的账户;
将所述位于预定义的目标区域内的账户确定为种子账户。
可选地,所述确定满足搜索要求的种子账户,包括:
获取预定义的目标区域或预定义的目标事件对应的至少一个群组作为种子群组,并将种子群组内的群成员账户确定为种子账户;或者
获取参加目标事件话题的用户账户,并将参加目标事件话题的用户账户确定为种子账户。
可选地,所述方法还包括:
获取种子账户和关联账户的位置信息;
根据种子账户的位置信息剔除不在预定义的目标区域内的种子账户,并根据关联账户的位置信息剔除不在预定义的目标区域内的关联账户。
可选地,所述确定所述种子账户的至少一个关联账户,包括:
获取所述种子账户对应的应用使用相关信息;
根据所述应用使用相关信息确定至少一个关联账户;
所述应用使用相关信息包括以下信息的任意一种或多种:账户关系信息,行为信息,所属群组信息。
可选地,所述根据所述应用使用相关信息确定至少一个关联账户,包括:
根据应用使用相关信息筛选出属于满足关联要求的用户账户;
将满足关联要求的用户账户确定为关联账户。
可选地,所述计算各关联账户的关联总分,包括:
根据各关联账户的语种信息和位置信息计算各关联账户的第一得分;
根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分;
根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分;
将各关联账户的第一得分,第二得分及第三得分进行求和运算,以获得对应的关联总分。
可选地,所述根据各关联账户的语种信息和位置信息计算各关联账户的第一得分,包括:
确定各关联账户对应的个人信息中的位置信息,动态信息中的位置信息,动态信息中是否包含目标区域地点名称,预定义的目标区域匹配的语种信息,关联账户的语种信息;
若确定某关联账户满足第一预设条件,则确定该关联账户的第一子得分为基于满足第一预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第一子得分值为零;所述第一预设条件为:所述关联账户对应的个人信息中的位置信息中的位置位于预定义的目标区域;
若确定某关联账户满足第二预设条件,则确定该关联账户的第二子得分为基于满足第二预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第二子得分值为零;所述第二预设条件为:所述关联账户对应的动态信息中的位置信息中的位置位于预定义的目标区域;
若确定某关联账户满足第三预设条件,则确定该关联账户的第三子得分为基于满足第三预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第三子得分值为零;所述第三预设条件为:预定义的目标区域匹配的语种为唯一语种,且所述关联账户的语种信息中的语种与所述目标区域的语种相同;
若确定某关联账户满足第四预设条件,则确定该关联账户的第四子得分为基于满足第四预设条件的关联账户的数量与所有关联账户的数量的比值得到,否则确定该关联账户的第四子得分值为零;所述第四预设条件为:所述关联账户的动态信息中包含目标区域地点名字对应的位置定位于预定义的目标区域;
将所述第一子得分,第二子得分,第三子得分及所述第四子得分进行求和运算,以获得第一得分。
可选地,所述根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分,包括:
若确定某关联账户为基于种子账户的账户关系信息确定的账户,则确定该关联账户的第五子得分是基于种子账户的账户关系信息确定的至少一个第一关联账户中满足第五预设条件的关联账户的数量与所述至少一个第一关联账户的数量的比值得到的,所述满足第五预设条件的关联账户为:所述至少一个第一关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第五子得分为零;
若确定某关联账户为基于种子账户的行为信息确定的账户,则确定该关联账户的第六子得分基于种子账户的行为信息确定的至少一个第二关联账户中满足第六预设条件的关联账户的数量与所述至少一个第二关联账户的数量的比值得到,所述满足第六预设条件的关联账户为:所述至少一个第二关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第六子得分为零;
若确定某关联账户为基于种子账户的所属群组信息确定的账户,则确定该关联账户的第七子得分基于种子账户的所属群组信息确定的至少一个第三关联账户中满足第七预设条件的关联账户的数量与所述至少一个第三关联账户的数量的比值得到,所述满足第七预设条件的关联账户为:所述至少一个第三关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第七子得分为零;
将所述第五子得分,第六子得分及第七子得分进行求和运算,以获得第二得分。
可选地,若确定某关联账户为预设规模影响力的账户,则确定该关联账户的第三得分为基于各比值中的最小值得到的,否则确定该关联账户的第三得分为零。
第二方面,本发明提供一种数据搜索装置,包括:确定模块,确定满足搜索要求的种子账户;
处理模块还用于确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;
排序模块,用于将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
第三方面,提供了一种电子设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面任一项所述的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的方法。
第五方面,提供了一种计算机程序产品,包括计算机程序,当所述计算机程序被运行时,使得所述计算机执行如第一方面中任一项所述的方法。
本发明实施例提供一种数据搜索方法、装置、介质及产品,通过确定满足搜索要求的种子账户;确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。由于各关联账户与种子账户的关联性是不同的,也即反映了各关联账户与目标的关联程度,各关联账户与目标的关联程度不同,则对应的各关联账户对应的子关联账户与目标的关联程度也不同,因此,本发明实施例中可以计算各关联账户的关联总分,根据关联总分确定关联账户的排序,并按照排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与种子账户最具关联性的目标账户,从而实现先获取与种子账户关联性的高的关联账户的子关联账户,能够快速的得到有效的账户信息,进而避免获取过多的无效数据以及由于获取大量的无效数据造成的计算机资源的浪费。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的数据搜索方法的一种网络架构示意图;
图2为本发明第一实施例提供的数据搜索方法的示意性流程图;
图3为本发明第二实施例提供的数据搜索方法的示意性流程图;
图4为本发明第三实施例提供的数据搜索方法的示意性流程图;
图5为本发明第四实施例提供的数据搜索方法的示意性流程图;
图6为本发明第五实施例提供的数据搜索方法的示意性流程图;
图7为本发明第六实施例提供的数据搜索方法的示意性流程图;
图8为本发明第一实施例提供的数据搜索装置的示意性框图;
图9为本发明第一实施例提供的电子设备的示意性框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
社交媒体是人们彼此之间用来分享意见、见解、经验、观点的工具和平台,如何基于社交媒体中大量信息快速筛选得到相关联的信息的是一个重要的研究方向,对于事件源头追踪、传播路径、热点事件预测等研究都具有重要作用。
现有技术中,可以通过对目标区域的用户账户信息均进行采集,然后再通过设置的筛选条件对用户做筛选,从而基于筛选得到关联的目标账户。这种方法对目标区域的所有的用户账户信息都进行采集,然后再进行筛选,但是采集得到的用户账户信息中有大量的无效信息,因此采集到有效账户信息的速度相对会很慢,无效数据多,且资源消耗大。
针对现有技术中的问题,发明人通过研究后发现,用户账户信息应该满足一定的条件,才能对最终要实现的目标产生有利的帮助,因此可以针对目标确定一些满足搜索要求的种子账户,然后根据种子账户进一步得到一些关联账户,并可以根据这些关联账户进一步扩展得到更多的关联子账户。在根据这些关联账户进一步扩展时,由于关联账户与种子账户的关联性是不同的,也即反映了关联账户与目标的关联程度,因此本发明实施例中可以计算各关联账户的关联总分,根据关联总分确定关联账户的排序,并按照排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与种子账户最具关联性的目标账户,从而实现先获取与种子账户关联性的高关联账户的子关联账户,能够快速的得到有效的账户信息,进而避免获取过多的无效数据以及由于获取大量的无效数据造成的计算机资源的浪费。
下面对本发明实施例提供的数据搜索方法的网络架构进行介绍。如图1所示,本实施例提供的数据搜索方法对应的网络架构中包括电子设备1、电子设备2和电子设备3。电子设备1和电子设备2中可以装载有一些社交软件对应的应用程序(application,APP),这些社交软件例如可以为社交网站、某博、某信中的至少一种。电子设备3可以访问电子设备1和电子设备2中一个社交软件对应的APP,可以从该APP中采用本发明实施例提供的数据搜索方法确定出获取相应的至少一个种子账户及其目标账户。
应理解,图1仅示出了具有两个相同性质的电子设备1和电子设备2的网络架构,实际情况中可以有更多与电子设备1和电子设备2具有相同性质的电子设备,本发明实施例对此不作限定。
下面以具体的实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
为便于理解,下文首先结合图2至图7详细说明本发明实施例提供的数据搜索方法的具体过程。
实施一
图2为本发明第一实施例提供的数据搜索方法的示意性流程图,图2是根据本发明第一实施例提供的数据搜索方法的流程示意图,如图2所示,本发明实施例的执行主体为数据搜索装置,该数据搜索装置可以集成在电子设备中,则本实施例提供的数据搜索方法包括以下几个步骤。
步骤201,确定满足搜索要求的种子账户。
其中,种子账户可以对应于一个社交软件上一个用户注册的账户。
应理解,确定种子账户的目的是:基于这些账户中的信息实现事件源头追踪、传播路径或热点事件预测,而研究一个事件或者一个事件对应的传播路径时,会涉及目标事件和目标区域的至少一项,因此种子账户应该是和一个目标区域和/或是一个目标事件相关的账户。因此,满足搜索要求的种子账户即为:若账户对应的位置信息或位于目标区域所在群组是针对目标区域的群组或者若账户参与了目标事件话题,则可以将该账户确定为种子账户。
步骤202,确定种子账户的至少一个关联账户并计算各关联账户的关联总分。
其中,关联账户可以为与种子账户存在关联关系的账户,该关联关系为有助于实现最终的目标的关系。关联总分反映了关联账户与种子账户的关联程度,也即反映了关联账户与目标的关联程度,其中,目标例如可以为目标区域和/或目标事件。
步骤203,将关联账户按照关联总分由高到低进行排序,并按照排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与种子账户最具关联性的目标账户。
如前所述,关联账户的关联总分反映了关联账户与目标的关联程度不同,关联总分越高代表关联账户与目标的关联程度越高,也即关联账户中的信息对于实现目标来说越有效。因此可以基于关联总分对关联账户进行排序,先获取排序靠前的关联账户的子关联账户,从而获取到与所述种子账户最具关联性的目标账户。
本实施例提供的数据搜索方法,通过确定满足搜索要求的种子账户;确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。由于各关联账户与种子账户的关联性是不同的,也即反映了各关联账户与目标的关联程度,各关联账户与目标的关联程度不同,则对应的各关联账户对应的子关联账户与目标的关联程度也不同,因此,本发明实施例中可以计算各关联账户的关联总分,根据关联总分确定关联账户的排序,并按照排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与种子账户最具关联性的目标账户,从而实现先获取与种子账户关联性的高的关联账户的子关联账户,能够快速的得到有效的账户信息,进而避免获取过多的无效数据以及由于获取大量的无效数据造成的计算机资源的浪费。
实施例二
图3为本发明第二实施例提供的数据搜索方法的示意性流程图,如图3所示,本实施例提供的数据搜索方法,是在本发明第一实施例提供的数据搜索方法的基础上,对步骤201的进一步细化,则本实施例提供的数据搜索方法包括以下步骤:
步骤301,获取位于预定义的目标区域内的账户。
其中,位于预定义的目标区域内的账户可以为:个人注册信息中的位置信息定位于预定义的目标区域的账户;也可以为:在预定义的一段时间段内所发动态对应的位置信息定位于预定义的目标区域的账户。其中,预定义的目标区域是针对要追踪或预测的目标事件对应的区域。
步骤302,将位于预定义的目标区域内的账户确定为种子账户。
应理解,通常情况下,一个事件的发生伴随一个地点,因此相应的地点对应的区域的用户知晓该事件的可能性较大,与该事件的关联性也较大,因此可以将一个目标区域的账户确定为种子账户。
本实施例提供的数据搜索方法,通过获取位于预定义的目标区域内的账户;将位于预定义的目标区域内的账户确定为种子账户。由于针对本发明实施例对应的应用场景,例如要追踪或预测的一个目标事件必定可以对应有一个目标区域,因此通过目标区域确定一个种子账户,能够快速地从社交软件获取有效的账户信息。
实施例三
图4为本发明第三实施例提供的数据搜索方法的示意性流程图,如图4所示,本实施例提供的数据搜索方法,是在本发明第一实施例提供的数据搜索方法的基础上,对步骤201的进一步细化,是与本发明第二实施例并列的一种方法,则本实施例提供的数据搜索方法包括以下步骤:
步骤401,获取预定义的目标区域或预定义的目标事件对应的至少一个群组作为种子群组。
步骤402,将种子群组内的群成员账户确定为种子账户。
其中,种子群组为与预定义的目前事件或者预定义的目标区域具有密切关系的一个或多个群组,例如可以对应社交软件中的一个或多个群组。
应理解,该步骤401-步骤402对应的是确定种子账户的一种可能的实现方式,可选地,确定种子账户还包括另一种可能的实现方式。具体为:
获取参加目标事件话题的用户账户,并将参加目标事件话题的用户账户确定为种子账户。
应理解,从参加目标事件话题的用户账户中能够获取更多的关于目标事件的信息,因此可以将其确定为种子账户。
本实施例提供的数据搜索方法,通过获取预定义的目标区域或预定义的目标事件对应的至少一个群组作为种子群组,并将种子群组内的群成员账户确定为种子账户;或者获取参加目标事件话题的用户账户,并将参加目标事件话题的用户账户确定为种子账户。由于针对本发明实施例对应的应用场景,要追踪或预测的一个目标事件,则对应的社交软件中与预定义的目标事件及其对应的目标区域涉及的群组中必定有很多账户会关注对应的目标事件,因此通过这些群组确定种子账户,能够快速地获取有效的账户信息。另一方面,参加目标事件话题的用户账户中关于目标事件的信息高于普通的账户,因此也可以将这些账户确定为种子账户。
实施例四
图5为本发明第四实施例提供的数据搜索方法的示意性流程图,如图5所示,本实施例提供的数据搜索方法,是在本发明第三实施例提供的数据搜索方法的基础上,还包括了剔除种子账户和关联账户中的部分账户的步骤。则本实施例提供的数据搜索方法包括以下步骤:
步骤501,获取种子账户和关联账户的位置信息。
其中,位置信息可以为个人注册信息中的位置信息,也可以为在预定义的一段时间段内所发动态对应的位置信息。
步骤502,根据种子账户的位置信息剔除不在预定义的目标区域内的种子账户,并根据关联账户的位置信息剔除不在预定义的目标区域内的关联账户。
如前所述,要追踪或预测的一个目标事件可以对应有一个目标区域,该目标区域即为上述预定义的目标区域,若一个账户的位置信息位于上述预定义的目标区域内,则该账户中含有的有效信息的概率高于其他账户,但是结合前面的第三实施例确定的种子账户及其对应的关联账户的位置信息并不一定位于预定义的目标区域内,因此需要将位置信息不位于预定义的目标区域内的账户剔除。
应理解,本实施例提供的方法适用于本发明实施例确定的所有种子账户、关联账户以及子关联账户和目标账户,对该方法的使用范围不作限定。当该方法用于剔除子关联账户和目标账户中的部分账户时,具体过程与步骤501和步骤502类似,不再赘述。
本实施例提供的数据搜索方法,通过获取种子账户和关联账户的位置信息;根据种子账户的位置信息剔除不在预定义的目标区域内的种子账户,并根据关联账户的位置信息剔除不在预定义的目标区域内的关联账户。针对本发明实施例对应的应用场景,要追踪或预测的一个目标事件,则必定可以对应有一个目标区域,若一个账户的位置信息位于上述预定义的目标区域内,则该账户中含有的有效信息的概率高于其他账户。反之,若一个账户的位置信息不位于上述预定义的目标区域内,则该账户中含有的有效信息的概率低于其他账户。因此可以将位置信息不位于上述预定义的目标区域内的账户剔除,从而使保留的账户的信息为更加有效的信息。
实施例五
图6为本发明第五实施例提供的数据搜索方法的示意性流程图,如图6所示,本实施例提供的数据搜索方法,是在本发明任意一个实施例提供的数据搜索方法的基础上,对步骤202的进一步细化,则本实施例提供的数据搜索方法包括以下步骤:
步骤601,获取种子账户对应的应用使用相关信息。
其中,应用使用相关信息包括以下信息的任意一种或多种:账户关系信息,行为信息,所属群组信息。
其中,账户关系信息为与种子账户具有一定关系的账户信息,例如可以为:关注种子账户的账户信息或种子账户的粉丝的账户的信息。行为信息为与种子账户具有一定互动的账户信息,例如可以为:对所述种子账户的动态进行转发、点赞、评论对应的账户的信息。所属群组信息为与种子账户在一个群组中的账户的信息。
步骤602,根据应用使用相关信息确定至少一个关联账户。
具体地,可以根据应用使用相关信息筛选出属于满足关联要求的用户账户,并且将满足关联要求的用户账户确定为关联账户。
其中,满足关联要求的用户账号主要是和种子账户具有关联的账户,例如可以为:种子账户的关系信息、行为信息、群组信息中涉及的账号信息对应的账号。将这些账号确定为与种子账号的关联账号。
可选地,实施例提供的方法,在对步骤202中计算各关联账户的关联总分,包括以下步骤:
步骤603,根据各关联账户的语种信息和位置信息计算各关联账户的第一得分。
具体地,步骤603包括以下步骤:
步骤6031,确定各关联账户对应的个人信息中的位置信息,动态信息中的位置信息,动态信息中是否包含目标区域地点名称,预定义的目标区域匹配的语种信息,关联账户的语种信息。
应理解,确定上述信息主要是为了方便后面计算各关联账户的第一得分。其中,每个关联账户的第一得分可以由四个子得分确定,下面的步骤6032至步骤6035将分别介绍四个子得分的确定方法。
步骤6032,若确定某关联账户满足第一预设条件,则确定该关联账户的第一子得分为基于满足第一预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第一子得分值为零。
其中,第一预设条件为:所述关联账户对应的个人信息中的位置信息中的位置位于预定义的目标区域。
为了便于理解,下面举例说明一个关联账户A的第一子得分的确定方法。
示例性地,若满足第一预设条件的关联账户的数量用x1表示,所有关联账户的数量用y表示,则对应的满足第一预设条件的关联账户的数量与所有关联账户的数量的比值m1即为m1=x1/y。进一步地,可以对m1进行归一化得到w1,具体的归一化内容可参考下文,此处先不作详述。如果某关联账户A第一子得分用s1表示,且该关联账户A满足第一预设条件,则该关联账户A第一子得分s1与w1满足:s1=w1*100;否则确定该关联账户A的第一子得分值s1=0。应理解,此处100为预定义的值,也可以为其他正整数,本发明实施例对此不作限定。还应理解,该第一子得分s1反映了关联账号A的个人信息中的位置信息中的位置是否位于预定义的目标区域,对关联账号A与目标的关联程度的影响。
步骤6033,若确定某关联账户满足第二预设条件,则确定该关联账户的第二子得分为基于满足第二预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第二子得分值为零。
其中,第二预设条件为:所述关联账户对应的动态信息中的位置信息中的位置位于预定义的目标区域。可以理解为,一个关联账户中的一条动态信息对应的定位位置位于预定义的目标区域。
其中,动态信息获取例如可以具有以下限制:如果已发现符合条件的动态,不再继续翻页;且设定最大翻页数(例如最大翻页数为10),如果超过设定的最大翻页数,不再继续翻页。其中,符合条件的动态可以为动态信息对应的定位位置位于预定义的目标区域,或者动态信息对应的内容中包含与预定义的目标区域匹配的区域名称。
为了便于理解,下面举例说明确定一个关联账户A的第二子得分的过程。
示例性地,若满足第二预设条件的关联账户的数量用x2表示,所有关联账户的数量用y表示,则对应的满足第二预设条件的关联账户的数量与所有关联账户的数量的比值m2即为m2=x2/y。进一步地,可以对m2进行归一化得到w2,具体的归一化内容可参考下文,此处先不作详述。如果某关联账户A第二子得分用s2表示,且该关联账户A满足第二预设条件,则该关联账户A第二子得分s2与w2满足:s2=w2*100;否则确定该关联账户A的第二子得分值s2=0。应理解,此处100为预定义的值,也可以为其他正整数,本发明实施例对此不作限定。还应理解,该第二子得分s2反映了关联账号A的对应的动态信息中的位置信息中的位置是否位于预定义的目标区域,对关联账号A与目标的关联程度的影响。
步骤6034,若确定某关联账户满足第三预设条件,则确定该关联账户的第三子得分为基于满足第三预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第三子得分值为零。
其中,第三预设条件为:预定义的目标区域匹配的语种为唯一语种,且所述关联账户的语种信息中的语种与所述目标区域的语种相同。
为了便于理解,下面举例说明确定一个关联账户A的第三子得分的过程。
示例性地,若满足第三预设条件的关联账户的数量用x3表示,所有关联账户的数量用y表示,则对应的满足第三预设条件的关联账户的数量与所有关联账户的数量的比值m3即为m3=x3/y。进一步地,可以对m3进行归一化得到w3,具体的归一化内容可参考下文,此处先不作详述。如果某关联账户A第三子得分用s3表示,且该关联账户A满足第三预设条件,则该关联账户A第三子得分s3与w3满足:s3=w3*100;否则确定该关联账户A的第三子得分值s3=0。应理解,此处100为预定义的值,也可以为其他正整数,本发明实施例对此不作限定。还应理解,该第三子得分s3反映了预定义的目标区域的语种信息对判断关联账户A与目标的关联程度的影响,如果预定义的目标区域的语种信息为唯一语种,关联账户A的语种信息中的语种与所述目标区域的语种相同,则可以认为关联账户A与目标的关联性比较强。
步骤6035,若确定某关联账户满足第四预设条件,则确定该关联账户的第四子得分为基于满足第四预设条件的关联账户的数量与所有关联账户的数量的比值得到,否则确定该关联账户的第四子得分值为零。
其中,第四预设条件为:所述关联账户的动态信息中包含目标区域地点名字对应的位置定位于预定义的目标区域。可以理解为一个关联账户中所发的动态信息的文字内容中包含有与目标区域地点名字对应的文字名称。
为了便于理解,下面举例说明确定一个关联账户A的第四子得分的过程。
示例性地,若满足第四预设条件的关联账户的数量用x4表示,所有关联账户的数量用y表示,则对应的满足第四预设条件的关联账户的数量与所有关联账户的数量的比值m4即为m4=x4/y。进一步地,可以对m4进行归一化得到w4,具体的归一化内容可参考下文,此处先不作详述。更进一步地,如果某关联账户A第四子得分用s4表示,且该关联账户A满足第四预设条件,则该关联账户A第四子得分s4与w4满足:s4=w4*100;否则确定该关联账户A的第四子得分值s4=0。应理解,此处100为预定义的值,也可以为其他正整数,本发明实施例对此不作限定。还应理解,该第四子得分s4反映了关联账号A的对应的中包含目标区域地点名字对应的位置是否定位于预定义的目标区域,对关联账号A与目标的关联程度的影响。
步骤6036,将第一子得分,第二子得分,第三子得分及第四子得分进行求和运算,以获得第一得分。
应理解,如前所述,第一子得分,第二子得分,第三子得分及第四子得分主要从关联账户的位置信息和语种信息的角度反映了一个关联账户与目标的关联程度,因此对应的第一得分也可以看作是从关联账户的位置信息和语种信息的角度反映了一个关联账户与目标的关联程度。
步骤604,根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分。
可以理解为:各关联账户是由对应的种子账户确定的,因此,各关联账户的第二得分与其对应的种子账户是有关联的,因此可以根据种子账户的应用使用信息计算各关联账户的第二得分。
其中,种子账户的应用使用信息中可以包括种子账户的账户关系信息,行为信息,所属群组信息中的任意一种或多种。具体地,三种信息的相关描述可参考前文,此处不再赘述。下面的步骤6041至步骤6044将分别介绍基于前述的三种信息计算各关联账户的第二得分的详细内容。
步骤6041,若确定某关联账户为基于种子账户的账户关系信息确定的账户,则确定该关联账户的第五子得分是基于种子账户的账户关系信息确定的至少一个第一关联账户中满足第五预设条件的关联账户的数量与所述至少一个第一关联账户的数量的比值得到的,否则确定该关联账户的第五子得分为零。
其中,满足第五预设条件的关联账户为:所述至少一个第一关联账户满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户。
为了便于理解,下面举例说明确定一个关联账户A的第五子得分的过程。
示例性地,若基于关联账户A对应的种子账户B的账户关系信息确定的至少一个第一关联账户的数量用g表示,至少一个第一关联账户中满足第五预设条件的关联账户的数量用p表示,则至少一个第一关联账户中满足第五预设条件的关联账户的数量与所述至少一个第一关联账户的数量的比值m5即为m5=p/g。进一步地,可以对m5行归一化得到w5,具体的归一化内容可参考下文,此处先不作详述。更进一步地,如果某关联账户A的第五子得分用s5表示,且该关联账户A满足第五预设条件,则该关联账户A第五子得分s5与w5满足:s5=w5*100*(f1/100);否则确定该关联账户A的第五子得分值s5=0。其中,f1为种子账户B的得分值,种子账户B的得分值例如可以为100。应理解,该第五子得分s5反映了关联账号A对应的种子账户B的账户关系信息,对关联账号A与目标的关联程度的影响。
还应理解,上述示例仅示出了计算关联账户的内容,若计算关联账户对应的子关联账户的第五得分与上述过程类似,所不同的是每个参数代表的含义将有所变化。下面举例说明计算关联账户对应的子关联账户的第五得分相应的内容。
示例性地,若基于子关联账户A对应的关联账户B的账户关系信息确定的至少一个第一子关联账户的数量用g表示,至少一个第一子关联账户中满足第五预设条件的子关联账户的数量用p表示,则至少一个第一子关联账户中满足第五预设条件的子关联账户的数量与所述至少一个第一子关联账户的数量的比值m5即为m5=p/g。进一步地,可以对m5进行归一化得到w5,具体的归一化内容可参考下文,此处先不作详述。更进一步地,如果某子关联账户A的第五子得分用s5表示,且该子关联账户A满足第五预设条件,则该子关联账户A第五子得分s5与w5满足:s5=w5*100*(f1/100);否则确定该子关联账户A的第五子得分值s5=0。其中,f1为关联账户B的得分值,关联账户B的得分值例如可以为100。应理解,该第五子得分s5反映了子关联账号A对应的关联账户B的账户关系信息,对子关联账号A与目标的关联程度的影响。
步骤6042,若确定某关联账户为基于种子账户的行为信息确定的账户,则确定该关联账户的第六子得分基于种子账户的行为信息确定的至少一个第二关联账户中满足第六预设条件的关联账户的数量与所述至少一个第二关联账户的数量的比值得到,否则确定该关联账户的第六子得分为零。
其中,满足第六预设条件的关联账户为:所述至少一个第二关联账户满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户。
为了便于理解,下面举例说明确定一个关联账户A的第六子得分的过程。
示例性地,若基于关联账户A对应的种子账户B的行为信息确定的至少一个第二关联账户的数量用h表示,至少一个第二关联账户中满足第六预设条件的关联账户的数量用q表示,则至少一个第二关联账户中满足第六预设条件的关联账户的数量与所述至少一个第二关联账户的数量的比值m6即为m6=q/h。进一步地,可以对m6进行归一化得到w6,具体的归一化内容可参考下文,此处先不作详述。更进一步地,如果某关联账户A的第六子得分用s6表示,且该关联账户A满足第六预设条件,则该关联账户A第六子得分s6与w6满足:s6=w6*100*(f1/100);否则确定该关联账户A的第六子得分值s6=0。其中,f1为种子账户B的得分值,种子账户的得分值例如可以为100。应理解,该第六子得分s6反映了关联账号A对应的种子账户B的行为信息,对关联账号A与目标的关联程度的影响。
步骤6043,若确定某关联账户为基于种子账户的所属群组信息确定的账户,则确定该关联账户的第七子得分是基于种子账户的所属群组信息确定的至少一个第三关联账户中满足第七预设条件的关联账户的数量与所述至少一个第三关联账户的数量的比值得到的,否则确定该关联账户的第七子得分为零。
其中,满足第七预设条件的关联账户为:所述至少一个第三关联账户满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户。
为了便于理解,下面举例说明确定一个关联账户A的第七子得分的过程。
示例性地,若基于关联账户A对应的种子账户B的行为信息确定的至少一个第三关联账户的数量用i表示,至少一个第三关联账户中满足第七预设条件的关联账户的数量用n表示,则至少一个第三关联账户中满足第六预设条件的关联账户的数量与所述至少一个第三关联账户的数量的比值m7即为m7=n/i。进一步地,可以对m7进行归一化得到w7,具体的归一化内容可参考下文,此处先不作详述。更进一步地,如果某关联账户A的第七子得分用s7表示,且该关联账户A满足第七预设条件,则该关联账户A第七子得分s7与w7满足:s7=w7*100*(f1/100);否则确定该关联账户A的第七子得分值s7=0。其中,f1为种子账户B的得分值,种子账户的得分值例如可以为100。应理解,该第七子得分s7反映了关联账号A对应的种子账户B的所属群组信息,对关联账号A与目标的关联程度的影响。
步骤6044,将所述第五子得分,第六子得分及第七子得分进行求和运算,以获得第二得分。
如上所述,第五子得分,第六子得分及第七子得分别可以与各关联账户对应的种子账户的账户关系信息,行为信息,所属群组信息三种信息,这三种信息均包括在各关联账户对应的种子账户的应用使用信息中,可以看作是根据与关联账户对应的种子账户对判断关联账户与目标的关联程度的影响,具体通过三者的对应的得分总和(即第二得分)体现。
步骤605,根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分。
若确定某关联账户为预设规模影响力的账户,则确定该关联账户的第三得分为基于各比值中的最小值得到的,否则确定该关联账户的第三得分为零。
其中,预设规模影响力的账户表示有一定影响力的账户,例如可以为粉丝数量超过一定数量的账户。
结合前文示例,若某关联账户A为预设规模影响力的账户,则该关联账户A的第三得分s8为基于各比值中的最小值m8得到的,则m8=min{m1,m2,m3,m4,m5,m6,m7,m8}。进一步地,可以对m8进行归一化得到w8,具体地,w8与m8可以满足w8=m8/(m1+m2+m3+…+m8)。该关联账户A第三得分s8与w8满足:s8=w8*100;否则确定该关联账户A的第三得分值s8=0。
应理解,对各比值进行归一化的方法与m8进行归一化得到w8的方法类似,可以为wn=mn/(m1+m2+m3+…+mn),其中n={1,2,3,…,8},也即m1至m8均可以采用前述公式进行归一化。归一化后的w1至w8均大于或等于0,且w1+w2+w3+w4+w5+w6+w7+w8=1。
可以理解,第三得分反映了关联账户的影响力对对判断关联账户与目标的关联程度的影响。
步骤606,将各关联账户的第一得分、第二得分及第三得分进行求和运算,以获得对应的关联总分。
结合上文对第一得分、第二得分及第三得分进行求和运算,则得到的关联总分满足:s=s1+s2+s3+s4+s5+s6+s7+s8=(w1+w2+w3+w4+w8)*100+(w5+w6+w7)*f1。
本实施例提供的数据搜索方法,通过计算各关联账户的第一得分、第二得分及第三得分得到各关联账户与目标的关联总分。由于每个关联账户与目标的关联程度是不同的,因此该方法从关联账户的位置信息和语种信息的角度判断一个关联账户与目标的关联程度,从而得到各关联账户的第一得分;根据与关联账户对应的种子账户对判断关联账户与目标的关联程度,从而得到各关联账户的第二得分;根据关联账户的影响力对对判断关联账户与目标的关联程度的影响,从而得到各关联账户的第三得分。实现从不同的角度计算关联账户与目标的关联得分,从而最终确定各关联账户与目标的关联总分,为后续根据关联账户确定关联账户的子关联账户奠定基础。
实施例六
图7为本发明第六实施例提供的数据搜索方法的示意性流程图,如图7所示,本实施例提供的数据搜索方法,是在本发明前述任一实施例提供的数据搜索方法的基础上,还包括了对确定的目标账户进行过滤,剔除重复的账户的步骤;以及在目标账户的达到一定数量时,重新计算所有目标账户的关联总分,对所有的目标账户重新排序,然后按照顺序再确定相应的关联账户及目标账户的步骤。则本实施例提供的数据搜索方法包括以下步骤:
步骤701,对已经确定的目标账户进行过滤,剔除重复的账户。
可以理解,由于目标账户是基于各种子账户的关联账户进一步扩展的,而各种子账户的关联账户中不可避免会含有重复的账户,因此,目标账户中可能含有重复的账户,因此,在确定目标账户后,还可以对目标账户进行过滤,剔除重复的账户。
步骤702,计算所有目标账户的关联总分,对所有的目标账户重新排序。
为了便于理解,下面举例说明该步骤。
例如,如果根据种子账户确定了一些关联账户,然后根据关联账户又确定了一些子关联账户,且前述的种子账户、关联账户和子关联账户的数量总和达到一定的数量,则重新计算每个账户对应的关联总分,实现对所有的目标账户的重新排序。
应理解,上述实施例中,多数以计算关联账户的得分为例进行说明,在具体的应用过程中,在确定关联账户的关联总分,确定对应的关联账户的子关联账户后,可以根据各个子关联账户进行进一步的扩展,确定子关联账户的关联账户,确定子关联账户的关联账户的过程与上述任一实施例类似,参考上述任一实施例的相关描述,此出不再赘述。
步骤703,根据排序后的目标账户依次确定与目标账户的关联账户。
本实施例提供的数据搜索方法,通过对目标账户进行过滤以及重新排序,得到过滤后的目标账户的关联账户。由于通过种子账户确定的关联账户以及基于关联账户确定的子关联账户中可能包含有重复的账户,因此本实施例通过过滤重复的账户,提高了数据搜索的效率,也提高了搜索到的账户的有效性。同时由于搜索到的数据量的不断扩大,对应的每个账户的关联关系也有可能变化,因此可以重新计算每个目标账户的关联总分,以对目标账户重新排序,并根据排序确定与其对应的关联账号,从而使计算得到的账户与目标的关联总分更能反映账户与目标的关联程度,进而使得到的关联账户与目标的关联程度更高。
图8为本发明第一实施例提供的数据搜索装置的示意性框图。如图8所示,该装置800包括:确定模块810、处理模块820和排序模块830。其中:确定模块810,用于确定满足搜索要求的种子账户;处理模块820,用于确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;排序模块830,用于将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
可选地,确定模块810,具体用于获取位于预定义的目标区域内的账户;将所述位于预定义的目标区域内的账户确定为种子账户。
可选地,确定模块810,具体用于获取预定义的目标区域或预定义的目标事件对应的至少一个群组作为种子群组,并将种子群组内的群成员账户确定为种子账户;或者获取参加目标事件话题的用户账户,并将参加目标事件话题的用户账户确定为种子账户。
可选地,本实施例提供的数据搜索装置,还包括:获取模块和剔除模块。
获取模块用于获取种子账户和关联账户的位置信息;剔除模块用于根据种子账户的位置信息剔除不在预定义的目标区域内的种子账户,并根据关联账户的位置信息剔除不在预定义的目标区域内的关联账户。
可选地,处理模块820在确定所述种子账户的至少一个关联账户时,具体用于获取所述种子账户对应的应用使用相关信息;根据所述应用使用相关信息确定至少一个关联账户;所述应用使用相关信息包括以下信息的任意一种或多种:账户关系信息,行为信息,所属群组信息。
可选地,处理模块820在根据所述应用使用相关信息确定至少一个关联账户时,具体用于根据应用使用相关信息筛选出属于满足关联要求的用户账户;将满足关联要求的用户账户确定为关联账户。
可选地,处理模块820在计算各关联账户的关联总分时,具体用于根据各关联账户的语种信息和位置信息计算各关联账户的第一得分;根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分;根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分;将各关联账户的第一得分,第二得分及第三得分进行求和运算,以获得对应的关联总分。
可选地,处理模块820在根据各关联账户的语种信息和位置信息计算各关联账户的第一得分时,具体用于确定各关联账户对应的个人信息中的位置信息,动态信息中的位置信息,动态信息中是否包含目标区域地点名称,预定义的目标区域匹配的语种信息,关联账户的语种信息;若确定某关联账户满足第一预设条件,则确定该关联账户的第一子得分为基于满足第一预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第一子得分值为零;所述第一预设条件为:所述关联账户对应的个人信息中的位置信息中的位置位于预定义的目标区域;若确定某关联账户满足第二预设条件,则确定该关联账户的第二子得分为基于满足第二预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第二子得分值为零;所述第二预设条件为:所述关联账户对应的动态信息中的位置信息中的位置位于预定义的目标区域;若确定某关联账户满足第三预设条件,则确定该关联账户的第三子得分为基于满足第三预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第三子得分值为零;所述第三预设条件为:预定义的目标区域匹配的语种为唯一语种,且所述关联账户的语种信息中的语种与所述目标区域的语种相同;若确定某关联账户满足第四预设条件,则确定该关联账户的第四子得分为基于满足第四预设条件的关联账户的数量与所有关联账户的数量的比值得到,否则确定该关联账户的第四子得分值为零;所述第四预设条件为:所述关联账户的动态信息中包含目标区域地点名字对应的位置定位于预定义的目标区域;将所述第一子得分,第二子得分,第三子得分及所述第四子得分进行求和运算,以获得第一得分。
可选地,处理模块820在根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分时,具体用于若确定某关联账户为基于种子账户的账户关系信息确定的账户,则确定该关联账户的第五子得分是基于种子账户的账户关系信息确定的至少一个第一关联账户中满足第五预设条件的关联账户的数量与所述至少一个第一关联账户的数量的比值得到的,所述满足第五预设条件的关联账户为:所述至少一个第一关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第五子得分为零;若确定某关联账户为基于种子账户的行为信息确定的账户,则确定该关联账户的第六子得分基于种子账户的行为信息确定的至少一个第二关联账户中满足第六预设条件的关联账户的数量与所述至少一个第二关联账户的数量的比值得到,所述满足第六预设条件的关联账户为:所述至少一个第二关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第六子得分为零;若确定某关联账户为基于种子账户的所属群组信息确定的账户,则确定该关联账户的第七子得分基于种子账户的所属群组信息确定的至少一个第三关联账户中满足第七预设条件的关联账户的数量与所述至少一个第三关联账户的数量的比值得到,所述满足第七预设条件的关联账户为:所述至少一个第三关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第七子得分为零;将所述第五子得分,第六子得分及第七子得分进行求和运算,以获得第二得分。
可选地,处理模块820在根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分时,具体用于若确定某关联账户为预设规模影响力的账户,则确定该关联账户的第三得分为基于各比值中的最小值得到的,否则确定该关联账户的第三得分为零。
应理解,图8所示的数据搜索装置800的具体工作方式及原理可参照前文结合图2至图7所示的任一方法实施例的相关描述,为了简洁,这里不再赘述。
图9为本发明第一实施例提供的电子设备的示意性框图。如图9所示,包括:至少一个处理器910;以及
与所述至少一个处理器910通信连接的存储器920;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器910执行,以使所述至少一个处理器910能够执行任意一个实施例提供的数据搜索方法。
示例性地,处理器910可用于确定满足搜索要求的种子账户;确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
可选地,该电子设备还可以包括至少一个存储器920,用于存储程序指令和/或数据。存储器920和处理器910耦合。本发明实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器910可能和存储器920协同操作。处理器910可能执行存储器920中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
可选地,该电子设备还可以包括通信接口930,用于通过传输介质和其它设备进行通信,从而用于电子设备中的装置可以和其它设备进行通信。所述通信接口930例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器910可利用通信接口930收发数据和/或信息,并用于实现图2至图7所示的任一对应的实施例中所述的数据搜索装置所执行的方法。
本发明实施例中不限定上述处理器910、存储器920以及通信接口930之间的具体连接介质。本发明实施例在图9中以处理器910、存储器920以及通信接口930之间通过总线940连接。总线940在图9中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
还应理解,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明还提供一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序被运行时,使得计算机执行图2至图7所示的任一所示实施例中的数据搜索方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)。当所述计算机程序被运行时,使得计算机执行图2至图7所示的任一所示实施例中的数据搜索方法。
应理解,本发明实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
还应理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本说明书中使用的术语“单元”、“模块”等,可用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本发明所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,各功能单元的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行所述计算机程序指令(程序)时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种数据搜索方法,其特征在于,包括:
确定满足搜索要求的种子账户;
确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;
将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
2.根据权利要求1所述的方法,其特征在于,所述确定满足搜索要求的种子账户,包括:
获取位于预定义的目标区域内的账户;
将所述位于预定义的目标区域内的账户确定为种子账户。
3.根据权利要求1所述的方法,其特征在于,所述确定满足搜索要求的种子账户,包括:
获取预定义的目标区域或预定义的目标事件对应的至少一个群组作为种子群组,并将种子群组内的群成员账户确定为种子账户;或者
获取参加目标事件话题的用户账户,并将参加目标事件话题的用户账户确定为种子账户。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取种子账户和关联账户的位置信息;
根据种子账户的位置信息剔除不在预定义的目标区域内的种子账户,并根据关联账户的位置信息剔除不在预定义的目标区域内的关联账户。
5.根据权利要求1所述的方法,其特征在于,所述确定所述种子账户的至少一个关联账户,包括:
获取所述种子账户对应的应用使用相关信息;
根据所述应用使用相关信息确定至少一个关联账户;
所述应用使用相关信息包括以下信息的任意一种或多种:账户关系信息,行为信息,所属群组信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述应用使用相关信息确定至少一个关联账户,包括:
根据应用使用相关信息筛选出属于满足关联要求的用户账户;
将满足关联要求的用户账户确定为关联账户。
7.根据权利要求5所述的方法,其特征在于,所述计算各关联账户的关联总分,包括:
根据各关联账户的语种信息和位置信息计算各关联账户的第一得分;
根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分;
根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分;
将各关联账户的第一得分,第二得分及第三得分进行求和运算,以获得对应的关联总分。
8.根据权利要求7所述的方法,其特征在于,所述根据各关联账户的语种信息和位置信息计算各关联账户的第一得分,包括:
确定各关联账户对应的个人信息中的位置信息,动态信息中的位置信息,动态信息中是否包含目标区域地点名称,预定义的目标区域匹配的语种信息,关联账户的语种信息;
若确定某关联账户满足第一预设条件,则确定该关联账户的第一子得分为基于满足第一预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第一子得分值为零;所述第一预设条件为:所述关联账户对应的个人信息中的位置信息中的位置位于预定义的目标区域;
若确定某关联账户满足第二预设条件,则确定该关联账户的第二子得分为基于满足第二预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第二子得分值为零;所述第二预设条件为:所述关联账户对应的动态信息中的位置信息中的位置位于预定义的目标区域;
若确定某关联账户满足第三预设条件,则确定该关联账户的第三子得分为基于满足第三预设条件的关联账户的数量与所有关联账户的数量的比值得到的,否则确定该关联账户的第三子得分值为零;所述第三预设条件为:预定义的目标区域匹配的语种为唯一语种,且所述关联账户的语种信息中的语种与所述目标区域的语种相同;
若确定某关联账户满足第四预设条件,则确定该关联账户的第四子得分为基于满足第四预设条件的关联账户的数量与所有关联账户的数量的比值得到,否则确定该关联账户的第四子得分值为零;所述第四预设条件为:所述关联账户的动态信息中包含目标区域地点名字对应的位置定位于预定义的目标区域;
将所述第一子得分,第二子得分,第三子得分及所述第四子得分进行求和运算,以获得第一得分。
9.根据权利要求8所述的方法,其特征在于,所述根据各关联账户对应的种子账户的应用使用信息计算各关联账户的第二得分,包括:
若确定某关联账户为基于种子账户的账户关系信息确定的账户,则确定该关联账户的第五子得分是基于种子账户的账户关系信息确定的至少一个第一关联账户中满足第五预设条件的关联账户的数量与所述至少一个第一关联账户的数量的比值得到的,所述满足第五预设条件的关联账户为:所述至少一个第一关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第五子得分为零;
若确定某关联账户为基于种子账户的行为信息确定的账户,则确定该关联账户的第六子得分基于种子账户的行为信息确定的至少一个第二关联账户中满足第六预设条件的关联账户的数量与所述至少一个第二关联账户的数量的比值得到,所述满足第六预设条件的关联账户为:所述至少一个第二关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第六子得分为零;
若确定某关联账户为基于种子账户的所属群组信息确定的账户,则确定该关联账户的第七子得分基于种子账户的所属群组信息确定的至少一个第三关联账户中满足第七预设条件的关联账户的数量与所述至少一个第三关联账户的数量的比值得到,所述满足第七预设条件的关联账户为:所述至少一个第三关联账户中满足第一预设条件、第二预设条件、第三预设条件和第四预设条件中的至少两项的账户,否则确定该关联账户的第七子得分为零;
将所述第五子得分,第六子得分及第七子得分进行求和运算,以获得第二得分。
10.根据权利要求7所述的方法,其特征在于,所述根据各关联账户是否为预设影响力的账户,确定各关联账户的第三得分,包括:
若确定某关联账户为预设规模影响力的账户,则确定该关联账户的第三得分为基于各比值中的最小值得到的,否则确定该关联账户的第三得分为零。
11.一种数据搜索装置,其特征在于,包括:
确定模块,用于确定满足搜索要求的种子账户;
处理模块,用于确定所述种子账户的至少一个关联账户并计算各关联账户的关联总分;
排序模块,用于将所述关联账户按照关联总分由高到低进行排序,并按照所述排序顺序依次确定每个关联账户的子关联账户,以按照排序顺序优先获取到与所述种子账户最具关联性的目标账户。
12.一种电子设备,其特征在于,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的方法。
14.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得所述计算机执行如权利要求1-10中任一项所述的方法。
CN202111053818.6A 2021-09-09 2021-09-09 数据搜索方法、装置、介质及产品 Pending CN113761391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053818.6A CN113761391A (zh) 2021-09-09 2021-09-09 数据搜索方法、装置、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053818.6A CN113761391A (zh) 2021-09-09 2021-09-09 数据搜索方法、装置、介质及产品

Publications (1)

Publication Number Publication Date
CN113761391A true CN113761391A (zh) 2021-12-07

Family

ID=78794197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053818.6A Pending CN113761391A (zh) 2021-09-09 2021-09-09 数据搜索方法、装置、介质及产品

Country Status (1)

Country Link
CN (1) CN113761391A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198875A1 (en) * 2001-06-20 2002-12-26 Masters Graham S. System and method for optimizing search results
CN105589966A (zh) * 2015-12-24 2016-05-18 中山大学深圳研究院 一种基于综合得分的好友推荐方法
US20170140060A1 (en) * 2015-11-17 2017-05-18 Spotify Ab System, methods and computer products for determining affinity to a content creator
CN107301181A (zh) * 2016-04-14 2017-10-27 腾讯科技(深圳)有限公司 账号推荐方法及装置
US20190087499A1 (en) * 2017-09-20 2019-03-21 Fujitsu Limited Identifying domain-specific accounts
CN110119442A (zh) * 2019-05-17 2019-08-13 北京思维造物信息科技股份有限公司 一种动态搜索方法、装置、设备及介质
CN110619095A (zh) * 2019-09-23 2019-12-27 北京字节跳动网络技术有限公司 排序方法及装置
US20200177698A1 (en) * 2018-12-02 2020-06-04 Leonid Zhavoronkov Method and system for determining validity of a user account and assessing the quality of relate accounts
CN111581521A (zh) * 2020-04-29 2020-08-25 北京达佳互联信息技术有限公司 群组成员的推荐方法、装置、服务器、存储介质及系统
CN112016005A (zh) * 2020-08-31 2020-12-01 重庆新申言科技有限公司 一种拓展人际关系的信息搜索处理方法、装置、可读存储介质及终端
CN113190748A (zh) * 2021-04-30 2021-07-30 北京达佳互联信息技术有限公司 账户推荐方法、装置、电子设备、计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198875A1 (en) * 2001-06-20 2002-12-26 Masters Graham S. System and method for optimizing search results
US20170140060A1 (en) * 2015-11-17 2017-05-18 Spotify Ab System, methods and computer products for determining affinity to a content creator
CN105589966A (zh) * 2015-12-24 2016-05-18 中山大学深圳研究院 一种基于综合得分的好友推荐方法
CN107301181A (zh) * 2016-04-14 2017-10-27 腾讯科技(深圳)有限公司 账号推荐方法及装置
US20190087499A1 (en) * 2017-09-20 2019-03-21 Fujitsu Limited Identifying domain-specific accounts
US20200177698A1 (en) * 2018-12-02 2020-06-04 Leonid Zhavoronkov Method and system for determining validity of a user account and assessing the quality of relate accounts
CN110119442A (zh) * 2019-05-17 2019-08-13 北京思维造物信息科技股份有限公司 一种动态搜索方法、装置、设备及介质
CN110619095A (zh) * 2019-09-23 2019-12-27 北京字节跳动网络技术有限公司 排序方法及装置
CN111581521A (zh) * 2020-04-29 2020-08-25 北京达佳互联信息技术有限公司 群组成员的推荐方法、装置、服务器、存储介质及系统
CN112016005A (zh) * 2020-08-31 2020-12-01 重庆新申言科技有限公司 一种拓展人际关系的信息搜索处理方法、装置、可读存储介质及终端
CN113190748A (zh) * 2021-04-30 2021-07-30 北京达佳互联信息技术有限公司 账户推荐方法、装置、电子设备、计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110766269A (zh) 一种任务分配方法、装置、可读存储介质及终端设备
CN109150971B (zh) 超级节点投票和选举方法、装置和网络节点
US20190259114A1 (en) System and method for quality based ranking of patents
US20180082372A1 (en) System and method for generating solutions using a recommendation engine
Wammes et al. Identifying and prioritizing lower value services from Dutch specialist guidelines and a comparison with the UK do-not-do list
US9311351B2 (en) Techniques to block records for matching
CN102446171A (zh) 基于加权平均点进率评测推广关键词质量度的方法与设备
CN111178069A (zh) 数据处理方法、装置、计算机设备及存储介质
US20140358803A1 (en) Referral management system
US20150302088A1 (en) Method and System for Providing Personalized Content
KR102086936B1 (ko) 사용자 데이터 공유 방법 및 디바이스
CN108510141B (zh) 保险数据处理方法及装置
CN109345081B (zh) 一种数据采集方法、装置及电子设备
CN113761391A (zh) 数据搜索方法、装置、介质及产品
CN108920601A (zh) 一种数据匹配方法及装置
CN110990714B (zh) 一种用户行为意图预测方法和装置
CN105677813A (zh) 一种信息展示方法及装置
CN112149011A (zh) 热度排行榜的更新方法、装置、服务器及计算机存储介质
CN109446427A (zh) 一种信息推荐方法及装置
Stock Balancing multiple and conflicting allocation goals: a logical path forward
CN111694993B (zh) 一种创建数据索引的方法、装置、电子设备及介质
CN114757534A (zh) 一种智能考勤排班与考评方法、考勤排班装置和系统
CN110008347B (zh) 黑名单传导扩充方法、装置、计算机设备和存储介质
CN110334909B (zh) 一种风险管控方法、装置及设备
Matsoukas et al. Modeling the Impact of Prehospital Triage on a True-Life Drip and Ship Mechanical Thrombectomy Urban Patient Cohort

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination