CN108376146A - 基于域的影响评分 - Google Patents
基于域的影响评分 Download PDFInfo
- Publication number
- CN108376146A CN108376146A CN201810061246.8A CN201810061246A CN108376146A CN 108376146 A CN108376146 A CN 108376146A CN 201810061246 A CN201810061246 A CN 201810061246A CN 108376146 A CN108376146 A CN 108376146A
- Authority
- CN
- China
- Prior art keywords
- domain
- score
- influence
- domains
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Abstract
本发明涉及基于域的影响评分。本发明描述了创建可用于对搜索结果进行排名或排序的域影响分数的方法和系统。在一个实施方案中,域影响评分系统通过预选该域的子组并将初始影响分数分配给仅子组中的域,而所有其他域具有为零的初始影响分数而开始。然后对到页面的链接进行计数,以更新每个域的影响分数。此外,可使用一个或多个黑名单来修改影响分数的更新。
Description
本专利申请要求2017年1月30日提交的美国临时专利申请62/452,239的权益,该专利申请以引用方式并入本文。
背景技术
通常情况下,搜索存储在一个或多个数据处理系统中的信息会在搜索结果中产生非常大的一组项目。例如,在互联网上搜索信息(例如使用Bing或Yahoo或Google进行的web搜索)通常产生在搜索结果中包括成千上万项目(例如网页)的搜索结果列表。为了使搜索结果对用户更有帮助,用于返回搜索结果的数据处理系统将基于使该列表以特定次序显示项目(例如网页)的排名或分数对结果进行排名或排序。用于对搜索结果中的项目进行排序的项目分数可基于提供该项目的域的影响分数,并且结果中的每个项目可具有用于对搜索结果内的项目进行排名或排序的影响分数。用于返回搜索结果的系统使用基于对到域的链接的分析而开发的这些影响分数。通过以下方法来开发影响分数:为提供项目诸如网页的域的语料库中的每个域指定默认的最小影响分数,然后基于到域的链接的数量来更新默认的最小分数。在更新影响分数的过程期间,链接到或指向另一域的域将贡献或捐赠其影响分数的一部分给另一域。更新影响分数的最终结果产生数据集,其中所有域具有正(非零)影响分数,其中一些域具有比其他域显著更高的影响分数。
发明内容
在一个实施方案中,创建影响分数的过程可通过仅为所有域的子组初始化域影响评分系统而开始;具体地讲,可通过将预先确定的初始影响分数分配给子组中的每个域(并且可手动将这些域选择为重要的“可信”域)来初始化该系统,而所有其他域具有为零的初始影响分数。例如,如果子组中存在100个域(其中每个域都被挑选为重要的可信域),则这100个域中的每个域将被初始化具有为0.01的初始影响分数(IS),而所有其他数百万的域将被初始化具有为0.0的初始IS。在该初始化之后,可使用已知算法以基于从第一域中的一个网页到第二域中的网页的链接来更新所有域的影响分数;这些算法可“捐赠”或贡献第一域的影响分数的一部分给第二域。为大多数域设置初始IS=0的结果是:这些域(其具有初始IS=0)仅可通过来自得到或具有非零IS的域的“捐赠”或贡献来得到非零IS。
一个实施方案中用于创建可用于对搜索结果进行排名的域影响分数的方法可包括以下操作:获得由一组域托管的页面的语料库,这些页面中的至少一些页面包括到其他页面的链接;通过将预先确定的初始影响分数(诸如一组一个或多个预先确定的初始影响分数)分配给该组域中的域的预选子组中的每个域来初始化域影响评分系统,使得预选子组中的每个域通过具有大于零的预先确定的初始影响分数来开始用于导出更新的影响分数的过程,而所有其他域通过具有零初始影响分数来开始该过程;并通过对到语料库中的页面的链接进行计数来更新所有域的初始分数。在一个实施方案中,页面可以是网页,并且该组域中的域可通过由实体拥有或控制的一组网址或统一资源标识符(URI)限定。在一个实施方案中,语料库可通过抓取互联网以获得并存储该语料库。在一个实施方案中,每个页面可以是在指定的URI处的分立的一组内容,并且基于特征诸如可信度和/或重要性等,可至少部分地通过人为选择或判断来预选域的预选子组。在一个实施方案中,不在该预选子组中的其他域仅通过来自得到或具有非零影响分数的域的链接来获取非零影响分数值。在一个实施方案中,影响分数的更新创建可被保存并用于对搜索结果进行排名或排序的最终影响分数。
在一个实施方案中,方法还可包括生成域的黑名单,其中在更新所有域的影响分数的过程期间使用该黑名单,并且该黑名单包括列入黑名单的域的列表。更新影响分数的过程可包括考虑到来往于列入黑名单的域的链接以便计算未列入黑名单的其他域的影响分数的技术。例如,在一个实施方案中,在更新影响分数的过程期间,从列入黑名单的域到另一域的链接不增加另一域的影响分数。在另一个实施方案中,在更新影响分数的过程期间,从未列入黑名单的域到列入黑名单的域的链接导致负分被添加到未列入黑名单的域的影响分数值。
根据某些实施方案的方法还可与其他域不同地处理内容发布域,使得内容发布域内的作者被视为与内容发布域的主机分开的域。在一个实施方案中,内容发布域可包括社交媒体或社交网络网站中的至少一个。
本文所述的各种方法可由一个或多个数据处理系统执行,数据处理系统获得或创建语料库,然后使用语料库内的链接来导出影响分数,并且基于最终影响分数来创建域的最终排名。在一个实施方案中,随着项目诸如网页的语料库随时间改变,可随时间重复创建影响分数的过程。
本文所述的方法和系统可通过数据处理系统诸如服务器计算机、台式计算机和其他数据处理系统以及其他消费电子设备来实现。本文所述的方法和系统还可由执行存储在一个或多个非暂态机器可读介质中的可执行的计算机程序指令的一个或多个数据处理系统来实现,该程序指令在被执行时使所述一个或多个数据处理系统执行本文所述的一个或多个方法。因此,本文所述的实施方案可包括方法、数据处理系统和非暂态机器可读介质。
以上概述不包括本公开的所有实施方案的详尽列表。所有系统和方法可根据以上概述的各个方面和实施方案以及以下具体实施方式中所公开的那些的所有合适的组合来实践。
附图说明
本发明以举例的方式进行说明并且不限于附图的图形,在附图中类似的标号指示类似的元件。
图1示出了根据本文所述的一个或多个实施方案的可用的预选结果的示例。
图2示出了根据本文所述的一个或多个实施方案可产生域影响分数的系统的示例。
图3是示出根据本文所述的一个或多个实施方案的方法的流程图。
图4示出了域的语料库中的域以及域之间的链接的示例。
图5是示出根据本文所述的一个或多个实施方案在创建域影响分数的过程期间生成的影响分数的图表。
图6示出了根据本文所述的一个实施方案的域的语料库中的若干域以及这些域之间的链接的示例。
图7示出了根据本文所述的一个实施方案的域的语料库内的一组域以及这些域之间的链接的示例。
图8示出了根据本文所述的一个实施方案的社交网络域和该域内的子域的示例。
图9示出了可与本文所述的一个或多个实施方案一起使用的数据处理系统的示例。
具体实施方式
将参考以下讨论的细节来描述各种实施方案和方面,并且附图将对各种实施方案进行说明。以下说明书和附图为例示性的,并且不应被理解为限制性的。描述了许多具体细节,以提供对各个实施方案的全面理解。然而,在某些实例中,熟知的或常规的细节并未被描述,以便提供对实施方案的简明论述。
在本说明书中提到的“一个实施方案”或“实施方案”是指结合该实施方案所述的特定特征、结构或特性可被包括在至少一个实施方案中。在本说明书中的各个位置出现短语“在一个实施方案中”不一定都是指同一个实施方案。在随后的附图中所描绘的过程由包括硬件(例如,电路、专用逻辑部件等等)、软件或这两者的组合的处理逻辑部件来执行。虽然下文按照某些顺序操作来描述该过程,但应当理解,所描述的某些操作可以不同的顺序执行。此外,某些操作也可并行执行而非按顺序执行。
本文所述的实施方案可创建可用于对搜索结果进行排名或排序的域影响分数。在一个实施方案中,域影响评分系统可通过预选所述域的子组并将初始影响分数分配给仅所述子组中的所述域,而所有其他域具有为零的初始影响分数而开始。然后,可对到页面的链接进行计数,以更新每个域的影响分数,从而导出域的最终影响分数。在一个实施方案中,这种方法可将垃圾邮件域对搜索结果的影响降低到其在一些实施方案中从未得到非零影响分数值的程度。
图1示出了根据影响分数创建过程可如何开始的一个实施方案的示例。如图1所示的预选结果10示出了结果10中可存在三组域。组12表示预选的被视为可信的和/或重要的一组域。在一个实施方案中,这些域可至少部分地基于人为判断来手动选择,并且可以是一个实施方案中域的整个全集的非常小的子组。一个实施方案中的组12中的域可接收可在组12中的域之间均匀或不均匀分布的预先确定的初始影响分数。在一个实施方案中,所有其他域将接收为零的初始影响分数,并且这包括组14中未被选择到组12中的域以及在创建域可提供的网页或其他项目的语料库之前当该过程开始时可能未知的域。组16表示列入黑名单的域的黑名单,这些列入黑名单的域被认为是例如垃圾邮件域或被视为不期望在搜索结果中列出的其他域。尽管本领域已知的用于识别此类列入黑名单的域的技术也可用于生成域的黑名单,但也可基于人为判断来手动选择组16。
图2示出了一个或多个数据处理系统的示例,该一个或多个数据处理系统可用于根据可能存在的多个域来创建项目诸如网页的语料库。在一个实施方案中,页面可以是网页,并且该组域中的域可通过由实体拥有或控制的一组网址或统一资源标识符限定。在一个实施方案中,每个页面或项目是在指定的统一资源标识符处的分离的一组内容。耦接到互联网104的web爬虫103可使用常规已知的技术来抓取互联网,以获得来自能够通过互联网104访问的所有域(诸如图2所示的域105)的页面。在一个实施方案中,web爬虫103创建语料库107,该语料库可包括描述所抓取的每个域以及域之间的链接的数据结构,使得处理数据结构以确定从其他域到特定域的链接的数量是可能的。在web爬虫103完成抓取互联网以创建语料库107的过程之后,语料库107可被存储在一个或多个数据库中。然后,影响评分系统109可处理语料库107内的数据结构,以基于最终影响分数来产生域的排名,该排名被示出为排名114。影响评分系统109可使用图3所示的方法结合如图2所示的预选可信域111和黑名单112。在一个实施方案中,预选可信域111可以是图1所示的组12,并且黑名单112可以是图1中示出为组16的黑名单。
现在参考图3,根据本文所述的一个或多个实施方案的方法可以操作201开始,在该操作中,一个或多个数据处理系统获得页面诸如由一组域托管的网页的语料库。在接着操作201进行的操作203中,确定该组域的子组。在一个实施方案中,该子组可以是可信域的手动选择的子组,诸如图1所示的组12。任选地,操作203还可包括确定一组列入黑名单的域以创建黑名单,诸如图1中由组16表示的黑名单。然后在操作205中,域影响评分系统(诸如图2所示的系统109)通过将预先确定的初始影响分数分配给域的子组中的每个域而所有其他域接收为零的初始影响分数来初始化影响评分过程。在一个实施方案中,针对子组中的域的预先确定的初始影响分数可以是针对子组内的所有域的相同值。在另一个实施方案中,可通过使用人为判断或其他技术来在子组中的域之间不均匀地分配初始影响分数,以跨域的子组中的域不均匀地散布初始影响分数。短语“预先确定的初始影响分数”将被理解为包括初始影响分数的均匀分布或域的子组中的域之间的初始影响分数的不均匀分布。在任一种情况下,不在子组中的所有其他域都以为零的初始影响分数来开始创建影响分数的过程。
在操作205之后,操作207可用于通过对到域的链接进行计数来处理该语料库,以更新每个域的影响分数。操作207可使用本领域已知的技术以通过更新在操作205中创建的初始影响分数来创建影响分数。另外,操作207也可使用结合图6、图7和图8所述的方法来更新影响分数。图4和图5示出了在一个或多个实施方案中用于更新每个域的影响分数的过程。在完成操作207之后,可在操作209中保存每个域的最终影响分数值,并且通过使用域的影响分数来对搜索结果进行排名或排序,这些最终影响分数值可用于对搜索结果进行排名或排序。
图4示出了可如何基于页面的语料库中到域的链接来更新影响评分的示例。该组域301包括四个域305,307,309和311。域309具有两个链接,其中一个链接到或指向域305,并且其中另一个指向或链接到域311。域305具有来自另一域的一个链接和指向其他域(域307和域311)的两个链接。域307具有指向另一域(域311)的链接,并且具有指向它的链接(来自域305的链接)。计算影响分数的过程可对到域中的页面的链接的数量进行计数,并使用该计数来修改或更新初始影响分数。如果域309具有非零初始影响分数,则由于如图4所示的捐赠或贡献给两个其他域的两个链接,其最终初始影响分数将被减小。如果域309具有为零的初始影响分数,则其最终影响分数可保持为零。在一个实施方案中,如果域305具有为零的初始影响分数并且域309也具有为零的初始影响分数,则域305和域309可具有为零的最终影响分数。另一方面,其他域307和域311可至少借助于来自其他域的链接而得到非零影响分数。在一个实施方案中,基于具有三个到该域的链接,域311可得到影响分数的至少一个值。类似地,域307可在影响评分系统中得到至少一个链接值的最终影响分数或该一个链接值的表示。图4还示出了包括域321,323,325和327的一组垃圾邮件域303,其中每个域包括如图4所示的至少一个链接。在一个实施方案中,垃圾邮件域可被列入黑名单,并且一般来讲具有零初始影响分数。图5在行405中示出了列入黑名单的域的示例,在一个实施方案中,该列入黑名单的域在影响评分过程中以零初始影响分数开始并且以为零的最终影响分数结束。行401示出了在预选的该组域(诸如图1所示的组12)内的域的示例。行401中的该域以非零的初始影响分数开始,并得到非零的最终影响分数。列“中间”示出了在完成影响评分过程之前行401,403和405中的这三个域中的每个域的影响分数值。可以看出,在一个实施方案中,基于例如图7所示的方法,中间影响分数值高于最终影响分数值是可能的。行403示出了以为零的初始影响分数开始,但是由于来自以非零影响分数开始或得到非零影响分数的其他域的链接而得到非零影响分数的域的示例。
图6示出了当该方法使用包括列入黑名单的域(诸如列入黑名单的域501)的黑名单时在计算最终影响分数的过程期间可使用的方法。在图6所示的示例中,来自列入黑名单的域(列入黑名单的域501)的链接不会增加域503的影响分数。换句话讲,从列入黑名单的域到域(诸如域503)的链接不会增加域503的影响分数。因此,域503的影响分数具有基于两个到该域的链接(来自未列入黑名单的域509和域511)的值。因此,在一个实施方案中,来自列入黑名单的域的链接不包括在对指向特定域的链接的计数中。
图7示出了当使用域的黑名单计算影响分数时可使用的另一技术的示例。在图7所示的示例,域601具有到列入黑名单的域603的链接。另外,三个链接(来自域605,607和609)指向或链接到域601。在一个实施方案中,如果域603不是列入黑名单的域,则域601将具有包括表示到域601的三个链接的值的影响分数。然而,因为域603是列入黑名单的域,所以来自域601的链接被视为相对于域601的影响分数的负值。具体地讲,在一个实施方案中,从未列入黑名单的域601到列入黑名单的域(诸如列入黑名单的域603)的链接将导致负分被添加到域601的影响分数,由此减小域601的累积影响分数。在一个实施方案中,每个域都可具有影响分数,该影响分数是由到列入黑名单的域的链接造成的传统影响分数值和负分值两者的线性叠加。
通过使用初始化操作诸如图3所示的操作205以及关于图6和图7所述的技术,最小化或消除垃圾邮件域和其他不期望的域的影响分数是可能的,这可提供改善的搜索结果,所述改善的搜索结果可被看作比传统技术更安全且更可靠。
图8示出了可与本文所述的一个或多个实施方案一起使用的另一技术。图8所示的方法基于社交网络或社交媒体域的不同作者或其他贡献者而将社交网络或社交媒体域划分为域的子组。例如,Facebook域中的每个作者或Twitter域中的每个作者可被视为与主机域(例如,Facebook域)分开且不同并且与同一社交网络域中的其他作者分开且不同的独立域。作者是创作子域中的内容或对其做出贡献的任何人。在图8所示的情况下,社交网络域701承载各种不同的作者,如作者703,705和707所示,其中每个作者在托管内容的社交网络域上发布(例如贡献或创作)内容。例如,作者703可在Facebook域的页面或壁上发布内容。这些作者703,705和707中的每个作者都被视为分开且不同的域并使用例如图3所示的方法如本文所述地进行处理。另外,操作706内使用的方法可采用图6和图7所示的技术结合图8所示的细分。例如,一个特定的作者可被包括在域的子组(例如,组12)中,而另一作者可被列入黑名单并且被列出在组16中。
本文所述的实施方案可适用于各种不同类型的数据,包括例如互联网中的网页、社交网络中的页面、社交媒体中的内容,并且甚至适用于在可能不是web浏览器应用程序(app)的app内进行搜索。例如,许多app可提供在该app或应用程序内进行搜索,并且可使用本文所述的技术对这些搜索结果进行排名,以提供在该应用程序内使用的更安全或更可靠的一组搜索结果。
本文所述的系统和方法可在各种不同的数据处理系统和设备中实现,所述数据处理系统和设备包括通用计算机系统、专用计算机系统,或者通用计算机系统和专用计算机系统的混合。可使用本文所述的方法中的任一种方法的示例性数据处理系统包括服务器系统、台式计算机、膝上型计算机、嵌入式电子设备或消费电子设备。
图9是根据一个实施方案的数据处理系统硬件的框图。需注意,虽然图9示出了可并入服务器系统或其他计算机系统的数据处理系统的各种部件,但其并不旨在表示将这些部件互连的任何特定的构造或方式,因为此类细节与本发明并无密切关系。还应理解,也可将具有比图9所示更少部件或更多部件的其他类型的数据处理系统与本发明一起使用。
如图9所示,数据处理系统包括用于将系统的各种部件互连的一条或多条总线1309。一个或多个处理器1303如本领域中所公知地耦接到一条或多条总线1309。存储器1305可以是DRAM或非易失性RAM,或者可以是闪存存储器或其他类型的存储器或此类存储器设备的组合。该存储器使用本领域已知的技术耦接到一条或多条总线1309。数据处理系统还可包括非易失性存储器1307,该非易失性存储器可以是硬盘驱动器或闪存存储器,或磁性光驱或磁性存储器,或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。非易失性存储器1307和存储器1305均使用已知的接口及连接技术耦接到一条或多条总线1309。显示控制器1322耦接到一条或多条总线1309,以便接收将显示在显示设备1323上的显示数据。显示设备1323可包括用于提供触摸屏的集成式触摸输入。数据处理系统还可包括一个或多个输入/输出(I/O)控制器1315,该I/O控制器为一个或多个I/O设备提供接口,所述一个或多个I/O设备为诸如一个或多个鼠标、触摸屏、触摸板、操纵杆和其他输入设备(包括本领域已知的那些),以及输出设备(例如,扬声器)。输入/输出设备1317如本领域中所公知地通过一个或多个I/O控制器1315耦接。
虽然图9示出了非易失性存储器1307和存储器1305直接地而不是通过网络接口耦接到一条或多条总线,但应当理解,本发明可利用远离系统的非易失性存储器,诸如通过网络接口诸如调制解调器或以太网接口耦接到数据处理系统的网络存储设备。如本领域所熟知的,总线1309可通过各种网桥、控制器和/或适配器彼此连接。在一个实施方案中,I/O控制器1315包括用于控制USB外围设备的USB(通用串行总线)适配器、用于兼容IEEE 1394的外围设备的IEEE 1394控制器,或用于控制Thunderbolt外围设备的Thunderbolt控制器中的一者或多者。在一个实施方案中,一个或多个网络设备1325可耦接到总线1309。一个或多个网络设备1325可为有线网络设备(例如,以太网)或无线网络设备(例如,WI-FI、蓝牙)。
通过本描述将显而易见的是,本发明的各方面可至少部分地在软件中体现。也就是说,响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列,可在数据处理系统中实施这些技术。在各种实施方案中,可将硬连线的电路与软件指令结合使用来实施本发明。因此,这些技术不限于硬件电路与软件的任何指定组合,亦不限于由数据处理系统执行的指令的任何特定源。此外,应当理解,在描述移动设备或手持设备的情况下,这种描述涵盖移动设备(例如膝上型电脑设备、平板设备)、手持设备(例如智能电话)以及适合用于可穿戴电子设备中的嵌入式系统。
在上述说明书中,已描述特定示例性实施方案。显而易见的是,可在不脱离以下权利要求所给出的更广泛的实质和范围的情况下对那些实施方案作出各种修改。因此,说明书和附图应被认为是出于示例性目的而非限制目的。
Claims (21)
1.一种用于创建能够用于对搜索结果进行排名的域影响分数的方法,所述方法包括:
获得由一组域托管的页面的语料库,所述页面中的至少一些页面包括到其他页面的链接;
通过将预先确定的初始影响分数分配给所述一组域中的域的预选子组中的每个域来初始化域影响评分系统,使得所述预选子组中的每个域通过具有大于零的所述预先确定的初始影响分数来开始用于导出更新的影响分数的过程,而所有其他域通过具有零初始影响分数来开始所述过程;
通过对到所述语料库中的所述页面的所述链接进行计数来更新所有域的影响分数。
2.根据权利要求1所述的方法,其中所述页面是网页,并且所述一组域中的域通过由实体拥有或控制的一组网址或统一资源标识符来限定。
3.根据权利要求2所述的方法,所述方法包括:
对互联网进行爬取以获得并存储所述语料库。
4.根据权利要求1所述的方法,其中每个页面是在指定的URI(统一资源标识符)处的分离的一组内容,并且其中至少部分地通过人的选择来预选域的所述预选子组。
5.根据权利要求4所述的方法,其中不在域的所述预选子组中的其他域仅通过来自得到或具有非零影响分数的域的链接来获取非零影响分数值;并且其中所述更新创建被保存并用于对搜索结果进行排名的最终影响分数。
6.根据权利要求5所述的方法,其中所述方法还包括:
生成域的黑名单,在更新所有域的影响分数的过程期间使用所述黑名单,并且所述黑名单包括列入黑名单的域的列表。
7.根据权利要求6所述的方法,其中在所述更新期间,从列入黑名单的域到另一域的链接不增加所述另一域的影响分数值。
8.根据权利要求6所述的方法,其中在所述更新期间,从未列入黑名单的域到列入黑名单的域的链接导致负分被加到所述未列入黑名单的域的影响分数值。
9.根据权利要求1所述的方法,其中内容发布域内的作者被视为与所述内容发布域的主机分开的域。
10.根据权利要求9所述的方法,其中所述内容发布域包括社交媒体或社交网络网站中的至少一者。
11.一种存储指令的非暂态机器可读介质,所述指令在由一个或多个数据处理系统执行时使所述一个或多个系统执行用于创建能够用于对搜索结果进行排名的域影响分数的方法,所述方法包括:
获得由一组域托管的页面的语料库,所述页面中的至少一些页面包括到其他页面的链接;
通过将预先确定的初始影响分数分配给所述一组域中的域的预选子组中的每个域来初始化域影响评分系统,使得所述预选子组中的每个域通过具有大于零的所述预先确定的初始影响分数来开始用于导出更新的影响分数的过程,而所有其他域通过具有零初始影响分数来开始所述过程;
通过对到所述语料库中的所述页面的所述链接进行计数来更新所有域的影响分数。
12.根据权利要求11所述的介质,其中所述页面是网页,并且所述一组域中的域通过由实体拥有或控制的一组网址或统一资源标识符来限定。
13.根据权利要求12所述的介质,所述方法包括:
对互联网进行爬取以获得并存储所述语料库。
14.根据权利要求11所述的介质,其中每个页面是在指定的URI(统一资源标识符)处的分离的一组内容,并且其中至少部分地通过人的选择来预选域的所述预选子组。
15.根据权利要求14所述的介质,其中不在域的所述预选子组中的其他域仅通过来自得到或具有非零影响分数的域的链接来获取非零影响分数值;并且其中所述更新创建被保存并用于对搜索结果进行排名的最终影响分数。
16.根据权利要求15所述的介质,其中所述方法还包括:
生成域的黑名单,在更新所有域的影响分数的过程期间使用所述黑名单,并且所述黑名单包括列入黑名单的域的列表。
17.根据权利要求16所述的介质,其中在所述更新期间,从列入黑名单的域到另一域的链接不增加所述另一域的影响分数值。
18.根据权利要求16所述的介质,其中在所述更新期间,从未列入黑名单的域到列入黑名单的域的链接导致负分被加到所述未列入黑名单的域的影响分数值。
19.根据权利要求11所述的介质,其中内容发布域内的作者被视为与所述内容发布域的主机分开的域。
20.根据权利要求19所述的介质,其中所述内容发布域包括社交媒体或社交网络网站中的至少一者。
21.一种系统,包括:
一个或多个处理器;和
存储器,其上存储有计算机指令,所述计算机指令在由所述一个或多个处理器执行时实现根据权利要求1至10中任一项所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762452239P | 2017-01-30 | 2017-01-30 | |
US62/452,239 | 2017-01-30 | ||
US15/814,212 US10872088B2 (en) | 2017-01-30 | 2017-11-15 | Domain based influence scoring |
US15/814,212 | 2017-11-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108376146A true CN108376146A (zh) | 2018-08-07 |
CN108376146B CN108376146B (zh) | 2022-03-18 |
Family
ID=60673801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810061246.8A Active CN108376146B (zh) | 2017-01-30 | 2018-01-23 | 基于域的影响评分 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10872088B2 (zh) |
EP (1) | EP3355208A1 (zh) |
CN (1) | CN108376146B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717112A (zh) * | 2019-10-22 | 2020-01-21 | 山东健康医疗大数据有限公司 | 一种爬取社交网络数据的方法 |
CN113536086A (zh) * | 2021-06-30 | 2021-10-22 | 北京百度网讯科技有限公司 | 模型训练方法、账号评分方法、装置、设备、介质和产品 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872088B2 (en) | 2017-01-30 | 2020-12-22 | Apple Inc. | Domain based influence scoring |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758248A (zh) * | 2004-10-05 | 2006-04-12 | 微软公司 | 用于提供个性化搜索和信息访问的系统、方法和接口 |
US20080086467A1 (en) * | 2006-10-10 | 2008-04-10 | Microsoft Corporation | Ranking Domains Using Domain Maturity |
CN101526956A (zh) * | 2009-03-30 | 2009-09-09 | 清华大学 | 基于内容引用的网页搜索结果排序方法 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级系统 |
US20130014253A1 (en) * | 2011-07-06 | 2013-01-10 | Vivian Neou | Network Protection Service |
CN103259805A (zh) * | 2013-06-09 | 2013-08-21 | 中国科学院计算技术研究所 | 基于用户评价的域名访问控制方法及系统 |
CN104156457A (zh) * | 2014-08-19 | 2014-11-19 | 浪潮(北京)电子信息产业有限公司 | 一种基于MapReduce框架的网页排序方法和系统 |
US20160171115A1 (en) * | 2014-12-12 | 2016-06-16 | Go Daddy Operating Company, LLC | Systems and methods for domain inventory index generation from disparate sets |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US7925967B2 (en) * | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US7130861B2 (en) * | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
US7716199B2 (en) | 2005-08-10 | 2010-05-11 | Google Inc. | Aggregating context data for programmable search engines |
US7660791B2 (en) | 2005-02-28 | 2010-02-09 | Microsoft Corporation | System and method for determining initial relevance of a document with respect to a given category |
US20070067282A1 (en) | 2005-09-20 | 2007-03-22 | Microsoft Corporation | Domain-based spam-resistant ranking |
US7711732B2 (en) | 2006-04-21 | 2010-05-04 | Yahoo! Inc. | Determining related terms based on link annotations of documents belonging to search result sets |
ITMI20061897A1 (it) | 2006-10-03 | 2008-04-04 | Pointer S R L | Sistemi e metodi per classificare risultati di motori di ricerca |
US20080172738A1 (en) * | 2007-01-11 | 2008-07-17 | Cary Lee Bates | Method for Detecting and Remediating Misleading Hyperlinks |
US7975301B2 (en) * | 2007-03-05 | 2011-07-05 | Microsoft Corporation | Neighborhood clustering for web spam detection |
US9348912B2 (en) * | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
JP5640015B2 (ja) | 2008-12-01 | 2014-12-10 | トプシー ラブズ インコーポレイテッド | 計算された評判又は影響度スコアに基づくランキング及び選択エンティティ |
US9280597B2 (en) | 2009-12-01 | 2016-03-08 | Apple Inc. | System and method for customizing search results from user's perspective |
US8826444B1 (en) * | 2010-07-09 | 2014-09-02 | Symantec Corporation | Systems and methods for using client reputation data to classify web domains |
US20120066359A1 (en) | 2010-09-09 | 2012-03-15 | Freeman Erik S | Method and system for evaluating link-hosting webpages |
US9495462B2 (en) * | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9935910B2 (en) | 2012-12-21 | 2018-04-03 | Google Llc | Recipient location aware notifications in response to related posts |
US20140195518A1 (en) | 2013-01-04 | 2014-07-10 | Opera Solutions, Llc | System and Method for Data Mining Using Domain-Level Context |
WO2014167516A1 (en) * | 2013-04-11 | 2014-10-16 | Brandshield Ltd. | Device, system, and method of protecting brand names and domain names |
CN105247507B (zh) | 2013-05-31 | 2018-11-02 | 企业服务发展公司有限责任合伙企业 | 用于确定品牌的影响力得分的方法、系统和存储介质 |
WO2014195958A1 (en) | 2013-06-03 | 2014-12-11 | Hewlett-Packard Development Company, L.P. | Influence score of a social media domain |
US9679558B2 (en) * | 2014-05-15 | 2017-06-13 | Microsoft Technology Licensing, Llc | Language modeling for conversational understanding domains using semantic web resources |
US9852224B2 (en) * | 2014-07-03 | 2017-12-26 | Google Llc | Promoting preferred content in a search query |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
US9703870B2 (en) | 2014-11-05 | 2017-07-11 | Facebook, Inc. | Social-based optimization of web crawling for online social networks |
US10872088B2 (en) | 2017-01-30 | 2020-12-22 | Apple Inc. | Domain based influence scoring |
-
2017
- 2017-11-15 US US15/814,212 patent/US10872088B2/en active Active
- 2017-12-18 EP EP17208018.6A patent/EP3355208A1/en not_active Withdrawn
-
2018
- 2018-01-23 CN CN201810061246.8A patent/CN108376146B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758248A (zh) * | 2004-10-05 | 2006-04-12 | 微软公司 | 用于提供个性化搜索和信息访问的系统、方法和接口 |
US20080086467A1 (en) * | 2006-10-10 | 2008-04-10 | Microsoft Corporation | Ranking Domains Using Domain Maturity |
CN101526956A (zh) * | 2009-03-30 | 2009-09-09 | 清华大学 | 基于内容引用的网页搜索结果排序方法 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级系统 |
US20130014253A1 (en) * | 2011-07-06 | 2013-01-10 | Vivian Neou | Network Protection Service |
CN103259805A (zh) * | 2013-06-09 | 2013-08-21 | 中国科学院计算技术研究所 | 基于用户评价的域名访问控制方法及系统 |
CN104156457A (zh) * | 2014-08-19 | 2014-11-19 | 浪潮(北京)电子信息产业有限公司 | 一种基于MapReduce框架的网页排序方法和系统 |
US20160171115A1 (en) * | 2014-12-12 | 2016-06-16 | Go Daddy Operating Company, LLC | Systems and methods for domain inventory index generation from disparate sets |
Non-Patent Citations (2)
Title |
---|
DEPIN CHEN 等: "Knowledge transfer for cross domain learning to rank", 《SPRINGER》 * |
张砚明: "基于链接结构分析的web页面排序算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717112A (zh) * | 2019-10-22 | 2020-01-21 | 山东健康医疗大数据有限公司 | 一种爬取社交网络数据的方法 |
CN113536086A (zh) * | 2021-06-30 | 2021-10-22 | 北京百度网讯科技有限公司 | 模型训练方法、账号评分方法、装置、设备、介质和产品 |
CN113536086B (zh) * | 2021-06-30 | 2023-07-14 | 北京百度网讯科技有限公司 | 模型训练方法、账号评分方法、装置、设备、介质和产品 |
Also Published As
Publication number | Publication date |
---|---|
US20180217992A1 (en) | 2018-08-02 |
CN108376146B (zh) | 2022-03-18 |
US10872088B2 (en) | 2020-12-22 |
EP3355208A1 (en) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674314B (zh) | 语句识别方法及装置 | |
US9710455B2 (en) | Feature text string-based sensitive text detecting method and apparatus | |
US9165089B2 (en) | Presenting unique search result contexts | |
US9015657B2 (en) | Systems and methods for developing and delivering platform adaptive web and native application content | |
US20170337449A1 (en) | Program, system, and method for determining similarity of objects | |
US20170193110A1 (en) | Distributed system for large volume deep web data extraction | |
US20150193863A1 (en) | Method and system for searching and displaying product images | |
TW201333838A (zh) | 用於狀態機中資料分析之系統與方法 | |
CN108376146A (zh) | 基于域的影响评分 | |
CN108415941A (zh) | 一种网页爬虫方法、装置以及电子设备 | |
US20180307787A1 (en) | Accelerating particle-swarm algorithms | |
CN108096833B (zh) | 基于级联神经网络的体感游戏控制方法及装置、计算设备 | |
US9772765B2 (en) | User interface for recommended alternative search queries | |
CN107341181B (zh) | 搜索推荐方法、装置、计算机可读存储介质及计算机设备 | |
CN111523021B (zh) | 一种信息处理系统及其执行的方法 | |
CN113411645B (zh) | 信息推荐方法及装置、电子设备和介质 | |
CN103577547B (zh) | 网页类型识别方法及装置 | |
US20110078635A1 (en) | Relationship map generator | |
CN107392316B (zh) | 网络训练方法、装置、计算设备及计算机存储介质 | |
US11468125B2 (en) | Resource search method and related product | |
CN111177479A (zh) | 获取关系网络图中节点的特征向量的方法以及装置 | |
CN116306396A (zh) | 芯片验证方法及装置、设备和介质 | |
JP2024507029A (ja) | ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム | |
CN114676062A (zh) | 用于接口的差异数据测试方法及装置、电子设备和介质 | |
CN109074552A (zh) | 基于知识图来增强联系卡 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |