CN112189195B - 用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口 - Google Patents

用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口 Download PDF

Info

Publication number
CN112189195B
CN112189195B CN201980034457.5A CN201980034457A CN112189195B CN 112189195 B CN112189195 B CN 112189195B CN 201980034457 A CN201980034457 A CN 201980034457A CN 112189195 B CN112189195 B CN 112189195B
Authority
CN
China
Prior art keywords
request
objects
score
api
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980034457.5A
Other languages
English (en)
Other versions
CN112189195A (zh
Inventor
B·S·J·克赫尔米尔
D·M·泰勒
V·波兹南斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN112189195A publication Critical patent/CN112189195A/zh
Application granted granted Critical
Publication of CN112189195B publication Critical patent/CN112189195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • G06F9/548Object oriented; Remote method invocation [RMI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了应用编程接口(API),所述API提供了基于受信任源的语料库对内容进行访问、排名、范围界定、富集、清理和队列确定的功能。例如,响应于经由排名API接收到针对排名对象的请求,系统从语料库中获得由针对排名对象的请求所识别出的对象以及每个对象的对应排名和/或分数,并且将对象以及每个对象的对应排名和/或分数提供给针对排名对象的请求的源,其中,语料库存储至少基于文档活动分数进行评分的识别出的受信任源。

Description

用于识别、使用和管理在线和网络内容中的受信任源的应用 编程接口
技术领域
本申请总体涉及用于识别、使用和管理在线和网络内容中的受信任源的方法、系统和计算机可读存储介质。
背景技术
在互联网上积累和发现可靠的知识会是挑战。当前,用于经由常见搜索引擎返回搜索结果的许多算法包括付费广告。跨各种意图(包括商业意图)的热门内容倾向于通过搜索引擎的排名器被推高到适当位置,这导致搜索引擎提供的结果反映其用户的行为。因此,用户的偏好能够直接反映在结果中。另外,点击流能够使热门文章变得更热门,从而建立并且加强关于什么重要和什么不重要的共识。结果的排名可以基于链接随时间获得的“点击”的数量,这会导致“点击诱饵”尝试增加可见性,或者可以基于关键字标签,其也会受到操纵。
此外,网上的错误信息或虚假信息会导致严重的错误。例如,在提供挖掘答案的搜索框中,在网络上进行的研究会包括错误的和部分错误的或过时的结果。挖掘答案呈现出看起来像权威的事实。肤浅的研究会导致学生拾取错误或合并的信息,特别是当结果是刮擦(例如,经由跨网的机器人)组合了不同的源时,其也会遇到上述相同的问题。
发明内容
提供了用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口(API)。提供了API,该API提供了基于受信任源的语料库对内容的访问、排名、范围界定、富集(enrichment)、清理和队列(cohort)确定的功能。(当存在适当用户许可如此做时)能够收集来自数据源和生产力应用(包括内容创建和内容消耗应用)的内容的使用、重用和引用,并且用于识别内容的受信任源。当在文档上进行动作或者以其他方式使用统一资源定位符(URL)或其他对象时,基于URL的使用方式(包括URL如何进入文档)、文档自身的属性以及可选的用户历史,来给予URL分数。当用户对相同的URL进行动作时,来自这些动作的分数归于该URL。能够将具有高于(或等于)阈值的应计分数(值)的URL添加到受信任源的语料库。所描述的API利用受信任源的评分和语料库来使能多个特征,包括但不限于:内容的排名、范围界定、富集、清理和队列确定。
提供了用于排名的API(“排名API”),该API能够支持搜索引擎和其他搜索应用。在一种情况下,排名API能够基于应计分数来接收针对所有数据和URL或其他对象的对应排名的请求。能够将所述请求引导到特定的语料库类型(例如,公共站点、企业文档、内部站点)。响应于接收到所述请求,所述排名API能够针对(一个或多个)特定语料库类型来提供URL或其他对象以及(一个或多个)特定语料库类型的一个/多个语料库中的对应排名。在一些情况下,替代地或者除了排名外,可以提供分数。
在另一种情况下,所述排名API能够接收针对具有高于指定阈值的对应应计分数的所有数据的请求。响应于接收到所述请求,所述排名API能够针对(一个或多个)特定语料库类型来提供URL或其他对象,其具有高于指定阈值的分数以及其在(一个或多个)特定语料库类型的一个/多个语料库中的对应排名和/或分数。
提供了用于范围界定的API(“范围界定API”),其能够支持范围界定的搜索。在一种情况下,范围界定API能够接收针对在范围界定搜索中使用的域的列表的请求。所述请求能够包括排序参数(例如,粘贴计数、独有用户计数、纸张计数、质量分数等)、阈值分数(例如“阈值”,诸如针对分数的最小值)以及内容类型(例如,全部、图片、表格、参考)。范围界定API能够返回满足所述请求的域的列表(例如,使用排序参数、阈值分数、内容类型或者其组合)。在一些情况下,能够从所有或潜在排名特征的子集中产生排名分数,并且响应于经由范围界定API之一的请求而提供所述排名分数。在一些情况下,开发人员可以从可用的排名功能的集合中选择排名功能,或者提供期望的排名功能,当作为请求的一部分进行通信时,排名功能能够被用于对语料库执行定制排名。
提供了用于富集的API(“富集API”),该API能够响应于接收到包括URL的请求,而提供对关于与所述URL相对应的域或页面的额外属性和元数据。所述额外属性和元数据能够是在由系统维护的语料库中所存储的属性和元数据,包括但不限于:作者、发布者、制作年份(或日期)、生产力应用中的活动量(例如,诸如使用和重用的交互)、以及引用或参考的次数。
提供了用于清理的API(“清理API”),该API能够移除或识别不满足质量分数的域或页面。在一种情况下,清理API能够接收针对特定域或网页的质量分数的请求。所述请求能够包括URL和URL类型(例如,域或网页)。在另一种情况下,清理API能够接收针对域和/或网页的列表的质量分数的请求。所述请求能够包括URL的列表和(一个或多个)对应的URL类型。
提供了用于队列确定的API(“队列API”),该API能够响应于针对包括域的列表的相关域的请求、基于交互/图形连接来识别可能相关的相关域。在一些情况下,相似性功能能够被包含在请求中以提供定制的队列确定。
提供本发明内容以简化形式介绍一些概念,这些概念将在下文的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也并不旨在用于限制所要求保护的主题的范围。
附图说明
图1图示了具有用于识别、使用和管理在线和网络内容中的受信任源的API的示例性操作环境。
图2A-2H图示了用于识别、使用和管理受信任内容的示例性API。
图3A图示了由应用对清理API的使用。
图3B图示了由应用对排名API的使用。
图3C图示了由应用对富集API的使用。
图4A和图4B图示了进入内容堆栈中的过程流的概念示意图。
图5图示了由系统执行的用于识别、使用和管理在线和网络内容中的受信任源以用于专业知识交换的方法。
图6图示了可以被用于实现在本文中所描述的特定方法和服务的计算系统的组件。
具体实施方式
提供了用于识别、使用和管理在线和网络内容中的受信任源的API。所描述的API能够基于受信任源的语料库来提供访问内容的排名、范围界定、富集、清理和队列确定的功能。
所描述的API能够在至少一个语料库上执行功能,并且能够被应用于改进应用,包括但不限于生产力应用和搜索应用。
图1图示了具有用于识别、使用和管理在线和网络内容中的受信任源的API的示例性操作环境。
参考图1,预置(例如,作为至少一个预置语料库110)或者在多租户系统115(例如,作为租户语料库120——每个租户具有至少一个租户语料库)中管理的web级语料库105和企业语料库能够存储在线和网络内容的识别出的受信任源。这些语料库能够由公共服务130或企业服务140基于对来自数据源和生产力应用(包括内容创建和内容消费应用)的内容的使用、重用和引用来进行管理和生成。
生产力应用包括用于文字处理、电子表格、演示文稿、数据库管理、电子邮件等的集成和单一应用。包含在生产力应用中或者与生产力应用相关的是内容创建应用和内容消费应用。Office生产力软件的示例包括来自Microsoft Corp.的Microsoft Office和Office 365、Apache OpenOffice、来自Document Foundation的LibreOffice以及来自Google Cloud的Google Docs或G Suite;并且单个生产力应用的示例包括来自MicrosoftCorp.的Microsoft Word和Microsoft OneNote、来自Library&Latte的Scrivener以及来自Apple Inc.的Apple Pages。
生产力应用和服务的学生和一般消费者能够选取匿名地或者使用他其用户标识符简档(用于软件服务)对web级语料库105做出贡献。企业能够通过让知识工作者贡献于其组织的受信任知识(例如,在租户语料库120或预置语料库110中)来构建特定于租户的专业知识交换语料库。租户内的生产力应用的日常专业使用能够为系统(和企业服务140)提供信号以生成语料库。可以将针对租户的计分系统调整为社区的受信任性质。企业用户能够选取匿名地或使用其组织标识符向特定于租户的语料库(例如,租户语料库120)做出贡献,并且可以基于策略向web级语料库105做出贡献。企业可以具有多个语料库。在一些情况下,语料库能够基于企业内的单位。例如,能够为部门(例如,一个用于销售、一个用于工程等)地理区域以及甚至经理者群组来建立一个或多个语料库。
如上所述,能够收集来自数据源和生产力应用的内容(例如,对象)的使用、重用和引用(当存在适当用户许可如此做时),并且被用于通过公共130和/或企业140服务来识别内容的受信任源。
内容的对象能够包括但不限于URL、媒体、文档以及诸如文本、墨水、图像、富文本和结构化数据的组件。受信任内容指代具有学术或专业价值的内容(与广告以及一些情况下的小说作品不同)。受信任内容不必被普遍承认是真实的。受信任内容集合能够反映各种观点,这增加了对所涉及的主题的更完整理解,并且其可以鼓励批判性思维。
由生产力应用的用户在URL(或其他对象)上执行的高值活动或任务能够由公共和/或企业服务(130、140)来评分,并且对于URL,页面和域将被存储。在专业、学术或学者内容创建的过程中,生产力应用的用户执行能够指示所使用的内容能够被信任的任务。例如,带有引用或脚注的文档可以被认为更值得信任,或者甚至从研究人员应用插入的信息可以被视为“高值”活动。作为另一示例,用户正在处理的文档的复杂性和类型能够反映“高值”活动。
为了例示说明评分如何操作以识别受信任源,从概念上讲,URL的(一个或多个)页面和(一个或多个)域能够被认为是被放置在堆栈中。利用URL的另外的动作(例如,URL页面和/或域、文档的组成部分或部分以及其他对象)将归于资产(例如,该特定对象)的值。由URL(页面和/或域)或其他对象(例如,文档的组成部分或部分)产生的值能够被用于生成公共内容的语料库(例如,web级语料库105),以及针对非公共内容生成私有内容的语料库(例如,针对企业,诸如预置语料库110和租户语料库120)。
因此,当在文档上进行动作或者以其他方式使用URL或其他对象时,将基于URL(或其他对象)的使用方式(包括URL或其他对象如何进入文档)、文档自身的属性以及可选的用户历史来为URL(或其他对象)赋予分数。在用户动作于相同的URL(或其他对象)时,来自那些动作的分数将归于该URL(或其他对象)。能够将应计分数(值)高于(或等于)阈值的URL(或其他对象)添加到受信任源的语料库。
利用受信任源的评分和语料库来使能许多特征,包括但不限于内容的排名、范围界定、富集、清理和队列确定。具体地,能够使用在基于网络的语料库105和/或租户语料库(例如,110和120)中可用的受信任源的评分和语料库来提供一个或多个API 150以支持排名152、范围界定154、富集156、清理158和队列确定160中的至少一项。
API是由程序代码组件或硬件组件(下文称为“API实现组件”)实现的接口,所述接口允许不同的程序代码组件或硬件组件(以下称为“API调用组件”)访问并且使用由API实现组件提供的一项或多项功能、方法、流程、数据结构、类和/或其他服务。API能够定义在API调用组件和API实现组件之间传递的一个或多个参数。API通常是编程指令和标准的集合,用于使得两个或更多个应用能够彼此通信,并且当通过网络实现时,可以被实现为超文本传输协议(HTTP)请求消息的集合,以及用于根据REST(表示状态传输)或SOAP(简单对象访问协议)架构响应消息的指定格式或结构。
可以在本地或者在云服务处部署所描述的API。本地部署能够支持预置功能,例如,用于企业以维护额外安全特征。
服务170(例如,任何与应用相关的或其他软件服务)或客户端应用180能够经由API 150之一来访问所描述的特征。
环境100中的组件(计算系统、存储资源等——包括用于语料库105、110和120,服务130和140,服务170和应用180等的那些)可以在网络(未示出)上操作或者通过网络彼此通信。网络能够是但不限于蜂窝网络(例如,无线电话)、点对点拨号连接、卫星网络、互联网、局域网(LAN)、广域网(WAN)、Wi-Fi网络、自组织网络或者其组合。这样的网络被广泛用于连接各种类型的网络元件,诸如集线器、桥、路由器、交换机、服务器和网关。网络可以包括一个或多个连接网络(例如,多网络环境),其包括诸如互联网的公共网络,和/或诸如安全企业专用网络的专用网络。如本领域技术人员将理解的,可以经由一个或多个有线或无线访问网络来提供对网络的访问。
应当理解,能够根据隐私、数据访问和处理的任何依从性要求来保护对企业信息的收集和访问。类似地,基于web的语料库可兼容以确保在任何收集和访问场景中的用户数据隐私和安全。
图2A-2H图示了用于识别、使用和管理受信任内容的示例性API。
提供了能够支持搜索引擎和其他搜索应用(以及其他相关服务)的排名API。在一种情况下,参考图2A,排名API 200能够基于应计分数来接收(202)针对URL或其他对象的所有数据和对应排名的请求。能够将所述请求定向到特定语料库类型(例如,公共站点、企业文档、内部站点)。响应于接收到所述请求,排名API 200能够针对(一个或多个)特定语料库类型获得(204)并且提供(206)(一个或多个)特定语料库类型的一个/多个语料库中的URL或其他对象以及对应排名。在一些情况下,替代地或者除了排名,可以提供分数。作为方法的示例性实现方式,调用能够是GetAllData(type)。响应能够是模型,并且提供具有排名和/或分数的数据的快照。
在另一种情况下,参考图2B,排名API 210能够接收(212)针对具有高于指定阈值的对应应计分数的所有数据的请求。响应于接收到所述请求,排名API 210能够针对(一个或多个)特定语料库类型获得(214)并且提供(216)在(一个或多个)特定语料库类型的一个/多个语料库中分数高于指定阈值以及其对应排名和/或分数的URL或其他对象。作为该方法的示例性实现方式,调用能够是GetDataWithRanking(threshold,type)。响应能够是模型,并且提供针对排名(包括分数和可选的其他属性——诸如相对于富集API的额外属性所描述的)而修剪的数据的快照。
提供了能够支持范围界定搜索的范围界定API。在一种情况下,参考图2C,范围界定API 220能够接收(222)针对用于在范围界定搜索中使用的域或其他对象的列表的请求。所述请求能够包括排序参数(例如,粘贴计数、独有用户计数、纸张计数、质量分数等)、阈值分数以及内容类型(例如,全部、图像、表格、参考)。范围界定API 220能够确定(224)满足所述请求的对象,并且返回(226)满足所述请求的域(或其他对象)的列表(例如,使用排序参数、阈值分数、内容类型或者其组合)。例如,所述系统能够搜索指定语料库的存储资源以确定满足所述请求的对象。作为所述方法的示例性实现方式,调用能够是GetDomainList(SortParam,threshold,type)。响应能够是DomainList[]并且提供满足所述请求的域的列表。在一些情况下,范围界定API能够被用作重新排名器的一部分。
在一些情况下,能够从潜在排名特征的全部或子集中产生排名分数,并且响应于经由范围界定API之一的请求来提供。在一些情况下,开发人员可以从可用排名功能的集合中选择排名功能,或者提供期望的排名功能,当作为请求的一部分进行通信时,所述排名功能能够被用于对语料库执行定制排名。例如,针对域或其他对象的列表的请求还能够请求特定排名功能和/或评分功能。作为一些示例,针对特定排名功能和/或评分功能的请求可以从在接收所述请求的系统处提供的可用功能的集合中指示适当的功能,或者甚至自己提供排名和/或评分功能(作为消息的一部分或者参考能够在何处调用(一项或多项)功能)。
参考图2D,提供了富集API 230,其能够响应于接收(232)包括URL或其他对象的请求而获得(234)并且提供(236)关于对象的额外属性和元数据,诸如与URL相对应的域或页面。额外属性和元数据能够是在由所述系统维护的语料库中存储的属性和元数据,包括但不限于:作者、发布者、制作年份(或日期)、生产力应用内的活动量(例如,诸如使用和重用的交互)、以及引用或参考的次数。作为所述方法的示例性实现方式,调用能够是EnrichURL(URL)。响应能够是字符串。
提供了清理API,所述清理API能够从次要语料库中移除或识别不满足质量分数的域或页面。在一种情况下,参考图2E,清理API 240能够接收(242)针对特定对象(诸如类型为域或网页的URL)的质量分数的请求。例如,所述请求能够包括URL和URL类型(例如,域或网页)。响应于所述请求,所述系统可以获得(244)并且提供(246)针对所述对象的分数。质量分数(或“分数”)指代语料库中的对象所生成(例如,应计)的分数。所述分数能够是实数或概率的形式。作为该方法的示例性实现方式,调用能够是GetURLScore(URL,type)。响应能够是浮点的,并且提供质量分数。在另一种情况中,参考图2F,清理API 250能够接收(252)针对对象的列表(例如域和/或网页的列表)的质量分数的请求。所述请求能够包括URL的列表和对应的(一个或多个)URL类型(例如,域或页面)。响应于针对分数的请求,所述系统能够获得(254)并且提供(256)分数。作为所述方法的示例性实现方式,调用能够是GetURLScores(URL[],type)。响应能够是List[URL,Float],并且提供具有对应质量分数的URL的列表。
在一些情况下,能够通过请求指定用于确定语料库中什么内容不满足质量分数的评分功能。例如,可以提供评分功能,或者可以经由清理API之一请求从可用评分功能的集合中的选择。例如,针对一个或多个分数的请求还能够请求特定评分功能。作为一些示例,针对特定评分功能的请求可以指示在接收所述请求的系统处提供的可用评分功能的集合中的一个,或者甚至提供评分功能自身(作为消息的一部分或者通过参考能够在何处调用评分功能)。
参考图2G,提供了队列API 260,其能够响应于接收(262)针对包括一个域或者域的列表(或者其他对象)的相关域(或者其他对象)的请求,基于交互/图形连接来识别(264)可能相关的相关域(或者其他对象);并且提供(266)相关域(或者其他对象)。作为所述方法的示例性实现方式,调用能够是GetCohorts(DomainList[])。响应能够是URL[]并且提供域的列表。
在一些情况下,能够在所述请求中包括相似性功能以提供定制的队列确定。例如,针对相关域(或者其他对象)的请求还能够请求特定相似性功能。作为一些示例,针对特定相似性功能的请求可以指示在接收所述请求的系统处提供的可用相似性功能的集合中的一项,或者甚至提供相似性功能自身(作为消息的一部分或者通过参考能够在何处调用相似性功能)。在一些情况下,相似性功能包括一个或多个规则或功能。在一些情况下,能够提供多个相似性功能。所述相似性功能指示事物被认为彼此相似的方式。例如,一个相似性功能可以指示如果由同一人在同一文章中引用两个页面,则认为这两个页面是相似的。作为另一示例,另一相似性功能可以指示在两个页面来自相同域并且具有相似内容的情况下认为这两个页面是相似的。
参考图2H,提供了开放访问API 270,该API270能够响应于接收(272)针对包括语料库标识符的语料库的开放访问请求,从识别出的语料库(274)中获得所有对象;并且将语料库信息提供(276)给请求的源。在一些情况下,所述响应能够是受信任源的语料库中的对象的列表。在一些情况下,可以提供额外信息,诸如分数或排名。在其他情况下,可以提供在受信任源的语料库中的全部内容。例如,响应于经由开放访问API接收针对识别出的语料库的开放访问请求,所述系统能够将语料库的内容提供给开放访问请求的源。
如上所述,任何服务或应用可以使用所描述的API之一来改善该服务或应用的功能。
图3A图示了由应用对排名API的使用。参考图3A,过程310能够由并入搜索特征的应用来执行。所述应用能够接收搜索请求(312)并且执行(314)例如对排名API 210的API调用,诸如在图2B中所示的。API请求能够包括阈值和语料库类型。结果能够包括高于阈值的对象的快照,并且所述应用能够标记所接收到的高于阈值的对象(316)。然后,所述应用能够将所述搜索限制到加标记的站点(318)。
图3B图示了由应用对富集API的使用。参考图3B,过程320能够由诸如生产力和/或内容创建应用的应用来执行。例如,响应于对URL或者来自URL的内容的插入(322),所述应用能够执行(324)对例如富集API 230的API调用,如在图2D中所示的。所述应用能够接收URL的额外属性,诸如作者和出版年份,并且向用户提供引用URL的页面或源的功能或命令(326);并且如果所述应用接收到引用URL的页面或源的命令的选择,则将所述页面添加(328)到参考书目。
图3C图示了由应用对清理API的使用。参考图3C,过程330能够由将特征与新闻馈送或文档馈送(或推荐者馈送)结合的应用来执行。所述应用能够执行获得(332)针对该馈送意图的对象(例如,文档、URL)的列表的功能。所述应用能够执行(334)例如对清洁API250的API调用,如在图2F中所示的,以检查针对质量的列表。例如,响应于发送请求,所述应用能够接收针对列表中的对象的分数,并且移除列表中分数低于指定值的对象(336)。在一些情况下,所述应用能够基于分数进行组织或重新排名。一旦对象已经被清理(并且在一些情况下被重新排名),则对象能够在馈送中被呈现(338)。
设想到了其他应用和场景。例如,在企业系统(预置或多租户)上的搜索能够在针对特定企业的搜索功能中使用排名、范围界定或清理API,并且获得排名内容的列表,例如阈值快照,这可以随后被用于基于信任分数来对结果进行排序或重新排序。
在一些实现方式中,针对语料库中的内容的评分能够涉及文档活动分数(DAS)、文档属性提升(DAB)、用户历史提升(UHB)以及其组合。
例如,DAS能够被应用于域、网页、对象或者其他内容。DAS针对应用活动,例如,在文档上执行的活动的类型。针对DAS的值由任务的复杂性和针对专业背景的指示来确定。将对在URL上执行的高值任务进行评分,并且将URL的页面和域放置在堆栈中。DAS提供针对页面和站点的基本分数。然后,另外的动作将归于资产的值(资产是URL)。
作为示例,能够针对DAS为应用活动分配0-10的分数。为应用活动分配操作值。该评分系统能够被存储在任何合适的结构中,并且当将分数应用于相对于URL或其他对象的特定文档活动时,可以由该系统取回以供使用。
高值播种会影响低值评分。在站点/页面首次添加到堆栈之后,其被认为是“被播种”。针对非播种站点/页面,分数为零的特定信号现在将开始计分并且将值归于对象和用户。作为说明性示例,能够将插入先前未知(“非播种”)的URL的值设置为0。在一些情况下,仅在URL或其他对象先前已经被播种的情况下,才对相对URL或其他对象的任何活动进行评分。在一些情况下,诸如针对特定企业场景(由于与公共web相比企业环境的更信任的性质),非种子URL(或对象)也可以接收分数。企业环境的受信任性质能够由租户管理员在评分和控制方面具有额外的灵活性,从而使评分系统能针对个体租户进行调整。
应当理解,URL或其他对象的“插入”可以经由将内容输入到位置或文件的众多命令中的任何一个命令来执行,并且甚至可以被宽泛地解读为包括键入、说出或署名针对文件中的内容的源的引用。
针对DAS的值和属性两者(作为活动的字符串或标识符)都可以被存储为针对URL(或者其他对象)的元数据。
能够从DAS的基线添加提升。能够将DAB分配给URL所使用/动作于的文档(例如,文件)。文档活动的上下文确定DAS能够获得的提升的水平。属性的值可以是动作的上下文的专业性的反应。提升值是相加性的,因此在文档中存在多个属性的情况下,能够将那些属性的关联值相加在一起以生成DAB。示例性提升能够来自0.1-1.0的属性值。在该说明性示例中,能够为被标记为定义的文档特性的各种属性分配特定值。定义的文档特性能够包括但不限于文档或文件的大小、页数、词语数、行数、幻灯片数、所使用的数学符号数、占用的单元数、文档是否具有应用的样式或格式、以及关于文档的其他信息。
应当理解,在本文中所使用的术语“文档”指代具有由生产力应用而不只是文字处理应用所使用的文件格式的任何文件。例如,电子表格、演示文稿、电子邮件、笔记本和其他文件被包含在术语“文档”中。可以将针对DAB的个体值以及其对应的属性(作为活动的字符串或标识符)存储为针对URL的元数据。
在一些另外的实现方式中,能够包括UHB。与DAS和DAB一样,UHB能够作为具有URL的元数据来存储。用户的高值活动能够提升分数。在一些情况下,能够使用专业网络(例如Linkedln网络)中的成员资格和/或简档信息来识别应用UHB的用户。DAB提升的DAS能够直接归于UHB以增加用户值。亦即,可以随时间收集来自文档属性和用户(个体地或作为租户的一部分)进行的文档活动的属性值,并且将其用于生成针对用户(以及可能为整个企业)的UHB值。UHB可以被用于最小化垃圾邮件和欺骗系统的用户。
DAS、DAB和UHB可以各自包括负值,从而导致负分数。负分数能够由系统用于最小化垃圾邮件进入语料库和/或保留在语料库中。另外,针对企业场景,租户管理员可以定制系统以用于评分和提升。
例如,能够检测和评分关于URL的活动。在一些情况下,能够拆分URL,其中将域和分数添加到域堆栈(然后仅包含域),并且将页面和分数添加到页面堆栈(其然后包含完整URL)。
图4A和图4B图示了进入到内容堆栈中的过程流的概念示意图。参考图4A,由于相对于在用户设备处在生产力应用内创作的文档的活动操作(例如,插入、粘贴),URL可能进入评分系统(例如,被识别用于由评分系统进行评分)。能够将URL(或其他对象)、活动、文档属性和用户历史(统称400)提供给执行方法500的服务器。提供给服务器的特定信息可能取决于环境而变化。例如,在企业/商业环境中,特别是在所有用户都是特定组织的一部分(或者被给予对该系统的访客或供应商访问)的情况下,可以将关于用户的额外细节、组织内的层级以及甚至关于内容自身的信息提供给服务器(因为受信任源将针对企业进行管理和维护,可能是专用语料库而不是公共语料库)。相反,针对家庭/公共生产力应用场景,预期额外的隐私层,并且收集到的任何数据都将需要用户许可,并且即使具有用户许可,被提供给服务器的信息也可以保持匿名。在企业和家庭/公共场景两者中,应当理解,将相对于隐私和安全策略适当地执行发送到服务器和由服务器接收的任何信息。
在接收400之后,为URL(或其他对象)生成(402)DAS分数,并且然后例如通过将DAB(404)和UHB(406)应用于DAS分数来提升DAS分数。DAB(404)的应用和UHB(406)的应用会导致DAB和UHB提升分数等于f(DAS,DAB,UHB),其中,分数是DAS、DAB和UHB的函数。
URL以及其提升分数被存储,并且分数被监视以确定分数是否/何时达到将URL移动到语料库的阈值。能够单独地监视URL的域和页面以添加到语料库。例如,能够将域(以及其分数)添加到域堆栈408,并且能够将页面(以及其分数)添加到页面堆栈(410)。由于先前存在的域和页面具有活动(例如,通过由设备处的用户或其他设备处的相同或不同用户在相同或其他生产力应用内的动作),因此能够将新的提升分数添加到现有分数中。当域分数达到域阈值412时,该域能够被移动至域语料库414。另外,当页面分数达到页面阈值416时,该页面能够被移动至页面语料库418。域、页面和各个分数能够被存储在由一个或多个存储设备组成的存储资源中。所述存储资源能够是“平面存储”,其存储域、页面、分数和任何元数据的值,以及包括用于应用和/或提升分数的数据。
参考图4B,能够使对象从语料库中移除,特别是在其分数通过例如将负分数添加到现有分数而降低时。负分数会导致对象下降至阈值以下,甚至降至负值。不希望的内容的用户报告可以被用于将内容从语料库中移除。不合适的类型确定域和页面两者的分数|D|的幅度都返回到堆栈中或完全移除(被称为|D|max)。域移除会导致页面移除。UHB分数会对|D|有很大影响。另外,不活动的域和站点会随着时间而老化。
图5图示了由系统执行的用于识别、使用和管理在线和网络内容中的受信任源以进行专业知识交换的方法。方法500能够包括检测文档中关于对象的活动(502)并且确定所述对象是新对象还是已知对象(504)。检测(502)文档中的活动可以是从生产力应用软件接收用户动作、对象和文档属性的信息的结果。用户历史信息可以包含有信息,或者被单独地取回。可以从生产力应用和/或其他软件应用向服务器(以用户许可)提供关于文档的特定信息(例如,文档属性)。
关于操作504,“已知”对象是已经在存储设备中播种(例如存在)的对象。能够通过查询或者以其他方式搜索存储装置以确定对象是否在该存储装置中来执行对该对象是新对象还是已知对象的确定(504)。如果是,则该对象是已知的。可以在操作506和/或508之前、期间或之后执行操作504。
所述方法能够继续基于文档中的活动生成针对对象的分数(506)。能够对分数施加至少一个提升(508)。至少一个提升之一基于文档的属性。另一提升能够是用户历史。当然,能够使用其他权重、乘数和加法。指示属性和值的表或其他结构可以由执行方法500的服务器来存储,并且由服务器取回以执行(一个或多个)提升。
如果对象是新对象,则存储该对象和提升分数(510)。如果对象是已知对象,则将提升分数添加到存储设备中的现有分数(512)。检查所述分数以查看该分数是否大于(或者等于或大于)阈值(514),当其等于或大于(或者刚大于)阈值时,则将对象添加到专业知识交换语料库中(516)。即使当被添加到语料库时,也能够继续更新对象的分数。以这种方式,由于足够的负分数(其导致分数下降至阈值以下),对象也能够从语料库掉落。
图6图示了可以被用于实现在本文中所描述的特定方法和服务的计算系统的组件。
参考图6,系统600可以在单个计算设备内实现者或跨协作执行程序指令的多个计算设备或子系统来分布。在一些情况下,系统600可以表示计算设备,诸如但不限于个人计算机、阅读器、移动设备、个人数字助理、可穿戴计算机、智能电话、平板计算机、膝上型计算机(笔记本或上网本)、游戏设备或控制台、娱乐设备、混合计算机、台式计算机或智能电视。因此,可以并入关于系统600所描述的更多或更少的元件来实现特定的计算设备。系统600能够包括一个或多个刀片服务器设备、独立服务器设备、个人计算机、路由器、集线器、交换机、桥、防火墙设备、入侵检测设备、大型计算机、网络附接的存储设备、以及其他类型的计算设备。能够根据任何合适的计算机架构,例如对称多处理(SMP)架构或非均匀存储器访问(NUMA)架构,来配置系统硬件。
系统600能够包括处理系统610,处理系统610可以包括一个或多个处理器和/或从存储系统630取回并且执行软件620的其他电路。处理系统610可以在单个处理设备内实现,但是也可以跨协作执行程序指令的多个处理设备或子系统来分布。
(一个或多个)存储系统630能够包括能由处理系统610读取并且能够存储软件620的任何计算机可读存储介质。存储系统630可以被实现为单个存储设备,但是也可以跨共同定位或相对彼此分布的多个存储设备或子系统来实现。存储系统630可以包括能够与处理系统610通信的额外元件,诸如控制器。存储系统630也可以包括其上存储有诸如实体相关信息的数据的存储设备和/或子系统。
软件620可以在程序指令中实现,并且在其他功能中,当总体上由系统600或特别是由处理系统610执行时,可以指导系统600或处理系统610根据所述指令来操作。例如,当软件620包括服务645时,能够将处理系统引导为识别和管理经审查并且受信任的源(以及其各种组件和功能),包括关于图5所描述的过程500。在一些情况下,软件620能够包括关于图2A-2G所描述的API的功能。能够使用类似的结构和组件来体现其中能够实现使用所描述的API的应用的计算设备。另外,系统600可以实现用于云服务的预置系统和/或数据中心。
在系统600包括多个计算设备的实施例中,服务器能够包括促进在计算设备之间的通信的一个或多个通信网络。例如,一个或多个通信网络能够包括促进在计算设备之间的通信的局域网或广域网。能够在计算设备之间包括一个或多个直接通信链路。另外,在一些情况下,计算设备能够被安装在地理位置分散的位置。在其他情况下,能够将多个计算设备被安装在单个地理位置处,诸如服务器场或办公室。
可以包括通信接口650,其提供通信连接和设备,该通信连接和设备允许通过通信网络或网络的集合(未示出)或空中在系统600与其他计算系统(未示出)之间进行通信。
可以在由一个或多个计算设备执行的计算机可执行指令(诸如程序模块)的一般上下文中描述在本文中所阐述的某些技术。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构。
替代地或另外地,在本文中所描述的功能、方法和过程能够至少部分地由一个或多个硬件模块(或逻辑组件)来实现。例如,硬件模块能够包括但不限于专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、片上系统(SoC)、复杂可编程逻辑设备(CPLD)和现在已知或以后开发的其他可编程逻辑器件。当激活硬件模块后,硬件模块执行在硬件模块内包含的功能、方法和过程。
实施例可以被实现为计算机过程、计算系统或诸如计算机程序产品或计算机可读介质之类的制品。在本文中所描述的某些方法和过程可以体现为可以被存储在一个或多个存储介质上的软件、代码和/或数据。本发明的特定实施例预期使用计算机系统形式的机器,其中指令集合当被运行时能够使系统执行上文所讨论的方法中的任意一种或多种方法。特定计算机程序产品可以是由计算机系统可读的并且对用于执行计算机过程的指令的计算机程序进行编码的一种或多种计算机可读存储介质。应当理解,如在本文中所使用的,术语“存储介质”、“计算机可读存储介质”或“计算机可读存储介质”在任何情况下都不由瞬时传播信号组成。
尽管已经以特定于结构特征和/或动作的语言描述了主题,但是应当理解,所附权利要求书中定义的主题不一定限于上述的特定特征或动作。而是,以上描述的特定特征和动作被公开为实现权利要求的示例,并且其他等效特征和动作意图在权利要求的范围内。

Claims (15)

1.一种或多种在其上存储有指令的计算机可读存储介质,所述指令用于识别、使用和管理在线和网络内容中的受信任源,所述指令当由处理系统运行时引导所述处理系统用于:
提供排名应用编程接口(API);
响应于经由所述排名API接收到针对排名对象的请求,从语料库中获得由针对排名对象的所述请求所识别的对象以及所述对象中的每个对象的对应排名和/或分数,并且将所述对象以及所述对象中的每个对象的所述对应排名和/或分数提供给针对排名对象的所述请求的源,其中,所述语料库存储至少基于文档活动分数进行评分的识别出的受信任源,
其中,所述文档活动分数是至少部分基于对内容的使用、重用和引用的。
2.根据权利要求1所述的介质,其中,针对排名对象的所述请求还包括阈值,其中,对针对排名对象的所述请求的响应提供所述对象以及所述对象中的具有高于所述阈值的分数的每个对象的所述对应排名和/或分数。
3.根据权利要求1所述的介质,其中,针对排名对象的所述请求还请求排名功能。
4.根据权利要求1所述的介质,还包括引导所述处理系统用于以下操作的指令:
提供范围界定API;
响应于经由所述范围界定API接收到针对范围界定对象的请求,从所述语料库中获得满足与针对范围界定对象的所述请求一起提供的排序参数、阈值分数、内容类型或者其组合的对象,并且将满足针对范围界定对象的所述请求的对象的列表提供给针对范围界定对象的所述请求的源。
5.根据权利要求1所述的介质,还包括引导所述处理系统用于以下操作的指令:
提供富集API;
响应于经由所述富集API接收到针对对象的富集的请求,从所述语料库中获得所述对象的额外属性,并且将所述额外属性提供给针对富集的所述请求的源。
6.根据权利要求1所述的介质,还包括引导所述处理系统用于以下操作的指令:
提供清理API;
响应于经由所述清理API接收到针对一个或多个对象的分数的请求,从所述语料库中获得所述一个或多个对象中的每个对象的所述分数,并且将所述一个或多个对象中的每个对象的所述分数提供给针对所述分数的所述请求的源。
7.根据权利要求1所述的介质,还包括引导所述处理系统用于以下操作的指令:
提供队列API;
响应于经由所述队列API接收到针对对象的队列的请求,搜索与针对相关对象的所述语料库相关联的交互,并且提供所述相关对象。
8.根据权利要求1所述的介质,其中,所述对象是URL域、URL页面、文档、或者文档的一部分。
9.一种用于识别、使用和管理受信任内容的系统,包括:
处理系统;
包括存储资源的一种或多种存储介质;
用于识别、使用和管理被存储在所述一种或多种存储介质中的至少一种存储介质上的在线和网络内容中的受信任源的指令,所述指令引导所述处理系统至少用于:
提供排名应用编程接口(API);
响应于经由所述排名API接收到针对排名对象的请求,从语料库中获得由针对排名对象的所述请求所识别的对象以及所述对象中的每个对象的对应排名和/或分数,并且将所述对象以及所述对象中的每个对象的所述对应排名和/或分数提供给针对排名对象的所述请求的源,其中,所述语料库存储至少基于文档活动分数进行评分的识别出的受信任源;
提供范围界定API;
响应于经由所述范围界定API接收到针对范围界定对象的请求,从所述语料库中获得满足与针对范围界定对象的所述请求一起提供的排序参数、阈值分数、内容类型或者其组合的对象,并且将满足针对范围界定对象的所述请求的对象的列表提供给针对范围界定对象的所述请求的源;以及
提供清理API;
响应于经由所述清理API接收到针对一个或多个对象的分数的请求,从所述语料库中获得所述一个或多个对象中的每个对象的所述分数,并且将所述一个或多个对象中的每个对象的所述分数提供给针对所述分数的所述请求的源,
其中,所述文档活动分数是至少部分基于对内容的使用、重用和引用的。
10.根据权利要求9所述的系统,其中,针对排名对象的所述请求还包括阈值,其中,对针对排名对象的所述请求的响应提供所述对象以及所述对象中的具有高于所述阈值的分数的每个对象的所述对应排名和/或分数。
11.根据权利要求9所述的系统,还包括引导所述处理系统用于以下操作的指令:
提供富集API;
响应于经由所述富集API接收到针对对象的富集的请求,从所述语料库中获得所述对象的额外属性,并且将所述额外属性提供给针对富集的所述请求的源,其中,所述额外属性包括:作者、发布者、日期、与所述对象的使用和重用的交互、被引用或被参考的次数、或者其组合。
12.根据权利要求9所述的系统,其中,所述语料库是基于网络的语料库或企业语料库。
13.一种用于识别、使用和管理受信任内容的方法,包括:
响应于经由排名API接收到针对排名对象的请求,从语料库中获得由针对排名对象的所述请求所识别的对象以及所述对象中的每个对象的对应排名和/或分数,并且将所述对象以及所述对象中的每个对象的所述对应排名和/或分数提供给针对排名对象的所述请求的源,其中,所述语料库存储至少基于文档活动分数进行评分的识别出的受信任源,其中,所述文档活动分数是至少部分基于对内容的使用、重用和引用的。
14.根据权利要求13所述的方法,其中,针对排名对象的所述请求还包括阈值,其中,对针对排名对象的所述请求的响应提供所述对象以及所述对象中的具有高于所述阈值的分数的每个对象的所述对应排名和/或分数。
15.根据权利要求13所述的方法,还包括:
响应于经由范围界定API接收到针对范围界定对象的请求,从所述语料库中获得满足与针对范围界定对象的所述请求一起提供的排序参数、阈值分数、内容类型或者其组合的对象,并且将满足针对范围界定对象的所述请求的对象的列表提供给针对范围界定对象的所述请求的源。
CN201980034457.5A 2018-05-25 2019-04-29 用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口 Active CN112189195B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/990,216 US10664332B2 (en) 2018-05-25 2018-05-25 Application programming interfaces for identifying, using, and managing trusted sources in online and networked content
US15/990,216 2018-05-25
PCT/US2019/029644 WO2019226280A1 (en) 2018-05-25 2019-04-29 Application programming interfaces for identifying, using, and managing trusted sources in online and networked content

Publications (2)

Publication Number Publication Date
CN112189195A CN112189195A (zh) 2021-01-05
CN112189195B true CN112189195B (zh) 2024-08-02

Family

ID=66542530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980034457.5A Active CN112189195B (zh) 2018-05-25 2019-04-29 用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口

Country Status (4)

Country Link
US (1) US10664332B2 (zh)
EP (1) EP3782046A1 (zh)
CN (1) CN112189195B (zh)
WO (1) WO2019226280A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022076680A1 (en) 2020-10-09 2022-04-14 Ezapi Llc Natural language processing of api specifications for automatic artifact generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和系统
CN107787487A (zh) * 2015-06-22 2018-03-09 微软技术许可有限责任公司 将文档解构为成分块以用于在生产力应用中重新使用

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529889B1 (en) 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
US7222297B2 (en) 2002-01-14 2007-05-22 International Business Machines Corporation System and method for using XML to normalize documents
US7249312B2 (en) 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
US7249123B2 (en) 2002-10-31 2007-07-24 International Business Machines Corporation System and method for building social networks based on activity around shared virtual objects
US7349901B2 (en) 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US8056128B1 (en) * 2004-09-30 2011-11-08 Google Inc. Systems and methods for detecting potential communications fraud
US7698442B1 (en) 2005-03-03 2010-04-13 Voltage Security, Inc. Server-based universal resource locator verification service
US20070150468A1 (en) 2005-06-13 2007-06-28 Inform Technologies, Llc Preprocessing Content to Determine Relationships
US7668887B2 (en) * 2005-12-01 2010-02-23 Object Positive Pty Ltd Method, system and software product for locating documents of interest
WO2007142941A2 (en) 2006-05-30 2007-12-13 Deepmile Networks, Llc System and method for providing network source information
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8078617B1 (en) 2009-01-20 2011-12-13 Google Inc. Model based ad targeting
US9846898B2 (en) * 2009-09-30 2017-12-19 Ebay Inc. Method and system for exposing data used in ranking search results
US8515972B1 (en) * 2010-02-10 2013-08-20 Python 4 Fun, Inc. Finding relevant documents
US8863000B2 (en) 2010-04-07 2014-10-14 Yahoo! Inc. Method and system for action suggestion using browser history
US20110276601A1 (en) 2010-05-04 2011-11-10 Salesforce.Com, Inc. Knowledge base computer management network
US9208223B1 (en) 2010-08-17 2015-12-08 Semantifi, Inc. Method and apparatus for indexing and querying knowledge models
US9952659B2 (en) 2011-11-08 2018-04-24 Microsoft Technology Licensing, Llc Presentation of multiple sources of application guidance information
US9418066B2 (en) 2013-06-27 2016-08-16 International Business Machines Corporation Enhanced document input parsing
US10210261B2 (en) * 2014-06-18 2019-02-19 Facebook, Inc. Ranking and filtering groups recommendations
US10387383B2 (en) * 2017-02-15 2019-08-20 Google Llc Systems and methods for providing access to a data file stored at a data storage system
US11182437B2 (en) * 2017-10-26 2021-11-23 International Business Machines Corporation Hybrid processing of disjunctive and conjunctive conditions of a search query for a similarity search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和系统
CN107787487A (zh) * 2015-06-22 2018-03-09 微软技术许可有限责任公司 将文档解构为成分块以用于在生产力应用中重新使用

Also Published As

Publication number Publication date
WO2019226280A1 (en) 2019-11-28
US20190361757A1 (en) 2019-11-28
US10664332B2 (en) 2020-05-26
EP3782046A1 (en) 2021-02-24
CN112189195A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US11163957B2 (en) Performing semantic graph search
US11176114B2 (en) RAM daemons
US11681654B2 (en) Context-based file selection
US8918365B2 (en) Dedicating disks to reading or writing
US7930301B2 (en) System and method for searching computer files and returning identified files and associated files
US11100152B2 (en) Data portal
US20130346405A1 (en) Systems and methods for managing data items using structured tags
US9996622B2 (en) Browser new tab page generation for enterprise environments
CN112189195B (zh) 用于识别、使用和管理在线和网络内容中的受信任源的应用编程接口
US11023553B2 (en) Identifying and managing trusted sources in online and networked content for professional knowledge exchange
US11334559B2 (en) Method of and system for identifying abnormal rating activity
US20180203932A1 (en) Enhanced information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant