CN107291792A - 用于确定相关实体的方法和系统 - Google Patents
用于确定相关实体的方法和系统 Download PDFInfo
- Publication number
- CN107291792A CN107291792A CN201611273012.7A CN201611273012A CN107291792A CN 107291792 A CN107291792 A CN 107291792A CN 201611273012 A CN201611273012 A CN 201611273012A CN 107291792 A CN107291792 A CN 107291792A
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- feature
- label
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/109—Time management, e.g. calendars, reminders, meetings or time accounting
- G06Q10/1093—Calendar-based scheduling for persons or groups
- G06Q10/1095—Meeting or appointment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及相关实体发现。一种计算设备可生成包括多个节点的图,其中该多个节点包括表示多实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每个节点在图中连接至该多个特征节点中的一个或多个特征节点。该计算设备可执行标签传播来将标签分布与该多个节点中的每个节点相关联。该计算设备可被配置来接收感兴趣特征或感兴趣实体中的至少一个的指示。该计算设备还可被配置来输出与该感兴趣特征或感兴趣实体相关的一个或多个相关实体的指示。
Description
背景技术
计算设备通常可以从特定用户接收该用户感兴趣的实体的指示。例如,用户可以使用计算设备来执行对于实体的搜索,所述实体诸如地点、事件、人、商业、饭店等。用户还可提供该用户已经参加的事件或者在饭店吃饭的指示,诸如通过使用社交媒体应用登记到事件,或者通过将某个事件的指示置于该用户的日历中。
发明内容
在一个示例中,本公开涉及一种方法。该方法可包括:由计算设备生成包括多个节点的图,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每个实体节点在该图中连接至该多个特征节点中的一个或多个特征节点。该方法可进一步包括:由该计算设置执行标签传播来跨该图传播多个标签,以将标签分布与该多个节点中的每个节点相关联。该计算设备被配置来:接收感兴趣特征或感兴趣实体中的至少一个的指示,以及对于该感兴趣特征或者感兴趣实体中的该至少一个,输出与该感兴趣特征或者感兴趣实体相关的一个或多个相关实体的指示,其中,输出该一个或多个相关实体的该指示至少部分地基于与该多个特征节点中表示该感兴趣特征的的一个特征节点或者该多个实体节点中表示该感兴趣实体的一个实体节点相关联的相应标签分布。
在另一个示例中,本公开涉及一种包括存储器和至少一个处理器的计算系统。该至少一个处理器通信地耦合至该存储器,并且可被配置来:生成将要被存储在该存储器中的、包括多个节点的图,其中,该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每个实体节点在该图中连接至该多个特征节点中的一个或多个特征节点;以及执行标签传播来跨该图传播多个标签以将标签分布与该多个节点中的每个节点相关联。
在另一个示例中,本公开涉及一种方法。该方法可包括:由计算设备接收感兴趣特征或感兴趣实体中的至少一个的指示。该方法可进一步包括:至少部分地基于与图中的多个特征节点中表示该感兴趣特征的一个特征节点或者图中的多个实体节点中表示该感兴趣实体的一个实体节点相关联的相应标签分布,由该计算设备确定与该感兴趣特征或者该感兴趣实体相关的一个或多个相关的实体,其中,该图包括多个节点,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每个实体节点在该图中连接至该多个特征节点中的一个或多个特征节点,并且其中,多个标签经由标签传播跨该图来被传播以将标签分布与该多个节点中的每个节点相关联。方法可进一步包括:对于该感兴趣特征或者感兴趣实体中的该至少一个,由该计算设备输出与该感兴趣特征或该感兴趣实体相关的一个或多个相关实体的指示,其中,输出该一个或多个相关实体的该指示至少部分地基于与该多个特征节点中表示该感兴趣特征的一个特征节点或者多个实体节点中表示该感兴趣实体的一个实体节点相关联的相应标签分布。
在另一个示例中,本公开涉及一种计算系统,该计算系统包括存储器以及至少一个处理器。该至少一个处理器通信地耦合至该存储器,并且可被配置来:接收感兴趣特征或感兴趣实体中的至少一个的指示;至少部分地基于与图中的多个特征节点中表示该感兴趣特征的一个特征节点或者与图中的多个实体节点中表示感兴趣实体的一个实体节点相关联的相应标签分布,确定与该感兴趣特征或者感兴趣实体相关的一个或多个相关实体,其中,该图包括多个节点,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点的每个实体节点在该图中连接至该多个特征节点中的一个或多个特征节点,并且其中,多个标签经由标签传播跨该图来被传播以将标签分布与该多个节点中的每个节点相关联;以及对于该感兴趣特征或该感兴趣实体中的至少一个,输出与该感兴趣特征或者该感兴趣实体相关的一个或多个相关实体的指示,其中,输出该一个或多个相关实体的该指示至少部分地基于与多个特征节点中表示该感兴趣特征的一个特征节点或者多个实体节点中表示该感兴趣实体的一个实体节点相关联的相应标签分布。
在附图以及下面的描述中阐述了一个或多个示例的细节。本公开的其他特征、目的、以及优点根据说明书和附图以及权利要求书将显而易见。
附图说明
图1是图示了根据本公开一个或多个方面的、被配置来确定相关实体的示例系统的概念图。
图2是图示了根据本公开一个或多个方面的、被配置来确定一组实体的相关性水平的示例计算系统的框图。
图3A-3C是图示了根据本公开方面的、示例排名模块可构造其来执行示例性扩展器技术的示例特征-实体二分图的框图。
图4是图示了根据本公开的一个或多个方面的、用于确定相关实体的示例过程的流程图。
图5是图示了根据本公开的一个或多个方面的、用于确定相关实体的示例过程的流程图。
具体实施方式
大体上,本公开的技术可以使得计算系统能够针对实体来确定一个或多个相关的实体。对于感兴趣实体,该计算系统可以确定与该感兴趣实体在语义上相关的一个或多个实体,并且可以至少部分地基于其与该感兴趣实体的相关性来对该一个或多个实体进行排名。因此,如果该计算系统确定用户对实体感兴趣,则该计算系统可以确定该用户潜在地也可能对与该用户感兴趣的实体在语义上相关的一个或多个实体感兴趣。这样,计算系统可为用户提供用户可能感兴趣的所建议实体。
两个实体的相关性可以与对第一实体感兴趣的随机用户也对第二实体感兴趣的可能性成比例。该计算系统可确定实体与多个实体中的每个实体的相关性,并且可至少部分地基于该实体与多个实体中的每个实体相关的程度来生成该多个实体的经排名列表。
图1是根据本公开的一个或多个方面的、将系统10图示为可以被配置来被配置来确定相关实体的示例系统的概念图。系统100包括经由网络12与计算设备2通信的信息服务器系统(“ISS”)14。计算设备2可经由网络12与ISS 14进行通信,以向ISS 14提供指示由计算设备2接收的查询或者计算设备2的用户感兴趣的实体的信息。ISS 14可生成与该查询或者实体相关的一个或多个实体的经排名列表,并且可将一个或多个实体的经排名列表传输至计算设备2。计算设备2可以经由用户界面设备4来输出该一个或多个实体的经排名列表,以用于显示给计算设备2的用户。
网络12表示任何公用或专用的通信网络——例如,蜂窝、Wi-Fi、和/或其他类型的网络——以用于在计算系统、服务器、和计算设备之间传送数据。网络12可以包括一个或多个网络中枢、网络交换机、网络路由器、或者任何其他网络器材,其操作地相互耦合从而提供ISS 14与计算设备2之间的信息交换。计算设备2和ISS 14可使用任何合适的有线或无线通信技术来跨网络12传送和接收数据。在某些示例中,网络12可以是互联网20。
ISS 14和计算设备2可以使用相应的网络链路操作地耦合至网络12。将计算设备2和ISS 14耦合至网络12的链路可以是以太网或者其他类型的网络连接,并且这样的连接可以是无线连接和/或有线连接。
计算设备2表示个体移动或非移动计算设备。计算设备2的示例可以包括移动电话、平板电脑、膝上型电脑、桌面型电脑、服务器、主机、机顶盒、电视、可穿戴式设备(例如计算机化的手表、计算机化的护目镜、计算机化的手套)、家用自动化设备或系统(例如,智能恒温器或者家庭助手)、个人数字助理(PDA)、便携式游戏系统、媒体播放器、电子书阅读器、移动电视平台、汽车导航和娱乐系统,或者被配置来通过网络,诸如网络12接收信息的任何其他类型的移动、非移动、可穿戴以及非可穿戴计算设备。
计算设备2包括用户界面设备(UID)4以及用户界面(UI)模块6。UI模块6可使用软件、硬件、固件、或者在相应计算设备2中驻留和/或在该处执行的硬件、软件、和固件的组合来执行上述的操作。在某些示例中,计算设备2可执行具有一个或多个处理器或者一个或多个设备的UI模块6。在某些示例中,计算设备2可将UI模块6执行为在底层硬件上执行的一个或多个虚拟机。在某些示例中,UI模块6可执行为操作系统或计算平台的一个或多个服务。在某些示例中,UI模块6可执行为计算平台的应用层处的一个或多个可执行程序。
计算设备2的UID 4可充当计算设备2的输入和/或输出设备。UID4可使用各种技术来实现。例如,UID 4可充当使用一个或多个存在敏感输入组件的输入设备,诸如电阻式触摸屏、表面声波触摸屏、电容式触摸屏、投射电容触摸屏、压敏屏幕、声学脉冲识别触摸屏、或者其他存在敏感显示技术。此外,UID 4可以包括麦克风技术、红外传感器技术、或者用于接收用户输入的其他输入设备技术。
UID 4可充当使用任何一个或多个显示组件的输出(例如显示)设备,诸如液晶显示器(LCD)、点阵显示器、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、电子墨水、或者能够输出可视信息给计算设备2的用户的类似的单色或彩色显示器。此外,UID 4可以包括扬声器技术、触觉反馈技术、或者用于输出信息给用户的其他输出设备技术。
UID 4可包括存在敏感显示器,其可从计算设备2的用户接收触觉输入。UID 4可以通过检测来自用户的一个或多个手势而接收触觉输入的指示(例如,用户用手指或触控笔接触或者指向UID 4的一个或多个位置)。例如在存在敏感显示器处,UID 4可将输出呈现给用户。UID 4可将输出呈现为图形用户界面(例如,用户界面8),其可与计算设备2提供的功能相关联。例如,UID 4可以呈现计算设备2的用户可能感兴趣的、与实体集合相关的各个用户界面(例如,用户界面8),所述用户界面由UI模块6或者在计算设备2处执行或者可从其访问的计算平台、操作系统、应用、和/或服务(例如,电子消息应用、互联网浏览应用、移动或桌面型操作系统等等)的其他特征来提供。
UI模块6可以管理与UID 4以及计算设备2的其他组件的用户交互——包括与ISS14的交互,以便在UID 4处提供对一个或多个实体的指示。当计算设备2的用户在UID 4处查看输出和/或提供输入时,UI模块6可以使得UID 4输出用户界面——诸如用户界面8(或者其他示例用户界面)以供显示。在用户与用户界面进行交互时,UI模块6和UID 4可以从该用户接收一个或多个对输入的指示。UI模块6和UID 4可以解释在UID 4处检测的输入,并且可以将关于在UID 4处检测的输入的信息中继给在计算设备2处执行的一个或多个关联的平台、操作系统、应用、和/或服务,以例如使得计算设备2执行功能。
UI模块6可从在计算设备2处执行的一个或多个关联的平台、操作系统、应用、和/或服务和/或诸如ISS 14的一个或多个远程计算系统接收信息和指令。此外,UI模块6可以充当在计算设备2处执行的一个或多个关联的平台、操作系统、应用、和/或服务与计算设备2的各个输出设备(例如,扬声器、LED显示器、音频和静电触觉输出设备等等)之间的中介,以利用计算设备2来产生输出(例如,图形、闪光、声音、触觉响应等)。
UI模块6可以接收计算设备2的用户感兴趣的实体的指示。在某些示例中,实体可以是事件、地点、人、商业、电影、饭店等。例如,计算设备2的用户可以使用在计算设备2上运行的web浏览器应用,来访问特定事件的网页(例如,用于攀岩旅行的网页),或者“赞(like)”针对特定事件的社交媒体发布(social media post),其可向UI模块6指示该用户对特定事件感兴趣。
UI模块6可以经由网络12来向ISS 14发送对感兴趣实体的指示。例如,UI模块6可以发送针对实体的网页的互联网地址(例如,统一资源定位符)。作为响应,UI模块6可以经由网络12从ISS 14接收与感兴趣实体最相关的一个或多个实体的指示。例如,UI模块6可以接收该一个或多个实体的互联网地址。UI模块6还可从ISS 14接收该一个或多个实体与感兴趣实体的相关性水平的指示,诸如该一个或多个实体中的每一个与感兴趣实体有多相关的排名或者该一个或多个实体中的每一个与感兴趣实体的相关性水平的数值量化(例如,从0到1.0)。
UID 4可输出用户界面8,诸如包括与感兴趣实体相关的一个或多个实体的指示的图形用户界面。如图1所示,如果感兴趣实体是徒步旅行,则用户界面8可以包括攀岩事件、背包行(backpacking)事件、以及洞穴探险(caving)事件以作为与徒步旅行相关的实体。在图1的非限定性实例中,UID 4可以以与感兴趣实体的相关性的顺序来呈现相关的实体,使得攀岩事件可以是最相关的实体、背包行事件可以是其次最相关的实体、以及洞穴探险事件可以是第三最相关的实体。这样,UID 4可以基于用户对特定徒步旅行的兴趣来呈现计算设备2的用户可能感兴趣的实体的经排名列表。
在图1的示例中,ISS 14包括实体模块16以及排名模块18。共同地,模块16和18可以是计算设备2和连接至网络12的其他计算设备可访问的相关实体服务,其用于提供与感兴趣实体相关的一个或多个实体。模块16和18可使用驻留在ISS14中和/或在ISS 14处执行的软件、硬件、固件、或硬件、软件、和固件的组合来执行所描述的操作。ISS 14可利用在底层硬件上执行的一个或多个处理器、一个或多个设备、虚拟机来执行模块16和18,和/或将模块16和18执行为操作系统或计算平台的一个或多个服务,仅举几个非限制性示例。在某些示例中,模块16和18可以执行为ISS 14的计算平台的应用层处的一个或多个可执行程序。
实体模块16可从互联网20检索和/或接收与实体相关联的互联网资源,并且可从相关联的互联网资源中提取与实体中的每一个相关联的特征集合。实体模块16可针对存储在互联网服务器22(例如web服务器)上的互联网资源——诸如web页面、社交媒体发布等来爬取(crawl)互联网20,或者可以以其他方式接收互联网资源的集合,并且可从这样的互联网资源中提取特征。例如,与徒步旅行相关联的互联网资源可以是描述该徒步旅行的web站点或者社交媒体发布。
在一个示例中,实体模块16可以从针对实体的一个或多个web页面提取与该实体相关联的一个或多个特征。与实体相关联的特征可以是描述所关联的实体的场境信息(contextual information)。特征可以包括文本,诸如包含在针对该实体的web页面中的词、短语等。在某些示例中,特征还可包括图像、视频、和其他媒介。实体模块16可从针对实体的web页面中提取特征,诸如实体描述、web页面中的周围的文本、与实体出现在其上的web页面相关联的查询、指向针对该实体的web页面的锚文本、针对该实体的web页面的分类学类别等。
实体模块16可以将从互联网资源中提取的特征以及对实体与特征之间的关联的指示存储到信息服务器系统14中的计算机可读取存储设备上,诸如盘、非易失性存储器等。例如,实体模块16可以将这样的特征以及对实体与所述特征之间的关联的指示存储为一个或多个文档、数据库条目、或其他结构数据,包括但不局限于逗号分隔的值、相关的数据库条目、可扩展标记语言(XML)数据、JavaScript对象表示法(JSON)数据等。
实体模块16还可在与每个实体相关联的特征集合上执行特征准备,所述特征是从与相应实体相关联的互联网资源提取的。例如,实体模块16可执行停止词去除,以去除语言中最常见的词语(例如,英语语言的a、the、is、at、which、on等)。实体模块16可执行特征再加权,以至少部分地基于特征在与实体相关联的互联网资源中出现的频率来对与该实体相关联的特征进行加权。例如,实体模块16可对在与该实体相关联的互联网资源中较频繁出现的特征指派较高的权重。实体模块16可将实体的特征的这样的权重存储到ISS 14中的计算机可读取存储设备上,以作为一个或多个文档、数据库条目、或者其他结构数据,包括但不局限于逗号分隔的值、关系数据库条目、XML数据、JSON数据等。
排名模块18可从计算设备2接收对感兴趣实体的指示,至少部分地基于与该感兴趣实体相关的一个或多个实体中的每个实体与该感兴趣实体的相关性水平来确定该一个或多个实体的排名、并且将该一个或多个实体的指示传输至计算设备2。为此,排名模块18可以确定该感兴趣实体与多个其他实体中的每个实体之间的相似性度量,其中该相似性度量可以对应于相关性水平,并且可至少部分地基于该相似性度量来确定该多个其他实体中的哪些与该感兴趣实体最相关。
在一个示例中,排名模块18可至少部分地基于测量在两个实体的特征之间相似性度量、并且将该两个实体的每个特征类型之间的相似性度量进行组合,来确定两个实体之间的相似性度量。为了确定感兴趣实体与目标实体之间的相似性度量,对于与感兴趣实体相关联的每个特征类型的特征,排名模块18可确定感兴趣实体的特征类型的特征和目标实体的特征类型的特征之间的相似性度量,并且可以对该实体的特征类型中的每一个的相似性度量进行组合,以确定感兴趣实体与目标实体之间的相似性度量。
在另一个示例中,排名模块18可至少部分地基于两个实体(例如,感兴趣实体和目标实体)是否共享到其他类似实体的连接来确定两个实体之间的相似性度量。换言之,排名模块18可因为两个实体的相关联的特征中的一些在语义上相关而确定该两个实体相关,即使该两个实体不共享相同的特征。
为此,根据本公开的方面,在各个非限制性示例中,排名模块18可生成二分图,其中排名模块18可通过该图传播信息以传递语义消息。具体地,二分图可以包括与多个实体相关联的多个实体节点,其连接至与多个特征相关联的多个特征节点,其中该多个实体节点中的每一个连接至该多个特征节点中的一个或多个。因此,在该二分图中,与实体相关联的实体节点可以连接至与该实体的一个或多个特征相关联的一个或多个特征节点。
,至少部分地基于二分图中与一个或多个相关实体相关联的一个或多个实体节点之间到与感兴趣实体相关的实体节点的连接,排名模块18可针对该感兴趣实体来确定一个或多个相关实体。具体地,排名模块18可执行无监督机器学习——包括以多次迭代来执行标签传播,以将标签的分布与二分图的多个节点中的每一个相关联,如下文关于图3A-3C所详细描述。排名模块18可执行这样的标签传播以作为使目标函数最小化的优化解,来生成与该二分图的每个节点相关联的标签的分布,其中标签的分布中的每一个包括一个或多个实体的排名的指示,该一个或多个实体与相关联的实体节点或特征节点所表示的实体和特征相关。这样,对于特定的感兴趣实体,排名模块18可以确定与该感兴趣实体相关的一个或多个实体的排名。
尽管在二分图方面进行了描述,但本公开的方面可以被实现为表格、数据库、或者其他基础数据结构。因此,二分图的节点和边还可以被实现为数据结构的一部分、数据库、表格中的条目、应用到表格、数据库的条目或者在其之间应用的函数、变换、或者数据、或者其他基础数据结构。因此,该数据结构、表格、数据库、函数、数据等可以表示本文所公开的一个或多个二分图。
排名模块18可以执行上面的技术来确定感兴趣实体与多个其他实体之间的相似性度量(例如相似性分值),并且可以根据所确定的相似性度量确定多个实体与感兴趣实体之间的相关性排名。排名模块18可以经由网络12将与感兴趣实体最相关的实体中的一个或多个的经排名列表的指示发送给计算设备2。例如,排名模块18可以向计算设备2发送web页面,其包括指向与最相关的实体中的一个或多个的经排名列表相关联的web页面的链接。因此,在计算设备2上运行的web浏览器可以渲染所接收的web页面,使得UI设备4可以呈现用户界面8,其包括指向与该最相关的实体中的一个或多个的经排名列表相关联的web页面的链接。
根据本公开的方面,ISS 14可以生成包括多个节点的图,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每一个在图中连接到该多个特征节点中的一个或多个。ISS 14可以执行标签传播来跨图来传播多个标签,以将标签的分布与多个节点中的每一个相关联。ISS 14可以接收感兴趣特征或感兴趣实体中的至少一个的指示。对于该感兴趣特征或感兴趣实体中的至少一个,ISS 14可以输出与该感兴趣特征或者感兴趣实体相关的一个或多个相关实体的指示,其中输出对该一个或多个相关实体的指示是部分地基于相应标签的分布的,所述相应标签与表示感兴趣特征的多个特征节点中的一个或者表示该感兴趣实体的多个实体节点中的一个相关联。本公开的这些和其他方面在下面被更详细地讨论。
图2是根据本公开的一个或多个方面的、将ISS 14图示为被配置来确定一组实体的相关性水平的示例计算系统。图2仅图示了ISS 14的一个特定示例,并且ISS 14的许多其他示例可以被使用在其他实例中,并且可包括在示例ISS 14中所包括的组件的子集或者可包括图2中未示出的附加组件。
ISS 14向计算设备2提供了管道(conduit),诸如计算设备2的计算设备通过其可访问相关的实体服务,以用于自动接收指示感兴趣实体或感兴趣特征的一个或多个相关实体的信息。如图2的示例所示,ISS 14包括一个或多个处理器44、一个或多个通信单元46、以及一个或多个存储设备48。ISS 14的存储设备48包括实体模块16和排名模块18。
ISS 14的存储设备48进一步包括特征-实体数据存储52A、图数据存储52B、排名数据存储52C、以及互联网资源数据存储52D(统称为“数据存储52”)。通信信道50可将组件44、46、和48中的每一个互连,以用于组件间的通信(在物理、通信、和/或操作上)。在某些示例中,通信信道50可包括系统总线、网络连接、进程间通信数据结构、或者用于传输数据的任何其他方法。
ISS 14的一个或多个通信单元46可以通过在诸如图1的网络12或者互联网20的一个或多个网络上传送和/或接收网络信号来与外部计算设备——诸如图1的计算设备2进行通信。例如,ISS 14可使用通信单元46跨网络12来传送和/或接收音频信号,以与计算设备2交换信息。通信单元46的示例包括网络接口卡(例如,诸如以太网卡)、光学收发器、射频收发器、GPS接收器、或者能够发送和/或接收信息的任何其他类型的设备。通信单元46的其他示例可包括短波无线电、蜂窝数据无线电、无线以太网网络无线电、以及通用串行总线(USB)控制器。
存储设备48可以存储用于在ISS 14的操作期间进行处理的信息(例如,ISS 14可以在ISS 14处存储模块16和18在执行期间所访问的数据)。在某些示例中,存储设备48是临时存储器,意指存储设备48的主要目的不是长期存储。ISS 14上的存储设备48可以作为易失性存储器来被配置用于信息的短期存储来,并且因此在被关闭电源的情况下不保持存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、以及本领域公知的其他形式的易失性存储器。
在某些示例中,存储设备48还包括一个或多个计算机可读取存储介质。存储设备48可被配置来比易失性存储器存储更大量的信息。存储设备48可进一步作为非易失性存储器空间被配置用于信息的长期存储,并且在电源开/关循环之后保持信息。非易失性存储器的示例包括磁性硬盘、光盘、软盘、闪速存储器、或者电可编程存储器(EPROM)或者电可擦可编程(EEPROM)存储器的形式。存储设备48可以存储与模块16和18相关联的程序指令和/或数据。
一个或多个处理器44可以实现ISS 14内的功能和/或执行ISS 14内的指令。例如,ISS 14上的处理器44可接收和执行存储设备48所存储的指令,其执行模块16和18的功能。这些指令在由处理器44执行时可以使得ISS 14在程序执行期间在存储设备48内存储信息。处理器44可以执行模块16和18的指令,以从多个互联网来源提取与多个实体相关联的多个特征,并且确定实体中的每一个之间的相关性水平,从而针对特定的感兴趣实体或感兴趣特征输出一个或多个相关实体的排名。即,模块16和18可以是可由处理器44操作以执行本文所述的ISS 14的各个动作或功能。
数据存储52处所存储的信息可以作为可检索和/或归类的结构化数据被存储。例如,一个或多个模块16和18可将数据存储到数据存储52中。一个或多个模块16和18也可提供从数据存储52中的一个或多个请求信息的输入,并且响应于该输入而接收在数据存储52处存储的信息。ISS 14可作为基于云的数据访问服务,向连接到网络12或者互联网20的设备——诸如计算设备2提供对存储在数据存储52处的信息的访问。当数据存储52包含与个体用户相关联的信息或者当信息跨多个用户而通用化时,将该信息链接回各个人的所有个人可识别信息——诸如姓名、地址、电话号码、和/或电子邮件地址都可在被存储在ISS 14处之前去除。ISS 14可进一步对存储在数据存储52处的信息进行加密,以防止访问其中存储的任何信息。此外,如果计算设备的用户确定性地同意这样的信息收集,则ISS 14仅可存储与那些用户相关联的信息。ISS 14可进一步为用户提供撤回同意的机会并且在该情况下,ISS 14可停止收集或者以其他方式保持与该特定用户相关联的信息。
实体模块16可诸如经由互联网20从互联网服务器22检索、接收、或者以其他方式获得互联网资源以及与该互联网资源相关联的资源信息,并且可将该互联网资源以及与该互联网资源相关联的资源信息存储到互联网数据存储52D中。
在某些示例中,由实体模块16获得的互联网资源可以是通过针对文档而爬取互联网20来获得的文档(例如,web页面)。在某些示例中,实体模块16可以不在互联网资源数据存储52D中存储互联网资源。相反,可以在别处存储互联网资源,诸如实体模块16可利用其来经由互联网20进行通信的一个或多个远程计算设备(未示出)上。
与互联网资源相关联的资源信息可包括关于可以没有被包括在互联网资源自身的本体中的互联网资源的场境信息。例如,与特定互联网资源相关联的资源信息可包括发布到互联网搜索引擎的查询,其导致经由指向在检索结果中所包括的互联网资源的链接来对该互联网资源的访问。在另一示例中,与特定互联网资源相关联的资源信息可包括从另一个互联网资源指向该互联网资源的链接的锚文本。在另一示例中,与特定互联网资源相关联的资源信息可包括该互联网资源的分类学类别。
由实体模块16获得的互联网资源可与多个实体相关联,使得每个实体可以与一个或多个互联网资源相关联。在某些示例中,实体可以是事件、地点、人、商业、电影、饭店等。实体可进一步与描述、位置、和时间中的一个或多个相关联。在某些示例中,对实体的描述可以是事件标题、商业名称等。位置可以是地理位置,诸如事件地点、商业地点等。在某些示例中,时间可以是事件发生的时间。
与特定实体相关联的互联网资源可以描述该特定实体。例如,如果特定实体是事件,则与该特定实体相关联的互联网资源可以是针对该事件的web页面、关于该事件的社交媒体发布、举办该事件的场所的web站点等。
实体模块16可至少从实体模块16所获得的互联网资源提取多个实体,并且可以对于该多个实体中的每个实体来确定与该特定实体相关联的一个或多个互联网资源。对于该多个实体中的每个实体,实体模块16可以至少从与该特定实体相关联的一个或多个互联网资源提取与该实体相关联的一个或多个特征以及与该一个或多个互联网资源相关联的资源信息。与该实体相关联的一个或多个特征可包括描述该实体的场境信息。在某些示例中,特征可包括诸如词、短语、句子等的场境信息。例如,实体模块16可以从与音乐会相关联的web页面提取诸如“贝多芬(Beethoven)”、“交响乐(symphony)”、“协奏曲(concerto)”、“管弦乐团(orchestra)”、“指挥(conductor)”、“钢琴家(pianist)”、“首席小提琴手(concertmaster)”、“小提琴手(violinist)”等的语和短语以作为描述或者以其他方式与该音乐会相关联的特征。
由实体模块16针对特定实体而提取的特征可以被归类为一个或多个特征类别,其对应于描述相关联的实体的信息的类型。特征类别的集合可以包括标题、周边、查询、锚、以及分类学中的一个或多个。从与该实体相关联的一个或多个互联网资源(例如,一个或多个web页面)的标题或头部(heading)提取的一个或多个特征可以被归类为属于特征标题类别,并且可包括描述该实体的一个或两个句子。从被包括在一个或多个互联网资源中的周边文本中提取的一个或多个特征——诸如与实体相关联的一个或多个web页面的主体,可以被归类为属于周边特征类别。
查询特征类别可包括从被发布到互联网搜索引擎的查询中提取的一个或多个特征,该查询导致经由指向被包括在搜索结果中的一个或多个互联网资源的链接来访问经由实体所关联的一个或多个互联网资源。例如,实体模块16可将导致对音乐会的web页面的访问的“古典音乐会(classical music concerts)”的查询归类为属于查询特征类别里面的特征“古典”、“音乐”、以及“音乐会”。
锚特征类别可包括从另一互联网资源指向与实体相关联的一个或多个互联网资源的链接的锚文本提取的一个或多个特征。因此,在一个示例中,如果web页面包含指向针对作为古典音乐会的实体的web页面的“古典音乐会”锚,则实体模块16可将“古典音乐会”的锚文本归类为属于与该古典音乐会相关联的实体的锚特征类别的特征“古典”和“音乐会”。
分类学特征类别可以包括从与实体相关联的一个或多个互联网资源的分类学类别提取的一个或多个特征。实体模块16可以执行互联网资源的分类学归类,来将与该实体相关联的一个或多个互联网资源中的每一个标记为与该一个或多个类别相关联,从诸如运动和艺术的较高级别类别到诸如高尔夫和摇滚乐的较低级别类别。
对于每个实体,实体模块16可以将特征值和与特定实体相关联的每个不同的特征相关联。与关联于实体的特征相关联的特征值可对应于从与该实体相关联的一个或多个互联网资源以及与该一个或多个互联网资源相关联的资源信息提取出相同特征的次数。例如,对于作为音乐事件的实体,特征“音乐会”可以出现很多次,诸如在一个或多个互联网资源的标题以及该互联网资源的主体中。通过将资源的单个实例与该实体相关联,并且通过向该实体指派特征值——其对应于从与该实体相关联的一个或多个互联网资源以及与该一个或多个互联网资源相关联的资源信息提取出相同特征的次数,实体模块16可对从与该实体相关联的一个或多个互联网资源以及与该一个或多个互联网资源相关联的资源信息中多次提取的相同事件进行去重。
作为从互联网资源以及从该互联网资源所关联的资源信息提取特征的结果,实体模块16可将一个或多个特征与多个实体中的每一个相关联,其中该一个或多个特征可以是描述或者以其他方式提供对应实体的场境信息的文本信息。通过将所述特征归类为特征类别,每个实体可与该特征类别中的一个或多个相关联,并且对于每个所关联的类别,可以与该特征类别中的一个或多个特征相关联。在某些示例中,实体可以与上述的五个特征类别中的每个类别中的特征相关联。在其他示例中,实体可以与少于上述的全部五个特征类别的特征相关联。在附加示例中,实体可以与不同于上述的特征类别的一个或多个附加特征类别中的特征相关联。
对于每个实体,实体模块16可以执行特征处理,以处理从互联网资源中提取的实体以及特征。例如,所述特征可包括文本信息,使得实体模块16可以执行对特征的词干分析(stemming)(例如,应用Porter词干器(stemmer))并且将经词干分析的特征变换为一元(unigram)以及二元(bigram)特征。
实体模块16还可以执行实体去重——诸如通过对具有相同名称或标题的实体进行去重,并且可执行特征合并以将与重复事件相关联的特征合并。如上所讨论,与该重复事件相关联的每个特征可具有相关联的特征值,其可对应于那些事件在相应特征类别中出现的频率。例如,如果词“爵士(jazz)”是在特定事件的周边特征类别中多次出现的特征,则特征“爵士”的特征值可对应于词“爵士”出现在与该实体相关联的一个或多个互联网资源中所包括的周边文本中的次数。为了将重复事件的特征合并,实体模块16可在待合并的特征落入标题、周边、查询、以及锚特征类别下的情况下,将那些特征的特征值确定为两个实体的相同特征的特征值的和。对于落入分类学特征类别的实体,实体模块16也可将待合并的特征的特征值确定为两个实体的相同特征的特征值中的最大。
作为特征处理的一部分,实体模块16也可执行停止词去除以及特征再加权以在信息检索中减小特征噪声。停止词去除可包括全局停止词去除以及局部停止词去除。为了执行全局停止词去除,实体模块16可确定所提取的特征中的每个特征的特征频率,其可以是与特定特征相关联的实体的数目。实体模块16可以确定具有相对高的特征频率(例如与多于阈值数目的实体相关联的特征、相关联的特征频率百分比在前10中的特征等)的特征可以是全局停止词,并且可以从实体中去除那些特征或者以其他方式将那些特征与实体解除关联。
实体模块16还可以执行局部停止词去除以去除局部停止词。局部停止词可以是特定区域的实体的频繁特征,其在执行全局停止词去除之后仍然保持。如上所讨论,每个实体可具有相关联的地理位置或地理区域。例如,当聚焦在诸如纽约的特定位置的实体上时,来自纽约的许多实体可以包含短语“纽约(New York)”,其在停止词去除期间可不被去除。对于特定地理位置(例如,纽约),实体模块16可以执行局部停止词去除,以去除作为该特定地理位置中的实体的特征而频繁出现的词或短语。因此,通过确定与地理位置相关联的特定区域内的特征频率以及去除与该地理位置相关联的停止词,实体模块16可针对实体的相关联的地理位置来执行局部停止词去除。
对于每个实体,通过确定与该实体相关联的每个特征的特征权重——其至少部分地基于相应实体的每个特征的特征频率,实体模块16可以进一步执行与该实体相关联的一个或多个特征的特征再加权。换言之,实体模块16可以至少部分地基于与特定实体相关联的特定特征的特征值来对该特定特征进行再加权,因为它关于该特定实体。如果特征与多个实体相关联,则实体模块16可以对于每个特征-实体对确定单独的特征权重,使得这样的特征可以与多个特征权重相关联,与其相关联的每个实体各有一个特征权重。
对于每个实体,执行特征再加权可包括按比例减小该实体具有高特征值的频繁特征以及按比例增大该实体具有低特征值的特征,这是因为即使在执行停止词去除之后还可能存在特征频率的偏态分布(skewed distribution)。对于实体的每个特征的频率,实体模块16可以通过对频率进行对数扩缩并将经对数扩缩的频率与其倒排文档频率(inversedocument frequency)相乘来应用对数标准化的词频-倒排文档频率(term frequency-inverse document frequency)(TF-IDF),以确定在实体i中特定特征j的权重,如下:其中weightij 可以是与实体i相关联的特征j的特征权重,tfij可以是实体i中的特征j的频率,诸如实体的特征的特征值,N可以是集合大小(即,实体的总数目),dfj可以是其中出现特征j的实体的数目。这样,对于每个实体,实体模块16可以为与特定实体相关联的每个特征确定权重。
实体模块16可以将实体、特征、和从互联网资源提取的每个实体的特征类别的关联的指示存储到实体-特征数据存储52A中,以及与该实体相关联的每个特征的特征权重。例如,对于作为结构化数据的每个实体,实体模块16可存储与该结构化数据相关联的至少一个或多个特征、该一个或多个特征中的每个特征的特征权重、以及该一个或多个特征落入的一个或多个特征类别。实体模块16可进一步将与实体相关联的任何附加信息存储到特征-实体数据存储52A中,所述附加信息诸如与实体中的每一个相关联的地理位置,或者任何其他合适的信息。
对于特定实体,排名模块18可确定与该特定实体相关的一个或多个实体的排名。与该特征实体相关的一个或多个实体的排名可以是具有与存储在特征-实体数据存储52A中的一组实体当中的特定实体的最高相关性水平的一个或多个实体的指示。如果一组实体中的每个实体均具有指示相应实体与该特定实体之间的相关性水平的关联的相似性分值,则与该特定实体相关的一个或多个实体可以是该实体集合当中关于该特定实体具有最高相似性分值的一个或多个实体。换言之,给定对该特定实体感兴趣的随机用户,则与该特定实体相关的一个或多个实体可以是存储在特征-实体数据存储52A中的一组实体当中相同随机用户会最感兴趣的一个或多个实体。
在某些示例中,排名模块18可以确定被存储在特征-实体数据存储52A中的实体中的每一个之间的相关性水平(例如,相似性分值)。因此,在此示例中,对于存储在特征-实体数据存储52A中的每个实体,排名模块18可以确定特定实体与存储在特征-实体数据存储52A中的每个其他实体之间的相关性水平。
在其他示例中,由于对特定实体感兴趣的用户也可能仅对处于相同地理区域内的其他实体感兴趣,不同于确定特征-实体数据存储52A中所存储的实体中的每一个之间的相关性水平,排名模块18作为替代可确定仅在存储在特征-实体数据存储52A中的、处于相同的地理区域或位置或者与该相同的地理区域或位置相关联的实体之间的相关性。排名模块18可以至少部分地基于与实体相关联的地理位置来确定该实体是否在相同的地理区域内。这样,在此示例中,排名模块18可以确定在特征-实体数据存储52A中所存储的实体的子集(例如,小于全部)中的每个之间的相关性水平(例如,相似性分值)。
在一个示例中,排名模块18可以执行组合器(combiner)技术,以确定与一组实体中的每一个相关的一个或多个实体的排名。排名模块18可以执行组合器技术,以确定存储在特征-实体数据存储52A中的一组实体中的每个实体之间的相关性。例如,排名模块18可以确定存储在特征-实体数据存储52A中的与相同地理区域或者地理位置相关联的一组实体中的每个实体之间的相关性水平。对于可被称作源实体的特定实体,排名模块18可以通过确定该源实体与称作目标实体的另一实体之间的相同特征集合中的特征的相似性水平,来确定该源实体和该目标实体之间的相关性水平。
假定与源实体和目标实体相关联的k个特征类别的列表,可以是属于源实体S的特征类别j的特征集合,并且可以是从目标实体T的特征类别j提取的特征集合。对于特定的特征类别j,排名模块18可以确定源实体S与目标实体T之间的相似性分值为其中sc()是相似性分值函数,并且其中相似性分值对应于该特征类别的源实体和目标实体之间的相似性水平。
更具体的,为了确定特定的特征类别的源实体S和目标实体T之间的相似性分值,排名模块18可以将每个实体视为特征的分布。为此,排名模块18可以利用Jeffreys-Kullback-Leibler散度——其可以是Kullback-Leibler散度的对称版本,来确定源实体和目标实体的特征的分布之间的差异的度量。给定特征集合和排名模块18可以将特征类别j的源实体S和目标实体T之间的相似性定义为其中D(·||·)是Kullback-Leibler散度。这样,排名模块18可以执行组合器技术,以确定源实体和目标实体之间的每个特征类别的相似性分值。
排名模块18可以执行组合器技术,以确定k个特征类别中的每一个的源实体S和目标实体T之间的相似性分值为基于源实体和目标实体之间的每个特征类别的相似性分值,排名模块18可以将源事件和目标事件之间的总体相似性分值确定为源实体和目标实体之间的每个特征类别的相似性分值的聚合。具体地,排名模块18可以基于特征类别中的每一个的相似性分值来将源实体S和目标实体T之间的总体相似性分值确定为其中Φ可以是聚合函数。
给定特征类别j,源实体S和目标实体T的相似性分值可以被标示为rj。排名模块18可以通过倒数排名融合(Reciprocal Rank Fusion)将源实体S和目标实体T的特征类别中的每一个的相似性分值组合为单个排名列表。给定目标实体T相对于源实体S与相似性分值相关联,源实体S和目标实体T之间的总体相似性分值sc(S,T)可以被表达为:其中j可以是特征类别中的每一个,并且其中K可以是大的预定义常数,其减小了离群值排名给出的高排名的影响。在一个示例中,K可以是60。
因此,通过执行组合器技术,排名模块18可以至少部分地基于两个实体的特征之间的相似性的聚合来确定两个实体之间的相关性水平。如上所讨论,排名模块18可确定在特征-实体数据存储52A中所存储的实体中的一组实体中的每个实体之间的相关性水平,并且可以将排名模块18所确定的一组实体中的每个实体之间的相关性水平的指示存储到排名数据存储52C中。例如,排名数据存储52C可以将实体对的指示连同相关联的相关性水平——诸如相似性分值的指示一起存储到排名数据存储52C中。
在其他示例中,对于一组实体中的每个实体,排名模块18可基于在特征-实体数据存储52A中所存储的实体当中的一组实体中的每个实体之间的相关性水平来确定与该特定实体相关的一个或多个实体的排名,诸如具有与该组实体当中的特定实体的最高相关性水平的一个或多个实体的排名,并且可以将与该组实体中的每个实体相关的一个或多个实体的排名的这样的指示存储到排名数据存储52C中。
这样,例如,ISS 14可以从计算设备2接收对实体的指示,根据存储在排名数据存储52C中的数据来确定与特定实体相关的一个或多个实体的排名,并且将与该特定实体相关的一个或多个实体的排名的指示传送至计算设备2。在一个示例中,ISS 14从计算设备2接收的实体的指示可以指示与该实体相关联的名称,诸如“Miles Davis”或者“Beethoven’s 5thsymphony(贝多芬第五交响曲)”。排名模块18可利用与该实体相关联的名称来在排名数据存储52C中进行索引,以找出与该名称相关联的实体,并且可以确定排名数据存储52C内、与该特定实体相关的一个或多个实体的排名的指示被存储的位置。排名模块18可检索与该特定实体相关的一个或多个实体的排名的指示。ISS14可以将与该特定实体相关的一个或多个实体的排名的所检索的指示格式化为任何合适的结构化数据格式——诸如JSON或者XML以用于传送该一个或多个实体的排名的指示,并且可以诸如经由网络12或互联网20将该一个或多个实体的指示输出至计算设备2。
在其他示例中,不同于从排名数据存储52C中检索与该特定实体相关的一个或多个实体的排名,ISS 14可以响应于例如从计算设备2接收到对实体的指示而使用本文所述的组合器技术来在运行中(on-the-fly)确定与该特定实体相关的一个或多个实体的排名,并使用本文所述的技术诸如经由网络12或互联网20来将一个或多个实体的排名的指示输出至计算设备2。
在另一示例中,ISS 14可以例如从计算设备2接收对查询的指示。查询可以是文本数据,诸如词、短语等,计算设备2可以接收该查询以作为输入。例如,查询可以是对于与该查询相关的一个或多个实体的搜索短语。响应于接收对查询的指示,计算设备2可以经由排名模块18来确定与该查询相关的一个或多个实体的排名,并且可向计算设备2输出与该查询相关的一个或多个实体的排名的指示。
具体地,响应于计算设备2接收诸如“马拉松(marathon)”的查询的指示,排名模块18可以部分地基于执行本文所述的组合器技术来确定与该搜索短语相关的一个或多个实体的排名。排名模块18可以确定均具有与所发布的查询匹配的实体名称或标题的一个或多个实体的集合为种子集合S。使用这些种子实体,排名模块18可以确定与种子集合S内的每个实体相关的一个或多个实体——包括该种子实体在内——为候选实体CS集合。排名模块18可以通过该候选实体CS集合内的候选实体的相应相似性分值来对它们进行排名。如果从不同的种子实体中多次检索到该候选实体集合内的实体,则因为排名模块18确定该实体与种子集合S中的多于一个的实体相关,所以排名模块18可以对其相似性分值进行合计,以得出该实体的单个相似性分值。更正式地,目标实体T与查询Q的相似性可以被定位为其中sc(S,T)可以由排名模块18根据本文所公开的组合器技术来计算。排名模块18可以根据与候选实体CS中的实体相关联的相似性分值来确定与该查询相关的一个或多个实体的排名,并且可以使用本文所述的技术诸如经由网络12或互联网20来向计算设备2输出对一个或多个实体的排名的指示。
在另一个示例中,排名模块18可以执行扩展器技术,以确定与一组实体中的每个实体相关的一个或多个实体的排名。排名模块18可以执行扩展器技术以确定在特征-实体数据存储52A中所存储的一组实体中的每个实体之间的相关性水平。具体地,排名模块18可以执行扩展技术,以至少部分地基于确定给定的一对两个实体的特征之间的语义相关性来确定该两个实体之间的相关性水平。例如,排名模块18可以确定如果两个实体二者都与第三方实体高度相似,则该两个实体高度相似,即使基于执行上文所讨论的组合器技术两个实体具有相对低的相似性度量。
为此,排名模块18可以生成特征-实体二分图(关于图3A-3C进行更详细地描述),其中特征和实体都被表示为节点。具体地,该图可包括多个节点,其包括表示多个特征的特征节点以及表示多个实体的实体节点。图中的实体节点中的每一个可经由均具有边权重的一个或多个边来连接至该特征节点中的一个或多个,其中如果由该实体节点表示的实体与由该特征节点表示的特征相关联,则该实体节点可连接至该特征节点。
排名模块18可以将由排名模块18生成的特征-实体二分图的指示作为数据来存储到图数据存储52B中,其可包括一个或多个数据结构,诸如阵列、数据库记录、寄存器等。例如,排名模块18可以将指示多个特征节点、多个实体节点、将每个实体节点连接到所述特征节点中的一个或多个的一个或多个边、该一个或多个边的边权重等的数据存储到图数据存储52B中。在一个示例中,对于特征-实体二分图的每个实体节点,排名模块18可将以下存储到图数据存储52B中:指示该实体节点所表示的实体的数据、指示连接到该实体节点的一个或多个特征节点的数据、和/或将该实体节点连接至该一个或多个特征节点中的每一个的一个或多个边的边权重的值。类似地,对于特征-实体二分图的每个特征节点,排名模块18可以将指示特征节点所表示的特征的数据存储在图数据存储52B中。
贯穿本公开,术语特征-实体二分图或者图可以与存储在图数据存储52B中的指示该特征-实体二分图的数据同义。换言之,尽管本公开可以在特征-实体二分图上描述由模块16和18执行的操作,但是应当理解,模块16和18实际上可在指示特征-实体二分图的图数据存储52B中所存储的数据上进行操作,该数据诸如特征节点、实体节点、边、边权重、实体节点中的每一个与特征节点中的一个或多个之间经由边的连接等,其可组成该特征-实体二分图。
将实体节点连接到特征节点的每个边可以具有边权重,该边权重对应于特征节点所表示的特征的特征权重,该特征节点与所连接的实体节点所表示的实体相关联,如上面关于特征再加权所讨论。在某些示例中,在图中,实体节点可不连接至其他实体节点,并且特征节点可不连接至其他特征节点。如果实体的特征出现在多个特征类别中,则排名模块18可以将那些特征叠缩为由连接到表示该实体的实体节点的单个特征节点所表示的单个特征。例如,排名模块18可将对于特定实体被归类为查询特征类别和标题特征类别二者的特征“电影(movie)”叠缩为由单个特征节点表示的单个特征,并且可以将两个特征中该特征的特征权重合计为将实体节点连接至特征节点的边的单个边权重中,从而减小了特征维度并减轻了特征稀疏性问题。
从概念上来讲,排名模块18可以确定一对实体的相关性,诸如源实体S和目标实体T之间的相关性为其中是图内与实体S和T相关联的实体节点的邻域,并且其中可以对整个图结构建模来找出相关的实体对,所述实体对在图中经由多个跃点(hop)连接(例如,不仅直接相邻)。
换言之,两个实体节点可以因为他们都连接到相同的特征节点而在图中处于彼此的直接邻域内。然而,基于源实体和目标实体的特征之间的相似性连同由处于表示源实体和目标实体的实体节点的邻域内的实体节点表示的另一实体的特征一起,排名模块18仍然可以确定两个实体相关,即使它们的相应实体节点并不处于彼此的直接邻域内。因此,对于特定的源实体,即使表示该源实体和目标实体的实体节点没有连接至相同的特征节点,只要表示该源实体和该目标实体的实体节点与处于表示该源实体和目标实体的实体节点邻域内的实体节点所表示的另一实体相关,排名模块18就可确定该源实体与目标实体相关。
在生成了特征-实体二分图后,排名模块18可以执行标签传播来跨特征-实体二分图传播标签,以将标签的分布与该多个节点中的每个节点相关联,使得图中的每个节点可以与标签的分布相关联。因此,作为标签传播的结果,图中的每个特征节点和每个实体节点可与标签的分布相关联。如上所讨论,跨特征-实体二分图来执行标签传播可包括排名模块18在指示特征-实体二分图的图数据存储52B中的数据存储上操作,以执行标签传播。
排名模块18跨图来传播的标签中的每一个可指示被表示为该图中的节点的实体中的一个,使得与该图中的节点相关联的标签的分布可以是与该特定节点所表示的实体或特征相关的一个或多个实体的分布。此外,与图中的节点相关联的标签的分布可以指示在一个或多个实体的分布中的一个或多个实体中的每个实体与由该特定节点表示的实体或特征的相关性水平,使得与图中的节点相关联的标签的分布可以是与由特定实体节点或特征节点所表示的实体或特征相关的一个或多个实体的相关性排名的指示。
为了发起跨特征-实体二分图的标签传播,排名模块18可以通过利用多个标签中的一个对多个实体节点中的每一个进行播种来将标签与每个实体节点相关联。初始与实体节点相关联的这样的标签可以被称为种子标签。与特定实体节点相关联的标签可以标识由该实体节点表示的实体,使得排名模块18所播种的标签中的每一个标签可以标识实体节点中的对应实体节点。每个标签可以是身份标签,使得实体可以是其自身的相关标签。因此,表示实体A的实体节点可以与“实体A”的标签相关联,其可以是关联的实体的标题。
排名模块18可以执行标签传播,以跨图来传播与该实体节点相关联的标签,使得每个节点可以与标签中的一个或多个的分布相关联。为了执行标签传播,排名模块18可以将与图的每个节点相关联的标签的分布确定为使目标函数最小化的最优解。
给定特征-实体二分图,目标函数可以同时在图中全部节点上的使以下最小化:真实和诱导(induced)的标签分布之间的平方损失、惩罚具有与该实体节点不同的标签分布的相邻特征节点的正则项(regularization term)、以及将所诱导的标签分布向在先的分布平滑的正则项,其在实践中通常是均匀分布。
更具体地,对于具有其特征邻居 的每个实体节点i,其中实体节点的特征邻居可以是经由边而直接连接至该实体节点的特征节点,排名模块18可以将与该实体节点相关联的标签的分布确定为使最小化的目标函数的最优解,其中是实体节点i的经学习标签分布,Yi是真实标签分布,μnp是对于具有发散(divergent)标签分布的相邻节点的预定义惩罚,是特征邻居j的经学习标签分布,wij是实体i中的特征j的权重,μpp是对于偏离在先的均匀分布U的标签分布的惩罚。在某些示例中,μnp可以是0.5,并且μpp可以是0.001。
因此,在此示例中,可以是与实体节点相关联的真实标签分布和与该实体节点相关联的经学习标签分布之间的平方损失,其中Yi是与实体节点i相关联的真实标签分布,是实体节点i的经学习标签分布。与实体节点i相关联的真实标签分布可以是排名模块18对于实体节点i播种的标签,而作为排名模块18在图上执行标签传播的结果,经学习标签分布可以是与实体节点i相关联的标签的分布。
此外,μnp可以是惩罚相邻特征节点的第一正则项,该相邻特征节点关联于与实体节点相关联的标签分布不同的标签分布,其中表示与相邻特征节点相关联的标签分布和与实体节点i相关联的标签分布之间的差异,其中作为排名模块18在图上执行标签传播的结果,是与特征节点j相关联的标签分布,该特征节点j经由具有边权重wij的边而连接至实体节点i。此外,μpp可以是第二正则项,其通过将μpp与相乘,将与实体节点相关联的经学习的标签分布向在先的标签分布平滑。
对于具有其实体邻居的每个特征节点j——该实体邻居经由边而直接连接至该特征节点j的,排名模块18可以将与特征节点相关联的标签分布确定为使的目标函数最小化的最优解。特征节点的目标函数与实体节点的目标函数类似,除了不存在第一项,因为排名模块18没有为特征节点提供种子标签。因此,μnp可以是惩罚相邻实体节点的第一正则项,该相邻实体节点关联于与特征节点相关联的标签分布不同的标签分布,其中可以表示与相邻实体节点相关联的标签分布和与特征节点j相关联的标签分布之间的差异。此外,μpp可以是第二正则项,其通过将μpp与相乘来将与特征节点相关联的经学习标签分布向在先的标签分布平滑。
通过执行标签传播,排名模块18可以将图的实体节点和特征节点的标签分布确定为使整个图上的目标函数最小化的最佳解。因此,尽管排名模块18可能没有使每个个体实体节点或特征节点的目标函数最小化,但是排名模块18可以使构成图的特征节点和实体节点的总体目标函数最小化。
排名模块18可以执行无监督机器学习,以执行本文所讨论的标签传播。具体地,给定其中多个实体节点经由具有关联的边权重的边来连接至多个特征节点的特征-实体二分图,其中多个实体节点利用多个标签来被播种,排名模块18可以以多次迭代(例如,5次迭代)执行标签传播而无需附加输入,以对于该图的每个节点确定标签分布来最小化上述的目标函数。
通过执行标签传播,排名模块18可以将标签的分布与图中的每个节点相关联。与节点相关联的标签分布中的每一个可包括与相关联的实体节点或特征节点所表示的实体或特征相关的一个或多个实体的排名的指示。由于图中的每个标签可以标识实体节点所表示的特定实体,因此与节点相关联的标签的分布可以指示与该节点所表示的特定特征或实体相关的一个或多个实体的实体名称。此外,与节点相关联的标签分布还可指示实体与该节点所表示的特定特征或实体的相关性水平。这样,标签的分布可以指示与相关联的实体节点或特征节点所表示的实体或特征相关的一个或多个实体的排名。排名模块18可以将图中所表示的每个实体和每个特征的指示存储到排名数据存储52C中,包括与该实体或特征相关的一个或多个实体的排名的指示(通过相关性水平)。
因此,ISS 14可以经由网络12或互联网20从例如计算设备2接收指示实体或者特征的指示的输入数据,根据存储在排名数据存储52C中的数据来确定与该实体或特征相关的一个或多个实体的排名的指示,并且将包括与特定实体或特征相关的一个或多个实体的排名的指示的传出数据传送至计算设备2。在一个示例中,对ISS 14从计算设备2接收的实体的指示可以指示与该实体相关联的名称,诸如“Miles Davis”或者“Beethoven’s5thSymphony”。排名模块18可以利用与该实体相关联的名称来在排名数据存储52C中进行索引,以找出与该名称相关联的实体,并且可以确定排名数据存储52C内、与该特定实体相关的一个或多个实体的排名的指示被存储的位置。排名模块18可以检索与该特定实体相关的一个或多个实体的排名的指示。ISS 14可将与该特定实体相关的一个或多个实体的排名的所检索的指示格式化为任何合适的结构化数据格式——诸如JSON或者XML以用于传送该一个或多个实体的排名的指示,并且可诸如经由网络12或互联网20将该一个或多个实体的指示输出至计算设备2。
在另一个示例中,ISS 14可以从例如计算设备2接收指示查询的传入数据。查询可以是文本数据,诸如词、短语等,计算设备2可以接收该查询以作为输入。例如,查询可以是对于与查询相关的一个或多个实体的搜索短语。响应于接收对该查询的指示,计算设备2可经由排名模块18来确定与该查询相关的一个或多个实体的排名,并且可将与该查询相关的一个或多个实体的排名的指示输出至计算设备2。
给定诸如“马拉松”的对查询的指示,排名模块18可确定与该查询相关的一个或多个实体的排名。排名模块18可以将该查询视为特征,诸如通过将该查询的文本映射到特征的文本,从而确定其中FQ是映射到查询Q的全部特征的集合。具体地,由于每个特征与标签的分布相关联,其指示与该特征相关的一个或多个实体的排名,排名模块18可以确定查询所映射的特定特征,在排名数据存储52C上进行索引来找出该特定特征,并且可以确定排名数据存储52C内、与该特定特征相关的一个或多个实体的排名的指示被存储的位置。排名模块18可以检索与该特定特征相关的一个或多个实体的排名的指示。ISS 14可以将与该特定特征相关的一个或多个实体的排名的所检索的指示格式化为任何合适的结构化数据格式——诸如JSON或者XML以用于传送该一个或多个实体的排名的指示,并且可诸如经由网络12或互联网20向计算设备2输出该一个或多个实体的指示。
图3A-3C是均图示了示例特征-实体二分图的框图,排名模块18可以构造该特征-实体二分图来执行根据本公开的方面的扩展器技术。如图3A所示,排名模块18可以生成包括经由边86A-86F所连接的连接至特征节点84D-84F的实体节点84A和84B的特征-实体二分图80。排名模块18可以分别利用标签88A和88B来对实体节点82A和84B进行播种。边86A-6F中的每一个可以具有相关联的边权重(未示出)。
排名模块18可以通过运用标签传播的构思来在图90上执行机器学习,所述标签传播是基于图的学习技术,其使用与每个标签的种子节点相关联的信息并且以有原则且迭代的方式将这些标签在该图上传播。标签传播可利用两个输入源:图80以及种子标签88A和88B。排名模块8可以基于图80上的所提供的图结构来对种子标签88A和88B进行传播,以将图80中的节点84A-84F中的每一个的种子标签的分布关联为使目标函数最小化的最优解。
排名模块18可以以多个迭代来执行标签传播,以将图80中的节点84A-84F中的每一个的种子标签的分布关联为使目标函数最小化的最优解。图3B示出了在图80上的标签传播的第一迭代。如图3B所示,在标签传播的第一迭代之后,排名模块18可以分别将标签82A-82F的分布与节点84A-84F相关联。排名模块88还可跨图80来分发标签88A和88B,使得标签8A-82F的分布可以包括标签88A和88B中的一个或二者的指示。标签的每个分布可包括对一个或多个相关实体的指示以及由节点表示的实体或特征与该一个或多个相关实体中的每一个之间的相关性水平的指示。例如,与特征节点84D相关联的标签82D的分布包括实体Science Fiction Movies(科幻电影)和Science Ficiton Films(科幻影片)的指示,并且包括那些实体和与特征节点84D相关联的特征之间的、在0到1.0数值范围上的相关性的指示,其中较大的分值指示较高的相似性水平。
排名模块18可以进一步在图80上迭代执行标签传播。图3C示出了在图80上的标签传播的进一步迭代。如图3C所示,在场传播的进一步迭代之后,排名模块18可以进一步修改与节点84A-84F中的一个或多个相关联的标签分布,以确定使图80上的目标函数最小化的优化解。例如,节点82C的分布现在包括实体Science Fiction Movies和Science FicitonFilms的指示,并且包括与特征节点84D关联的那些实体和特征之间在0到1.0比例上的相关性指示,其中分值越大表示相似性水平越高。
图4是图示根据本公开的一个或多个方面的、用以确定相关实体的示例过程的流程图。在某些示例中,该过程可由图1和2所示的ISS14、实体模块16、以及排名模块18中的一个或多个来执行。在某些示例中,该过程可利用图1-2所示的附加模块或组件来执行。仅仅出于说明的目的,在一个示例中,该过程由图2中所示的ISS 14来执行。如图4所示,该过程可包括由排名模块18生成包括多个节点的图,诸如图80,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每一个在图中连接至该多个特征节点中的一个或多个上(102)。该过程进一步包括由排名模块18执行标签传播来跨图传播多个标签,以将标签的分布与该多个节点中的每一个相关联(104)。在某些示例中,ISS 14可以被配置来接收感兴趣特征或感兴趣实体中的至少一个的指示。在某些示例中,ISS 14可以被配置来输出与该感兴趣特征或该感兴趣实体相关的一个或多个相关实体的指示。
在某些示例中,该过程可进一步包括由排名模块18利用该多个标签中的相应标签对该多个实体节点中的每个节点进行播种,其中该标签中的每个标签标识该多个实体节点中的对应节点。在某些示例中,执行标签传播可进一步包括由排名模块18执行标签传播,以将与该多个节点中的每个节点相关联的标签的分布确定为使目标函数最小化的最优解。
在某些示例中,该多个特征节点的针对实体节点的目标函数被最小化,并且其中该目标函数包括:与实体节点相关联的真实标签分布和与该实体节点相关联的经学习标签分布之间的平方损失;惩罚相邻特征节点的第一正则项,该相邻特征节点关联于与该实体节点相关联的标签分布不同的标签分布;以及将与该实体节点相关联的经学习标签分布向在先的标签分布平滑的第二正则项。
在某些示例中,该多个特征节点的针对特征节点的目标函数被最小化,并且其中该目标函数包括:惩罚相邻实体节点的第一正则项,该相邻实体节点关联于与该特征节点相关联的标签分布不同的标签分布;以及将与该特征节点相关联的经学习标签分布向在先的标签分布平滑的第二正则项。
在某些示例中,标签分布中的每一个包括与关联的实体节点或特征节点所表示的实体或特征相关的一个或多个实体的排名的指示。在某些示例中,与关联的节点所表示的实体或特征相关的一个或多个实体的排名的指示包括:该一个或多个实体中的每一个与关联的实体节点或特征节点所表示的实体或特征的相关性水平的指示。
在某些示例中,该过程进一步包括由排名模块18经由图的一个或多个边来将图中表示对应实体的多个实体节点中的每个节点和图中表示与该对应实体相关联的一个或多个特征的多个特征节点中的一个或多个特征节点连接。在某些示例中,该过程可进一步包括由排名模块18将一个或多个权重关联至该一个或多个边。
在某些示例中,该过程可进一步包括由实体模块16从与该多个实体相关联的多个互联网资源提取与该多个实体相关联的多个特征。在某些示例中,该多个实体与相同地理区域相关联。
图5是图示根据本公开的一个或多个方面的、用以确定相关实体的示例过程的流程图。在某些示例中,该过程可由图1和2中所示的ISS 14、实体模块16、以及排名模块18中的一个或多个来执行。在某些示例中,该过程可利用图1-2所示的附加模块或组件来执行。仅仅出于说明的目的,在一个示例中,该过程由图2所示的ISS 14来执行。如图5所示,该过程可包括由ISS 14的通信单元46接收感兴趣特征或感兴趣实体中的至少一个的指示(202)。该过程可进一步包括:由ISS14的一个或多个处理器44至少部分地基于图中表示该感兴趣特征的多个特征节点中的一个或者图中表示该感兴趣实体的多个实体节点中的一个相关联的相应标签分布,来确定与该感兴趣特征或感兴趣实体相关的一个或多个相关实体,其中该图包括多个节点,其中该多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中该多个实体节点中的每一个在图中连接到该多个特征节点中的一个或多个上,并且其中多个标签经由标签传播来跨图上传播,以将标签分布与多个节点中的每个节点相关联(204)。该过程可进一步包括:对于该感兴趣特征或感兴趣实体中的至少一个、由ISS 14的通信单元46输出与该感兴趣特征或感兴趣实体相关的一个或多个相关实体的指示,其中输出该一个或多个相关实体的指示至少部分地基于与表示感兴趣特征的多个特征节点中的一个或表示感兴趣实体的多个实体节点中的一个相关联的相应标签分布(206)。
在某些示例中,接收该感兴趣特征或该感兴趣实体中的至少一个的指示进一步包括由ISS 14经由网络12从远程计算设备2接收指示该感兴趣特征或该感兴趣实体中的至少一个的传入数据,并且对于该感兴趣特征或感兴趣实体中的至少一个,由ISS 14输出与该感兴趣特征或感兴趣实体相关的一个或多个相关实体的指示进一步包括由ISS 14经由网络12向远程计算设备2传送传出数据,该传出数据包括与该感兴趣特征或该感兴趣实体相关的一个或多个相关实体的指示。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合中实施。如果以软件实现,则所述功能可以作为一个或多个指令或代码被存储在计算机可读介质上或者通过计算机可读介质传送,并由基于硬件的处理单元来执行。计算机可读介质可包括:一个或多个计算机可读存储媒介或介质,其对应于诸如数据存储介质的有形介质,或者通信介质,其包括例如根据通信协议来促进计算机程序从一个地点传送至另一个地点的任何介质。这样,计算机可读介质通常可对应于:(1)非暂时性的有形计算机可读存储介质;或者(2)诸如信号或载波的通信介质。数据存储介质可以是任何可用介质,其可由一个或多个计算机或者一个或多个处理器来访问以检索指令、代码和/或数据结构,以用于实现本公开所述的技术。计算机程序产品可包括计算机可读介质。
作为示例而非限制,这样的计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或者其他光盘存储、磁盘存储、或者其他磁存储设备、闪存、或者可用于以指令或数据结构的形式存储期望的程序代码并可由计算机访问的任何其他存储介质。此外,任何连接被适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字订户线路(DSL)、或者诸如红外、无线电、以及微波的无线技术从网站、服务器或者其它远程源传送指令,则同轴线缆、光纤线缆、双绞线、DSL或者诸如红外、无线电、以及微波的无线技术包括在介质的定义中。然而,应当理解,计算机可读存储媒介、介质以及数据存储介质不包括连接、载波、信号或其他变换介质,而是涉及非暂时性的、有形存储介质。本文所使用的磁盘或者光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘(Blu-ray dics),其中磁盘通常以磁方式来再现数据,而光盘利用激光来以光学方式再现数据。以上的组合应当也应当被包括在计算机可读取介质的范围内。
指令可由一个或多个处理器来执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或者其他等效的集成或分离逻辑电路。因此,本文所使用的术语“处理器”可以指代前述结构中的任一或者适合实现本文所述的技术的任何其他结构。此外,在某些方面,本文所述的功能可以在专用硬件和/或软件模块中提供。此外,所述技术可以完全在一个或多个电路或者逻辑元件中实现。
本公开的技术可以以广泛多种设备或装置实现,包括无线送受话器、集成电路(IC)或者IC集合(例如芯片组)。本公开中描述了各个组件、模块、或单元以强调被配置来实现所公开技术的设备的功能方面,而无需通过不同的硬件单元实现。相反,如上所述,各种单元可以被组合在硬件单元中,或者由协作硬件单元的集合来提供,包括与合适的软件和/或固件结合的上述的一个或多个处理器。
已经描述了各个实施例。这些以及其他实施例均落入所附权利要求书的范围内。
Claims (19)
1.一种用于确定相关实体的方法,包括:
由计算设备生成包括多个节点的图,其中,所述多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中所述多个实体节点中的每个实体节点在所述图中连接至所述多个特征节点中的一个或多个特征节点;
由所述计算设备执行标签传播来跨所述图传播多个标签以将标签分布与所述多个节点中的每个节点相关联;
其中,所述计算设备被配置来:
接收感兴趣特征或感兴趣实体中的至少一个的指示,以及
对于所述感兴趣特征或所述感兴趣实体中的所述至少一个,输出与所述感兴趣特征或所述感兴趣实体相关的一个或多个相关实体的指示,其中,输出所述一个或多个相关实体的所述指示至少部分地基于与所述多个特征节点中表示所述感兴趣特征的一个特征节点或者所述多个实体节点中表示所述感兴趣实体的一个实体节点相关联的相应标签分布。
2.根据权利要求1所述的方法,其中,由所述计算设备执行所述标签传播进一步包括:
由所述计算设备利用所述多个标签中的相应标签对所述多个实体节点中的每个实体节点进行播种,其中,所述多个标签中的每个标签标识所述多个实体节点中的对应实体节点。
3.根据权利要求2所述的方法,其中,由所述计算设备执行所述标签传播进一步包括:
由所述计算设备执行所述标签传播,以将与所述多个节点中的每个节点相关联的标签分布确定为使目标函数最小化的最优解。
4.根据权利要求3所述的方法,其中,针对所述多个实体节点中的实体节点所述目标函数被最小化,并且其中,所述目标函数包括:
与所述实体节点相关联的真实标签分布和与所述实体节点相关联的经学习标签分布之间的平方损失;
惩罚相邻特征节点的第一正则项,所述相邻特征节点和与关联于所述实体节点的标签分布不同的标签分布相关联;
将与所述实体节点相关联的经学习标签分布向在先的标签分布平滑的第二正则项。
5.根据权利要求3所述的方法,其中,针对所述多个特征节点中的特征节点所述目标函数被最小化,并且其中,该目标函数包括:
惩罚相邻实体节点的第一正则项,所述相邻实体节点和与关联于所述特征节点的标签分布不同的标签分布相关联;
将与所述特征节点相关联的经学习标签分布向在先的标签分布平滑的第二正则项。
6.根据权利要求1所述的方法,其中,每一个标签分布包括:与相关联的实体节点或特征节点所表示的实体或特征相关的一个或多个实体的排名的指示。
7.根据权利要求6所述的方法,其中,与所述相关联的实体节点或特征节点所表示的所述实体或特征相关的所述一个或多个实体的排名的指示包括:所述一个或多个实体中的每个实体与所述相关联的实体节点或特征节点所表示的所述实体或特征的相关性水平的指示。
8.根据权利要求1所述的方法,进一步包括:
由所述计算设备经由所述图的一个或多个边将所述图中表示对应实体的所述多个实体节点中的每个节点与所述图中表示与所述对应实体相关联的一个或多个特征的所述多个特征节点中的一个或多个节点连接。
9.根据权利要求8所述的方法,进一步包括:
由所述计算设备将一个或多个权重关联至所述一个或多个边。
10.根据权利要求1所述的方法,进一步包括:
由所述计算设备从与所述多个实体相关联的多个互联网资源提取与所述多个实体相关联的多个特征。
11.根据权利要求1所述的方法,其中,所述多个实体与相同的地理区域相关联。
12.一种计算系统,包括:
存储器;以及
与所述存储器通信地耦合的至少一个处理器,所述至少一个处理器被配置来:
生成存储在所述存储器中的、包括多个节点的图,其中,所述多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中所述多个实体节点中的每个实体节点在所述图中连接至所述多个特征节点中的一个或多个特征节点;
以及
执行标签传播来跨所述图传播多个标签以将标签分布与所述多个节点中的每个节点相关联。
13.根据权利要求12所述的计算系统,其中,所述至少一个处理器进一步被配置来:
利用所述多个标签中的相应标签对所述多个实体节点中的每个实体节点进行播种,其中,所述多个标签中的每个标签标识所述多个实体节点中的对应实体节点。
14.根据权利要求13所述的计算系统,其中,所述至少一个处理器还被配置来:
由所述计算设备执行所述标签传播,以将与所述多个节点中的每个节点相关联的标签分布确定为使目标函数最小化的最优解。
15.根据权利要求14所述的计算系统,其中,针对所述多个实体节点中的实体节点所述目标函数被最小化,并且其中,该目标函数包括:
与所述实体节点相关联的真实标签分布和与所述实体节点相关联的经学习标签分布之间的平方损失;
惩罚相邻特征节点的第一正则项,所述相邻特征节点和与关联于所述实体节点的标签分布不同的标签分布相关联;
将与所述实体节点相关联的经学习标签分布向在先的标签分布平滑的第二正则项。
16.一种用于确定相关实体的方法,包括:
由计算设备接收感兴趣特征或感兴趣实体中的至少一个的指示;
至少部分地基于与图中的多个特征节点中表示所述感兴趣特征的一个特征节点或者所述图中的多个实体节点中表示所述感兴趣实体的一个实体节点相关联的相应标签分布,由所述计算设备确定与所述感兴趣特征或者所述感兴趣实体相关的一个或多个相关实体,其中,所述图包括多个节点,其中所述多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中所述多个实体节点中的每个实体节点在所述图中连接至所述多个特征节点中的一个或多个特征节点,并且其中,多个标签经由标签传播跨所述图来被传播以将标签分布与所述多个节点中的每个节点相关联;以及
对于所述感兴趣特征或所述感兴趣实体中的所述至少一个,由所述计算设备输出与所述感兴趣特征或所述感兴趣实体相关的一个或多个相关实体的指示,其中,输出所述一个或多个相关实体的所述指示至少部分地基于与所述多个特征节点中表示所述感兴趣特征的一个特征节点或者所述多个实体节点中表示所述感兴趣实体的一个实体节点相关联的相应标签分布。
17.根据权利要求16所述的方法,其中:
接收所述感兴趣特征或所述感兴趣实体中的所述至少一个的所述指示进一步包括,由所述计算设备经由网络从远程计算设备接收指示所述感兴趣特征或所述感兴趣实体中的所述至少一个的传入数据;以及
对于所述感兴趣特征或所述感兴趣实体中的所述至少一个由所述计算设备输出与所述感兴趣特征或所述感兴趣实体相关的所述一个或多个相关实体的所述指示进一步包括,由所述计算设备经由所述网络向所述远程计算设备发送包括与所述感兴趣特征或所述感兴趣实体相关的所述一个或多个相关实体的所述指示的传出数据。
18.一种计算系统,包括:
存储器;以及
与所述存储器通信地耦合的至少一个处理器,所述至少一个处理器被配置来:
接收感兴趣特征或感兴趣实体中的至少一个的指示;
至少部分地基于与图中的多个特征节点中表示所述感兴趣特征的一个特征节点或者所述图中的多个实体节点中表示所述感兴趣实体的一个实体节点相关联的相应标签分布,确定与所述感兴趣特征或者所述感兴趣实体相关的一个或多个相关实体,其中,所述图包括多个节点,其中所述多个节点包括表示多个实体的多个实体节点以及表示多个特征的多个特征节点,并且其中所述多个实体节点中的每个实体节点在所述图中连接至所述多个特征节点中的一个或多个特征节点,并且其中,多个标签经由标签传播跨所述图来被传播以将标签分布与所述多个节点中的每个节点相关联;以及
对于所述感兴趣特征或所述感兴趣实体中的所述至少一个,输出与所述感兴趣特征或所述感兴趣实体相关的一个或多个相关实体的指示,其中,输出所述一个或多个相关实体的所述指示至少部分地基于与所述多个特征节点中表示所述感兴趣特征的一个特征节点或者所述多个实体节点中表示所述感兴趣实体的一个实体节点相关联的相应标签分布。
19.根据权利要求18所述的计算系统,其中,所述至少一个处理器进一步被配置来:
经由网络从远程计算设备接收指示所述感兴趣特征或所述感兴趣实体中的所述至少一个的传入数据;以及
经由所述网络向所述远程计算设备发送包括与所述感兴趣特征或所述感兴趣实体相关的所述一个或多个相关实体的所述指示的传出数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/095,517 | 2016-04-11 | ||
US15/095,517 US20170293696A1 (en) | 2016-04-11 | 2016-04-11 | Related entity discovery |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291792A true CN107291792A (zh) | 2017-10-24 |
CN107291792B CN107291792B (zh) | 2020-11-27 |
Family
ID=57838548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611273012.7A Active CN107291792B (zh) | 2016-04-11 | 2016-12-30 | 用于确定相关实体的方法和系统 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20170293696A1 (zh) |
EP (1) | EP3430533A1 (zh) |
JP (1) | JP2019514149A (zh) |
KR (1) | KR20180126577A (zh) |
CN (1) | CN107291792B (zh) |
DE (2) | DE102016125767A1 (zh) |
GB (1) | GB2549362A (zh) |
WO (1) | WO2017180212A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112012007316B1 (pt) | 2009-09-30 | 2021-09-28 | Evan V. Chrapko | Método e sistemas para determinar a conectividade de rede |
US10178131B2 (en) * | 2017-01-23 | 2019-01-08 | Cisco Technology, Inc. | Entity identification for enclave segmentation in a network |
US10180969B2 (en) * | 2017-03-22 | 2019-01-15 | Www.Trustscience.Com Inc. | Entity resolution and identity management in big, noisy, and/or unstructured data |
US20190019126A1 (en) * | 2017-07-14 | 2019-01-17 | International Business Machines Corporation | Smart meeting scheduler |
US10747206B2 (en) * | 2017-10-05 | 2020-08-18 | Honeywell International Inc. | Intelligent data access for industrial internet of things devices using latent semantic indexing |
US11244743B2 (en) * | 2018-01-05 | 2022-02-08 | International Business Machines Corporation | Adaptive weighting of similarity metrics for predictive analytics of a cognitive system |
US10810234B2 (en) | 2018-04-24 | 2020-10-20 | International Business Machines Coproration | Searching for and determining relationships among entities |
JP2021015425A (ja) * | 2019-07-11 | 2021-02-12 | 富士通株式会社 | 学習方法、学習プログラム及び学習装置 |
CN111858709A (zh) * | 2020-07-14 | 2020-10-30 | 中国建设银行股份有限公司 | 关联关系挖掘方法及装置 |
CN112015913A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 用于训练处罚实体分类模型的方法及装置 |
US20240028622A1 (en) * | 2022-07-19 | 2024-01-25 | Justin Garrett Radcliffe | Personal information management system having graph-based management and storage architecture |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769661A (zh) * | 2011-05-05 | 2012-11-07 | 通用汽车环球科技运作有限责任公司 | 用于在车辆无线网络中推销多媒体内容的方法及装置 |
US20140244707A1 (en) * | 2013-02-28 | 2014-08-28 | WebFilings LLC | System and method for performing distributed asynchronous calculations in a networked environment |
US8832091B1 (en) * | 2012-10-08 | 2014-09-09 | Amazon Technologies, Inc. | Graph-based semantic analysis of items |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5084796B2 (ja) * | 2009-07-24 | 2012-11-28 | ヤフー株式会社 | 関連性判定装置、関連性判定方法およびプログラム |
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
JP5250009B2 (ja) * | 2010-09-30 | 2013-07-31 | ヤフー株式会社 | サジェスチョンクエリ抽出装置及び方法、並びにプログラム |
-
2016
- 2016-04-11 US US15/095,517 patent/US20170293696A1/en not_active Abandoned
- 2016-12-23 GB GB1622163.2A patent/GB2549362A/en not_active Withdrawn
- 2016-12-28 DE DE102016125767.2A patent/DE102016125767A1/de not_active Withdrawn
- 2016-12-28 DE DE202016008357.1U patent/DE202016008357U1/de active Active
- 2016-12-30 CN CN201611273012.7A patent/CN107291792B/zh active Active
- 2016-12-30 EP EP16828897.5A patent/EP3430533A1/en not_active Withdrawn
- 2016-12-30 WO PCT/US2016/069404 patent/WO2017180212A1/en active Application Filing
- 2016-12-30 JP JP2019503898A patent/JP2019514149A/ja active Pending
- 2016-12-30 KR KR1020187031649A patent/KR20180126577A/ko not_active Application Discontinuation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769661A (zh) * | 2011-05-05 | 2012-11-07 | 通用汽车环球科技运作有限责任公司 | 用于在车辆无线网络中推销多媒体内容的方法及装置 |
US8832091B1 (en) * | 2012-10-08 | 2014-09-09 | Amazon Technologies, Inc. | Graph-based semantic analysis of items |
US20140244707A1 (en) * | 2013-02-28 | 2014-08-28 | WebFilings LLC | System and method for performing distributed asynchronous calculations in a networked environment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN110502568B (zh) * | 2019-08-08 | 2020-11-10 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017180212A1 (en) | 2017-10-19 |
JP2019514149A (ja) | 2019-05-30 |
EP3430533A1 (en) | 2019-01-23 |
KR20180126577A (ko) | 2018-11-27 |
CN107291792B (zh) | 2020-11-27 |
DE202016008357U1 (de) | 2017-09-15 |
GB201622163D0 (en) | 2017-02-08 |
US20170293696A1 (en) | 2017-10-12 |
GB2549362A (en) | 2017-10-18 |
DE102016125767A1 (de) | 2017-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291792A (zh) | 用于确定相关实体的方法和系统 | |
Giglio et al. | Using social media to identify tourism attractiveness in six Italian cities | |
US20190114362A1 (en) | Searching Online Social Networks Using Entity-based Embeddings | |
Bhargava et al. | Who, what, when, and where: Multi-dimensional collaborative recommendations using tensor factorization on sparse user-generated data | |
US20190188285A1 (en) | Image Search with Embedding-based Models on Online Social Networks | |
US20190156206A1 (en) | Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks | |
CN106133727B (zh) | 通过知识库促进的用户兴趣 | |
US10235423B2 (en) | Ranking search results based on entity metrics | |
US20220284058A1 (en) | Customized Keyword Query Suggestions on Online Social Networks | |
US10114898B2 (en) | Providing additional functionality with search results | |
CN110476151A (zh) | 使用并行处理的k选择 | |
US10699320B2 (en) | Marketplace feed ranking on online social networks | |
CN107315759A (zh) | 归类关键字的方法、装置和处理系统、分类模型生成方法 | |
US8903837B2 (en) | Incorporating geographical locations in a search process | |
US20150317302A1 (en) | Transferring information across language understanding model domains | |
JP6745384B2 (ja) | 情報をプッシュするための方法及び装置 | |
CN107103016A (zh) | 基于关键词表示使图像与内容匹配的方法 | |
CA3009157A1 (en) | Identifying entities using a deep-learning model | |
US11494204B2 (en) | Mixed-grained detection and analysis of user life events for context understanding | |
WO2017078768A1 (en) | Identifying content items using a deep-learning model | |
US20180191860A1 (en) | Context management for real-time event awareness | |
CN110140134A (zh) | 使用深度学习模型来生成推荐 | |
US20180189356A1 (en) | Detection and analysis of user life events in a communication ecosystem | |
Kotzias et al. | Home is where your friends are: Utilizing the social graph to locate twitter users in a city | |
US20130031458A1 (en) | Hyperlocal content determination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |