CN110222069A - 用于批量和实时数据处理的设备、系统和方法 - Google Patents

用于批量和实时数据处理的设备、系统和方法 Download PDF

Info

Publication number
CN110222069A
CN110222069A CN201910627036.5A CN201910627036A CN110222069A CN 110222069 A CN110222069 A CN 110222069A CN 201910627036 A CN201910627036 A CN 201910627036A CN 110222069 A CN110222069 A CN 110222069A
Authority
CN
China
Prior art keywords
data
group
input
value
computing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910627036.5A
Other languages
English (en)
Inventor
A·拉娜
C·戈
B·西马诺夫斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Factual Inc
Original Assignee
Factual Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Factual Inc filed Critical Factual Inc
Publication of CN110222069A publication Critical patent/CN110222069A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0261Targeted advertisements based on user location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/50Service provisioning or reconfiguring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • H04W64/003Locating users or terminals or network equipment for network management purposes, e.g. mobility management locating network equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/30Connection release
    • H04W76/38Connection release triggered by timers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/02Processing of mobility data, e.g. registration information at HLR [Home Location Register] or VLR [Visitor Location Register]; Transfer of mobility data, e.g. between HLR, VLR or external networks
    • H04W8/08Mobility data transfer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/02Processing of mobility data, e.g. registration information at HLR [Home Location Register] or VLR [Visitor Location Register]; Transfer of mobility data, e.g. between HLR, VLR or external networks
    • H04W8/08Mobility data transfer
    • H04W8/16Mobility data transfer selectively restricting mobility data tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/30Special cell shapes, e.g. doughnuts or ring cells
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/32Hierarchical cell structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices

Abstract

传统的数据处理系统配置为要么批量处理输入数据要么实时处理输入数据。一方面,批量数据处理系统是有限制性的,因为批量数据处理不能考虑任何在批量数据处理期间所接收的数据。另一方面,实时数据处理系统是有限制性的,因为实时系统经常不能扩展。实时数据处理系统常常受处理基元数据类型和/或小量数据的限制。因此,希望通过将批量数据处理系统和实时数据处理系统的益处结合到单个数据处理系统中来解决批量数据处理系统和实时数据处理系统的限制。

Description

用于批量和实时数据处理的设备、系统和方法
本申请是中国专利申请CN201480014776.7的分案申请,原申请的申请日为2014年03月14日,优先权日为2013年03月15日,进入中国国家阶段的日期为2015年09月14日,发明名称为“用于批量和实时数据处理的设备、系统和方法”。
与相关申请的交叉引用
根据35 U.S.C.§119(e),本申请要求享有以下申请的在先申请日:
美国临时专利申请,序列号61/799,986,申请日为2013年3月15日,发明名称为“用于分析和使用基于位置的行为的系统”;
美国临时专利申请,序列号61/800,036,申请日为2013年3月15日,发明名称为“地理位置描述符和链接符”;
美国临时专利申请,序列号61/799,131,申请日为2013年3月15日,发明名称为“用于众包领域特定情报的系统和方法”;
美国临时专利申请,序列号61/799,846,申请日为2013年3月15日,发明名称为“具有批量处理和实时数据处理的系统”;以及
美国临时专利申请,序列号61/799,817,申请日为2013年3月15日,发明名称为“用于向位置实体分配分数的系统”。
本申请还与以下申请有关:
美国专利申请,序列号14/214,208,申请日与本申请的申请日相同,发明名称为“用于分析对象实体的移动的设备、系统和方法”;
美国专利申请,序列号14/214,296,申请日与本申请的申请日相同,发明名称为“用于提供位置信息的设备、系统和方法”;
美国专利申请,序列号14/214,213,申请日与本申请的申请日相同,发明名称为“用于众包领域特定情报的设备、系统和方法”;
美国专利申请,序列号14/214,219,申请日与本申请的申请日相同,发明名称为“用于批量处理和实时数据处理的设备、系统和方法”;
美国专利申请,序列号14/214,309,申请日与本申请的申请日相同,发明名称为“用于分析受关注实体特性的设备、系统和方法”;以及
美国专利申请,序列号14/214,231,申请日与本申请的申请日相同,发明名称为“用于分组数据记录的设备、系统和方法”。
上述所引用的每个申请的全部内容(包括临时申请和正式申请)通过引用包含在本文中。
技术领域
本发明总体涉及数据处理系统,以及特别地,涉及可以使用批量(batch)处理和实时处理来处理数据的数据处理系统。
背景技术
本文所公开的系统涉及接收、处理以及存储来自许多源的数据,表示从数据中而来的事实和观点的最“正确的”概要,包括能够将此实时重新计算,以及随后使用结果来响应查询。作为示例,当用户向基于web的系统、移动电话或车载导航系统输入查询搜索“在格林威治村中的有代客泊车服务的对儿童友好的(child friendly)中餐馆”时,系统可以非常迅速地用匹配例如以下参数的餐馆列表来响应:{“kid_friendly”:true,”category”:”Restaurant>Chinese”,“valet_parking”:true,“neighborhood”:”Greenwich Village”}。移动电话于是可以提供呼叫每一个餐馆的按钮。描述每一个餐馆的此信息可以遍布许多网站,来源于许多数据存储器(store),以及由系统用户直接提供。
现有技术中的问题是存储在任何数据存储器中的关于美国所有已知商业的所有网页、引用和数据可以是如此巨大以致于无法实时地理解和查询。更新和维护这样巨大容量的信息可以很难。例如,描述美国商业的信息具有多于数十亿行的输入数据、数百亿的事实以及数十万亿字节的web内容。
与此同时,新信息不断变得可用并且希望将这些信息包括在查询结果的产出中。作为示例,系统可以学习到餐馆不再提供代客泊车服务、餐馆不接待儿童或者餐馆的电话号码已经中断。
照此,希望能够既基于持续性(例如考虑新写的评论)也基于整体(例如重新评估整体数据并使用其中所包含的先前不能使用的信息)来更新产生搜索结果的系统。
发明内容
所公开的系统配置为接收新数据(例如实时更新)和旧数据(例如经过很长时间收集的数据),并且配置为基于对新数据和旧数据的重新评估来周期性更新系统。
与仅能搜索网页并返回至匹配网页的链接的系统不同,所公开的系统可以维护关于每一实体的参数信息并且直接返回信息。在常规系统中,例如,针对“有代客泊车服务的中餐馆”的web搜索可以返回至具有词“中餐(Chinese)”、“餐馆”、“代客”和“泊车”的网页的链接。这一般来说将包括具有像“发现没有代客泊车服务”陈述的网页,因为词“代客”和“泊车”出现在文本中并且因此被索引为针对网页的关键字。相反,所公开的系统具有例如餐馆类别的参数和指示餐馆是否提供代客泊车服务的值,这有益地允许系统用更有意义的结果来响应。此外,在所公开的系统中,用户可以作为纠正数据的贡献方来操作。而且,所公开的系统可以解释跨许多网页的事实并且得到共识回答,该共识回答则是可查询的从而进一步改进结果。
在所公开系统的实施例中,用户可以作为向系统贡献数据的贡献方操作。例如,用户可以向系统提供直接反馈来纠正事实。多个这样的提交可以被所公开的系统与网站上的信息(例如关于对儿童友好的餐馆的博客)一起考虑,并且被概括到可以迅速响应查询的快速演进数据存储器中。由此,所公开的系统的用户可以访问新纠正的电话号码和对其儿童友好性的更准确的评价。
在一些实施例中,所公开的系统可以改进或扩展用来理解网页或反馈中的信息的分析方法。可以持续改进或扩展分析方法。例如,与上个月的方法相比,今天的方法可以能够从数据源提取更多信息。如果一个网页包括作为简单文本的事实而另一个有使用复杂散文表述的观点,则所公开的系统使用上个月的方法可以已经能够处理例如“代客泊车服务:是”的简单文本,但是还不能处理例如“没有地方可以停车,更别提代客泊车服务了”的散文。然而,所公开的系统,使用今天的方法,可以已经扩展了能力并且能够处理更微妙的散文数据。
大体上,一方面,所公开的主题的实施例可以包括一种用于生成一组数据的概要数据的计算系统。计算系统可以包括一个或多个处理器,配置为运行存储在无形计算机可读介质中的一个或多个模块。一个或多个模块可操作以接收第一组数据和第二组数据,其中,所述第一组数据与所述第二组数据相比包括更大量的数据项;处理所述第一组数据从而将所述第一组数据格式化为第一组结构化数据;通过用于概括所述第一组结构化数据的操作规则使用所述第一组结构化数据生成第一概要数据,并且将所述第一概要数据存储在数据存储器中;处理所述第二组数据从而将所述第二组数据格式化为第二组结构化数据;通过用于概括所述第一组结构化数据和所述第二组结构化数据的操作规则,基于所述第一组结构化数据和所述第二组结构化数据生成第二概要数据;确定所述第一概要数据和所述第二概要数据之间的差异;以及基于所述第一概要数据和所述第二概要数据之间的所述差异更新所述数据存储器。
大体上,一方面,所公开的主题的实施例可以包括一种用于生成一组数据的概要数据的方法。方法可以包括:在操作在计算系统的处理器上的输入模块处,接收第一组数据和第二组数据,其中,所述第一组数据与所述第二组数据相比包括更大量的数据项;在所述计算系统的第一输入处理模块处,处理所述第一组数据从而将所述第一组数据格式化为第一组结构化数据;在所述计算系统的第一概要生成模块处,通过用于概括所述第一组结构化数据的操作规则使用所述第一组结构化数据生成第一概要数据;将所述第一概要数据维护在所述计算系统的数据存储器中;在所述计算系统的第二输入处理模块处,处理所述第二组数据从而将所述第二组数据格式化为第二组结构化数据;在所述计算系统的第二概要生成模块处,通过用于概括所述第一组结构化数据和所述第二组结构化数据的操作规则使用所述第一组结构化数据和所述第二组结构化数据生成第二概要数据;在所述计算系统的差异生成模块处,确定所述第一概要数据和所述第二概要数据之间的差异;以及由所述计算系统基于所述第一概要数据和所述第二概要数据之间的所述差异更新所述数据存储器。
大体上,一方面,所公开的主题的实施例可以包括一种有形包含在非瞬时计算机可读存储介质中的计算机程序产品。计算机程序产品包括可操作以引起数据处理系统执行以下的指令:接收第一组数据和第二组数据,其中,所述第一组数据与所述第二组数据相比包括更大量的数据项;处理所述第一组数据从而将所述第一组数据格式化为第一组结构化数据;通过用于概括所述第一组结构化数据的操作规则使用所述第一组结构化数据生成第一概要数据,并且将所述第一概要数据存储在数据存储器中;处理所述第二组数据从而将所述第二组数据格式化为第二组结构化数据;通过用于概括所述第一组结构化数据和所述第二组结构化数据的操作规则基于所述第一组结构化数据和所述第二组结构化数据生成第二概要数据;确定所述第一概要数据和所述第二概要数据之间的差异;以及基于所述第一概要数据和所述第二概要数据之间的所述差异更新所述数据存储器。
在本文所公开的实施例的任意一个中,所述第二组数据包括实时数据提交,以及所述一个或多个模块可操作以响应于接收到所述第二组数据来处理所述第二组数据从而将所述第二组数据格式化为所述第二组结构化数据。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:每隔第一时间间隔处理所述第一组数据从而将所述第一组数据格式化为所述第一组结构化数据,所述第一时间间隔基本上比第二时间间隔更长,每隔所述第二时间间隔所述第二组数据被格式化为所述第二组结构化数据。
在本文所公开的实施例的任意一个中,所述第一概要数据和所述第二概要数据中的每一个都包括实体标识符和与所述实体标识符相关联的值,以及其中计算系统、方法或计算机程序产品可以进一步包括用于以下的模块、步骤或可执行指令:通过以下来确定所述第一概要数据和所述第二概要数据之间的差异:确定所述第一概要数据和所述第二概要数据包括相同的实体标识符,以及比较在所述第一概要数据和所述第二概要数据中与所述相同的实体标识符相关联的值。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:向其它被授权计算系统提供所述第一概要数据和所述第二概要数据之间的所述差异。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:经由应用编程接口向其它被授权计算系统提供所述差异。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:将所述差异作为文件提供给其它被授权计算系统。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:将至少所述第一组数据和所述第二组数据结合以生成第三组数据;处理所述第三组数据从而基于用于格式化一组数据的新规则将所述第三组数据格式化为第三组结构化数据;以及使用所述第三组结构化数据生成第三概要数据。
在本文所公开的实施例的任意一个中,所述第一组数据和所述第三组数据的每一个都包括第一数据元素,以及其中所述第一数据元素与由第一实体标识符识别的所述第一概要数据中的第一实体相关联,其中,所述第一数据元素与所述第三概要数据中的第二实体相关联,以及其中计算系统、方法或计算机程序产品可以进一步包括用于以下的模块、步骤或可执行指令:将所述第一实体标识符与所述第三概要数据中的所述第二实体相关联从而使得在所述第三概要数据中所述第一数据元素维持其与所述第一实体标识符的关联。
在本文所公开的实施例的任意一个中,所述第一组结构化数据包括数据项的分组(grouping),所述数据项的分组基于与所述数据项相关联的实体标识符。
在本文所公开的实施例的任意一个中,计算系统包括在数据中心中的至少一个服务器。
在本文所公开的实施例的任意一个中,数据存储器包括多个数据存储系统,所述多个数据存储系统中的每一个都与视图相关联,以及其中所述一个或多个模块可操作以响应于查询、基于与所述查询相关联的视图来选择所述多个数据存储系统中的一个。
在本文所公开的实施例的任意一个中,计算系统、方法或计算机程序产品可以包括用于以下的模块、步骤或可执行指令:识别在生成第二概要数据以后接收的第三组数据;基于所述第三组数据、所述第一组结构化数据和所述第二组结构化数据通过用于概括所述第一组结构化数据、所述第二组结构化数据和第三概要数据的操作规则生成所述第三概要数据;确定所述第二概要数据和所述第三概要数据之间的差异;以及基于所述第二概要数据和所述第三概要数据之间的所述差异更新所述数据存储器。
附图说明
参考以下与附图一起考虑的详细描述可以更全面理解本公开的多种目标、特征和优点,在附图中,相似的参考编号识别相似元素。附图仅供演示目的并且不旨在限制所公开的主题,所公开的主题的范围在下文的权利要求中记载。
图1示出根据一些实施例的所公开的系统的通用处理框架;
图2A-2C示出图1的部分的放大图;
图3示出根据一些实施例的赶上(“Catchup”)过程。
具体实施方式
传统的数据处理系统配置为要么批量处理输入数据要么实时处理输入数据。一方面,批量数据处理系统是有限制性的,因为批量数据处理不能考虑任何在批量数据处理期间所接收的额外数据。另一方面,实时数据处理系统是有限制性的,因为实时系统不能扩展。实时数据处理系统常常受处理基元数据类型和/或小量数据的限制。因此,希望通过将批量数据处理系统和实时数据处理系统的益处结合到单个系统中来解决批量数据处理系统和实时数据处理系统的限制。
对于系统而言,很难一同提供实时处理和批量处理,因为用于实时处理和批量处理的数据和/或过程是迥然不同的。例如,在批量处理系统中,程序在直到整体数据处理完成前都不能访问数据处理结果,然而在实时处理系统中,程序可以在数据处理期间访问处理结果。
所公开的数据处理设备、系统和方法能够解决在整合批量数据处理系统和实时处理系统中的挑战。
所公开的系统的一些实施例可以配置为处理非结构化数据并且将非结构化数据转换到概要数据中。概要数据可以存储在一个或多个数据存储器中,包括例如一个或多个数据存储设备(storage)和/或一个或多个数据库中、或者一个或多个搜索服务器中,并且可以被格式化以及可选地被索引从而能够使用一个或多个数据存储器或一个或多个搜索服务器来查询,或者能够由第三方用户使用应用编程接口(API)来查询。
概要数据可以包括一个或多个唯一实体和至少一个关于这些实体的参数。关于实体的参数之一可以是在这些实体中具有唯一性的实体标识符。额外的参数描述实体的一些属性,例如布尔值(例如餐馆A有代客泊车服务究竟是“真”还是“假”)、整数、字符串、一组字符、二进制数据(例如表示图像的字节)或这些类型的阵列或集合、或者其任意其它结合。
所公开的系统的一些实施例可以配置为基于两种类型的数据输入来生成概要数据:批量数据输入和间歇数据输入。批量数据输入可以指随时间推移已经收集的大量数据。在一些情况下,批量数据输入可以指所公开的系统在预确定时间期间中所接收的所有数据,预确定时间期间可以很久。例如,批量数据输入可以包括在很长一段时间内从多个贡献方或从网络爬虫接收的原始信息。在一些实施例中,可以在所公开的系统自身中维护批量数据;在其它实施例中,可以经由通信接口从另一存储中心接收批量数据。间歇数据输入可以包括被提供给所公开的系统的小量数据。间歇数据输入可以包括例如来自贡献方的实时数据提交。
所公开的系统的一些实施例可以配置为使用通用处理框架来处理这两种类型的数据输入。通用处理框架可以包括可以基本上实时地响应间歇数据输入(例如来自贡献方的小的增量贡献)并且基于那些被考虑的贡献和在概要数据中来自批量系统的数据来反映变化的实时系统。通用处理框架还可以包括可以处理批量数据输入的批量系统。批量系统可以配置为将批量数据格式化为可用于进一步处理,并且使用被格式化的批量数据来生成概要数据。
在一些实施例中,批量处理系统配置为通过将批量数据输入中的非结构化数据格式化到结构化数据中来生成概要数据。于是,批量处理系统配置为对结构化数据中的元素进行分组并且生成用于每一组的代表性标识符,也称为实体。批量系统于是可以生成用于每一实体的标识符并且计算描述每一实体的参数值。
例如,当大批量数据输入包括与在餐馆A处有代客泊车服务相关联的5个数据元素时,批量系统于是可以确定这5个数据元素属于同一实体(例如餐馆A),并且将与5个数据元素相关联的信息合并。例如,如果3个数据元素指示餐馆A有代客泊车服务并且2个数据元素指示餐馆A没有代客泊车服务,于是批量系统可以合并这5个元素并且指示针对实体餐馆A的参数“代客泊车服务”为“真”。此合并过程在某些方面与在发明名称为“用于数据的协同操作的过程和系统”、申请日为2009年9月15日的美国专利申请公布No.2011/0066605中所公开的过程相似,该专利申请通过全文引用被包含在本文中。
在一些实施例中,实体是系统选择跟踪的独特目标。例如,当系统接收关于每一物理餐馆(例如具有多个位置的连锁店将具有针对每一位置的实体)的评价作为数据输入时,系统可以将每一物理餐馆考虑为单独的实体(即概要记录)。相似地,当来自特定品牌的牙膏有3种规格并且每一种规则有4种口味时,系统可以维护针对该牙膏的12个不同实体。
在一些实施例中,实时系统可以配置为在实时系统接收到来自贡献方的间歇数据输入时更新由批量系统生成的概要数据。例如,如果实时系统接收到来自贡献方的两个额外数据输入,这两个额外数据输入都指示餐馆A没有代客泊车服务,那么实时系统可以更新概要数据来指示用于实体“餐馆A”的参数“代客泊车服务”为“假”。
在一些实施例中,实时系统可以配置为运用由批量系统生成的结构化数据。例如,当实时系统接收到来自贡献方的间歇数据输入时,实时系统可以将间歇数据输入与由批量系统生成的结构化批量数据合并。以此方式,可以减少实时系统所需的计算量。
在一些实施例中,批量系统可以配置为按照预确定周期来周期性运行。与实时系统相比,批量系统可以以较低频率操作,因为批量系统所需的计算量与实时系统所需的计算量相比要大得多。例如,可以操作批量系统以便按计划更新系统,例如每小时、每周或每月。实时系统可以比批量处理系统操作得更加频繁。例如,实时系统可以配置为在实时系统接收到间歇数据输入时或者在接收短时间范围内(例如5秒或5分钟)缓存的输入时操作。批量系统可以随时间推移用新情报和规则来更新,并且可以处理超出实时系统能力范围的新数据。
图1示出根据一些实施例的所公开的系统的通用处理框架。图2A-2C示出图1的部分的放大图。图1的顶部示出由实时数据系统执行的处理,而图1的底部示出由批量处理系统执行的处理。
数据生命周期
所公开的数据处理系统的一个方面是数据生命周期。数据可以随着数据进展通过所公开的数据处理系统而被分类为以下类型中的一种:原始/未处理数据100(参见图2A)、未处理(原始)输入350(参见图2B)、快速处理的输入150(参见图2B)、快速处理的概要190(参见图2C)、完全处理的输入360(参见图2B)以及完全处理的概要760(参见图2C)。这些数据可以存储在非瞬时性计算机可读介质中。非瞬时性计算机可读介质可以包括以下一个或多个:硬盘、闪存存储装置、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)或者其任意结合。
原始/未处理数据
原始/未处理数据100是按照原始/未处理形式的数据。例如,关于餐馆的网页也许在网页内容的某处宣称“有代客泊车服务”。在此情况下,原始数据是整个网页的拷贝。在所公开的系统中,{“valet_parking”:true}输入可以例如来源于宣称“有代客泊车服务”的网页。作为额外示例,系统可以包含餐馆的数据存储器,例如,具有关于餐馆的数据的数据存储设备和/或具有关于餐馆的数据的数据库。未处理数据的示例可以包括:
·在数据存储器中的餐馆互联网主页
·出现在线上博客中的餐馆评价
·由被雇佣来提供用于系统的数据的个人提供的餐馆评价
·在数据存储器中的关于餐馆的线上文章
在所公开的系统中,原始/未处理数据100可以被维护以用于重新处理(例如,原始数据可以按照周期间隔被存储从而使得它可以用于批量处理系统的新的运行)。这是有益的,因为可以在稍后被开发出来的新规则可以能够在原始数据被重新处理时提取额外的输入。例如,网站可以具有宣称“泊车员在停车时刮花了我的车”的文本。即使较早的评估网站上的内容的运行未能形成任何关于代客泊车服务的输入,随后的运行可以提取输入“valet_parking”:true。因为所公开的系统可以存储原始数据100以用于重新处理,所公开的系统的批量处理可以针对原始数据100重新运行,并且理解较复杂陈述的新规则可以例如在随后的运行中提取输入“valet_parking”:true。
未处理(原始)输入
未处理输入350表示在所公开的系统从贡献方、第三方系统、网页和/或任何其它适合的信息源接收到实体的参数时它们的原始参数值。例如,如果网页在网页内容的某处陈述“有代客泊车服务”,该“有代客泊车服务”的陈述是未处理输入。同样,关于服装店的网站(原始数据)可以含有陈述“打5折促销”(原始输入)。作为另一示例,来自贡献方的更新商业地址的贡献可以含有“1801 ave of stars,los angeles”。最初,当数据首次被提供时的可用规则可能引起此输入被忽略,因为地址不够充分。然而,使用改进规则的随后的构造可以将其改善为{“address”:”1801 Avenue of the Stars”,”city”:”Los Angeles”,”state”:”CA”,”zipcode”:”90067”}。
未处理输入350可以例如存储在以下的一个或多个中:包括分布式文件系统的文件系统、例如关系数据库或非关系数据库(即nosql)的数据存储器。
完全处理的输入及概要
完全处理的输入360是在最近期的批量数据构造中已经被处理过的输入。例如,如果线上餐馆评价中含有原始输入“有代客泊车服务”,所公开的系统的批量数据构造可以提取处理过的输入“valet_parking”:true。
在一些实施例中,每一批量数据构造可以整体地替换先前一组完全处理的输入360。例如,假设所公开的系统具有针对仅一个称为“Joes”的餐馆的条目并且5个网站提供关于该餐馆的事实。2个网站可能陈述其所供应的食物类型是“Chinese(中餐)”。一个网站可能陈述是“Cantonese(粤菜)”。另2个网站可能说是“Italian(意大利菜)”。在此示例中,完全处理的输入可以包含{“id”:”1”,“name”:”Joe’s”,“cuisine:Chinese”,“source”:”website1”},{“id”:”1”“name”:”Joe’s”,“cuisine”:”Chinese”,“source”:”website2”},{“id”:”1”,“name”:”Joe’s”,“cuisine”:”Cantonese”,“source”:website3”},{“id”:”1”,“name”:”Joe’s”,“cuisine”:”Italian”,“source”:”website4”},{“id”:”1”,“name”:”Joe’s”,“cuisine”:"Italian”,“source”:”website5”}.基于当前规则,完全处理的概要760可以具有{“id”:”1”,“name”:”Joe’s”,“cuisine”:”Italian”},因为它同等地信任所有贡献并且“Italian”和“Chinese”是联系在一起的而“Cantonese”被当做独立的菜肴风味。在此示例中,规则可以被改进为确定“Cantonese”是“Chinese”菜肴风味的一种类型,并且还更特别地,当运行批量数据构造时产生如下完全处理的概要760:
(“id”:”1”,”name”:”Joe’s”,”cuisine”:”Chinese>Cantonese”}
在所公开的系统中,在向快速处理的表格写新的增量信息期间,当包含完全处理的输入360和完全处理的概要760的整个表格被替换时,它们可以改变。
快速处理的输入及摘要
在批量数据构造起始处,表示自先前的批量数据构造起始时起新计算的输入和概要的快速处理的输入150和快速处理的概要190可以被搁置或丢弃,并且可以在数据存储器(例如数据库)中分配快速处理的输入150和快速处理的概要190中每一个的空版本。例如,移动装置用户可能注意到“Joe’s”餐馆被错误归类为“Italian”。充当贡献方的该用户可以通过她的移动装置上的软件提交改正,她的移动装置向公有应用编程接口(API)发送数据(图1,130)。该贡献方的输入可以看上去如此{“id”:”1”,”cuisine”:”Chinese”}。当该输入被处理时,可以被保存到快速处理的输入150并且用于“Joes”的条目可以被重新概括。在此示例中,针对“Joes”的新概要将会是{“id”:”1”,“name”:”Joe’s”,”cuisine”:”Chinese”},并且由于它与先前的完全处理的概要760不同,新概要将会被保存到快速处理的概要190。在所公开的系统中,当确定针对实体的最新概要时,系统可以偏重于在快速处理的概要190中检查最新概要,而非在只有在批量数据构造中才改变的完全处理的概要760中检查。
批量处理及生命周期
可以不时运行批量数据构造来将未处理数据和输入转换到完成的查看概要数据中。批量数据构造的输出是完全处理的输入360和完全处理的概要760。
输入处理框
在一些实施例中,输入处理模块145、720可以配置为执行以下一个或多个:提取过程、清理过程、规范化(canonicalization)过程、过滤过程以及验证过程,上述过程中的每一个将在下文描述。
提取
提取步骤可以例如包括基于来自于结构化、准结构化和非结构化数据的匹配规则来选择用于参数的事实。例如,所公开的系统可以使用事实匹配规则“name:[NAME]”来提取名称。在此示例中,提取步骤包括使用事实匹配规则“name:[NAME]”在例如记录:{“name”:”Mc’Donalds”}中选择名称“Mc’Donalds”。此外,在提取步骤中,系统可以使用例如“***-***-****”的模式匹配规则来从例如“Tel:123-456-7890”的文本中选择电话号码“123-456-7890”,其中,*符号表示通配符字符。作为额外的示例,提取步骤可以解释例如“这个地方没有适合我的孩子们的高椅子”的原始文本从而创建采用如下形式的事实:{“kid_friendly”:false}。所公开的系统可以通过例如使用先进自然语言处理和解析来解释原始文本从而创建规则。
清理
清理步骤包括清理所提取的数据。清理所提取的数据可以包括移除不希望的字符或坏字符或实体参数的过程。例如,匹配规则“Phone:[PHONE_NUMBER]”的事实的提取可能不正确地提取了例如“Phone:call now!”的不正确信息,或者提取了例如“Phone:123-456-7890 click here”的多余信息。清理可以丢弃不正确的数据或移除不希望的多余数据。例如,如果提取了“Phone:call now!”,清理步骤可以丢弃该数据,因为“Phone:call now!”对于电话号码来说是不正确数据。此外,如果提取了“Phone:123-456-7890 click here”,清理步骤可以丢弃“click here”,因为“click here”是多余的数据,它不是所提取的电话号码的一部分。在所公开的系统中,不正确数据或多余数据可以通过例如使用2个规则而被丢弃或移除,这2个规则例如事实匹配规则和模式匹配规则。例如,使用事实匹配规则“Phone:[PHONE_NUMBER]”,所公开的系统可以提取例如“Phone:123-456-7890 click here”的信息,并且使用模式匹配规则“***-***-****”,系统可以确定“click here”是多余的数据并且在清理步骤中将其移除。
规范化
规范化是指由规则驱动的、将多种形式数据转换到它们的优选或规范的表示的步骤。例如,一个贡献方可以描述电话号码为“123-456-7890”并且不同的贡献方可以提交“(123)456-7890”。将数据转换成规范表示使其统一并且使得能够有更好的实体分辨度和概括。所公开的系统可以通过例如使用多个模式匹配规则以及指定用于规范化表示的另一模式来执行规范化。例如,使用模式匹配规则“***-***-****”和“(***)***-****”,前者指定规范化表示,规范化步骤可以通过将输入“123-456-7890”和“(123)456-7890”两个都表示为“123-456-7890”来使它们统一。
过滤
过滤是指由规则驱动的、拒绝并不一定不正确但是不满足一些希望的标准的数据的步骤。这可以包括拒绝不匹配特定类别或具有不充分置信度的输入。例如,科幻主题餐馆可能做这样的广告:它“位于银河系中的行星地球上”。尽管此陈述是准确的,所公开的系统的实施例例如可能不具有针对餐馆所在的行星和银河系的类别,这样,此示例中的过滤步骤将拒绝输入“位于银河系中的行星地球上”。当然,在代替实施例中,所公开的系统可以具有此类类别。作为一个额外的示例,在一个实施例中,所公开的系统可以例如设置针对来自网站的信息的阈值为具有100次访问则被认为是可靠。在此示例中,如果仅被访问了15次的网站包含陈述“这是最佳商店”,系统可以拒绝此输入,因为它不满足置信度规则。在其它实施例中,所公开的系统可以使用其它规则用于确定置信度。
验证
验证是指由规则驱动的、基于不符合某些标准而拒绝数据的步骤。例如,经过规范化的电话号码域,其中,电话号码的位数比预期的有效电话号码(例如Phone:123)位数少,则可能基于未能满足某些标准而拒绝该参数或整个输入。
实时概括
所公开的系统的实施例可以执行实施概括过程。参考图1和2,在所公开的系统的实施例中,快速概括过程模块160接收由输入处理模块145生成的快速处理的输入150和由批量处理系统生成的完全处理的输入360。
快速概括过程模块160可以配置为聚合并过滤快速处理的输入150和完全处理的输入360。例如,快速概括过程模块160可以接收关于代客泊车服务的快速处理的输入150和完全处理的输入360。在此示例中,完全处理的输入360可以包括具有值“valet_parking”:false的输入,并且快速处理的输入150可以包括具有值“valet_parking”:true的输入。快速概括过程模块160可以配置为聚合并过滤快速处理的输入150和完全处理的输入360从而创建快速处理的概要190。例如,经过过滤和处理,针对实体的快速处理的概要190可以是“valet_parking”:true。
在一些实施例中,快速概括过程模块160可以配置为维护并按照排序顺序来索引快速处理的输入150和完全处理的输入360中的数据,排序顺序至少部分基于实体标识符、贡献方标识符或提供数据的用户账号、用来提取数据的技术、数据的源或引证和/或时间戳中的一个或多个来确定。为此目的,创建连接或迭代器,来从快速处理的输入和完全处理的输入二者中自具有所希望的实体标识符的首个输入开始起同时读取数据。在每一情况下,迭代器基于快速处理的输入或完全处理的输入中具有较早时间戳的任意一个而前进。无论何时上文列举的参数中除了时间戳以外的任意一个参数改变,就将先前的输入加入被考虑的池中而忽略其它,由此允许系统有效地仅考虑来自给定用户的输入的最新版本、提取技术和引证。
比较差异(Diff)过程模块200可以配置为比较由快速概括过程模块160生成的快速处理的概要190和完全处理的概要760。例如,它可以比较具有值“valet_parking”:true的快速处理的概要190和具有值“valet_parking”:false的完全处理的概要760。基于该比较,比较差异过程模块200于是可以广播结果。例如,它可以广播来自于先前批量构造的完全处理的概要770指示没有代客泊车服务,然而来自于自从先前批量数据构造的开始以来新计算的输入和概要的快速处理的概要190指示有代客泊车服务。
实时处理工作流
参考图1和2,由箭头实时10所指示的,图的上部分一般地展示系统的实时组件。系统接收外部贡献100作为输入。外部贡献100包括来自贡献方的批量数据贡献、web文档和实时提交。例如,系统可以接收例如整个网站或数据存储器的批量数据贡献、例如个体网页的web文档以及例如网站上的评价的实时提交。
外部贡献100的一个源是用户写入110。用户写入110可以包括例如来自贡献方在web表格上或移动装置上的直接输入。
在一些实施例中,系统可以经由公有API模块130接收用户写入110。例如,用户写入110可以通过公开可访问端点(例如向公有API模块130提交的网站)或通过在网站或移动装置上向公有API模块130提交的软件被接收。用户写入110可以包括附加于其上的针对贡献方、来源和开发者的标识符以用于被考虑进概括中。
例如用户写入110的输入可以具有已经包含在该输入中的实体标识符(例如entity_id)。实体标识符可以是字母和数字的字符串。在一些实施例中,实体标识符可以意味着输入是对现有实体的更新。如果输入不具有标识符,系统可以使用解决过程模块120来确定并分配被称为快速处理的标识符的临时标识符。解决过程模块120可以配置为向输入分配实体标识符或者将记录的一个表示与另一表示匹配。这使得有可能将相似输入群集在一起并且给那些引用同一实体的输入分配公共实体标识符。在许多情况下,输入具有不同参数但引用同一实体。解决过程可以被用来比较输入、确定输入引用同一实体并且向那些输入分配公共实体标识符。
在一些情况下,解决过程模块120可以配置为分配标识符作为由以下方式生成的代理键:a)随机分配;b)将一个或多个输入参数串联(例如名称+地址);c)一个或多个输入参数的一致性哈希(例如md5(名称+地址));或者d)如果充分相似的输入存在(例如新输入的名称、值、电话与现有输入的名称、值、电话足够相似),则取现有输入的被分配的id,并且当充分相似的输入不存在时生成新的代理键。
当针对输入确定了快速处理的标识符时,内部API模块140可以从公有API模块130接收输入。在它被保存到存储器之前,可以按照原本输入的原始形式制作它的拷贝。原始拷贝可以被保存到存储器以用于未处理输入350,从而使得稍后可以使用更新的软件或者经过更昂贵的计算(包括执行实体标识符分配的软件)来批量重新处理它。
此外,内部API模块140可以配置为与用于规则驱动适中(rules drivenmoderation)的编织(Stitch)过程模块155交互。用于规则驱动适中的编织过程模块155可以配置为将匹配某标准的数据提交显示或提供给人类仲裁员或更昂贵的机器过程以用于进一步评估。例如,新餐馆的所有者可能希望通过将生意从附近餐馆转移到他的餐馆来使他的餐馆的生意兴旺。该餐馆所有者可能注册账号为所公开的系统的客户之一的贡献方,并提交所有其它餐馆都已关闭的信息。系统于是可以确定从未与系统有过交互的新贡献方在某一天报告若干本地商业已经关闭,引起系统中寻找这样模式的规则标识那些提交并将其入队以用于由人类仲裁员审查。人类仲裁员于是可以确定商业实际上仍然营业并且拒绝这些提交,并进一步将该贡献方加入黑名单从而使得额外的提交都将被忽略。
与此同时,可以通过执行如上文所述的提取、清理、规范化和验证的软件处理原本原始输入,产生快速处理的输入150。在一些情况下,快速处理的输入150可以具有附随的快速处理的标识符。如果快速处理的输入通过验证,它可以被保存到存储器以用于快速处理的输入150,并且它可以在过程中前进到快速概括过程模块160。
实时快速概括过程模块160可以配置为基本上实时地分析并结合用于实体的快速处理的输入150和完全处理的输入360。快速处理的输入150可以表示自从上次批量数据构造过程以来新的实时输入。完全处理的输入360是从批量处理系统先前的批量过程生成的输入。一起,它们包括针对每一实体的一组完整的输入。例如,实时快速概括过程模块160可以接收关于代客泊车服务的快速处理的输入150和完全处理的输入360。在此示例中,完全处理的输入150可以包括具有值“valet_parking”:false的输入,并且快速处理的输入360可以包括具有“valet_parking”:true的输入。快速概括过程模块160于是可以聚合快速处理的输入150和完全处理的输入360,并于是使用高置信度过滤器170和低置信度过滤器180来过滤它们从而创建快速处理的概要190。例如,经过过滤和处理后,针对实体的快速处理的概要190可以是“valet_parking”:true。
快速处理的输入和完全处理的输入可以存储在数据存储器150、360中。数据存储器150、360可以由实体标识符(例如uuid,例如0e3a7515-44e0-42b6-b736-657b126313b5)来分别群集。这可以允许当接收到新输入时快速进行重新概括,从而使得仅关于如下实体的输入被处理:已经接收到用于该实体的新输入。快速处理的输入150和完全处理的输入360可以按照排序顺序被存储,从而使得它促进流处理数据或促进跳过被确定为由如下输入取代的输入:例如来自于同一提交方或引用相同引用的更新的提交。
在一些实施例中,快速概括过程模块160可以同时从快速处理的输入数据存储器150和完全处理的输入数据存储器360读取输入以帮助仅选择在概括中需要考虑的输入。可以使用视图(“view”)(例如具体实现视图)来表示或显示输入的概括。视图是根据一个或多个规则的对输入的一种可能概括及实体的表示。一个或多个规则可以确定包括哪些实体、针对每一实体包括哪些参数、执行何种索引优化以及针对每一实体计算什么额外的参数和参数变量。在一些实施例中,由view_id唯一地识别视图。数据存储器经常跟踪系统表格中的视图并且这些系统表格包含关于视图的元数据。在我们的例子中,视图被分配了标识符并且该标识符用来从数据存储器中查找关于视图的元数据,例如参数的名称、它们的数据类型、排序偏好、索引规则等。
对于与向其分配了输入的数据集相关联的每一视图,可以执行快速概括过程。视图可以具有关于将要计算的参数、应用到那些参数的规则、针对概要实体的置信度阈值170、180的不同规则以及其它软件规则和变形。每一快速概括过程可以产生针对每一视图的快速处理的概要。每一快速处理的概要与从快速处理的概要数据存储器190或完全处理的概要数据存储器760取回的最近概要相比较。如果快速处理的概要与先前版本不同,则新的快速处理的概要被保存到快速处理的概要数据存储器190中,并且产生比较差异记录。比较差异记录可以包含包括例如以下的一行数据:(1)其参数已经改变的实体的实体标识符,以及(2)改变的参数。比较差异记录可以包含与先前概要不同的新概要或参数的整体拷贝。比较差异记录被保存到比较差异数据存储器中并且在网络上发布给监听比较差异记录并更新概要数据的具体实现(maerialization)的过程。
以下是在一个可能的实施例中比较差异记录的示例:
{″timestamp″:1363321439041,″payload″:{″region″:″TX″,″geocode_level″:″front_door″,″tel″:″(281)431-7441″,″placerank″:90,″category_labels″:[[“Retail″,″Nurseries and Garden Centers″]],″search_tags″:[″Houston″,″Grass″,″South″],″name″:″Houston Grass″,″longitude″:″-95.464476″,″fax″:″(281)431-8178″,″website″:″http://houstonturfgrass.com″,″postcode″:″77583″,″country″:″us″,″category_ids″:[164],″category″:″Shopping>Nurseries&GardenCenters″,″address″:″213 McKeever Rd″,″locality″:″Rosharon″,″latitude″:″29.507771″},″type″:″update″,″factual_id″:″399895e6-0879-4ed8-ba25-98fc3e0c983f″,″changed″:
[“address″,”tel”]}。在此示例中,比较差异记录指示Houston Grass的地址和电话已经改变,这可以导致对具体实现的数据存储器的每一拷贝或用于该实体的索引行进行更新。
所公开的系统的实施例可以包括具体实现的数据存储器或索引510、520。具体实现的数据存储器或索引510、520是可搜索的关系数据存储器或非关系数据存储器或搜索索引服务器。在一些实施例中,具体实现的数据存储器或索引510、520可以与具体应用领域或具体数据服务相关联。所公开的系统可以可互换地使用诸如PostgreSQL(关系)和ApacheSolr(非关系,搜索服务器)的数据存储系统,有时针对相同的数据,并且能够选择最佳地服务于所请求的查询类型的一个。例如,所公开的系统可以接收针对与特定视图或数据类型相关联的数据的查询。作为响应,所公开的系统可以确定查询类型、实体类型、发送查询的应用或装置、与实体相关联的应用领域或与查询相关联的任何有关信息中的一个或多个,从而确定用来响应查询的数据存储系统之一或这样的系统的结合。于是,所公开的系统可以使用所确定的数据存储系统之一或系统的结合来响应查询。
批量处理工作流
参考图1和2,如箭头批量20所指示的,图的下部一般地示出系统的批量处理组件。
批量处理工作流可以接收大量上传和批量贡献700,例如
·原始输入700
·全球唯一标识符(uuid)附件数据
·消息摘要5(md5)附件数据
此外,批量处理工作流使用先前处理的数据(例如先前的完全处理的输入和先前的快速处理的输入)以用于例如UUID保留和比较差异生成的步骤。这些步骤在下文中描述。
预批量构造
在发起批量构造过程之前,可以向例如Hadoop分布式文件系统(HDFS)的数据存储器710提供实时处理的数据,由此它们可以被用作批量构造的输入。当发起此步骤时,可以记录时间,该时间可以在赶上(Catchup)阶段期间使用。
特别地,可以向数据存储器710提供以下数据:
·快速处理的概要190–自从最后一次批量数据构造以来已经被创建的概要。这可以包括全新的概要、被删除的概要以及其中某些域被更新的概要
·未处理输入350–自从最后一次批量数据构造以来已经被写到此数据集的原始输入
·新uuid映射–针对自从最后一次批量运行以来生成的新概要的从输入id到实体id的映射
在一些实施例中,除了UUID保留(在下文描述)以外,没有使用来自于先前版本数据的快速处理的输入。在这样的实施例中,这是通过改为使用未处理输入350来解决的。这确保输入被完全重新处理。
批量构造
批量构造是可以处理数据并将数据为加载到制造做好准备的过程。
输入处理
原始输入700和未处理输入350从HDFS 710馈入到输入处理模块720中。提取步骤可以不保留关于数据先前曾被提取的任何概念。可以在原始输入700上执行提取。
提取步骤可以使用如上文所描述的并且在下文示例中示出的规范化、清理、填入值以及过滤输入的规则框架。
·123 main street=>123 Main St.
·city:Los Angeles=>city:Los Angeles,state:CA
提取步骤还可以整理出那些输入应当被附加并且那些输入应当被批量解决。
提取步骤可选地可以确定应当由人、计算功能强大的过程或第三方API来审核一些输入。提取步骤可以在输入元数据中设置适中动作标记并直接或经由API将其插入编织数据存储器中,编织数据存储器用来协调开销相对很大的过程,例如适中。
批量解决:
可以通过解决过程模块722来执行的批量解决可以取所提取的输入,并基于它们是否表示同一实体来将它们进行分组,并向每一组输入分配唯一id。例如,批量解决可以分配通过以下生成的唯一id:a)随机分配;b)将来自于一组输入的一个或多个输入值串联(例如名称+地址);c)来自于一组输入的一个或多个值的哈希(例如md5(名称+地址));或者d)如果充分相似的输入存在(例如新输入的名称、值、电话与现有输入的名称、值、电话足够相似),则取现有一组输入的被分配的id。
UUID保留:
在批量解决模块722完成其过程之后,可以发起UUID保留模块725。UUID保留模块725的目标可以包括修改与实体相关联的标识符(例如entity_id),从而使得:即使当批量过程重新处理(例如跨多个批量运行)输入数据时,例如埃菲尔铁塔的单个实体可以持有同一实体标识符。这使得即使当与实体相关联的数据被多次重新处理时,实体能够与同一标识符相关联。
这是通过例如在先前完全处理的输入360中读取、并且生成包含input_id和entity_id之间的映射的映射文件或表格来达成的。input_id是向来自于单个输入数据贡献的每一组参数分配的唯一标识符。例如,从法国洗衣店的主页上抓取的所有参数,例如名称、地址、电话号码,构成一个输入数据贡献。许多其它网站和贡献方还可以提供描述法国洗衣店的输入数据贡献。这些输入数据贡献的每一个具有它自己的input_id,该input_id将它从其它输入数据贡献中唯一地识别出来。input_id可以包括输入数据贡献的消息摘要5(md5)哈希。反过来,entity_id是向所有输入数据贡献和法国洗衣店的概要记录分配的标识符(目前是UUID)。
在一些实施例中,从input_id到entity_id的映射可以与针对新写的概要的映射相结合。例如,在完全处理的输入和快速处理的输入的每一个输入中都具有唯一识别原本未处理输入的input_id以及由解决过程模块120确定的、表示与完全处理的输入和快速处理的输入相关联的实体的entity_id。使用从input_id到entity_id的映射,input_id可以用来将原本的entity_id分配给在同一组中的所有输入数据项。
在一些实施例中,UUID保留的示例可以是如下:
Mapping:
input_id_0,original_entity_id
Input Set:
input_id_0,new_entity_id,data
input_id_1,new_entity_id,data
input_id_2,new_entity_id,data
在该示例中,在先前的批量构造中,input_id_0具有实体id“original_entity_id”。在当前的批量构造中,由于样本输入组包含具有input id:input_id_0的输入,所公开的系统可以映射输入组中的所有输入到original_entity_id。这样,在该示例中,最终结果将会是如下
End Result:
input_id_0,original_entity_id,data
input_id_1,original_entity_id,data
input_id_2,original_entity_id,data
UUID保留模块725的输出可以包含被分组的一组输入,这些输入具有与其在先前批量运行中所具有的entity_id相同的entity_id,还保留在批量运行之间生成的任何entity_id。如上文所述,UUID保留模块725可以跨批量构造对同一实体保留相同的UUID。
在一些情况下,取决于批量解决的结果,实体可以被合并或拆分。UUID保留模块725可以有效地指定如何处理拆分和合并情况。例如,在合并情况下,可以倾向于使用具有更大数量输入的entity_id。在拆分情况下,可以将entity_id分配给具有更大数量输入的输入组,并且生成用于形成新概要的输入群集的新id。可以取决于数据集和希望的结果来定制此行为。
数据附件
在UUID保留之后,数据附件模块727可以执行数据附件过程。数据附件过程的目的可以是附加如下输入:(1)无法解决的;(2)从概要导出的;(3)从输入导出的;或者(4)针对具有充分置信度、关于特定entity_id(例如贡献方编辑为特定entity_id)的输入或具有关于特定输入的地理代码信息的输入。
数据附件可以是基于entity_id或input_id。例如,数据附件模块727可以配置为当源输入具有与由UUID保留生成的一组输入的entity_id相同的entity_id时,将源输入附加(或结合)到该组输入。作为另一示例,数据附件模块727可以配置为当源输入与该组输入的父input_id相同的父input_id相关联时,附加(或结合)源输入,其中,父input id指输入的唯一标识符,源输入应当被附加到该标识符。通过以下实施例来示出这些示例。
在一些实施例中,Entity_ID数据附件的示例可以是如下:
Attachment Data:
input_id_0,entity_id_0,data
Input Set:
input_id_1,entity_id_0,data
input_id_2,entity_id_0,data
input_id_3,entity_id_0,data
在此示例中,由于样本输入组和源数据具有相同的entity_id:entity_id_0,附件数据被加到样本输入组。
End Result:
input_id_0,entity_id_0,data
input_id_1,entity_id_0,data
input_id_2,entity_id_0,data
input_id_3,entity_id_0,data
在一些实施例中,Input_ID数据附件的示例可以是如下:
Attachment Data:
input_id_0,(no entity id),parent_input_id:input_id_1,data
Input Set:
input_id_1,entity_id_0,data
input_id_2,entity_id_0,data
input_id_3,entity_id_0,data
在此示例中,由于样本输入组含有与源数据的父input id匹配的输入,附件数据被加到样本输入组。
End Result:
input_id_0,entity_id_0,data
input_id_1,entity_id_0,data
input_id_2,entity_id_0,data
input_id_3,entity_id_0,data
扩展参数组提取
扩展参数组提取是由扩展参数模块728执行的额外的提取过程。扩展参数模块728。扩展参数模块728可以配置为对某些输入运行提取从而提取“扩展参数组”。扩展参数组可以不是核心参数组的一部分,但是可以包含关于特定视图的信息。例如,“vegan(素食)"是关于餐馆视图的参数而不是关于医生视图的参数。
在一些实施例中,可以在规则框架中编写规则,规则框架确定一组输入是否被重新提取以用于扩展参数。例如,如果一组输入具有带有类别“餐馆"的单个输入,则在该组输入中的所有输入可以被重新提取以用于关于餐馆的扩展参数。
扩展参数模块728的输出包括最终输入729。最终输入可以存储在完全处理的输入360存储器中,完全处理的输入360存储器可以将最终输入向快速概括模块160中继。
概括
概括模块730配置为执行概括过程。概括过程包括这样的过程:可以由该过程生成表示同一实体的一组输入的最终表示。概括模块730可以使用规则框架来生成基于最终输入729的概要。每一数据集可以具有多个视图,包括副作用(side-effect)视图。每一组输入可以生成多个视图概要。从同一组输入生成的概要中的每一个具有相同的entity_id。
副作用视图包括新的视图(例如一组概要实体),其不具有与针对给定输入的entity id的一对一关系。副作用视图可以生成为其它视图及其输入的副产品,而非直接从相关联的实体输入产生概要。副作用视图允许概括模块730提供来自于单个数据输入的任意数量的概要记录(例如任意数量的有关实体)。一个这样的示例是斑马线(“Crosswalk”),其为将entity_id链接到特定输入源的视图。例如,副作用视图创建过程可以确定输入数据是否匹配规则,例如“是我们在斑马线中跟踪的命名空间”(例如因为它具有类似webname.com/[some_place_id]的url),并且当存在匹配时,副作用视图创建过程可以创建例如具有{“namespace”:”webname”,“id”:”[some_place_id]”,“factual_id”:”[id_of_referenced_entity]”}的新实体。由此,即使输入数据已经与实体相关联,副作用视图创建过程可以基于由副作用视图创建过程维护的规则来生成与输入数据相关联的额外实体。
在概括730之后,可以使用如上文所述的高置信度过滤器740和低置信度过滤器750来过滤结果,并且将结果存储为完全处理的概要760。
数据存储格式生成过程
在此过程中,构造完全处理的输入360和完全处理的概要760。完全处理的输入360可以包括针对给定数据集的所有输入并且可以按照如下方式来组织完全处理的输入360:在该方式中entity_id查找和概括是有效的。完全处理的概要760可以包含针对在给定数据集中所有视图的所有概要记录,按照如下方式来组织完全处理的概要760:在该方式中entity_id和view_id查找是有效的。这些文件可以在激活(“MakeLive”)步骤期间大批量加载到数据存储器中。这些步骤的输出由图1的729、740和750表示。
比较差异生成
比较差异生成模块770可以配置为生成所有包括当前批量运行和先前实时更新的数据集之间的差异的“比较差异”记录,并且将它们输出到比较差异API下载伙伴(“DiffAPI to Download Partners”)500,其允许被授权的伙伴从系统下载比较差异记录。每个这样的记录可以被称为“比较差异”(“diff”)。在上文中描述了特定的比较差异类型。可以通过比较每一个针对视图的概要和针对该视图的概要的先前版本来生成比较差异。可以针对用于每一个概要的每一视图来生成比较差异。当前概要可以与先前完全处理的概要760和先前快速处理的概要190表格相比较。同一比较差异生成机制可以用来生成针对索引510、520的比较差异,并且经由比较差异API 500提供用于第三方的比较差异。
比较差异还被写到数据存储格式,其允许基于数据和entity_id的有效查找。
具体实现构造(“Materialization Build)
具体实现构造模块780配置为产生为服务其它计算系统(例如数据存储器)做好准备了的输出格式。例如,具体实现构造模块780可以配置为构造允许搜索输入的反向索引(例如数据存储器)。在一些实施例中,具体实现构造模块780可以配置为基于每视图来构造具体实现。在其它实施例中,具体实现构造模块780可以配置为构造包括多个视图的具体实现。
在一些实施例中,反向索引具体实现的简化示例可以包括以下:
Sample Data:
doc_id_0,entity_id_0,view_id,Business,San Diego,CA
doc_id_1,entity_id_1,view_id,Business,San Francisco,CA
Index:
entity_id_0:{doc_id_0}
entity_id_1:{doc_id_1}
Business:{doc_id_0,doc_id_1}
San:{doc_id_0,doc_id_1}
Diego:{doc_id_0}
Francisco:{doc_id_1}
CA:{doc_id_0,doc_id_1}
使用示例中的简化索引,数据可以是可容易地由关键字或其它参数搜索。例如,搜索“Diego(地亚哥)”将得到用于此示例中的doc_id_0和doc_id_1的概要。
如果每具体实现有多个视图,view_id可以用作用于搜索的额外关键字过滤器。
在一些实施例中,每一具体实现的数据存储器可以与特定应用领域、特定服务或特定视图相关联。因此,当系统接收到针对数据的查询时,系统可以基于与查询和/或所请求的数据相关联的特定应用领域、特定服务和/或特定视图来确定具体实现的数据存储器中的一个或多个来服务于该查询。
批量处理激活(Batch Processing MakeLive)
激活是使得批量构造投产的过程。激活过程可以通过数据存储加载、赶上和新具体实现通知来完成。在激活过程完成之后,所有API请求可以使用新批量构造的数据。
数据存储加载
当批量数据构造通过所有需要的回归和其它质量保证测试之后,可以使用用于完全处理的输入360、完全处理的概要760、快速处理的输入150以及快速处理的概要190的新版本号来创建数据存储器中的新表格。数据存储格式文件(完全处理的输入360、完全处理的概要760)可以被加载到它们各自的新表格中。比较差异200/700可以被增补到现有的比较差异表中。
在图1中,实时处理可以指当数据存储加载完成时通过数据存储器-api-服务器新构造的完全处理的输入360和完全处理的概要760。这可以通过改变完全处理的输入360和完全处理的概要760的表的指针来实现,从而使得更新的表对于实时处理是可见的,并且更早的引用对于实时处理不再可见。
在图1中从729向360的转移示出完全处理的输入360的加载的示例。在图1中从740、750向760的转移示出完全处理的概要760的加载的示例。
赶上阶段
在当批量运行开始时和当赶上阶段首次发起时之间的这段时间期间,数据存储器可能已经取得了在我们的批量构造步骤期间没有被处理的额外的实时写入。实时写入可以指任何已经实时接收到的并且已经生成快速处理的输入的写入。当批量构造步骤完成时,由此创建新的批量构造的数据集,赶上阶段可以基于这些新的实时写入来更新维护在加了索引的数据存储器510、520或比较差异API下载伙伴500中的新的批量构造的数据集,从而使得新的批量构造的数据集与额外的实时写入保持同步。
图3示出根据一些实施例的赶上过程。要完成赶上过程,来自于先前版本数据集的快速处理的输入810可以每一个都被复制到新的快速处理的输入820中,所述复制是基于那些输入的时间戳是否晚于批量运行发起时的时间戳。特别地,快速处理的输入810中的每一输入可以被增加到新的快速处理的输入表的、具有相同entity_id(如果存在)的新的快速处理的输入820中。如果在新的快速处理的输入表中不存在相同entity_id,那么可以创建针对该entity_id的全新的输入组。针对每一个具有额外输入的entity_id,可以针对所有视图执行重新概括830。如果所生成的概要与来自于完全处理的概要的输入不同,则向比较差异表840写入比较差异。接下来,使用任何新的比较差异840来更新具体实现880。
新的具体实现数据存储通知
用于将批量构造的数据集制作成准备投产的数据集的最终步骤可以包括用来启用完全处理的输入表、完全处理的概要表、快速处理的输入表以及快速处理的概要表的过程。可以清除标志并且可以更新概要具体实现版本将其指向新构造的版本。此过程可以使用通过最新批量构造而构造的最新版本具体实现来改变来自于先前版本的510和520的指针。
在预批量构造步骤处由实时工作流提供的未处理输入可以被复制到未处理输入350,从而使得它们可以由下一次批量数据构造来处理。可以去掉未处理输入350中的重复项来防止重复条目。
经过这些步骤之后,实时数据处理工作流可以处理所有对数据的更新,直至下一次计划的批量数据构造。
所公开系统的实施例可以用在多种应用中。例如,所公开系统的实施例可以用来收集和概括来自于多种应用领域的数据,例如社交网络、在线广告、搜索引擎、医疗服务、媒体服务、大众消费品、视频游戏、支持团体或者任何其它应用领域,从这些应用领域中生成和维护大量数据。
可执行代码实施例
所公开系统的实施例可以构建在包括可执行代码的逻辑或模块上。可执行代码可以存储在一个或多个存储装置中。照此,逻辑不必位于特定装置上。此外,在本文所公开的系统中,逻辑或模块可以是位于一个或多个装置中的多个可执行代码。例如,响应输入用于访问和取回存储在数据存储器的一个或多个单元中的数据的访问逻辑可以是在应用服务器上的一个可执行代码。在代替实施例中,在一个或多个应用服务器上存在这样的访问逻辑。在另一些实施例中,在一个或多个应用服务器和系统中的其它装置上存在这样的访问逻辑,其它装置包括但不限于“网关”概要数据服务器和后台数据服务器。本文所公开的其它逻辑还可以是位于协作数据系统以内的一个或多个装置上的一个或多个可执行代码。
在某些实施例中,所公开的系统包括一个或多个应用服务器和一个或多个概要数据服务器以及一个或多个后台数据服务器。服务器包括存储本文所公开的逻辑的存储器。在特定实施例中,一个或多个应用服务器存储执行本文所公开的任务所必须的逻辑。在其它实施例中,概要服务器存储本文所公开的任务所必须的逻辑。在其它实施例中,后台服务器存储本文所公开的任务所必须的逻辑。
在某些实施例中,客户端web浏览器向一个或多个应用服务器发出请求。替代地,所公开的系统包括客户端web浏览器向其发出请求的一个或多个概要或后台数据服务器。
在示例性实施例中,一个或多个应用服务器接收来自于客户端web浏览器针对特定数据或表的请求。基于这些请求,一个或多个应用服务器呼叫一个或多个数据存储服务器来请求来自于单元或表的概要或详细数据。当做出提交新数据输入的请求时,一个或多个应用服务器也会呼叫一个或多个数据存储服务器。一个或多个应用服务器从一个或多个概要服务器接收数据,并且一个或多个应用服务器生成HTML和JavaScript对象来传回给客户端web浏览器。代替地,一个或多个应用服务器生成XML或JSON来通过API传递对象。
在一个实施例中,数据存储服务器基于涉及数据存储服务器集群和后台数据服务器集群的架构。但是,注意,系统可以包括单个概要服务器和后台数据服务器。在该实施例中,采用概要数据服务器阵列来从后台数据服务器请求那些经过概括的数据点的概要数据和参数(置信度、计数等)。概要数据服务器阵列还缓存那些概要数据和概要参数从而使得可以更快访问那些概要数据而无需向后台数据服务器发出额外请求。
本系统和过程依赖于存储在存储装置中的可执行代码(即逻辑)。能够存储逻辑的存储装置是现有技术。存储装置包括存储媒体,例如计算机硬盘、冗余磁盘阵列(“RAID”)、随机存取存储器(“RAM”)以及光盘驱动器。通用存储装置在现有技术中是众所周知的(例如美国专利No.7,552,368,其描述常规半导体存储装置并且通过引用被包含在本文中的那些公开)。
其它实施例也是在所公开的主题的范围和精神以内。
本文所公开的主题可以实现在数字电子电路中,或实现在计算机软件、固件或硬件中,包括在本说明书中所公开的结构性部件及其结构性等价物,或者它们的结合。本文所描述的主题可以实现为一个或多个计算机程序产品,例如有形地包含在信息载体中(例如在机器可读存储装置中)或包含在传播信号中的一个或多个计算机程序,以用于由数据处理设备(例如可编程处理器、计算机或多个计算机)执行或者用来控制数据处理设备的操作。计算机程序(也称为程序、软件、软件应用或代码)可以用任何形式的编程语言来编写,包括汇编或解释语言,并且它可以采用任何形式来部署,包括独立程序或作为模块、组件、子例程或其它适于在计算环境中使用的单元。计算机程序并不必然对应文件。程序可以存储在载有其它程序或数据的文件的一部分中、存储在专用于所考虑的程序的单个文件中、或者存储在多个协作文件中(例如存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以被部署成在一个计算机上执行或在位于一个场所的多个计算机上执行,或分布跨多个场所并且通过通信网络互连。
本说明书中所描述的过程和逻辑流,包括本文所描述的主题的方法步骤,可以由一个或多个可编程处理器执行,这些处理器执行一个或多个计算机程序从而通过操作输入数据和生成输出来执行功能或本文所描述的主题。过程和逻辑流也可以由专用逻辑电路来执行,并且本文所描述的主题的设备可以实现为专用逻辑电路,专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器包括,例如,通用微处理器和专用微处理器,以及任何的任意类型的数字计算机的一个或多个处理器。一般来说,处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的必要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储装置。一般来说,计算机还将包括用于存储数据的一个或多个大容量存储装置、或者与用于存储数据的一个或多个大容量存储装置操作性耦合,来从其接收数据或向其传送数据或两者,大容量存储装置例如磁盘、磁-光盘或光盘。适于包含计算机程序指令和数据的信息载体包括所有形式的非易失性存储器,包括例如半导体存储装置(例如EPROM、EEPROM和闪存存储装置)、磁盘(例如内部硬盘或移动硬盘)、磁-光盘以及光盘(例如CD和DVD盘)。处理器和存储器可以由专用逻辑电路来补充或包含在专用逻辑电路中。
要提供与用户的交互,本文所描述的主题可以实现在具有播放装置的计算机上,播放装置例如用于向用户显示信息的CRT(阴极射线管)或LCD(液晶显示)监视器和键盘以及指向装置(例如鼠标或轨迹球),用户通过这些可以向计算机提供输入。其它类型的装置也可以用来提供与用户的交互。例如,提供给用户的反馈可以是任何形式的感官反馈(例如视觉反馈、听觉反馈或触觉反馈),并且来自于用户的输入可以采用任何形式被接收,包括声学、语音或触觉输入。
本文所描述的技术可以使用一个或多个模块来实现。如本文中所使用的,术语“模块”指计算软件、固件、硬件和/或其多种结合。但是,至少模块不被解释为不是实现在硬件、固件上的软件或不是记录在非瞬时处理器可读记录存储介质中。确实,“模块”是被解释为包括至少一些物理的、非瞬时硬件,例如处理器或计算机的一部分。两个不同的模块可以共享相同的物理硬件(例如两个不同模块可以使用同一处理器和网口)。本文所描述的模块可以结合、集成、分离和/或复制从而支持多种应用。而且,本文所描述的在特定模块处执行的功能可以在一个或多个其它模块处执行和/或由一个或多个其它装置执行,而非在该特定模块处执行的功能,或者是增加在在该特定模块处执行的功能上。此外,模块可以跨多个装置和/或其它本地组件或彼此远离的组件来实现。而且,模块可以从一个装置中移除并且增加到另一装置上,和/或可以被包含在两个装置中。
本文所描述的主题可以实现在包括后台组件(例如数据服务器)、中间件组件(例如应用服务器)、或前端组件(例如具有图形用户接口或web浏览器的客户端计算机,用户可以通过图形用户接口或web浏览器与本文所描述的主题交互)、或者这些后台、中间件和前端组件的任意结合的计算系统中。系统的组件可以通过任意形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括本地网络(“LAN”)和例如互联网的广域网络(“WAN”)。
本申请全文中所用的术语“一”或“一个”可以被定义为一个或多于一个。而且,例如“至少一个”和“一个或多个”这样的介绍性短语的使用不应被理解成暗示由不定冠词“一”或“一个”引入另一元素将相对应的元素限制到仅为一个该元素。对于定冠词的使用也是如此。
要理解的是,所公开的主题不受其到在下文中记载的或在附图中示出的含义细节和组件安排的应用所限制。所公开的主题能够是其它实施例并且能够以多种方式被实践和执行。而且,要理解的是,本文所采用的措辞和术语是出于描述目的并且不应当被视为限制。
如此,本领域技术人员将了解,本公开所基于的理念可以容易被用作用于设计其它结构、方法和系统的基础,这些其它结构、方法和系统用于执行所公开的主题的若干目的。因此,重要的是,权利要求被视为包括这些等效含义,只要它们不偏离所公开的主题的精神和范围。
尽管已经在上文实例性实施例中描述和示出了所公开的主题,但是要理解的是,本公开仅仅是示例,并且可以对所公开的主题的实现细节作出许多改变而不偏离所公开的主题的精神和范围。

Claims (20)

1.一种用于生成一组数据的概要数据的计算系统,所述计算系统包括:
一个或多个处理器,配置为运行存储在非瞬时计算机可读介质中的一个或多个模块,其中所述一个或多个模块可操作以:
接收第一组数据,以及将所述第一组数据格式化为第一组结构化数据;
使用所述第一组结构化数据生成第一概要数据,以及将所述第一概要数据存储在数据存储器中,所述第一概要数据包括第一实体标识符和与所述实体标识符相关联的第一值;
接收第二组数据,以及从所述第二组数据确定第二实体标识符和与所述第二实体标识符相关联的第二值;
确定所述第一实体标识符和所述第二实体标识符是相同的;
确定所述第一值和所述第二值之间的差异;以及
基于所述第一值和所述第二值之间的所述差异更新在所述数据存储器中的所述第一概要数据。
2.根据权利要求1所述的计算系统,其中,所述第一组数据与所述第二组数据相比包括更大量的数据项。
3.根据权利要求1所述的计算系统,其中,所述第二组数据包括实时数据提交。
4.根据权利要求1所述的计算机系统,其中,所述一个或多个模块进一步可操作以向其它被授权计算系统提供在所述第一值和所述第二值之间的所述差异。
5.根据权利要求4所述的计算系统,其中,所述一个或多个模块进一步可操作以经由应用编程接口向其它被授权计算系统提供所述差异。
6.根据权利要求4所述的计算系统,其中,所述一个或多个模块进一步可操作以将所述差异作为文件提供给其它被授权计算系统。
7.根据权利要求1所述的计算系统,其中,所述一个或多个模块可操作以:
将至少所述第一组数据和所述第二组数据结合,以及生成包括所结合的所述第一组数据和所述第二组数据的第三组数据;
将所述第三组数据格式化为第三组结构化数据;以及
使用所述第三组结构化数据生成第三概要数据。
8.根据权利要求7所述的计算系统,其中,所述第一组数据和所述第三组数据的每一个都包括第一数据元素,以及其中所述第一组数据的所述第一数据元素与由第一实体标识符识别的所述第一概要数据中的所述第一实体相关联,其中,所述第三组数据的所述第一数据元素与所述第三概要数据中的另一实体相关联,以及其中所述一个或多个模块进一步可操作以将所述第一实体标识符与所述第三概要数据中的所述其它实体相关联,从而使得在所述第三概要数据中所述第一组数据的所述第一数据元素维持所述第一组数据的所述第一数据元素的与所述其它实体的关联。
9.根据权利要求1所述的计算系统,其中,所述第一组结构化数据包括数据项的分组,所述数据项的分组基于与所述数据项相关联的所述第一实体标识符。
10.根据权利要求1所述的计算系统,其中,所述计算系统包括在数据中心中的至少一个服务器。
11.根据权利要求1所述的计算系统,其中,所述数据存储器包括多个数据库系统,所述多个数据库系统中的每一个都与视图相关联,以及其中所述一个或多个模块可操作以响应于查询而基于与所述查询相关联的视图来选择所述多个数据库系统中的一个。
12.根据权利要求1所述的计算系统,其中,所述一个或多个模块可操作以:
接收第三组数据,以及从所述第三组数据确定第三实体标识符以及与所述第三实体标识符相关联的第三值;
确定所述第二实体标识符与所述第三实体标识符是相同的;
确定所述第二值和所述第三值之间的差异;以及
基于所述第二值和所述第三值之间的所述差异更新所述数据存储器中的所述第一概要数据。
13.一种用于生成一组数据的概要数据的方法,所述方法包括:
在计算系统的处理器上操作的输入模块处,接收第一组数据,以及在所述计算系统的第一输入处理模块处,处理所述第一组数据以生成第一组结构化数据;
在所述计算系统的第一概要生成模块处,使用所述第一组结构化数据生成第一概要数据,以及维护在所述计算系统的数据存储器中的所述第一概要数据,所述第一概要数据包括第一实体标识符和与所述第一实体标识符相关联的第一值;
在所述计算系统的输入处理模块处,接收第二组数据,以及在所述计算系统的第二输入处理模块处,从所述第二组数据确定第二实体标识符和与所述第二实体标识符相关联的第二值;
在所述计算系统的标识符生成模块处,确定所述第一实体标识符和所述第二实体标识符是相同的;
在所述计算系统的差异生成模块处,确定所述第一值和所述第二值之间的差异;以及
由所述计算系统基于所述第一值和所述第二值之间的所述差异更新所述数据存储器中的所述第一概要数据。
14.根据权利要求13所述的方法,其中,接收所述第一组数据的步骤包括接收相比接收所述第二组数据的步骤的数据项更大量的数据项。
15.根据权利要求13所述的方法,其中,接收所述第二组数据的步骤包括接收实时数据提交。
16.根据权利要求13所述的方法,进一步包括:
将至少所述第一组数据和所述第二组数据结合以及生成包括所结合的所述第一组数据和所述第二组数据的第三组数据,
基于用于格式化一组数据的新规则将所述第三组数据格式化为第三组结构化数据;以及
使用所述第三组结构化数据生成第三概要数据。
17.根据权利要求16所述的方法,进一步包括将所述第一组数据的第一数据元素与由所述第一实体标识符识别的所述第一概要数据中的所述第一实体相关联,将所述第三组数据的另一第一数据元素与所述第三概要数据中的另一实体相关联,以及其中,所述方法进一步包括将所述第一实体标识符与所述第三概要数据中的其它实体相关联,从而使得在所述第三概要数据中所述第一数据元素维持所述第一数据元素的与所述其它实体的关联。
18.一种有形地包括计算机程序的非瞬时计算机可读存储介质,所述计算机程序包括指令,当所述指令被处理器执行时,使数据处理系统:
接收第一组数据,以及将所述第一组数据格式化为第一组结构化数据;
使用所述第一组结构化数据生成第一概要数据,以及将所述第一概要数据存储在数据存储器中,所述第一概要数据包括第一实体标识符和与所述实体标识符相关联的第一值;
接收第二组数据,以及从所述第二组数据确定第二实体标识符和与所述第二实体标识符相关联的第二值;
确定所述第一实体标识符和所述第二实体标识符是相同的;
确定所述第一值和所述第二值之间的差异;以及
基于所述第一值和所述第二值之间的所述差异更新在所述数据存储器中的所述第一概要数据。
19.根据权利要求18所述的非瞬时计算机可读存储介质,其中,所述第一组数据与所述第二组数据相比包括更大量的数据项。
20.根据权利要求18所述的非瞬时计算机可读存储介质,其中,所述第二组数据包括实时数据提交。
CN201910627036.5A 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法 Pending CN110222069A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201361799131P 2013-03-15 2013-03-15
US201361800036P 2013-03-15 2013-03-15
US201361799986P 2013-03-15 2013-03-15
US201361799846P 2013-03-15 2013-03-15
US201361799817P 2013-03-15 2013-03-15
US61/799,817 2013-03-15
US61/799,846 2013-03-15
US61/799,986 2013-03-15
US61/799,131 2013-03-15
US61/800,036 2013-03-15
CN201480014776.7A CN105531698B (zh) 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480014776.7A Division CN105531698B (zh) 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法

Publications (1)

Publication Number Publication Date
CN110222069A true CN110222069A (zh) 2019-09-10

Family

ID=50625176

Family Applications (11)

Application Number Title Priority Date Filing Date
CN201480014842.0A Active CN105556512B (zh) 2013-03-15 2014-03-14 用于分析关注实体特性的设备、系统以及方法
CN201480014726.9A Active CN105532030B (zh) 2013-03-15 2014-03-14 用于分析目标实体的移动的装置、系统和方法
CN201910475715.5A Active CN110191416B (zh) 2013-03-15 2014-03-14 用于分析目标实体的移动的装置、系统和方法
CN202010009026.8A Active CN111177125B (zh) 2013-03-15 2014-03-14 用于分析关注实体特性的设备、系统以及方法
CN202111561953.1A Pending CN114240372A (zh) 2013-03-15 2014-03-14 用于将数据记录分组的设备、系统以及方法
CN201480014861.3A Pending CN105518658A (zh) 2013-03-15 2014-03-14 用于将数据记录分组的设备、系统以及方法
CN202210796442.6A Pending CN115130021A (zh) 2013-03-15 2014-03-14 用于提供位置信息的装置、系统和方法
CN201480014776.7A Active CN105531698B (zh) 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法
CN201480014828.0A Active CN105556545B (zh) 2013-03-15 2014-03-14 用于众包领域特定情报的设备、系统和方法
CN201480014711.2A Pending CN105556511A (zh) 2013-03-15 2014-03-14 用于提供位置信息的装置、系统和方法
CN201910627036.5A Pending CN110222069A (zh) 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法

Family Applications Before (10)

Application Number Title Priority Date Filing Date
CN201480014842.0A Active CN105556512B (zh) 2013-03-15 2014-03-14 用于分析关注实体特性的设备、系统以及方法
CN201480014726.9A Active CN105532030B (zh) 2013-03-15 2014-03-14 用于分析目标实体的移动的装置、系统和方法
CN201910475715.5A Active CN110191416B (zh) 2013-03-15 2014-03-14 用于分析目标实体的移动的装置、系统和方法
CN202010009026.8A Active CN111177125B (zh) 2013-03-15 2014-03-14 用于分析关注实体特性的设备、系统以及方法
CN202111561953.1A Pending CN114240372A (zh) 2013-03-15 2014-03-14 用于将数据记录分组的设备、系统以及方法
CN201480014861.3A Pending CN105518658A (zh) 2013-03-15 2014-03-14 用于将数据记录分组的设备、系统以及方法
CN202210796442.6A Pending CN115130021A (zh) 2013-03-15 2014-03-14 用于提供位置信息的装置、系统和方法
CN201480014776.7A Active CN105531698B (zh) 2013-03-15 2014-03-14 用于批量和实时数据处理的设备、系统和方法
CN201480014828.0A Active CN105556545B (zh) 2013-03-15 2014-03-14 用于众包领域特定情报的设备、系统和方法
CN201480014711.2A Pending CN105556511A (zh) 2013-03-15 2014-03-14 用于提供位置信息的装置、系统和方法

Country Status (5)

Country Link
US (22) US10817482B2 (zh)
EP (9) EP2974434A4 (zh)
CN (11) CN105556512B (zh)
HK (3) HK1224007A1 (zh)
WO (6) WO2014145088A1 (zh)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445799B2 (en) 2004-09-30 2019-10-15 Uber Technologies, Inc. Supply-chain side assistance
US10687166B2 (en) 2004-09-30 2020-06-16 Uber Technologies, Inc. Obtaining user assistance
US8358976B2 (en) 2006-03-24 2013-01-22 The Invention Science Fund I, Llc Wireless device with an aggregate user interface for controlling other devices
US10213645B1 (en) * 2011-10-03 2019-02-26 Swingbyte, Inc. Motion attributes recognition system and methods
US9672126B2 (en) * 2011-12-15 2017-06-06 Sybase, Inc. Hybrid data replication
US9222777B2 (en) 2012-09-07 2015-12-29 The United States Post Office Methods and systems for creating and using a location identification grid
WO2014145088A1 (en) 2013-03-15 2014-09-18 SHIMANOVSKY, Boris Apparatus, systems, and methods for batch and realtime data processing
US9223806B2 (en) * 2013-03-28 2015-12-29 International Business Machines Corporation Restarting a batch process from an execution point
US9535927B2 (en) * 2013-06-24 2017-01-03 Great-Circle Technologies, Inc. Method and apparatus for situational context for big data
IL227480A0 (en) * 2013-07-15 2013-12-31 Bg Negev Technologies & Applic Ltd A system for characterizing geographic locations based on sensor data from anonymous sources
US9875321B2 (en) * 2013-07-19 2018-01-23 Salesforce.Com, Inc. Geo-location custom indexes
US10042911B2 (en) * 2013-07-30 2018-08-07 International Business Machines Corporations Discovery of related entities in a master data management system
KR101609178B1 (ko) * 2013-09-16 2016-04-07 엔에이치엔엔터테인먼트 주식회사 사용자의 이동경로에 기반하여 보상을 제공하는 서비스 방법 및 시스템
WO2015044630A1 (en) 2013-09-26 2015-04-02 British Telecommunications Plc Efficient event filter
CA2971228A1 (en) * 2013-12-16 2015-06-25 Inbubbles Inc. Space time region based communications
US10909117B2 (en) 2013-12-20 2021-02-02 Micro Focus Llc Multiple measurements aggregated at multiple levels of execution of a workload
WO2015094319A1 (en) 2013-12-20 2015-06-25 Hewlett-Packard Development Company, L.P. Generating a visualization of a metric at a level of execution
US20160292233A1 (en) * 2013-12-20 2016-10-06 Hewlett Packard Enterprise Development Lp Discarding data points in a time series
US9710485B2 (en) * 2014-03-14 2017-07-18 Twitter, Inc. Density-based dynamic geohash
US9426620B2 (en) * 2014-03-14 2016-08-23 Twitter, Inc. Dynamic geohash-based geofencing
EP2924589B1 (de) * 2014-03-27 2017-03-15 Kapsch TrafficCom AG Onboard-Unit und Verfahren zum Aktualisieren von Geodaten darin
US11586680B2 (en) * 2014-03-31 2023-02-21 International Business Machines Corporation Fast and accurate geomapping
US9552559B2 (en) 2014-05-06 2017-01-24 Elwha Llc System and methods for verifying that one or more directives that direct transport of a second end user does not conflict with one or more obligations to transport a first end user
US9727664B2 (en) * 2014-05-06 2017-08-08 International Business Machines Corporation Grouping records in buckets distributed across nodes of a distributed database system to perform comparison of the grouped records
EP3149978B1 (en) * 2014-06-02 2021-11-24 Geospock Limited System for providing location-based social networking services to users of mobile devices
US10332223B1 (en) * 2014-06-06 2019-06-25 Mmsr, Llc Geographic locale mapping system
US10586163B1 (en) 2014-06-06 2020-03-10 Mmsr, Llc Geographic locale mapping system for outcome prediction
US10902468B2 (en) * 2014-06-23 2021-01-26 Board Of Regents, The University Of Texas System Real-time, stream data information integration and analytics system
KR101881630B1 (ko) * 2014-06-24 2018-07-24 경희대학교 산학협력단 사용자 단말로부터 수집된 데이터를 이용한 유형 정보 및 평가 정보 제공 방법 및 시스템
US9817559B2 (en) * 2014-07-11 2017-11-14 Noom, Inc. Predictive food logging
US10592539B1 (en) 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
US10601749B1 (en) 2014-07-11 2020-03-24 Twitter, Inc. Trends in a messaging platform
US10528981B2 (en) 2014-07-18 2020-01-07 Facebook, Inc. Expansion of targeting criteria using an advertisement performance metric to maintain revenue
US10318983B2 (en) * 2014-07-18 2019-06-11 Facebook, Inc. Expansion of targeting criteria based on advertisement performance
US20160085832A1 (en) * 2014-09-24 2016-03-24 Richard L Lam System and method of analyzing data using bitmap techniques
US11562040B2 (en) * 2014-09-25 2023-01-24 United States Postal Service Methods and systems for creating and using a location identification grid
US10387389B2 (en) * 2014-09-30 2019-08-20 International Business Machines Corporation Data de-duplication
CN105528384B (zh) * 2014-10-27 2019-03-15 阿里巴巴集团控股有限公司 信息的推送方法和装置
US10477359B2 (en) * 2014-12-08 2019-11-12 International Business Machines Corporation Publishing messages based on geographic area
US9483546B2 (en) * 2014-12-15 2016-11-01 Palantir Technologies Inc. System and method for associating related records to common entities across multiple lists
US10380486B2 (en) * 2015-01-20 2019-08-13 International Business Machines Corporation Classifying entities by behavior
US10458806B2 (en) * 2015-01-27 2019-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and systems for providing information for an on-demand service
US10140298B2 (en) * 2015-02-20 2018-11-27 International Business Machines Corporation Social networking response management system
JP5960863B1 (ja) * 2015-03-11 2016-08-02 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索装置、検索方法、プログラム、及び記録媒体
US9396210B1 (en) 2015-03-12 2016-07-19 Verve Wireless, Inc. Systems, methods, and apparatus for reverse geocoding
CN106033510B (zh) * 2015-03-13 2018-12-21 阿里巴巴集团控股有限公司 一种用户设备识别方法及系统
US10592516B2 (en) 2015-03-27 2020-03-17 British Telecommunications Public Limited Company Anomaly detection by multi-level tolerance relations
WO2016175880A1 (en) * 2015-04-29 2016-11-03 Hewlett Packard Enterprise Development Lp Merging incoming data in a database
US9715695B2 (en) * 2015-06-01 2017-07-25 Conduent Business Services, Llc Method, system and processor-readable media for estimating airport usage demand
EP3317844A4 (en) * 2015-07-03 2019-05-01 Intersective Pty Ltd SYSTEM AND METHOD FOR MONITORING THE PROGRESS OF A LEARNING THROUGH AN EMPIRICAL LEARNING CYCLE
EP3115906A1 (en) 2015-07-07 2017-01-11 Toedt, Dr. Selk & Coll. GmbH Finding doublets in a database
US20170039258A1 (en) * 2015-08-05 2017-02-09 Microsoft Technology Licensing, Llc Efficient Location-Based Entity Record Conflation
US10140327B2 (en) * 2015-08-24 2018-11-27 Palantir Technologies Inc. Feature clustering of users, user correlation database access, and user interface generation system
US10885042B2 (en) * 2015-08-27 2021-01-05 International Business Machines Corporation Associating contextual structured data with unstructured documents on map-reduce
US10834042B2 (en) * 2015-08-31 2020-11-10 International Business Machines Corporation Inference of location where each textual message was posted
CN106557531B (zh) * 2015-09-30 2020-07-03 伊姆西Ip控股有限责任公司 复杂结构对象转换成平面化数据的方法、设备和存储介质
KR102119868B1 (ko) * 2015-10-20 2020-06-05 전자부품연구원 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법
US20170116285A1 (en) * 2015-10-27 2017-04-27 Microsoft Technology Licensing, Llc Semantic Location Layer For User-Related Activity
US10673887B2 (en) * 2015-10-28 2020-06-02 Qomplx, Inc. System and method for cybersecurity analysis and score generation for insurance purposes
US20200389495A1 (en) * 2015-10-28 2020-12-10 Qomplx, Inc. Secure policy-controlled processing and auditing on regulated data sets
US20170236226A1 (en) * 2015-12-03 2017-08-17 Ashutosh Malaviya Computerized systems, processes, and user interfaces for globalized score for a set of real-estate assets
US10931689B2 (en) 2015-12-24 2021-02-23 British Telecommunications Public Limited Company Malicious network traffic identification
US11201876B2 (en) 2015-12-24 2021-12-14 British Telecommunications Public Limited Company Malicious software identification
WO2017108576A1 (en) * 2015-12-24 2017-06-29 British Telecommunications Public Limited Company Malicious software identification
US10380513B2 (en) * 2016-03-11 2019-08-13 Sap Se Framework for classifying forms and processing form data
WO2017156624A1 (en) * 2016-03-14 2017-09-21 Rubikloud Technologies Inc. Method and system for persisting data
US10504032B2 (en) 2016-03-29 2019-12-10 Research Now Group, LLC Intelligent signal matching of disparate input signals in complex computing networks
US11082802B2 (en) * 2016-04-07 2021-08-03 Bluedot Innovation Pty Ltd. Application of data structures to geo-fencing applications
US10515101B2 (en) * 2016-04-19 2019-12-24 Strava, Inc. Determining clusters of similar activities
CN107466103B (zh) * 2016-04-29 2020-06-02 华为技术有限公司 一种终端定位方法及网络设备
WO2017210582A1 (en) * 2016-06-03 2017-12-07 Babel Street, Inc. Geospatial origin and identity based on dialect detection for text based media
US10452414B2 (en) * 2016-06-30 2019-10-22 Microsoft Technology Licensing, Llc Assistive technology notifications for relevant metadata changes in a document
US10726443B2 (en) 2016-07-11 2020-07-28 Samsung Electronics Co., Ltd. Deep product placement
US10764077B2 (en) * 2016-07-26 2020-09-01 RAM Laboratories, Inc. Crowd-sourced event identification that maintains source privacy
US10157498B2 (en) * 2016-08-18 2018-12-18 Robert Bosch Gmbh System and method for procedurally generated object distribution in regions of a three-dimensional virtual environment
CN106326447B (zh) * 2016-08-26 2019-06-21 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
US10552074B2 (en) 2016-09-23 2020-02-04 Samsung Electronics Co., Ltd. Summarized data storage management system for streaming data
US10521477B1 (en) * 2016-09-28 2019-12-31 Amazon Technologies, Inc. Optimized location identification
US10885072B2 (en) 2016-10-25 2021-01-05 International Business Machines Corporation Spatial computing for location-based services
EP3494525B1 (en) * 2016-11-04 2023-03-29 Google LLC Realtime busyness for places
US10635693B2 (en) * 2016-11-11 2020-04-28 International Business Machines Corporation Efficiently finding potential duplicate values in data
US10585864B2 (en) 2016-11-11 2020-03-10 International Business Machines Corporation Computing the need for standardization of a set of values
CN106454781B (zh) * 2016-11-22 2020-02-28 北京小米移动软件有限公司 通讯消息来源方识别方法及装置
US10324993B2 (en) * 2016-12-05 2019-06-18 Google Llc Predicting a search engine ranking signal value
US11127027B2 (en) 2016-12-21 2021-09-21 Engagement Labs Inc./Laboratories Engagement Inc. System and method for measuring social influence of a brand for improving the brand's performance
US10575067B2 (en) 2017-01-04 2020-02-25 Samsung Electronics Co., Ltd. Context based augmented advertisement
US10606814B2 (en) * 2017-01-18 2020-03-31 Microsoft Technology Licensing, Llc Computer-aided tracking of physical entities
CN106910199B (zh) * 2017-01-23 2019-07-09 北京理工大学 面向城市空间信息采集的车联网众包方法
US20180232493A1 (en) * 2017-02-10 2018-08-16 Maximus, Inc. Case-level review tool for physicians
US10929818B2 (en) * 2017-02-16 2021-02-23 Seoul National University R&Db Foundation Wearable sensor-based automatic scheduling device and method
US10565197B2 (en) 2017-03-02 2020-02-18 International Business Machines Corporation Search performance using smart bitmap operations
US11677757B2 (en) 2017-03-28 2023-06-13 British Telecommunications Public Limited Company Initialization vector identification for encrypted malware traffic detection
US10810235B1 (en) * 2017-06-09 2020-10-20 Amazon Technologies, Inc. Efficient region identification using hierarchical geocoded information
US11074247B2 (en) * 2017-06-16 2021-07-27 Microsoft Technology Licensing, Llc Read and write access to sorted lists
CN107332699A (zh) * 2017-06-22 2017-11-07 湖南机友科技有限公司 一种无线群控手机的配置方法及装置
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
US11682045B2 (en) 2017-06-28 2023-06-20 Samsung Electronics Co., Ltd. Augmented reality advertisements on objects
CN107330466B (zh) * 2017-06-30 2023-01-24 上海连尚网络科技有限公司 极速地理GeoHash聚类方法
US10762895B2 (en) 2017-06-30 2020-09-01 International Business Machines Corporation Linguistic profiling for digital customization and personalization
JP6958618B2 (ja) * 2017-07-07 2021-11-02 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
CN109284952B (zh) * 2017-07-21 2023-04-18 菜鸟智能物流控股有限公司 一种归属区域的定位方法和装置
EP3467669A4 (en) * 2017-07-31 2020-01-22 Rakuten, Inc. PROCESSING SYSTEM, PROCESSING DEVICE, PROCESSING PROCESS, PROGRAM AND INFORMATION STORAGE MEDIUM
US11614952B2 (en) * 2017-09-13 2023-03-28 Imageteq Technologies, Inc. Systems and methods for providing modular applications with dynamically generated user experience and automatic authentication
US11657425B2 (en) * 2017-09-29 2023-05-23 Oracle International Corporation Target user estimation for dynamic assets
JP6800825B2 (ja) * 2017-10-02 2020-12-16 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11039414B2 (en) * 2017-11-21 2021-06-15 International Business Machines Corporation Fingerprint data pre-process method for improving localization model
CN108062356A (zh) * 2017-11-27 2018-05-22 口碑(上海)信息技术有限公司 批量数据处理系统和方法
CA3026837A1 (en) * 2017-12-07 2019-06-07 Fifth Third Bancorp Geospatial market analytics
CN108052609A (zh) * 2017-12-13 2018-05-18 武汉烽火普天信息技术有限公司 一种基于词典和机器学习的地址匹配方法
CN108268594B (zh) * 2017-12-14 2021-06-22 北京奇艺世纪科技有限公司 一种数据查询方法和装置
US11775679B2 (en) * 2018-01-08 2023-10-03 Equifax Inc. Facilitating entity resolution, keying, and search match without transmitting personally identifiable information in the clear
US20190333085A1 (en) * 2018-04-25 2019-10-31 International Business Machines Corporation Identifying geographic market share
CN108735292B (zh) * 2018-04-28 2021-09-17 四川大学 基于人工智能的可摘局部义齿方案决策方法和系统
US20210366584A1 (en) * 2018-04-30 2021-11-25 Koninklijke Philips N.V. Improved record finding using multi-party computation
CA3099516A1 (en) * 2018-05-08 2019-11-14 3M Innovative Properties Company Hybrid batch and live natural language processing
JP2019213183A (ja) * 2018-05-30 2019-12-12 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America クラスタリング方法、分類方法、クラスタリング装置、及び、分類装置
RU2720073C2 (ru) 2018-07-04 2020-04-23 Общество С Ограниченной Ответственностью "Яндекс" Способ и электронное устройство для создания индекса сегментов многоугольников
WO2020051265A1 (en) * 2018-09-06 2020-03-12 The Wireless Registry, Inc. Systems and methods for automatic resolutions of wireless signals
EP3621002A1 (en) * 2018-09-06 2020-03-11 Koninklijke Philips N.V. Monitoring moveable entities in a predetermined area
US10970281B2 (en) * 2018-09-06 2021-04-06 Sap Se Searching for data using superset tree data structures
EP3623982B1 (en) 2018-09-12 2021-05-19 British Telecommunications public limited company Ransomware remediation
EP3623980B1 (en) 2018-09-12 2021-04-28 British Telecommunications public limited company Ransomware encryption algorithm determination
US11270471B2 (en) 2018-10-10 2022-03-08 Bentley Systems, Incorporated Efficient refinement of tiles of a HLOD tree
CN113287153A (zh) * 2018-10-14 2021-08-20 本特利系统有限公司 Hlod树的动态前端驱动生成
EP3864627A1 (en) 2018-10-14 2021-08-18 Bentley Systems, Incorporated Conversion of infrastructure model geometry to a tile format
WO2020086051A1 (en) * 2018-10-22 2020-04-30 Google Llc Finding locally prominent semantic features for navigation and geocoding
CN109375923B (zh) * 2018-10-26 2022-05-03 网易(杭州)网络有限公司 变更数据处理方法、装置、存储介质、处理器及服务器
US11468284B2 (en) 2018-10-26 2022-10-11 MillerKnoll, Inc. Space utilization measurement and modeling using artificial intelligence
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
CN111291129B (zh) * 2018-12-06 2024-02-02 浙江宇视科技有限公司 一种基于多维数据研判的目标人员追踪方法及装置
US11126673B2 (en) * 2019-01-29 2021-09-21 Salesforce.Com, Inc. Method and system for automatically enriching collected seeds with information extracted from one or more websites
US10866996B2 (en) 2019-01-29 2020-12-15 Saleforce.com, inc. Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile
US11460307B2 (en) * 2019-02-11 2022-10-04 Wejo Ltd. System and method for processing vehicle event data for journey analysis
US11710034B2 (en) * 2019-02-27 2023-07-25 Intel Corporation Misuse index for explainable artificial intelligence in computing environments
US10585990B1 (en) * 2019-03-15 2020-03-10 Praedicat, Inc. Live updating visualization of causation scores based on scientific article metadata
US11461696B2 (en) * 2019-03-26 2022-10-04 Aetna Inc. Efficacy measures for unsupervised learning in a cyber security environment
CN110110246B (zh) * 2019-05-13 2021-09-07 北京金和网络股份有限公司 基于地理信息网格密度的门店推荐方法
US11018953B2 (en) 2019-06-19 2021-05-25 International Business Machines Corporation Data center cartography bootstrapping from process table data
CN110266834B (zh) * 2019-07-29 2022-08-26 中国工商银行股份有限公司 基于互联网协议地址的地区查找方法及装置
EP4007959A4 (en) * 2019-08-02 2022-06-22 Visa International Service Association REAL-TIME GEO-INTELLIGENT AGGREGATION ENGINE
US11222083B2 (en) * 2019-08-07 2022-01-11 International Business Machines Corporation Web crawler platform
US11574213B1 (en) * 2019-08-14 2023-02-07 Palantir Technologies Inc. Systems and methods for inferring relationships between entities
US11408746B2 (en) * 2019-12-04 2022-08-09 Toyota Connected North America, Inc. Systems and methods for generating attributes-based recommendations
CN113127767B (zh) * 2019-12-31 2023-02-10 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113129406B (zh) * 2019-12-31 2024-03-22 菜鸟智能物流控股有限公司 一种数据处理方法、装置及电子设备
US11360971B2 (en) * 2020-01-16 2022-06-14 Capital One Services, Llc Computer-based systems configured for entity resolution for efficient dataset reduction
US11243969B1 (en) * 2020-02-07 2022-02-08 Hitps Llc Systems and methods for interaction between multiple computing devices to process data records
JP6810978B1 (ja) * 2020-03-16 2021-01-13 株式会社ピース企画 クラスタ生成装置、クラスタ生成方法及びクラスタ生成プログラム
JP6827138B1 (ja) * 2020-03-31 2021-02-10 株式会社フューチャースコープ チラシ受発注仲介サーバ、チラシ発注支援サーバ及びチラシ受発注方法
CN111538917B (zh) * 2020-04-20 2022-08-26 清华大学 学者迁徙路线构建方法及装置
JP7282264B2 (ja) * 2020-04-23 2023-05-26 株式会社Nttドコモ 人口抽出装置
US11297466B1 (en) 2020-04-24 2022-04-05 Allstate Insurance Company Systems for predicting and classifying location data based on machine learning
JP2022030253A (ja) * 2020-08-06 2022-02-18 トヨタ自動車株式会社 情報処理装置およびプログラム
KR102215989B1 (ko) * 2020-08-06 2021-02-16 쿠팡 주식회사 아이템 수거 정보를 제공하는 전자 장치 및 그 방법
US11631295B2 (en) 2020-08-11 2023-04-18 ScooterBug, Inc. Wireless network, mobile systems and methods for controlling access to lockers, strollers, wheel chairs and electronic convenience vehicles provided with machine-readable codes scanned by mobile phones and computing devices
US11790722B2 (en) 2020-08-11 2023-10-17 Best Lockers, Llc Single-sided storage locker systems accessed and controlled using machine-readable codes scanned by mobile phones and computing devices
CN112100180B (zh) * 2020-09-21 2022-03-04 北京嘀嘀无限科技发展有限公司 位置范围的确定方法、装置、存储介质和电子设备
JP7237194B2 (ja) * 2020-10-14 2023-03-10 グーグル エルエルシー プライバシーを守る機械学習予測
US11416312B1 (en) 2021-02-12 2022-08-16 Microsoft Technology Licensing, Llc Near-real-time data processing with partition files
JP7171968B1 (ja) * 2021-03-25 2022-11-15 楽天グループ株式会社 推定システム、推定方法、及びプログラム
US11714812B2 (en) * 2021-05-10 2023-08-01 Capital One Services, Llc System for augmenting and joining multi-cadence datasets
US11523250B1 (en) * 2021-05-12 2022-12-06 Valassis Digital Corp. Computer system with features for determining reliable location data using messages with unreliable location data
US20230030245A1 (en) * 2021-07-30 2023-02-02 Here Global B.V. Systems and methods for generating location-based information
US20230127185A1 (en) * 2021-10-22 2023-04-27 Zoox, Inc. Drivable surface map for autonomous vehicle navigation
US20230259815A1 (en) * 2021-10-28 2023-08-17 Google Llc Machine learning techniques for user group based content distribution
CN114330574A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种面向模式识别的模糊标注方法
US11907971B2 (en) 2022-02-23 2024-02-20 Joshua Ritzer Systems, methods, and storage media for a social commerce platform
US20240028620A1 (en) * 2022-07-20 2024-01-25 Dell Products L.P. System and method for entity resolution using a sorting algorithm and a scoring algorithm with a dynamic thresholding
WO2024033699A1 (en) * 2022-08-11 2024-02-15 L&T Technology Services Limited A method and system of creating balanced dataset

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010968A2 (en) * 2000-07-31 2002-02-07 Eliyon Technologies Corporation Data mining system
CN1799048A (zh) * 2003-04-23 2006-07-05 瑟顿爱知有限公司 通用数据库模式
CN101052944A (zh) * 2004-03-29 2007-10-10 微软公司 用于关系数据库中存储数据的细化访问控制的系统和方法

Family Cites Families (226)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US594791A (en) * 1897-11-30 Lantern
US584791A (en) 1897-06-22 Metallic fence-post
US1897594A (en) 1930-10-23 1933-02-14 Nat Malleable & Steel Castings Lock
ES2100082T3 (es) 1993-07-07 1997-06-01 Europ Computer Ind Res Estructuras de bases de datos.
DE69735486T2 (de) * 1996-07-22 2006-12-14 Cyva Research Corp., San Diego Werkzeug zur sicherheit und zum austauch von persönlichen daten
US6236365B1 (en) * 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
US6112238A (en) 1997-02-14 2000-08-29 Webtrends Corporation System and method for analyzing remote traffic data in a distributed computing environment
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US7921068B2 (en) 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
US6317787B1 (en) * 1998-08-11 2001-11-13 Webtrends Corporation System and method for analyzing web-server log files
US6184829B1 (en) 1999-01-08 2001-02-06 Trueposition, Inc. Calibration for wireless location system
US20030060211A1 (en) * 1999-01-26 2003-03-27 Vincent Chern Location-based information retrieval system for wireless communication device
BR9916993A (pt) 1999-01-29 2001-11-06 Nokia Networks Oy Processo para sinalizar quais blocos de dados podem ser combinador juntos em um sistema de comunicação de redundância incremental, e, sistema de comunicação
US6212392B1 (en) * 1999-02-26 2001-04-03 Signal Soft Corp. Method for determining if the location of a wireless communication device is within a specified area
US6212393B1 (en) * 1999-08-02 2001-04-03 Motorola, Inc. Method and apparatus for communication within a vehicle dispatch system
US7096214B1 (en) 1999-12-15 2006-08-22 Google Inc. System and method for supporting editorial opinion in the ranking of search results
CA2298194A1 (en) 2000-02-07 2001-08-07 Profilium Inc. Method and system for delivering and targeting advertisements over wireless networks
US7137065B1 (en) 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US20050015486A1 (en) * 2000-03-08 2005-01-20 Thebrain Technologies Corp. System, method and article of manufacture for organization monitoring
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
US6868410B2 (en) 2000-06-05 2005-03-15 Stephen E. Fortin High-performance location management platform
US6983321B2 (en) * 2000-07-10 2006-01-03 Bmc Software, Inc. System and method of enterprise systems and business impact management
US7330850B1 (en) 2000-10-04 2008-02-12 Reachforce, Inc. Text mining system for web-based business intelligence applied to web site server logs
US7257596B1 (en) 2000-11-09 2007-08-14 Integrated Marketing Technology Subscription membership marketing application for the internet
US7398271B1 (en) * 2001-04-16 2008-07-08 Yahoo! Inc. Using network traffic logs for search enhancement
US7089264B1 (en) * 2001-06-22 2006-08-08 Navteq North America, Llc Geographic database organization that facilitates location-based advertising
US7082365B2 (en) 2001-08-16 2006-07-25 Networks In Motion, Inc. Point of interest spatial rating search method and system
US8977284B2 (en) 2001-10-04 2015-03-10 Traxcell Technologies, LLC Machine for providing a dynamic data base of geographic location information for a plurality of wireless devices and process for making same
US7058668B2 (en) 2002-01-11 2006-06-06 International Business Machines Corporation System for estimating the temporal validity of location reports through pattern analysis
US7058639B1 (en) 2002-04-08 2006-06-06 Oracle International Corporation Use of dynamic multi-level hash table for managing hierarchically structured information
US7177863B2 (en) * 2002-04-26 2007-02-13 International Business Machines Corporation System and method for determining internal parameters of a data clustering program
US6792545B2 (en) * 2002-06-20 2004-09-14 Guidance Software, Inc. Enterprise computer investigation system
US7526467B2 (en) 2002-09-13 2009-04-28 Natural Selection, Inc. Intelligently interactive profiling system and method
JP4059088B2 (ja) 2003-01-28 2008-03-12 日本電気株式会社 移動体無線通信システム、及びその無線パラメータ制御方法
US20040181526A1 (en) 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
CH703073B1 (de) * 2003-03-19 2011-11-15 Roland Pulfer Vergleich von Modellen eines komplexen Systems.
US7577732B2 (en) 2003-03-28 2009-08-18 Fujitsu Limited Information distribution service providing system
EP1482418A1 (en) * 2003-05-28 2004-12-01 Sap Ag A data processing method and system
US7617202B2 (en) 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
KR100541048B1 (ko) 2003-06-16 2006-01-11 삼성전자주식회사 반도체 메모리 장치 및 이 장치의 테스트 방법
WO2005015870A1 (en) 2003-08-01 2005-02-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for routing a service request
US7734661B2 (en) 2003-08-11 2010-06-08 Descisys Limited Method and apparatus for accessing multidimensional data
WO2005022417A2 (en) 2003-08-27 2005-03-10 Ascential Software Corporation Methods and systems for real time integration services
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US20050073708A1 (en) 2003-10-01 2005-04-07 Oh Myoung-Jin Method of reporting print option in printing system
US20050096997A1 (en) 2003-10-31 2005-05-05 Vivek Jain Targeting shoppers in an online shopping environment
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US7539666B2 (en) 2004-04-06 2009-05-26 International Business Machines Corporation Method, system and program for managing geographic data stored in a database
KR100659266B1 (ko) 2004-04-22 2006-12-20 삼성전자주식회사 다양한 코드율을 지원하는 저밀도 패러티 검사 코드에 의한데이터 송수신 시스템, 장치 및 방법
KR100443483B1 (ko) 2004-04-23 2004-08-09 엔에이치엔(주) 급상승 검색어 검출 방법 및 시스템
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US7962465B2 (en) * 2006-10-19 2011-06-14 Yahoo! Inc. Contextual syndication platform
US7720652B2 (en) 2004-10-19 2010-05-18 Microsoft Corporation Modeling location histories
US7644077B2 (en) * 2004-10-21 2010-01-05 Microsoft Corporation Methods, computer readable mediums and systems for linking related data from at least two data sources based upon a scoring algorithm
US7801897B2 (en) * 2004-12-30 2010-09-21 Google Inc. Indexing documents according to geographical relevance
US7779340B2 (en) 2005-03-17 2010-08-17 Jds Uniphase Corporation Interpolated timestamps in high-speed data capture and analysis
US8719244B1 (en) * 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US8732175B2 (en) * 2005-04-21 2014-05-20 Yahoo! Inc. Interestingness ranking of media objects
US8538969B2 (en) * 2005-06-03 2013-09-17 Adobe Systems Incorporated Data format for website traffic statistics
US7826965B2 (en) 2005-06-16 2010-11-02 Yahoo! Inc. Systems and methods for determining a relevance rank for a point of interest
GB2427791B (en) 2005-06-30 2009-12-02 Nokia Corp Radio frequency scan
US20070005556A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Probabilistic techniques for detecting duplicate tuples
US7831381B2 (en) * 2005-08-04 2010-11-09 Microsoft Corporation Data engine for ranking popularity of landmarks in a geographical area
US8150416B2 (en) 2005-08-08 2012-04-03 Jambo Networks, Inc. System and method for providing communication services to mobile device users incorporating proximity determination
JP2007110785A (ja) * 2005-10-11 2007-04-26 Denso Corp 車両用交流発電機
US7933897B2 (en) * 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
US20070088603A1 (en) 2005-10-13 2007-04-19 Jouppi Norman P Method and system for targeted data delivery using weight-based scoring
US7346594B2 (en) * 2005-10-18 2008-03-18 International Business Machines Corporation Classification method and system for small collections of high-value entities
US7576754B1 (en) 2005-10-27 2009-08-18 Google Inc. System and method for identifying bounds of a geographical area
US7734632B2 (en) 2005-10-28 2010-06-08 Disney Enterprises, Inc. System and method for targeted ad delivery
JP4762693B2 (ja) * 2005-11-22 2011-08-31 株式会社日立製作所 ファイルサーバ、ファイルサーバのログ管理システム及びファイルサーバのログ管理方法
US7904097B2 (en) 2005-12-07 2011-03-08 Ekahau Oy Location determination techniques
US7880551B2 (en) 2005-12-29 2011-02-01 The Trustees Of Columbia University In The City Of New York Systems and methods for distributing a clock signal
US20090005061A1 (en) 2005-12-30 2009-01-01 Trueposition, Inc. Location quality of service indicator
US7509477B2 (en) * 2006-04-12 2009-03-24 Microsoft Corporation Aggregating data from difference sources
US8656272B2 (en) 2006-04-28 2014-02-18 Microsoft Corporation Persisting instance-level report customizations
US8489110B2 (en) 2006-05-12 2013-07-16 At&T Intellectual Property I, L.P. Privacy control of location information
US8965393B2 (en) 2006-05-22 2015-02-24 Polaris Wireless, Inc. Estimating the location of a wireless terminal based on assisted GPS and pattern matching
JP2008083918A (ja) 2006-09-27 2008-04-10 Aisin Aw Co Ltd ナビゲーション装置
US8046001B2 (en) 2006-11-17 2011-10-25 Yoram Shalmon Method of providing advertising to mobile units
JP5029874B2 (ja) * 2006-12-28 2012-09-19 富士通株式会社 情報処理装置、情報処理方法、情報処理プログラム
US7849104B2 (en) 2007-03-01 2010-12-07 Microsoft Corporation Searching heterogeneous interrelated entities
US8229458B2 (en) * 2007-04-08 2012-07-24 Enhanced Geographic Llc Systems and methods to determine the name of a location visited by a user of a wireless device
US20080255862A1 (en) * 2007-04-11 2008-10-16 Bailey Gregory A Predictive asset ranking score of property
WO2008128133A1 (en) 2007-04-13 2008-10-23 Pelago, Inc. Location-based information determination
US8242959B2 (en) 2007-04-18 2012-08-14 Trueposition, Inc. Sparsed U-TDOA wireless location networks
US8045506B2 (en) 2007-04-18 2011-10-25 Trueposition, Inc. Sparsed U-TDOA wireless location networks
US8200701B2 (en) 2007-04-19 2012-06-12 Itelligence A/S Handling of data in a data sharing system
CN101743596B (zh) 2007-06-15 2012-05-30 皇家飞利浦电子股份有限公司 用于自动生成多媒体文件概要的方法和设备
WO2009002949A2 (en) * 2007-06-23 2008-12-31 Motivepath, Inc. System, method and apparatus for predictive modeling of specially distributed data for location based commercial services
JP5327497B2 (ja) * 2007-07-11 2013-10-30 日立オートモティブシステムズ株式会社 地図データ配信システム及び地図データ更新方法
KR20090025607A (ko) 2007-09-06 2009-03-11 삼성전자주식회사 컨텐트의 메타데이터 업데이트 방법 및 그 장치
KR101370002B1 (ko) 2007-09-19 2014-03-04 삼성전자주식회사 다중 홉 중계 방식의 무선통신 시스템에서 스케줄링 장치및 방법
US8892455B2 (en) 2007-09-28 2014-11-18 Walk Score Management, LLC Systems, techniques, and methods for providing location assessments
US7836037B2 (en) * 2007-10-04 2010-11-16 Sap Ag Selection of rows and values from indexes with updates
US8510299B2 (en) 2007-10-23 2013-08-13 At&T Intellectual Property I, L.P. Method and apparatus for providing a user traffic weighted search
US20090125321A1 (en) 2007-11-14 2009-05-14 Qualcomm Incorporated Methods and systems for determining a geographic user profile to determine suitability of targeted content messages based on the profile
US9203912B2 (en) 2007-11-14 2015-12-01 Qualcomm Incorporated Method and system for message value calculation in a mobile environment
US20090132469A1 (en) 2007-11-16 2009-05-21 Urban Mapping, Inc. Geocoding based on neighborhoods and other uniquely defined informal spaces or geographical regions
US8126881B1 (en) 2007-12-12 2012-02-28 Vast.com, Inc. Predictive conversion systems and methods
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
FR2927446B1 (fr) 2008-02-12 2010-05-14 Compagnie Ind Et Financiere Dingenierie Ingenico Procede de tracabilite d'un terminal de paiement electronique, en cas de vol de ce dernier, programme d'ordinateur et terminal correspondants.
US9081853B2 (en) 2008-04-03 2015-07-14 Graham Holdings Company Information display system based on user profile data with assisted and explicit profile modification
US9646078B2 (en) * 2008-05-12 2017-05-09 Groupon, Inc. Sentiment extraction from consumer reviews for providing product recommendations
US20090287405A1 (en) * 2008-05-15 2009-11-19 Garmin Ltd. Traffic data quality
US20090299952A1 (en) 2008-05-27 2009-12-03 Zheng Jerry Systems and methods for automatic quality assurance of workflow reports
US10163113B2 (en) * 2008-05-27 2018-12-25 Qualcomm Incorporated Methods and apparatus for generating user profile based on periodic location fixes
US9646025B2 (en) * 2008-05-27 2017-05-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
US20100023515A1 (en) 2008-07-28 2010-01-28 Andreas Marx Data clustering engine
US8065315B2 (en) * 2008-08-27 2011-11-22 Sap Ag Solution search for software support
US20100070339A1 (en) * 2008-09-15 2010-03-18 Google Inc. Associating an Entity with a Category
CN101350154B (zh) * 2008-09-16 2013-01-30 北京搜狐新媒体信息技术有限公司 一种电子地图数据的排序方法及装置
US8224766B2 (en) 2008-09-30 2012-07-17 Sense Networks, Inc. Comparing spatial-temporal trails in location analytics
WO2010053423A1 (en) 2008-11-07 2010-05-14 Telefonaktiebolaget L M Ericsson (Publ) A method of triggering location based events in a user equipment
US9063226B2 (en) * 2009-01-14 2015-06-23 Microsoft Technology Licensing, Llc Detecting spatial outliers in a location entity dataset
US9125018B2 (en) 2009-02-09 2015-09-01 Qualcomm Incorporated Triggered location services
IL197168A (en) 2009-02-22 2017-10-31 Verint Systems Ltd A system and method for predicting future meetings between users in wireless communication
US20100217525A1 (en) * 2009-02-25 2010-08-26 King Simon P System and Method for Delivering Sponsored Landmark and Location Labels
US20120047087A1 (en) 2009-03-25 2012-02-23 Waldeck Technology Llc Smart encounters
US20120046995A1 (en) * 2009-04-29 2012-02-23 Waldeck Technology, Llc Anonymous crowd comparison
US20100305842A1 (en) * 2009-05-27 2010-12-02 Alpine Electronics, Inc. METHOD AND APPARATUS TO FILTER AND DISPLAY ONLY POIs CLOSEST TO A ROUTE
US8706131B2 (en) 2009-06-18 2014-04-22 Empire Technology Development Llc Device location prediction for mobile service optimization
CN102483748B (zh) * 2009-07-07 2016-04-20 谷歌公司 用于地图搜索的方法和系统
WO2011017377A2 (en) * 2009-08-03 2011-02-10 Webtrends, Inc. Advanced visualizations in analytics reporting
US8959070B2 (en) 2009-09-15 2015-02-17 Factual Inc. Processes and systems for collaborative manipulation of data
US20110087685A1 (en) * 2009-10-09 2011-04-14 Microsoft Corporation Location-based service middleware
EP2490170A1 (en) 2009-10-14 2012-08-22 Ntt Docomo, Inc. Positional information analysis device and positional information analysis method
US8583584B2 (en) * 2009-10-20 2013-11-12 Google Inc. Method and system for using web analytics data for detecting anomalies
US8589069B1 (en) 2009-11-12 2013-11-19 Google Inc. Enhanced identification of interesting points-of-interest
US9176986B2 (en) * 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
JP2011118777A (ja) * 2009-12-04 2011-06-16 Sony Corp 学習装置および学習方法、予測装置および予測方法、並びにプログラム
EP2513603A1 (en) 2009-12-15 2012-10-24 Mapquest, Inc. Computer-implemented methods and systems for mult-level geographic query
WO2011084707A2 (en) * 2009-12-17 2011-07-14 Pokos Communication Corp. Method and system for transmitting and receiving messages
US8543143B2 (en) * 2009-12-23 2013-09-24 Nokia Corporation Method and apparatus for grouping points-of-interest according to area names
US8301639B1 (en) 2010-01-29 2012-10-30 Google Inc. Location based query suggestion
JP2013518354A (ja) * 2010-01-31 2013-05-20 ウルフ、カール、ジー. ゲーミングマーカーの定量的ミスプライシングを認識する方法およびシステム
WO2011106128A1 (en) 2010-02-25 2011-09-01 Brennan Peter S Location identification systems and methods
US8346795B2 (en) * 2010-03-10 2013-01-01 Xerox Corporation System and method for guiding entity-based searching
US20110225288A1 (en) * 2010-03-12 2011-09-15 Webtrends Inc. Method and system for efficient storage and retrieval of analytics data
US8086899B2 (en) * 2010-03-25 2011-12-27 Microsoft Corporation Diagnosis of problem causes using factorization
JP2011214948A (ja) 2010-03-31 2011-10-27 Sony Corp 情報処理装置、行動予測表示方法及びコンピュータプログラム
US8538973B1 (en) 2010-04-05 2013-09-17 Google Inc. Directions-based ranking of places returned by local search queries
US20110295751A1 (en) * 2010-05-27 2011-12-01 Smith Micro Software, Inc. System and method for subsidized internet access through preferred partners
US20110307391A1 (en) * 2010-06-11 2011-12-15 Microsoft Corporation Auditing crowd-sourced competition submissions
JP5832432B2 (ja) 2010-06-15 2015-12-16 株式会社ナビタイムジャパン ナビゲーションシステム、ナビゲーション方法、および、プログラム
US20110313969A1 (en) 2010-06-17 2011-12-22 Gowda Timma Ramu Updating historic data and real-time data in reports
US9715553B1 (en) * 2010-06-18 2017-07-25 Google Inc. Point of interest retrieval
US8930245B2 (en) 2010-06-23 2015-01-06 Justin Streich Methods, systems and machines for identifying geospatial compatibility between consumers and providers of goods or services
CA3020551C (en) 2010-06-24 2022-06-07 Arbitron Mobile Oy Network server arrangement for processing non-parametric, multi-dimensional, spatial and temporal human behavior or technical observations measured pervasively, and related method for the same
US8307006B2 (en) * 2010-06-30 2012-11-06 The Nielsen Company (Us), Llc Methods and apparatus to obtain anonymous audience measurement data from network server data for particular demographic and usage profiles
US20120010996A1 (en) * 2010-07-07 2012-01-12 Microsoft Corporation Recommendations and targeted advertising based upon directions requests activity and data
US9801095B2 (en) 2010-07-26 2017-10-24 At&T Mobility Ii Llc Automated wireless access point resource allocation and optimization
US8812018B2 (en) * 2010-07-28 2014-08-19 Unwired Planet, Llc System and method for predicting future locations of mobile communication devices using connection-related data of a mobile access network
CN102142003B (zh) * 2010-07-30 2013-04-24 华为软件技术有限公司 兴趣点信息提供方法及装置
PL2415942T3 (pl) 2010-08-05 2013-07-31 Iso Chemie Gmbh Taśma uszczelniająca
US8577330B2 (en) 2010-09-14 2013-11-05 Empire Technology Development Llc Prediction of mobile bandwidth and usage requirements
US20120084280A1 (en) 2010-10-05 2012-04-05 Horacio Ricardo Bouzas Social network resource integration
US8794971B2 (en) * 2010-10-09 2014-08-05 Yellowpages.Com Llc Method and system for assigning a task to be processed by a crowdsourcing platform
US8958822B2 (en) 2010-10-25 2015-02-17 Alohar Mobile Inc. Determining points of interest of a mobile user
US8548177B2 (en) * 2010-10-26 2013-10-01 University Of Alaska Fairbanks Methods and systems for source tracking
CN102456055B (zh) * 2010-10-28 2014-11-12 腾讯科技(深圳)有限公司 兴趣点检索的方法及装置
US8352604B2 (en) 2010-10-28 2013-01-08 Symbol Technologies, Inc. Distributed propagation of data in a wireless communication network
US9286324B2 (en) 2010-12-06 2016-03-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for operating a geolocation database and a geolocation database system
CN102004793B (zh) 2010-12-08 2013-09-04 厦门雅迅网络股份有限公司 一种设计和生成网格空间索引文件的方法及进行信息查询的方法
US8751427B1 (en) 2011-01-05 2014-06-10 Google Inc. Location-centric recommendation service for users
US9251215B2 (en) 2011-01-14 2016-02-02 Hewlett Packard Enterprise Development Lp Data staging for results of analytics
US20120185455A1 (en) 2011-01-14 2012-07-19 Aliaksandr Hedrevich System and method of providing search query results
US8692667B2 (en) 2011-01-19 2014-04-08 Qualcomm Incorporated Methods and apparatus for distributed learning of parameters of a fingerprint prediction map model
US8635197B2 (en) 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US10621247B2 (en) 2011-03-03 2020-04-14 Cox Communications, Inc. Location and profile based system and service
US9208626B2 (en) 2011-03-31 2015-12-08 United Parcel Service Of America, Inc. Systems and methods for segmenting operational data
WO2012142158A2 (en) * 2011-04-11 2012-10-18 Credibility Corp. Visualization tools for reviewing credibility and stateful hierarchical access to credibility
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US9202200B2 (en) * 2011-04-27 2015-12-01 Credibility Corp. Indices for credibility trending, monitoring, and lead generation
US8392408B1 (en) 2011-05-04 2013-03-05 Google Inc. Coordinating successive search queries using a query cursor
US9451401B2 (en) 2011-05-27 2016-09-20 Qualcomm Incorporated Application transport level location filtering of internet protocol multicast content delivery
US20120317088A1 (en) * 2011-06-07 2012-12-13 Microsoft Corporation Associating Search Queries and Entities
US9122720B2 (en) 2011-06-14 2015-09-01 Microsoft Technology Licensing, Llc Enriching database query responses using data from external data sources
CN102843349B (zh) * 2011-06-24 2018-03-27 中兴通讯股份有限公司 实现移动增强现实业务的方法及系统、终端及服务器
US8463816B2 (en) 2011-06-27 2013-06-11 Siemens Aktiengesellschaft Method of administering a knowledge repository
US8843315B1 (en) 2011-06-28 2014-09-23 University Of South Florida System and method for spatial point-of-interest generation and automated trip segmentation using location data
US8788436B2 (en) 2011-07-27 2014-07-22 Microsoft Corporation Utilization of features extracted from structured documents to improve search relevance
GB201113143D0 (en) 2011-07-29 2011-09-14 Univ Ulster Gait recognition methods and systems
CN102955792A (zh) 2011-08-23 2013-03-06 崔春明 一种实时全文搜索引擎事务处理的实现方法
US9626434B2 (en) 2011-08-30 2017-04-18 Open Text Sa Ulc Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US8965889B2 (en) 2011-09-08 2015-02-24 Oracle International Corporation Bi-temporal user profiles for information brokering in collaboration systems
US9098600B2 (en) 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
US9396275B2 (en) 2011-09-15 2016-07-19 Hewlett Packard Enterprise Development Lp Geographically partitioned online search system
US20130262479A1 (en) * 2011-10-08 2013-10-03 Alohar Mobile Inc. Points of interest (poi) ranking based on mobile user related data
US10149267B2 (en) 2011-10-11 2018-12-04 Match Group, Llc System and method for matching using location information
US8983973B2 (en) 2011-10-12 2015-03-17 Mapquest, Inc. Systems and methods for ranking points of interest
US9253282B2 (en) 2011-10-18 2016-02-02 Qualcomm Incorporated Method and apparatus for generating, using, or updating an enriched user profile
US20130103607A1 (en) 2011-10-20 2013-04-25 International Business Machines Corporation Determination of Projected Carrier Assignment
US20130267255A1 (en) 2011-10-21 2013-10-10 Alohar Mobile Inc. Identify points of interest using wireless access points
US20130246175A1 (en) 2011-12-05 2013-09-19 Qualcomm Labs, Inc. Selectively presenting advertisements to a customer of a service based on a place movement pattern profile
US9378287B2 (en) * 2011-12-14 2016-06-28 Patrick Frey Enhanced search system and method based on entity ranking
US8974303B2 (en) 2011-12-20 2015-03-10 Microsoft Technology Licensing, Llc Ad-hoc user and device engagement platform
US9720555B2 (en) 2011-12-23 2017-08-01 Gary SORDEN Location-based services
US8897803B2 (en) 2012-01-13 2014-11-25 Apple Inc. Finding wireless network access points
US8909255B1 (en) 2012-02-21 2014-12-09 Google Inc. Reverse geocoder
US9544075B2 (en) 2012-02-22 2017-01-10 Qualcomm Incorporated Platform for wireless identity transmitter and system using short range wireless broadcast
US8768876B2 (en) 2012-02-24 2014-07-01 Placed, Inc. Inference pipeline system and method
US20130227026A1 (en) 2012-02-29 2013-08-29 Daemonic Labs Location profiles
US8599812B2 (en) 2012-03-26 2013-12-03 Qualcomm Incorporated Encoded wireless data delivery in a WLAN positioning system
US8855681B1 (en) 2012-04-20 2014-10-07 Amazon Technologies, Inc. Using multiple applications to provide location information
US9280610B2 (en) * 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US20130346347A1 (en) 2012-06-22 2013-12-26 Google Inc. Method to Predict a Communicative Action that is Most Likely to be Executed Given a Context
JP6480334B2 (ja) * 2012-10-16 2019-03-06 ブリガム・ヤング・ユニバーシティBrigham Young University 時系列波形データセットからの非周期的成分の抽出
US9189518B2 (en) 2012-10-19 2015-11-17 International Business Machines Corporation Gathering index statistics using sampling
WO2014074513A1 (en) 2012-11-06 2014-05-15 Intertrust Technologies Corporation Activity recognition systems and methods
US9600501B1 (en) 2012-11-26 2017-03-21 Google Inc. Transmitting and receiving data between databases with different database processing capabilities
US10235683B2 (en) * 2014-07-18 2019-03-19 PlaceIQ, Inc. Analyzing mobile-device location histories to characterize consumer behavior
US8489596B1 (en) 2013-01-04 2013-07-16 PlaceIQ, Inc. Apparatus and method for profiling users
US9183438B1 (en) 2013-03-14 2015-11-10 Google Inc. Systems, methods, and computer-readable media for determining a salient region of a geographic map
US20140278838A1 (en) 2013-03-14 2014-09-18 Uber Technologies, Inc. Determining an amount for a toll based on location data points provided by a computing device
WO2014145088A1 (en) 2013-03-15 2014-09-18 SHIMANOVSKY, Boris Apparatus, systems, and methods for batch and realtime data processing
US9002837B2 (en) * 2013-03-15 2015-04-07 Ipar, Llc Systems and methods for providing expert thread search results
JP6507644B2 (ja) 2015-01-05 2019-05-08 セイコーエプソン株式会社 液体噴射ヘッドおよびその製造方法
US20160366547A1 (en) * 2015-06-15 2016-12-15 Microsoft Technology Licensing, Llc Locating devices by correlating time series datasets
US10671648B2 (en) 2016-02-22 2020-06-02 Eagle View Technologies, Inc. Integrated centralized property database systems and methods
CN105787055B (zh) * 2016-02-26 2020-04-21 合一网络技术(北京)有限公司 信息推荐方法及装置
US9686646B1 (en) 2016-09-29 2017-06-20 Cars.Com, Llc Integrated geospatial activity reporting
US10324935B1 (en) 2018-02-09 2019-06-18 Banjo, Inc. Presenting event intelligence and trends tailored per geographic area granularity
US10353934B1 (en) 2018-04-27 2019-07-16 Banjo, Inc. Detecting an event from signals in a listening area
US10268642B1 (en) 2018-04-27 2019-04-23 Banjo, Inc. Normalizing insufficient signals based on additional information
US10327116B1 (en) 2018-04-27 2019-06-18 Banjo, Inc. Deriving signal location from signal content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010968A2 (en) * 2000-07-31 2002-02-07 Eliyon Technologies Corporation Data mining system
CN1799048A (zh) * 2003-04-23 2006-07-05 瑟顿爱知有限公司 通用数据库模式
CN101052944A (zh) * 2004-03-29 2007-10-10 微软公司 用于关系数据库中存储数据的细化访问控制的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHAEL J. CAFARELLA等: "Extracting and Querying a Comprehensive Web Database", 《HTTPS://COURSES.CS.WASHINGTON.EDU/COURSES/CSE454/10AU/PAPERS/CAFARELLA-CIDR09.PDF》 *
SEBASTIAN HELLMANN等: "Dbpedia Live Extraction", 《ON THE MOVE TO MEANINGFUL INTERNET SYSTEMS:OTM 2009》 *

Also Published As

Publication number Publication date
EP2976740A2 (en) 2016-01-27
US9977792B2 (en) 2018-05-22
US20170206223A1 (en) 2017-07-20
US11468019B2 (en) 2022-10-11
EP2974434A4 (en) 2016-11-02
US9594791B2 (en) 2017-03-14
CN111177125B (zh) 2023-10-31
US20140279757A1 (en) 2014-09-18
US9317541B2 (en) 2016-04-19
WO2014145076A3 (en) 2015-02-05
US20140274022A1 (en) 2014-09-18
US10831725B2 (en) 2020-11-10
US20210303531A1 (en) 2021-09-30
HK1224007A1 (zh) 2017-08-11
CN115130021A (zh) 2022-09-30
EP4002252A1 (en) 2022-05-25
US20140274154A1 (en) 2014-09-18
US9753965B2 (en) 2017-09-05
US10817482B2 (en) 2020-10-27
CN105556511A (zh) 2016-05-04
CN110191416A (zh) 2019-08-30
CN105556545A (zh) 2016-05-04
US10459896B2 (en) 2019-10-29
EP3401870A1 (en) 2018-11-14
WO2014145104A2 (en) 2014-09-18
CN105531698A (zh) 2016-04-27
US10013446B2 (en) 2018-07-03
EP2976740A4 (en) 2017-01-11
US10331631B2 (en) 2019-06-25
US20200167322A1 (en) 2020-05-28
US20200034341A1 (en) 2020-01-30
US20180293262A1 (en) 2018-10-11
US20210374109A1 (en) 2021-12-02
US10579600B2 (en) 2020-03-03
WO2014145088A1 (en) 2014-09-18
CN105518658A (zh) 2016-04-20
US20140289188A1 (en) 2014-09-25
HK1224364A1 (zh) 2017-08-18
US10891269B2 (en) 2021-01-12
CN105532030A (zh) 2016-04-27
EP2973039B1 (en) 2020-09-16
US10817484B2 (en) 2020-10-27
US10255301B2 (en) 2019-04-09
US20180011888A1 (en) 2018-01-11
EP2973041A1 (en) 2016-01-20
US20190220447A1 (en) 2019-07-18
CN110191416B (zh) 2022-04-15
US20160232192A1 (en) 2016-08-11
US20140279811A1 (en) 2014-09-18
CN105531698B (zh) 2019-08-13
US20210286776A1 (en) 2021-09-16
WO2014145104A3 (en) 2015-02-26
EP3876107A1 (en) 2021-09-08
US20210263897A1 (en) 2021-08-26
US20230129014A1 (en) 2023-04-27
US20140279674A1 (en) 2014-09-18
CN111177125A (zh) 2020-05-19
WO2014145069A1 (en) 2014-09-18
CN105556512A (zh) 2016-05-04
CN105556512B (zh) 2020-01-24
HK1224365A1 (zh) 2017-08-18
EP2973041B1 (en) 2018-08-01
WO2014145059A2 (en) 2014-09-18
US20190266133A1 (en) 2019-08-29
WO2014145106A1 (en) 2014-09-18
US11762818B2 (en) 2023-09-19
US10866937B2 (en) 2020-12-15
EP2973245A4 (en) 2017-01-11
EP2974434A2 (en) 2016-01-20
US11461289B2 (en) 2022-10-04
CN105532030B (zh) 2019-06-28
US20190213173A1 (en) 2019-07-11
EP2973245A2 (en) 2016-01-20
CN105556545B (zh) 2021-08-20
EP2973036A1 (en) 2016-01-20
WO2014145076A2 (en) 2014-09-18
US20210342314A1 (en) 2021-11-04
CN114240372A (zh) 2022-03-25
EP2973039A1 (en) 2016-01-20
US10268708B2 (en) 2019-04-23
US20180246909A1 (en) 2018-08-30
WO2014145059A3 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
CN105531698B (zh) 用于批量和实时数据处理的设备、系统和方法
JP7273045B2 (ja) Sqlクエリプランを最適化するための次元コンテキスト伝搬技術
US20200183932A1 (en) Optimizing write operations in object schema-based application programming interfaces (apis)
US11341263B2 (en) Efficient data query and utilization through a semantic storage model
CA3025493C (en) Optimizing read and write operations in object schema-based application programming interfaces (apis)
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
Auer et al. Triplify: light-weight linked data publication from relational databases
Indrawan-Santiago Database research: Are we at a crossroad? Reflection on NoSQL
CN108073710B (zh) 基于动态网络图挖掘的Github开源代码库推荐系统
CN107451225A (zh) 用于半结构化数据的可缩放分析平台
Lemahieu et al. Principles of database management: the practical guide to storing, managing and Analyzing big and small Data
US11030224B2 (en) Data import and reconciliation
Maccioni et al. QUEPA: QUerying and exploring a polystore by augmentation
Nicklas et al. A schema-based approach to enable data integration on the fly
CN108874334A (zh) 工作者线程处理
Uzunbayır A comparison between relational database models and NoSQL trends on big data design challenges using a social shopping application
CN103870497A (zh) 用于基于列的数据库的列智能机制
US11663231B2 (en) Access sharing to data from cloud-based analytics engine
US20180329970A1 (en) Providing metadata to database systems and environments with multiple processing units or modules
Yang Improving the Relevance, Speed, and Computational Efficiency of Semantic Search Through Database Indexing: A Review
Kagramanyan et al. Document Stores And Couchbase
CN113468115A (zh) 一种日志处理方法、装置、设备及介质
Ibragimov Optimizing Analytical Queries over Semantic Web Sources
Brodt A mobile data management architecture for interoperability of resource and context data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40013823

Country of ref document: HK