CN102054015B - 使用有机物件数据模型来组织社群智能信息的系统及方法 - Google Patents
使用有机物件数据模型来组织社群智能信息的系统及方法 Download PDFInfo
- Publication number
- CN102054015B CN102054015B CN201010526961.8A CN201010526961A CN102054015B CN 102054015 B CN102054015 B CN 102054015B CN 201010526961 A CN201010526961 A CN 201010526961A CN 102054015 B CN102054015 B CN 102054015B
- Authority
- CN
- China
- Prior art keywords
- module
- hyphenation
- suggestion
- theme
- organism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种使用有机物件数据模型来组织社群智能信息的系统及方法,该方法包含:接收含有社群智能数据的一个或多个网页;对所述含有社群智能数据的一个或多个网页的内容进行断词;识别所述一个或多个网页的经断词的内容中的附名实体(Named Entity);识别一个或多个网页的经断词的内容中的主题;识别一个或多个网页的经断词的内容中的意见;整合所识别的附名实体、主题及意见,以建构有机物件数据模型;以及将与所建构的有机物件数据模型相关联的有机物件数据存储于有机物件数据库中。
Description
技术领域
本公开案涉及撷取及分析线上社群智能信息(online collectiveintelligence information)的领域,且更明确而言,是关于用于自线上社群(online social community)收集数据并管理数据,且使用有机物件架构(organic object architecture)来提供高品质搜寻结果的系统及方法。
背景技术
Web 2.0网站允许其使用者彼此互动以成为网站的内容的提供者,而在有些网站上,使用者被限制于仅能被动地观看提供给他们的信息。由于能够建立及更新内容,所以许多网络作者能够一起协同创作。举例而言,在维基百科(wikis)中,使用者可扩充、取消及重作彼此的创作。在部落格中,个人的发贴及评论会随时间而逐渐累积。
社群智能(social intelligence,SI)是指分析从一群互联网使用者中所收集的数据的概念,其使人能够了解社会群体中的意见以及过去及未来的行为。为了使线上搜寻引擎(online search engine)能够提供回应性的线上搜寻结果(responsive online search result),搜寻系统必须有效地撷取及管理来自各种来源的SI信息。
Web 2.0网站中关键词搜寻(keyword search)是常用的线上搜寻方法的其中之一。然而,关键词搜寻具有若干缺点。关键词搜寻易于过度搜寻,亦即发现非相关文件;且易于搜寻不足,亦即未发现某些相关文件。而且,关键词搜寻的结果通常并不区分不同上下文内的相同关键词。因此,互联网使用者可能需要花数分钟或甚至数小时来扫描搜寻结果,以识别有用信息。关键词搜寻的此等缺点在处理大量SI信息时甚至更显著。
本公开的实施例是针对通过使用有机物件数据模型来管理收集到的社群智能信息,以促进有效线上搜寻且克服上述的问题中的一个或多个。
发明内容
在本发明的一个方面中,本公开是针对一种使用有机物件数据模型来撷取及组织线上收集到的数据的方法。所公开的方法包含:接收含有社群智能数据的一个或多个网页;对所述含有社群智能数据的一个或多个网页的内容进行断词;识别所述一个或多个网页的经断词的内容中的附名实体;识别一个或多个网页的经断词的内容中的主题;识别一个或多个网页的经断词的内容中的意见;整合所识别的附名实体、主题及意见,以建构有机物件数据模型;以及将与所建构的有机物件数据模型相关联的有机物件数据存储于有机物件数据库中。
在本发明的另一个方面中,本公开是针对一种用于撷取及组织线上收集到的社群智能数据的系统,所述系统由一个或多个计算机处理器实际操作,所述计算机处理器执行存储于计算机可读存储介质上的计算机程序。所述系统包括断词及整合模块、物件辨识模块、主题分类及辨识模块、意见探勘及情感分析模块以及物件关系建构模块。断词及整合模块耦接至训练数据库并且用以接收含有社群智能数据的网页。物件辨识模块耦接至断词及整合模块并且用以识别包含于所接收到的网页中的附名实体。主题分类及辨识模块耦接至断词及整合模块,并且用以识别所接收到的网页的每一句子及段落的主题。意见探勘及情感分析模块耦接至断词及整合模块,并且用以判定接收到的网页的句子中的意见及与所识别的附名实体相关联的意见。物件关系建构模块耦接至断词及整合模块,并且用以界定附名实体之间的关系。
在本发明的又一方面中,本公开是针对一种用于撷取及组织线上收集到的社群智能数据的系统。所述系统可由一个或多个计算机处理器实际操作,所述计算机处理器执行存储于计算机可读存储介质上的计算机程序。所述系统包括断词及整合模块、物件辨识模块、主题分类及辨识模块、意见探勘及情感分析模块以及物件关系建构模块。断词及整合模块耦接至训练数据库,并且用以接收含有社群智能数据的网页,其中断词及整合模块支持包含有机物件的有机物件模型、与所述有机物件相关联的自产生属性、与所述有机物件相关联的领域专用属性以及与所述有机物件相关联的社会属性。物件辨识模块耦接至断词及整合模块,并且用以识别包含于所接收到的网页中的附名实体,其中所判定的附名实体为有机物件。主题分类及辨识模块耦接至断词及整合模块,并且用以识别所接收到的网页的每一句子及段落的主题,其中所识别的主题为与其对应的有机物件相关联的社会属性。意见探勘及情感分析模块耦接至断词及整合模块,并且用以判定接收到的网页的句子中的意见及与所识别的附名实体相关联的意见,其中所识别的意见为与其对应的有机物件相关联的社会属性。物件关系建构模块耦接至断词及整合模块,并且用以界定有机物件之间的关系。
附图说明
图1a为绘示线上搜寻引擎硬件架构的范例方块图。
图1b为绘示有机物件数据模型的范例方块图。
图2为绘示有机数据物件的范例方块图。
图3为绘示以有机物件数据模型为基础的信息撷取及管理系统的范例方块图。
图4为会次图3所示的信息撷取及管理系统的物件辨识模块的程序的范例流程图。
图5为说明通过图3所示的物件辨识模块来应用N字母组合并演算法的程序的范例流程图。
图6为绘示应用N字母组合并演算法的程序的范例示意图。
图7为绘示物件辨识模块中所使用的信赖值的计算的范例示意图。
图8为绘示图3所示的主题分类及辨识模块的范例方块图。
图9为绘示主题分类及辨识模块所应用的语意相似性的计算的范例。
图10为绘示由主题分类及辨识模块实施的用于收集及改良训练数据的品质的程序的范例流程图。
图11为绘示由主题分类及辨识模块实施的用于收集及改善训练数据的品质的程序的更详细的范例方块图。
图12a为绘示图3所示的意见探勘及情感分析模块的范例方块图。
图12b为说明由意见探勘及情感分析模块实施的测试程序的范例方块图。
图12c为绘示可用于实施主题分类及辨识模块以及意见探勘及情感分析模块的架构的范例方块图。
图13为绘示图3所示的断词及整合模块的范例方块图。
【主要元件符号说明】
10:互联网
20:负载平衡服务器
30:网络服务器
40:广告服务器
50:数据搜集服务器
60:文件数据库
70:线上搜寻引擎
100:有机物件数据模型
110:有机物件(母物件)
120:自产生属性
130:领域专用属性
140:社会属性
150:子物件
160:时间戳记
170:肯定或否定意见
200:有机物件
210:附名餐馆
221:价格
222:地址
223:促销活动
224:免费礼物
225:折扣
231:菜肴类型
232:停车空间
241:使用者评论
242:氛围
243:服务
244:价格
245:食物口味
300:信息撷取及管理系统
310:断词及整合模块
320:物件辨识模块
330:物件关系建构模块
340:主题分类及辨识模块
350:意见探勘及情感分析模块
360:训练数据库
370:网页
380a:有机物件数据库
380b:专用名词词典
440:智能NE过滤模块
450:自动断词器训练数据产生模块
452:自动NER训练数据产生模块
460:以CRF为基础的断词器训练模块
470:断词模块
480:NE辨识模块
485:以CRF为基础的NER训练模块
490:后处理分类器
495:断词程序
496:物件辨识程序
861:主题样式表格
862:主题语意向量表格
863:主题相似性表格
870:主题分类器模块
1010、1020、1030、1040、1050、1060:用于收集及改善训练数据集合的品质的程序
1110:经人工标记的数据集合
1111:句子组/经标记的数据集合
1112:句子组/经标记的数据集合
1113:句子组/经标记的数据集合
1114:句子组/经标记的数据集合
1115:句子组/经标记的数据集合
1116:训练数据集合
1117:测试数据集合
1120:SVM训练器
1130:SVM模型
1140:SVM分类器
1150:句子组/数据集合
1160:验证器
1210:意见探勘程序
1220:以CRF为基础的意见词及样式探测器模块
1222:表格
1224:表格
1226:表格
1240:机器学习分类器/意见探勘分类器
1250:以语法及规则为基础的分类器/意见探勘分类器
1260:意见决策评分
1270:意见决策评分
1280:意见探勘分类器
1310:经断词的结果、所发现的物件、主题及意见
1330:模块接口
1340:整合模块
具体实施方式
本公开的系统及方法撷取并管理收集到的社群智能信息,以便提供更快且更准确的线上搜寻结果以回应使用者询问。本公开的实施例使用有机物件数据模型来提供一架构以撷取及分析自线上社群网络及其他线上群落以及其他网页收集到的信息。有机物件数据模型反映由线上社群网络及群落建立的智能信息的异质性质。通过应用有机物件数据模型,本公开的信息撷取及管理系统可高效地将大量信息分类,并根据请求而呈现搜寻到的信息。
本公开的实施例包含软件模块及数据库,其可由计算机软件及硬件组件的各种配置来实际操作。每一软件及硬件的配置可以是各种计算机存储介质、用以执行某些所公开的功能的各种计算机、各种第三方软件应用程序以及实施所公开的系统功能性的软件应用程序。
图1a为绘示线上搜寻引擎(online search engine)70的范例硬件架构的方块图。线上搜寻引擎70是指任何用以在接收到使用者的搜寻请求后提供线上内容的搜寻结果的软件及硬件。线上搜寻引擎的熟知范例为Google搜寻引擎。如图1a所示,线上搜寻引擎70自互联网10接收使用者的询问,诸如搜寻请求。线上搜寻引擎70也可自线上社群中收集SI信息。线上搜寻引擎70可通过使用一个或多个服务器(诸如由Intel生产的一或多个2×300MHz Dual Pentium II服务器)来实际操作。服务器是指运行服务器操作系统的计算机,但也可以是任何能够提供服务的软件或专用硬件。
线上搜寻引擎70包含一或多个负载平衡服务器(load balancing server)20,其可自互联网10接收搜寻请求,且将所述请求转发至多个网络服务器30中的其中之一。网络服务器30可协调自互联网10中接收的查询的执行,格式化从数据搜集服务器(data gathering server)50中所接收的对应搜寻结果,从广告服务器(Ad server)40中撷取广告清单,且产生搜寻结果以回应于自互联网10中所接收到的使用者的搜寻请求。广告服务器40用以管理与线上搜寻引擎70相关联的广告。数据搜集服务器50用以从互联网10中收集SI信息,且通过为数据编索引或使用各种数据结构来组织收集到的数据。数据搜集服务器50会将所组织的数据存储于文件数据库60中,及从文件数据库60撷取所组织的数据。在一范例实例中,数据搜集服务器50可依据有机物件数据模型而托管信息撷取及管理系统。以下将配合图1b及图2来描述有机物件数据模型,并且配合图3来描述信息撷取及管理系统。
图1b为有机物件数据模型100的方块图。如图1b所示,有机物件110可为具有子物件150的附名实体(例如,附名餐馆)。子物件150可为继承其母物件110的特性的附名实体。有机物件110可具有至少三种类型的属性:自产生属性(self-producing attribute)120、领域专用属性(domain-specificattribute)130以及社会属性(social attribute)140。自产生属性120包括由物件110本身产生的属性。领域专用属性130包括描述物件110的主题领域的属性。社会属性140包括由与物件110有关的线上社群所贡献的经分类的智能信息。在一范例实例中,由线上社群贡献的智能信息可为使用者意见,例如关于物件110或其属性的肯定或否定意见170。经分类的智能信息的每一类别可为与一个或多个意见相关联的主题。主题也可以是社会属性。
有机物件110包括时间戳记(time stamp)160(TS 160),其可使物件110与时间周期或时刻相关联。TS 160可指示物件寿命周期,其可为物件110的建立与删除之间的时间周期,或者为物件110的有效时间周期。在另一范例实例中,TS 160可以是与物件110有关的信息登录(entry)的建立时间。如图1b所示,与物件110相关联的所有属性(120、130及140)及子物件(150)也可具有与其相关联的时间戳记。
图2提供有机物件200的范例。如图2所示,附名餐馆210(例如,McDonalds)可为有机物件。餐馆210的子物件(图2中未绘示)例如包括在餐馆210中供应的不同类型的食物,例如汉堡、炸薯条等。有机物件餐馆210的自产生属性120包含许多信息,例如餐馆210的地址222、餐馆210所设定的价格221以及餐馆210的促销活动223(例如,免费赠品224及折扣225)。餐馆210的领域专用属性130包含餐馆210供应的菜肴类型231、餐馆210的停车空间232等。餐馆210的社会属性140包含餐馆210的使用者评论241以及关于诸如气氛242、服务243、价格244及食物口味245等主题的使用者意见。使用者意见可为负面的(例如,价格太贵)或正面的(例如,服务极佳)。如图2所示,属性可与时间戳记(TS)相关联,以指示其有效时间。
图3绘示用于从互联网撷取信息且使用有机物件模型来组织所述信息的信息撷取及管理系统300。信息撷取及管理系统300会收集由线上社群网络及其他群落提供的社群智能信息,通过应用有机物件数据模型来分类并存储所收集到的社群智能信息。信息撷取及管理系统300会接收请求搜寻某一信息(例如,对特定餐馆的餐馆评论)的使用者询问。信息撷取及管理系统300会通过撷取依据有机物件模型所撷取及组织的信息来回应使用者询问。
信息撷取及管理系统300包括断词及整合模块310、物件辨识模块320、物件关系建构模块(object relation construction module)330、主题分类及辨识模块340以及意见探勘及情感分析模块350。信息撷取及管理系统300可还包括训练数据库360、有机物件数据库380a及专用名词词典(lexicondictionary)380b。训练数据库360存储数据记录,例如,NE(附名实体)、主题或主题样式、意见词以及意见样式。训练数据库360可为物件辨识模块320、主题分类及辨识模块340、意见探勘及情感分析模块350提供训练数据集合,以促进机器学习程序。训练数据库360可接收来自物件辨识模块320、主题分类及辨识模块340、意见探勘及情感分析模块350的训练数据,以促进机器学习程序。有机物件数据库380a可存储有机物件(例如,图2中的200)。专用名词词典380b存储所辨识的NE(有机物件)、主题(社会属性)、主题样式(社会属性)、意见(社会属性)、意见样式(社会属性)以及由信息撷取及管理系统300的一个或多个模块所分类的其他信息。
断词及整合模块310会从互联网中接收网页370。网页370可为自线上社群中所收集的任何含有社群智能数据的网页。断词及整合模块310更会对网页370中的内容进行断词,且识别每一句子中的专用名词的边界。举例而言,中文与英文之间的一个差异为中文句子中的专用名词不具有清楚的边界。因此,在处理来自网页370的任何中文语言内容之前,断词及整合模块310需先对句子中的专用名词进行断词。传统上,软件应用程序是通过含有各种语言样式/语法规则的外挂(plug-in)模块来进行文本(text)的断词。线性链式条件随机域(Conditional Random Field,CRF)演算法是用于对文本进行断词的改良演算法的其中之一中,其广泛用于中文词的断词。
CRF方法的其中一个缺点为其在处理快速改变的输入数据时效能不佳。然而,线上社群网络及群落提供的社群智能信息为快速变化的数据。因此,在本范例实施例中,断词及整合模块310是使用改良后的机器学习方法,其受益于其他模块(物件辨识模块320、主题分类及辨识模块340以及意见探勘模块350)的机器学习功能来实施改良后的机器学习及断词程序。以下图4至图13中进一步公开改良后的机器学习程序的范例。
在一范例实例中,训练数据库360是由物件辨识模块320、主题分类及辨识模块340及意见探勘模块350中的训练程序来更新,以改善训练数据的品质。来自训练数据库360的高品质训练数据可改善由断词及整合模块310所执行的断词的准确性。
图4绘示物件辨识模块320。物件辨识模块320用以识别NE,分类对所识别的NE,且将所分类的NE存储于专用名词词典380b中。专用名词词典380b含有多个附名实体专用名词,例如,食物NE、餐馆NE及地理位置NE。断词程序495及物件辨识(Object Recognition,NER)程序496分别地包含两个程序:学习程序及测试程序。在学习程序期间,信息撷取及管理系统300的模块(例如训练模块)会从训练数据库(例如,数据库360)中读取经标记的数据,并计算用于与机器学习有关的数学模型的参数。在学习程序期间,训练模块也可依据所计算出的参数以及与机器学习有关的数学模型来配置分类器。分类器是指依据输入数据的一个或多个属性将多组输入数据映射至多个类别的软件模块。举例而言,类别是指主题、意见或任何其他依据输入数据的一个或多个属性的分类。之后,信息撷取及管理系统300的模块(亦即,测试模块)会使用分类器来测试新的数据,此操作可称为测试程序。在测试程序期间,测试模块会将新读取的数据标记为不同NE,例如餐馆、食物类型或地理位置。训练数据库360含有领域专用训练文件,其可被标记以用于不同NE。
如图4所示,物件辨识模块320会自专用名词词典380b及训练数据库360中撷取数据。断词程序495包含自动断词器训练数据产生模块(autosegmenter training data producing module)450、以CRF为基础的断词器训练模块(CRF-based segmenter training module)460以及断词器测试模块(segmenter testing module)470。断词程序495可实际操作为断词及整合模块310的一部分,或者实际操作为物件辨识模块320的一部分。当信息撷取及管理系统300撷取网页370时,系统300会先执行断词程序495以对网页370的内容进行断词。系统300接着会在物件辨识模块320中执行附名物件辨识程序496,以识别内容中的NE。
接下来,物件辨识模块320会使用后处理分类器(post-processingclassifier)490来对所辨识的NE进行分类。后处理分类器490会使用NE周围的句子的上下文来决定NE类别。举例而言,网页370可能包含讨论在不同地理位置的若干餐馆的社群评论。后处理分类器490会将所辨识的NE分类为至少三个实体类:食物、餐馆及地理位置。
如图4所示,断词程序495及物件辨识程序496均包含自动训练数据产生模块(450及452)。自动训练数据产生模块450与452会自智能NE过滤模块(intelligent NE filtering module)440中接收所辨识的NE,并且将接收到的NE存储于训练数据库360中。自动训练数据产生模块450与452也可存取存储于训练数据库360中的NE,并将所撷取的NE发送至训练模块460与485。断词程序495及物件辨识程序496均包含以CRF为基础的训练模块460及485。另外,以CRF为基础的训练模块460与485会使用以N字母组(N-gram)为基础的NE辨识训练。CRF是指常用于标记或剖析连续数据(例如,自然语言文本或生物序列)的一种区别机率模型。N字母组是指来自给定顺序的n个项目(例如字母、音节等)的子序列。
而且,断词程序495及物件辨识程序496均可使用来自于训练数据库360的训练数据,来训练断词器训练模块460及NE辨识训练模块485以更佳地识别NE。数据库360中的训练数据的品质(例如,以及训练数据集合的完整性与平衡(数据在类别间的平滑分布)会影响模块310及320(图3)的效能。训练数据的品质可通过由每一模块所达到的精确度(precision)与召回率(recall)值来测量。
在重复训练程序之后,以CRF为基础的断词或NE辨识可达成高度的精确度(precision)及完整性(recall)。断词模块470接着会对网页370中的内容进行断词,且将所断词的内容发送至NE辨识(NE recognition,NER)模块480。NE辨识模块480包括并行的辨识子模块。举例而言,每一辨识子模块可识别一个类的NE。如果NE包含三个类的NE(诸如食物、餐馆及地理位置),则NE辨识模块480可实际操作三个子模块来识别每一类的NE(食物名称、餐馆名称及地理位置)。NE辨识模块480接着会识别NE,且接着将NE发送至后处理分类器490。
如果来自于NE辨识模块480的输出是不明确的,则后处理分类器490会仲裁所述结果。举例而言,如果两个NE辨识子模块(例如,一个用于食物,一个用于餐馆)分别地将一个NE(例如,美式大馄饨)映射至有机物件数据模型中,则后处理分类器490会使用NE周围的句子上下文来决定其正确的类别(例如,「美式大馄饨」是指食物本身,或是由句子中的餐馆供应的一道菜)。后处理分类器490会将NE分类为多个类别(例如,食物名称、餐馆名称及地理位置),且将所识别的NE发送至智能NE过滤模块440。
如图4所示,智能NE过滤模块440会判定由NE辨识模块480识别的最佳品质物件,且发送欲存储于训练数据库360中的新识别的NE(物件)。智能NE过滤模块440也可将新识别的NE加入至专用名词词典380b。智能NE过滤模块440更会将所识别的NE发送至NE辨识模块480中。图5绘示由智能NE过滤模块440(包含其与系统300的其他组件的接口)的范例实施方案所执行的程序的方块图。
如图5所示,智能NE过滤模块440会使用N字母组合并演算法510来识别NE样式。NE样式是指NE在各种句子中的置放,包含其词长度(例如,词中的字元的数目)以及与邻近于其的其他词的相对位置。智能NE过滤模块440可通过检查与NE相关联的句子中的时间戳记及位置来判定各种NE样式的频率(term frequenc,TF)(520)。TF是指NE或NE样式在一特定时间周期内的出现频率。如图5所示,智能NE过滤模块440会判定每一NE样式在当前时间周期中(530)及所有时间历程中(540)的TF,以滤出过时的NE。接下来,依据所计算出的TF,智能NE过滤模块440可判定哪些NE样式是正确的(例如,高于临限值的TF),且发送所选择的NE样式以由后续程序作进一步检查(步骤550)。智能NE过滤模块440也可对欲监视的不明确NE样式(例如,低于临限值的TF)进行分组(560及575)。智能NE过滤模块440会接着在其识别出正确的NE样式时使用此监视结果(575及550)。
为了进一步分析正确的NE样式(570),智能NE过滤模块440会计算置信心值(580)、可信赖值(582),并检测NE样式的边界(584)。以下将配合图6及图7作进一步描述。智能NE过滤模块440会接着检查NE样式的信心值,且例如若信心值高于临限值时,则发送欲存储于专用名词词典380b中或欲加入至训练数据库360中的NE样式。智能NE过滤模块440会类似地检查NE样式的可信赖值(582),且将NE样式发送至自动NER训练数据产生模块452中,以存储为存于训练数据库360中的训练数据的一部分。智能NE过滤模块440亦会判定NE的边界,并计算NE边界(584)的信心值,且使用此边界以在句子中识别正确的NE(496)。智能NE过滤模块440接着会将所识别的NE发送至后处理分类器490,后处理分类器490又可对NE进行分类,并发送欲存储于专用名词词典380b中的NE。或者,智能NE过滤模块440也可将正确的NE直接发送存储至专用名词词典380b(586)。
图6绘示用于计算可信赖值及信心值的程序600的范例。如图6所示,智能NE过滤模块440会识别具有在2个字元与6个字元之间的样式长度的N字母组样式(610)。智能NE过滤模块440会根据NE样式的长度对所有NE样式进行排序,且接着还根据在文件中出现的频率来对结果清单进行排序(620)。智能NE过滤模块440也可依据NE样式的出现频率来计算NE样式信心值(见图6,660)。依据NE样式的信心值,智能NE过滤模块440会检查NE样式第一次出现的时间戳记,以及其在某一时间周期内的出现频率。举例而言,如果NE样式出现过期,则智能NE过滤模块会将过期的NE自训练数据库360删除,以改善训练数据的品质。
智能NE过滤模块440接着会检查某些NE样式是否可合并(640)。对于经合并的NE样式,智能NE过滤模块440会根据预合并NE的出现频率来判定可信赖值(640)。图7绘示NE样式可信赖值的计算范例,其反映NE辨识在某一时间周期内的可靠性。如图7所示,为了判定可信赖值,智能NE过滤模块440会先自NE提取字首码、字中间码及字尾码N字母组特征(710)。举例而言,中文NE「意大利面」具有字首码「意大」、字中间码「大利」以及字尾码「利面」作为其双字母组特征。接下来,智能NE过滤模块440可判定所提取的特征是否属于特定领域(例如,餐饮)的特征组(720)。之后,智能NE过滤模块440会依据N字母组特征的长度及其出现频率来计算每一所提取的特征的权重(730)。接下来,智能NE过滤模块440会根据N字母组特征的权重来判定可信赖值(740)。另外,通过计算字首码、字中间码及字尾码的可信赖值,智能NE过滤模块440也可判定新NE的边界。如图7所示,如果特定NE样式的可信赖值较低,则通过人工数据处理人员(例如,数据录入员)来检视数据并校正N字母组特征或特征的出现频率(750)。
图8绘示主题分类及辨识模块340的范例方块图。主题分类及辨识模块340会分析从断词及整合模块310中接收的已断词的网页内容以识别线上社群所讨论的主题,用所识别的主题来标记每一句子及段落,并且将所识别并标记的主题发送至断词及整合模块310以进一步地分析。如图8所示,主题分类及辨识模块340会根据存储于有机物件数据库380a中的有机物件数据以及专用名词词典380b中的主题及意见而从训练数据库360中的句子提取主题样式(810)。接下来,主题分类及辨识模块340可通过移除通常与句子中所讨论的主题无关的停止词及其他常用词来减小所提取的主题样式长度(820)。接下来,主题分类及辨识模块340可通过人工标记以建立阶层式主题样式分组(步骤830)。举例而言,请参照图2,使用者检视241可为一宽泛主题,其包含更多特定主题:氛围242、服务243、价格244以及味道245。主题分类及辨识模块340可将氛围242、服务243、价格244以及味道245分组成四个主题样式群组。
接下来,主题分类及辨识模块340会计算两个主题之间的语意相似性(840)。图9绘示语意相似性计算的范例。如图9所示,主题i及j可由主题语意向量Vi及Vj表示,其中主题i与j之间的语意相似性可界定为:
相似性(Vi,Vj)=cos(Vi,Vj)=cosθ
假设dave为一组主题中的主题之间的平均相似性,则当主题分类及辨识模块340判定主题l与主题n之间的语意相似性dn大于dave时,其可确定主题n为新主题。在所公开的范例中,主题分类及辨识模块340在计算语意相似性(840)之前会对主题样式进行分组(830),以改善新主题检测的准确性。
请再参照图8,在计算语意相似性(840)之后,主题分类及辨识模块340会将主题样式、主题语意向量以及语意相似性存储于一个或多个表格中(860)。如图8所示,主题分类及辨识模块340会将所识别的主题样式加入至训练数据库360中,以用作为训练数据。
如图8所示,主题分类器模块870会匹配存储于主题样式表格861中的主题样式,并依据存储于主题语意向量表格862及语意相似性表格863中的数据来检查语意相似性,藉此来处理所断词的网页370(由断词及整合模块310断词)。之后,主题分类器模块870会对网页370的内容中的主题进行分类,并检测内容中的新主题。最后,主题分类及辨识模块340会标记并组成与网页370上的每一句子有关的主题,并依据段落中的句子的主题来判定每一段落的主题(880)。主题分类及辨识模块340会将句子主题及段落主题发送至断词及整合模块310中,以作进一步的处理。
图10绘示由主题分类及辨识模块340实际操作的用于收集及改善训练数据集合的品质的程序1000的范例。其他模块,例如物件辨识模块320及意见探勘模块350,可使用类似的程序来改善训练数据品质。如图10所示,信息撷取及管理系统300会以原始训练数据集合来开始(1010),例如从线上社群网络的网页收集的较大数目的句子及段落。举例而言,原始数据集合可包含50,000个句子。接下来,数据撷取及管理系统300会对来自原始数据集合的句子进行采样(例如,对每10个句子中的其中之一进行采样)(1020)。例如,人工数据处理人员(例如数据录入员)会通过标记5,000个样本句子中的主题来标记所采样的数据集合,并将所标记的数据存储于训练数据库360中(1030)。之后,数据撷取及管理系统300会验证并校正人工标记的数据集合(1040)。
图11绘示由主题分类及辨识模块340实际操作的验证及校正程序1040的范例。数据撷取及管理系统300会接收经人工标记的数据集合1110,其中于每一句子中标记出一个或多个主题。所标记的数据集合1110包括一个或多个经标记的句子。主题分类及辨识模块340接着会识别五组句子,例如,句子组1111至1115。每一句子数据集合(1111至1115)包括一个或多个句子。主题分类及辨识模块340接着会使用四组经标记的数据集合1111至1114作为训练数据集合1116,且使用第五数据集合1115作为测试数据集合1117。数据撷取及管理系统300会通过通过支持向量机(Support VectorMachine,SVM)训练器1120来处理1116中的四个句子数据集合以处理训练数据集合1116。SVM训练器1120可使用SVM模型1130。SVM模型1130可为作为空间中的点的数据样本的呈现,其系映射以使得单独类别的样本可由清楚的间隙来区分。接下来,主题分类及辨识模块340会使用根据训练数据集合1116所计算的SVM参数来配置SVM分类器1140。主题分类及辨识模块340会使用经配置的SVM分类器1140来预测第五数据集合1115中的句子是否关于一个或多个预定的主题。SVM分类器1140会产生预测的句子组1150,其包括数据集合1115中的句子以及针对数据集合1115中的句子所预测的主题。SVM分类器1140会标记针对所预测的组1150中的句子而预测的主题。所预测的组1150包括针对数据集合1115中的句子所预测的一个或多个主题的信赖度评分。
如图11所示,主题分类及辨识模块340会使用验证器1160来将测试数据集合1117(其与数据集合1115相同)与所预测的数据集合1150进行比较,以判定经人工标记的第五数据集合1115是否为与所预测的数据集合中的主题相同的主题。验证器1160将1117中与1150预测答案不同的数据,按照SVM预测的信心值排序,产生一排序集合1170。接下来,人工数据处理人员会检视并校正经排序的信心值评分的序列中的不一致集合(1180)。亦即,人工数据处理人员会先检视并校正具有最高信心值评分的错误预测的数据点(例如,所预测的主题)。人工数据处理人员接着会将所校正的数据传回至经标记的数据样本文件。
图11中所描述的程序的范例可在经标记的数据集合1110的各种群组中重复。举例而言,主题分类及辨识模块340可将经标记的数据集合1111分为五个群组(例如,11111、11112、11113、11114及11115)。主题分类及辨识模块340可使用上述的程序(1120、1130、1149、1150、1160、1170及1180),通过使用数据集合11111、11112、11113及11114作为训练数据集合1116,且使用数据集合11115作为测试数据集合1117来交叉证实经标记的数据集合1111,以验证数据集合1111是否被正确地标记。
返回至图10,在验证并校正所标记的数据集合之后,主题分类及辨识模块340会通过检查交叉验证结果(例如,主题预测的校正百分比)以评定SVM预测在与人工标记的样本数据集合相比时的准确性来评估数据集合的品质(1050)。举例而言,主题分类及辨识模块340可为交叉验证校正百分比设定临限值。当经标记的数据集合与所预测的集合的交叉验证低于临限值时,则主题分类及辨识模块340会对更多输入数据进行采样(1020)以及重新处理经采样的数据(1030及1040)。如果交叉验证校正百分比达到给定临限值时,则主题分类及辨识模块340会将所标记的数据集合1060输出至训练数据库360。因此,通过上述程序来测试并改善训练数据的品质。
图12a绘示由意见探勘及情感分析模块350实际操作的意见探勘程序1210的范例。意见探勘及情感分析模块350可从断词及整合模块310(图3)中接收经断词的文件及句子主题,以供进一步处理。意见探勘及情感分析模块350包括以CRF为基础的意见词及样式探测器模块(CRF-based opinionwords and patterns explorer module)1220。意见词及样式探测器模块1220会在以CRF为基础的演算法中使用存储于专用名词词典380b(图4)中的主题样式及NE,以在所断词的文件中识别意见词、意见样式及否定词/样式。意见词及样式探测器模块1220会将意见词、意见样式及否定词/样式存储于表格1222、1224及1226(其可为训练数据库360的一部分)中。在每一表格中,意见词及样式探测器模块1220更会将词/样式分类成:Vi(独立动词)、Vd(后面需要跟有意见词的动词)、Adj(后面需要跟有意见词的形容词)以及Adv(强调或降低强调一意见的)副词。表格1222、1224及1226也可存储由人工数据处理人员所标记的意见、意见样式/片语的倾向。
如图12a所示,意见探勘及情感分析模块350会根据存储于专用名词词典380b中的主题样式、意见词1222、意见样式/片语1224以及存储于数据库360中的否定词1226来识别以主题为基础且以意见为依据的句子。根据所识别的意见词、意见样式及否定词,意见探勘及情感分析模块350可使用意见探勘分类器(opinion mining classifier)1280来判定句子中的意见为正面抑或负面,并根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1260),意见探勘分类器1280包括机器学习分类器1240(例如,实际操作SVM或Bayes演算法的分类器)以及以语法及规则为基础的分类器1250。结合图11的讨论所描述的SVM分类器1140为机器分类器1240的其中一个范例。
以规则为基础的分类器1250会使用含有语言样式及语法规则(例如,存储于有机物件数据库380a及专用名词词典380b(图3)中的语言样式)的一个或多个外挂模块,以帮助判定意见的倾向。意见探勘分类器1280也可计算意见词或意见样式的信心值。对于具有较低信赖度评分的意见或意见样式,可通过人工数据处理人员,来检视且可能地校正意见的倾向,且将所校正的意见词或样式加入至存储于表格1222、1224及1226中的训练数据集合中。
接下来,意见探勘及情感分析模块350会根据段落中的每一句子的决策评分(例如,一段落中的句子的平均评分)来计算所述段落的意见决策评分。图12b绘示由意见探勘及情感分析模块350实际操作的意见探勘测试程序的范例。测试网页370会通过断词及整合模块310发送至意见探勘分类器(1240及1250)。根据所识别的以主题为基础且以意见为依据的句子1230,意见探勘分类器1240及1250可判定句子中的意见为肯定抑或否定,且根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1310)。接下来,意见探勘及情感分析模块350会根据段落的每一句子中所识别的意见的决策评分来计算所述段落的意见决策评分(1320)。意见探勘及情感分析模块350会将与句子、段落相关联的意见以及与有机物件相关联的意见输出至断词及整合模块310,以供进一步处理。
请再参照图3,物件关系建构模块(object relationship constructionmodule)330会建构两种类型的关系:母物件与子物件之间的关系,以及两个子物件之间的关系。在一范例中,物件关系建构模块330会使用网页的布局及内容来确定母物件与子物件之间的关系。物件关系建构模块330也可使用自然语言剖析器(Parser)来分析两个子物件之间的关系。
主题分类及辨识模块340(图8)以及意见探勘及情感分析模块350(图12a)可通过使用类似的软件架构来实际操作。图12c提供可用于实际操作主题分类及辨识模块340以及意见探勘及情感分析模块350的软件架构的范例。如图12c所示,主题分类及辨识模块340或意见探勘及情感分析模块350会根据存储于有机物件数据库380a及专用名词词典380b中的主题样式及意见词来提取主题或意见词。
根据所提取的意见词及意见样式,例如,意见探勘分类器1280可通过匹配存储于意见词表格1222或意见样式表格1224中的意见词及意见样式,并且根据存储于表格1226中的数据检查否定词或特殊语法规则,来处理所断词的网页(由断词及整合模块310断词)。表格1222、1224及1226可为训练数据库360的一部分。根据所识别的意见词、意见样式及否定词,意见探勘及情感分析模块350可使用包含机器学习分类器1240(例如,实施SVM或Bayes演算法的分类器)以及以语法及规则为基础的分类器1250的意见探勘分类器1280,来判定句子中的意见为肯定抑或否定,并根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1260)。以规则为基础的分类器1250可使用含有语言样式及语法规则(例如,存储于有机物件数据库380a及专用名词词典380b(图3)中的数据)的一个或多个外挂模块来帮助判定意见的倾向。意见探勘分类器1280也可计算意见词或意见样式的信心值。对于具有较低信赖度评分的意见或意见样式,可通过人工数据处理人员来检视且可能地校正意见的倾向,并且可将所校正的意见词或样式加入至存储于表格1222、1224及1226中的训练数据集合。
根据所提取的主题,主题分类器870可通过匹配存储于主题样式表格861中的主题样式,并检查根据存储于主题语意向量表格862及语意相似性表格863中的数据来检查语意相似性,以处理所断词的网页(由断词及整合模块310断词)。表格861、862及863可为训练数据库360的一部分。接着,主题分类器模块870会对网页的内容中的主题进行分类,并检测内容中的新主题。最后,主题分类及辨识模块340会标记并组成与网页上的每一句子有关的主题,并根据段落中的句子的主题来判定每一段落的主题(880)。主题分类及辨识模块340会将句子主题及段落主题发送至断词及整合模块310,以供进一步处理。
在图3中,断词及整合模块310会接收并处理来自所有其他模块的输入数据,并将所撷取的有机物件数据存储于有机物件数据库380a中。图13绘示断词及整合模块310的范例。
如图13所示,断词及整合模块310会使用专用名词词典380b(存储NE、主题、意见样式等)作为以CRF为基础的断词器训练模块460及断词器470(见图4)的外挂程序,以改善断词的准确性。专用名词词典380b的外挂程序会向断词器470提供NE、主题、意见样式,以帮助断词器470辨识样式。如上所述,专用名词词典380b中的内容可由物件辨识模块320、主题分类及辨识模块340以及意见探勘模块350(经由模块接口1330)更新。如图13所示,此等模块也可经由模块接口1330将所断词的结果、所发现的物件、主题及意见1310发送至断词及整合模块310。整合模块1340会监视其他模块的工作状态(1342),并提供对其他模块的更新(1344)。整合模块1340还将经由模块接口1330自其他模块接收的数据(NE、主题、意见样式等)整合至有机物件数据模型100中,并将物件数据存储于专用名词词典380b中。
本领域技术人员将明了,可在用于自线上社群及群落撷取社群智能的系统及方法中作出各种修改及变化。举例而言,在考虑所公开的实施例之后,本领域技术人员将了解,可使用数据库的不同配置来存储用于有机物件数据模型的训练数据以及专用名词词典。另外,在考虑所公开的实施例之后,本领域技术人员将了解,可使用各种机器学习演算法来识别在有机物件数据模型中定义的NE、主题及意见。另外,在考虑所公开的实施例之后,本领域技术人员亦将了解,所公开的有机物件数据模型可应用于除线上社群智能之外的信息(例如,备用数据库或纸质出版物中的大量数据)。而且,在考虑所公开的实施例之后,本领域技术人员将进一步了解,可借助各种软件/硬件配置,通过使用各种计算机服务器、计算机存储介质以及软件应用程序来实施所公开的实施例。因此,虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视所附权利要求书所界定者为准。
Claims (15)
1.一种用于使用有机物件数据模型来撷取及组织线上收集的社群智能数据的方法,所述方法包括:
通过用以撷取及管理社群智能信息的一计算机来接收含有社群智能数据的一个或多个网页;
通过所述计算机来对含有社群智能数据的所述一个或多个网页的内容进行断词;
通过所述计算机,来识别所述一个或多个网页的所断词的所述内容中的附名实体,根据一预定标准来对所识别的所述附名实体进行分类,并将所分类的所述附名实体存储于一专用名词词典中;
通过所述计算机来识别所述一个或多个网页的所断词的所述内容中的主题,并根据存储于所述专用名词词典中的主题样式与语意相似性来对所识别的所述主题进行分类;
通过所述计算机,根据一以机器学习为基础的演算法来训练一意见探勘模块,来识别所述一个或多个网页的所断词的所述内容中的意见,并使用含有语言样式或语法规则的一外挂模块来对所识别的所述意见进行分类;
通过所述计算机来整合所识别的所述附名实体、所述主题及所述意见,以建构一有机物件数据模型;以及
通过所述计算机来将与所建构的所述有机物件数据模型相关联的有机物件数据存储于一有机物件数据库中,
其中所述有机物件为包含子物件的附名实体,所述子物件为继承作为母物件的所述有机物件的特性的附名实体。
2.如权利要求1所述的方法,其中所述识别所述附名实体的步骤还包括:
通过所述计算机,使用一以条件随机域为基础的演算法来训练一物件辨识模块。
3.如权利要求1所述的方法,其中所述识别所述主题的步骤还包括:
通过所述计算机,根据主题之间的语意相似性与以机器为基础的分类来训练一主题分类及辨识模块。
4.如权利要求1所述的方法,
其中该以机器学习为基础的演算法包括一支持向量机。
5.如权利要求1所述的方法,其中所述识别所述附名实体的步骤还包括:
通过所述计算机来选择在一特定时间周期内出现频率高于一临限值的附名实体。
6.如权利要求1所述的方法,其中所述识别所述主题的步骤包括:
通过所述计算机,根据主题之间的语意相似性来训练一主题分类及辨识模块。
7.一种用于使用有机物件数据模型来撷取及组织线上收集的社群智能数据的系统,所述系统包括:
一断词及整合模块,耦接至一训练数据库,用以接收含有社群智能数据的一个或多个网页,并对含有社群智能数据的所述一个或多个网页的内容进行断词;
一物件辨识模块,耦接至所述断词及整合模块,用以识别所述一个或多个网页的所断词的所述内容中的附名实体,根据一预定标准来对所识别的所述附名实体进行分类,并将所分类的所述附名实体存储于一专用名词词典中;
一主题分类及辨识模块,耦接至所述断词及整合模块,用以识别所述一个或多个网页的所断词的所述内容中的主题,并根据存储于所述专用名词词典中的主题样式与语意相似性来对所识别的所述主题进行分类;
一意见探勘及情感分析模块,耦接至所述断词及整合模块,根据一以机器学习为基础的演算法来训练一意见探勘模块,来识别所述一个或多个网页的所断词的所述内容中的意见,并使用含有语言样式或语法规则的一外挂模块来对所识别的所述意见进行分类;
其中所述断词及整合模块整合从所述物件辨识模块中接收到的所识别的所述附名实体、从所述主题分类及辨识模块中接收到的所识别的所述主题及从所述意见探勘及情感分析模块接收到的所识别的所述意见,以建构一有机物件数据模型,并将与所建构的所述有机物件数据模型相关联的有机物件数据存储于一有机物件数据库中,
其中所述有机物件为包含子物件的附名实体,所述子物件为继承作为 母物件的所述有机物件的特性的附名实体。
8.如权利要求7所述的系统,进一步包括:
一物件关系建构模块,耦接至所述断词及整合模块,所述物件关系建构模块用以界定附名实体之间的关系。
9.如权利要求7所述的系统,其中所识别的所述附名实体为有机物件,且所识别的所述主题及意见为与其对应的物件相关联的社会属性。
10.如权利要求7所述的系统,所述物件辨识模块包括:
一附名实体辨识模块,用以根据一以条件随机域为基础的机器学习程序来识别附名实体
以及
一智能附名实体过滤模块,用以更新一专用名词词典及所述训练数据库。
11.如权利要求7所述的系统,所述主题分类及辨识模块包括:
一训练模块,用以根据主题之间的语意相似性与以机器为基础的分类来训练一主题分类器。
12.如权利要求7所述的系统,所述断词及整合模块包括:
一断词模块,用以根据一以条件随机域为基础的演算法及从所述专用名词词典中撷取的数据来对所接收到的所述网页的内容进行断词。
13.如权利要求12所述的系统,其中所述有机物件数据模型包含一有机物件、与所述有机物件相关联的自产生属性、与所述有机物件相关联的领域专用属性以及与所述有机物件相关联的社会属性,并且,所述自产生属性包括由有机物件本身产生的属性,所述领域专用属性包括描述有机物件的主题领域的属性,所述社会属性包括由与有机物件有关的线上社群所贡献的经分类的智能信息。
14.一种用于使用有机物件数据模型来撷取及组织线上收集的社群智能数据的系统,所述系统包括:
一断词及整合模块,耦接至一训练数据库,用以接收含有社群智能数据的一个或多个网页,并对含有社群智能数据的所述一个或多个网页的内容进行断词,并支持一有机物件数据模型,其中该有机物件数据模型包含一有机物件、与所述有机物件相关联的自产生属性、与所述有机物件相关联的领域专用属性以及与所述有机物件相关联的社会属性,并且,所述自 产生属性包括由有机物件本身产生的属性,所述领域专用属性包括描述有机物件的主题领域的属性,所述社会属性包括由与有机物件有关的线上社群所贡献的经分类的智能信息;
一物件辨识模块,耦接至所述断词及整合模块,用以识别所述一个或多个网页的所断词的所述内容中的附名实体,根据一预定标准来对所识别的所述附名实体进行分类,并将所分类的所述附名实体存储于一专用名词词典中,其中所判定的所述附名实体为有机物件;
一主题分类及辨识模块,其耦接至所述断词及整合模块,用以识别所述一个或多个网页的所断词的所述内容中的主题,并根据存储于所述专用名词词典中的主题样式与语意相似性来对所识别的所述主题进行分类,其中所识别的所述主题为与其对应的有机物件相关联的社会属性;
一意见探勘及情感分析模块,耦接至所述断词及整合模块,根据一以机器学习为基础的演算法来训练一意见探勘模块,来识别所述一个或多个网页的所断词的所述内容中的意见,并使用含有语言样式或语法规则的一外挂模块来对所识别的所述意见进行分类,其中所识别的所述意见为与其对应的有机物件相关联的社会属性;
其中所述断词及整合模块整合从所述物件辨识模块中接收到的所识别的所述附名实体、从所述主题分类及辨识模块中接收到的所识别的所述主题及从所述意见探勘及情感分析模块接收到的所识别的所述意见,以建构一有机物件数据模型,并将与所建构的所述有机物件数据模型相关联的有机物件数据存储于一有机物件数据库中,并且
其中所述有机物件为包含子物件的附名实体,所述子物件为继承作为母物件的所述有机物件的特性的附名实体。
15.如权利要求14所述的系统,进一步包括:
一物件关系建构模块,耦接至所述断词及整合模块,所述物件关系建构模块用以界定有机物件之间的关系。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25549409P | 2009-10-28 | 2009-10-28 | |
US61/255,494 | 2009-10-28 | ||
US12/801,777 | 2010-06-24 | ||
US12/801,777 US20110112995A1 (en) | 2009-10-28 | 2010-06-24 | Systems and methods for organizing collective social intelligence information using an organic object data model |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102054015A CN102054015A (zh) | 2011-05-11 |
CN102054015B true CN102054015B (zh) | 2014-05-07 |
Family
ID=43958345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010526961.8A Active CN102054015B (zh) | 2009-10-28 | 2010-10-25 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102054015B (zh) |
Cited By (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129219B1 (en) | 2014-06-30 | 2015-09-08 | Palantir Technologies, Inc. | Crime risk forecasting |
US9286373B2 (en) | 2013-03-15 | 2016-03-15 | Palantir Technologies Inc. | Computer-implemented systems and methods for comparing and associating objects |
US9348920B1 (en) | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US9348499B2 (en) | 2008-09-15 | 2016-05-24 | Palantir Technologies, Inc. | Sharing objects that rely on local resources with outside servers |
US9392008B1 (en) | 2015-07-23 | 2016-07-12 | Palantir Technologies Inc. | Systems and methods for identifying information related to payment card breaches |
US9390086B2 (en) | 2014-09-11 | 2016-07-12 | Palantir Technologies Inc. | Classification system with methodology for efficient verification |
US9424669B1 (en) | 2015-10-21 | 2016-08-23 | Palantir Technologies Inc. | Generating graphical representations of event participation flow |
US9430507B2 (en) | 2014-12-08 | 2016-08-30 | Palantir Technologies, Inc. | Distributed acoustic sensing data analysis system |
US9454281B2 (en) | 2014-09-03 | 2016-09-27 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US9485265B1 (en) | 2015-08-28 | 2016-11-01 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US9483546B2 (en) | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US9495353B2 (en) | 2013-03-15 | 2016-11-15 | Palantir Technologies Inc. | Method and system for generating a parser and parsing complex data |
US9501851B2 (en) | 2014-10-03 | 2016-11-22 | Palantir Technologies Inc. | Time-series analysis system |
US9501552B2 (en) | 2007-10-18 | 2016-11-22 | Palantir Technologies, Inc. | Resolving database entity information |
US9514414B1 (en) | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
US9589014B2 (en) | 2006-11-20 | 2017-03-07 | Palantir Technologies, Inc. | Creating data in a data store using a dynamic ontology |
US9652139B1 (en) | 2016-04-06 | 2017-05-16 | Palantir Technologies Inc. | Graphical representation of an output |
US9767172B2 (en) | 2014-10-03 | 2017-09-19 | Palantir Technologies Inc. | Data aggregation and analysis system |
US9785317B2 (en) | 2013-09-24 | 2017-10-10 | Palantir Technologies Inc. | Presentation and analysis of user interaction data |
US9792020B1 (en) | 2015-12-30 | 2017-10-17 | Palantir Technologies Inc. | Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data |
US9817563B1 (en) | 2014-12-29 | 2017-11-14 | Palantir Technologies Inc. | System and method of generating data points from one or more data stores of data items for chart creation and manipulation |
US9836523B2 (en) | 2012-10-22 | 2017-12-05 | Palantir Technologies Inc. | Sharing information between nexuses that use different classification schemes for information access control |
US9852205B2 (en) | 2013-03-15 | 2017-12-26 | Palantir Technologies Inc. | Time-sensitive cube |
US9864493B2 (en) | 2013-10-07 | 2018-01-09 | Palantir Technologies Inc. | Cohort-based presentation of user interaction data |
US9870389B2 (en) | 2014-12-29 | 2018-01-16 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US9875293B2 (en) | 2014-07-03 | 2018-01-23 | Palanter Technologies Inc. | System and method for news events detection and visualization |
US9880987B2 (en) | 2011-08-25 | 2018-01-30 | Palantir Technologies, Inc. | System and method for parameterizing documents for automatic workflow generation |
US9886467B2 (en) | 2015-03-19 | 2018-02-06 | Plantir Technologies Inc. | System and method for comparing and visualizing data entities and data entity series |
US9886525B1 (en) | 2016-12-16 | 2018-02-06 | Palantir Technologies Inc. | Data item aggregate probability analysis system |
US9891808B2 (en) | 2015-03-16 | 2018-02-13 | Palantir Technologies Inc. | Interactive user interfaces for location-based data analysis |
US9898335B1 (en) | 2012-10-22 | 2018-02-20 | Palantir Technologies Inc. | System and method for batch evaluation programs |
US9946738B2 (en) | 2014-11-05 | 2018-04-17 | Palantir Technologies, Inc. | Universal data pipeline |
US9953445B2 (en) | 2013-05-07 | 2018-04-24 | Palantir Technologies Inc. | Interactive data object map |
US9965534B2 (en) | 2015-09-09 | 2018-05-08 | Palantir Technologies, Inc. | Domain-specific language for dataset transformations |
US9984428B2 (en) | 2015-09-04 | 2018-05-29 | Palantir Technologies Inc. | Systems and methods for structuring data from unstructured electronic data files |
US9984133B2 (en) | 2014-10-16 | 2018-05-29 | Palantir Technologies Inc. | Schematic and database linking system |
US9996553B1 (en) | 2015-09-04 | 2018-06-12 | Palantir Technologies Inc. | Computer-implemented systems and methods for data management and visualization |
US9996229B2 (en) | 2013-10-03 | 2018-06-12 | Palantir Technologies Inc. | Systems and methods for analyzing performance of an entity |
US9996236B1 (en) | 2015-12-29 | 2018-06-12 | Palantir Technologies Inc. | Simplified frontend processing and visualization of large datasets |
US9996595B2 (en) | 2015-08-03 | 2018-06-12 | Palantir Technologies, Inc. | Providing full data provenance visualization for versioned datasets |
US10007674B2 (en) | 2016-06-13 | 2018-06-26 | Palantir Technologies Inc. | Data revision control in large-scale data analytic systems |
US10025834B2 (en) | 2013-12-16 | 2018-07-17 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10044836B2 (en) | 2016-12-19 | 2018-08-07 | Palantir Technologies Inc. | Conducting investigations under limited connectivity |
US10061828B2 (en) | 2006-11-20 | 2018-08-28 | Palantir Technologies, Inc. | Cross-ontology multi-master replication |
US10068199B1 (en) | 2016-05-13 | 2018-09-04 | Palantir Technologies Inc. | System to catalogue tracking data |
US10089289B2 (en) | 2015-12-29 | 2018-10-02 | Palantir Technologies Inc. | Real-time document annotation |
US10103953B1 (en) | 2015-05-12 | 2018-10-16 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10114884B1 (en) | 2015-12-16 | 2018-10-30 | Palantir Technologies Inc. | Systems and methods for attribute analysis of one or more databases |
US10127289B2 (en) | 2015-08-19 | 2018-11-13 | Palantir Technologies Inc. | Systems and methods for automatic clustering and canonical designation of related data in various data structures |
US10135863B2 (en) | 2014-11-06 | 2018-11-20 | Palantir Technologies Inc. | Malicious software detection in a computing system |
US10133783B2 (en) | 2017-04-11 | 2018-11-20 | Palantir Technologies Inc. | Systems and methods for constraint driven database searching |
US10133621B1 (en) | 2017-01-18 | 2018-11-20 | Palantir Technologies Inc. | Data analysis system to facilitate investigative process |
US10133588B1 (en) | 2016-10-20 | 2018-11-20 | Palantir Technologies Inc. | Transforming instructions for collaborative updates |
US10140664B2 (en) | 2013-03-14 | 2018-11-27 | Palantir Technologies Inc. | Resolving similar entities from a transaction database |
US10162887B2 (en) | 2014-06-30 | 2018-12-25 | Palantir Technologies Inc. | Systems and methods for key phrase characterization of documents |
US10176482B1 (en) | 2016-11-21 | 2019-01-08 | Palantir Technologies Inc. | System to identify vulnerable card readers |
US10180977B2 (en) | 2014-03-18 | 2019-01-15 | Palantir Technologies Inc. | Determining and extracting changed data from a data source |
US10180929B1 (en) | 2014-06-30 | 2019-01-15 | Palantir Technologies, Inc. | Systems and methods for identifying key phrase clusters within documents |
US10198515B1 (en) | 2013-12-10 | 2019-02-05 | Palantir Technologies Inc. | System and method for aggregating data from a plurality of data sources |
US10216811B1 (en) | 2017-01-05 | 2019-02-26 | Palantir Technologies Inc. | Collaborating using different object models |
US10229284B2 (en) | 2007-02-21 | 2019-03-12 | Palantir Technologies Inc. | Providing unique views of data based on changes or rules |
US10230746B2 (en) | 2014-01-03 | 2019-03-12 | Palantir Technologies Inc. | System and method for evaluating network threats and usage |
US10235533B1 (en) | 2017-12-01 | 2019-03-19 | Palantir Technologies Inc. | Multi-user access controls in electronic simultaneously editable document editor |
US10249033B1 (en) | 2016-12-20 | 2019-04-02 | Palantir Technologies Inc. | User interface for managing defects |
US10248722B2 (en) | 2016-02-22 | 2019-04-02 | Palantir Technologies Inc. | Multi-language support for dynamic ontology |
US10275778B1 (en) | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
US10311081B2 (en) | 2012-11-05 | 2019-06-04 | Palantir Technologies Inc. | System and method for sharing investigation results |
US10318630B1 (en) | 2016-11-21 | 2019-06-11 | Palantir Technologies Inc. | Analysis of large bodies of textual data |
US10324609B2 (en) | 2016-07-21 | 2019-06-18 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US12079357B2 (en) | 2021-09-20 | 2024-09-03 | Palantir Technologies Inc. | Multi-user access controls in electronic simultaneously editable document editor |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515912B2 (en) | 2010-07-15 | 2013-08-20 | Palantir Technologies, Inc. | Sharing and deconflicting data changes in a multimaster database system |
US9104695B1 (en) | 2009-07-27 | 2015-08-11 | Palantir Technologies, Inc. | Geotagging structured data |
US8799240B2 (en) | 2011-06-23 | 2014-08-05 | Palantir Technologies, Inc. | System and method for investigating large amounts of data |
US9547693B1 (en) | 2011-06-23 | 2017-01-17 | Palantir Technologies Inc. | Periodic database search manager for multiple data sources |
US8782004B2 (en) | 2012-01-23 | 2014-07-15 | Palantir Technologies, Inc. | Cross-ACL multi-master replication |
US9798768B2 (en) | 2012-09-10 | 2017-10-24 | Palantir Technologies, Inc. | Search around visual queries |
US9501507B1 (en) | 2012-12-27 | 2016-11-22 | Palantir Technologies Inc. | Geo-temporal indexing and searching |
US8909656B2 (en) | 2013-03-15 | 2014-12-09 | Palantir Technologies Inc. | Filter chains with associated multipath views for exploring large data sets |
US8886601B1 (en) | 2013-06-20 | 2014-11-11 | Palantir Technologies, Inc. | System and method for incrementally replicating investigative analysis data |
US8601326B1 (en) | 2013-07-05 | 2013-12-03 | Palantir Technologies, Inc. | Data quality monitors |
US9565152B2 (en) | 2013-08-08 | 2017-02-07 | Palantir Technologies Inc. | Cable reader labeling |
US9116975B2 (en) | 2013-10-18 | 2015-08-25 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
US10579647B1 (en) | 2013-12-16 | 2020-03-03 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10356032B2 (en) | 2013-12-26 | 2019-07-16 | Palantir Technologies Inc. | System and method for detecting confidential information emails |
US9836580B2 (en) | 2014-03-21 | 2017-12-05 | Palantir Technologies Inc. | Provider portal |
TWI553573B (zh) * | 2014-05-15 | 2016-10-11 | 財團法人工業技術研究院 | 面向口碑分析與檢視系統、裝置及方法 |
US20160026923A1 (en) | 2014-07-22 | 2016-01-28 | Palantir Technologies Inc. | System and method for determining a propensity of entity to take a specified action |
US9785328B2 (en) | 2014-10-06 | 2017-10-10 | Palantir Technologies Inc. | Presentation of multivariate data on a graphical user interface of a computing system |
CN105608091B (zh) * | 2014-11-21 | 2019-02-05 | 中国移动通信集团公司 | 一种动态医疗知识库的构建方法及装置 |
US10552994B2 (en) | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
US10362133B1 (en) | 2014-12-22 | 2019-07-23 | Palantir Technologies Inc. | Communication data processing architecture |
US10452651B1 (en) | 2014-12-23 | 2019-10-22 | Palantir Technologies Inc. | Searching charts |
US11302426B1 (en) | 2015-01-02 | 2022-04-12 | Palantir Technologies Inc. | Unified data interface and system |
US10803106B1 (en) | 2015-02-24 | 2020-10-13 | Palantir Technologies Inc. | System with methodology for dynamic modular ontology |
US9727560B2 (en) | 2015-02-25 | 2017-08-08 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US9348880B1 (en) | 2015-04-01 | 2016-05-24 | Palantir Technologies, Inc. | Federated search of multiple sources with conflict resolution |
US10628834B1 (en) | 2015-06-16 | 2020-04-21 | Palantir Technologies Inc. | Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces |
US9418337B1 (en) | 2015-07-21 | 2016-08-16 | Palantir Technologies Inc. | Systems and models for data analytics |
US9456000B1 (en) | 2015-08-06 | 2016-09-27 | Palantir Technologies Inc. | Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications |
US9600146B2 (en) | 2015-08-17 | 2017-03-21 | Palantir Technologies Inc. | Interactive geospatial map |
US9671776B1 (en) | 2015-08-20 | 2017-06-06 | Palantir Technologies Inc. | Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account |
US11150917B2 (en) | 2015-08-26 | 2021-10-19 | Palantir Technologies Inc. | System for data aggregation and analysis of data from a plurality of data sources |
US10706434B1 (en) | 2015-09-01 | 2020-07-07 | Palantir Technologies Inc. | Methods and systems for determining location information |
US10223429B2 (en) | 2015-12-01 | 2019-03-05 | Palantir Technologies Inc. | Entity data attribution using disparate data sets |
US9760556B1 (en) | 2015-12-11 | 2017-09-12 | Palantir Technologies Inc. | Systems and methods for annotating and linking electronic documents |
US9542446B1 (en) | 2015-12-17 | 2017-01-10 | Palantir Technologies, Inc. | Automatic generation of composite datasets based on hierarchical fields |
US10373099B1 (en) | 2015-12-18 | 2019-08-06 | Palantir Technologies Inc. | Misalignment detection system for efficiently processing database-stored data and automatically generating misalignment information for display in interactive user interfaces |
US10871878B1 (en) | 2015-12-29 | 2020-12-22 | Palantir Technologies Inc. | System log analysis and object user interaction correlation system |
US10698938B2 (en) | 2016-03-18 | 2020-06-30 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US10545975B1 (en) | 2016-06-22 | 2020-01-28 | Palantir Technologies Inc. | Visual analysis of data using sequenced dataset reduction |
US10909130B1 (en) | 2016-07-01 | 2021-02-02 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10719188B2 (en) | 2016-07-21 | 2020-07-21 | Palantir Technologies Inc. | Cached database and synchronization system for providing dynamic linked panels in user interface |
US11106692B1 (en) | 2016-08-04 | 2021-08-31 | Palantir Technologies Inc. | Data record resolution and correlation system |
US10552002B1 (en) | 2016-09-27 | 2020-02-04 | Palantir Technologies Inc. | User interface based variable machine modeling |
US10726507B1 (en) | 2016-11-11 | 2020-07-28 | Palantir Technologies Inc. | Graphical representation of a complex task |
US11250425B1 (en) | 2016-11-30 | 2022-02-15 | Palantir Technologies Inc. | Generating a statistic using electronic transaction data |
GB201621434D0 (en) | 2016-12-16 | 2017-02-01 | Palantir Technologies Inc | Processing sensor logs |
US10728262B1 (en) | 2016-12-21 | 2020-07-28 | Palantir Technologies Inc. | Context-aware network-based malicious activity warning systems |
US11373752B2 (en) | 2016-12-22 | 2022-06-28 | Palantir Technologies Inc. | Detection of misuse of a benefit system |
US10360238B1 (en) | 2016-12-22 | 2019-07-23 | Palantir Technologies Inc. | Database systems and user interfaces for interactive data association, analysis, and presentation |
US10721262B2 (en) | 2016-12-28 | 2020-07-21 | Palantir Technologies Inc. | Resource-centric network cyber attack warning system |
US10762471B1 (en) | 2017-01-09 | 2020-09-01 | Palantir Technologies Inc. | Automating management of integrated workflows based on disparate subsidiary data sources |
US10509844B1 (en) | 2017-01-19 | 2019-12-17 | Palantir Technologies Inc. | Network graph parser |
US10515109B2 (en) | 2017-02-15 | 2019-12-24 | Palantir Technologies Inc. | Real-time auditing of industrial equipment condition |
US10581954B2 (en) | 2017-03-29 | 2020-03-03 | Palantir Technologies Inc. | Metric collection and aggregation for distributed software services |
US10866936B1 (en) | 2017-03-29 | 2020-12-15 | Palantir Technologies Inc. | Model object management and storage system |
US11074277B1 (en) | 2017-05-01 | 2021-07-27 | Palantir Technologies Inc. | Secure resolution of canonical entities |
US10606872B1 (en) | 2017-05-22 | 2020-03-31 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10795749B1 (en) | 2017-05-31 | 2020-10-06 | Palantir Technologies Inc. | Systems and methods for providing fault analysis user interface |
US10956406B2 (en) | 2017-06-12 | 2021-03-23 | Palantir Technologies Inc. | Propagated deletion of database records and derived data |
US11216762B1 (en) | 2017-07-13 | 2022-01-04 | Palantir Technologies Inc. | Automated risk visualization using customer-centric data analysis |
US10942947B2 (en) | 2017-07-17 | 2021-03-09 | Palantir Technologies Inc. | Systems and methods for determining relationships between datasets |
US10430444B1 (en) | 2017-07-24 | 2019-10-01 | Palantir Technologies Inc. | Interactive geospatial map and geospatial visualization systems |
US10956508B2 (en) | 2017-11-10 | 2021-03-23 | Palantir Technologies Inc. | Systems and methods for creating and managing a data integration workspace containing automatically updated data models |
US11281726B2 (en) | 2017-12-01 | 2022-03-22 | Palantir Technologies Inc. | System and methods for faster processor comparisons of visual graph features |
US10769171B1 (en) | 2017-12-07 | 2020-09-08 | Palantir Technologies Inc. | Relationship analysis and mapping for interrelated multi-layered datasets |
US11314721B1 (en) | 2017-12-07 | 2022-04-26 | Palantir Technologies Inc. | User-interactive defect analysis for root cause |
US10783162B1 (en) | 2017-12-07 | 2020-09-22 | Palantir Technologies Inc. | Workflow assistant |
US10877984B1 (en) | 2017-12-07 | 2020-12-29 | Palantir Technologies Inc. | Systems and methods for filtering and visualizing large scale datasets |
US11061874B1 (en) | 2017-12-14 | 2021-07-13 | Palantir Technologies Inc. | Systems and methods for resolving entity data across various data structures |
US10838987B1 (en) | 2017-12-20 | 2020-11-17 | Palantir Technologies Inc. | Adaptive and transparent entity screening |
US10853352B1 (en) | 2017-12-21 | 2020-12-01 | Palantir Technologies Inc. | Structured data collection, presentation, validation and workflow management |
US11263382B1 (en) | 2017-12-22 | 2022-03-01 | Palantir Technologies Inc. | Data normalization and irregularity detection system |
GB201800595D0 (en) | 2018-01-15 | 2018-02-28 | Palantir Technologies Inc | Management of software bugs in a data processing system |
US11599369B1 (en) | 2018-03-08 | 2023-03-07 | Palantir Technologies Inc. | Graphical user interface configuration system |
US10877654B1 (en) | 2018-04-03 | 2020-12-29 | Palantir Technologies Inc. | Graphical user interfaces for optimizations |
US10754822B1 (en) | 2018-04-18 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for ontology migration |
US10885021B1 (en) | 2018-05-02 | 2021-01-05 | Palantir Technologies Inc. | Interactive interpreter and graphical user interface |
US10754946B1 (en) | 2018-05-08 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for implementing a machine learning approach to modeling entity behavior |
US11061542B1 (en) | 2018-06-01 | 2021-07-13 | Palantir Technologies Inc. | Systems and methods for determining and displaying optimal associations of data items |
US10795909B1 (en) | 2018-06-14 | 2020-10-06 | Palantir Technologies Inc. | Minimized and collapsed resource dependency path |
US11119630B1 (en) | 2018-06-19 | 2021-09-14 | Palantir Technologies Inc. | Artificial intelligence assisted evaluations and user interface for same |
US11126638B1 (en) | 2018-09-13 | 2021-09-21 | Palantir Technologies Inc. | Data visualization and parsing system |
US11294928B1 (en) | 2018-10-12 | 2022-04-05 | Palantir Technologies Inc. | System architecture for relating and linking data objects |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192215A (zh) * | 2006-11-24 | 2008-06-04 | 中国科学院声学研究所 | 一种基于地理坐标的信息聚合与查询方法 |
CN101261629A (zh) * | 2008-04-21 | 2008-09-10 | 上海大学 | 基于自动分类技术的特定信息搜索方法 |
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
-
2010
- 2010-10-25 CN CN201010526961.8A patent/CN102054015B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192215A (zh) * | 2006-11-24 | 2008-06-04 | 中国科学院声学研究所 | 一种基于地理坐标的信息聚合与查询方法 |
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
CN101261629A (zh) * | 2008-04-21 | 2008-09-10 | 上海大学 | 基于自动分类技术的特定信息搜索方法 |
Cited By (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10061828B2 (en) | 2006-11-20 | 2018-08-28 | Palantir Technologies, Inc. | Cross-ontology multi-master replication |
US9589014B2 (en) | 2006-11-20 | 2017-03-07 | Palantir Technologies, Inc. | Creating data in a data store using a dynamic ontology |
US10229284B2 (en) | 2007-02-21 | 2019-03-12 | Palantir Technologies Inc. | Providing unique views of data based on changes or rules |
US9846731B2 (en) | 2007-10-18 | 2017-12-19 | Palantir Technologies, Inc. | Resolving database entity information |
US9501552B2 (en) | 2007-10-18 | 2016-11-22 | Palantir Technologies, Inc. | Resolving database entity information |
US10248294B2 (en) | 2008-09-15 | 2019-04-02 | Palantir Technologies, Inc. | Modal-less interface enhancements |
US9348499B2 (en) | 2008-09-15 | 2016-05-24 | Palantir Technologies, Inc. | Sharing objects that rely on local resources with outside servers |
US9383911B2 (en) | 2008-09-15 | 2016-07-05 | Palantir Technologies, Inc. | Modal-less interface enhancements |
US9880987B2 (en) | 2011-08-25 | 2018-01-30 | Palantir Technologies, Inc. | System and method for parameterizing documents for automatic workflow generation |
US9898335B1 (en) | 2012-10-22 | 2018-02-20 | Palantir Technologies Inc. | System and method for batch evaluation programs |
US9836523B2 (en) | 2012-10-22 | 2017-12-05 | Palantir Technologies Inc. | Sharing information between nexuses that use different classification schemes for information access control |
US10311081B2 (en) | 2012-11-05 | 2019-06-04 | Palantir Technologies Inc. | System and method for sharing investigation results |
US10140664B2 (en) | 2013-03-14 | 2018-11-27 | Palantir Technologies Inc. | Resolving similar entities from a transaction database |
US9495353B2 (en) | 2013-03-15 | 2016-11-15 | Palantir Technologies Inc. | Method and system for generating a parser and parsing complex data |
US10152531B2 (en) | 2013-03-15 | 2018-12-11 | Palantir Technologies Inc. | Computer-implemented systems and methods for comparing and associating objects |
US10275778B1 (en) | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
US9286373B2 (en) | 2013-03-15 | 2016-03-15 | Palantir Technologies Inc. | Computer-implemented systems and methods for comparing and associating objects |
US9852205B2 (en) | 2013-03-15 | 2017-12-26 | Palantir Technologies Inc. | Time-sensitive cube |
US9953445B2 (en) | 2013-05-07 | 2018-04-24 | Palantir Technologies Inc. | Interactive data object map |
US9785317B2 (en) | 2013-09-24 | 2017-10-10 | Palantir Technologies Inc. | Presentation and analysis of user interaction data |
US9996229B2 (en) | 2013-10-03 | 2018-06-12 | Palantir Technologies Inc. | Systems and methods for analyzing performance of an entity |
US9864493B2 (en) | 2013-10-07 | 2018-01-09 | Palantir Technologies Inc. | Cohort-based presentation of user interaction data |
US10198515B1 (en) | 2013-12-10 | 2019-02-05 | Palantir Technologies Inc. | System and method for aggregating data from a plurality of data sources |
US10025834B2 (en) | 2013-12-16 | 2018-07-17 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10230746B2 (en) | 2014-01-03 | 2019-03-12 | Palantir Technologies Inc. | System and method for evaluating network threats and usage |
US10180977B2 (en) | 2014-03-18 | 2019-01-15 | Palantir Technologies Inc. | Determining and extracting changed data from a data source |
US9836694B2 (en) | 2014-06-30 | 2017-12-05 | Palantir Technologies, Inc. | Crime risk forecasting |
US9129219B1 (en) | 2014-06-30 | 2015-09-08 | Palantir Technologies, Inc. | Crime risk forecasting |
US10180929B1 (en) | 2014-06-30 | 2019-01-15 | Palantir Technologies, Inc. | Systems and methods for identifying key phrase clusters within documents |
US10162887B2 (en) | 2014-06-30 | 2018-12-25 | Palantir Technologies Inc. | Systems and methods for key phrase characterization of documents |
US9875293B2 (en) | 2014-07-03 | 2018-01-23 | Palanter Technologies Inc. | System and method for news events detection and visualization |
US9881074B2 (en) | 2014-07-03 | 2018-01-30 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US9880696B2 (en) | 2014-09-03 | 2018-01-30 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US9454281B2 (en) | 2014-09-03 | 2016-09-27 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US9390086B2 (en) | 2014-09-11 | 2016-07-12 | Palantir Technologies Inc. | Classification system with methodology for efficient verification |
US9767172B2 (en) | 2014-10-03 | 2017-09-19 | Palantir Technologies Inc. | Data aggregation and analysis system |
US9501851B2 (en) | 2014-10-03 | 2016-11-22 | Palantir Technologies Inc. | Time-series analysis system |
US9984133B2 (en) | 2014-10-16 | 2018-05-29 | Palantir Technologies Inc. | Schematic and database linking system |
US9946738B2 (en) | 2014-11-05 | 2018-04-17 | Palantir Technologies, Inc. | Universal data pipeline |
US10191926B2 (en) | 2014-11-05 | 2019-01-29 | Palantir Technologies, Inc. | Universal data pipeline |
US10135863B2 (en) | 2014-11-06 | 2018-11-20 | Palantir Technologies Inc. | Malicious software detection in a computing system |
US9430507B2 (en) | 2014-12-08 | 2016-08-30 | Palantir Technologies, Inc. | Distributed acoustic sensing data analysis system |
US9483546B2 (en) | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US10242072B2 (en) | 2014-12-15 | 2019-03-26 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US9898528B2 (en) | 2014-12-22 | 2018-02-20 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US9348920B1 (en) | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US10157200B2 (en) | 2014-12-29 | 2018-12-18 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US9870389B2 (en) | 2014-12-29 | 2018-01-16 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US9817563B1 (en) | 2014-12-29 | 2017-11-14 | Palantir Technologies Inc. | System and method of generating data points from one or more data stores of data items for chart creation and manipulation |
US9891808B2 (en) | 2015-03-16 | 2018-02-13 | Palantir Technologies Inc. | Interactive user interfaces for location-based data analysis |
US9886467B2 (en) | 2015-03-19 | 2018-02-06 | Plantir Technologies Inc. | System and method for comparing and visualizing data entities and data entity series |
US10103953B1 (en) | 2015-05-12 | 2018-10-16 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US9392008B1 (en) | 2015-07-23 | 2016-07-12 | Palantir Technologies Inc. | Systems and methods for identifying information related to payment card breaches |
US9996595B2 (en) | 2015-08-03 | 2018-06-12 | Palantir Technologies, Inc. | Providing full data provenance visualization for versioned datasets |
US10127289B2 (en) | 2015-08-19 | 2018-11-13 | Palantir Technologies Inc. | Systems and methods for automatic clustering and canonical designation of related data in various data structures |
US9485265B1 (en) | 2015-08-28 | 2016-11-01 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US9898509B2 (en) | 2015-08-28 | 2018-02-20 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US9996553B1 (en) | 2015-09-04 | 2018-06-12 | Palantir Technologies Inc. | Computer-implemented systems and methods for data management and visualization |
US9984428B2 (en) | 2015-09-04 | 2018-05-29 | Palantir Technologies Inc. | Systems and methods for structuring data from unstructured electronic data files |
US9965534B2 (en) | 2015-09-09 | 2018-05-08 | Palantir Technologies, Inc. | Domain-specific language for dataset transformations |
US10192333B1 (en) | 2015-10-21 | 2019-01-29 | Palantir Technologies Inc. | Generating graphical representations of event participation flow |
US9424669B1 (en) | 2015-10-21 | 2016-08-23 | Palantir Technologies Inc. | Generating graphical representations of event participation flow |
US9514414B1 (en) | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
US10114884B1 (en) | 2015-12-16 | 2018-10-30 | Palantir Technologies Inc. | Systems and methods for attribute analysis of one or more databases |
US9996236B1 (en) | 2015-12-29 | 2018-06-12 | Palantir Technologies Inc. | Simplified frontend processing and visualization of large datasets |
US10089289B2 (en) | 2015-12-29 | 2018-10-02 | Palantir Technologies Inc. | Real-time document annotation |
US9792020B1 (en) | 2015-12-30 | 2017-10-17 | Palantir Technologies Inc. | Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data |
US10248722B2 (en) | 2016-02-22 | 2019-04-02 | Palantir Technologies Inc. | Multi-language support for dynamic ontology |
US9652139B1 (en) | 2016-04-06 | 2017-05-16 | Palantir Technologies Inc. | Graphical representation of an output |
US10068199B1 (en) | 2016-05-13 | 2018-09-04 | Palantir Technologies Inc. | System to catalogue tracking data |
US10007674B2 (en) | 2016-06-13 | 2018-06-26 | Palantir Technologies Inc. | Data revision control in large-scale data analytic systems |
US10324609B2 (en) | 2016-07-21 | 2019-06-18 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US10133588B1 (en) | 2016-10-20 | 2018-11-20 | Palantir Technologies Inc. | Transforming instructions for collaborative updates |
US10318630B1 (en) | 2016-11-21 | 2019-06-11 | Palantir Technologies Inc. | Analysis of large bodies of textual data |
US10176482B1 (en) | 2016-11-21 | 2019-01-08 | Palantir Technologies Inc. | System to identify vulnerable card readers |
US9886525B1 (en) | 2016-12-16 | 2018-02-06 | Palantir Technologies Inc. | Data item aggregate probability analysis system |
US10044836B2 (en) | 2016-12-19 | 2018-08-07 | Palantir Technologies Inc. | Conducting investigations under limited connectivity |
US10249033B1 (en) | 2016-12-20 | 2019-04-02 | Palantir Technologies Inc. | User interface for managing defects |
US10216811B1 (en) | 2017-01-05 | 2019-02-26 | Palantir Technologies Inc. | Collaborating using different object models |
US10133621B1 (en) | 2017-01-18 | 2018-11-20 | Palantir Technologies Inc. | Data analysis system to facilitate investigative process |
US11892901B2 (en) | 2017-01-18 | 2024-02-06 | Palantir Technologies Inc. | Data analysis system to facilitate investigative process |
US10133783B2 (en) | 2017-04-11 | 2018-11-20 | Palantir Technologies Inc. | Systems and methods for constraint driven database searching |
US10235533B1 (en) | 2017-12-01 | 2019-03-19 | Palantir Technologies Inc. | Multi-user access controls in electronic simultaneously editable document editor |
US12079357B2 (en) | 2021-09-20 | 2024-09-03 | Palantir Technologies Inc. | Multi-user access controls in electronic simultaneously editable document editor |
Also Published As
Publication number | Publication date |
---|---|
CN102054015A (zh) | 2011-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
Deng et al. | Adapting sentiment lexicons to domain-specific social media texts | |
Liu et al. | Web service clustering using text mining techniques | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103810251B (zh) | 一种文本提取方法及装置 | |
US20150287047A1 (en) | Extracting Information from Chain-Store Websites | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN108536664A (zh) | 商品领域的知识融合方法 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
KR101532252B1 (ko) | 소셜 네트워크 정보 수집 및 분석 시스템 | |
CN115062158A (zh) | 敏感信息知识图谱构建方法、装置及敏感信息确定方法 | |
KR20200127553A (ko) | 뉴스 기사의 감성 정보 레이블링 방법 | |
KR20200127636A (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치의 동작 프로그램이 기록된 기록매체 | |
KR20200127649A (ko) | 감성 정보 레이블링 장치의 동작 프로그램 | |
KR20200127555A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
CN111581950B (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
Oliveira et al. | Gazetteer enrichment for addressing urban areas: A case study | |
KR20220116086A (ko) | 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 | |
KR20200127670A (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치 | |
KR20200127552A (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |