CN102054016A - 用于撷取及管理社群智能信息的系统及方法 - Google Patents
用于撷取及管理社群智能信息的系统及方法 Download PDFInfo
- Publication number
- CN102054016A CN102054016A CN2010105270899A CN201010527089A CN102054016A CN 102054016 A CN102054016 A CN 102054016A CN 2010105270899 A CN2010105270899 A CN 2010105270899A CN 201010527089 A CN201010527089 A CN 201010527089A CN 102054016 A CN102054016 A CN 102054016A
- Authority
- CN
- China
- Prior art keywords
- data
- computing machine
- training
- data acquisition
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于撷取及管理社群智能信息的系统及方法。此方法包括接收来自一个或多个线上来源的第一数据集合;对第一数据集合进行取样;并且产生第二数据集合,其中第二数据集合包括从第一数据集合中取样的数据。此方法也包括接收具有预定义标签的经标记的第二数据集合以及将此经标记的第二数据集合分为训练数据集合及测试数据集合。此方法亦包含依据训练数据集合来配置机器学习分类器;依据训练数据集合来预测至少一数据点与计算其信心评分;并且将所预测的数据点与所述测试数据集合进行比较。此方法还包括依据所预测的数据点的信心评分对其进行排序;以及接收与所预测的数据点相关联的已校正训练数据。
Description
技术领域
本公开案涉及撷取及分析线上社群智能信息(online collective intelligence information)的领域,且更明确而言,是关于用于自线上社群(online social community)收集与管理数据,且使用有机物件架构(organic object architecture)来提供高品质搜寻结果的系统及方法。
背景技术
Web 2.0网站允许其使用者彼此互动以成为网站的内容的提供者,而在有些网站上,使用者被限制于仅能被动地观看提供给他们的信息。由于能够建立及更新内容,所以许多网络作者能够一起协同创作。举例而言,在维基百科(wikis)中,使用者可扩充、取消及重作彼此的创作。在部落格中,个人的发贴及评论会随时间而逐渐累积。
社群智能(social intelligence,SI)是指分析从一群互联网使用者中所收集的数据的概念,其使人能够了解社会群体中的意见以及过去及未来的行为。为了使线上搜寻引擎(online search engine)能够提供回应性的线上搜寻结果(responsive online search result),搜寻系统必须有效地撷取及管理来自各种来源的SI信息。
Web 2.0网站中关键词搜寻(keyword search)是常用的线上搜寻方法的其中之一。然而,关键词搜寻具有若干缺点。关键词搜寻易于过度搜寻,亦即发现非相关文件;且易于搜寻不足,亦即未发现某些相关文件。而且,关键词搜寻的结果通常并不区分不同上下文内的相同关键词。因此,互联网使用者可能需要花数分钟或甚至数小时来扫描搜寻结果,以识别有用信息。关键词搜寻的此等缺点在处理大量SI信息时甚至更显着。
本公开的实施例是针对通过使用有机物件数据模型来管理收集到的社群智能信息,以促进有效线上搜寻且克服上述的问题中的一个或多个。
发明内容
在本发明的一个方面中,本公开是针对一种用于撷取及管理线上收集到的训练数据的方法。所公开的系统的断词及整合模块(segmentation and integration module)可接收来自一或多个线上来源的第一数据集合,且对所述第一数据集合进行取样,并产生第二数据集合,其中第二数据集合包括从第一数据集合中取样的数据。断词及整合模块接着可接收带标记的第二数据集合。所述系统的主题分类及辨识模块(topic classification and identification module)会将带标记的第二数据集合分为训练数据集合与测试数据集合,并依据训练数据集合来配置机器学习分类器(machine learning based classifier)。主题分类及辨识模块接着会使用所配置的分类器依据训练数据集合来预测至少一数据点,且计算所述预测的信心评分(confidence score)。主题分类及辨识模块会将至少一所预测的数据点与测试数据集合进行比较,且根据其信心评分来对所预测的数据点进行排序。所预测的数据点可通过人工数据处理人员(human data processor)来检视,其中若所述数据点被不正确地标记时,则人工数据处理人员会对其进行校正。主题分类及辨识模块接着会接收与所预测的数据点相关联的经校正训练数据。
在本发明的另一个方面中,本公开是针对一种用于撷取及改善线上收集到的训练数据的品质的方法。所述系统的断词及整合模块可从一个或多个线上来源中接收多个网页、多个网页的人工标记的内容,且将经标记的内容存储于训练数据库(training database)中。此系统的物件辨识模块(object recognition module)会产生与在多个网页的内容中识别的附名实体(named entity,NE)相关联的训练数据,且将训练数据存储于训练数据库中。此系统的主题分类及辨识模块会产生与在多个网页的内容中识别的主题或主题样式相关联的训练数据,且将训练数据存储于训练数据库中。意见探勘及情感分析模块(opinion mining and sentiment analysis module)会产生与在多个网页的内容中识别的意见词(opinion word)或意见样式(opinion pattern)相关联的训练数据,且将训练数据存储于训练数据库中。最后,断词及整合模块会使用以条件随机域(Conditional Random Field,CRF)为基础的机器学习方法,并且依据存储于训练数据库中的训练数据,来对多个网页的内容进行断词。
在本发明的另一个方面中,本公开是针对一种用于撷取及管理线上收集到的训练数据的系统。此系统包括断词及整合模块和主题分类及辨识模块。断词及整合模块用以从一个或多个线上来源接收第一数据集合。主题分类及辨识模块用以对第一数据集合进行取样,且产生第二数据集合,其中第二数据集合包括从第一数据集合中取样的数据。主题分类及辨识模块会将第二数据集合分成训练数据集合及测试数据集合,依据训练数据集合来预测至少一数据点并计算其信心评分,并且将至少一所预测的数据点与测试数据集合进行比较。此外,主题分类及辨识模块会依据所预测的数据点的信心评分对其进行排序,接收与所预测的数据点相关联的已校正训练数据,并将已校正训练数据存储于训练数据库中。
附图说明
图1a为绘示线上搜寻引擎硬件架构的范例方块图。
图1b为绘示有机物件数据模型的范例方块图。
图2为绘示有机数据物件的范例方块图。
图3为绘示以有机物件数据模型为基础的信息撷取及管理系统的范例方块图。
图4为绘示图3所示的信息撷取及管理系统的物件辨识模块的程序的范例流程图。
图5为说明通过图3所示的物件辨识模块来应用N字母组合并演算法的程序的范例流程图。
图6为绘示应用N字母组合并演算法的程序的范例示意图。
图7为绘示物件辨识模块中所使用的信赖值的计算的范例示意图。
图8为绘示图3所示的主题分类及辨识模块的范例方块图。
图9为绘示主题分类及辨识模块所应用的语意相似性的计算的范例。
图10为绘示由主题分类及辨识模块实施的用于收集及改良训练数据的品质的程序的范例流程图。
图11为绘示由主题分类及辨识模块实施的用于收集及改善训练数据的品质的程序的更详细的范例方块图。
图12a为绘示图3所示的意见探勘及情感分析模块的范例方块图。
图12b为说明由意见探勘及情感分析模块实施的测试程序的范例方块图。
图12c为绘示可用于实施主题分类及辨识模块以及意见探勘及情感分析模块的架构的范例方块图。
图13为绘示图3所示的断词及整合模块的范例方块图。
【主要元件符号说明】
10:互联网
20:负载平衡服务器
30:网络服务器
40:广告服务器
50:数据搜集服务器
60:文件数据库
70:线上搜寻引擎
100:有机物件数据模型
110:有机物件(母物件)
120:自产生属性
130:领域专用属性
140:社会属性
150:子物件
160:时间戳记
170:肯定或否定意见
200:有机物件
210:附名餐馆
221:价格
222:地址
223:促销活动
224:免费赠品
225:折扣
231:菜肴类型
232:停车空间
241:使用者评论
242:气氛
243:服务
244:价格
245:食物口味
300:信息撷取及管理系统
310:断词及整合模块
320:物件辨识模块
330:物件关系建构模块
340:主题分类及辨识模块
350:意见探勘及情感分析模块
360:训练数据库
370:网页
380a:有机物件数据库
380b:专用名词词典
440:智能NE过滤模块
450:自动断词器训练数据产生模块
452:自动NER训练数据产生模块
460:以CRF为基础的断词器训练模块
470:断词模块
480:NE辨识模块
485:以CRF为基础的NER训练模块
490:后处理分类器
495:断词程序
496:物件辨识程序
861:主题样式表格
862:主题语意向量表格
863:主题相似性表格
870:主题分类器模块
1010、1020、1030、1040、1050、1060:用于收集及改善训练数据集合的品质的程序
1110:经人工标记的数据集合
1111:句子组/经标记的数据集合
1112:句子组/经标记的数据集合
1113:句子组/经标记的数据集合
1114:句子组/经标记的数据集合
1115:句子组/经标记的数据集合
1116:训练数据集合
1117:测试数据集合
1120:SVM训练器
1130:SVM模型
1140:SVM分类器
1150:句子组/数据集合
1160:验证器
1210:意见探勘程序
1220:以CRF为基础的意见词及样式探测器模块
1222:表格
1224:表格
1226:表格
1240:机器学习分类器/意见探勘分类器
1250:以文法及规则为基础的分类器/意见探勘分类器
1260:意见决策评分
1270:意见决策评分
1280:意见探勘分类器
1310:经断词的结果、所发现的物件、主题及意见
1330:模块接口
1340:整合模块
具体实施方式
本公开的系统及方法撷取并管理收集到的社群智能信息,以便提供更快且更准确的线上搜寻结果以回应使用者询问。本公开的实施例使用有机物件数据模型来提供一架构以撷取及分析自线上社群网络及其他线上群落以及其他网页收集到的信息。有机物件数据模型反映由线上社群网络及群落建立的智能信息的异质性质。通过应用有机物件数据模型,本公开的信息撷取及管理系统可高效地将大量信息分类,并根据请求而呈现搜寻到的信息。
本公开的实施例包含软件模块及数据库,其可由计算机软件及硬件组件的各种配置来实现。每一软件及硬件的配置可以是各种计算机存储介质、用以执行某些所公开的功能的各种计算机、各种第三方软件应用程序以及实施所公开的系统功能性的软件应用程序。
图1a为绘示线上搜寻引擎(online search engine)70的范例硬件架构的方块图。线上搜寻引擎70是指任何用以在接收到使用者的搜寻请求后提供线上内容的搜寻结果的软件及硬件。线上搜寻引擎的熟知范例为Google搜寻引擎。如图1a所示,线上搜寻引擎70自互联网10接收使用者的询问,诸如搜寻请求。线上搜寻引擎70也可自线上社群中收集SI信息。线上搜寻引擎70可通过使用一个或多个服务器(诸如由Intel生产的一或多个2×300 MHz Dual Pentium II服务器)来实现。服务器是指运行服务器操作系统的计算机,但也可以是任何能够提供服务的软件或专用硬件。
线上搜寻引擎70包含一或多个负载平衡服务器(load balancing server)20,其可自互联网10接收搜寻请求,且将所述请求转发至多个网络服务器30中的其中之一。网络服务器30可协调自互联网10中接收的查询的执行,格式化从数据搜集服务器(data gathering server)50中所接收的对应搜寻结果,从广告服务器(Ad server)40中撷取广告清单,且产生搜寻结果以回应于自互联网10中所接收到的使用者的搜寻请求。广告服务器40用以管理与线上搜寻引擎70相关联的广告。数据搜集服务器50用以从互联网10中收集SI信息,且通过为数据编索引或使用各种数据结构来组织收集到的数据。数据搜集服务器50会将所组织的数据存储于文件数据库60中,及从文件数据库60撷取所组织的数据。在一范例实例中,数据搜集服务器50可依据有机物件数据模型而托管信息撷取及管理系统。以下将配合图1b及图2来描述有机物件数据模型,并且配合图3来描述信息撷取及管理系统。
图1b为有机物件数据模型100的方块图。如图1b所示,有机物件110可为具有子物件150的附名实体(例如,附名餐馆)。子物件150可为继承其母物件110的特性的附名实体。有机物件110可具有至少三种类型的属性:自产生属性(self-producing attribute)120、领域专用属性(domain-specific attribute)130以及社会属性(social attribute)140。自产生属性120包括由物件110本身产生的属性。领域专用属性130包括描述物件110的主题领域的属性。社会属性140包括由与物件110有关的线上社群所贡献的经分类的智能信息。在一范例实例中,由线上社群贡献的智能信息可为使用者意见,例如关于物件110或其属性的肯定或否定意见170。经分类的智能信息的每一类别可为与一个或多个意见相关联的主题。主题也可以是社会属性。
有机物件110包括时间戳记(time stamp)160(TS 160),其可使物件110与时间周期或时刻相关联。TS 160可指示物件寿命周期,其可为物件110的建立与删除之间的时间周期,或者为物件110的有效时间周期。在另一范例实例中,TS 160可以是与物件110有关的信息登录(entry)的建立时间。如图1b所示,与物件110相关联的所有属性(120、130及140)及子物件(150)也可具有与其相关联的时间戳记。
图2提供有机物件200的范例。如图2所示,附名餐馆210(例如,McDonalds)可为有机物件。餐馆210的子物件(图2中未绘示)例如包括在餐馆210中供应的不同类型的食物,例如汉堡、炸薯条等。有机物件餐馆210的自产生属性120包含许多信息,例如餐馆210的地址222、餐馆210所设定的价格221以及餐馆210的促销活动223(例如,免费赠品224及折扣225)。餐馆210的领域专用属性130包含餐馆210供应的菜肴类型231、餐馆210的停车空间232等。餐馆210的社会属性140包含餐馆210的使用者评论241以及关于诸如气氛242、服务243、价格244及食物口味245等主题的使用者意见。使用者意见可为负面的(例如,价格太贵)或正面的(例如,服务极佳)。如图2所示,属性可与时间戳记(TS)相关联,以指示其有效时间。
图3绘示用于从互联网撷取信息且使用有机物件模型来组织所述信息的信息撷取及管理系统300。信息撷取及管理系统300会收集由线上社群网络及其他群落提供的社群智能信息,通过应用有机物件数据模型来分类并存储所收集到的社群智能信息。信息撷取及管理系统300会接收请求搜寻某一信息(例如,对特定餐馆的餐馆评论)的使用者询问。信息撷取及管理系统300会通过撷取依据有机物件模型所撷取及组织的信息来回应使用者询问。
信息撷取及管理系统300包括断词及整合模块310、物件辨识模块320、物件关系建构模块(object relation construction module)330、主题分类及辨识模块340以及意见探勘及情感分析模块350。信息撷取及管理系统300可还包括训练数据库360、有机物件数据库380a及专用名词词典(lexicon dictionary)380b。训练数据库360存储数据记录,例如,NE(附名实体)、主题或主题样式、意见词以及意见样式。训练数据库360可为物件辨识模块320、主题分类及辨识模块340、意见探勘及情感分析模块350提供训练数据集合,以促进机器学习程序。训练数据库360可接收来自物件辨识模块320、主题分类及辨识模块340、意见探勘及情感分析模块350的训练数据,以促进机器学习程序。有机物件数据库380a可存储有机物件(例如,图2中的200)。专用名词词典380b存储所辨识的NE(有机物件)、主题(社会属性)、主题样式(社会属性)、意见(社会属性)、意见样式(社会属性)以及由信息撷取及管理系统300的一个或多个模块所分类的其他信息。
断词及整合模块310会从互联网中接收网页370。网页370可为自线上社群中所收集的任何含有社群智能数据的网页。断词及整合模块310更会对网页370中的内容进行断词,且识别每一句子中的专用名词的边界。举例而言,中文与英文之间的一个差异为中文句子中的专用名词不具有清楚的边界。因此,在处理来自网页370的任何中文语言内容之前,断词及整合模块310需先对句子中的专用名词进行断词。传统上,软件应用程序是通过含有各种语言样式/文法规则的外挂(plug-in)模块来进行文本(text)的断词。线性链式条件随机域(Conditional Random Field,CRF)演算法是用于对文本进行断词的改良演算法的其中之一中,其广泛用于中文词的断词。
CRF方法的其中一个缺点为其在处理快速改变的输入数据时效能不佳。然而,线上社群网络及群落提供的社群智能信息为快速变化的数据。因此,在本范例实施例中,断词及整合模块310是使用改良后的机器学习方法,其受益于其他模块(物件辨识模块320、主题分类及辨识模块340以及意见探勘模块350)的机器学习功能来实施改良后的机器学习及断词程序。以下图4至图13中进一步公开改良后的机器学习程序的范例。
在一范例实例中,训练数据库360是由物件辨识模块320、主题分类及辨识模块340及意见探勘模块350中的训练程序来更新,以改善训练数据的品质。来自训练数据库360的高品质训练数据可改善由断词及整合模块310所执行的断词的准确性。
图4绘示物件辨识模块320。物件辨识模块320用以识别NE,分类对所识别的NE,且将所分类的NE存储于专用名词词典380b中。专用名词词典380b含有多个附名实体专用名词,例如,食物NE、餐馆NE及地理位置NE。断词程序495及物件辨识(Object Recognition,NER)程序496分别地包含两个程序:学习程序及测试程序。在学习程序期间,信息撷取及管理系统300的模块(例如训练模块)会从训练数据库(例如,数据库360)中读取经标记的数据,并计算用于与机器学习有关的数学模型的参数。在学习程序期间,训练模块也可依据所计算出的参数以及与机器学习有关的数学模型来配置分类器。分类器是指依据输入数据的一个或多个属性将多组输入数据映射至多个类别的软件模块。举例而言,类别是指主题、意见或任何其他依据输入数据的一个或多个属性的分类。之后,信息撷取及管理系统300的模块(亦即,测试模块)会使用分类器来测试新的数据,此操作可称为测试程序。在测试程序期间,测试模块会将新读取的数据标记为不同NE,例如餐馆、食物类型或地理位置。训练数据库360含有领域专用训练文件,其可被标记以用于不同NE。
如图4所示,物件辨识模块320会自专用名词词典380b及训练数据库360中撷取数据。断词程序495包含自动断词器训练数据产生模块(auto segmenter training data producing module)450、以CRF为基础的断词器训练模块(CRF-based segmenter training module)460以及断词器测试模块(segmenter testing module)470。断词程序495可实现为断词及整合模块310的一部分,或者实现为物件辨识模块320的一部分。当信息撷取及管理系统300撷取网页370时,系统300会先执行断词程序495以对网页370的内容进行断词。系统300接着会在物件辨识模块320中执行附名物件辨识程序496,以识别内容中的NE。
接下来,物件辨识模块320会使用后处理分类器(post-processing classifier)490来对所辨识的NE进行分类。后处理分类器490会使用NE周围的句子的上下文来决定NE类别。举例而言,网页370可能包含讨论在不同地理位置的若干餐馆的评论。后处理分类器490会将所辨识的NE分类为至少三个实体类:食物、餐馆及地理位置。
如图4所示,断词程序495及物件辨识程序496均包含自动训练数据产生模块(450及452)。自动训练数据产生模块450与452会自智能NE过滤模块(intelligent NE filtering module)440中接收所辨识的NE,并且将接收到的NE存储于训练数据库360中。自动训练数据产生模块450与452也可存取存储于训练数据库360中的NE,并将所撷取的NE发送至训练模块460与485。断词程序495及物件辨识程序496均包含以CRF为基础的训练模块460及485。另外,以CRF为基础的训练模块460与485会使用以N字母组(N-gram)为基础的NE辨识训练。CRF是指常用于标记或剖析连续数据(例如,自然语言文本或生物序列)的一种区别机率模型。N字母组是指来自给定顺序的n个项目(例如字母、音节等)的子序列。
而且,断词程序495及物件辨识程序496均可使用来自于训练数据库360的训练数据,来训练断词器训练模块460及NE辨识训练模块485以更佳地识别NE。数据库360中的训练数据的品质(例如,以及训练数据集合的完整性与平衡(数据在类别间的平滑分布)会影响模块310及320(图3)的效能。训练数据的品质可通过由每一模块所达到的精确度(precision)与召回率(recall)值来量测。
在重复训练程序之后,以CRF为基础的断词或NE辨识可达成高度的精确度(precision)及完整性(recall)。断词模块470接着会对网页370中的内容进行断词,且将所断词的内容发送至NE辨识(NE recognition,NER)模块480。NE辨识模块480包括并行的辨识子模块。举例而言,每一辨识子模块可识别一个类的NE。如果NE包含三个类的NE(诸如食物、餐馆及地理位置),则NE辨识模块480可实现三个子模块来识别每一类的NE(食物名称、餐馆名称及地理位置)。NE辨识模块480接着会识别NE,且接着将NE发送至后处理分类器490。
如果来自于NE辨识模块480的输出是不明确的,则后处理分类器490会仲裁所述结果。举例而言,如果两个NE辨识子模块(例如,一个用于食物,一个用于餐馆)分别地将一个NE(例如,美式大馄饨)映射至有机物件数据模型中,则后处理分类器490会使用NE周围的句子上下文来决定其正确的类别(例如,「美式大馄饨」是指食物本身,或是由句子中的餐馆供应的一道菜)。后处理分类器490会将NE分类为多个类别(例如,食物名称、餐馆名称及地理位置),且将所识别的NE发送至智能NE过滤模块440。
如图4所示,智能NE过滤模块440会判定由NE辨识模块480识别的最佳品质物件,且发送欲存储于训练数据库360中的新识别的NE(物件)。智能NE过滤模块440也可将新识别的NE加入至专用名词词典380b。智能NE过滤模块440更会将所识别的NE发送至NE辨识模块480中。图5绘示由智能NE过滤模块440(包含其与系统300的其他组件的接口)的范例实施方案所执行的程序的方块图。
如图5所示,智能NE过滤模块440会使用N字母组合并演算法510来识别NE样式。NE样式是指NE在各种句子中的置放,包含其词长度(例如,词中的字元的数目)以及与邻近于其的其他词的相对位置。智能NE过滤模块440可通过检查与NE相关联的句子中的时间戳记及位置来判定各种NE样式的频率(term frequenc,TF)(520)。TF是指NE或NE样式在一特定时间周期内的出现频率。如图5所示,智能NE过滤模块440会判定每一NE样式在当前时间周期中(530)及所有时间历程中(540)的TF,以滤出过时的NE。接下来,依据所计算出的TF,智能NE过滤模块440可判定哪些NE样式是正确的(例如,高于临限值的TF),且发送所选择的NE样式以由后续程序作进一步检查(步骤550)。智能NE过滤模块440也可对欲监视的不明确NE样式(例如,低于临限值的TF)进行分组(560及575)。智能NE过滤模块440会接着在其识别出正确的NE样式时使用此监视结果(575及550)。
为了进一步分析正确的NE样式(570),智能NE过滤模块440会计算置信心值(580)、可信赖值(582),并检测NE样式的边界(584)。以下将配合图6及图7作进一步描述。智能NE过滤模块440会接着检查NE样式的信心值,且例如若信心值高于临限值时,则发送欲存储于专用名词词典3g0b中或欲加入至训练数据库360中的NE样式。智能NE过滤模块440会类似地检查NE样式的可信赖值(582),且将NE样式发送至自动NER训练数据产生模块452中,以存储为存于训练数据库360中的训练数据的一部分。智能NE过滤模块440亦会判定NE的边界,并计算NE边界(584)的信心值,且使用此边界以在句子中识别正确的NE(496)。智能NE过滤模块440接着会将所识别的NE发送至后处理分类器490,后处理分类器490又可对NE进行分类,并发送欲存储于专用名词词典380b中的NE。或者,智能NE过滤模块440也可将正确的NE直接发送存储至专用名词词典380b(586)。
图6绘示用于计算可信赖值及信心值的程序600的范例。如图6所示,智能NE过滤模块440会识别具有在2个字元与6个字元之间的样式长度的N字母组样式(610)。智能NE过滤模块440会根据NE样式的长度对所有NE样式进行排序,且接着还根据在文件中出现的频率来对结果清单进行排序(620)。智能NE过滤模块440也可依据NE样式的出现频率来计算NE样式信心值(见图6,660)。依据NE样式的信心值,智能NE过滤模块440会检查NE样式第一次出现的时间戳记,以及其在某一时间周期内的出现频率。举例而言,如果NE样式出现过期,则智能NE过滤模块会将过期的NE自训练数据库360删除,以改善训练数据的品质。
智能NE过滤模块440接着会检查某些NE样式是否可合并(640)。对于经合并的NE样式,智能NE过滤模块440会根据预合并NE的出现频率来判定可信赖值(640)。图7绘示NE样式可信赖值的计算范例,其反映NE辨识在某一时间周期内的可靠性。如图7所示,为了判定可信赖值,智能NE过滤模块440会先自NE提取字首码、字中间码及字尾码N字母组特征(710)。举例而言,中文NE 「意大利面」具有字首码「意大」、字中间码「大利」以及字尾码「利面」作为其双字母组特征。接下来,智能NE过滤模块440可判定所提取的特征是否属于特定领域(例如,餐饮)的特征组(720)。之后,智能NE过滤模块440会依据N字母组特征的长度及其出现频率来计算每一所提取的特征的权重(730)。接下来,智能NE过滤模块440会根据N字母组特征的权重来判定可信赖值(740)。另外,通过计算字首码、字中间码及字尾码的可信赖值,智能NE过滤模块440也可判定新NE的边界。如图7所示,如果特定NE样式的可信赖值较低,则通过人工数据处理人员(例如,数据录入员)来检视数据并校正N字母组特征或特征的出现频率(750)。
图8绘示主题分类及辨识模块340的范例方块图。主题分类及辨识模块340会分析从断词及整合模块310中接收的已断词的网页内容以识别线上社群所讨论的主题,用所识别的主题来标记每一句子及段落,并且将所识别并标记的主题发送至断词及整合模块310以进一步地分析。如图8所示,主题分类及辨识模块340会根据存储于有机物件数据库380a中的有机物件数据以及专用名词词典380b中的主题及意见而从训练数据库360中的句子提取主题样式(810)。接下来,主题分类及辨识模块340可通过移除通常与句子中所讨论的主题无关的停止词及其他常用词来减小所提取的主题样式长度(820)。接下来,主题分类及辨识模块340可通过人工标记以建立阶层式主题样式分组(步骤830)。举例而言,请参照图2,使用者检视241可为一宽泛主题,其包含更多特定主题:气氛242、服务243、价格244以及味道245。主题分类及辨识模块340可将气氛242、服务243、价格244以及味道245分组成四个主题样式群组。
接下来,主题分类及辨识模块340会计算两个主题之间的语意相似性(840)。图9绘示语意相似性计算的范例。如图9所示,主题i及j可由主题语意向量Vi及Vj表示,其中主题i与j之间的语意相似性可界定为:
相似性(Vi,Vj)=cos(Vi,Vj)=cosθ
假设dave为一组主题中的主题之间的平均相似性,则当主题分类及辨识模块340判定主题l与主题n之间的语意相似性dn大于dave时,其可确定主题n为新主题。在所公开的范例中,主题分类及辨识模块340在计算语意相似性(840)之前会对主题样式进行分组(830),以改善新主题检测的准确性。
请再参照图8,在计算语意相似性(840)之后,主题分类及辨识模块340会将主题样式、主题语意向量以及语意相似性存储于一个或多个表格中(860)。如图8所示,主题分类及辨识模块340会将所识别的主题样式加入至训练数据库360中,以用作为训练数据。
如图8所示,主题分类器模块870会匹配存储于主题样式表格861中的主题样式,并依据存储于主题语意向量表格862及语意相似性表格863中的数据来检查语意相似性,藉此来处理所断词的网页370(由断词及整合模块310断词)。之后,主题分类器模块870会对网页370的内容中的主题进行分类,并检测内容中的新主题。最后,主题分类及辨识模块340会标记并组成与网页370上的每一句子有关的主题,并依据段落中的句子的主题来判定每一段落的主题(880)。主题分类及辨识模块340会将句子主题及段落主题发送至断词及整合模块310中,以作进一步的处理。
图10绘示由主题分类及辨识模块340实现的用于收集及改善训练数据集合的品质的程序1000的范例。其他模块,例如物件辨识模块320及意见探勘模块350,可使用类似的程序来改善训练数据品质。如图10所示,信息撷取及管理系统300会以原始训练数据集合来开始(1010),例如从线上社群网络的网页收集的较大数目的句子及段落。举例而言,原始数据集合可包含50,000个句子。接下来,数据撷取及管理系统300会对来自原始数据集合的句子进行取样(例如,对每10个句子中的其中之一进行取样)(1020)。例如,人工数据处理人员(例如数据录入员)会通过标记5,000个样本句子中的主题来标记所取样的数据集合,并将所标记的数据存储于训练数据库360中(1030)。之后,数据撷取及管理系统300会验证并校正人工标记的数据集合(1040)。
图11绘示由主题分类及辨识模块340实现的验证及校正程序1040的范例。数据撷取及管理系统300会接收经人工标记的数据集合1110,其中于每一句子中标记出一个或多个主题。所标记的数据集合1110包括一个或多个经标记的句子。主题分类及辨识模块340接着会识别五组句子,例如,句子组1111至1115。每一句子数据集合(1111至1115)包括一个或多个句子。主题分类及辨识模块340接着会使用四组经标记的数据集合1111至1114作为训练数据集合1116,且使用第五数据集合1115作为测试数据集合1117。数据撷取及管理系统300会通过通过SVM(Support Vector Machine,SVM)训练器1120来处理1116中的四个句子数据集合以处理训练数据集合1116。SVM训练器1120可使用SVM模型1130。SVM模型1130可为作为空间中的点的数据样本的呈现,其系映射以使得单独类别的样本可由清楚的间隙来区分。接下来,主题分类及辨识模块340会使用根据训练数据集合1116所计算的SVM参数来配置SVM分类器1140。主题分类及辨识模块340会使用经配置的SVM分类器1140来预测第五数据集合1115中的句子是否关于一个或多个预定的主题。SVM分类器1140会产生预测的句子组1150,其包括数据集合1115中的句子以及针对数据集合1115中的句子所预测的主题。SVM分类器1140会标记针对所预测的组1150中的句子而预测的主题。所预测的组1150包括针对数据集合1115中的句子所预测的一个或多个主题的信心值评分。
如图11所示,主题分类及辨识模块340会使用验证器1160来将测试数据集合1117(其与数据集合1115相同)与所预测的数据集合1150进行比较,以判定经人工标记的第五数据集合1115是否为与所预测的数据集合中的主题相同的主题。验证器1160将1117中与1150预测答案不同的数据,按照SVM预测的信心值排序,产生一排序集合1170。接下来,人工数据处理人员会检视并校正经排序的信心值评分的序列中的不一致集合(1180)。亦即,人工数据处理人员会先检视并校正具有最高信心值评分的错误预测的数据点(例如,所预测的主题)。人工数据处理人员接着会将所校正的数据传回至经标记的数据样本文件。
图11中所描述的程序的范例可在经标记的数据集合1110的各种群组中重复。举例而言,主题分类及辨识模块340可将经标记的数据集合1111分为五个群组(例如,11111、11112、11113、11114及11115)。主题分类及辨识模块340可使用上述的程序(1120、1130、1149、1150、1160、1170及1180),通过使用数据集合11111、11112、11113及11114作为训练数据集合1116,且使用数据集合11115作为测试数据集合1117来交叉证实经标记的数据集合1111,以验证数据集合1111是否被正确地标记。
返回至图10,在验证并校正所标记的数据集合之后,主题分类及辨识模块340会通过检查交叉验证结果(例如,主题预测的校正百分比)以评定SVM预测在与人工标记的样本数据集合相比时的准确性来评估数据集合的品质(1050)。举例而言,主题分类及辨识模块340可为交叉验证校正百分比设定临限值。当经标记的数据集合与所预测的集合的交叉验证低于临限值时,则主题分类及辨识模块340会对更多输入数据进行取样(1020)以及重新处理经取样的数据(1030及1040)。如果交叉验证校正百分比达到给定临限值时,则主题分类及辨识模块340会将所标记的数据集合1060输出至训练数据库360。因此,通过上述程序来测试并改善训练数据的品质。
图12a绘示由意见探勘及情感分析模块350实现的意见探勘程序1210的范例。意见探勘及情感分析模块350可从断词及整合模块310(图3)中接收经断词的文件及句子主题,以供进一步处理。意见探勘及情感分析模块350包括以CRF为基础的意见词及样式探测器模块(CRF-based opinion words and patterns explorer module)1220。意见词及样式探测器模块1220会在以CRF为基础的演算法中使用存储于专用名词词典380b(图4)中的主题样式及NE,以在所断词的文件中识别意见词、意见样式及否定词/样式。意见词及样式探测器模块1220会将意见词、意见样式及否定词/样式存储于表格1222、1224及1226(其可为训练数据库360的一部分)中。在每一表格中,意见词及样式探测器模块1220更会将词/样式分类成:Vi(独立动词)、Vd(后面需要跟有意见词的动词)、Adj(后面需要跟有意见词的形容词)以及Adv(强调或降低强调一意见的)副词。表格1222、1224及1226也可存储由人工数据处理人员所标记的意见、意见样式/片语的倾向。
如图12a所示,意见探勘及情感分析模块350会根据存储于专用名词词典380b中的主题样式、意见词1222、意见样式/片语1224以及存储于数据库360中的否定词1226来识别以主题为基础且以意见为依据的句子。根据所识别的意见词、意见样式及否定词,意见探勘及情感分析模块350可使用意见探勘分类器(opinion mining classifier)1280来判定句子中的意见为正面抑或负面,并根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1260),意见探勘分类器1280包括机器学习分类器1240(例如,实现SVM或Bayes演算法的分类器)以及以文法及规则为基础的分类器1250。结合图11的讨论所描述的SVM分类器1140为机器分类器1240的其中一个范例。
以规则为基础的分类器1250会使用含有语言样式及文法规则(例如,存储于有机物件数据库380a及专用名词词典380b(图3)中的语言样式)之一个或多个外挂模块,以帮助判定意见的倾向。意见探勘分类器1280也可计算意见词或意见样式的信心值。对于具有较低信心值评分的意见或意见样式,可通过人工数据处理人员,来检视且可能地校正意见的倾向,且将所校正的意见词或样式加入至存储于表格1222、1224及1226中的训练数据集合中。
接下来,意见探勘及情感分析模块350会根据段落中的每一句子的决策评分(例如,一段落中的句子的平均评分)来计算所述段落的意见决策评分。图12b绘示由意见探勘及情感分析模块350实现的意见探勘测试程序的范例。测试网页370会通过断词及整合模块310发送至意见探勘分类器(1240及1250)。根据所识别的以主题为基础且以意见为依据的句子1230,意见探勘分类器1240及1250可判定句子中的意见为肯定抑或否定,且根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1310)。接下来,意见探勘及情感分析模块350会根据段落的每一句子中所识别的意见的决策评分来计算所述段落的意见决策评分(1320)。意见探勘及情感分析模块350会将与句子、段落相关联的意见以及与有机物件相关联的意见输出至断词及整合模块310,以供进一步处理。
请再参照图3,物件关系建构模块(object relationship construction module)330会建构两种类型的关系:母物件与子物件之间的关系,以及两个子物件之间的关系。在一范例中,物件关系建构模块330会使用网页的布局及内容来确定母物件与子物件之间的关系。物件关系建构模块330也可使用自然语言剖析器(Parser)来分析两个子物件之间的关系。
主题分类及辨识模块340(图8)以及意见探勘及情感分析模块350(图12a)可通过使用类似的软件架构来实现。图12c提供可用于实现主题分类及辨识模块340以及意见探勘及情感分析模块350的软件架构的范例。如图12c所示,主题分类及辨识模块340或意见探勘及情感分析模块350会根据存储于有机物件数据库380a及专用名词词典380b中的主题样式及意见词来提取主题或意见词。
根据所提取的意见词及意见样式,例如,意见探勘分类器1280可通过匹配存储于意见词表格1222或意见样式表格1224中的意见词及意见样式,并且根据存储于表格1226中的数据检查否定词或特殊文法规则,来处理所断词的网页(由断词及整合模块310断词)。表格1222、1224及1226可为训练数据库360的一部分。根据所识别的意见词、意见样式及否定词,意见探勘及情感分析模块350可使用包含机器学习分类器1240(例如,实施SVM或Bayes演算法的分类器)以及以文法及规则为基础的分类器1250的意见探勘分类器1280,来判定句子中的意见为肯定抑或否定,并根据Vi、Vd、Adj及Adv的强度来计算意见决策评分(1260)。以规则为基础的分类器1250可使用含有语言样式及文法规则(例如,存储于有机物件数据库380a及专用名词词典380b(图3)中的数据)的一个或多个外挂模块来帮助判定意见的倾向。意见探勘分类器1280也可计算意见词或意见样式的信心值。对于具有较低信心值评分的意见或意见样式,可通过人工数据处理人员来检视且可能地校正意见的倾向,并且可将所校正的意见词或样式加入至存储于表格1222、1224及1226中的训练数据集合。
根据所提取的主题,主题分类器870可通过匹配存储于主题样式表格861中的主题样式,并检查根据存储于主题语意向量表格862及语意相似性表格863中的数据来检查语意相似性,以处理所断词的网页(由断词及整合模块310断词)。表格861、862及863可为训练数据库360的一部分。接着,主题分类器模块870会对网页的内容中的主题进行分类,并检测内容中的新主题。最后,主题分类及辨识模块340会标记并组成与网页上的每一句子有关的主题,并根据段落中的句子的主题来判定每一段落的主题(880)。主题分类及辨识模块340会将句子主题及段落主题发送至断词及整合模块310,以供进一步处理。
在图3中,断词及整合模块310会接收并处理来自所有其他模块的输入数据,并将所撷取的有机物件数据存储于有机物件数据库380a中。图13绘示断词及整合模块310的范例。
如图13所示,断词及整合模块310会使用专用名词词典380b(存储NE、主题、意见样式等)作为以CRF为基础的断词器训练模块460及断词器470(见图4)的外挂程序,以改善断词的准确性。专用名词词典380b的外挂程序会向断词器470提供NE、主题、意见样式,以帮助断词器470辨识样式。如上所述,专用名词词典380b中的内容可由物件辨识模块320、主题分类及辨识模块340以及意见探勘模块350(经由模块接口1330)更新。如图13所示,此等模块也可经由模块接口1330将所断词的结果、所发现的物件、主题及意见1310发送至断词及整合模块310。整合模块1340会监视其他模块的工作状态(1342),并提供对其他模块的更新(1344)。整合模块1340还将经由模块接口1330自其他模块接收的数据(NE、主题、意见样式等)整合至有机物件数据模型100中,并将物件数据存储于专用名词词典380b中。
本领域技术人员将明了,可在用于自线上社群及群落撷取社群智能的系统及方法中作出各种修改及变化。举例而言,在考虑所公开的实施例之后,本领域技术人员将了解,可使用数据库的不同配置来存储用于有机物件数据模型的训练数据以及专用名词词典。另外,在考虑所公开的实施例之后,本领域技术人员将了解,可使用各种机器学习演算法来识别在有机物件数据模型中定义的NE、主题及意见。另外,在考虑所公开的实施例之后,本领域技术人员亦将了解,所公开的有机物件数据模型可应用于除线上社群智能之外的信息(例如,备用数据库或纸质出版物中的大量数据)。而且,在考虑所公开的实施例之后,本领域技术人员将进一步了解,可借助各种软件/硬件配置,通过使用各种计算机服务器、计算机存储介质以及软件应用程序来实施所公开的实施例。因此,虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域技术人员在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视所附权利要求书所界定者为准。
Claims (22)
1.一种用于撷取及管理线上收集的训练数据的方法,所述方法包括:
通过用以撷取及管理一社群智能信息的一计算机来接收来自一个或多个线上来源的一第一数据集合;
通过所述计算机对所述第一数据集合进行取样,且产生第二数据集合,其中所述第二数据集合包含自所述第一数据集合取样的一数据;
通过所述计算机接收具有预定义标签的一经标记第二数据集合;
通过所述计算机将所述经标记第二数据集合分为一训练数据集合及一测试数据集合;
通过所述计算机根据所述训练数据集合来配置一分类器;
通过所述分类器根据所述训练数据集合来预测至少一数据点,且计算与所预测的所述至少一数据点相关联的至少一信心值评分;
通过所述计算机将所预测的所述至少一数据点与所述测试数据集合进行比较;
通过所述计算机根据所预设的所述至少一数据点的所述信心值评分对其进行排序;以及
通过所述计算机接收与所预测的所述至少一数据点相关联的一经校正训练数据。
2.如权利要求1所述的方法,还包括:
通过所述计算机训练一软件模块,以根据所述训练数据集合来预测一类别。
3.如权利要求2所述的方法,还包括:
通过所述计算机在当根据所述训练数据集合预测所述类别时使用一SVM模型。
4.如权利要求3所述的方法,还包括:
通过所述计算机实现一SVM分类器以根据所述训练数据集合来预测所述类别。
5.如权利要求4所述的方法,还包括:
通过所述计算机重复所述接收第一数据集合、所述取样、所述划分、所述预测以及所述比较的步骤,以识别多个预测数据点。
6.如权利要求5所述的方法,还包括:
通过所述计算机根据所述预测数据点的信心值评分来排序所述预测数据点。
7.如权利要求4所述的方法,还包括:
通过所述计算机,根据所预测的所述至少一数据点与所述测试数据集合的交叉验证,来评估所述训练数据的品质。
8.一种用于撷取及管理线上收集的训练数据的方法,所述方法包括:
通过用以撷取及管理一社群智能信息的一计算机来接收来自一个或多个线上来源的一第一数据集合;
通过所述计算机对所述第一数据集合进行取样,且产生一第二数据集合,其中所述第二数据集合包含自所述第一数据集合取样的一数据;
通过所述计算机接收所述第二数据集合之一经标记版本;
通过所述计算机根据所述第二数据集合中的一个或多个其他数据点预测一第一数据点,且将所预测的所述第一数据点与其在所述第二数据集合的所述经标记版本中的对应数据点进行比较,藉此来交叉验证所述第二数据集合;
通过所述计算机计算与所预测的所述第一数据点相关联的一信心值评分;
通过所述计算机根据所预设的所述第一数据点的所述信心值评分排序所述第一数据点;
通过所述计算机接收与所预测的所述至少一数据点相关联的一经校正训练数据;
通过所述计算机评估所述经标记第二数据集合的一品质量度;以及
如果所述经标记第二数据集合的所述品质量度低于临限值,则通过所述计算机重复所述接收第一数据集合、所述取样、所述接收所述第二数据集合的经标记版本、所述交叉验证、所述计算、所述排序、所述接收所述经校正训练数据以及所述评估所述经标记第二数据集合的品质量度的步骤。
9.如权利要求8所述的方法,其中所述交叉证实还包括:
通过所述计算机将所述第二数据集合分为一训练数据集合及一测试数据集合;
通过所述计算机根据所述训练数据集合来预测所预设的所述第一数据点,且计算所述相关联的信心值评分;以及
通过所述计算机将所预测的所述第一数据点与所述测试数据集合进行比较。
10.如权利要求8所述的方法,还包括:
通过所述计算机在当交叉验证所述训练数据集合时使用一SVM模型。
11.如权利要求10所述的方法,还包括:
通过所述计算机实现一SVM分类器以交叉验证所述训练数据集合。
12.如权利要求11所述的方法,其中所述第二数据集合包含一个或多个类别,且所预测的所述第一数据点为一类别。
13.如权利要求12所述的方法,还包括:
通过所述计算机判定所预测的主题是否与所述第二数据集合中的主题中其中一个相同。
14.如权利要求13所述的方法,还包括:
通过所述计算机将所述经校正训练数据存储于可存取用以撷取及管理所述社群智能信息的所述计算机的模块的训练数据库中。
15.一种用于撷取及管理线上收集的训练数据的方法,所述方法包括:
通过用以撷取及管理一社群智能信息的一计算机来接收来自一个或多个线上来源的多个网页;
通过所述计算机接收所述网页的经标记内容,且将所述经标记内容存储于一训练数据库中;
通过所述计算机产生与在所述网页的所述内容中识别的附名实体相关联的训练数据,且将所述训练数据存储于所述训练数据库中;
通过所述计算机产生与在所述网页的所述内容中识别的主题或主题样式相关联的训练数据,且将所述训练数据存储于所述训练数据库中;
通过所述计算机产生与在所述网页的所述内容中识别的意见词或意见样式相关联的训练数据,且将所述训练数据存储于所述训练数据库中;以及
通过所述计算机,使用一以条件随机域CRF为基础的机器学习方法,根据存储于所述训练数据库中的所述训练数据,来对所述网页的所述内容进行断词。
16.如权利要求15所述的方法,还包括:
通过所述计算机根据N字母组合并演算法来识别所述附名实体。
17.如权利要求16所述的方法,还包括:
通过所述计算机判定一可信赖值,且根据所述可信赖值产生与所述附名实体相关联的所述训练数据。
18.如权利要求15所述的方法,还包括:
通过所述计算机根据两个主题之间的语意相似性的量度来识别所述主题及主题样式。
19.如权利要求15所述的方法,还包括:
通过所述计算机使用所述以CRF为基础的机器学习方法来识别所述意见词及意见样式。
20.一种用于撷取及管理线上收集的训练数据的系统,其由至少一计算机处理器实现,所述至少一计算机处理器执行存储于计算机存储介质上的程序,所述系统包括:
一断词及整合模块,用以自一个或多个线上来源接收一第一数据集合;
一主题分类及辨识模块,连接至所述断词及整合模块,所述主题分类及辨识模块用以对所述第一数据集合进行取样,且产生一第二数据集合,其中所述第二数据集合包含自所述第一数据集合取样的一数据;
所述主题分类及辨识模块更用以将所述第二数据集合分为一训练数据集合及一测试数据集合;
所述主题分类及辨识模块更用以根据所述训练数据集合来预测至少一数据点,且计算一信心值评分;
所述主题分类及辨识模块更用以将所预测的所述至少一数据点与所述测试数据集合进行比较;
所述主题分类及辨识模块更用以根据所预测的所述至少一数据点的所述信心值评分排序所述至少一数据点;以及
所述主题分类及辨识模块更用以接收与所预测的所述至少一数据点相关联的一经校正训练数据,且将所述经校正训练数据存储于一训练数据集合中。
21.如权利要求20所述的系统,其中所述主题分类及辨识模块更用以在根据所述训练数据集合预测主题时使用一SVM模型。
22.如权利要求21所述的系统,其中所述主题分类及辨识模块更用以实现一SVM分类器以根据所述训练数据集合来预测所述主题。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25549409P | 2009-10-28 | 2009-10-28 | |
US61/255,494 | 2009-10-28 | ||
US12/801,779 | 2010-06-24 | ||
US12/801,779 US20110099133A1 (en) | 2009-10-28 | 2010-06-24 | Systems and methods for capturing and managing collective social intelligence information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102054016A true CN102054016A (zh) | 2011-05-11 |
CN102054016B CN102054016B (zh) | 2016-01-20 |
Family
ID=43899230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010527089.9A Active CN102054016B (zh) | 2009-10-28 | 2010-10-25 | 用于撷取及管理社群智能信息的系统及方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US20110099133A1 (zh) |
CN (1) | CN102054016B (zh) |
TW (2) | TWI438637B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN111177802A (zh) * | 2018-11-09 | 2020-05-19 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
TWI713870B (zh) * | 2017-07-31 | 2020-12-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於分割文本的系統和方法 |
US11295328B2 (en) | 2020-05-01 | 2022-04-05 | Accenture Global Solutions Limited | Intelligent prospect assessment |
US11386352B2 (en) | 2018-10-29 | 2022-07-12 | Acer Cyber Security Incorporated | System and method of training behavior labeling model |
Families Citing this family (252)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NZ569107A (en) | 2005-11-16 | 2011-09-30 | Evri Inc | Extending keyword searching to syntactically and semantically annotated data |
US10878646B2 (en) | 2005-12-08 | 2020-12-29 | Smartdrive Systems, Inc. | Vehicle event recorder systems |
US20070150138A1 (en) | 2005-12-08 | 2007-06-28 | James Plante | Memory management in event recording systems |
US9201842B2 (en) | 2006-03-16 | 2015-12-01 | Smartdrive Systems, Inc. | Vehicle event recorder systems and networks having integrated cellular wireless communications systems |
US8996240B2 (en) | 2006-03-16 | 2015-03-31 | Smartdrive Systems, Inc. | Vehicle event recorders with integrated web server |
US8269617B2 (en) | 2009-01-26 | 2012-09-18 | Drivecam, Inc. | Method and system for tuning the effect of vehicle characteristics on risk prediction |
US8849501B2 (en) | 2009-01-26 | 2014-09-30 | Lytx, Inc. | Driver risk assessment system and method employing selectively automatic event scoring |
US8508353B2 (en) * | 2009-01-26 | 2013-08-13 | Drivecam, Inc. | Driver risk assessment system and method having calibrating automatic event scoring |
US8649933B2 (en) | 2006-11-07 | 2014-02-11 | Smartdrive Systems Inc. | Power management systems for automotive video event recorders |
US8989959B2 (en) | 2006-11-07 | 2015-03-24 | Smartdrive Systems, Inc. | Vehicle operator performance history recording, scoring and reporting systems |
US8868288B2 (en) | 2006-11-09 | 2014-10-21 | Smartdrive Systems, Inc. | Vehicle exception event management systems |
US7962495B2 (en) | 2006-11-20 | 2011-06-14 | Palantir Technologies, Inc. | Creating data in a data store using a dynamic ontology |
US8515912B2 (en) | 2010-07-15 | 2013-08-20 | Palantir Technologies, Inc. | Sharing and deconflicting data changes in a multimaster database system |
US8688749B1 (en) | 2011-03-31 | 2014-04-01 | Palantir Technologies, Inc. | Cross-ontology multi-master replication |
US8930331B2 (en) | 2007-02-21 | 2015-01-06 | Palantir Technologies | Providing unique views of data based on changes or rules |
US8239092B2 (en) | 2007-05-08 | 2012-08-07 | Smartdrive Systems Inc. | Distributed vehicle event recorder systems having a portable memory data transfer system |
US8275681B2 (en) | 2007-06-12 | 2012-09-25 | Media Forum, Inc. | Desktop extension for readily-sharable and accessible media playlist and media |
EP2212772A4 (en) | 2007-10-17 | 2017-04-05 | VCVC lll LLC | Nlp-based content recommender |
US8554719B2 (en) | 2007-10-18 | 2013-10-08 | Palantir Technologies, Inc. | Resolving database entity information |
US10747952B2 (en) | 2008-09-15 | 2020-08-18 | Palantir Technologies, Inc. | Automatic creation and server push of multiple distinct drafts |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
MX2011006094A (es) | 2008-12-08 | 2011-11-29 | Gilead Connecticut Inc | Inhibidores de imidazopirazina syk. |
PT2373169E (pt) | 2008-12-08 | 2015-10-05 | Gilead Connecticut Inc | Inibidores de imidazopirazina da syk |
US8854199B2 (en) | 2009-01-26 | 2014-10-07 | Lytx, Inc. | Driver risk assessment system and method employing automated driver log |
US9104695B1 (en) | 2009-07-27 | 2015-08-11 | Palantir Technologies, Inc. | Geotagging structured data |
CN102598038B (zh) * | 2009-10-30 | 2015-02-18 | 乐天株式会社 | 特有内容数据判定装置、特有内容数据判定方法、内容数据生成装置以及关联内容数据插入装置 |
US9201863B2 (en) * | 2009-12-24 | 2015-12-01 | Woodwire, Inc. | Sentiment analysis from social media content |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US8838633B2 (en) * | 2010-08-11 | 2014-09-16 | Vcvc Iii Llc | NLP-based sentiment analysis |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
GB201101875D0 (en) * | 2011-02-03 | 2011-03-23 | Roke Manor Research | A method and apparatus for communications analysis |
US9672555B1 (en) | 2011-03-18 | 2017-06-06 | Amazon Technologies, Inc. | Extracting quotes from customer reviews |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
US20130073480A1 (en) * | 2011-03-22 | 2013-03-21 | Lionel Alberti | Real time cross correlation of intensity and sentiment from social media messages |
US9965470B1 (en) | 2011-04-29 | 2018-05-08 | Amazon Technologies, Inc. | Extracting quotes from customer reviews of collections of items |
US20120296735A1 (en) * | 2011-05-20 | 2012-11-22 | Yahoo! Inc. | Unified metric in advertising campaign performance evaluation |
US8700480B1 (en) | 2011-06-20 | 2014-04-15 | Amazon Technologies, Inc. | Extracting quotes from customer reviews regarding collections of items |
US8799240B2 (en) | 2011-06-23 | 2014-08-05 | Palantir Technologies, Inc. | System and method for investigating large amounts of data |
US9547693B1 (en) | 2011-06-23 | 2017-01-17 | Palantir Technologies Inc. | Periodic database search manager for multiple data sources |
US10311113B2 (en) * | 2011-07-11 | 2019-06-04 | Lexxe Pty Ltd. | System and method of sentiment data use |
US8473498B2 (en) | 2011-08-02 | 2013-06-25 | Tom H. C. Anderson | Natural language text analytics |
US8862577B2 (en) * | 2011-08-15 | 2014-10-14 | Hewlett-Packard Development Company, L.P. | Visualizing sentiment results with visual indicators representing user sentiment and level of uncertainty |
US8732574B2 (en) | 2011-08-25 | 2014-05-20 | Palantir Technologies, Inc. | System and method for parameterizing documents for automatic workflow generation |
US9275041B2 (en) * | 2011-10-24 | 2016-03-01 | Hewlett Packard Enterprise Development Lp | Performing sentiment analysis on microblogging data, including identifying a new opinion term therein |
CN103092857A (zh) * | 2011-11-01 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 历史记录的整理方法和装置 |
US11587172B1 (en) | 2011-11-14 | 2023-02-21 | Economic Alchemy Inc. | Methods and systems to quantify and index sentiment risk in financial markets and risk management contracts thereon |
US20130159219A1 (en) * | 2011-12-14 | 2013-06-20 | Microsoft Corporation | Predicting the Likelihood of Digital Communication Responses |
US8782004B2 (en) | 2012-01-23 | 2014-07-15 | Palantir Technologies, Inc. | Cross-ACL multi-master replication |
US8856130B2 (en) * | 2012-02-09 | 2014-10-07 | Kenshoo Ltd. | System, a method and a computer program product for performance assessment |
US20130227429A1 (en) * | 2012-02-27 | 2013-08-29 | Kulangara Sivadas | Method and tool for data collection, processing, search and display |
CN104137107A (zh) * | 2012-03-06 | 2014-11-05 | 福斯分析有限公司 | 用于为化学计量分析形成预测模型的方法、软件和图形用户界面 |
CN103425648B (zh) * | 2012-05-15 | 2016-04-13 | 腾讯科技(深圳)有限公司 | 关系圈的处理方法和系统 |
US9728228B2 (en) | 2012-08-10 | 2017-08-08 | Smartdrive Systems, Inc. | Vehicle event playback apparatus and methods |
US9798768B2 (en) | 2012-09-10 | 2017-10-24 | Palantir Technologies, Inc. | Search around visual queries |
US20140074620A1 (en) * | 2012-09-12 | 2014-03-13 | Andrew G. Bosworth | Advertisement selection based on user selected affiliation with brands in a social networking system |
US9348677B2 (en) | 2012-10-22 | 2016-05-24 | Palantir Technologies Inc. | System and method for batch evaluation programs |
US9081975B2 (en) | 2012-10-22 | 2015-07-14 | Palantir Technologies, Inc. | Sharing information between nexuses that use different classification schemes for information access control |
US9501761B2 (en) | 2012-11-05 | 2016-11-22 | Palantir Technologies, Inc. | System and method for sharing investigation results |
US8983828B2 (en) * | 2012-11-06 | 2015-03-17 | Palo Alto Research Center Incorporated | System and method for extracting and reusing metadata to analyze message content |
US9134215B1 (en) | 2012-11-09 | 2015-09-15 | Jive Software, Inc. | Sentiment analysis of content items |
KR20140078312A (ko) * | 2012-12-17 | 2014-06-25 | 한국전자통신연구원 | 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법 |
FR3000251B1 (fr) * | 2012-12-20 | 2015-02-06 | Vincent Susplugas | Procede de structuration de donnees se presentant sous forme alphanumerique |
US9501507B1 (en) | 2012-12-27 | 2016-11-22 | Palantir Technologies Inc. | Geo-temporal indexing and searching |
US10140664B2 (en) * | 2013-03-14 | 2018-11-27 | Palantir Technologies Inc. | Resolving similar entities from a transaction database |
US8924388B2 (en) | 2013-03-15 | 2014-12-30 | Palantir Technologies Inc. | Computer-implemented systems and methods for comparing and associating objects |
US8909656B2 (en) | 2013-03-15 | 2014-12-09 | Palantir Technologies Inc. | Filter chains with associated multipath views for exploring large data sets |
US10275778B1 (en) | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
US8903717B2 (en) | 2013-03-15 | 2014-12-02 | Palantir Technologies Inc. | Method and system for generating a parser and parsing complex data |
US8868486B2 (en) | 2013-03-15 | 2014-10-21 | Palantir Technologies Inc. | Time-sensitive cube |
US9477777B2 (en) * | 2013-03-15 | 2016-10-25 | Rakuten, Inc. | Method for analyzing and categorizing semi-structured data |
US8799799B1 (en) | 2013-05-07 | 2014-08-05 | Palantir Technologies Inc. | Interactive geospatial map |
US9405822B2 (en) * | 2013-06-06 | 2016-08-02 | Sheer Data, LLC | Queries of a topic-based-source-specific search system |
TWI575391B (zh) | 2013-06-18 | 2017-03-21 | 財團法人資訊工業策進會 | 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體 |
US8886601B1 (en) | 2013-06-20 | 2014-11-11 | Palantir Technologies, Inc. | System and method for incrementally replicating investigative analysis data |
US8601326B1 (en) | 2013-07-05 | 2013-12-03 | Palantir Technologies, Inc. | Data quality monitors |
US9565152B2 (en) | 2013-08-08 | 2017-02-07 | Palantir Technologies Inc. | Cable reader labeling |
US9785317B2 (en) | 2013-09-24 | 2017-10-10 | Palantir Technologies Inc. | Presentation and analysis of user interaction data |
US8938686B1 (en) | 2013-10-03 | 2015-01-20 | Palantir Technologies Inc. | Systems and methods for analyzing performance of an entity |
US8812960B1 (en) | 2013-10-07 | 2014-08-19 | Palantir Technologies Inc. | Cohort-based presentation of user interaction data |
US9501878B2 (en) | 2013-10-16 | 2016-11-22 | Smartdrive Systems, Inc. | Vehicle event playback apparatus and methods |
US9116975B2 (en) | 2013-10-18 | 2015-08-25 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
US9610955B2 (en) | 2013-11-11 | 2017-04-04 | Smartdrive Systems, Inc. | Vehicle fuel consumption monitor and feedback systems |
US9105000B1 (en) | 2013-12-10 | 2015-08-11 | Palantir Technologies Inc. | Aggregating data from a plurality of data sources |
US9734217B2 (en) | 2013-12-16 | 2017-08-15 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10579647B1 (en) | 2013-12-16 | 2020-03-03 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10356032B2 (en) | 2013-12-26 | 2019-07-16 | Palantir Technologies Inc. | System and method for detecting confidential information emails |
US8832832B1 (en) | 2014-01-03 | 2014-09-09 | Palantir Technologies Inc. | IP reputation |
US8892310B1 (en) | 2014-02-21 | 2014-11-18 | Smartdrive Systems, Inc. | System and method to detect execution of driving maneuvers |
US8935201B1 (en) | 2014-03-18 | 2015-01-13 | Palantir Technologies Inc. | Determining and extracting changed data from a data source |
US9836580B2 (en) | 2014-03-21 | 2017-12-05 | Palantir Technologies Inc. | Provider portal |
US10013470B2 (en) * | 2014-06-19 | 2018-07-03 | International Business Machines Corporation | Automatic detection of claims with respect to a topic |
US11113471B2 (en) * | 2014-06-19 | 2021-09-07 | International Business Machines Corporation | Automatic detection of claims with respect to a topic |
JP6211722B2 (ja) | 2014-06-26 | 2017-10-11 | グーグル インコーポレイテッド | 最適化されたブラウザレンダリング処理 |
CN105446977B (zh) * | 2014-06-26 | 2019-03-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
WO2015196410A1 (en) | 2014-06-26 | 2015-12-30 | Google Inc. | Optimized browser render process |
EP3161668B1 (en) | 2014-06-26 | 2020-08-05 | Google LLC | Batch-optimized render and fetch architecture |
US9129219B1 (en) | 2014-06-30 | 2015-09-08 | Palantir Technologies, Inc. | Crime risk forecasting |
US9619557B2 (en) | 2014-06-30 | 2017-04-11 | Palantir Technologies, Inc. | Systems and methods for key phrase characterization of documents |
US9535974B1 (en) | 2014-06-30 | 2017-01-03 | Palantir Technologies Inc. | Systems and methods for identifying key phrase clusters within documents |
US9256664B2 (en) | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US20160026923A1 (en) | 2014-07-22 | 2016-01-28 | Palantir Technologies Inc. | System and method for determining a propensity of entity to take a specified action |
US9454281B2 (en) | 2014-09-03 | 2016-09-27 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US9390086B2 (en) | 2014-09-11 | 2016-07-12 | Palantir Technologies Inc. | Classification system with methodology for efficient verification |
US9501851B2 (en) | 2014-10-03 | 2016-11-22 | Palantir Technologies Inc. | Time-series analysis system |
US9767172B2 (en) | 2014-10-03 | 2017-09-19 | Palantir Technologies Inc. | Data aggregation and analysis system |
US9785328B2 (en) | 2014-10-06 | 2017-10-10 | Palantir Technologies Inc. | Presentation of multivariate data on a graphical user interface of a computing system |
US9984133B2 (en) | 2014-10-16 | 2018-05-29 | Palantir Technologies Inc. | Schematic and database linking system |
US9663127B2 (en) | 2014-10-28 | 2017-05-30 | Smartdrive Systems, Inc. | Rail vehicle event detection and recording system |
US9229952B1 (en) | 2014-11-05 | 2016-01-05 | Palantir Technologies, Inc. | History preserving data pipeline system and method |
US9043894B1 (en) | 2014-11-06 | 2015-05-26 | Palantir Technologies Inc. | Malicious software detection in a computing system |
US11069257B2 (en) | 2014-11-13 | 2021-07-20 | Smartdrive Systems, Inc. | System and method for detecting a vehicle event and generating review criteria |
EP3032441A2 (en) | 2014-12-08 | 2016-06-15 | Palantir Technologies, Inc. | Distributed acoustic sensing data analysis system |
US9965458B2 (en) * | 2014-12-09 | 2018-05-08 | Sansa AI Inc. | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding |
US9483546B2 (en) | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US10552994B2 (en) | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
US9348920B1 (en) | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US10362133B1 (en) | 2014-12-22 | 2019-07-23 | Palantir Technologies Inc. | Communication data processing architecture |
US10452651B1 (en) | 2014-12-23 | 2019-10-22 | Palantir Technologies Inc. | Searching charts |
US9817563B1 (en) | 2014-12-29 | 2017-11-14 | Palantir Technologies Inc. | System and method of generating data points from one or more data stores of data items for chart creation and manipulation |
US9335911B1 (en) | 2014-12-29 | 2016-05-10 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US11302426B1 (en) | 2015-01-02 | 2022-04-12 | Palantir Technologies Inc. | Unified data interface and system |
US10803106B1 (en) | 2015-02-24 | 2020-10-13 | Palantir Technologies Inc. | System with methodology for dynamic modular ontology |
US9727560B2 (en) | 2015-02-25 | 2017-08-08 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US9891808B2 (en) | 2015-03-16 | 2018-02-13 | Palantir Technologies Inc. | Interactive user interfaces for location-based data analysis |
US9886467B2 (en) | 2015-03-19 | 2018-02-06 | Plantir Technologies Inc. | System and method for comparing and visualizing data entities and data entity series |
US9679420B2 (en) | 2015-04-01 | 2017-06-13 | Smartdrive Systems, Inc. | Vehicle event recording system and method |
US9348880B1 (en) | 2015-04-01 | 2016-05-24 | Palantir Technologies, Inc. | Federated search of multiple sources with conflict resolution |
US9722957B2 (en) * | 2015-05-04 | 2017-08-01 | Conduent Business Services, Llc | Method and system for assisting contact center agents in composing electronic mail replies |
US10103953B1 (en) | 2015-05-12 | 2018-10-16 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10628834B1 (en) | 2015-06-16 | 2020-04-21 | Palantir Technologies Inc. | Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces |
US9418337B1 (en) | 2015-07-21 | 2016-08-16 | Palantir Technologies Inc. | Systems and models for data analytics |
US9392008B1 (en) | 2015-07-23 | 2016-07-12 | Palantir Technologies Inc. | Systems and methods for identifying information related to payment card breaches |
US9996595B2 (en) | 2015-08-03 | 2018-06-12 | Palantir Technologies, Inc. | Providing full data provenance visualization for versioned datasets |
US9456000B1 (en) | 2015-08-06 | 2016-09-27 | Palantir Technologies Inc. | Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications |
KR101755227B1 (ko) * | 2015-08-10 | 2017-07-06 | 숭실대학교산학협력단 | 제품 유형 분류 장치 및 방법 |
US9600146B2 (en) | 2015-08-17 | 2017-03-21 | Palantir Technologies Inc. | Interactive geospatial map |
US10127289B2 (en) | 2015-08-19 | 2018-11-13 | Palantir Technologies Inc. | Systems and methods for automatic clustering and canonical designation of related data in various data structures |
US9671776B1 (en) | 2015-08-20 | 2017-06-06 | Palantir Technologies Inc. | Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account |
CN105095498A (zh) * | 2015-08-24 | 2015-11-25 | 北京旷视科技有限公司 | 信息处理方法和信息处理装置 |
US11150917B2 (en) | 2015-08-26 | 2021-10-19 | Palantir Technologies Inc. | System for data aggregation and analysis of data from a plurality of data sources |
US9485265B1 (en) | 2015-08-28 | 2016-11-01 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US11497988B2 (en) * | 2015-08-31 | 2022-11-15 | Omniscience Corporation | Event categorization and key prospect identification from storylines |
US10706434B1 (en) | 2015-09-01 | 2020-07-07 | Palantir Technologies Inc. | Methods and systems for determining location information |
US9984428B2 (en) | 2015-09-04 | 2018-05-29 | Palantir Technologies Inc. | Systems and methods for structuring data from unstructured electronic data files |
US9639580B1 (en) | 2015-09-04 | 2017-05-02 | Palantir Technologies, Inc. | Computer-implemented systems and methods for data management and visualization |
US9576015B1 (en) | 2015-09-09 | 2017-02-21 | Palantir Technologies, Inc. | Domain-specific language for dataset transformations |
US10410136B2 (en) | 2015-09-16 | 2019-09-10 | Microsoft Technology Licensing, Llc | Model-based classification of content items |
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
US9424669B1 (en) | 2015-10-21 | 2016-08-23 | Palantir Technologies Inc. | Generating graphical representations of event participation flow |
US10223429B2 (en) | 2015-12-01 | 2019-03-05 | Palantir Technologies Inc. | Entity data attribution using disparate data sets |
US10706056B1 (en) | 2015-12-02 | 2020-07-07 | Palantir Technologies Inc. | Audit log report generator |
US9760556B1 (en) | 2015-12-11 | 2017-09-12 | Palantir Technologies Inc. | Systems and methods for annotating and linking electronic documents |
US9514414B1 (en) | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
US10114884B1 (en) | 2015-12-16 | 2018-10-30 | Palantir Technologies Inc. | Systems and methods for attribute analysis of one or more databases |
US9542446B1 (en) | 2015-12-17 | 2017-01-10 | Palantir Technologies, Inc. | Automatic generation of composite datasets based on hierarchical fields |
US10373099B1 (en) | 2015-12-18 | 2019-08-06 | Palantir Technologies Inc. | Misalignment detection system for efficiently processing database-stored data and automatically generating misalignment information for display in interactive user interfaces |
US10089289B2 (en) | 2015-12-29 | 2018-10-02 | Palantir Technologies Inc. | Real-time document annotation |
US9996236B1 (en) | 2015-12-29 | 2018-06-12 | Palantir Technologies Inc. | Simplified frontend processing and visualization of large datasets |
US10871878B1 (en) | 2015-12-29 | 2020-12-22 | Palantir Technologies Inc. | System log analysis and object user interaction correlation system |
US9792020B1 (en) | 2015-12-30 | 2017-10-17 | Palantir Technologies Inc. | Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data |
US11816701B2 (en) | 2016-02-10 | 2023-11-14 | Adobe Inc. | Techniques for targeting a user based on a psychographic profile |
US10248722B2 (en) | 2016-02-22 | 2019-04-02 | Palantir Technologies Inc. | Multi-language support for dynamic ontology |
US10878433B2 (en) * | 2016-03-15 | 2020-12-29 | Adobe Inc. | Techniques for generating a psychographic profile |
US10867216B2 (en) | 2016-03-15 | 2020-12-15 | Canon Kabushiki Kaisha | Devices, systems, and methods for detecting unknown objects |
US10698938B2 (en) | 2016-03-18 | 2020-06-30 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US9652139B1 (en) | 2016-04-06 | 2017-05-16 | Palantir Technologies Inc. | Graphical representation of an output |
KR101687169B1 (ko) * | 2016-04-06 | 2016-12-16 | 한전원자력연료 주식회사 | 반복 교차검증을 이용한 상관식 공차한계 설정시스템 및 그 방법 |
US10068199B1 (en) | 2016-05-13 | 2018-09-04 | Palantir Technologies Inc. | System to catalogue tracking data |
TWI582627B (zh) * | 2016-05-13 | 2017-05-11 | 國立雲林科技大學 | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 |
US10007674B2 (en) | 2016-06-13 | 2018-06-26 | Palantir Technologies Inc. | Data revision control in large-scale data analytic systems |
US10545975B1 (en) | 2016-06-22 | 2020-01-28 | Palantir Technologies Inc. | Visual analysis of data using sequenced dataset reduction |
US10909130B1 (en) | 2016-07-01 | 2021-02-02 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10719188B2 (en) | 2016-07-21 | 2020-07-21 | Palantir Technologies Inc. | Cached database and synchronization system for providing dynamic linked panels in user interface |
US10324609B2 (en) | 2016-07-21 | 2019-06-18 | Palantir Technologies Inc. | System for providing dynamic linked panels in user interface |
US11106692B1 (en) | 2016-08-04 | 2021-08-31 | Palantir Technologies Inc. | Data record resolution and correlation system |
US10552002B1 (en) | 2016-09-27 | 2020-02-04 | Palantir Technologies Inc. | User interface based variable machine modeling |
US10133588B1 (en) | 2016-10-20 | 2018-11-20 | Palantir Technologies Inc. | Transforming instructions for collaborative updates |
US10726507B1 (en) | 2016-11-11 | 2020-07-28 | Palantir Technologies Inc. | Graphical representation of a complex task |
US10318630B1 (en) | 2016-11-21 | 2019-06-11 | Palantir Technologies Inc. | Analysis of large bodies of textual data |
US9842338B1 (en) | 2016-11-21 | 2017-12-12 | Palantir Technologies Inc. | System to identify vulnerable card readers |
US11250425B1 (en) | 2016-11-30 | 2022-02-15 | Palantir Technologies Inc. | Generating a statistic using electronic transaction data |
GB201621434D0 (en) | 2016-12-16 | 2017-02-01 | Palantir Technologies Inc | Processing sensor logs |
US9886525B1 (en) | 2016-12-16 | 2018-02-06 | Palantir Technologies Inc. | Data item aggregate probability analysis system |
US10044836B2 (en) | 2016-12-19 | 2018-08-07 | Palantir Technologies Inc. | Conducting investigations under limited connectivity |
US10249033B1 (en) | 2016-12-20 | 2019-04-02 | Palantir Technologies Inc. | User interface for managing defects |
US10728262B1 (en) | 2016-12-21 | 2020-07-28 | Palantir Technologies Inc. | Context-aware network-based malicious activity warning systems |
US11373752B2 (en) | 2016-12-22 | 2022-06-28 | Palantir Technologies Inc. | Detection of misuse of a benefit system |
US10360238B1 (en) | 2016-12-22 | 2019-07-23 | Palantir Technologies Inc. | Database systems and user interfaces for interactive data association, analysis, and presentation |
CN106777236B (zh) * | 2016-12-27 | 2020-11-03 | 北京百度网讯科技有限公司 | 基于深度问答的查询结果的展现方法和装置 |
US10721262B2 (en) | 2016-12-28 | 2020-07-21 | Palantir Technologies Inc. | Resource-centric network cyber attack warning system |
US10216811B1 (en) | 2017-01-05 | 2019-02-26 | Palantir Technologies Inc. | Collaborating using different object models |
US10762471B1 (en) | 2017-01-09 | 2020-09-01 | Palantir Technologies Inc. | Automating management of integrated workflows based on disparate subsidiary data sources |
US10133621B1 (en) | 2017-01-18 | 2018-11-20 | Palantir Technologies Inc. | Data analysis system to facilitate investigative process |
US10509844B1 (en) | 2017-01-19 | 2019-12-17 | Palantir Technologies Inc. | Network graph parser |
US10515109B2 (en) | 2017-02-15 | 2019-12-24 | Palantir Technologies Inc. | Real-time auditing of industrial equipment condition |
US10866936B1 (en) | 2017-03-29 | 2020-12-15 | Palantir Technologies Inc. | Model object management and storage system |
US10581954B2 (en) | 2017-03-29 | 2020-03-03 | Palantir Technologies Inc. | Metric collection and aggregation for distributed software services |
US10599771B2 (en) | 2017-04-10 | 2020-03-24 | International Business Machines Corporation | Negation scope analysis for negation detection |
US10133783B2 (en) | 2017-04-11 | 2018-11-20 | Palantir Technologies Inc. | Systems and methods for constraint driven database searching |
US11074277B1 (en) | 2017-05-01 | 2021-07-27 | Palantir Technologies Inc. | Secure resolution of canonical entities |
US10563990B1 (en) | 2017-05-09 | 2020-02-18 | Palantir Technologies Inc. | Event-based route planning |
US10606872B1 (en) | 2017-05-22 | 2020-03-31 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10795749B1 (en) | 2017-05-31 | 2020-10-06 | Palantir Technologies Inc. | Systems and methods for providing fault analysis user interface |
US10956406B2 (en) | 2017-06-12 | 2021-03-23 | Palantir Technologies Inc. | Propagated deletion of database records and derived data |
US11216762B1 (en) | 2017-07-13 | 2022-01-04 | Palantir Technologies Inc. | Automated risk visualization using customer-centric data analysis |
US10942947B2 (en) | 2017-07-17 | 2021-03-09 | Palantir Technologies Inc. | Systems and methods for determining relationships between datasets |
US10430444B1 (en) | 2017-07-24 | 2019-10-01 | Palantir Technologies Inc. | Interactive geospatial map and geospatial visualization systems |
JP6594500B2 (ja) * | 2017-09-18 | 2019-10-23 | タタ コンサルタンシー サービシズ リミテッド | 推論データマイニングのための方法およびシステム |
US10956508B2 (en) | 2017-11-10 | 2021-03-23 | Palantir Technologies Inc. | Systems and methods for creating and managing a data integration workspace containing automatically updated data models |
US10235533B1 (en) | 2017-12-01 | 2019-03-19 | Palantir Technologies Inc. | Multi-user access controls in electronic simultaneously editable document editor |
US11281726B2 (en) | 2017-12-01 | 2022-03-22 | Palantir Technologies Inc. | System and methods for faster processor comparisons of visual graph features |
US10769171B1 (en) | 2017-12-07 | 2020-09-08 | Palantir Technologies Inc. | Relationship analysis and mapping for interrelated multi-layered datasets |
US11314721B1 (en) | 2017-12-07 | 2022-04-26 | Palantir Technologies Inc. | User-interactive defect analysis for root cause |
US10877984B1 (en) | 2017-12-07 | 2020-12-29 | Palantir Technologies Inc. | Systems and methods for filtering and visualizing large scale datasets |
US10783162B1 (en) | 2017-12-07 | 2020-09-22 | Palantir Technologies Inc. | Workflow assistant |
US11061874B1 (en) | 2017-12-14 | 2021-07-13 | Palantir Technologies Inc. | Systems and methods for resolving entity data across various data structures |
US10838987B1 (en) | 2017-12-20 | 2020-11-17 | Palantir Technologies Inc. | Adaptive and transparent entity screening |
US10853352B1 (en) | 2017-12-21 | 2020-12-01 | Palantir Technologies Inc. | Structured data collection, presentation, validation and workflow management |
US11263382B1 (en) | 2017-12-22 | 2022-03-01 | Palantir Technologies Inc. | Data normalization and irregularity detection system |
WO2019140384A2 (en) * | 2018-01-12 | 2019-07-18 | Gamalon, Inc. | Probabilistic modeling system and method |
GB201800595D0 (en) | 2018-01-15 | 2018-02-28 | Palantir Technologies Inc | Management of software bugs in a data processing system |
CN108399194A (zh) * | 2018-01-29 | 2018-08-14 | 中国科学院信息工程研究所 | 一种网络威胁情报生成方法及系统 |
CN111712841A (zh) * | 2018-02-27 | 2020-09-25 | 国立大学法人九州工业大学 | 标签收集装置、标签收集方法以及标签收集程序 |
JP6969443B2 (ja) * | 2018-02-27 | 2021-11-24 | 日本電信電話株式会社 | 学習品質推定装置、方法、及びプログラム |
US11599369B1 (en) | 2018-03-08 | 2023-03-07 | Palantir Technologies Inc. | Graphical user interface configuration system |
US10877654B1 (en) | 2018-04-03 | 2020-12-29 | Palantir Technologies Inc. | Graphical user interfaces for optimizations |
US10754822B1 (en) | 2018-04-18 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for ontology migration |
US10832001B2 (en) * | 2018-04-26 | 2020-11-10 | Google Llc | Machine learning to identify opinions in documents |
US10885021B1 (en) | 2018-05-02 | 2021-01-05 | Palantir Technologies Inc. | Interactive interpreter and graphical user interface |
US10754946B1 (en) | 2018-05-08 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for implementing a machine learning approach to modeling entity behavior |
US11061542B1 (en) | 2018-06-01 | 2021-07-13 | Palantir Technologies Inc. | Systems and methods for determining and displaying optimal associations of data items |
US10795909B1 (en) | 2018-06-14 | 2020-10-06 | Palantir Technologies Inc. | Minimized and collapsed resource dependency path |
US11119630B1 (en) | 2018-06-19 | 2021-09-14 | Palantir Technologies Inc. | Artificial intelligence assisted evaluations and user interface for same |
WO2020031243A1 (ja) * | 2018-08-06 | 2020-02-13 | 株式会社島津製作所 | 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置 |
US11126638B1 (en) | 2018-09-13 | 2021-09-21 | Palantir Technologies Inc. | Data visualization and parsing system |
US10872236B1 (en) | 2018-09-28 | 2020-12-22 | Amazon Technologies, Inc. | Layout-agnostic clustering-based classification of document keys and values |
US11294928B1 (en) | 2018-10-12 | 2022-04-05 | Palantir Technologies Inc. | System architecture for relating and linking data objects |
US11257006B1 (en) | 2018-11-20 | 2022-02-22 | Amazon Technologies, Inc. | Auto-annotation techniques for text localization |
US10949661B2 (en) * | 2018-11-21 | 2021-03-16 | Amazon Technologies, Inc. | Layout-agnostic complex document processing system |
US11216892B1 (en) * | 2018-12-06 | 2022-01-04 | Meta Platforms, Inc. | Classifying and upgrading a content item to a life event item |
CN109614538A (zh) * | 2018-12-17 | 2019-04-12 | 广东工业大学 | 一种农产品价格数据的提取方法、装置及设备 |
CA3127484A1 (en) | 2019-01-25 | 2020-07-30 | Otonexus Medical Technologies, Inc. | Machine learning for otitis media diagnosis |
US11170017B2 (en) | 2019-02-22 | 2021-11-09 | Robert Michael DESSAU | Method of facilitating queries of a topic-based-source-specific search system using entity mention filters and search tools |
KR20210131372A (ko) | 2019-02-22 | 2021-11-02 | 크로노스 바이오, 인코포레이티드 | Syk 억제제로서의 축합된 피라진의 고체 형태 |
US11558339B2 (en) | 2019-05-21 | 2023-01-17 | International Business Machines Corporation | Stepwise relationship cadence management |
US11593673B2 (en) * | 2019-10-07 | 2023-02-28 | Servicenow Canada Inc. | Systems and methods for identifying influential training data points |
EP3812974A1 (en) * | 2019-10-25 | 2021-04-28 | Onfido Ltd | Machine learning inference system |
MX2022014708A (es) * | 2020-06-18 | 2022-12-16 | Home Depot Int Inc | Clasificacion del sentimiento del usuario basada en el aprendizaje automatico. |
CN111523314B (zh) * | 2020-07-03 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
CN113379169B (zh) * | 2021-08-12 | 2021-11-23 | 北京中科闻歌科技股份有限公司 | 信息处理方法、装置、设备及介质 |
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
CN117137450B (zh) * | 2023-08-30 | 2024-05-10 | 哈尔滨海鸿基业科技发展有限公司 | 一种基于皮瓣血运评估的皮瓣移植术成像方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261629A (zh) * | 2008-04-21 | 2008-09-10 | 上海大学 | 基于自动分类技术的特定信息搜索方法 |
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
TWI331309B (en) * | 2006-12-01 | 2010-10-01 | Ind Tech Res Inst | Method and system for executing correlative services |
TW200828139A (en) * | 2006-12-18 | 2008-07-01 | Webgenie Information Ltd | Method for generating generic title |
TWI427492B (zh) * | 2007-01-15 | 2014-02-21 | Hon Hai Prec Ind Co Ltd | 資訊搜尋系統及方法 |
TW200928798A (en) * | 2007-12-31 | 2009-07-01 | Aletheia University | Method for analyzing technology document |
-
2010
- 2010-06-24 US US12/801,779 patent/US20110099133A1/en not_active Abandoned
- 2010-06-24 US US12/801,777 patent/US20110112995A1/en not_active Abandoned
- 2010-09-03 TW TW099129892A patent/TWI438637B/zh active
- 2010-09-15 TW TW099131226A patent/TWI424325B/zh active
- 2010-10-25 CN CN201010527089.9A patent/CN102054016B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
CN101261629A (zh) * | 2008-04-21 | 2008-09-10 | 上海大学 | 基于自动分类技术的特定信息搜索方法 |
Non-Patent Citations (1)
Title |
---|
KEKE CAI等: "Leveraging Sentiment Analysisi for Topic Detction", 《WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY, 2008. WI-IAT "08. IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON》, 31 December 2008 (2008-12-31), pages 265 - 271 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI713870B (zh) * | 2017-07-31 | 2020-12-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於分割文本的系統和方法 |
US11386352B2 (en) | 2018-10-29 | 2022-07-12 | Acer Cyber Security Incorporated | System and method of training behavior labeling model |
CN111177802A (zh) * | 2018-11-09 | 2020-05-19 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
CN111177802B (zh) * | 2018-11-09 | 2022-09-13 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN109919014B (zh) * | 2019-01-28 | 2023-11-03 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
US11295328B2 (en) | 2020-05-01 | 2022-04-05 | Accenture Global Solutions Limited | Intelligent prospect assessment |
Also Published As
Publication number | Publication date |
---|---|
TW201115371A (en) | 2011-05-01 |
TWI424325B (zh) | 2014-01-21 |
CN102054016B (zh) | 2016-01-20 |
US20110112995A1 (en) | 2011-05-12 |
TW201115370A (en) | 2011-05-01 |
US20110099133A1 (en) | 2011-04-28 |
TWI438637B (zh) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
Deng et al. | Adapting sentiment lexicons to domain-specific social media texts | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
JP5711674B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US20130073514A1 (en) | Flexible and scalable structured web data extraction | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
KR20180112718A (ko) | 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
Carey et al. | HTML web content extraction using paragraph tags | |
KR101473239B1 (ko) | 단어 패턴을 이용한 카테고리 및 감성 분석시스템 | |
CN108536664A (zh) | 商品领域的知识融合方法 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
KR101532252B1 (ko) | 소셜 네트워크 정보 수집 및 분석 시스템 | |
Wagner | Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996--2021 | |
Wang et al. | Constructing a comprehensive events database from the web | |
CN112132368A (zh) | 信息处理方法以及装置、计算设备、存储介质 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
CN115062158A (zh) | 敏感信息知识图谱构建方法、装置及敏感信息确定方法 | |
CN111581950B (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
St Chifu et al. | Web harvesting and sentiment analysis of consumer feedback | |
Hazan et al. | Home pages identification and information extraction in researcher profiling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |