CN103026356A - 语义内容搜索 - Google Patents
语义内容搜索 Download PDFInfo
- Publication number
- CN103026356A CN103026356A CN2011800298195A CN201180029819A CN103026356A CN 103026356 A CN103026356 A CN 103026356A CN 2011800298195 A CN2011800298195 A CN 2011800298195A CN 201180029819 A CN201180029819 A CN 201180029819A CN 103026356 A CN103026356 A CN 103026356A
- Authority
- CN
- China
- Prior art keywords
- document
- semantic content
- database
- sorter
- potential target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了提供文档检索的一个或多个技术和/或系统,其中用户可以标识所需潜在目标文档的关键属性(例如,具有对用户而言的特定语义内容)。此外,可检索包括该所需语义内容的相关文档。另外,用户可以提供对检索到的文档的反馈,例如基于文档中找到的关键语义概念,并且输入可被用来更新分类。例如,这一过程可重复进行以提高通过机器学习技术来找到的文档的检索和准确度。
Description
背景技术
企业环境中的文档检索是非常重要的问题,尤其是在希望及时地找到关键信息的情况下。例如,在医疗环境中,找到医生当前正在从事的一个案例的相关备选案例(如找出模式和/或特定治疗方案)可能是有用的。作为示例,医生可能对找出既是吸烟者又对阿司匹林过敏的先前病人感兴趣。通常,文档搜索涉及关键词搜索,其中可在文档中找到的相关词语被输入到搜索引擎,并且检索包括该关键词的那些文档。文档检索可以在企业数据库(如医院)、分布式数据库以及在线资源(如因特网)上执行。
发明内容
提供本“发明内容”是为了以简化的形式介绍将在以下“具体实施方式”中进一步描述的一些概念。实施方式。本“发明内容”并非旨在标识所要求保护的主题的的关键因素或者必要特征,也并非旨在用于限定所要求保护的主题的范围。
当前,诸如通过关键词这样的自由文本搜索经常会导致太少或太多的结果。作为示例,当使用基于因特网的搜索引擎来执行关键词搜索时可能会返回数百万结果。审阅关键词搜索的返回结果可能是耗时的并经常令人沮丧,因为返回的文档中经常缺少相关信息。例如,用户可能正找寻带有特定涵义的单词或短语的文档,但是搜索引擎可能返回了包含相同但具有不同意义的关键词的不相关文档。作为另一示例,英文单词和短语通常使用具有完全不同意义的相同单词(如“bass”的意思可以是鱼、乐器,或者鞋)。然而,用户希望从大型数据库中快速检索关键信息。
因此,本文公开了提供文档检索的一个或多个技术和/或系统,其中用户可标识所需潜在目标文档的关键属性(比如具有对用户而言的特定语义内容)。此外,可检索包含所需语义内容的相关文档。另外,用户可提供对检索到的文档的反馈,例如基于在该文档中发现的关键语义概念,并且可使用输入来更新分类。例如,该过程可重复进行以提高通过机器学习技术所发现文档的检索和准确度。
在一个通过语义内容进行文档搜索的实施方式中,接收最终用户对来自包括潜在目标文档的数据库的初始文档的所需第一部分的选择,其中初始文档包含描述该初始文档的各组成的属性的元数据标签,并且所选择的第一部分包含具有用户所需语义内容的初始文档组成。该初始文档连同所选择的第一部分穿过(run through)一个或多个已训练的分类器,以从数据库中标识具有包含与第一部分(如,由用户选择)相同语义内容的第二部分的第一潜在目标文档。
在该实施方式中,若第二部分不具有与第一部分相同的语义内容,则接收最终用户对第一潜在目标文档的第三部分选择,其中该第三部分包含与第一部分相同的语义内容。此外,第一潜在目标文档连同所选择的第三部分穿过一个或多个已训练的分类器,以从数据库中标识第二潜在目标文档,其中第二潜在目标文档带有具有与第三部分相同的语义内容的第四部分。
为实现上述及相关的目的,以下描述和附图阐述了某些的说明性方面和实现。这些仅指示可采用一个或多个方面的各种方式中的少数几种。结合附图阅读以下“具体实施方式”则本发明的其他方面、优点以及新颖特征将变得显而易见。
附图说明
图1是提供用于通过语义内容进行文档搜索的示例性方法的流程图。
图2是示出通过语义内容进行文档搜索的方法的实现的示例性实施方式的流程图。
图3是可用于在视觉上标识分类器准确率的示例图表的图示。
图4是用于通过语义内容进行搜索的示例性系统的组件图。
图5是示出其中可实现本文所述的一个或多个系统和/或技术的示例性实施方式的组件图。
图6是包含被配置成具体化本文所阐明的原理中的一个或多个的处理器可执行指令的示例性计算机可读介质的图示。
图7示出了其中可实现本文所阐明的原理中的一个或多个的示例性计算环境。
具体实施方式
现在参考附图来描述所要求保护的主题,所有附图中使用相同的附图标记来指代相同的元素。在以下说明中,为解释起见,阐明了众多具体细节以提供对所要求保护的主题的全面理解。然而,显而易见的是,所要求保护的主题可以在没有这些具体细节的情况下实施。在其它情况下,以框图形式示出了各种结构和设备以便于描述所要求保护的主题。
图1是提供通过语义内容进行文档搜索的示例性方法100的流程图。示例性方法100始于102并在104涉及接收最终用户对来自包含潜在目标文档的数据库中的初始文档的所需第一部分的选择。在此,初始文档包含描述初始文档的各组成(如单词)的属性的元标签,而且所选第一部分包含初始文档的具有所需语义内容的组成。
例如,可解析文档以确定该文档的语法结构。即,文档可包含诸如单词这样的词例(token)序列,而且该一个或多个序列可被词例化成各单独的组成,并且这些组成被根据其语法结构(如诸如名词和动词这样的单词类型)加了标签。此外,某些类型的解析可允许确定各相应组成(如医学术语、工程术语等等)的特定上下文。在一个实施方式中,数据库中的文档可能先前已经根据用户所需用途进行了解析,而且各相应组成(如单词、文本块等等)被用例如可描述其类型甚至是上下文的元数据标签来加了标签。
此外,在一个实施方式中,用户可选择文档的包含所需语义内容的部分。即,例如用户可选择放射学报告的标识三周内的推荐追踪的部分。在该示例中,在三周内让病人返回进行追踪访问的推荐包含语义内容,因为其在周围词语和放射学报告的上下文中有特定的意义。例如,追踪推荐能以几种不同的方法来撰写,但词语所蕴含的意义却是十分特定的。作为另一示例,医生报告的诊断部分可包括诸如“本诊断是……”,“我认为病人有……”,“检查结果指出……”或者多种其他变型等这样的词语。然而,同样的是,诊断的意义是十分特定的。
在一个实施方式中,诸如医生或者希望标识数据库中的具有特定语义内容的多个文档的某其他最终用户之类的最终用户可选择初始文档。例如,最终用户可被赋予这样的任务:标识企业数据库中的其中标识了涉及不良反应时间的抱怨的客户报告文档。在该示例中,不良反应时间包括可用多种不同方法撰写的语义含义。在过去,可呼叫IT职业人员来设置搜索,训练分类器,运行测试,复位并调整系统以标识所需文档。在该实施方式中,诸如行政管理助理、客户服务代表或者其他的最终用户例如可选择所需语义内容来标识所需文档。
在106处,将具有所选第一部分的初始文档穿过一个或多个已训练的分类器,以从数据库中标识第一潜在目标文档。在该实施方式中,第一潜在目标文档具有第二部分,该第二部分具有与最终用户选择的第一部分相同语义内容。例如,一个或多个分类器可被训练成使用多种技术来标识文档中的单词,这样的技术诸如隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机域(CRF)、统计语言模型,等等。
在此,例如,一个或多个分类器可尝试从数据库中标识具有最终用户在初始文档中标识的相同语义内容的目标文档。此外,在该示例中,该一个或多个分类器可尝试突出显示目标文档的包含与最终用户突出显示的部分(第一部分)相同的语义内容的部分(第二部分)。这样,该一个或多个分类器被用来找寻具有最终用户所需内容的文档,该文档例如可能使用或不使用相同的单词但是具有相同的意义。
在示例性方法100的108处,若第二部分不具有与第一部分相同的语义内容,则在110处接收最终用户对第一潜在目标文档的第三部分的选择,其中该第三部分包含与第一部分相同的语义内容。例如,由一个或多个分类器突出显示的目标文档部分可能不具有与最终用户从初始文档中所选择部分相同的所需语义内容。即,分类器可能错误地分类了语义内容,并从不匹配最终用户所需内容的所检索到的目标文档中选择了内容。
作为示例,当一个或多个分类器返回错误分类的内容时,用户可审阅目标文档并选择对应于其所需语义内容(如与初始文档中的第一部分相同)的内容(第三部分)。在112处,可将具有所选第三部分的第一潜在目标文档穿过一个或多个已训练的分类器,以从数据库中标识第二潜在目标文档。在此,第二潜在目标文档包含具有与第三部分相同语义内容的第四部分。
作为示例,在确定一个或多个分类器没有标识正确的内容后,最终用户审阅由该一个或多个分类器返回的第一文档,他们突出显示正确的内容并使其重新穿过该一个或多个分类器。随后,该一个或多个分类器可从数据库中返回带有具有最终用户所需语义内容的突出显示部分的另一文档。在一个实施方式中,可迭代108处的步骤,例如,直到所需语义内容被一个或多个分类器从数据库中的目标文档中检索到。这样,在该示例中,该一个或多个分类器还可被训练来标识最终用户的所需语义内容。
在标识了具有所需语义内容的目标文档后,示例性方法100在114结束。
图2是示出通过语义内容进行文档搜索的方法的实现的示例性实施方式200的流程图。该示例性实施方式200始于202而且在204处涉及执行文档集合的关键词搜索。例如,文档集合可包括企业数据库、分布式数据库集合、或者来自因特网的文档。在该实施方式中,例如可执行包含可在包含最终用户所需语义内容的文档中发现的单词的关键词搜索。
作为示例,医院管理者可能希望标识医生已经推荐进行追踪访问的病人,如标识是否进行了追踪访问、以及/或者追踪访问的结果是什么。在该实施方式中,医院存储的文档可能会达到上百万份,而且在这样大小的文档集中仅执行语义内容搜索也可能是繁重的。因此,管理者可进行该集合的关键词搜索,如使用词语“追踪”、“复查”、“返回”,以及具有相似意义的某些其他词语。该关键词搜索的结果可用于填充包含潜在目标文档250的目标数据库,该文档可用语义内容来进行搜索。
在206处,在示例性实施方式200中,最终用户可在初始文档252中选择所需文本(如包含所需语义内容)。作为示例,医院管理者可标识包含医生推荐“病人在一个月之内返回进行检查”的文档。在该示例中,管理者可选择医生报告的这部分作为包含其语义内容搜索的所需语义内容。在208处,将具有所选文本的初始文档穿过分类器254。
在一个实施方式中,将文档穿过分类器254包含指示分类器在目标文档数据库250中的文档中寻找所选类型的文本。可并行使用多个已训练的分类器254来从数据库中检索潜在目标文档256。在一个实施方式中,最终用户标识多个分类器中的哪个具有检索潜在目标文档256以寻找所需语义内容的所需准确率。在该实施方式中,例如所标识的分类器可用来从数据库中检索目标文档以寻找所需语义内容,这样就能更快的执行检索,而且错误也会更少。
在另一个实施方式中,第二分类器可用来交叉确认由第一分类器检索到的潜在目标文档。此外,可标识两个或更多个分类器的组合,这样的组合具有检索潜在目标文档以寻找所需语义内容的所需准确率。在该实施方式中,所标识的分类器组合然后可用于从数据库中检索文档以寻找所需语义内容。
图3是可用于在视觉上标识分类器准确率的示例图表300的图示。例如,诸如示例300这样的图表可在最终用户训练分类器来检索包含其所需内容的文档时向最终用户显示,这样最终用户就可以看到分类器表现得如何。在实施方式300中,准确率由垂线310表示,且分类器沿水平线312表示。在该示例中,使用了四个分类器302-308来标识目标文档。
基于分类器是否正确地标识了内容和/或文档,可确定各相应分类器的准确率310。在该示例中,看得出分类器C2 304具有最高的准确率。因此,用户可确定仅利用C2 304来执行目标文档检索以寻找特定语义内容。作为示例,不同的语义内容和/或不同类型的文档可产生不同的分类器准确度结果。因此,在一个示例中,分类器C2 304对不同的内容和/或文档可能不产生相同的准确率。
返回到图2,从数据库250中检索潜在目标文档256。例如,在210处,确定潜在目标文档是否满足选择准则,以便文档包含对应于由最终用户选择的所需语义内容的所选内容。若在潜在目标文档256中知道的第二部分具有与由最终用户在初始文档中选择的第一部分相同的语义内容,则最终用户可指示分类器已经正确地标识了目标文档中的所需语义内容,并且在212处,可用该信息更新分类器254。
即,在一个实施方式中,来自由一个或多个分类器返回的潜在目标文档的用户输入可用来更新一个或多个分类器。这样,例如,分类器被训练来标识包含所需语义内容的适当文档。此外,在使用检索正确的指示更新了分类器后,可再次对数据库运行该一个或多个分类器,以选择第三潜在目标文档256。可对数据库迭代这一过程以检索多个适当的目标文档。
然而,在210处,若检索到的目标文档256没有标识具有与最终用户选择的内容相同的语义含义的内容,则在214处,用户可选择所返回文档中的包含所需语义内容的部分。例如,最终用户可能已经在初始文档中选择了社会安全号(SSN),旨在供分类器从数据库250中的文档中检索SSN。然而,在将初始文档穿过分类器之后,潜在目标文档256标识出电话号码。在该示例中,最终用户然后指出分类器(如它们中的一个或多个)不正确地标识了语义内容,然后突出显示正确信息,即文档中的SSN。
在208处,经校正的文档可被再次穿过分类器254,以检索第二潜在目标文档256。在一个实施方式中,由分类器254标识的潜在目标文档256的部分(第二部分)可能不具有与第一部分相同的语义内容,而且该潜在目标文档可能不包含与初始文档的用户选择的部分(第一部分)的语义内容相同的内容。即,返回的文档可能不具有供用户选择来重新穿过分类器的匹配内容。
在供实施方式中,最终用户可指出第一潜在目标文档不包含具有与第一部分的语义内容相同的内容,而且在212处,可用该信息更新分类器。此外,然后可对数据库250运行该一个或多个分类器以选择另一潜在目标文档256(第三潜在文档)。作为示例,在210处,若该文档满足选择准则,则可再次更新分类器以便于训练它们以标识适当的语义内容。
在一个实施方式中,最终用户可提供输入给分类器训练以用于更新分类器(如使它们更加准确)。例如,对各个文档,最终用户可指出一个或多个分类器从数据库中检索到的文档包含所需语义内容。此外,最终用户可指出一个或多个分类器从数据库中检索到的文档不包含所需语义内容。另外,最终用户可提供一个或多个分类器从数据库中检索到的文档的所选部分,其中所选部分包含所需语义内容。
在该实施方式200中,例如当检索目标文档时,可对分类器设定阈值。在该实施方式中,可将多个文档穿过一个或多个分类器,直到达到所需阈值,这可在216处确定。所需阈值可包含不同的准则,这可由最终用户选择,或者自动地设定(如默认)。
在一个实施方式中,可将多个文档穿过一个或多个分类器,直到对于所需语义内容而言达到所需文档选择精度。例如,在信息很关键的情况下用户可能希望文档检索是百分之百准确的;或者在准确度不是那么重要时用户可对百分之九十的准确度满意。
此外,在另一实施方式中,可将多个文档穿过一个或多个分类器,直到在没有检索不正确的文档的情况下检索到了所需数量的正确文档。例如,用户可能在文档检索返回一百个正确文档而没有任何错误时满意,然后可使检索器在无监督下运行。在又一实施方式中,可将多个文档穿过一个或多个分类器,直到从数据库中检索到所需数量的文档。例如,最终用户可能仅需要一千个文档来用于其所需目的,并可运行文档检索直到达到该数量。
在216处,若不满足所需阈值,则在218处对数据库250运行分类器254以选择另一潜在目标文档256。此外,所选择的并且满足选择准则的各个潜在目标文档被存储在目标文档数据库258中。在216处,若满足阈值,则示例性实施方式200在220结束。
一方面,该一个或多个分类器可以是计算数据库中潜在目标文档包含所需语义内容的概率的决策引擎。在一个实施方式中,可向分类器提供(如由最终用户或默认)确定是否应呈现文档以供最终用户输入的分类阈值。即,例如,在分类器呈现文档的情况下,仅当分类器不确信分类结果时,半监督类型的训练才可能发生。
作为示例,在SVM中,关于文档的决策(如,“是”,文档包含语义内容,或“否”,文档不包含语义内容)可被绘制成矩阵以确定其落入决策矩阵的哪一边。在该示例中,可能在矩阵的“是”和“否”部分之间存在空白,在这里SVM关于决策是不确定的。在该实施方式中,例如,该空白可能包含阈值,其中分类器将文档呈现给最终用户,以供输入文档是否包含所需语义内容。即,所需阈值可包含对分类器模型的不确定性阈值,并且所怀疑的文档仅当分类器模型的计算落入该阈值内时才被呈现给用户。
例如,可设计出用于找到包含特定语义内容的文档的系统。图4是用于通过语义内容进行搜索的示例性系统400的组件图。存储器组件402存储包含多个潜在目标文档的数据库450。处理器组件404可操作上与存储器组件402相耦合,并用于执行一个或多个分类器410的指令。在一个实施方式中,存储器组件402和处理器组件404可被布置在同一个计算设备上。在其他实施方式中,这些组件可分开布置,和/或可与示例性系统400中的其他组件一起驻留在同一个计算设备上。
最终用户输入接收组件406的接收最终用户452对文档的输入,如从数据库450中检索的文档、和/或例如可用于作为数据库的种子(seed)的初始文档。由最终用户452提供的输入可包含最终用户从数据库450中选择的第一文档的所需部分,其中所选部分包含初始文档的具有所需语义内容的文档组成。例如,最终用户452可以通过选择初始文档的具有用户452所需语义内容的部分(如文档中的文本文字)来提供该初始文档作为数据库450的种子。
此外,由最终用户452提供的输入可包含从数据库450中检索到的第二文档包含与第一文档的所选择的所需部分相同的语义内容的最终用户指示。例如,最终用户可将带有所选择的所需语义内容的初始文档穿过一个或多个分类器410以检索第二文档。在该示例中,用户452可审阅第二文档以确定其确实具有与在初始文档中选择的相同语义内容。用户然后例如可通过输入指示检索到的文档是正确的。
另外,由最终用户452提供的输入可包含从数据库中检索到的第二文档不包含与第一文档的所选择的所需部分相同的语义内容的最终用户指示。例如,最终用户可将带有所选择的所需语义内容的初始文档穿过一个或多个分类器410以检索第二文档。在该示例中,用户452可审阅第二文档以确定其不具有与在初始文档中选择的相同语义内容(例如,或者由分类器选择的内容是不正确的)。用户然后例如可通过输入指示检索到的文档是不正确的。
一个或多个分类器组件410可在操作上与处理器组件404和存储器组件402相耦合。该一个或多个分类器组件410被用于从数据库中标识第二文档,其中第二文档包含具有与第一文档中的所选择的所需部分相同语义内容的目标部分。例如,最终用户可通过将初始文档穿过一个或多个分类器组件410来作为数据库450的种子,这样分类器组件410可被训练来从数据库450中仅检索包含所需语义内容的那些目标文档。
分类更新组件408可在操作上与最终用户输入接收组件406相耦合,并用于使用最终用户输入更新一个或多个分类器组件410以标识所需语义内容。例如,诸如上述这样的用户输入被用来训练一个或多个分类器组件,这样它们在标识数据库450中的包含所需语义内容的目标文档时可表现得更准确。
图5是示出其中可实现本文描述的一个或多个系统和/或技术的一个实施方式500的组件图。数据库填充组件520被用于使用文档集合560的关键词搜索来用潜在目标文档填充数据库450。例如,使用数据库填充组件520,包含数百万潜在目标文档的文档集合可通过关键词搜索减少到几千个。
文档呈现组件522将来自数据库450中的文档呈现给最终用户452以用于标识所需语义内容。例如,可使用已训练的分类器从数据库450中检索潜在目标文档,并且文档呈现组件522可将其呈现给最终用户452以确定其是否满足所需语义内容选择准则。在一个实施方式中,文档呈现组件522可利用基于计算机的显示器,如监视器,而且最终用户452可仅审阅显示器上的内容。
数据库索引组件524可用来对数据库450中包含所需语义内容的文档加标签。例如,当分类器组件检索目标文档并且确定其包含所需语义内容时,数据库索引组件524可将元数据附加在该文档上以指示其具有所需语义内容。此外,在一个实施方式中,数据库索引组件524可将元数据附加在目标文档的包含所需语义内容的部分。例如,该内容的标识可促进最终用户的信息收集。
在一个实施方式中,数据库可包括包含所需语义内容(如最终用户正在搜索的内容)的一个或多个样本文档(如种子文档)。在该实施方式中,该一个或多个样本文档可用来训练一个或多个分类器410以标识具有与所需语义内容相同的语义内容的潜在目标文档。在另一实施方式中,文档的所需部分可以是文本,其中文档组成由单词构成(如基于文本的文字文档)。作为示例,文字可包含数字、符号或者合并成串的其他基于文本的元素。
又一实施方式涉及包括被配置成实现本文所呈现的技术中的一个或多个的处理器可执行指令的计算机可读介质。能以这些方法设计的一种示例性计算机可读介质在图6中示出,其中实现600包括其上编码有计算机可读数据606的计算机可读介质608(如CD-R、DVD-R、或者硬盘驱动器盘片)。这一计算机可读数据606又包括被配置成根据本文阐明的原理中的一个或多个来操作的计算机指令集604。在一个这样的实施方式602中,处理器可执行指令604可被配置成执行一种方法,诸如例如图1中的示例性方法200。在另一个这样的实施方式中,处理器可执行指令604可被配置成实现一种系统,诸如例如图4中的示例性系统400。本领域普通技术人员可设计出可被配置成根据本文所描述的技术操作的许多这样的计算机可读介质。
尽管已经用结构特征和/或方法动作专用的语言描述了本主题,但是可以理解,所附加权利要求书中所定义的主题不必局限于上述具体特征或动作。上述具体特征和动作是作为实现权利要求书的示例形式而公开的。
如在本申请中所使用的,术语“组件”、“模块”、“系统”、“接口”等通常旨在表示计算机相关实体,其可以是硬件、硬件和软件的组合、软件或者执行中的软件。例如,组件可以是,但不局限于,在处理上运行的进程、处理器、对象、可执行码、执行的线程、程序、和/或计算机。作为说明,在控制器上运行的应用程序和控制器都可以是组件。一个或多个组件可驻留在进程和/或执行的线程中,而且组件可位于一台计算机中和/或分布在两台或多台计算机之间。
此外,所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。本文使用的术语“制品”旨在涵盖可以从任何计算机可读设备、载体或介质访问的计算机程序。当然,本领域技术人员会认识到,在不背离所要求保护的主题的范围或精神的前提下可对本配置做出许多修改。
图7和以下的讨论提供了对用于实现本文阐述的原理中的一个或多个的实施方式的合适计算环境的简要概括描述。图7的操作环境仅是合适操作环境的一个示例,并不旨在对该操作环境的使用范围或功能提出任何限制。示例计算环境包括,但不局限于,个人计算机、服务器计算机、手持式或膝上型设备、移动设备(如移动电话、个人数字助理(PDA)、媒体播放器,等等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境,等等。
尽管并非所需,但是在由一个或多个计算设备执行的“计算机可读指令”的通用上下文中描述了各实施方式。计算机可读指令可通过计算机可读介质来分发(以下讨论)。计算机可读指令可被实现为执行特定任务或实现特定抽象数据类型的程序模块,函数、对象、应用程序编程接口(API)、数据结构,等等。通常,计算机可读指令的功能可按需在各个环境中进行组合或分布。
图7示出了包含被配置成实现本文提供的一个或多个实施方式的计算设备712的系统710的示例。在一个配置中,计算设备712包括至少一个处理单元716和存储器718。取决于计算设备的确切配置和类型,存储器718可以是易失性非(比如RAM)、非易失性(比如ROM、闪存等)或者这两者的某种组合。该配置在图7中由虚线714示出。
在其他实施方式中,设备712可包括附加特征和/或功能。例如,设备712还可包括附加存储(如可移动和/或不可移动),其包括但不局限于,磁存储、光存储等等。这样的附加存储在图7中通过存储720来示出。在一个实施方式中,用于实现本文描述的一个或多个实施方式的计算机可读指令可在存储720中。存储720还可存储实现操作系统、应用程序等的其他计算机可读指令。可在存储器718中加载计算机可读指令以便比如由处理单元716来执行。
此处使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据这样的信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。存储器718和存储720是计算机存储介质的示例。计算机存储介质包括,但不局限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或者其他光存储、盒式磁带、磁带、磁盘存储或者其他磁存储设备,或者可用于存储所需信息并可由设备712访问的任何其他介质。任何这样的计算机存储介质都可以是设备712的一部分。
设备712还可包括允许该设备712与其他设备进行通信的通信连接726。通信连接726可包括,但不局限于,调制解调器、网络接口卡(NIC)、集成网络接口、射频发射机/接收机、红外线端口、USB连接、或用于将计算设备712连接到其他计算设备的其他接口。通信连接726可包括有线连接或无线连接。通信连接726可发送和/或接收通信介质。
术语“计算机可读介质”可包括通讯介质。通信介质通常以诸如载波或其他传输机制等“已调制数据信号”来体现计算机可读指令或其他数据,并包括任何信息递送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。
设备712可包括输入设备724,如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外照相机、视频输入设备,和/或任何其他输入设备。设备712中还可包括输出设备722,诸如一个或多个显示器、扬声器、打印机和/或任何其他输出设备。输入设备724和输出设备722可通过有线连接、无线连接或者其任何组合来连接到设备712。在一个实施方式中,来自另一计算设备的输入设备或输出设备可用作计算环境712的输入设备724或输出设备722。
计算环境712的组件可通过诸如总线这样的各种互连来连接。这样的互连可包括如PCI Express这样的外围部件互联(PCI)、通用串行总线(USB)、火线(IEEE1394)、以及光总线结构等等。在另一实施方式中,计算环境712的组件可通过网络互连。例如,存储器718可包含位于通过网络互连的不同物理位置的多个物理存储器单元。
本领域技术人员会认识到,用来存储计算机可读指令的存储设备可分布在网络中。例如,可通过网络728访问的计算设备730可存储计算机可读指令以实现本文提供的一个或多个实施方式。计算设备712可访问计算设备730并下载部分或全部计算机可读指令来执行。或者,计算设备712可按需下载计算机可读指令的片断,或者某些指令可在计算设备712中执行,而某些指令则在计算设备730中执行。
本文提供了各实施方式的各种操作。在一个实施方式中,所描述的操作中的一个或多个可组成存储在一个或多个计算机可读介质上的计算机可读指令,这些指令若被计算设备执行则会使计算设备执行所描述的操作。部分或所有操作被描述的次序不应被解释为暗示了这些操作一定要依赖于次序。从本说明书获益的本领域技术人员应理解替换的排序。此外,应当理解,并非所有的操作都一定要出现在本文提供的每个实施方式中。
此外,本文使用词语“示例性”意在用作示例、实例或说明。本文被描述为“示例性”的任何方面或设计不一定要被解释为比其他方面或设计有利。相反,使用词语“示例性”旨在以具体的方式呈现各个概念。如在本申请中使用的,术语“或”的意思是包括性“或”而不是互斥性“或”。即,除非另有指定或者从上下文中可以清楚,否则“X使用A或B”意指任何自然包括性排列。即若X使用A;X用B;或者X既使用A也使用B,则在任何以上情况下都满足“X使用A或B”。另外,本申请中和所附权利要求书中使用的冠词“一”和“一个”一般可被解释为意指“一个或多个”,除非另有指定或从上下文中可以清楚指的是单数形式。
同样,尽管参考一个或多个实现示出并描述了本发明,但是本领域技术人员基于对本说明书和附图的阅读和理解可以想到各种等效替换和修改。本发明包括所有这样的修改和替换,并只由所附权利要求书来限定。特别地,对于由上述组件(如元素、资源等)执行的各种功能,除非另外指明,否则用于描述这些组件的术语旨在对应于执行所描述的执行此处在本发明的示例性实现中所示的功能的组件的指定功能(例如,功能上等效)的任何组件,即使这些组件在结构上不等效于所公开的结构。另外,尽管可相对于若干实现中的仅一个实现来公开本发明的一个特定特征,但是这一特征可以如对任何给定或特定应用所需且有利地与其他实现的一个或多个其他特征相组合。此外,就在说明书或权利要求书中使用术语“包含”、“具有”、“含有”和“带有”及其变体而言,这些术语旨在以与术语“包括”相似的方式为包含性的。
Claims (15)
1.一种用于通过语义内容进行文档搜索的基于计算机的方法,包括:
接收对来自包括潜在目标文档的数据库的初始文档的所需第一部分的最终用户选择,所述初始文档包括描述所述初始文档的各组成部分的属性的元数据标签,所选第一部分包括所述初始文档的具有所需语义内容的各组成部分;
使用计算机的处理器使包括所选第一部分的所述初始文档穿过一个或多个已训练的分类器以从所述数据库中标识包括具有与所述第一部分相同的语义内容的第二部分的第一潜在目标文档;以及
如果所述第二部分不具有与所述第一部分相同的语义内容,则:
接收对所述第一潜在目标文档的包括与所述第一部分相同的语义内容的第三部分的最终用户选择;以及
使包括所选第三部分的所述第一潜在目标文档穿过所述一个或多个已训练的分类器以从所述数据库中标识包括具有与所述第三部分相同的语义内容的第四部分的第二潜在目标文档。
2.如权利要求1所述的方法,其特征在于,还包括通过对一组文档执行关键词搜索来使用潜在目标文档填充所述数据库。
3.如权利要求1所述的方法,其特征在于,如果所述第二部分具有与所述第一部分相同的语义内容,则所述方法包括:
接收所述第二部分是正确的选择的最终用户指示;以及
对所述数据库运行所述一个或多个分类器以选择第三潜在目标文档。
4.如权利要求1所述的方法,其特征在于,如果所述第二部分不具有与所述第一部分相同的语义内容并且所述第一潜在目标文档不包括具有与所述第一部分相同的语义内容的内容,则所述方法包括:
接收所述第一潜在目标文档不包括具有与所述第一部分相同的语义内容的内容的最终用户指示;以及
对所述数据库运行所述一个或多个分类器以选择第三潜在目标文档。
5.如权利要求1所述的方法,其特征在于,包括利用对所述一个或多个分类器所返回的潜在目标文档的用户输入来更新所述一个或多个分类器。
6.如权利要求1所述的方法,其特征在于,包括使多个文档穿过所述一个或多个分类器,直至达到所需阈值为止。
7.如权利要求6所述的方法,其特征在于,包括接收对相应文档的最终用户输入,所述输入包括以下各项中的一个或多个:
所述一个或多个分类器从所述数据库检索到的文档包括所需语义内容的指示;
所述一个或多个分类器从所述数据库检索到的文档不包括所需语义内容的指示;以及
所述一个或多个分类器从所述数据库检索到的文档的所选部分,其中该所选部分包括所需语义内容。
8.如权利要求6所述的方法,其特征在于,使所述多个文档穿过所述一个或多个分类器直至达到所需阈值为止包括以下之一:
使所述多个文档穿过所述一个或多个分类器直至对于所需语义内容而言达到所需文档选择精度为止;
使所述多个文档穿过所述一个或多个分类器直至在没有检索错误文档的情况下检索到所需数量的正确文档为止;以及
使所述多个文档穿过所述一个或多个分类器直至从所述数据库检索到所需数量的文档。
9.如权利要求1所述的方法,其特征在于,包括仅在文档分类提供处于所需阈值内的结果时,才向所述最终用户呈现潜在目标文档。
10.如权利要求9所述的方法,其特征在于,所需阈值包括分类器模型的不确定性阈值。
11.一种用于通过语义内容进行文档搜索的系统,包括:
存储器组件,被配置成存储包括多个潜在目标文档的数据库;
处理器组件,操作上与所述处理器组件相耦合并被配置成执行一个或多个分类器的指令;
最终用户输入接收组件,被配置成接收对文档的最终用户输入,所述输入包括以下各项中的一个或多个:
对来自所述数据库的第一文档的所需部分的最终用户选择,所选部分包括初始文档的具有所需语义内容的各文档组成部分;
从所述数据库检索到的第二文档包括与所述第一文档的所选所需部分相同的语义内容的最终用户指示;以及
从所述数据库检索到的第二文档不包括与所述第一文档的所选所需部分相同的语义内容的最终用户指示;
一个或多个分类器组件,与所述处理器组件和存储器组件相耦合并被配置成从所述数据库标识包括具有与所述第一文档的所选所需部分相同的语义内容的目标部分的第二文档;以及
分类更新组件,操作上与所述最终用户输入接收组件相耦合并被配置成利用所述最终用户输入来更新用于标识所需语义内容的所述一个或多个分类器组件。
12.如权利要求11所述的系统,其特征在于,包括数据库填充组件,被配置成使用对一组文档的关键词搜索来用潜在目标文档填充所述数据库。
13.如权利要求11所述的系统,其特征在于,包括文档呈现组件,被配置成将来自所述数据库的文档呈现给所述最终用户以供标识所需语义内容。
14.如权利要求11所述的系统,其特征在于,所述数据库包括包含所需语义内容的一个或多个样本文档,所述一个或多个样本文档被配置成训练所述一个或多个分类器以标识具有与所需语义内容相同的语义内容的潜在目标文档。
15.如权利要求11所述的系统,其特征在于,包括数据库索引组件,被配置成对所述数据库中的包括所需语义内容的文档进行标记。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/818,286 US8380719B2 (en) | 2010-06-18 | 2010-06-18 | Semantic content searching |
US12/818,286 | 2010-06-18 | ||
PCT/US2011/039317 WO2011159516A2 (en) | 2010-06-18 | 2011-06-06 | Semantic content searching |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103026356A true CN103026356A (zh) | 2013-04-03 |
CN103026356B CN103026356B (zh) | 2016-08-31 |
Family
ID=45329602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180029819.5A Active CN103026356B (zh) | 2010-06-18 | 2011-06-06 | 语义内容搜索 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8380719B2 (zh) |
EP (1) | EP2583203A4 (zh) |
CN (1) | CN103026356B (zh) |
WO (1) | WO2011159516A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516942A (zh) * | 2013-09-26 | 2015-04-15 | 国际商业机器公司 | 概念驱动的自动分节标识 |
US10275444B2 (en) | 2016-07-15 | 2019-04-30 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
Families Citing this family (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10747952B2 (en) | 2008-09-15 | 2020-08-18 | Palantir Technologies, Inc. | Automatic creation and server push of multiple distinct drafts |
US20110271232A1 (en) * | 2010-04-30 | 2011-11-03 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US9547693B1 (en) | 2011-06-23 | 2017-01-17 | Palantir Technologies Inc. | Periodic database search manager for multiple data sources |
US8732574B2 (en) | 2011-08-25 | 2014-05-20 | Palantir Technologies, Inc. | System and method for parameterizing documents for automatic workflow generation |
US11392601B2 (en) | 2012-01-18 | 2022-07-19 | Google Llc | Search-based document user interfaces |
US11514230B2 (en) * | 2012-01-18 | 2022-11-29 | Google Llc | Methods and systems for searching document operation labels |
US9015080B2 (en) | 2012-03-16 | 2015-04-21 | Orbis Technologies, Inc. | Systems and methods for semantic inference and reasoning |
US9348677B2 (en) | 2012-10-22 | 2016-05-24 | Palantir Technologies Inc. | System and method for batch evaluation programs |
US20140149330A1 (en) * | 2012-11-29 | 2014-05-29 | Elon Kaplan | Contextual knowledge management system and method |
US9189531B2 (en) | 2012-11-30 | 2015-11-17 | Orbis Technologies, Inc. | Ontology harmonization and mediation systems and methods |
US10140664B2 (en) | 2013-03-14 | 2018-11-27 | Palantir Technologies Inc. | Resolving similar entities from a transaction database |
US8924388B2 (en) | 2013-03-15 | 2014-12-30 | Palantir Technologies Inc. | Computer-implemented systems and methods for comparing and associating objects |
US8868486B2 (en) | 2013-03-15 | 2014-10-21 | Palantir Technologies Inc. | Time-sensitive cube |
US8909656B2 (en) | 2013-03-15 | 2014-12-09 | Palantir Technologies Inc. | Filter chains with associated multipath views for exploring large data sets |
CN104102651B (zh) * | 2013-04-07 | 2017-07-25 | 华东师范大学 | 云计算环境下基于语义的自适应文本分类方法 |
US8799799B1 (en) | 2013-05-07 | 2014-08-05 | Palantir Technologies Inc. | Interactive geospatial map |
US8938686B1 (en) | 2013-10-03 | 2015-01-20 | Palantir Technologies Inc. | Systems and methods for analyzing performance of an entity |
US9116975B2 (en) | 2013-10-18 | 2015-08-25 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
US9105000B1 (en) | 2013-12-10 | 2015-08-11 | Palantir Technologies Inc. | Aggregating data from a plurality of data sources |
US9727622B2 (en) | 2013-12-16 | 2017-08-08 | Palantir Technologies, Inc. | Methods and systems for analyzing entity performance |
US10579647B1 (en) | 2013-12-16 | 2020-03-03 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10356032B2 (en) | 2013-12-26 | 2019-07-16 | Palantir Technologies Inc. | System and method for detecting confidential information emails |
US8924429B1 (en) | 2014-03-18 | 2014-12-30 | Palantir Technologies Inc. | Determining and extracting changed data from a data source |
US9836580B2 (en) | 2014-03-21 | 2017-12-05 | Palantir Technologies Inc. | Provider portal |
US9619557B2 (en) | 2014-06-30 | 2017-04-11 | Palantir Technologies, Inc. | Systems and methods for key phrase characterization of documents |
US9535974B1 (en) | 2014-06-30 | 2017-01-03 | Palantir Technologies Inc. | Systems and methods for identifying key phrase clusters within documents |
US9256664B2 (en) | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US20160026923A1 (en) | 2014-07-22 | 2016-01-28 | Palantir Technologies Inc. | System and method for determining a propensity of entity to take a specified action |
US9390086B2 (en) * | 2014-09-11 | 2016-07-12 | Palantir Technologies Inc. | Classification system with methodology for efficient verification |
US9785328B2 (en) | 2014-10-06 | 2017-10-10 | Palantir Technologies Inc. | Presentation of multivariate data on a graphical user interface of a computing system |
US9229952B1 (en) | 2014-11-05 | 2016-01-05 | Palantir Technologies, Inc. | History preserving data pipeline system and method |
US9483546B2 (en) | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US9971760B2 (en) * | 2014-12-22 | 2018-05-15 | International Business Machines Corporation | Parallelizing semantically split documents for processing |
US9348920B1 (en) | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
US10552994B2 (en) | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
US9817563B1 (en) | 2014-12-29 | 2017-11-14 | Palantir Technologies Inc. | System and method of generating data points from one or more data stores of data items for chart creation and manipulation |
US9335911B1 (en) | 2014-12-29 | 2016-05-10 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US11302426B1 (en) | 2015-01-02 | 2022-04-12 | Palantir Technologies Inc. | Unified data interface and system |
US9727560B2 (en) | 2015-02-25 | 2017-08-08 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US9891808B2 (en) | 2015-03-16 | 2018-02-13 | Palantir Technologies Inc. | Interactive user interfaces for location-based data analysis |
US10103953B1 (en) | 2015-05-12 | 2018-10-16 | Palantir Technologies Inc. | Methods and systems for analyzing entity performance |
US10628834B1 (en) | 2015-06-16 | 2020-04-21 | Palantir Technologies Inc. | Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces |
US9418337B1 (en) | 2015-07-21 | 2016-08-16 | Palantir Technologies Inc. | Systems and models for data analytics |
US9392008B1 (en) | 2015-07-23 | 2016-07-12 | Palantir Technologies Inc. | Systems and methods for identifying information related to payment card breaches |
US9996595B2 (en) | 2015-08-03 | 2018-06-12 | Palantir Technologies, Inc. | Providing full data provenance visualization for versioned datasets |
US9600146B2 (en) | 2015-08-17 | 2017-03-21 | Palantir Technologies Inc. | Interactive geospatial map |
US9671776B1 (en) | 2015-08-20 | 2017-06-06 | Palantir Technologies Inc. | Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account |
US9485265B1 (en) | 2015-08-28 | 2016-11-01 | Palantir Technologies Inc. | Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces |
US10706434B1 (en) | 2015-09-01 | 2020-07-07 | Palantir Technologies Inc. | Methods and systems for determining location information |
US9639580B1 (en) | 2015-09-04 | 2017-05-02 | Palantir Technologies, Inc. | Computer-implemented systems and methods for data management and visualization |
US9984428B2 (en) | 2015-09-04 | 2018-05-29 | Palantir Technologies Inc. | Systems and methods for structuring data from unstructured electronic data files |
US9576015B1 (en) | 2015-09-09 | 2017-02-21 | Palantir Technologies, Inc. | Domain-specific language for dataset transformations |
US9424669B1 (en) | 2015-10-21 | 2016-08-23 | Palantir Technologies Inc. | Generating graphical representations of event participation flow |
US10223429B2 (en) | 2015-12-01 | 2019-03-05 | Palantir Technologies Inc. | Entity data attribution using disparate data sets |
US10706056B1 (en) | 2015-12-02 | 2020-07-07 | Palantir Technologies Inc. | Audit log report generator |
US9514414B1 (en) | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
US9760556B1 (en) | 2015-12-11 | 2017-09-12 | Palantir Technologies Inc. | Systems and methods for annotating and linking electronic documents |
US10114884B1 (en) | 2015-12-16 | 2018-10-30 | Palantir Technologies Inc. | Systems and methods for attribute analysis of one or more databases |
US10373099B1 (en) | 2015-12-18 | 2019-08-06 | Palantir Technologies Inc. | Misalignment detection system for efficiently processing database-stored data and automatically generating misalignment information for display in interactive user interfaces |
US10871878B1 (en) | 2015-12-29 | 2020-12-22 | Palantir Technologies Inc. | System log analysis and object user interaction correlation system |
US9792020B1 (en) | 2015-12-30 | 2017-10-17 | Palantir Technologies Inc. | Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data |
US10698938B2 (en) | 2016-03-18 | 2020-06-30 | Palantir Technologies Inc. | Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags |
US9652139B1 (en) | 2016-04-06 | 2017-05-16 | Palantir Technologies Inc. | Graphical representation of an output |
US10068199B1 (en) | 2016-05-13 | 2018-09-04 | Palantir Technologies Inc. | System to catalogue tracking data |
US10007674B2 (en) | 2016-06-13 | 2018-06-26 | Palantir Technologies Inc. | Data revision control in large-scale data analytic systems |
US10545975B1 (en) | 2016-06-22 | 2020-01-28 | Palantir Technologies Inc. | Visual analysis of data using sequenced dataset reduction |
US10909130B1 (en) | 2016-07-01 | 2021-02-02 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10552002B1 (en) | 2016-09-27 | 2020-02-04 | Palantir Technologies Inc. | User interface based variable machine modeling |
US10726507B1 (en) | 2016-11-11 | 2020-07-28 | Palantir Technologies Inc. | Graphical representation of a complex task |
US10318630B1 (en) | 2016-11-21 | 2019-06-11 | Palantir Technologies Inc. | Analysis of large bodies of textual data |
US9842338B1 (en) | 2016-11-21 | 2017-12-12 | Palantir Technologies Inc. | System to identify vulnerable card readers |
US11250425B1 (en) | 2016-11-30 | 2022-02-15 | Palantir Technologies Inc. | Generating a statistic using electronic transaction data |
GB201621434D0 (en) | 2016-12-16 | 2017-02-01 | Palantir Technologies Inc | Processing sensor logs |
US9886525B1 (en) | 2016-12-16 | 2018-02-06 | Palantir Technologies Inc. | Data item aggregate probability analysis system |
US10249033B1 (en) | 2016-12-20 | 2019-04-02 | Palantir Technologies Inc. | User interface for managing defects |
US10728262B1 (en) | 2016-12-21 | 2020-07-28 | Palantir Technologies Inc. | Context-aware network-based malicious activity warning systems |
US10360238B1 (en) | 2016-12-22 | 2019-07-23 | Palantir Technologies Inc. | Database systems and user interfaces for interactive data association, analysis, and presentation |
US11373752B2 (en) | 2016-12-22 | 2022-06-28 | Palantir Technologies Inc. | Detection of misuse of a benefit system |
US10721262B2 (en) | 2016-12-28 | 2020-07-21 | Palantir Technologies Inc. | Resource-centric network cyber attack warning system |
US10762471B1 (en) | 2017-01-09 | 2020-09-01 | Palantir Technologies Inc. | Automating management of integrated workflows based on disparate subsidiary data sources |
US10133621B1 (en) | 2017-01-18 | 2018-11-20 | Palantir Technologies Inc. | Data analysis system to facilitate investigative process |
US10509844B1 (en) | 2017-01-19 | 2019-12-17 | Palantir Technologies Inc. | Network graph parser |
US10515109B2 (en) | 2017-02-15 | 2019-12-24 | Palantir Technologies Inc. | Real-time auditing of industrial equipment condition |
US10866936B1 (en) | 2017-03-29 | 2020-12-15 | Palantir Technologies Inc. | Model object management and storage system |
US10581954B2 (en) | 2017-03-29 | 2020-03-03 | Palantir Technologies Inc. | Metric collection and aggregation for distributed software services |
US10133783B2 (en) | 2017-04-11 | 2018-11-20 | Palantir Technologies Inc. | Systems and methods for constraint driven database searching |
US10563990B1 (en) | 2017-05-09 | 2020-02-18 | Palantir Technologies Inc. | Event-based route planning |
US10606872B1 (en) | 2017-05-22 | 2020-03-31 | Palantir Technologies Inc. | Graphical user interface for a database system |
US10795749B1 (en) | 2017-05-31 | 2020-10-06 | Palantir Technologies Inc. | Systems and methods for providing fault analysis user interface |
US10956406B2 (en) | 2017-06-12 | 2021-03-23 | Palantir Technologies Inc. | Propagated deletion of database records and derived data |
US11216762B1 (en) | 2017-07-13 | 2022-01-04 | Palantir Technologies Inc. | Automated risk visualization using customer-centric data analysis |
US10430444B1 (en) | 2017-07-24 | 2019-10-01 | Palantir Technologies Inc. | Interactive geospatial map and geospatial visualization systems |
US11314721B1 (en) | 2017-12-07 | 2022-04-26 | Palantir Technologies Inc. | User-interactive defect analysis for root cause |
US10877984B1 (en) | 2017-12-07 | 2020-12-29 | Palantir Technologies Inc. | Systems and methods for filtering and visualizing large scale datasets |
US10769171B1 (en) | 2017-12-07 | 2020-09-08 | Palantir Technologies Inc. | Relationship analysis and mapping for interrelated multi-layered datasets |
US11263382B1 (en) | 2017-12-22 | 2022-03-01 | Palantir Technologies Inc. | Data normalization and irregularity detection system |
US10877654B1 (en) | 2018-04-03 | 2020-12-29 | Palantir Technologies Inc. | Graphical user interfaces for optimizations |
US10754822B1 (en) | 2018-04-18 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for ontology migration |
US10885021B1 (en) | 2018-05-02 | 2021-01-05 | Palantir Technologies Inc. | Interactive interpreter and graphical user interface |
US10754946B1 (en) | 2018-05-08 | 2020-08-25 | Palantir Technologies Inc. | Systems and methods for implementing a machine learning approach to modeling entity behavior |
US11119630B1 (en) | 2018-06-19 | 2021-09-14 | Palantir Technologies Inc. | Artificial intelligence assisted evaluations and user interface for same |
US11126638B1 (en) | 2018-09-13 | 2021-09-21 | Palantir Technologies Inc. | Data visualization and parsing system |
US11294928B1 (en) | 2018-10-12 | 2022-04-05 | Palantir Technologies Inc. | System architecture for relating and linking data objects |
US11423073B2 (en) | 2018-11-16 | 2022-08-23 | Microsoft Technology Licensing, Llc | System and management of semantic indicators during document presentations |
CN113641782A (zh) * | 2020-04-27 | 2021-11-12 | 北京庖丁科技有限公司 | 基于检索语句的信息检索方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205448A1 (en) * | 2001-08-13 | 2004-10-14 | Grefenstette Gregory T. | Meta-document management system with document identifiers |
US20050114313A1 (en) * | 2003-11-26 | 2005-05-26 | Campbell Christopher S. | System and method for retrieving documents or sub-documents based on examples |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US20080109454A1 (en) * | 2006-11-03 | 2008-05-08 | Willse Alan R | Text analysis techniques |
US20090216738A1 (en) * | 2008-02-22 | 2009-08-27 | Jeffrey Matthew Dexter | Systems and Methods of Identifying Chunks Within Inter-Related Documents |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
US5625767A (en) * | 1995-03-13 | 1997-04-29 | Bartell; Brian | Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents |
US5913214A (en) * | 1996-05-30 | 1999-06-15 | Massachusetts Inst Technology | Data extraction from world wide web pages |
US5983170A (en) * | 1996-06-25 | 1999-11-09 | Continuum Software, Inc | System and method for generating semantic analysis of textual information |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US5974412A (en) * | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
US6560620B1 (en) * | 1999-08-03 | 2003-05-06 | Aplix Research, Inc. | Hierarchical document comparison system and method |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
US7672952B2 (en) * | 2000-07-13 | 2010-03-02 | Novell, Inc. | System and method of semantic correlation of rich content |
US6606620B1 (en) | 2000-07-24 | 2003-08-12 | International Business Machines Corporation | Method and system for classifying semi-structured documents |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
US6633868B1 (en) * | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US20030028564A1 (en) * | 2000-12-19 | 2003-02-06 | Lingomotors, Inc. | Natural language method and system for matching and ranking documents in terms of semantic relatedness |
EP1490790A2 (en) * | 2001-03-13 | 2004-12-29 | Intelligate Ltd. | Dynamic natural language understanding |
US20020165839A1 (en) * | 2001-03-14 | 2002-11-07 | Taylor Kevin M. | Segmentation and construction of segmentation classifiers |
US7024400B2 (en) | 2001-05-08 | 2006-04-04 | Sunflare Co., Ltd. | Differential LSI space-based probabilistic document classifier |
US7035841B2 (en) * | 2002-07-18 | 2006-04-25 | Xerox Corporation | Method for automatic wrapper repair |
JP4038717B2 (ja) * | 2002-09-13 | 2008-01-30 | 富士ゼロックス株式会社 | テキスト文比較装置 |
JP2004110161A (ja) * | 2002-09-13 | 2004-04-08 | Fuji Xerox Co Ltd | テキスト文比較装置 |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
US7502779B2 (en) * | 2003-06-05 | 2009-03-10 | International Business Machines Corporation | Semantics-based searching for information in a distributed data processing system |
US7428700B2 (en) * | 2003-07-28 | 2008-09-23 | Microsoft Corporation | Vision-based document segmentation |
US7383269B2 (en) * | 2003-09-12 | 2008-06-03 | Accenture Global Services Gmbh | Navigating a software project repository |
US20050060140A1 (en) * | 2003-09-15 | 2005-03-17 | Maddox Paul Christopher | Using semantic feature structures for document comparisons |
US7254587B2 (en) * | 2004-01-12 | 2007-08-07 | International Business Machines Corporation | Method and apparatus for determining relative relevance between portions of large electronic documents |
US20070162272A1 (en) * | 2004-01-16 | 2007-07-12 | Nec Corporation | Text-processing method, program, program recording medium, and device thereof |
AU2005264153B2 (en) * | 2004-07-21 | 2012-04-05 | Microsoft Israel Research And Development (2002) Ltd | A method for determining near duplicate data objects |
US7383260B2 (en) * | 2004-08-03 | 2008-06-03 | International Business Machines Corporation | Method and apparatus for ontology-based classification of media content |
US7519217B2 (en) * | 2004-11-23 | 2009-04-14 | Microsoft Corporation | Method and system for generating a classifier using inter-sample relationships |
US7480667B2 (en) * | 2004-12-24 | 2009-01-20 | Microsoft Corporation | System and method for using anchor text as training data for classifier-based search systems |
JP2008529173A (ja) * | 2005-01-31 | 2008-07-31 | テキストディガー,インコーポレイテッド | 電子文書の意味検索および取り込みのための方法およびシステム |
US7472131B2 (en) | 2005-12-12 | 2008-12-30 | Justsystems Evans Research, Inc. | Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance |
US7657546B2 (en) * | 2006-01-26 | 2010-02-02 | International Business Machines Corporation | Knowledge management system, program product and method |
US7333965B2 (en) * | 2006-02-23 | 2008-02-19 | Microsoft Corporation | Classifying text in a code editor using multiple classifiers |
KR100756921B1 (ko) * | 2006-02-28 | 2007-09-07 | 한국과학기술원 | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. |
US7937345B2 (en) | 2006-07-12 | 2011-05-03 | Kofax, Inc. | Data classification methods using machine learning techniques |
US8027977B2 (en) * | 2007-06-20 | 2011-09-27 | Microsoft Corporation | Recommending content using discriminatively trained document similarity |
US7818117B2 (en) * | 2007-06-20 | 2010-10-19 | Amadeus S.A.S. | System and method for integrating and displaying travel advices gathered from a plurality of reliable sources |
US20090012984A1 (en) * | 2007-07-02 | 2009-01-08 | Equivio Ltd. | Method for Organizing Large Numbers of Documents |
US20090024385A1 (en) * | 2007-07-16 | 2009-01-22 | Semgine, Gmbh | Semantic parser |
US8380731B2 (en) * | 2007-12-13 | 2013-02-19 | The Boeing Company | Methods and apparatus using sets of semantically similar words for text classification |
US8082248B2 (en) * | 2008-05-29 | 2011-12-20 | Rania Abouyounes | Method and system for document classification based on document structure and written style |
US20100005087A1 (en) * | 2008-07-01 | 2010-01-07 | Stephen Basco | Facilitating collaborative searching using semantic contexts associated with information |
US20110271232A1 (en) * | 2010-04-30 | 2011-11-03 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
-
2010
- 2010-06-18 US US12/818,286 patent/US8380719B2/en active Active
-
2011
- 2011-06-06 CN CN201180029819.5A patent/CN103026356B/zh active Active
- 2011-06-06 EP EP11796186.2A patent/EP2583203A4/en not_active Withdrawn
- 2011-06-06 WO PCT/US2011/039317 patent/WO2011159516A2/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205448A1 (en) * | 2001-08-13 | 2004-10-14 | Grefenstette Gregory T. | Meta-document management system with document identifiers |
US20050114313A1 (en) * | 2003-11-26 | 2005-05-26 | Campbell Christopher S. | System and method for retrieving documents or sub-documents based on examples |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US20080109454A1 (en) * | 2006-11-03 | 2008-05-08 | Willse Alan R | Text analysis techniques |
US20090216738A1 (en) * | 2008-02-22 | 2009-08-27 | Jeffrey Matthew Dexter | Systems and Methods of Identifying Chunks Within Inter-Related Documents |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516942A (zh) * | 2013-09-26 | 2015-04-15 | 国际商业机器公司 | 概念驱动的自动分节标识 |
CN104516942B (zh) * | 2013-09-26 | 2018-04-17 | 国际商业机器公司 | 概念驱动的自动分节标识 |
US10275444B2 (en) | 2016-07-15 | 2019-04-30 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
US10642932B2 (en) | 2016-07-15 | 2020-05-05 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
US11010548B2 (en) | 2016-07-15 | 2021-05-18 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
Also Published As
Publication number | Publication date |
---|---|
US8380719B2 (en) | 2013-02-19 |
EP2583203A2 (en) | 2013-04-24 |
CN103026356B (zh) | 2016-08-31 |
EP2583203A4 (en) | 2016-08-10 |
WO2011159516A3 (en) | 2012-02-23 |
US20110314024A1 (en) | 2011-12-22 |
WO2011159516A2 (en) | 2011-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103026356A (zh) | 语义内容搜索 | |
US10706362B2 (en) | Significance of relationships discovered in a corpus | |
US8468167B2 (en) | Automatic data validation and correction | |
US9483730B2 (en) | Hybrid review synthesis | |
US20130110839A1 (en) | Constructing an analysis of a document | |
Jiang et al. | Recommending new features from mobile app descriptions | |
CN106250385A (zh) | 用于文档的自动化信息抽象处理的系统和方法 | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
Shivashankar et al. | Multi-view methods for protein structure comparison using latent dirichlet allocation | |
US10303704B2 (en) | Processing a data set that is not organized according to a schema being used for organizing data | |
CN111557000B (zh) | 针对媒体的准确性确定 | |
CN101689198A (zh) | 使用规格化串的语音搜索 | |
CN105653547A (zh) | 一种提取文本关键词的方法和装置 | |
Ozyurt et al. | Resource disambiguator for the web: extracting biomedical resources and their citations from the scientific literature | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
Kang | Automated duplicate bug reports detection-an experiment at axis communication ab | |
CN111602129B (zh) | 针对注释和墨迹的智能搜索 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN111753199B (zh) | 用户画像构建方法及设备、电子设备和介质 | |
US11475529B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
KR102526275B1 (ko) | 콘텐츠를 필터링하여 제공하는 장치 및 방법 | |
US20220374914A1 (en) | Regulatory obligation identifier | |
US11947571B2 (en) | Efficient tagging of content items using multi-granular embeddings | |
EP4064290A2 (en) | System and method for providing medical equipment and medicine information | |
US11481452B2 (en) | Self-learning and adaptable mechanism for tagging documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150717 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150717 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |