CN102667776B - 用于处理信息流的信息的方法和系统 - Google Patents

用于处理信息流的信息的方法和系统 Download PDF

Info

Publication number
CN102667776B
CN102667776B CN201080058181.3A CN201080058181A CN102667776B CN 102667776 B CN102667776 B CN 102667776B CN 201080058181 A CN201080058181 A CN 201080058181A CN 102667776 B CN102667776 B CN 102667776B
Authority
CN
China
Prior art keywords
entity
information
new
message segment
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080058181.3A
Other languages
English (en)
Other versions
CN102667776A (zh
Inventor
F·杜埃托
A·博乌布里克
J·博尔迪耶
A·卢扎里德
T·莫阿尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes of America Corp
Original Assignee
Dassault Systemes of America Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes of America Corp filed Critical Dassault Systemes of America Corp
Publication of CN102667776A publication Critical patent/CN102667776A/zh
Application granted granted Critical
Publication of CN102667776B publication Critical patent/CN102667776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明涉及一种用于处理与实体相关的信息的计算机实现过程,所述实体包含在信息流内,将实体存储在系统的资源目录中,每一资源目录包含实体,并采用在添加至少一个新的实体的情况下修改的版本编号对每一资源目录进行注释。所述过程包括的步骤:从不同的信息源检索信息流;根据所述资源目录的实体处理来自所述信息流的信息段;对所述信息段进行存储,所述信息段具有注释,所述注释指示采用所述资源目录的哪一版本对所述信息段进行过处理;采用至少一个新的实体对所述资源目录的至少其中之一进行更新,并更新所述至少一个资源目录的版本编号;以及重新处理所述存储信息段,所述信息段包含指示采用所述至少一个资源目录的前一版本对所述信息段进行过处理的注释。

Description

用于处理信息流的信息的方法和系统
本发明涉及计算机程序和系统领域,更具体而言,涉及信息管理领域,其中,所述信息涉及实体,并且包含在信息流内。
网络搜索引擎(例如,Google(商标)、MSN搜索(商标)、AllTheWeb(商标))提供了由唯一索引访问信息记录的途径。出于这一目的,搜索引擎首先对网络爬行,以发现新的内容。接下来,为所述内容添加索引:对其进行语法分析和存储,以促进快速、准确的信息检索。之后,用户对搜索引擎进行查询,以获得结果,一般以列表的形式呈现搜索结果。
爬行网络是一项困难的任务。实际上,网络爬行器面对着大量的数据,而且无法下载全部的网络内容。此外,网络的内容总是发生变化;这一动态性意味着网络爬行必须有规律地检查是否添加新的内容,还要检查已知内容是否发生了更新,甚至被删除。因而,网络爬行器不仅要执行几项需要巨大计算资源的处理工作,还要占用网络带宽,因为要取出内容并发送给网络爬行器。
出于这一目的,开发出了高速缓存系统,以减轻上述限制。高速缓存系统存储先前看到的信息的版本,以改善在对信息进行查询并且有必要对其进行显示时的响应时间。例如,网络浏览器和网络代理服务器利用网络高速缓存存储先前的来自网络服务器的响应,例如,网页。网络高速缓存减少了必须跨越网络传输的信息的量,因为能够经常重复利用高速缓存中先前存储的信息。此外,高速缓存有助于改善对网络用户的响应性。然而,网络高速缓存不适于处理网络爬行器检索的巨量的数据:实际上,它们只存储经过它们的数据的副本,而不提供对存储数据进行管理的措施,也不提供降低存储成本的措施。
美国专利7523137公开了一种用于提取与涉及所发现的实体的事件相关的信息的系统,所述实体又被称为事件对象。这一文献教导了,对各条目只取出一次,之后对其进行本地存储,从而只对其进行一次处理。根据具体系统实现的具体行业聚焦,采用现有的环境模型对每一条目进行一次处理,从而滤除(例如,去除)不感兴趣的内容。事件处理控制程序滤除所取出的与所述环境模型中定义的实体不相关的条目。因此,所述分析系统在向新的条目应用事件检测引擎之前删除了相当高的百分比的检索信息(例如,99%或更高)。
然而,所述系统并不保持所取出的条目,这意味着在(例如)所述条目被更新并且需要再次被处理时要再次取出所述条目。因而,所述系统需要几次下载相同的(或类似的)内容。
美国专利申请2007/0011175公开了如何将结构化数据和非结构化数据从多个数据源提取到俘获模式内,并对非结构化数据进行变换和分析,从而将其加载到分析模式内。这一文献教导了如何提供对非结构化数据和结构化数据的结构化查看,以及如何对这一数据执行(例如)分析(例如,商务智能)。然而,这一文献没有解决怎样管理数据中的新资源创建以及如何针对新的和已经看到的商业数据对这些变化进行管理的问题。
因而,根据上文简要描述的现有解决方案的限制,需要一种改进的信息处理,其按照更加有效的方式管理信息段,从而减少对数据的处理和存储的数据的量。
因此,本发明提供了一种用于处理与根据文本资源识别出的实体相关的信息的计算机实现过程,所述实体包含在文本信息流内,将实体存储在系统的资源目录中,每一类型的实体包含于对应的资源目录中,采用在添加至少一个相同类型的新的实体的情况下修改的版本编号对所述资源目录进行注释,所述过程包括步骤:
-从不同的信息源检索文本信息流;
-根据所述资源目录的实体处理来自所述文本信息流的信息段,其中经处理的信息段包括类型和一组无约束元数据,每一元数据包括关键字和值的对;
-存储信息段,所述信息段具有注释,所述注释指示所述资源目录的哪一版本用于对所述信息段进行过处理;
-采用由对来自文本信息流的信息段进行处理得到的信息充实一现有实体的简档;
-采用至少一个新的实体对所述资源目录中的至少一个进行更新,并更新所述至少一个资源目录的版本编号;
-重新处理所存储的信息段,所述信息段包含指示采用所述至少一个资源目录的前一版本对所述信息段进行过处理的注释;以及
-创建所述至少一个新的实体的新的简档,并采用由对来自文本信息流的信息段进行处理得到的信息充实所述新的简档。
所述过程还可以包括:
-添加至资源目录的新的实体,其包含指示赋予所述资源目录的版本编号的注释,在添加所述新的实体的情况下,所述版本编号被修改了一次,并且所述重新处理的步骤还包括根据添加至所述资源目录的新的实体对存储信息段重新处理;
-向每一经处理的信息段以及每一实体分配唯一标识符;
-分配给每一新的实体的标识符与揭示所述的每一新的实体的经处理的段的标识符相同;
-在处理来自信息流的信息段的步骤中,揭示了新的实体或者用户输入了新的实体,并且将新的实体添加到对应的资源目录中;
-所述经处理的信息段是数据结构;
-所述经处理的信息段包括类型、任选的通用资源标识符和一组无约束元数据,每一元数据包括关键字和值的对;
-根据选择的信息源存储来自信息流的经处理的信息段;
-在处理来自信息流的信息段的步骤之前的下述步骤:将检索到的信息流分配到映射器队列中,根据信息流的信息源选择映射器队列,并通过映射-简化机构对所述映射器队列进行处理;
-在处理来自信息流的信息段的步骤之后的下述步骤:
-将经处理的信息流分配到简化器队列中,根据信息流的信息源选择简化器队列;
-对于每一现有实体,采用由对来自信息流的信息段进行处理的步骤得到的信息充实所述实体的简档;以及
-对于每一揭示出的新的实体,创建所述新的实体的新的简档,并采用由对来自信息流的信息段进行处理的步骤得到的信息充实所述简档;
其中,现有实体的简档或者所述新的实体的新的简档包括类型和预定义的元数据组,每一元数据包括关键字和值的对;
-将现有实体的简档和新的实体的新的简档存储到简档储存库内;
-将完成的实体的简档发送至索引引擎;
-在处理来自信息流的信息段的步骤中,系统将在一个信息段中识别出的通用资源定位器和分配给所述的一个信息段的唯一标识符之间的映射登记到散列目录中。
本发明还提出了一种存储在计算机可读介质上的用于处理与实体相关的信息的计算机程序,所述实体包含在信息流中,使实体包含在系统的资源目录中,每一资源目录包含实体,并采用在添加至少一个新的实体的情况下修改的版本编号对每一资源目录进行注释,所述计算机程序包括用于使计算机执行所述过程的步骤的代码模块。
本发明还涉及一种用于处理与实体相关的信息的设备,所述实体包含在信息流内,将实体存储在系统的资源目录中,每一资源目录包含实体,并且采用在添加至少一个新的实体的情况下修改的版本编号对每一资源目录进行注释,所述设备包括用于实施所述过程的步骤的模块。
现在将参考附图,通过非限制性范例描述根据本发明的过程和体现本发明的系统,其中:
图1示出了插入到信息流和索引引擎之间的整合箱;
图2示出了根据本发明的整合箱的实施例;
图3是适于执行本发明的硬件和软件环境的示意图。
因此,本发明涉及一种用于处理与实体相关的信息的计算机实现过程,所述实体包含在信息流内。实体是一种类型化数据,其中,类型化数据可以额外包括一组值、与其他类型化数据的链接以及对这些值的可能的操作。例如,类型化数据可以是客户名、城市、产品名称、意见值、支付方式。所述实体存储在系统的资源目录内。每一资源目录包含实体,并采用版本编号对每一资源目录进行注释,在添加至少一个新的实体的情况下对所述版本编号进行修改。可以采用版本编号保持对以递增的方式发生变化的数据版本的跟踪,例如,所述递增变化指示系统上存储的数据的新鲜性。
所述过程包括从不同的信息源检索信息流的步骤。接下来,根据所述资源目录的实体处理来自所述信息流的信息段。典型地,提取在现有资源目录中找到的实体的信息。之后,采用注释存储所述信息段,所述注释指示采用所述资源目录的哪一版本对所述信息段进行了处理。接下来的步骤是,如果在经处理的片段中找到新的实体,那么采用至少一个新的实体更新所述资源目录的至少其中之一,并更新所述至少一个资源目录的版本编号。典型地,在信息流中发现了所述新的实体。于是,所述过程对包含注释的存储信息段进行重新处理,所述注释指示采用所述至少一个被更新的资源目录的前一版本对所述信息段进行了处理。有利地,所公开的技术允许识别出可能必须对哪一信息源进行重新处理,由此可以存储更少的信息流。之外,只对存储信息段的子集进行重新处理,其改善了处理时间。
图1示出了本发明的过程的实施例。将整合箱12插入到信息流10和经典的索引引擎11之间,其执行本发明的过程。所述整合箱是允许对来自一个或多个输入信息源的与实体相关的数据进行变换和汇集的计算机系统。
所述整合箱12检索来自不同信息源的信息流。典型地,通过万维网提供信息流10,万维网又称为网络。然而,也可以通过诸如内联网或外联网的专用网提供信息流10。顺便提及,可以采用任何信息源10执行本发明,不管其来源如何。信息流10提供与实体相关的信息段。实体是一种类型化数据,其中,类型化数据可以包括一组值、一组与其他数据类型的关系以及对这些值的可能的操作。例如,类型化数据可以是客户名、城市、产品名称、情绪值、支付方式。根据存储在资源目录上的实体处理来自所述信息流的信息段。资源目录包括实体,采用版本编号对资源目录进行注释。之后,在整合箱上对信息段进行高速缓存13,所述整合箱以连续、递增的方式构建相对于实体的简档。典型地,将所述简档存储在简档储存库13内,所述简档是整合箱12生成的输出数据。简档是与实体相关的数据的汇集。典型地,简档是包含类型和预定义的元数据集的数据结构,每一元数据由关键字值对构成。一些元数据可以是任选的。根据定义,任选元数据关键字值对的值部分可以是空的。其他元数据可以是必须存在的,从而能够将所述数据结构看作是简档。因而,在完成了实体的简档时,即,在汇集了所有需要的数据时,将其发送给索引引擎11,其对所述简档的数据编制索引。
在实践中,整合箱12可以是决策支持系统(DSS)的部分。DSS是一种特殊种类的计算机化信息系统,其支持商业和组织决策制定活动,其目的在于帮助决策者对来自原始数据、文献、个人知识和/或商业模型的有用信息进行编辑,以识别和解决问题,并制定决策。
现在,图2示出了执行本发明的过程的系统的实施例的整合箱。
将整合箱12通过连接器26、27连接至外界。连接器访问信息流源,并从不同的信息源检索信息流。在实践中,连接器是连接至数据源(文件系统、网页、数据库、电子邮件)的计算机模块,其从所述源提取类型化数据(例如,指定发送者姓名的XML、电子邮件正文文字等)。作为一个非限制性的例子,所述连接器可以持续地爬行给定的与饭店相关的网站的列表,并从信息流,即从描述饭店的网页提取信息段。
连接器允许系统的用户判断哪一信息流可能提供关于所要索引的实体的信息段。根据流的来源做出这一判断。可以基于对信息流源的技术考虑,例如,服务器的地理位置、其IP地址、其服务(HTTP、FTP)确定所述来源。也可以基于流源的类型,例如,网站、论坛、网站中的内容、博客帖子等确定来源。可以理解,根据选定的信息源选择信息流是有利的:由此可以(比爬行整个网络)急剧减少数据量,因此节约了整合箱12的计算资源。有利地,即使所要索引的实体对于系统而言仍然是未知的,也可以做出判定。这样做是有利的,因为用户有可能预见到,如果发现了给定实体,将不会丢失与该实体相关的信息。
连接器从所述流提取信息段。信息段是由整合箱处理的输入数据。每一信息段都是一个数据结构。在实践中,信息段的数据结构包含类型、任选URI(通用资源识别码)和一组无约束元数据,每一元数据包含关键字和值的对。一旦检索到,就根据资源目录的当前版本对来自信息流的信息段进行处理。
在对输入到整合箱12的信息段的处理开始时,可以向每一经处理的信息段分配唯一标识符。顺便提及,也可以向所述系统中的每一实体分配标识符。典型地,对于在经处理的信息段中揭示出的每一新的实体,两种标识符是相同的。因而,由对信息段中的元数据的部分进行处理的主参考标识符发生器向其分配主参考标识符。例如,如果所述实体之一涉及饭店,那么标识符发生器可以取得包含饭店的名称及其地址的元数据,以生成实体饭店的饭店主参考标识符。更一般地,将具有给定类型的每一信息段映射至特定的标识符发生器。(实体)主参考标识符将有关实体的多个信息段链接至与该实体相关的单个简档。如果信息段包含URI,那么将URI和所生成的(实体)主参考标识符之间的映射登记到文档标识符散列表(DIH)内。
一旦计算出了主参考标识符,那么所述过程向映射器队列20分配信息段,所述信息段在该处等待进一步处理。可以根据所述段的源的类型执行所述分配。在实践中,可以通过整合箱管理器执行所述分配过程,所述整合箱管理器是管理整合箱12内的信息的主程序。
依托映射-简化机构21对映射器队列20进行处理,这是本领域已知的。映射-简化机构21依赖于采用被统称为群集的大量计算机进行巨量数据集处理的框架。将信息段映射21至实体类型特殊处理,所述处理尝试提取与实体主参考标识符识别出的每一身份相关的额外元数据。这一处理是一项高度并行化的处理,其中,对信息段执行诸如自然语言处理和信息提取的繁重的计算操作。信息提取属于自然语言处理范畴,其由非结构化或者结构化文本识别出某些类型的实体(例如,人、位置、货币、日期、组织、产品)。实体识别技术涉及采用列表、规则或二者的结合。也可以按照实体层次对实体添加标签。将实体存储在整合箱12的实体存储器25内。此外,也可以将在对信息段进行处理的同时在信息段中识别出的实体存储到实体存储器25内。
在通过映射机构根据资源目录的实体对信息段进行处理之后,将信息段存储在专用存储器25内。顺便提及,有可能根据实体类型按照整合箱12的初始配置申明映射至实体类型的每一信息段是可存储的,还是不可存储的。如果申明实体类型是不可存储的,那么将不存储所述信息段。相反,如果将信息段映射的实体类型配置为可储存,那么将所述信息段按照其原始格式存储到处于整合箱之内的信息段存储器22内,其有可能带有在映射阶段生成的额外的元数据,并且一定会采用对所述段进行处理所采用的资源的版本编号对其进行注释。实际上,从上文显见,所述实体被存储在了被称为实体存储器25的资源目录内。资源目录对应于某一实体种类,每一资源目录都具有版本编号。
所述信息段处理可能采用(例如)上文提及的实体识别揭示新的实体。可以采用资源识别实体,所述资源可以由列表、字典、类属词典或本体论构成。将这些新的实体存储在实体存储器25内。添加至资源目录25的新的实体可以包含注释,所述注释指示赋予所述资源目录的版本编号,在添加这一新的实体的情况下,所述版本编号被修改一次。相应地,执行对对应的资源目录的更新,其涉及改变每一资源目录的相应版本编号。此外,先前看到的(存储在信息段存储器22内的)信息流的一些部分可能包含针对这些新的实体的信息。因此,对所存储22的信息段进行重新处理,所述信息段包含指示采用前一版本的资源目本对其进行过处理的注释。也可以根据添加至资源目录的新的实体执行对存储信息段的重新处理。可以理解,对每一信息段的注释是有利的,因为所述过程能够选择出那些采用先前的实体资源处理过的存储在信息段存储器22中的段。不选择对未采用相同类型的实体资源进行过处理的段进行重新处理。因此,依托这一选择,仅对存储在存储器22中的信息段的子集进行处理,因此,节约了计算资源,改善了处理时间。此外,通过识别出可能必须对哪些信息源进行重新处理,还减少了必须存储的信息流的信息段,从而降低了存储成本。就一个额外的优点而言,所述资源版本编号允许在对信息段的重新处理过程中仅提取针对在新版本的实体资源目录中出现的实体的信息:实际上,在这些资源目录中,还采用每一实体第一次出现所处的资源目录的版本编号对所述实体注释,从而允许系统在重新处理的过程中识别出哪些实体可能需要新的信息提取。而且,在对存储信息段进行重新处理时,通过仅针对新的实体提取信息,再一次减少了处理时间。
顺便提及,在对来自信息流的信息段进行处理的同时,可能会揭示出新的实体,但是也可能是由用户输入新的实体。此外,整合箱12还可以提供对自然语言处理资源进行动态更新的接口。每一资源占有一个版本编号。一旦实施了资源更新,那么版本编号就将发生变化,因此可以执行对所涉及的信息段的重新处理。
接下来,在通过映射机构进行处理,并将信息段与任何额外的元数据一起存储之后,将经处理的信息段添加到简化器队列23内。每一实体具有按照整合箱12的配置定义的相关简化器。简化器是能够将一个或几个信息段作为输入的计算机程序。
在简化阶段24创建简档。如果具有相同的主参考标识符的实体已经存在,那么将其从相对于整合箱处于本地的实体存储器25中取出。按照目标化的实体顺次处理信息段。简化机构将所有的简档存储到相对于整合箱12处于本地的简档存储器内,甚至将那些缺失了一些必要的元数据的简档也存储到其内。
如果简档包含按照整合箱配置针对这一实体类型定义的所有必要元数据,那么简化机构24还将所述简档发送至处于整合箱12之外的索引链11。
现在将介绍示出了根据本发明的过程的实施例的方案。在这一方案中,整合箱12处理三个信息源:饭店网站、评论和博客发帖(又称为博客帖子)。由经处理的信息构建饭店的简档,所述简档可以包括诸如名称、地址、支付方法、菜单、客户意见等与每一饭店相关的字段。
两个连接器26、27访问信息流源,并将信息段从信息流推入整合箱12。一个连接器从几个饭店评论网站提取饭店信息和评述,并将其推入到整合箱12内,第二个连接器从几个博客提取博客帖子,并将其推入到整合箱12。
在这一方案中,第一连接器向整合箱提供下述信息段:
<Dat atype="饭店">
<met aname="URI"
value="http://www.restaurantreviews.com/ABCRestaurant"/>
<met aname="饭店名称"value="ABC饭店"/>
<meta name="地址"value="123餐饮街"/>
</Data>
所述信息段包括类型“饭店”、任选通用资源标识符http:// www.restaurantreviews.com/ABCRestaurant和一组无约束元数据,每一元数据包括关键字和值构成的对(例如,关键字名称=“饭店名称”,值=“ABC饭店”)。因而,这一信息段是饭店信息段。
整合箱12对这一饭店信息段进行处理。针对“饭店”类型的信息段计算主参考标识符发生器。按照整合箱12的配置与这一信息段类型(“饭店”)相关的主参考标识符发生器对饭店地址和名称进行分析,并使其规格化,以生成实体“名为ABC饭店的饭店”的唯一实体主参考标识符。将所述实体主参考标识符作为新的元数据添加至所述信息段。在采用这一实体主参考标识符作为唯一关键字的情况下,将针对同一实体“名为ABC饭店的饭店”跨越不同的评论网站收集的信息汇集到这一实体的同一简档内。有利地,如果存在另一个具有不同的街道地址的“ABC饭店”,那么所述发生器将为这一第二个饭店生成不同的实体主参考标识符,因而在实体“名为ABC饭店的饭店”和作为另一个饭店实体的第二饭店之间实现了区分。
接下来,由于所述信息段具有URI作为元数据,因而整合箱的管理器将URI和先前计算的实体主参考标识符之间的映射登记到相对于整合箱12处于本地的文档Id散列表,即DIH内。所述散列表是采用散列函数将实体主参考标识符有效地映射至相关URI的数据结构。有利地,散列表的使用允许执行有效的搜索。
之后,整合箱管理器将饭店信息段推入到映射器队列22内。通过将信息流分配到映射器队列中实现根据信息流的类型(或信息)选择映射器队列。由于这一信息段与具有“饭店”类型的实体相关,因而将饭店信息段发送到针对饭店类型信息段的映射器队列中。通过整合箱管理器激活映射器管理器程序,通过映射-简化机构21处理映射器队列中的饭店信息段。
接下来,由映射器管理器提取饭店信息段,并将其发送至饭店映射器。饭店映射器为程序,其在相对于整合箱处于本地的资源内检验所述(饭店名称、实体主参考标识符)对是否已经存在。如果在所述资源内不存在映射器程序提取的所述(饭店名称、实体主参考标识符)对,那么对所述资源编程,以实施更新,将新的信息存储到本地文件内,并将所述资源标识为“不净”,表示存在可用来在以后的某一时间构建新的版本的信息。
接下来,由于未将饭店信息段配置为可存储,因而不将其写到信息段存储器22内。
之后,由映射器21将饭店信息段发送到简化队列23内。
在触发简化阶段后,由饭店实体简化器处理所述饭店信息段。由于还不存在针对实体“名为ABC饭店的饭店”的实体主参考id的简档,因而创建新的简档。所述新的简档包括类型和预定义的元数据组,每一元数据包括关键字和值构成的对。所述简档具有映射器生成的全部信息,所述信息是由原始信息段以及与实体“名为ABC饭店的饭店”的这一实体主参考标识符相关的简化队列中任何其他信息段生成的。
之后,将最新修改的简档存储到简档储存库,即简档存储器29内。如果所存储的简档包含所需的全部元数据,即,简档的所有强制性字段都得到了填写,那么发送所述简档,从而由处于整合箱12之外的经典的索引引擎11为所述简档编写索引。
第二连接器提供下述博客帖子信息段,并将其发送至整合箱:
<Data type="博客帖子">
<meta name="URI"value="http://www.foodblog.com/entries/1"/>
<meta name="文本"value="我们今天去ABC饭店体验了一下,感觉非常棒。"/>
</Data>
整合箱对这一信息段进行处理,其方式是首先将这一具有“博客帖子”类型的信息段发送至按照整合箱配置相关的针对“博客帖子”类型(例如,信息流的源为博客)的信息段的主参考标识符发生器程序。这一主参考标识符发生器程序生成文档的简单指纹作为其主参考标识符。因而,这一信息段是博客帖子信息段。
接下来,由于博客帖子信息段具有URI,因而增加DIH中的条目,从而将博客帖子信息段的URI映射至其实体主参考标识符。
之后,整合箱12的管理器将博客帖子信息段插入到队列20内,以供映射。
之后,由整合箱的管理器激活映射管理器程序,从而通过专用于“博客帖子”类型的信息段的映射器21处理博客帖子信息段。这一“博客帖子”映射器针对包含饭店名称的资源执行自然语言处理匹配。如果“博客帖子”映射器21在博客帖子中检测到已知饭店名称,那么具有饭店实体主参考标识符的注释添将被加至博客帖子信息段。在这种情况下,由于尚未采用实体“名为ABC饭店的饭店”的名称“ABC饭店”来更新“饭店名称”的资源目录,因而到目前为止没有匹配的名称。
接下来,由于按照整合箱12的配置将具有“博客帖子”类型的信息段申明为可储存,因而将这一博客帖子信息段存储到信息段存储器22内,对所述信息段做出注释,从而指示在对其进行处理时采用了哪一版本的资源目录。在这种情况下,当前的饭店名称资源的版本为0版本。
之后,由映射器21将博客帖子信息段发送到简化队列23内。
此后,由整合箱管理器激活简化阶段,并将由博客帖子简化器创建新的博客帖子简档。出于这一目的,将博客帖子信息段的元数据复制到新创建的简档中,对于这一博客帖子信息段的主参考id而言仍然不存在任何简档。
然后,将博客帖子简档存储到处于整合箱内的简档存储器29内。此外,如果在所述简档内存在所有必要的元数据,那么简化器还会将所述简档发送到整合箱12外,从而由经典的外部索引器11对其编写索引。
当前的饭店名称资源的版本为0版本。在某一点上,整合箱管理器将决定构建新版本的饭店名称资源。顺便提及,外部事件也可以触发资源的更新,例如,根据用户的决定。在这一新的资源版本中,即,在版本1中,实体“名为ABC饭店的饭店”的饭店名称“ABC饭店”及其主参考标识符将出现在饭店名称的资源目录中。一旦通过整合所找到的所有新的(饭店名称、实体主参考标识符)对构建了饭店名称的资源目录的这一新的版本1,那么整合箱管理器将检查本地信息段存储器22内存储的所有信息段,从而将任何采用这一资源的前一版本的信息段标示为“不净”。必须采用所述新的资源对这些数据进行重新处理,因为它们可能包含采用前一版本的资源遗漏的信息,例如,有关先前未知的饭店的信息。所述过程能够选择采用先前的资源版本处理过信息段存储器22中处理的哪些段。因此,仅对存储器22中存储的信息段的子集重新处理,因此节约了计算资源和处理时间。此外,通过识别可能必须对哪些信息源重新处理,减少了有必要存储的信息流的信息段,从而降低了存储成本。此外,由于将具有注释的信息段存储在了本地信息段存储器22内,因而在对资源更新时没有必要从外部信息源重新取出信息。其显著降低了网络带宽的消耗。
之后,整合箱管理器激活“重新处理过时商业数据”程序,其将博客帖子信息段插入到队列20内,以供映射,由此使所有“不净”信息段重新进入整合过程。
这次,映射器在博客帖子信息段的文本中匹配实体“名为ABC饭店的饭店”的饭店名称“ABC饭店”,并采用“ABC饭店”实体项目主参考标识符向博客帖子信息段添加注释。
之后,将所述博客帖子信息段排入队列,从而在博客帖子简化器和饭店简化器内进行简化。博客帖子简化器采用博客帖子的主参考标识符对本地简档存储器29进行搜索,找到先前构造的对应于这一博客帖子的简档,之后,将所述饭店的主参考标识符添加至这一现有博客帖子简档。
对这一相同的博客帖子信息段进行简化的饭店简化器取出实体“名为ABC饭店的饭店”的简档,并增大与这一实体相关的博客帖子的数量,或者在映射器向博客帖子信息段添加过意见分析元数据的情况下计算意见分析。
最后,将博客帖子简档和饭店简档二者均存储在简档存储器内,如果它们均包含其相应的强制的元数据组,那么将其发送至外部索引器11。
在这一方案中处理的第三种信息源是饭店评论。与来自不同连接器的,需要自然语言处理技术的博客帖子形成对照的是,在与饭店相同的网页上或者在直接链接至饭店的网页上提取评论。
饭店连接器将下述信息段(具有“评论”类型)推向整合箱:
所述整合箱管理器将所述信息段的评论发送至与评论信息段相关的主参考id发生器。由于评论并不具有复杂的消解规则,因而仅分配简单的文档指纹作为其评论主参考标识符。
接下来,由于评论信息段包含URI,因而在DIH中添加条目,从而将评论URI映射至其评论主参考id。
之后,对这一评论信息段进行处理,并由整合箱管理器将其发送至映射队列20。在整合管理器激活了映射机构21之后,通过评论映射器对评论信息段进行处理。这一映射器执行对DIH的简单查找,从而将饭店URI解析成饭店主参考标识符,并将对应的饭店主参考标识符作为新的元数据添加到评论信息段内。
此后,按照整合箱配置将评论信息段定义为不可存储,因而评价信息段不会被存储到本地信息段存储器22内。
接下来,映射器将增强评论信息段放置到简化队列中。在通过整合箱管理器激活简化阶段后,将通过评论简化器和饭店简化器二者对评论信息段进行处理。饭店简化器从简档存储器29取出“ABC饭店”简档,并增大与这一饭店相关的评论的数量,或者计算意见分析,并将更新后的饭店简档重新存储到简档存储器29内。评论简化器创建新的评论简档,并将评论信息段的元数据复制到评论信息段的简档内。
最后,将所述评论的简档存储到简档存储器29内,并且在存在所有的必要元数据的情况下最终将其发送至索引引擎11。
应当理解,可以将上述方法应用于任何具有能够由系统定义的任何配置的信息流。可以通过数字电子电路、计算机硬件、固件、软件或其组合实现本发明。可以通过确实地包含在机器可读存储装置内的、供可编程处理器执行的计算机程序产品实现本发明的设备;可以通过可编程处理器执行本发明的方法步骤,所述可编程处理器执行指令的程序,从而通过对输入数据进行运算并生成输出来执行本发明的功能。
有利地,可以通过一个或多个计算机程序实现本发明,所述计算机程序可以在可编程系统上执行,所述系统包括至少一个可编程处理器,所述可编程处理器被耦合为与数据存储系统、至少一个输入装置和至少一个输出装置之间进行数据和指令的接收以及数据和指令的发送。所述应用程序可以通过高级过程编程语言或面向对象的编程语言,或者根据预期通过汇编或机器语言实现;在任何情况下,所述语言都可以是编译语言或解释语言。
图5示出了诸如整合箱的计算机系统。所述整合箱包括连接至内部通信总线100的中央处理单元(CPU)101以及同样连接至所述总线的随机存取存储器(RAM)。大容量存储装置控制器102管理对诸如硬盘驱动器103的大容量存储装置的访问。适于确实地包含计算机程序指令和数据的大容量存储装置包括所有形式的非易失性存储器,例如,其包括诸如EPROM、EEPROM和闪速存储器的半导体存储装置;诸如内部硬盘和可换盘的磁盘;磁-光盘;以及CD-ROM盘104。上文所述的任何装置均可以由专用设计ASIC(专用集成电路)补充或者结合在其中。网络适配器107管理对网络108的访问。所述整合箱可以包括显示器106和触摸装置。通过这种方式,用户可以与计算机系统相互作用,从而(例如)修改自然语言处理资源。
已经描述了本发明的优选实施例。应当理解,在不背离本发明的精神和范围的情况下可以做出各种修改。因此,其他实现也处于下述权利要求的范围内。例如,可以通过索引引擎执行本发明的过程。

Claims (12)

1.一种用于处理与根据文本资源识别出的实体相关的信息的计算机实现的过程,所述实体包含在文本信息流内,将实体存储在系统的资源目录中,每一类型的实体包含于对应的资源目录中,采用在添加至少一个相同类型的新的实体的情况下修改的版本编号对所述对应的资源目录进行了注释,所述过程包括步骤:
-从不同的信息源检索文本信息流(10);
-根据所述资源目录的实体(25)处理(12)来自所述文本信息流的信息段,其中经处理的信息段包括类型和一组无约束元数据,每一元数据包括关键字和值的对;
-存储(13)信息段,所述信息段具有注释,所述注释指示所述资源目录的哪一版本用于对所述信息段进行过处理;
-采用由对来自文本信息流的信息段进行处理得到的信息充实一现有实体的简档;
-采用至少一个新的实体(25)对所述资源目录中的至少一个进行更新,并更新所述至少一个资源目录的版本编号;
-重新处理(12)所存储的信息段,所述信息段包含指示采用所述至少一个资源目录的前一版本对所述信息段进行过处理的注释;以及
-创建添加至所述至少一个资源目录的所述至少一个新的实体的新的简档,并采用由对来自文本信息流的信息段进行处理得到的信息充实所述新的简档,其中添加至所述至少一个资源目录的所述至少一个新的实体包含指示在添加所述至少一个新的实体的情况下被修改了一次的赋予所述至少一个资源目录的版本编号的注释,并且其中,所述重新处理的步骤还包括:
从所述至少一个资源目录中,提取包含指示在处理所述信息段之后所述至少一个新的实体已被添加到所述至少一个资源目录的注释的所述至少一个新的实体;以及
根据所提取的至少一个新的实体来重新处理所存储的信息段。
2.根据权利要求1所述的过程,其中,向每一经处理的信息段以及向每一实体分配唯一标识符。
3.根据权利要求2所述的过程,其中,分配给每一新的实体的标识符与揭示所述的每一新的实体的经处理的段的标识符相同。
4.根据权利要求1到3中的任何一项所述的过程,其中,在处理来自文本信息流的信息段的步骤中,揭示了新的实体或者用户输入了新的实体,并且将所述新的实体添加到对应的资源目录中。
5.根据权利要求1到3中的任何一项所述的过程,其中,所述经处理的信息段是数据结构。
6.根据权利要求1到3中的任何一项所述的过程,其中,根据选择的信息源存储来自文本信息流的经处理的信息段。
7.根据权利要求1到3中的任何一项所述的过程,还包括在对来自信息流的信息段进行处理的步骤之前的下述步骤:
-将检索到的文本信息流分配到映射器队列中,根据文本信息流的信息源选择映射器队列,并通过映射-简化机构对所述映射器队列进行处理。
8.根据权利要求4所述的过程,还包括在对来自信息流的信息段进行处理的步骤之后的下述步骤:
-将经处理的文本信息流分配到简化器队列中,根据信息流的信息源选择简化器队列;以及
-对于每一揭示出的新的实体,创建所述揭示出的新的实体的新的简档,并采用由对来自文本信息流的文本信息段进行处理的步骤得到的信息充实所述简档;
其中,所述现有实体的简档或者所述揭示出的新的实体的新的简档包括类型和预定义的元数据组,每一元数据包括关键字和值的对。
9.根据权利要求8所述的过程,其中,将现有实体的简档和所述新的实体的新的简档存储在简档储存库中。
10.根据权利要求8到9之一所述的过程,还包括的步骤:
-将完成的实体的简档发送至索引引擎。
11.根据权利要求2所述的过程,其中,在对来自文本信息流的信息段进行处理的步骤中,系统将在一个信息段中识别出的通用资源定位器和分配给所述的一个信息段的唯一标识符之间的映射登记到散列目录中。
12.一种用于处理与根据文本资源识别出的实体相关的信息的设备,所述实体包含在文本信息流内,将实体存储在系统的资源目录中,每一类型的实体包含于对应的资源目录中,采用在添加至少一个新的实体的情况下修改的版本编号对所述对应的资源目录进行了注释,所述设备包括用于实施根据权利要求1到3中的任何一项所述的过程的步骤的模块。
CN201080058181.3A 2009-10-27 2010-10-12 用于处理信息流的信息的方法和系统 Active CN102667776B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09290821A EP2325762A1 (en) 2009-10-27 2009-10-27 Method and system for processing information of a stream of information
EP09290821.9 2009-10-27
PCT/IB2010/054605 WO2011051849A2 (en) 2009-10-27 2010-10-12 Method and system for processing information of a stream of information

Publications (2)

Publication Number Publication Date
CN102667776A CN102667776A (zh) 2012-09-12
CN102667776B true CN102667776B (zh) 2017-05-10

Family

ID=41647191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080058181.3A Active CN102667776B (zh) 2009-10-27 2010-10-12 用于处理信息流的信息的方法和系统

Country Status (7)

Country Link
US (1) US9122769B2 (zh)
EP (1) EP2325762A1 (zh)
JP (1) JP5697172B2 (zh)
KR (1) KR101775883B1 (zh)
CN (1) CN102667776B (zh)
CA (1) CA2779366C (zh)
WO (1) WO2011051849A2 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501455B2 (en) * 2011-06-30 2016-11-22 The Boeing Company Systems and methods for processing data
US8521769B2 (en) 2011-07-25 2013-08-27 The Boeing Company Locating ambiguities in data
KR101603290B1 (ko) 2011-12-14 2016-03-25 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 연결된 장치들을 위한 시맨틱 캐쉬 클라우드 서비스
CN102646072B (zh) * 2012-02-28 2014-10-29 信雅达系统工程股份有限公司 数据管理方法
CA2789909C (en) * 2012-09-14 2019-09-10 Ibm Canada Limited - Ibm Canada Limitee Synchronizing http requests with respective html context
US20140156399A1 (en) * 2012-12-03 2014-06-05 Meal Ticket Wholesale food marketing and distribution platform
WO2014149555A1 (en) * 2013-03-15 2014-09-25 Thomson Reuters Global Resources Method and system for generating and using a master entity associative data network
KR101411563B1 (ko) * 2013-11-01 2014-06-25 한국과학기술정보연구원 리소스 지역성에 기초한 분산 처리 시스템 및 분산 처리 방법
EP3117587B1 (en) * 2014-03-11 2020-11-11 Convida Wireless, LLC Enhanced distributed resource directory
US9773070B2 (en) 2014-06-30 2017-09-26 Microsoft Technology Licensing, Llc Compound transformation chain application across multiple devices
US9356913B2 (en) 2014-06-30 2016-05-31 Microsoft Technology Licensing, Llc Authorization of joining of transformation chain instances
US9396698B2 (en) 2014-06-30 2016-07-19 Microsoft Technology Licensing, Llc Compound application presentation across multiple devices
US9659394B2 (en) 2014-06-30 2017-05-23 Microsoft Technology Licensing, Llc Cinematization of output in compound device environment
US9893944B2 (en) 2014-10-01 2018-02-13 International Business Machines Corporation Managing network bandwidth based on cognitive analysis of site content against organizational needs
CN106202092B (zh) 2015-05-04 2020-03-06 阿里巴巴集团控股有限公司 数据处理的方法及系统
JP6859620B2 (ja) * 2015-10-14 2021-04-14 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及び情報処理プログラム
US11536576B2 (en) 2017-02-23 2022-12-27 Here Global B.V. Map data compatibility processing architecture
EP4004858A4 (en) * 2019-07-25 2023-06-21 Truvalue Labs, Inc. SYSTEMS, METHODS AND DEVICES FOR GENERATE REAL-TIME ANALYSIS
CN112584200B (zh) * 2020-12-10 2023-06-30 北京奇艺世纪科技有限公司 投屏方法、系统、电子设备及存储介质
US11960865B2 (en) * 2021-08-27 2024-04-16 Baker Hughes Holdings Llc Industrial analytics data processing
JP7455162B2 (ja) 2022-07-08 2024-03-25 株式会社トヨタシステムズ 情報管理システム、情報管理装置、情報管理方法及び情報管理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1542140A2 (en) * 2003-12-13 2005-06-15 Samsung Electronics Co., Ltd. Method and apparatus for managing data written in markup language
US7035925B1 (en) * 2001-12-05 2006-04-25 Revenue Science, Inc. Parsing navigation information to identify interactions based on the times of their occurrences

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025379B2 (ja) 1996-09-17 2007-12-19 株式会社ニューズウオッチ 検索システム
JP2002351873A (ja) * 2001-05-23 2002-12-06 Hitachi Ltd メタデータ管理システムおよび検索方法
US7590310B2 (en) * 2004-05-05 2009-09-15 Facet Technology Corp. Methods and apparatus for automated true object-based image analysis and retrieval
JP2005322159A (ja) * 2004-05-11 2005-11-17 Canon Inc データ連携システム及び方法
US7756919B1 (en) * 2004-06-18 2010-07-13 Google Inc. Large-scale data processing in a distributed and parallel processing enviornment
US7523137B2 (en) 2005-04-08 2009-04-21 Accenture Global Services Gmbh Model-driven event detection, implication, and reporting system
US7849049B2 (en) 2005-07-05 2010-12-07 Clarabridge, Inc. Schema and ETL tools for structured and unstructured data
US20100179876A1 (en) * 2007-05-04 2010-07-15 Bjorn Holte Computer-accessible medium, method and system for assisting in navigating the internet
JP5229731B2 (ja) 2008-10-07 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 更新頻度に基づくキャッシュ機構

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035925B1 (en) * 2001-12-05 2006-04-25 Revenue Science, Inc. Parsing navigation information to identify interactions based on the times of their occurrences
EP1542140A2 (en) * 2003-12-13 2005-06-15 Samsung Electronics Co., Ltd. Method and apparatus for managing data written in markup language

Also Published As

Publication number Publication date
CN102667776A (zh) 2012-09-12
US9122769B2 (en) 2015-09-01
WO2011051849A2 (en) 2011-05-05
KR101775883B1 (ko) 2017-09-07
CA2779366A1 (en) 2011-05-05
WO2011051849A3 (en) 2011-07-14
EP2325762A1 (en) 2011-05-25
US20120203747A1 (en) 2012-08-09
JP2013508873A (ja) 2013-03-07
JP5697172B2 (ja) 2015-04-08
KR20120101365A (ko) 2012-09-13
CA2779366C (en) 2018-07-31

Similar Documents

Publication Publication Date Title
CN102667776B (zh) 用于处理信息流的信息的方法和系统
US8990236B2 (en) Method, computer product program and system for analysis of data
JP7340286B2 (ja) 知識グラフを用いてサイバーセキュリティを提供する方法、装置及びコンピュータプログラム
Boella et al. Eunomos, a legal document and knowledge management system to build legal services
CN102567521B (zh) 网页数据抓取过滤方法
Jeffrey et al. The Archaeotools project: faceted classification and natural language processing in an archaeological context
Kubitza et al. SemanGit: A linked dataset from git
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
Nogales et al. Linking from Schema. org microdata to the Web of Linked Data: An empirical assessment
Martin et al. Evidence of the impacts of pharmaceuticals on aquatic animal behaviour: a systematic map protocol
Sassi et al. Supporting ontology adaptation and versioning based on a graph of relevance
Swertz et al. Towards an interoperable ecosystem of research cohort and real-world data catalogues enabling multi-center studies
Moura et al. Integration of linked data sources for gazetteer expansion
Svátek et al. Linked open data for public procurement
Embury et al. On the Feasibility of Crawling Linked Data Sets for Reusable Defect Corrections.
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
Risch et al. Measuring and facilitating data repeatability in web science
Ren et al. Validation of CORE-MD PMS Support Tool: A Novel Strategy for Aggregating Information from Notices of Failures to Support Medical Devices’ Post-Market Surveillance
Vysotska et al. Set-theoretic models and unified methods of information resources processing in e-business systems
Pandian et al. A Unified Model for Preprocessing and Clustering Technique for Web Usage Mining.
Alqasab et al. Amplifying data curation efforts to improve the quality of life science data
Hyam Taxa, Taxon Names and Globally Unique Identifiers in Perspective’
Zapilko et al. A LOD backend infrastructure for scientific search portals
Gaur Data mining and visualization on legal documents
Agarwal et al. Discovering optimal patterns for forensic pattern warehouse

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: DASSAULT SYS OF AMERICA

Free format text: FORMER OWNER: EXALEAD S. A.

Effective date: 20150109

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150109

Address after: French Velizy - veraku Bligh

Applicant after: Dassault Sys of America

Address before: France

Applicant before: Exalead

GR01 Patent grant
GR01 Patent grant