CN102207936B - 用于提示电子文档内容变更的方法和系统 - Google Patents

用于提示电子文档内容变更的方法和系统 Download PDF

Info

Publication number
CN102207936B
CN102207936B CN2010101369759A CN201010136975A CN102207936B CN 102207936 B CN102207936 B CN 102207936B CN 2010101369759 A CN2010101369759 A CN 2010101369759A CN 201010136975 A CN201010136975 A CN 201010136975A CN 102207936 B CN102207936 B CN 102207936B
Authority
CN
China
Prior art keywords
named entity
change
information
relation information
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101369759A
Other languages
English (en)
Other versions
CN102207936A (zh
Inventor
吴贤
袁泉
张夏天
赵石顽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM China Co Ltd
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2010101369759A priority Critical patent/CN102207936B/zh
Priority to US13/074,182 priority patent/US20110246462A1/en
Publication of CN102207936A publication Critical patent/CN102207936A/zh
Application granted granted Critical
Publication of CN102207936B publication Critical patent/CN102207936B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于提示电子文档内容变更的方法、系统以及一种建立用于建立所述关系信息变更历史数据库的方法和系统。其中所述方法包括:响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。通过本发明用户可以了解有关电子文档的相关更改,从而可以高效地获得有关信息。

Description

用于提示电子文档内容变更的方法和系统
技术领域
本发明总体上涉及信息处理技术领域,特别地,涉及一种用于提示电子文档内容变更的方法及系统。
背景技术
在当今信息迅速增长的世界,存在着大量的电子文档,这些电子文档包括互联网上的海量网页,通过OCR(光学字符识别)等技术积累的电子文档等等。通过各种应用,用户可以非常方便地获得各种信息。比如,搜索引擎可以帮助用户检索到各种相关的电子文档以方便用户阅读和使用。
然而,用户在关心现有的各种应用所提供的信息的数量的同时,也对信息的质量非常关心。尤其现在互联网已经进入Web 2.0时代,信息来源既有来自于权威的新闻单位或者大公司,同时也存在大量来自用户个人提供的大量信息,因此信息的质量存在很大的差异。另外由于各种文档的信息在随着时间而不断地进行变更,读者阅读到的相关电子文档的信息也许已经过时,而如果用户根据过时的信息作出判断或者行动,往往会导致事与愿违的结果。另外,有时用户对文档的过去的信息更改也希望了解,而目前没有相应的技术来方便快捷地满足用户的相关需求。
发明内容
本发明一方面提供一种用于提示电子文档内容变更的方法,所述方法包括:响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。
优选地,所述分析所述请求以获得所述相关信息包括识别所述电子文档的至少部分命名实体。
优选地,所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更。
本发明另一方面提供一种用于建立所述关系信息变更历史数据库的方法,所述关系信息变更历史数据库用于上述确定用户所请求的电子文档的至少部分命名实体之间的关系信息是否存在变更,该方法包括:提取多个所述电子文档的命名实体之间的关系信息;基于所述关系信息,建立关系信息变更历史数据库。
本发明另一方面提供一种用于提示电子文档的变更的系统,所述系统包括:用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息的装置;用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更的装置;以及用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更的装置。
由此可见,本发明一方面可以提示相关电子文档的更新,尤其是网络电子文档上过期的信息,从而提高万维网上信息的质量,这在Web 2.0时代显得更为重要。本发明另一方面还可以使用户可以方面查看信息变化历史,这无疑都大大提高了用户阅读电子文档的体验和获得准确信息的效率。
附图说明
为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中:
图1示出了本发明用于提示电子文档内容变更的第一具体实施方式;
图2示出了本发明用于提示电子文档内容变更的第二具体实施方式;
图3示出了本发明用于提示电子文档内容变更的第三具体实施方式;
图4示出了本发明用于建立关系信息变更历史数据库的具体实施方式;
图5示出了本发明用于提示电子文档内容变更的第四具体实施方式;
图6示出了本发明的一个具体应用示例;
图7示出了本发明用于提示电子文档内容变更的系统的结构框图;
图8示出了本发明用于建立关系信息变更历史数据库的系统的结构框图。
具体实施方式
现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。
现在参考图1来详细描述本发明用于提示电子文档的变更的第一具体实施方式。在步骤101中,响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息。比如,用户可能会通过点击相关网站的相关链接,或者在应用中提交所要浏览电子文档的存储路径等来提交其浏览电子文档的请求。所述分析所述请求以获得所述请求相关信息可以包括分析该请求获得电子文档的URL(统一资源定位符)、存储路径、电子文档的全局唯一代码或者其它形式的电子文档的唯一标识符,也可以包括基于用户的请求获得电子文档而对所述电子文档进行命名实体识别以获得所述电子文档的相关命名实体等所述请求相关信息。其中命名实体识别(Named Entity Recognition)是指自动识别文本中具有特定意义的实体(如果所述电子文档不是文本形式,可以通过多种现有工具将其转换为文本格式),例如日期,数字,人名,组织名,化学名称等等。命名实体识别问题可以定义成分类问题,即每一个词属于预先定义的表示区域位置信息的类别。可以用{wi} i=0,1,K,m表示文本的Token序列,目的是给每一个文本符号wi分配一个类标签ti,ti的取值为预先定义的类标签集合。一般使用传统的BIO编码系统作为文本符号的类标志。其中B表示当前的词是名称的起始部分,I表示当前的词是名称的一部分但是为非起始部分,0表示当前的词不是名称的一部分。学习系统的任务就是预测每一个文本符号wi的类标签ti。已有的命名实体识别方法大致可分为三种:基于字典的,基于规则的和基于机器学习的。目前基于学习的系统逐渐成为NER的主流,其又可进一步分为两类:基于分类器的系统和基于马尔可夫模型的系统。前者包括支持向量机0等;后者包括HMM0、MEMM0、CRF0等,在解决诸如语音识别和词性标注之类的序列标注问题时,优势尤为突出。具体可以参见[1]T.R.Leek.Information extractionusing hidden markov models.Master’s thesis,UC San Diego,1997、[2]A.McCallum,D.Freitag,and F.Pereira.Maximum entropy Markov models forinformation extraction and segmentation.In Proc.17th InternationalConf.on Machine Learning,pages 591-598、[3]Morgan Kaufmann,SanFrancisco,CA,2000.,J.Lafferty,A.McCallum,and F.Pereira.Conditional random fields:Probabilistic models for segmenting andlabeling sequence data.In Proc.18th International Conf.on MachineLearning,pages 282-289.Morgan Kaufmann,San Francisco,CA,2001和[4]Nello Cristianini and John Shawe-Taylor.An Introduction to SupportVector Machines and other。在本发明中,命名实体识别用来寻找和定位无结构文档中人名,地址,日期等信息。对于具体的命名实体的识别方法在此不作进一步的阐述,以上具体的命名实体的识别方法仅是示例性的,对本发明的保护范围不构成限制。
在步骤103中,基于在步骤101中所得到的所述相关信息,确定所述电子文档的命名实体之间的关系信息是否存在变更。其中本发明对确定所述电子文档的命名实体之间的关系信息是否存在变更存在多种实施方式,优选地,基于本申请,可以将各种电子文档的命名实体之间的关系信息的变更信息存储为数据库,根据由分析电子文档的命名实体作为检索条件,对该数据库进行检索,或者预先将电子文档的变更提示存于数据库,并记录所述电子文档的唯一标识符,而基于电子文档的唯一标识符而至少将该变更信息发送给客户端。图2、3示了两种优选的实施方式,具体细节将在讨论图2、3进行描述。本领域技术人基于本申请可以构思出其它实施方式。在步骤105中,如果所述关系信息存在变更,则至少向客户端发送所述关系信息的变更。如果在步骤103中判断出电子文档的命名实体之间的关系信息存在变更,则确定出命名实体之间的关系信息的变更,并将该变更发送给客户端。在客户端,可以通过浮动式提示栏、修改标记、透明显示等方式对用户进行提示。这些提示方式都可以通过在客户端的浏览器增加功能插件,或者使用Javascript脚本语言,将信息的变化历史在用户浏览网页的时候展现出来。图6示出了本发明的一个具体应用。
图2示出了本发明用于提示电子文档内容变更的方法的第二种具体实施方式。其中,在步骤201中,识别所述电子文档的至少部分命名实体。在该步骤中,可以利用上述介绍的各种命名实体识别方法进行命名实体的识别,从而可以获得所述电子文档的多个命名实体,优选至少包括两个相邻的命名实体,比如在同一个句子中的两个命名实体。在步骤203中,根据所述电子文档的命名实体检索关系信息变更历史数据库。其中可以将两个相邻的命名实体作为检索条件,在关系信息变更历史数据库进行检索,优选地,对关系信息变更历史数据库进行索引,以缩短检索时间和提高检索效率。基于本申请可以通过各种方式建立关系信息变更历史数据库。图4、5示出了建立关系信息变更历史数据库的优选方式,对此将在后面进行详细描述。在步骤205中,如果在所述关系信息变更历史数据库检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更。在关系信息变更历史数据库中,将记录电子文档的命名实体的关系信息,比如以<主语,关系,对象,时间>这样的表征关系信息的四元组对命名实体的关系信息变更历史进行记录,并对其进行索引。关系信息并不限于上述内容,还可以由用户定义其感兴趣的相关信息,也可以采用其它不同的数据结构来表述所述关系信息。在步骤207中,如果在步骤205中确定所述关系信息存在变更,则至少向客户端发送所述至少部分命名实体的关系信息的变更。图2所示第二种实施方式可以实现对用户浏览的任何形式的电子文档的提示,对电子文档的格式没有特别的要求,并且大大地扩大了用户对大量文档的高质量信息的要求。
图3示出了本发明用于提示电子文档的变更的方法的第三种具体实施方式。其中,在步骤301中,识别所述电子文档的唯一标识符。电子文档的URL,存储路径、电子文档的全局唯一代码或者其它形式的电子文档的唯一标识符都可以作为该电子文档的唯一标识符,电子文档的唯一标识符可能存在于用户的请求中,也可能在访问的内容服务器中,本领域技术人员可以基于本申请通过各种分析手段获得。在步骤303中,根据所述唯一标识符检索关系信息变更历史数据库。在该关系信息变更历史数据库中,存储有由所述唯一标识符所标示的电子文档以及提示的命名实体之间的关系信息的变更。该数据库可以由电子文档的唯一标识符来建立检索的索引。在步骤305中,如果在所述关系信息变更历史数据库检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。即如果在关系信息变更历史数据库中找到了通过分析客户端请求得到的唯一标识符的检索条目,且该检索条目记录了该电子文档及其电子文档的命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。以及在步骤307中,向用户发送所述电子文档的相关所述变更。由于上面已经检索到记录了该电子文档及其电子文档的命名实体之间的关系信息的变更的检索条目,则可以向用户发送所述电子文档的相关变更。优选地,如果服务方提供方本身就拥有所述电子文档的版权或者版权使用权,也可以同时向用户发送该电子文档,而无需向第三方请求该电子文档。并采用以上所述的多种提示方式之一向用户显示,从而保证了用户获得最接近实际或者最新的信息,或者了解了命名实体之间的关系信息的演变历史,大大地提高了用户的使用体验,具有显著的技术效果。这种方法结合到如Google,Baidu这样的搜索引擎工具中,会使得用户有更好的体验。
图4本发明用于建立关系信息变更历史数据库的具体实施方式。其中在步骤401中,提取电子文档中的命名实体的关系信息。其中包括对电子文档的命名实体的识别,以及相邻命名实体之间的关系信息的识别和分类。所述关系信息可以是一个四元组,包括主语和对象的命名实体、命名实体之间的关系以及时间信息。在步骤403中,对所述命名实体之间的关系信息建立索引。为了提高查询效率,应当对所述关系信息建立相关索引。优选地可以根据时间信息判断电子文档是否存在相应的命名实体之间的关系信息的变更,如果存在,则形成变更标记的所述电子文档并存储,并根据电子文档的唯一标识符、命名实体、命名实体以及命名实体之间的关系建立相关索引。优选地,还包括对所述命名实体之间的关系信息进行去重和归并。在步骤405中,存储所述关系信息以及对应的索引以建立关系信息变更历史数据库。通过上述方法就可以初步建立起关系信息变更历史数据库。由于电子文档随着时间而会不断地增多和电子文档内的信息会不断地发生变更,因此在步骤407中,就判断是否要对所建立的关系信息变更历史数据库进行定时变更,如果是,则重复上述步骤401、403和405以确保能够为用户提供及时变更的信息。
图5示出了本发明用于提示电子文档的变更的优选第四具体实施方式。其中包括了三个主要步骤:提取多个所述电子文档的命名实体之间的关系信息步骤500、基于所述关系信息,建立关系信息变更历史数据库步骤700以及内容变更提示步骤900。其中,本领域技术人员明了,可以通过网络爬虫在互联网中收集大量的新生成的网页或者变更的网页、维基百科或者百度百科的修改信息等等,也可以通过其它方式收集其它类型的电子文档。在步骤501中,接收多个电子文档,并且识别所述电子文档中的所述命名实体。在步骤503中,抽取相邻的所述命名实体的相关特征。在该步骤中,可以提取所述电子文档的时间信息,这可以通过抽取电子文档的时间戳、识别电子文档记载的日期等多种技术手段获得。值得注意的是,抽取文档的时间信息可以在任何恰当的步骤中进行,其顺序并没有特别的要求。特征抽取(Feature Extraction)是指从文本中抽取出特征,量化成计算机可以理解的抽象表达方式。在机器学习方法中,适合的特征抽取能大大提高机器学习模型的精度。例如,训练一个POS(Part-Of-Speech)分类器,也就是词性分类器时。第一步就是进行特征选取,这里主要关注两种特征。第一种是词本身的特征,比如这个词是否是大写,是否是数字,是否全是大写,是否全是数字,前缀后缀等。第二种是上下文特征,比如一个词的前后的词,前面词的词性等。基于这些特征,可以构建出一个机器学习模型,在标记好的数据集上训练得到这个模型的参数,用来预测没有标记的数据集。在本发明中,首先对文档中进行命名实体识别;对于两个邻近的命名实体(比如出现在同一个句子),可以抽取出以下特征,这些特征可以用来判断这两个实体的关系:
(1)实体本身特征:实体的名字,实体的类别,实体的词性等;
(2)实体关系特征:两个实体的距离字数,实体中是否有相连的动词,动词的词根等;
(3)上下文特征:两个实体周边的词。
值得注意的是,上述对特征抽取的方法仅仅是示例性的,本领域技术人员基于本发明可以使用现有的或者将来发现的相关方法,这些方法都对本发明的保护范围不构成限制。其它具体的方法还可以使用Latent Dirichlet Allocation方法得到隐含的特征等,具体可参见Blei DM,Ng AY,and Jordan MI.2003.Latentdirichlet allocation.J.Mach.Learn.Res.3(Mar.2003),993-1022。作为示例性的,比如,如果有相关电子文档介绍了IBM中国研究院的地址情况,经过上面的步骤后,就可以得到表征命名实体之间的关系信息的关系四元组如<IBM中国研究院,座落于,昊海大厦,2003年>和<IBM中国研究院,处于,钻石大厦,2005年>。在步骤505中,基于所述特征,分类相邻的所述命名实体的关系。关系分类(Relation Extraction)在得到两个邻近的命名实体后,就要来判断它们之间的关系,比如“座落于”,“任职”等。对于每一种关系,利用上面提到特征抽取方法,在事先标注好的数据集上的训练出一个分类模型。也就是说:针对每一种关系都训练出一个分类器。对于两个邻近的命名实体,使用每个分类器中进行关系预测,找出确信度最高的那个分类,如果确信度超过阀值,就将这两个实体符合该关系,反之就认为这两个实体没有关系。上述对特征抽取的方法仅仅是示例性的,本领域技术人员基于本发明可以使用现有的或者将来发现的相关方法,这些方法都对本发明的保护范围不构成限制。其它具体的方法还可以使用语法结构来进行抽取,例如可以参考Sahay S,Mukherjea S,Agichtein E,Garcia EV,Navathe SB and Ram A.2008.Discovering semantic biomedicalrelations utilizing the Web.ACM Trans.Knowl.Discov.Data 2,1(Mar.2008),1-15。经过了上述分类步骤后,就可以获得相应的关系信息,其可以表示为<主语,关系,对象,时间>的关系四元组,比如<IBM中国研究院,座落于,昊海大厦,2003年>和<IBM中国研究院,处于,钻石大厦,2005年>就会归到同一类,因为“座落于”、“处于”都是表示地址的关系。值得注意的是,上述关系四元组仅仅是示例性的,本领域技术人员基于本中请完全可以构思出其它任何合适的数据结构表达所述关系信息。
建立和变更信息变更历史数据库步骤700存在多个步骤。其中在步骤507中,判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类。预定关系可以有多种类型,比如“举办于”、“担任职务”和“上下级关系”等,也可以由用户指定其关心的预定关系类型,以满足用户的特殊需求。如果所述命名实体之间的关系不属于预定关系种类,则这样的关系信息将被丢弃。如果分类后的相邻的所述命名实体之间的关系属于预定的关系种类,则在步骤509中,对所述分类后的相邻的所述命名实体的关系进行查重和归并。首先排除重复的关系信息,然后对关系信息进行归并,比如对于关系信息<IBM中国研究院,座落于,昊海大厦,2003年>和<IBM中国研究院,座落于,钻石大厦,2005年>,这是两条具有相同主语和关系词的关系,只是宾语在不同的时间有不同的取值,就可以归并成为<IBM中国研究院,座落于,(昊海大厦,2003年)(钻石大厦,2005年)>,这就是一条关系信息变更历史的数据,包含IBM中国研究院不同时期的地址信息,存储该关系信息变更历史的数据到关系信息变更历史数据库中。否则,所述关系信息将在步骤508中丢弃。在步骤511中,对查重和归并处理后的所述分类后的相邻的所述命名实体的关系建立信息变更数据索引。为了能够迅速的获取关系信息变更历史数据,要对其进行索引,优选进行两种索引,一是针对主语和对象建立索引,这样可以由相邻命名实体检索到“IBM中国研究院”和“昊海大厦”是“座落于”关系;二是对主语和关系建立索引,这样基于上述检索到的命名实体的关系类型结果,在使用(IBM中国研究院,座落于)作为条件来查询的时候,(昊海大厦,2003年)(钻石大厦,2005年)这种历史变化都可以获得。至于具体如何建立检索条目,本领域技术人员基于本申请可以采用现有的多种技术进行,在此不再赘述。这样通过检索就能很快得到电子文档的命名实体之间的关系信息的变更。在步骤513中,将所述信息变更数据索引存储到关系信息变更历史数据库。由于电子文档随着时间而会不断地增多和电子文档内的信息会不断地发生变更,因此可以定时重复上述步骤501-513以确保能够为用户提供及时变更的信息,对此在图5中没有明确示出该步骤。
内容变更提示步骤900基于在步骤700中建立和变更的关系信息变更历史数据库向用户提供电子文档的内容变更的提示。其中,在步骤514中响应客户端对网页或者其它电子文档的浏览请求,在步骤515中,首先对电子文档进行命名实体识别。例如从文本中抽取出“IBM中国研究院”和“昊海大厦”两个命名实体。如果这两个命名实体非常邻近,则在步骤517中将这两个实体作为搜索条件送到关系信息变更历史数据库去查询,基于上述建立的索引,就可以得到<I BM中国研究院,地址(座落于),昊海大厦,2003年>这类的关系四元组,然后再将(IBM中国研究院,地址)作为搜索条件进行查询,可以得到关系的历史变化是(昊海大厦,2003年)(钻石大厦,2005年),然后通过步骤519、521将这个关系信息的变更返回给用户,提醒IBM中国研究院的地址从2005年开始就改变成了“钻石大厦”。这个过程可以由网络运营商或者搜索引擎或者其它应用提供方在后台事先运算完成,定期更新,在用户提出浏览电子文档时根据电子文档的唯一标识符其变更结果直接提供给用户,另外优选地,如果服务方本身就拥有所述电子文档的版权或者版权使用权,也可以由网络运营商或者搜索引擎或者其它应用提供方在后台将所述电子文档结合电子文档的命名实体的。另外优选地,考虑到电子文档的数量,可以只针对读者阅读量比较大的电子文档(比如互联网中的点击量高的热门帖子)在关系信息变更历史数据库建立更新纪录,这样将显著减少后台服务器的负担。当然也可以由服务器端或者用户端的插件在用户请求访问电子文档的过程中对电子文档进行命名实体的识别,这样相对而言可以减轻后台的预备工作。
除了上面所提到的IBM中国研究院地址变更的应用实例外,图6示出了本发明另一个具体应用示例。图6显示了来自网上的一条blog(博客)的内容,“World Cup”(世界杯)和“Germany”(德国)是从该条博客识别出来的部分命名实体,第二个“World Cup”和“Germany”出现在同一个句子中,我们通过使用这两个命名实体送到后台建立的关系信息变更历史数据库数据库进行检索,就可以知道两者存在“Hosted By”(主办)关系,再根据检索到的关系“HostedBy”,将“World Cup”和“Hosted By”送到后台数据库进行检索,就可以得到关系信息的历史变更过程,然后将其提供给用户。考虑到用户界面的友好性,优选在用户界面设立可选项,由用户决定是否使用该显示变更的功能。还可以在文档界面采用光标跟随的方式,只有当用户对一些内容感兴趣时,才显示相关变更,这样既可以保证用户获得变更的信息,同时也不会影响用户阅读原文。另外用户也可以限定只显示电子文档的命名实体之间某特定类型的关系信息的更新,比如用户只是关心地址、价格、名称等的变更。优选地,还可以显示相关变更内容的链接以方便用户进一步的阅读。当然本领域技术人员可以基于本申请而采用其它用户喜欢的显示方式。
图7示出了本发明用于提示电子文档内容变更的系统600。其中客户端请求分析装置701用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息;更新确认装置703则用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;更新发送装置705则用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。由于在上面已经详细阐述了相关装置所涉及的相关方法的实现,在此不再赘述。
作为优选,其中所述客户端请求分析装置701包括用于识别所述电子文档的至少部分命名实体的装置。
作为优选,其中所述更新确认装置703包括用于检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更的装置。
作为优选,其中所述相关信息包括所述电子文档的至少部分命名实体,所述更新确认装置703包括:用于根据所述电子文档的至少部分命名实体检索关系信息变更历史数据库的装置;用于如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更的装置。
作为优选,其中所述相关信息包括所述电子文档的唯一标识符,所述更新确认装置703包括:用于根据所述唯一标识符检索关系信息变更历史数据库的装置;用于如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更的装置。
作为优选,所述用于提示电子文档内容变更的系统600还进一步包括用于建立所述关系信息变更历史数据库的装置,该装置包括:用于提取多个所述电子文档的命名实体之间的关系信息的装置;用于基于所述关系信息,建立关系信息变更历史数据库的装置。
作为优选,所述用于提取多个所述电子文档的命名实体之间的关系信息的装置包括:用于接收多个所述电子文档的装置;用于识别所述电子文档中的所述命名实体的装置;用于抽取相邻的所述命名实体的相关特征的装置;用于基于所述相关特征,分类相邻的所述命名实体之间的关系的装置。
作为优选,其中所述特征包括:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征。
作为优选,其中所述用于基于所述关系信息,建立关系信息变更历史数据库的装置包括:用于判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类的装置;用于对所述分类后的相邻的所述命名实体之间的关系进行查重和归并的装置;用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置;以及用于将所述关系信息变更数据索引存储到关系信息变更历史数据库的装置。
作为优选,其中所述建立关系信息变更历史数据库的装置进一步包括用于定时收集电子文档以更新所述关系信息变更历史数据库的装置。
作为优选,其中所述用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置包括用于针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引的装置。
作为优选,其中所述唯一标识符包括以下之一:电子文档的URL、电子文档的存储路径、电子文档的全局唯一代码。其中所述关系信息包括命名实体、命名实体之间的关系以及时间信息。
图8示出了本发明用于建立关系信息变更历史数据库的系统1000的结构框图。系统1000包括关系提取装置801和关系信息变更历史数据库建立装置803。其中,关系提取装置801用于提取多个所述电子文档的命名实体之间的关系信息;关系信息变更历史数据库建立装置803用于基于所述关系信息,建立关系信息变更历史数据库。由于在上面已经详细阐述了相关装置所涉及的相关方法的实现,在此不再赘述。
作为优选,所述关系提取装置801包括:用于接收多个所述电子文档的装置;用于识别所述电子文档中的所述命名实体的装置;用于抽取相邻的所述命名实体的相关特征的装置;用于基于所述相关特征,分类相邻的所述命名实体之间的关系的装置。
作为优选,其中所述特征包括:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征。
作为优选,其中所述关系信息变更历史数据库建立装置803包括:用于判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类的装置;用于对所述分类后的相邻的所述命名实体之间的关系进行查重和归并的装置;用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置;以及用于将所述关系信息变更数据索引存储到关系信息变更历史数据库的装置。
作为优选,其中所述关系信息变更历史数据库建立装置803进一步包括用于定时收集电子文档以更新所述关系信息变更历史数据库的装置。
作为优选,其中所述用于对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引的装置包括用于针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引的装置。
另外,根据本发明的用于提示电子文档内容变更的方法和用于建立所述关系信息变更历史数据库的方法还可以通过计算机程序产品来实施,该计算机程序产品包括用于当在计算机上运行所述计算机程序产品时执行以实施本发明的仿真方法的软件代码部分。
还可以通过在计算机可读记录介质中记录一计算机程序来实施本发明,该计算机程序包括用于当在计算机上运行所述计算机程序时执行以实施根据本发明的仿真方法的软件代码部分。即,根据本发明的仿真方法的过程能够以计算机可读介质中的指令的形式和各种其它形式分发,而不管实际用来执行分发的信号承载介质的特定类型。计算机可读介质的例子包括诸如EPROM、ROM、磁带、纸、软盘、硬盘驱动器、RAM和CD-ROM的介质以及诸如数字和模拟通信链路的传输型介质。
尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种修改。

Claims (19)

1.一种用于提示电子文档内容变更的方法,所述方法包括:
响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息,其中所述相关信息至少包括所述电子文档的至少部分命名实体;
基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更;以及
如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更。
2.一种如权利要求1所述的方法,所述分析所述请求以获得相关信息包括:识别所述电子文档的至少部分命名实体。
3.一种如权利要求1所述的方法,其中所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:基于所述相关信息检索关系信息变更历史数据库以确定所述命名实体之间的关系信息是否存在变更。
4.一种如权利要求2所述的方法,其中所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:
根据所述电子文档的至少部分命名实体检索关系信息变更历史数据库;以及
如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述命名实体之间的关系信息存在变更。
5.一种如权利要求1所述的方法,其中所述相关信息还包括所述电子文档的唯一标识符,所述确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更包括:
根据所述唯一标识符检索关系信息变更历史数据库;以及
如果在所述关系信息变更历史数据库中检索到所述命名实体之间的关系信息的变更,则确定所述电子文档的所述命名实体之间的关系信息存在变更。
6.一种如权利要求3-5任一项所述的方法,所述方法还进一步包括建立所述关系信息变更历史数据库,所述建立所述关系信息变更历史数据库包括:
提取多个电子文档的命名实体之间的关系信息;
基于所述关系信息,建立关系信息变更历史数据库。
7.一种如权利要求6所述的方法,所述提取多个电子文档的命名实体之间的关系信息包括:
接收多个电子文档;
识别所述电子文档中的所述命名实体;
抽取相邻的所述命名实体的相关特征,其中所述相关特征包括至少以下之一:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征;以及
基于所述相关特征,分类相邻的所述命名实体之间的关系。
8.一种如权利要求7所述的方法,所述基于所述关系信息,建立关系信息变更历史数据库还包括:
判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类;
如果是,则:
对所述分类后的相邻的所述命名实体之间的关系进行查重和归并;
对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引;以及
将所述关系信息变更数据索引存储到关系信息变更历史数据库。
9.一种如权利要求7-8任一项所述的方法,其中所述建立所述关系信息变更历史数据库进一步包括定时收集电子文档以更新所述关系信息变更历史数据库。
10.一种如权利要求8所述的方法,其中所述对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引包括针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引。
11.一种如权利要求5所述的方法,其中所述唯一标识符包括以下之一:电子文档的URL、电子文档的存储路径、电子文档的全局唯一代码。
12.一种如权利要求1所述的方法,其中所述关系信息包括命名实体、命名实体之间的关系以及时间信息。
13.一种用于建立关系信息变更历史数据库的方法,所述关系信息变更历史数据库用于如权利要求1提示电子文档内容变更,该方法包括:
提取多个电子文档的命名实体之间的关系信息;
基于所述关系信息,建立关系信息变更历史数据库。
14.一种如权利要求13所述的方法,所述提取所述电子文档的命名实体之间的关系信息包括:
接收多个所述电子文档;
识别所述电子文档中的所述命名实体;
抽取相邻的所述命名实体的相关特征,其中所述相关特征包括至少以下之一:命名实体的本身特征;命名实体的关系特征;命名实体的上下文特征;以及
基于所述相关特征,分类相邻的所述命名实体之间的关系。
15.一种如权利要求14所述的方法,所述基于所述关系信息,建立关系信息变更历史数据库包括:
判断分类后的相邻的所述命名实体之间的关系是否属于预定的关系种类;
如果是,则:
对所述分类后的相邻的所述命名实体之间的关系进行查重和归并;
对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引;以及
将所述关系信息变更数据索引存储到关系信息变更历史数据库。
16.一种如权利要求15所述的方法,其中所述对查重和归并处理后的所述分类后的相邻的所述命名实体之间的关系建立关系信息变更数据索引包括针对关系信息中的命名实体、关系以及所述电子文档的唯一标识符中的至少之一建立关系信息变更数据索引。
17.一种用于提示电子文档的变更的系统,所述系统包括:
客户端请求分析装置,用于响应于客户端浏览电子文档的请求,分析所述请求以获得相关信息的装置,其中所述相关信息至少包括所述电子文档的至少部分命名实体;
更新确认装置,用于基于所述相关信息,确定所述电子文档的至少部分命名实体之间的关系信息是否存在变更的装置;以及
更新发送装置,用于如果所述关系信息存在变更,向客户端发送至少部分所述关系信息的变更的装置。
18.一种如权利要求17所述的系统,所述系统进一步包括部件,所述部件用于实现如权利要求2-12任一项所述的方法。
19.一种用于建立所述关系信息变更历史数据库的系统,所述系统包括用于实现如权利要求13-16任一项所述的方法的装置。
CN2010101369759A 2010-03-30 2010-03-30 用于提示电子文档内容变更的方法和系统 Expired - Fee Related CN102207936B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010101369759A CN102207936B (zh) 2010-03-30 2010-03-30 用于提示电子文档内容变更的方法和系统
US13/074,182 US20110246462A1 (en) 2010-03-30 2011-03-29 Method and System for Prompting Changes of Electronic Document Content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101369759A CN102207936B (zh) 2010-03-30 2010-03-30 用于提示电子文档内容变更的方法和系统

Publications (2)

Publication Number Publication Date
CN102207936A CN102207936A (zh) 2011-10-05
CN102207936B true CN102207936B (zh) 2013-10-23

Family

ID=44696774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101369759A Expired - Fee Related CN102207936B (zh) 2010-03-30 2010-03-30 用于提示电子文档内容变更的方法和系统

Country Status (2)

Country Link
US (1) US20110246462A1 (zh)
CN (1) CN102207936B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US9519477B2 (en) 2013-09-16 2016-12-13 International Business Machines Corporation Automatic pre-detection of potential coding issues and recommendation for resolution actions
CN104750711A (zh) * 2013-12-27 2015-07-01 珠海金山办公软件有限公司 一种文档推送提醒方法及装置
US9607032B2 (en) * 2014-05-12 2017-03-28 Google Inc. Updating text within a document
CN106168960B (zh) * 2016-06-30 2019-06-18 努比亚技术有限公司 一种数据资源的调整装置及其调整方法
CN108959286A (zh) * 2017-05-17 2018-12-07 富士通株式会社 信息抽取方法和信息抽取设备
CN109388805A (zh) * 2018-10-23 2019-02-26 重庆誉存大数据科技有限公司 一种基于实体抽取的工商变更分析方法
US11321529B2 (en) 2018-12-25 2022-05-03 Microsoft Technology Licensing, Llc Date and date-range extractor
CN110119694B (zh) * 2019-04-24 2021-03-12 北京百炼智能科技有限公司 一种图片处理方法、装置及计算机可读存储介质
US11487942B1 (en) * 2019-06-11 2022-11-01 Amazon Technologies, Inc. Service architecture for entity and relationship detection in unstructured text
CN112183036B (zh) * 2019-06-18 2022-04-19 腾讯科技(深圳)有限公司 一种格式文档生成方法、装置、设备及存储介质
US11556579B1 (en) 2019-12-13 2023-01-17 Amazon Technologies, Inc. Service architecture for ontology linking of unstructured text
US11531724B2 (en) * 2020-03-28 2022-12-20 Dataparency, LLC Entity centric database

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150493A1 (en) * 2005-12-27 2007-06-28 Toyotaro Suzumura Structured document processing apparatus, method, and program
CN101183362A (zh) * 2006-11-14 2008-05-21 株式会社理光 基于文档和实体关系搜索目标实体的方法和装置
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366933B1 (en) * 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
GB0018042D0 (en) * 2000-07-21 2000-09-13 Monsell Edm Ltd Method of and software for recordal and validation of changes to markup language files
WO2005020092A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing a query
US20070214189A1 (en) * 2006-03-10 2007-09-13 Motorola, Inc. System and method for consistency checking in documents
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
US7890438B2 (en) * 2007-12-12 2011-02-15 Xerox Corporation Stacked generalization learning for document annotation
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US8412652B2 (en) * 2009-03-04 2013-04-02 Yahoo! Inc. Apparatus and methods for operator training in information extraction
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US20070150493A1 (en) * 2005-12-27 2007-06-28 Toyotaro Suzumura Structured document processing apparatus, method, and program
CN101183362A (zh) * 2006-11-14 2008-05-21 株式会社理光 基于文档和实体关系搜索目标实体的方法和装置

Also Published As

Publication number Publication date
CN102207936A (zh) 2011-10-05
US20110246462A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
US7664732B2 (en) Method of managing websites registered in search engine and a system thereof
US8355997B2 (en) Method and system for developing a classification tool
CN100462972C (zh) 基于文档的信息和统一资源定位符管理方法和设备
CN102722498B (zh) 搜索引擎及其实现方法
CN104850546B (zh) 移动媒介信息的展示方法和系统
CN101546341A (zh) 信息推荐装置和信息推荐方法
CN105677844A (zh) 一种移动广告大数据的定向推送及用户跨屏识别方法
CN102737021B (zh) 搜索引擎及其实现方法
CN102063456A (zh) 自动定位至网页的视觉中心的方法及设备
CN101238461A (zh) 能够访问开放网络内容的付费访问法律研究系统
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
US20150169501A1 (en) Highlighting of document elements
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
JP5511782B2 (ja) 新規広告可能なurl提供システムおよび新規広告可能なurl提供方法を実行するためのプログラム
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
Yatskov et al. Extraction of data from mass media web sites
WO2020000782A1 (zh) 理财产品推荐方法、装置、计算机设备及可读存储介质
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템
KR20070044723A (ko) 휴면 특허를 관리하는 방법 및 그 서버
CN108520012A (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN104462151A (zh) 评估网页发布时间的方法和相关装置
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IBM (CHINA) CO., LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION

Effective date: 20150731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150731

Address after: 201203 Shanghai city Pudong New Area Keyuan Road No. 399 Zhang Jiang Zhang Jiang high tech Park Innovation Park 10 Building 7 layer

Patentee after: International Business Machines (China) Co., Ltd.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131023

Termination date: 20190330

CF01 Termination of patent right due to non-payment of annual fee