CN101571859B - 用于对文档进行标注的方法和设备 - Google Patents

用于对文档进行标注的方法和设备 Download PDF

Info

Publication number
CN101571859B
CN101571859B CN2008100912897A CN200810091289A CN101571859B CN 101571859 B CN101571859 B CN 101571859B CN 2008100912897 A CN2008100912897 A CN 2008100912897A CN 200810091289 A CN200810091289 A CN 200810091289A CN 101571859 B CN101571859 B CN 101571859B
Authority
CN
China
Prior art keywords
document
label
piece
structured message
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100912897A
Other languages
English (en)
Other versions
CN101571859A (zh
Inventor
费奔
胡博
吴贤
张小询
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2008100912897A priority Critical patent/CN101571859B/zh
Priority to US12/430,200 priority patent/US8868556B2/en
Publication of CN101571859A publication Critical patent/CN101571859A/zh
Application granted granted Critical
Publication of CN101571859B publication Critical patent/CN101571859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于对文档进行标注的方法和设备。该方法可以包括:获取文档的结构化信息;检索与输入的标签相对应的内容块列表;比较所述结构化信息中的块与所述内容块列表中的块,以获得相似的块;以及在与所述相似的块对应的文档的位置处标注所述标签。

Description

用于对文档进行标注的方法和设备
技术领域
本发明一般涉及文档处理,以及更具体地,本发明涉及一种用于对文档进行标注的方法和设备。
背景技术
随着电子文档的迅速普及,电子文档在人类生活的各个方面逐渐占据越来越重要的地位。同时,目前许多电子文档都相当大。在这种情况下,用户仅仅通过文档的目录和索引很难迅速找到自己所感兴趣的文档内容。尽管目前在互联网应用中针对某些文档存在摘要信息和结构信息,然而用户并不能在短时间内掌握文档的概要信息和结构信息,更不可能在例如数十以至上百页的文档中快速找到自己期望的内容的段落。
这样,在针对电子文档的应用中出现了一种称作“标注(annotate)”或“加标签(tagging)”的方案。在这种方案中,用户可以在阅读文档中的特定内容之后使用简练或概括的短语作为标签来标注该内容。通常将这一过程称作“标注”或“加标签”,其中标签是指用户针对文档内容所定义的简要语义描述。例如,当用户在阅读一段关于商品房价格的文档内容之后,利用“房价”的标签来标注该文档内容。当其他用户阅读该文档内容时,可以同时显示先前用户已经针对该文档内容标注的标签。由于在标签中保存了先前用户对文档内容的人工概括结果,这使得标注已经成为一种非常流行的方法,以便用户评论、收集、组织其自身所关注的电子文档。
当前,提供标注服务主要存在以下模式:由提供文档内容的网络服务商提供标注,以及由专门提供标注服务的网络服务商提供标注。然而,无论以上述何种方式实现,实际上都是用户个人脑力劳动和手工动作的结合:首先阅读文档,对文档内容进行概括总结,给出概括文档含义的短语作为标签;以及然后经由服务商提供的用户接口手工地将该标签与文档的特定位置相关联。
这样,本领域特别需要提供一种用于对文档进行标注方法,该方法能够自动确定应该在文档的何处加标签,能够对用户提示当前文档的其他部分分别适用于哪些标签,并且能够自动对整篇文档进行标注。
发明内容
本发明提供一种用于对文档进行标注的方法和设备,其可自动生成文档的结构化标签以及将生成的标签布置到最合适的文档位置处。
根据本发明的一方面,提供一种用于对文档进行标注的方法。该方法可以包括:获取所述文档的结构化信息;检索与输入的标签相对应的内容块列表;比较所述结构化信息中的块与所述内容块列表中的块,以获得相似的块;以及在与所述相似的块对应的所述文档的位置处标注所述标签。
根据本发明的另一方面,提供一种用于对当前文档进行标注的方法。该方法可以包括:获取所述当前文档的结构化信息;比较所述当前文档的结构化信息中的块与已有文档的结构化信息中的块,以获得相似块;以及利用以前标注过与所述相似块对应的所述已有文档的位置的标签,来在与所述相似块对应的所述当前文档的位置处进行标注。
根据本发明的另一方面,提供一种用于对文档进行标注的设备,该设备可以包括:获取装置,用于获取所述文档的结构化信息;检索装置,用于检索与输入的标签相对应的内容块列表;比较装置,用于比较所述结构化信息中的块与所述内容块列表中的块,以获得相似的块;以及标注装置,用于在与所述相似的块对应的所述文档的位置处标注所述标签。
根据本发明的另一方面,提供一种用于对当前文档进行标注的设备。所述设备可以包括:获取装置,用于获取所述当前文档的结构化信息;比较装置,用于比较所述当前文档的结构化信息中的块与已有文档的结构化信息中的块,以获得相似块;以及标注装置,用于使用以前标注过与所述相似块对应的所述已有文档的位置的标签,来在与所述相似块对应的所述当前文档的位置处进行标注。
附图说明
参考以下结合附图的详细说明,本发明的特征、优点以及其他方面将变得更加明显,在附图中:
图1示出了根据本发明的一个实施方式的标注系统的示意性框图;
图2示出了根据本发明的一个实施方式的标注系统在预处理阶段的抽取过程的示意性流程图;
图3示出了根据本发明的一个实施方式的标注系统在预处理阶段的索引过程的示意性流程图;
图4示出了根据本发明的一个实施方式的标注系统的标注部件的示意性框图;
图5示出了根据本发明的一个实施方式的标注过程的示意性流程图;以及
图6示出了根据本发明的另一实施方式的标注过程的示意性流程图。
应当理解,在全部附图中,相同的参考标签表示相同的部件。
具体实施方式
为了描述起见,在以下本发明的实施方式的描述中,将以网页文档作为文档的示意性例子。然而,本领域技术人员应该理解,本发明并不局限于网页文档,本发明还可适用于其他形式的文档内容。
下面将参考附图详细描述本发明的各个实施方式。应该理解,以下所描述的实施方式仅仅是示例性的,而并非对本发明范围的限制。
参考图1,图1示出了根据本发明的一个实施方式的用于对文档进行标注的系统100的示意性框图。如图1所示,该系统100可以包括:抽取部件110、索引部件120、文档结构信息存储库130、标签-文档索引库140以及标注部件150。
根据本发明的实施方式,抽取部件110可以读取输入的文档160,并且根据预定的抽取方法来从输入的文档160中抽取表示输入的文档160的结构的结构化信息。
优选地,结构化信息可以为表示文档结构的内容块树(ContentBlocks Tree)。内容块树是一个层次结构树,它以结构化的方式保存了文档信息以及经过抽取后的文档层次结构信息。取决于对抽取颗粒度的设置,可以将文档中的章节、段落、语句等映射至不同级别的内容块。通常可以采用XML文件的方式来表达与文档对应的内容块树。然而,本领域技术人员应该理解,还可以采用其他适合的方式来表达内容块树。另外,应当理解,内容块树仅仅是结构化信息的一个例子,本发明也可以采用其他形式的结构化信息。
根据本发明的实施方式,文档结构信息存储库130可以耦合至抽取部件110,用于保存通过抽取部件110所抽取的文档160的结构化信息。
根据本发明的实施方式,索引部件120可以耦合至文档结构信息存储库130和标签-文档索引库140。索引部件120可以接收用户针对文档所输入的标签170,以及在标签170和文档160之间建立索引关系。
具体地,索引部件120可以在文档结构信息存储库130中保存的每个文档的结构化信息与用户针对该文档所输入的不同标签之间建立索引关系。另外,索引部件120可以将所生成的标签-文档的关联关系保存在标签-文档索引库140之中。
根据本发明的实施方式,标注部件150可以与文档结构信息存储库130以及标签-文档索引库140相耦合,并且分别从文档结构信息存储库130以及标签-文档索引库140中查找文档的结构化信息和相关的标签-文档索引信息。
具体地,标注部件150可以根据当前文档160的结构化信息和相关的标签-文档索引,确定在何处标注标签,并且然后在相应位置处标注标签。
优选地,标注部件150可以将针对当前文档160的标签-文档索引的相关对应关系添加到标签-文档索引库140中,以便更新标签-文档索引库140中的对应关系。
另外,优选地,标注部件150可以根据当前文档的结构化信息和相关的标签-文档索引,向用户提示可以在何处标注标签,并且在接收到用户确认后,在相应的位置处标注标签。
虽然在图1中分别示出了各个功能部件,但是应该理解,上述各个部件可以部分地或者全部地集成在一起。
虽然在图1所示的实施方式中系统100优选地包括抽取部件110、索引部件120、文档结构信息存储库130和标签-文档索引库140,但是本领域技术人员应该理解,系统100本身可以不包括这些部件。而在系统100外部来分别实现这些部件。在这种情况下,系统100本身仅仅包括标注部件150,其中在需要时标注部件100可以从系统100外部直接得到文档的结构化信息以及标签-文档索引关系。
接下来,将分别参考图2和图3来详细描述抽取部件110和索引部件120的操作过程,以及分别参考图4和图5来具体描述标注部件150的构成及其操作过程。
根据本发明的实施方式,首先执行预处理步骤,即,通过处理预定的文档来建立作为后续操作依据的文档结构信息存储库130以及标签-文档索引库140。优选地,文档结构信息存储库130以及标签-文档索引库140的内容可以是逐步更新的。也就说,在预处理之后,在用户标注文档的过程中,可以逐步将与用户每次正在标注的文档相关的结构化信息添加至文档结构信息存储库130,并将相关的标签-文档关联信息添加至标签-文档索引库140。
在预处理阶段中,优选地,可以针对不同领域选择一定数目的具有代表性的文档及其相应的标签,以保证在文档结构信息存储库130以及标签-文档索引库140中所存储信息的全面性和代表性。
另外,优选地,还可以针对不同的领域来保存各自的文档结构信息存储库130和标签-文档索引库140。这样,当用户希望标注某文档时,则首先判断该文档所处的领域,进而再基于相应的文档结构信息存储库和标签-文档索引库进行后续处理。
参考图2,图2示意性地示出了根据本发明的一个实施方式的在于处理过程中抽取部件110所执行的操作步骤。
在本发明的实施方式中,抽取部件110可以使用预定的方法来从输入文档中抽取文档的结构信息,该预定的方法可以例如为基于规则的方法以及自然语言处理(NLP)方法。
基于规则的方法主要是以输入文档中存在的结构特征作为抽取依据,例如,文档中的目录结构、自然段索引等特征。这些特征都是可以直接从文档的文字内容中得出的信息。另外,还可以基于某些特定文档格式的结构信息来进行抽取。例如,对于HTML文档来说,使用<h1>至<h6>的6个标记来定义HTML文件中正文的标题。抽取部件110可以根据<h1>至<h6>来判断文档的结构。
自然语言处理方法是一种用于对文档进行层次化处理的方法,使用该方法可以对文档、或者由段落、章节以及其他颗粒度所划分的一组文档进行处理。
上述两种方法都是本领域公知的方法,在此不再赘述。应该理解,抽取部件110还可以基于其他方法来实现抽取操作。
下面参考图2,以自然语言处理方法为例,来描述抽取部件110所执行的操作。
如图2所示,首先,在步骤S210处,可以将关于同一主题的连续段落合并成为一个单元,并且将每个单元映射至内容块树中的一个叶节点。
然后,在步骤S220处,可以根据连续单元之间的相似性来将关于相同主题的单元迭代地合并至与内容块树中的中间单元相对应的较大单元。
最后,在步骤S230处,可以将内容块树保存至文档结构信息存储库130。
至此,针对一篇文档的抽取操作结束。上述抽取过程的各个步骤都是本领域技术人员所熟知的,在此省略对其的详细描述。
在上述抽取步骤之后,可以形成了如表1所示的文档结构信息存储库130。根据本发明的实施方式,优选地,文档结构信息存储库130可以包括两个字段:文档ID以及文档的结构化信息(内容块树)。可以选择对多篇文档进行结构化信息的抽取操作。
表1
  文档ID   文档结构化信息
  文档1   内容块树1
  文档2   内容块树2
  文档3   内容块树3
  ......   ......
  文档n   内容块树n
接下来,将参考图3来进一步说明在预处理阶段中索引部件120所执行的操作过程。
首先,在步骤S310处,可以获取标签以及从文档结构信息存储库130中获取其中标注了所述标签的文档的内容块树信息。
然后,在步骤320处,可以查找标签与内容块树中的块之间的对应关系,即,通过查找在文档中何处标注了该标签进而找到与出现标签的位置相对应的内容块树中的块。
然后,在步骤S330处,将在步骤S320中得出的标签-文档之间的对应关系保存至标签-文档索引库140中。即,将所找到的块添加至标签-文档索引库中与所述标签和文档相对应的块列表中。在这里,将标签-文档之间的这种对应关系称作“索引”。
应该理解,在上文中仅示意性地示出了在一个标签以及一篇文档之间建立索引关系的步骤。通常多个标签与多篇文档之间存在多对多的映射关系,即,在多篇文档中分别标注了多个标签,因而需要针对具有关联关系的每个标签和文档来分别进行上述如图3所示的处理。
如表2所示,在标签-文档索引库140中存储有标签与文档之间的索引关系。注意,在表1和表2中的字符m、n是仅仅用于示意性描述的正整数,其中m表示标签数目,而n表示文档的数目。
表2
  标签   指示符   内容块   指示符   内容块 ...  指示符   内容块
  标签1   文档1,1   P1,1   文档1,2   P1,2 ...  文档1,n   P1,n
  标签2   文档2,1   P2,1   文档2,2   P2,2 ...  文档2,n   P2,n
  标签3   文档3,1   P3,1   文档3,2   P3,2 ...  文档3,n   P3,n
  ......   ......   ......    ......   ...... ...  ......   ......
  标签m   文档m,1   Pm,1   文档m,2   Pm,2 ...  文档m,n   Pm,n
如表2中所示,在第一列中存储有标签,用于唯一标识与多个文档相关联的多个标签中的每一个。在表2的每个偶数列中所示的“文档i,j”(其中i<m,j<n)是指向文档结构信息存储库中130中的文档的指示符,通过该指示符可以查找到表示所指向文档的内容块树。在每个“文档i,j”后面,跟随有表示“文档i,j”所指向的文档与“标签i”之间的对应关系的块列表“Pi,j”,即,在块列表“Pi,j”中保存有“标签i”在“文档i,j”所指示的文档中出现的相关块的信息。
下面通过具体实例来说明在预处理阶段中抽取部件110以及索引部件120的详细操作过程。例如,在预处理阶段需要针对中国楼市状况来建立文档结构信息存储库130以及标签-文档索引库140。首先,选择n篇关于中国楼市状况分析领域的文档,并且通过抽取部件110执行例如图2所示的处理来针对这n篇文档抽取各自的内容块树。然后,索引部件120读取与所述n篇文档相对应的m个标签(其中m可以不等于n,即可能出现在一篇文档中存在多个标签的情况)。
为了便于描述,假设在预处理阶段选择了2篇文档:《商品房价格分析》以及《楼市综合分析》。此时,通过如图2所示的处理,可以得到如表3所示的文档结构信息存储库130。
表3
 文档ID   文档结构化信息
 文档1(商品房价格分析)   内容块树1
 文档2(楼市综合分析)   内容块树2
例如,位于第一篇文档的第10段处以及第二篇文档的第20段处的标签为“价格”,而位于第二篇文档的第2段和第4段处的标签均为“新政策”,并且位于第二篇文档的第15段处的标签为“政策解读”。应该理解,根据配置还可以将标签标注在具有更细颗粒度的位置处,诸如标注在段落中的某个语句处。在此实例中仅以段落作为例子。此时存在3个标签和2篇文档,即m=3、n=2。在这种情况下,通过如图3所示的处理,可以得到如表4所示的标签-文档索引库140。
表4
  标签   指示符   内容块  指示符  内容块
  价格   指向文档1的指示符   与文档1中段落10对应的块  指向文档2的指示符  与文档2中段落20对应的块
  新政策   指向文档2的指示符   与文档2中段落2对应的块+与文档2中段落4对应的块  NULL  NULL
  政策解读   指向文档2的指示符   与文档2中段落15对应的块  NULL  NULL
注意,在标签-文档索引库140中,指向文档的指示符不必按顺序排列,即,没有必要将指向较小序号文档的指示符排列在指向较大序号文档的指示符之前。例如,可以在第2、3列分别保存指向文档2的指示符以及针对文档2的块列表;而在第4、5列中分别保存指向文档1的指示符以及针对文档1的块列表。在逻辑上,可以采用链表形式保存所示标签-文档索引。然而,针对彼此之间没有对应关系的标签和文档(诸如,上述实例中的文档1“商品房价格分析”与标签2“新政策”),没有必要对其分配保存指示符与块列表的空间(例如,这与表4中所示的“NULL”相对应)。另外,如果在一篇文档中的多个段落处标注了同一标签,则在与该标签和该文档相对应的块列表中将包括多个块,如表4中的项“与文档2中段落2对应的块+与文档2中段落4对应的块”所示。
下面,将参考图4和图5来详细描述根据本发明的一个实施方式的标注部件150的组成及其操作过程。在标注之前,已经通过预处理过程在文档结构信息存储库130中存储了关于多个文档的结构化信息,即内容块树,并且在标签-文档索引库140中存储有关于标签和文档之间对应关系的索引。
参考图4,图4示出了根据本发明的一个实施方式的标注部件150的示意性结构框图。根据本发明的实施方式,标注部件150可以包括:获取装置151,用于从文档结构信息存储库130中获取文档的结构化信息;检索装置152,用于在标签-文档索引库140中检索与输入的标签相对应的内容块列表;比较装置153,用于将获取装置151获取的文档的结构化信息中的块与通过检索装置152所检索到的内容块列表中的块进行比较,以获得所述结构化信息中的相似块;以及标注装置154,用于在比较装置153所获得的相似块所对应的位置处标注标签。
优选地,标注部件150还可以包括更新装置155,用于更新标签-文档索引库140中的对应关系。
现在,参考图5,其中示出了根据本发明的一个实施方式的标注过程500的示意性流程图。
如图5所示,标注过程启动后,首先,在步骤S510,输入当前文档以及针对当前文档的标签。
然后,在步骤S520处,从文档结构信息存储库130中获取当前文档的内容块树信息。当然,也可以直接得到当前文档的内容块树信息,而不通过文档结构信息存储库130。
然后,在步骤S530处,在标签-文档索引库140中检索用户输入的标签,并且获得所述标签曾经标注过的块列表P。在这里,可以存在多个块列表P,即,一个标签在多个文档中出现的情况,其中每个块列表P对应于一篇文档。同样,每个块列表P中还可以包括多个块,即,一个标签可以标注一个文档中的不同段落,其中每个块分别对应于与标签在该块列表P对应的文档中出现的不同位置相关联的块。
在步骤S540处,比较在步骤S520中获取的当前文档的内容块树信息以及在步骤S530中得到的块列表P,以便在当前文档的内容块树信息中查找与上述块列表P中的每个块相似的块。优选地,可以针对每个内容相似的块,向用户提示这些块适合于用户针对当前文档所输入的标签。
然后,在步骤S550处,可以使用所述标签来标注这些内容相似的块所对应位置处的内容。优选地,用户针对在步骤S540中的提示信息分别做出响应,如果确认,则使用所述标签来标注这些内容相似的块所对应位置处的内容。注意,如果在步骤S540中进行相似性比较时所得出了多个块,则可以针对每个块来向用户给出提示,并且用户可以对多个提示逐一做出响应。
可选地,在步骤S560处,对标签-文档索引库进行更新操作。具体地,在已经采用输入的标签标注了当前文档之后,由于在输入的标签与当前文档之间建立了新的关联关系,即新的标签-文档索引关系,因而可以更新标签-文档索引库的内容。具体地,在标签-文档索引库140中,在与当前输入标签相对应的行中,添加指向当前文档的指示符以及相应的块列表P。对标签-文档索引库的更新过程如步骤S560右侧的箭头所示。更新后的标签-文档索引库140可以作为下一轮操作的基础。
在下文中,将结合实例来举例说明图5所示的标注过程。通过预处理阶段,已经形成了如表3和表4所示的文档结构信息存储库130和标签-文档索引库140。
例如,用户正在阅读另一篇关于楼市价格的文档,其标题为《北京房地产概述》,并且针对该当前文档输入了“价格”的标签。首先,在步骤S520处,从文档结构信息存储库130中获取文档《北京房地产概述》内容块树信息。此时,文档结构信息存储库130如表5所示。
表5
文档ID 文档内容
  文档1(商品房价格分析)   内容块树1
  文档2(楼市综合分析)   内容块树2
  文档3(北京房地产概述)   内容块树3
接着,在步骤S530处,在标签-文档索引库140中检索输入标签“价格”,并且获得所述标签“价格”曾经标注过的内容块列表P。通过步骤S530,发现针对“与文档1中段落10对应的块”以及“与文档2中段落20对应的块”曾经使用了“价格”这个标签。
然后,在步骤S540处,分别将“与文档1中段落10对应的块”以及“与文档2中段落20对应的块”的内容与当前文档(即,文档3《北京房地产概述》)的内容块树的内容块进行比较,查找与上述两个内容块相近似的的当前文档中的内容块。例如,比较后分别得出了“与文档3中段落30对应的块”以及“与文档3中段落31对应的块”。
然后,在步骤S550处,利用标签“价格”对“与文档3中段落30对应的块”的文档内容以及“与文档3中段落31对应的块”的文档内容进行标注。
在步骤S550之后,由于在标签“价格”和文档3(北京房地产概述)之间又出现了新的索引关系,则更新标签-文档索引库140。这通过在原有表结构中的“价格”标签末端添加适用于“价格”的文档3中的相应块来实现,因而在步骤S560处,更新标签-文档索引库140。更新后的标签-文档索引库140如表6所示。
表6
  标签   指示符  内容块   指示符  内容块  指示符   内容块
  价格   指向文档1的指示符  与文档1中段落10对应的块   指向文档2的指示符  与文档2中段落20对应的块  指向文档3的指示符   与文档3中段落30对应的块+与文档3中段落31对应的块
  新政策   指向文档2的指示符  与文档2中段落2对应的块+与文档2中段落4对应的块   NULL  NULL  NULL   NULL
  政策解读   指向文档2的指示符  与文档2中段落15对应的块   NULL  NULL  NULL   NULL
这样,根据本发明的上述实施方式,可以自动确定将针对当前文档输入的标签标注在当前文档何处,并且将所述标签自动标注在当前文档的相应位置处。
应当理解,可以对根据本发明的上述实施方式做出各种修改和变化。
例如,根据本发明的另一个实施方式,可以由其他推荐标签来标注文档。具体地,可以生成与输入的标签相近的其他推荐标签,并通过进一步应用所生成的其他推荐标签代替输入的标签执行图5所示的方法来进一步标注整个文档。
具体地,通过例如WordNet(一个互联网上经常使用的近义词词典)来生成与用户针对当前文档输入的标签相近似的一个或者多个推荐标签。当然,还可以选择采用其他方法来生成推荐标签。在这里,用户可以定义所生成推荐标签的规则和数量。当采用例如WordNet来实现时,用户可以通过确定在WordNet中使用的层级数目(在WordNet中,层级数目用于控制输出词汇与被查找词汇之间相似性)来控制生成的推荐标签的数量。
下面,将结合上面给出的实例来进一步说明根据本发明的该实施方式的标注过程。首先,例如针对当前由用户输入的“价格”这个标签,可以生成了“涨价”以及“限价”等推荐标签。然后利用针对“涨价”或“限价”等推荐标签代替输入的标签来执行图5所示的处理。
进一步,根据本发明又一个实施方式的标注过程,可以不需要用户针对当前文档输入标签,而是系统将根据在文档结构信息存储库130以及标签-文档索引库140中的现有信息,对当前文档进行分析和处理,进而对当前文档执行标注操作。即,将当前文档的内容块树信息中的各个块分别与文档结构信息存储库中的先前文档的内容块树信息中的各个块进行比较。如果确认两者相似,则利用标注了先前文档的标签来标注当前文档的块。现在,参考图6,描述根据本发明的该实施方式的标注过程。
如图6所示,首先,在步骤S610处,输入当前文档。
然后,在步骤S620处,可以从文档结构信息存储库中获取当前文档的内容块树信息。
然后,在步骤S630处,针对在步骤S620中获取的当前文档的内容块树信息中的每个块,将其与在文档结构信息存储库130中的每个先前文档的内容块树信息中的每个块进行比较,以获取相似的块。
然后,在步骤S640处,可以使用标注先前文档的标签来标注这些内容相似的块所对应位置处的内容。
另外,可选地,在步骤S650处,可以对标签-文档索引库140进行更新操作。
通过上文对本发明的示意性实施方式的详细描述,本领域技术人员应该理解,本发明的实施方式提供了一种标注方法和设备,用于将由用户输入的标签精确地定位在文档中的适当位置;用于使用用户输入的标签以及相关联的其他推荐标签来自动标注当前文档的全部;以及用于通过标签方式自动概括当前文档的结构特征。
尽管在上文中以及给出了多个具体实施方式,然而应该理解,可以根据需要对上述实施方式所述的标注方法进行组合。
应该理解,在本发明的示意性实施方式中所述的各个部件可以处于互联网中的不同位置处,例如处于网页文档内容的提供商处,处于专门提供标签服务的提供商处,或者处于其他代理服务器上。
应该理解,在实际环境中,可以对上述实施方式及其变型中的各个特征和步骤进行任意组合,只要能够实现根据用户需要自动执行对文档的标注操作即可。
本发明的实施方式可通过多种编程语言来实现,包括但不限于C、C++、Dephi、Java等等。
本发明的实施方式可以以硬件、软件、固件以及它们的组合来实现。本领域技术人员应该认识到,也可以在供任何合适数据处理系统使用的信号承载介质上所设置的计算机程序产品中体现本发明的实施方式。这种信号承载介质可以是传输介质或用于机器可读信息的可记录介质,包括磁介质、光介质或其他合适介质。可记录介质的例子包括:硬盘驱动器中的磁盘或软盘、用于光驱的光盘、磁带,以及本领域技术人员所能想到的其他介质。本领域技术人员应该认识到,具有合适编程装置的任何通信终端都将能够执行如程序产品中体现的本发明方法的步骤。
从上述描述应该理解,在不脱离本发明精神的情况下,可以对本发明各实施方式进行修改和变更。本说明书中的描述仅仅是用于说明性的,而不应被认为是限制性的。本发明的范围仅受权利要求书的限制。

Claims (16)

1.一种用于利用用户输入的标签对文档进行标注的方法,包括:
获取所述文档的结构化信息;
在标签-文档索引库中检索与输入的标签相对应的内容块列表;
比较所述结构化信息中的块与所述内容块列表中的块,以获得相似的块;以及
在与所述相似的块对应的所述文档的位置处标注所述标签。
2.根据权利要求1所述的方法,其中所述文档的结构化信息是根据预定方法从所述文档抽取的。
3.根据权利要求2所述的方法,其中,所述预定方法是基于规则的方法。
4.根据权利要求2所述的方法,其中,所述预定方法是自然语言处理方法。
5.根据权利要求1所述的方法,还包括:在标签与已标注文档的结构化信息之间建立对应关系。
6.根据权利要求5所述的方法,还包括:更新所述对应关系。
7.根据权利要求1所述的方法,还包括:生成与所述输入的标签相近的推荐标签,以及利用所述推荐标签代替所述输入的标签来重复执行所述检索步骤、比较步骤和标注步骤。
8.一种用于对当前文档进行标注的方法,包括:
获取所述当前文档的结构化信息;
比较所述当前文档的结构化信息中的块与已有文档的结构化信息中的块,以获得相似块;以及
利用以前标注过与所述相似块对应的所述已有文档的位置的标签,来在与所述相似块对应的所述当前文档的位置处进行标注。
9.一种用于利用用户输入的标签对文档进行标注的设备,包括:
获取装置,用于获取所述文档的结构化信息;
检索装置,用于在标签-文档索引库中检索与输入的标签相对应的内容块列表;
比较装置,用于比较所述结构化信息中的块与所述内容块列表中的块,以获得相似的块;以及
标注装置,用于在与所述相似的块对应的所述文档的位置处标注所述标签。
10.根据权利要求9所述的设备,还包括抽取装置,其中所述文档的结构化信息是由抽取装置根据预定方法从所述文档抽取的。
11.根据权利要求10所述的设备,其中,所述预定方法是基于规则的方法。
12.根据权利要求10所述的设备,其中,所述预定方法是自然语言处理方法。
13.根据权利要求9所述的设备,还包括索引装置,用于在标签与已标注文档的结构化信息之间建立对应关系。
14.根据权利要求13所述的设备,还包括更新装置,用于更新所述对应关系。
15.根据权利要求9所述的设备,还包括用于生成与所述输入的标签相近的推荐标签的装置。
16.一种用于对当前文档进行标注的设备,包括:
获取装置,用于获取所述当前文档的结构化信息;
比较装置,用于比较所述当前文档的结构化信息中的块与已有文档的结构化信息中的块,以获得相似块;以及
标注装置,用于使用以前标注过与所述相似块对应的所述已有文档的位置的标签,来在与所述相似块对应的所述当前文档的位置处进行标注。
CN2008100912897A 2008-04-28 2008-04-28 用于对文档进行标注的方法和设备 Active CN101571859B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008100912897A CN101571859B (zh) 2008-04-28 2008-04-28 用于对文档进行标注的方法和设备
US12/430,200 US8868556B2 (en) 2008-04-28 2009-04-27 Method and device for tagging a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100912897A CN101571859B (zh) 2008-04-28 2008-04-28 用于对文档进行标注的方法和设备

Publications (2)

Publication Number Publication Date
CN101571859A CN101571859A (zh) 2009-11-04
CN101571859B true CN101571859B (zh) 2013-01-02

Family

ID=41215985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100912897A Active CN101571859B (zh) 2008-04-28 2008-04-28 用于对文档进行标注的方法和设备

Country Status (2)

Country Link
US (1) US8868556B2 (zh)
CN (1) CN101571859B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9507827B1 (en) * 2010-03-25 2016-11-29 Excalibur Ip, Llc Encoding and accessing position data
US20110258534A1 (en) * 2010-04-16 2011-10-20 Microsoft Corporation Declarative definition of complex user interface state changes
CN102486767B (zh) * 2010-12-02 2015-03-25 北大方正集团有限公司 内容文档的内容标注方法和装置
US9733901B2 (en) * 2011-07-26 2017-08-15 International Business Machines Corporation Domain specific language design
CN103164388B (zh) * 2011-12-09 2016-07-06 北大方正集团有限公司 一种版式文件中结构化信息获取的方法及装置
JP5820320B2 (ja) * 2012-03-27 2015-11-24 株式会社東芝 情報処理端末及び方法、並びに、情報管理装置及び方法
US20130297498A1 (en) * 2012-05-04 2013-11-07 William A. NAZARET Method and system for providing broadband access to a plurality of customers
US20140208201A1 (en) * 2013-01-22 2014-07-24 International Business Machines Corporation Image Obfuscation in Web Content
CN103310014B (zh) * 2013-07-02 2016-06-29 北京航空航天大学 一种提高检索结果准确率的方法
KR101782802B1 (ko) * 2017-04-10 2017-09-28 장정희 전자 문서 간 메모 공유 방법 및 컴퓨터 프로그램
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN108710612A (zh) * 2018-05-22 2018-10-26 腾讯科技(深圳)有限公司 语义标注的方法、装置、计算机设备、可读存储介质
CN114997120B (zh) * 2021-03-01 2023-09-26 北京字跳网络技术有限公司 文档标签的生成方法、装置、终端和存储介质
CN112989766B (zh) * 2021-05-11 2021-08-03 金锐同创(北京)科技股份有限公司 文档标注信息的处理方法、装置及终端设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209928B2 (en) * 1998-07-29 2007-04-24 Qwest Communications International Inc. Information organization and navigation by user-generated associative overlays
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
DE60333238D1 (de) 2002-06-28 2010-08-12 Nippon Telegraph & Telephone Extrahierung von Information aus strukturierten Dokumenten
US7047236B2 (en) 2002-12-31 2006-05-16 International Business Machines Corporation Method for automatic deduction of rules for matching content to categories
US7356528B1 (en) * 2003-05-15 2008-04-08 At&T Corp. Phrase matching in documents having nested-structure arbitrary (document-specific) markup
US7219102B2 (en) 2003-12-22 2007-05-15 International Business Machines Corporation Method, computer program product, and system converting relational data into hierarchical data structure based upon tagging trees
US7599950B2 (en) * 2004-03-15 2009-10-06 Yahoo! Inc. Systems and methods for collecting user annotations
US8230326B2 (en) * 2004-12-17 2012-07-24 International Business Machines Corporation Method for associating annotations with document families
US20080015968A1 (en) * 2005-10-14 2008-01-17 Leviathan Entertainment, Llc Fee-Based Priority Queuing for Insurance Claim Processing
CN101341486A (zh) 2005-12-22 2009-01-07 国际商业机器公司 用于从非结构化数据自动生成多语言电子内容的方法和系统
JP4212615B2 (ja) * 2006-09-28 2009-01-21 株式会社東芝 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈联.Web页面标注模型及其实现.《计算机工程与设计》.2006,第27卷(第11期),2054. *

Also Published As

Publication number Publication date
US20090271353A1 (en) 2009-10-29
CN101571859A (zh) 2009-11-04
US8868556B2 (en) 2014-10-21

Similar Documents

Publication Publication Date Title
CN101571859B (zh) 用于对文档进行标注的方法和设备
US20100223214A1 (en) Automatic extraction using machine learning based robust structural extractors
US20200265074A1 (en) Searching multilingual documents based on document structure extraction
US20110218947A1 (en) Ontological categorization of question concepts from document summaries
CN104102721A (zh) 信息推荐方法和装置
CN103299324A (zh) 使用潜在子标记来学习用于视频注释的标记
US20110191381A1 (en) Interactive System for Extracting Data from a Website
Banerjee et al. Bengali question classification: Towards developing qa system
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN104516727A (zh) 更改资源文件中的资源的方法和系统
CN103077234A (zh) 语音网址导航系统及方法
US20100198770A1 (en) Identifying previously annotated web page information
Monachesi et al. Using social media for ontology enrichment
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN111753535A (zh) 一种专利申请文本的生成方法和装置
Luo et al. Query ambiguity identification based on user behavior information
CN114461761A (zh) 基于标签匹配的搜索方法、系统、计算机设备及存储介质
US20230090601A1 (en) System and method for polarity analysis
Govind et al. CALVADOS: a tool for the semantic analysis and digestion of web contents
CN104036036A (zh) 网页搜索的提示方法和装置
Musabeyezu Comparative study of annotation tools and techniques
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN112115362A (zh) 一种基于相似代码识别的编程信息推荐方法及装置
Vagliano et al. Training researchers with the moving platform
Agbogun et al. On the Development of Machine Learning Algorithms for Information Extraction of Structured Academic Data from Unstructured Web Documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant