CN100447779C - 文档信息处理设备及文档信息处理方法 - Google Patents

文档信息处理设备及文档信息处理方法 Download PDF

Info

Publication number
CN100447779C
CN100447779C CNB2005100981319A CN200510098131A CN100447779C CN 100447779 C CN100447779 C CN 100447779C CN B2005100981319 A CNB2005100981319 A CN B2005100981319A CN 200510098131 A CN200510098131 A CN 200510098131A CN 100447779 C CN100447779 C CN 100447779C
Authority
CN
China
Prior art keywords
document
information
component
analysis
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100981319A
Other languages
English (en)
Other versions
CN1752963A (zh
Inventor
铃木优
石谷康人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1752963A publication Critical patent/CN1752963A/zh
Application granted granted Critical
Publication of CN100447779C publication Critical patent/CN100447779C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供用于增加剪贴操作的高效性或由剪贴操作产生的内容的重复使用的文档信息处理设备和方法。所述文档信息处理设备包括用于使用分析知识来进行对从文档信息输入装置输入的文档信息的文档分析的文档分析装置;用于基于文档分析的结果,将该输入的文档信息分割成信息分量以作为编辑单元的部分化装置;用于为该信息分量生成索引信息并将该索引信息分配给该信息分量的索引装置;和用于关联地存储该信息分量和分配给该信息分量的索引信息的信息分量存储装置。该设备还可以包括用于检索该信息分量的信息分量检索装置。从而,能够准确获得必要信息并能基于文档数据的上下文执行适当的索引。

Description

文档信息处理设备及文档信息处理方法
技术领域
本发明涉及一种文档信息处理设备及文本处理信息方法,用于检索/编辑因特网内容、电子邮件等的电子信息、或者通过光学字符阅读器(OCR)或类似技术从打印介质例如纸中提取的电子信息。具体地说,涉及一种文档信息处理设备,其支持或自动执行将电子信息转换成多个部分的操作、检索/获取该部分信息的操作、或者编辑该获取部分和产生新内容的操作。
背景技术
随着因特网的日益普及和数字照相机、扫描仪等的性能增强和广泛使用,一般用户已经开始在商务/家庭应用中从个人计算机上浏览多种类和大量的信息条目。因而就增加了将用户判断为有用的浏览信息条目的那些信息条目或者一些信息条目保存为片断的需求。
作为服从这种需求的一种现有技术,能够直接剪贴(scrap)被浏览的内容的应用软件例如“OneNote(TM)”(由MicrosoftCorporation制造)或者“kami-copi(TM)”(由YMIRLINK Inc.制造)已有市售。已经提出了一种用于编辑已经形成组成结构的结构化文档的方法(例如称为专利文档1),一种用于可编程地模板化在用于医疗应用的成像系统中被浏览的信息条目的排列的方法(例如称为专利文档2)等等。
专利文档1:美国专利申请公开2004/0010755
专利文档2:美国专利5,961,610
然而,根据这些现有技术,不能对一个片断的每个部分给出语义或句法信息(例如用以初始化剪贴的信息格式(称为“源信息”),该源信息中的分量的功能性作用,或者包含在该分量中的个体元素的语义属性)。因此不能增加该剪贴操作的高效性或者由该剪贴操作产生的内容(下文中指“剪贴页(scrap pages)”)的重复使用。更具体地,在根据为某种目的收集的剪贴页而不需要大量劳动就从相同格式的源信息中获取相同功能的片断的情况,或者在剪贴的信息条目已经被安排成某种格式的剪贴页的情况下,存在不能满足其后产生相同格式的剪贴页的需要的问题。
发明内容
本发明的目的是提供一种能够准确获得必要信息的文档信息处理设备。
与本发明一致地,提供一种文档信息处理设备,包括:文档信息输入装置,用于输入文档信息;文档分析装置,用于通过使用存储在文档分析知识存储装置中的分析知识来进行对该文档信息的文档分析,该文档分析是该文档信息的文档结构分析、在该文档信息中包含的部分的功能性作用分析以及包含在该文档信息中的单词、从句和句子的语义属性分析,并用于基于分析结果将结构标记、功能标记和语义属性标记设置到所述文档信息;部分化装置,用于在所述文档信息中搜索所述结构标记、功能标记和语义属性标记,并用分量标记包围所述结构标记、功能标记和语义属性标记;索引装置,用于通过所述分量标记将所述文档信息分割成每一信息分量,对每一信息分量分配分量ID,从所述信息分量的结构路径层级产生第一向量,从所述信息分量的功能路径层级产生第二向量,从所述信息分量的语义属性标记产生第三向量,获取存储在索引策略知识存储装置中的每一条索引策略知识,所述每一条索引策略知识包括索引策略选择向量和索引策略向量,计算所述每一条索引策略知识的索引策略选择向量和第一、第二及第三向量之间的相似度,提取具有最大相似度的一条索引策略知识,计算该条索引策略知识的索引策略向量和第三向量之间的积,该积为信息分量中具有语义属性标记的单词的权重;和信息分量存储装置,用于关联地存储所述单词的权重、分量ID和文档信息。
与本发明一致地,进一步提供一种文档信息处理方法,包括:输入文档信息;通过使用存储在文档分析知识存储装置中的分析知识来进行对输入的文档信息的文档分析,该文档分析是该文档信息的文档结构分析、在该文档信息中包含的部分的功能性作用分析以及包含在该文档信息中的单词、从句和句子的语义属性分析;基于分析结果将结构标记、功能标记和语义属性标记设置到所述文档信息;在所述文档信息中搜索所述结构标记、功能标记和语义属性标记;用分量标记包围所述结构标记、功能标记和语义属性标记;通过所述分量标记将所述文档信息分割成每一信息分量;对每一信息分量分配分量ID;从所述信息分量的结构路径层级产生第一向量;从所述信息分量的功能路径层级产生第二向量;从所述信息分量的语义属性标记产生第三向量;获取存储在索引策略知识存储装置中的每一条索引策略知识,所述每一条索引策略知识包括索引策略选择向量和索引策略向量;计算所述每一条索引策略知识的索引策略选择向量和第一、第二及第三向量之间的相似度;提取具有最大相似度的一条索引策略知识;计算该条索引策略知识的索引策略向量和第三向量之间的积,该积为信息分量中具有语义属性标记的单词的权重;和关联地存储所述单词的权重、分量ID和文档信息作为信息分量存储装置中的组(set)。
根据本发明的实施例,能够提供一种可以基于文档数据的上下文执行适当的索引的文档信息处理设备。
附图说明
图1是根据本发明的第一实施例的示例性文档信息处理设备的框图;
图2A-2D是显示了输入到信息输入装置的信息条目的示例的示意图;
图3A-3C是显示了输入到信息输入装置的信息条目来源的示例的示意图;
图4是用于解释文档分析装置的处理流程的流程图;
图5A和5B是分别显示了涉及文档结构分析的知识的示例的示意图;
图6是用于解释在输入以HTML描述的信息的情况下的文档结构分析处理的流程图;
图7A-7D是分别显示了由文档分析装置进行的文档结构分析处理的结果的示例的示意图;
图8A是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3A中的信息的情况下的输出示例);
图8B是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3B中的信息的情况下的输出示例);
图8C是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3C中的信息的情况下的输出示例);
图8D是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图2D中的信息的情况下的输出示例);
图9是用于解释由文档分析装置进行的功能性作用分析处理的流程图;
图10是显示功能性作用分析知识的示例的示意图;
图11A是显示了对图8A中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;
图11B是显示了对图8B中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;
图11C是显示了对图8C中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;
图11D是显示了对图8D中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;
图12是用于解释部分化装置的处理流程的流程图;
图13A是显示在输入图11A中文档数据的情况下部分化装置的处理结果的示例的示意图;
图13B是显示在输入图11B中文档数据的情况下部分化装置的处理结果的示例的示意图;
图13C是显示在输入图11C中文档数据的情况下部分化装置的处理结果的示例的示意图;
图13D是显示在输入图11D中文档数据的情况下部分化装置的处理结果的示例的示意图;
图14是用于解释索引装置的处理流程的流程图;
图15是显示索引装置的结构的示意图;
图16是显示信息分量存储装置的结构的示意图;
图17A和17B是显示索引策略知识的示例的示意图;
图18是用于解释检索装置的处理流程的流程图;
图19是显示检索装置的结构的示意图;
图20是显示检索策略知识的示例的示意图;
图21是显示根据第二实施例的文档信息处理设备的结构的示意图;
图22是显示使用编辑装置的编辑工作的屏幕的示例的示意图;
图23A和23B是显示剪贴簿的数据表示的示例的示意图;
图24是用于解释模板生成装置的操作的流程图;
图25是显示由模板生成装置从图23B转换的模板的示例的示意图;
图26是用于解释在编辑装置基于模板来实现编辑处理的情况下的处理流程的流程图;
图27A和27B是显示一组文档的示意图;
图28A和28B是显示在图25中表示的部分都被替换的情况下的编辑结果的示意图;和
图29显示了描述可以实施与本发明一致的系统和方法的示例性硬件结构的示意图。
具体实施方式
下面将参照附图对本发明的实施例进行说明。
(第一实施例)
第一实施例包括一种文档信息处理设备,能够把用户在PC上浏览的内容分割和部分化,例如因特网或电子邮件的内容,或者通过使用扫描仪和OCR转换成电子文本的纸介质内容,并且允许用户按照需要检索和编辑该部分化信息。
图1是显示根据本发明第一实施例的示例性文档信息处理设备的框图。
参照图1,文档信息处理设备100包括信息输入装置101、文档分析知识存储装置102、文档分析装置103、部分化(componentization)装置104、索引装置105、信息分量(component)存储装置106和检索装置107。
信息输入装置101读出被用户浏览的信息,作为文档信息处理设备100的输入。在第一实施例中,被提取的信息可以是因特网、电子邮件、以及印刷在纸张等上的信息通过由扫描仪装载并由现有的OCR(光学字符阅读器)技术来转换的方式来获取的电子信息的内容。更具体地,信息输入装置101与用户浏览这些信息条目所使用的应用软件通信,从而提取该信息。作为信息提取器的应用软件可以是专门为本实施例建立的程序或者其他现有的应用软件。在现有应用软件的情况下,该信息通过在现有应用软件产品之间的通信技术来提取。
文档分析知识存储装置102存储用于分析输入到信息输入装置101的文档信息的文档分析知识。举例来说,用于该文档信息的语义分析的语义分析知识被存储作为文档分析知识。
文档分析装置103基于存储在文档分析知识存储装置102中的文档分析知识,分析输入到信息输入装置101的文档信息。该分析例如可以是语义分析。
部分化装置104基于文档分析装置103的文档分析结果,将输入到信息输入装置101的信息分割和部分化。下面将通过对该信息分割和部分化得到的各项称为“信息分量(component)”。
索引装置105基于文档分析装置103的文档分析结果,产生和为部分化装置104分割的单个信息分量分配索引,并且将得到的信息分量存储在信息分量存储装置106中。
信息分量存储装置106存储被索引装置105分配有索引的信息分量。
检索装置107基于该索引检索存储在信息分量存储装置106中的信息分量。
编辑装置108通过利用由检索装置107检索得到的至少一个信息分量来编辑新内容。该由编辑装置108编辑的内容被发送到索引装置105,并且被作为新信息分量分配索引和存储在信息分量存储装置106中。
基于编辑装置108的编辑屏幕在显示装置109例如CRT(阴极射线管)显示器或液晶显示器(LCD)上显示。
现在,将使用样本信息对文档信息处理设备100的操作进行说明。
图2A-2D是显示了输入到信息输入装置101的信息条目的示例的示意图。
图2A-2D中的所有示例都是TSB公司的产品“GBG21”上的信息条目。
图2A显示了TSB公司的产品的新闻稿的网页内容(以HTML(超文本标记语言)格式编写的数据),图2B显示了在因特网上的新站点中出现的产品介绍报告的网页内容(HTML),图2C显示了来自一个商店的电子邮件的直接邮件(具有邮件头的文本),图2D显示了目录(通过扫描仪加载的、打印在纸介质上的目录数据)。
图2A和2B中所示的电子信息条目被从因特网的网页浏览器输入到信息输入装置101。图2C所示的电子信息被从电子邮件应用输入到信息输入装置101。图2D所示的电子信息被从图像扫描数据的浏览器输入到信息输入装置101。
在与本发明一致的实施例中,文档信息处理设备100被实施为应用软件,其中网页浏览器和电子邮件应用软件的功能被作为软件部分结合,该信息输入装置101可以通过该软件部分的应用编程接口(API)接收信息条目的输入。在与本发明一致的另一实施例中,文档信息处理设备100实施为与外部软件(例如网页浏览器、电子邮件应用软件等)协同操作的应用软件,信息输入装置101通过基于该外部软件和应用软件之间的通信技术的通信来接收信息的输入。
图2A和2B例示了通过网页浏览器浏览信息条目的情况,并且实际输入到信息输入装置101的信息条目来源的示例分别在图3A和3B中示出。同样地,图2C例示了通过电子邮件应用软件浏览信息的情况,而实际输入到信息输入装置101的信息来源的示例在图3C中示出。图2D例示了通过图像扫描数据浏览器浏览信息的情况,并且该信息是以图像数据格式例如标记图像文件格式(TIFF)的二进制数据输入到信息输入装置101。
信息输入装置101将该信息的输入源的类型或标识符作为属性信息附加到该输入信息,并且将所得的信息发送给文档分析装置103。该“作为属性信息附加的、该信息的输入源的类型或标识符”是用于识别网页浏览器或电子邮件应用软件或者具有能够与信息输入装置101通信以接收该信息输入的功能的软件部分的属性信息。
这里,通过示例假定网页浏览器或其软件部分的标识符是“INTERNET”。并且,电子邮件应用软件或其软件部分的标识符假定为“MALL”。另外,图像扫描数据或其软件部分的标识符假定为“SCAN”。
文档分析装置103对输入信息的文档结构、包含在输入信息中的部分的功能性作用(functional role)、包含在输入信息中的单词、从句或句子的语义属性进行文档分析。该文档分析装置103的处理将结合图4进行说明。
然后,将参照图4的流程图对文档分析装置103的处理流程进行说明。
参照图4,文档分析装置103根据从信息输入装置101输入的属性信息改变对文档结构的分析处理(步骤S401、步骤S404或步骤S406)。
文档分析装置103判断从信息输入装置101输入的属性信息是否是“SCAN”(步骤S401)。
在步骤S401的判断是“是”的情况,该输入信息是图像扫描数据。因此,文档分析装置103首先执行OCR处理以将图像扫描数据转换成文本(步骤S402),然后将该文本提交到文档结构分析处理(a)(步骤S403)。
利用已知的技术(例如JP-A-2003-288334)能够对该图像扫描数据进行OCR处理和进行文档结构分析处理(a),这里省略了对它们的详细说明。
另一方面,在步骤S401的判断是“否”的情况,文档分析装置103判断从信息输入装置101输入的属性信息是否是“INTERNET”(步骤S404)。
在步骤S404的判断是“是”的情况,该输入信息是用HTML描述的。因此,文档分析装置103执行文档结构分析处理(b),其中考虑HTML的结构(S405)。文档结构分析处理(b)的细节将在以后说明。
另一方面,在步骤S404的判断是“否”的情况,文档分析装置103判断从信息输入装置101输入的属性信息是否是“MAIL”(步骤S406)。
在步骤S406的判断是“是”的情况,认为该输入信息具有电子邮件头(header)。因此文档分析装置103执行文档结构分析处理(c),其中考虑电子邮件头(步骤S407)。文档结构分析处理(c)的细节将在以后说明。
在步骤S406的判断是“否”的情况,就是说,从信息输入装置101输入的属性信息不是标识符“SCAN”、“INTERNET”和“MAIL”中的任一个(步骤S401、S404和S406的判断是“否”),则文档分析装置103执行文档结构分析处理(d),假定该输入信息是用纯文本描述的。
虽然在本示例中仅有标识符“SCAN”、“INTERNET”和“MAIL”被假定为属性信息的情况,但是对于其他标识符也可以执行类似的处理。
在步骤S403的文档结构分析处理(a)、步骤S405的文档结构分析处理(b)、步骤S407的文档结构分析处理(c)或步骤S408的文档结构分析处理(d)之后,文档分析装置103执行语义属性分析处理(步骤S409),进一步执行功能性作用分析处理(步骤S410),最后分配从信息输入装置101发送的属性信息(步骤S411),从而输出语义分析结果。
虽然图4中的处理是按照文档结构分析处理(步骤S403、S405、S407或S408)、语义属性分析处理(步骤S409)和功能性作用分析处理(步骤S410)的顺序进行的,这些处理的顺序不需要限制到本发明的任何实施例。并且,如果需要的话,可以选择执行这些处理中的至少一个。
下面将对文档分析装置103进行的文档结构分析处理(b)-(d)的处理内容进行说明。
为了进行文档结构分析处理(b)-(d)的分析,文档分析装置103参考存储在文档分析知识存储装置102中的文档分析知识中关于文档结构分析的知识条目(item)。
有关文档结构分析的知识条目的示例在图5A和5B中示出。
图5A例示了用于分析HTML文档结构的知识。
图5B例示了用于分析电子邮件或纯文本的文档结构的知识。该用于分析电子邮件和纯文本的文档结构的知识并不需要总是相同的。
在本实施例中,文档结构分析处理(b)(或(c))和(d)之间的区别通过参考相互不同的文档分析知识条目来体现。也就是说,文档结构分析处理(b)-(d)根据图6所示的公共处理流程分别参考图5A和5B中的知识条目。
[文档结构分析处理(b)的操作]
首先,将参照图6对输入如图3A所示以HTML描述的信息的情况下文档结构分析处理(b)的操作进行说明。
图3A中的信息是以HTML描述的,并且分析处理(b)参考图5A中的知识。
文档分析装置103将图3A中的文档信息作为待分析数据加载,并且将该加载的信息赋予变量D(步骤S601)。
接着,文档分析装置103将表示模式匹配位置(来自文档头的字符的位置包含换行符)的变量I清零。
随后,文档分析装置103从存储在文档分析知识存储装置102中的文档结构分析知识中取出一个分析知识条目(步骤S603)。这里假定在图5A例示的分析知识条目501已经被取出。
为了以后执行替换处理,文档分析装置103将在步骤S603取出的分析知识501中作为“文件结构标志”的“<STRUCTURE:TITLE>$1</STRUCTURE:TITLE>”赋予变量T。
关于存储在变量D中的待分析数据,文档分析装置103从变量I指示的位置中搜索与分析知识501的“模式”相匹配的位置(步骤S605)。
在本实施例中,采用在已知技术中使用的称为“Perl语言”的正规表示格式作为模式。Perl语言和该语言的正规表示可以从例如“Learning Perl,2nd Edition”,Randal L.Schwartz & TomChristiansen(O’Reilly 1997)中得知,在此引用该参考文献的全文作为参考。
在图5A中的分析知识501的模式的情况下,待分析数据在字符串“<TITLE>”和“</TITLE>”之间存在至少0个字符(*)中的任何字符(.)的情况下匹配。这里,该换行符也包含在任何字符(.)中。并且,在字符串“</TITLE>”在输入信息中出现多次的情况,这里将选择最短的一个匹配字符串。最后,在句子中首次出现的该“<TITLE>-</TITLE>”部分被选择。
文档分析装置103判断与该模式匹配的字符串是否被找到作为步骤S605搜索的结果(步骤S606)。
在步骤606的判断是“是”的情况,文档分析装置103用对应于该模式中的括号的字符串替换“变量T中的$n(n=1,2,...)”。在至少有两个括号对应于变量T中的至少两个“n”的情况,使用图3A中的文档数据作为示例,第三行中的“<TITLE>PRESS RELEASE</TITLE>”与该模式匹配,并且字符串“PRESS RELEASE”对应于该模式中的括号,从而变量T的值变为“<STRUCTURE:TITLE>PRESSRELEASE</STRUCTURE:TITLE>”。表示这时的位置的变量I的值是“15”,包含换行符。换句话说,从头数起的第15个字符,即“<HTML>[换行符]<HEAD>[换行符]”(“[换行符]”实际上是一个字符)之后紧接的字符,与该模式匹配。
另一方面,在步骤S606的判断是“否”的情况,文档分析装置103进行到步骤S611。
然后到步骤S607,文档分析装置103用变量T的值“<STRUCTURE:TITLE>PRESSRELEASE</STRUCTURE:TITLE>”替换变量D中的字符串“<TITLE>PRESS RELEASE</TITLE>”(步骤S608)。
文档分析装置103将表示该位置的变量I的值改变为变量D中的替换位置尾部的下一个位置(步骤S609)。这里,设定I=41。换句话说,从头数起的第41个字符,即“<HTML>[换行符]<HEAD>[换行符]<STRUCTURE:TITLE>PRESSRELEASE</STRUCTURE:TITLE>”的下一个字符被设定。
步骤S609之后,文档分析装置103判断被处理的分析知识的“重复标志”的值是否是“1”(步骤S610)。
如果步骤S610是“是”,文档分析装置103对于该相同的分析知识再次重复进行步骤S604到S606的处理,直到与该模式匹配失败。另一方面,如果步骤S610是“否”,文档分析装置103进行到步骤S611。
对于所有相应的分析知识条目重复执行步骤S602-S610的处理。当对于所有相应的分析知识条目都已经完成该处理时(步骤S611为“是”),将变量D作为分析结果输出(步骤S612)。于是,图6中的处理流程结束。
图7A-7D示出了文档分析装置103的文档结构分析处理结果的示例。
图7A例示了在输入图3A中的信息的情况下该文档结构处理的示例性结果。因为图3A中的输入信息是HTML,与该文档结构分析结果无关的标记例如“<HTML>”保持在该输出中。如果需要移除该标记,可以通过已知的技术很容易地移除它们。
图7B示出了在输入图3B中的信息的情况下该文档结构处理的示例性结果。因为在图3B中属性信息是“INTERNET”,所以使用图5A中的分析知识执行该文档结构分析处理。
图7C示出了在输入图3C中的信息的情况下该文档结构处理的示例性结果。因为在图3C中属性信息是“MAIL”,所以使用图5B中的分析知识执行该文档结构分析处理。
因为在图2D中属性信息是“SCAN”,所以利用前述的已知技术执行该文档结构分析处理。图7D示出了在输入图2D中的信息的情况时文档结构处理结果的示例。
然后,可以使用已知技术进行文档分析装置103的语义属性分析处理(图4中的步骤S409)。可用的已知技术包含在例如the researchreport NL-161-3(2004)of the 161st Natural Language ProcessingResearch Meeting,the Institute of Information Processing Engineers,这里通过全文引用作为参考。语义属性分析处理的结果取决于存储在文档分析知识存储装置102中的、在语义属性分析处理中参考的语义属性分析知识的内容。然而,在本实施例中,假定已经获得图8A-8D中所示的处理结果。
接着,将参照图9对文档分析装置103的功能性作用分析处理(图4中的步骤S410)进行说明。
应用包含在例如以下文档中的技术作为功能性作用分析处理:Masaru SUZUKI et al.,“Customer Support Operation with aKnowledge Sharing System KIDS:An Approach based onInformation Extraction and Text Structurization”,Proceedings ofWorld Multiconference on Systemics,Cybernetics and Informatics{SC12001,Vol.7,pp.89-94(2001)},这里通过引用其全文作为参考。
取决于每个实施例的使用目的,该功能性作用分析处理根据待分析文档的功能性作用有所不同。在本实施例中,对以下功能性作用进行分析:
通告:企业等的新闻稿陈述
报告:叙述事实的新闻或杂志的新闻条目
专栏:陈述某个观点的报告
问候:基于电子邮件等的问候信
解释:术语等的说明注释
图9是示出了该功能性作用分析处理的流程的示意图。
参照图9,文档分析装置103加载了待分析数据,进行该文档结构分析处理以及语义属性分析处理,并且将该加载数据赋予变量D(步骤S901)。
随后,文档分析装置103基于文档结构分析处理的结果对变量D的值进行分割。这里将该分割的待分析数据的单个部分称为“单元文档”(步骤S902)。顺便说一下,该分割成单元文档的得到的单元可以根据每个实施例的使用目的而不同。在第一实施例中,对于该单元使用文档结构分析处理的结果。不过,与本发明原理一致的实施例并不因而局限于此。举例来说,单个句子、单个段落、单个文档、或者类似层次结构的条目都可以设定为单元。可选地,作为修改实施例,在输入是HTML的情况,不仅文档结构分析处理的结果而且HTML标记本身也可以用于该单元文档分割的定界符。
在分析准备中,为每个功能性作用准备工作变量,并且将它们的值清零(步骤S903)。
随后,文档分析装置103逐一取出该分割的单元文档(步骤S904)。进而,逐一取出存储在文档分析知识存储装置102中的功能性作用分析知识(步骤S905)。
图10示出了功能性作用分析知识。功能性作用分析知识的每一条都用一组三个参数表示:“模式”、“功能性作用”和“权重”。如图10所示,每个模式可以很好地对应于多个功能性作用和权重。
然后,文档分析装置103检查在步骤S904取得的单元文档和在步骤S905获得的模式之间的匹配情况(步骤S906)。在第一实施例中,用于该功能性作用分析知识的模式的说明方法和匹配技术和文档结构分析处理中的相同。
在步骤S906中单元文档与模式匹配的情况(步骤S906为“是”),文档分析装置103向对应的功能性作用的工作变量加入相应的权重(步骤S907)。在存在多个对应的功能性作用的情况,向所有对应的功能性作用增加各自的权重。
文档分析装置103对于功能性作用分析知识的所有条目重复步骤S905-S907的处理(步骤S908)。
随后,在文档分析装置103检查完一个单元文档与所有功能性作用分析知识条目的模式之间的比较之后(步骤S908为“是”),比较单个的工作变量,并且将对应于最大值工作变量的功能性作用分配给该单元文档(步骤S909)。这里,在存在多个最大值工作变量的情况,将分配多个功能性作用。在所有工作变量的值均为“0”的情况,将分配作用“不定”作为一个特殊的功能性作用。
进而,当步骤S903-S909已经对所有单元文档重复后(步骤S910),并且对所有单元文档的处理已经结束时(步骤S910为“是”),该功能性作用分析处理结束。
例如在功能性作用分析处理中将图8A的数据输入到文档分析装置103的情况,根据该文档结构分割的第一单元文档变成“<HTML><HEAD>”。因为该单元文档仅由HTML标记组成,所以它并不构成用于在本实施例中处理的对象。
下一个单元文档是“PRESS RELEASE”。由于该单元文档与图10中所示的功能性作用分析知识的任一个模式都不匹配,所以将功能性作用“不定”分配给它。
进而,假定通过步骤S903-S910的环(loop)处理,在步骤S904得到了图8A中第7行开始的单元文档。
对照在步骤S905获得的功能性作用分析知识的模式,对单元文档801的元素进行连续检查。通过示例在步骤S904得到的单元文档801与图10中指示的知识模式1001相匹配(步骤S906为“是”),所以该例程进行到步骤S907,在此将权重“+1”加到作为对应的功能性作用的作用“通告”的工作变量上。因为单元文档801与图10中所示功能性作用分析知识的任何其他模式不相匹配,所以在步骤S909将作用“通告”分配给单元文档801。
图11A-11D所示是对于图8A-8D中的各个文档数据的功能性作用分析处理的处理结果的示例。
上面是对本实施例中的文档分析装置103的三个处理(文档结构分析处理,语义属性分析处理,和功能性作用分析处理)的处理内容的说明。
接着,将参照图12的流程图对图1中的部分化装置104的处理流程进行说明。
部分化装置104首先加载该待分析数据,并将该加载数据赋予变量D以备重写(步骤S1201)。
随后,部分化装置104在变量D中搜索包围在任何“<FUNCTION:*>”标记内的值(步骤S1202),并且用“<COMPONENT>”和“</COMPONENT>”标记包围该值(步骤S1203)。例如搜索该标记和插入该标记的处理可以通过已知技术例如现有的DOM(文档对象模型)或“Xpath”来实现。在步骤S1202搜索到多个<FUNCTION:*>标记的情况,对各个标记执行步骤S1203的处理。然而,在<FUNCTION:*>标记是连续嵌套模式的情况,只把该连续<FUNCTION:*>标记的最里面的一个的值设定为该处理的对象。
步骤S1203之后,部分化装置104在变量D中搜索包围在“<MEANING:MAIL_ADDRESS>”标记内的值(步骤S1204),并且用“<COMPONENT>”和“</COMPONENT>”标记包围该值(步骤S1205)。在步骤S1204搜索到多个“<MEANING:MAIL_ADDRESS>”标记的情况,对各个标记执行步骤S1205的处理。
步骤S1205之后,部分化装置104在变量D中搜索包围在任何“<STRUCTURE:IMG*>”标记内的值(步骤S1206),并且用“<COMPONENT>”和“</COMPONENT>”标记包围该“<STRUCTURE:IMG*>”标记(步骤S1207)。在步骤S1206搜索到多个“<STRUCTURE:IMG*>”标记的情况,对各个标记执行步骤S1207的处理。
步骤S1207之后,部分化装置104输出被在步骤S1202-S1207中重写的变量D,作为分析结果(步骤S1208)。然后,该部分化处理结束。
下面,将通过示例说明该部分化处理。
例如在输入图11A中的文档数据的情况,在步骤S1202搜索图11A中用参考数字1101、1102和1103指示的部分,并且将它们分别包围在<COMPONENT>标记内。并且,在步骤S1204搜索图11C中用参考数字1105和1106指示的部分,在步骤S1206搜索图11B中用参考数字1104指示的部分。
图13A-13D是示出了在输入图11A-11D中的各个文档数据的情况下部分化装置104的处理结果示例的示意图。
下面,参照图14的流程图对图1中的索引装置105的处理流程进行说明。
索引装置105包括索引策略知识存储装置105a,如图15中详细显示。
信息分量存储装置106包含文档索引106a、分量索引106b和策略索引106c,如图16中详细显示。
索引装置105首先加载该待索引文档数据,并将该加载数据赋予变量D(步骤S1401)。
接着,在由部分化装置104将该文档数据部分化(步骤S1402)的情况下,索引装置105将变量D分割为由分量标记(“<COMPONENT>”和“</COMPONENT>”标记)划界的分量数据。
在步骤S1402之后,索引装置105将标识符(分量标识符ID)分配给各个分量以便以后可以引用该标识符(步骤S1403)。用于生成该ID的方法可以由已知技术实现。该ID可以是例如基于随机数的足够位数的数字值或者字母串。
接着,索引装置105索引该文档数据,其中分量ID在步骤S1403被分配到各个分量,并且将该文档数据和ID存储在文档索引106a中(步骤S1404)。该索引技术使用已知的文档数据库技术来实现。
接着,索引装置105逐一读出在步骤S1402获得的分量数据项(步骤S1405)。
然后,索引装置105在输入到索引装置105的原始数据中查找文档结构标记的路径(层级)直到到达在步骤S1405提取的分量数据的分量标记。它将该路径转换成向量v_1(步骤S1406)。这里,在该分量标记中包含任何文档结构标记的情况,它也应当包含在该向量v_1中。
随后,索引装置105在输入到索引装置105的原始数据中查找功能性作用标记的路径(层级)直到到达在步骤S1405提取的分量数据。它将该路径转换成向量v_2(步骤S1407)。
在步骤S1407之后,索引装置105在分量索引106b中注册分量数据、分量ID、向量v_1和向量v_2四个值(步骤S1408)。
接着,索引装置105获取包含在步骤S1405提取的分量数据值中的一组语义属性标记的所有标注,并将该标注转换成向量v_3(步骤S1409)。
在步骤S1409之后,当向量v_3在步骤S1409是空向量(其全部由“0”组成)时(步骤S1410为“是”),索引装置105进行到步骤S1418(稍后解释),而不执行在策略索引106c中注册。当向量v_3不是空向量时,索引装置105进行到步骤S1411(步骤S1410)。稍后将参照图17A对该到各个向量v_1、v_2和v_3的转换(基础)进行说明。
然后,索引装置105获取存储在索引策略知识存储装置105a中的一个索引策略知识条目(步骤S1411)。
这里,图17A和17B中示出了该索引策略知识的示例。该索引策略知识由索引策略选择向量和索引策略向量组成,该索引策略选择向量包含文档结构向量、功能性作用向量、语义属性向量这三个向量。
图17A分别表示该文档结构向量的基础要素:上述的功能性作用向量和语义属性向量。
例如,语义属性向量中仅出现“COMPANY”的状态表示为(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。该索引策略向量与该索引策略选择向量的语义属性向量具有相同的基础(base)。
图17B中的数字901、902和903分别表示索引策略知识的示例。表示为“文档结构”、“功能性作用”和“语义属性”的各个向量是索引策略选择向量的组成向量。图17B表示为“策略向量”的向量是索引策略向量。在第一实施例中,假定索引策略知识向量的每个元素都具有“0”或“1”的值。
重新参照图14来继续对索引装置105的处理的说明。
索引装置105计算在步骤S1411获取的索引策略知识的每个索引策略选择向量和向量v_1、v_2和v_3之间的内积(d_1、d_2和d_3),并且对该计算值求和以计算该分量数据和索引策略选择向量之间的相似度S(步骤S1412)。
索引装置105对于所有索引策略知识条目重复执行步骤S1411和S1412的处理(步骤S1413)。
在步骤S1413之后,当对于所有索引策略知识条目,相似度S小于预定阈值S_lim时,索引装置105继续到步骤S1418(稍后解释)而不执行在策略索引106c中的注册。当对于所有索引策略知识条目,相似度S不小于预定阈值S_lim时,索引装置105继续到步骤S1415(步骤S1414)。
在步骤S1415,索引装置105从索引策略知识存储装置105a中提取索引策略知识向量v_s,该索引策略知识向量v_s对应于大于阈值S_lim并且提供最大相似度S的索引策略选择向量(步骤S1415)。
在步骤S1415之后,索引装置105将该分量数据的语义属性向量(向量v_3)的组成与该索引策略知识向量(向量v_s)之间的积设定为新向量v_3(步骤S1416)。
接着,与其分量ID一起,索引装置105在策略索引106c中将新向量v_3的组成注册为具有相应的语义属性的单词的权重(步骤S1417)。
索引装置105对于包含在所有文档数据(变量D)的所有分量重复步骤S1405-S1417的处理(步骤S1418)。
例如在将图13A的数据作为文档数据输入到索引装置105的情况,根据图14中的步骤S1406、S1407和S1409,图13A中的第一部分1301的分量向量变为:
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。因为语义属性向量v_3没有语义属性标记,所以它是空向量。因而,图14中步骤S1410的判断变为“是”,并且不在策略索引106c中注册向量v_3。
图13A中的下一个部分1302的分量向量变为:
v_1=(1,0,0,0,0)
v_2=(0,1,0,0)
v_3=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
在第一实施例中,即使在该向量中存在多个相同元素的情况下,该向量的各个组成部分也应当取值“0”或“1”。
关于图13A中的1302部分,与在图17B中的参考数字901、902和903处的索引策略选择向量的相似度分别计算如下。
参考数字901:
d_1=0
d_2=1
d_3=4
相似度S=5
参考数字902:
d_1=0
d_2=0
d_3=4
相似度S=4
参考数字903:
d_1=0
d_2=0
d_3=1
相似度S=1
因此,在参考数字901的情况下相似度S变为最大。从而,索引装置105将新向量(1,0,1,1,0,0,0,0,0,0,0,0,0,0,0)在策略索引106c中注册(register)为具有对应于各个分量的语义属性的单词的权重,其中该新向量(1,0,1,1,0,0,0,0,0,0,0,0,0,0,0)是通过使向量v_3和参考数字901处的索引策略向量的单个元素相乘得到的。
更具体地,这里在这种情况下,具有<meaning:COMPANY>标记的“TSB”、具有<meaning:PRODUCT_CLASS>标记的“digitalaudio player”和“personal computer”、和具有<meaning:PRODUCT_NAME>标记的“GB G21”四项分别具有权重“1”,而具有<meaning:DATE>标记的“April 9”具有权重“0”并因而从策略索引106c中排除。
以这种方式,将输入到索引装置105的文档数据存储在信息分量存储装置106中。
下面,将参照图18的流程图对图1中的检索装置107的处理流程进行说明。
如图19详细显示,检索装置107包括检索策略知识存储装置107a。
参照图18,检索装置107接收检索请求的输入(步骤S1801)。
随后,检索装置107判断关于在步骤S1801接收的检索请求,语义分析处理和部分化处理是否是未完成的处理(步骤S1802)。
在步骤S1802判断的结果为语义分析处理和部分化处理未完成的情况(步骤S1802为“是”),检索装置107通过文档分析装置103执行语义分析处理(步骤S1803),并通过部分化装置104执行部分化处理(步骤S1804)。
接着,检索装置107根据分量标记对预先或者在步骤S1803和S1804进行语义分析处理和部分化处理的检索请求进行分割(步骤S1805)。
随后,检索装置107逐一读出步骤S1805分割的分量(步骤S1806),向量化文档数据中的结构标记路径(步骤S1807),向量化文档数据中的功能性标记路径(步骤S1808),以及向量化包含在该分量中的一组语义属性标记的标注(步骤S1809)。
步骤S1807-S1809的向量化处理细节分别与图14中的步骤S1406、S1407和S1409相同。
这里,步骤S1807获得的向量用v_1表示,步骤S1808获得的向量用v_2表示,步骤S1809获得的向量用v_3表示。
从包含在检索装置107中的检索策略知识存储装置107a中获取一条检索策略知识(步骤S1810)。计算包含在检索策略知识条目中的文档结构向量、功能性作用向量和语义属性向量之间的内积(d_1、d_2和d_3)及包含在该分量中各相应的向量,并且对该计算的值求和以计算在检索策略向量和该分量向量之间的相似度D_i(步骤S1811)。该用于计算相似度D_i的方法与图14中的步骤S1412相同。
随后,检索装置107对于所有检索策略知识条目查找相似度D_i,并判断相似度D_i的最大值是否小于预定阈值D_lim(步骤S1813)。
当相似度D_i的最大值小于值D_lim时(步骤S1813为“是”),将该检索策略向量设为元素全为“0”的空向量(步骤S1814)。
当相似度D_i的最大值不小于值D_lim时(步骤S1813为“否”),从该提供最大相似度D_i的检索策略知识中提取检索策略向量(步骤S1815)。
随后,检索装置107执行检索处理。这里,它输出由下述三个环检索结果结合的一个检索结果。
检索装置107在该分量标记值的基础上搜索文档索引,并存储检索文档的检索分数(步骤S1816)。
接着,关于步骤S1815提取的检索策略知识向量,检索装置107将与该检索策略知识向量的各个元素相对应的单个意义标记(meaning tags)中包含的单词的权重和作为系数的这些元素相乘,并且搜索该分量索引。进而,检索装置107为该单个检索分量的检索分数评分(步骤S1817)。
随后,检索装置107在该分量标记值的基础上搜索策略索引,并存储单个检索分量的检索分数(步骤S1818)。顺便说一句,每个检索(评分)处理是已知的技术,这里略去了其详细说明。
然后,检索装置107为每个文档或每个分量在步骤S1816-S1818存储的分数求和,从而进一步得出结果分数(步骤S1819)。
紧接着步骤S1819,检索装置107对该部分化检索请求的所有分量执行步骤S1806-S1819的处理(步骤S1820)。
随后,当检索装置107已经对整个检索请求执行了该检索处理时,根据在步骤S1819求和和存储的分数对该被检索文档或分量进行排序(步骤S1821),并输出该排序的结果(步骤S1822)。这里,该文档和分量应当是分别排序和输出的。
现在,重新将图13D所示的分量1303设定为该检索请求的可行示例,该检索请求作为待注册文档的示例。于是,向量v_1、v_2和v_3如下:
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,1,1,0,0,1,0,0,0,0,0,0,0,0)
这些向量与如图20所示的检索策略知识的单个示例的相似度计算如下:
参考数字2001的策略向量:
d_1=0
d_2=0
d_3=3
D_i=3
参考数字2002的策略向量:
d_1=1
d_2=0
d_3=3
D_i=4
参考数字2003的策略向量:
d_1=0
d_2=0
d_3=0
D_i=0
因此,相似度D i变为最大的检索策略知识是参考数字2002时的策略向量。
如果D_i的最大值小于4,即参考数字2002时的策略向量;则在步骤S1816使用(0.5,0,0.5,1,0,0,0,0,0,0,0,0,0,0,0)。更具体地,通过将“1”设为具有PRODUCT_NAME作为检索请求中的意义标记的单词“GB G21”的权重,将“0.5”设为具有PRODUCT_CLASS的单词“portable audio player”的权重,和将“0”设为其他任何单词的权重,从而对该分量索引进行搜索。
虽然在该策略向量中元素COMPANY是0.5,但是在该检索请求中不存在相应的意义标记,所以这里忽略该单词COMPANY。
关于该检索请求中具有意义标记COUNT的“5,000 pieces ofmusic”,该策略向量的对应分量是“0”,所以该单词在步骤S1816中也被忽略。
在步骤S1817,只有通过索引装置105在策略索引中注册的单词才成为该检索对象。因而在例如图13A的1302部分的情况,对如前所述的单词“TSB”、“digital audio player”、“personal computer”和“GB G21”附加重要性。
如上所述,与本发明的原理一致,该索引中的单个单词的权重根据文档结构、功能性作用和文档数据的单个部分包含的语义属性作出适当改变,从而可以提供能够基于文档数据的上下文而执行适当的索引的文档信息处理设备。例如,允许执行高程度控制以有助于在每个上下文中检索重要单词,或者预先去除可能成为无用信息的单词。
而且,还基于检索请求的上下文执行检索,从而可以提供能够精确获得必要信息的文档信息处理设备。例如,当文档数据的该部分(分量)作为检索请求给出时,作为检索关键词的单个单词的权重根据包含该作为检索请求的部分的文档数据的文档结构和功能性作用、和包含在该检索请求中的语义属性而作出适当改变,从而使得基于该检索请求上下文的高度检索控制变得可能。
一般地,本实施例通过由软件控制的计算机来实现。在这种情况下,该软件包括程序和数据,本发明的操作和优点通过物理使用计算机的硬件来实现,并且对可以应用现有技术的部分应用适当的现有技术。进一步,用于实施本发明的硬件和软件的具体方法和结构、通过该软件处理的范围等是可选地可以改变的。因而,在随后说明中,参考虚拟功能框图,其中构成本发明的各个功能用方框说明。顺便说一句,用于通过操作计算机来实现本发明的程序也是本发明的一个方面。
(第二实施例)
现在,将参照附图对本发明的第二实施例进行说明。在第二实施例中,用户可以通过应用模板容易地进行编辑。与第一实施例中相同的结构、操作等将使用相同的参考数字和符号来表示,并且在说明中将被省略。
图21是示出根据本发明的第二实施例的文档信息处理设备的结构的示意图。
如图21所示,与图1相比,文档信息处理设备100还提供有模板生成装置2101和模板存储装置2102。
编辑装置108通过使用由检索装置107检索的至少一个信息分量来编辑新内容。编辑装置108向索引装置105发送该编辑内容。然后,索引装置105提供索引作为新的信息分量并将该信息分量存储在信息分量存储装置106中。
这里,编辑装置108通过使用由检索装置107检索的信息分量来编辑新内容。然而,编辑装置108可以通过使用由不同于检索装置107的任何其他装置获得的信息分量来进行编辑,以这种方式使得该输出到文件的信息分量例如通过文件名来调用。并且,编辑装置108可以根据模板来处理编辑。其中,模板存储装置2102存储编辑装置108执行编辑所使用的模板。
存储在模板存储装置2102的模板可以由未包含在本发明的文档信息处理设备中的任何其他装置生成,或者它们也可以通过反映用户使用编辑装置108执行的编辑处理的内容来生成。
模板生成装置2101在基于文档分析装置103的文档分析结果和编辑装置108的编辑处理内容的基础上,为该编辑处理生成模板并将该生成的模板存储在模板存储装置2102中。
首先,将对编辑装置108进行说明。
图22示出了应用该编辑装置108的编辑工作的屏幕的示例。
数字2203表示了作为该编辑工作的工作空间的剪贴簿。数字2201表示包含在图2B中的分量。数字2202表示包含在图2A中的分量。
分量2201和2202被安排在剪贴簿2203中。
这种编辑工作通过现有技术部分提到的现有技术的软件产品来实现。
图23A和23B中示出了该剪贴簿的数据表示的示例。
图23A示出了不包含分量的状态下的剪贴簿数据。图23B示出了剪贴簿2203状态下的剪贴簿数据。包含在图23B中的单个分量具有在图14的流程图中步骤S1403提供的特定ID。因此,即使在通过编辑装置108执行编辑工作之后,该单个分量也是可识别的。
下面,参照图24的流程图对模板生成装置2101的操作进行说明。
首先,模板生成装置2101获取(fetch)包含在剪贴簿中的一个分量(步骤S2401),并从信息分量存储装置106中为该获取的分量提取所述分量ID(步骤S2402)。
随后,模板生成装置2101以在步骤S2402提取的分量ID为线索,获取原始包含该分量的文档数据(步骤S2403)。
模板生成装置2101在该文档数据中查找文档结构标记的路径(层级)直到到达该分量数据的分量标记,并将该路径转换为向量v_1(步骤S2404)。这里,在该分量标记中包含任何文档结构标记的情况,该文档结构标记也被包含在该向量v_1中。同样地,模板生成装置2101查找功能性作用标记的路径(层级)直到到达该文档数据的分量数据,并将该路径转换为向量v_2(步骤S2405)。
进而,模板生成装置2101获取包含在该分量数据值中的语义属性标记的所有标注,并将该标注转换为向量v_3(步骤S2406)。
处理步骤S2404、S2405和S2406分别与图14流程中的步骤S1406、S1407和S1409相似。
紧接在步骤S2406之后,模板生成装置2101将这三个生成的向量v_1、v_2和v_3转换成各个字符串,并用该字符串替换该剪贴簿中的该分量信息(步骤S2407)。
对剪贴簿中的所有分量重复步骤S2401-S2407的处理。
当对于剪贴簿中的所有分量都已完成该处理时(步骤S2408为“是”),模板生成装置2101通过目前已知的GUI技术请求用户输入该生成模板的名字(步骤S2409)。进而,模板生成装置2101将该分量部分已经被替换的剪贴簿作为模板存储到模板存储装置2102中,其中为其提供步骤S2409输入的模板名字。
以这种方式,模板生成装置2101生成该模板并将该生成模板存储在模板存储装置2102中。
从而图25示出了通过模板生成装置2101从图23B转换为模板的示例。
现在,将参照图26对编辑装置108在基于模板进行编辑处理的情况的处理流程进行说明。
在这种情况下,用户将要提交给该编辑处理的多个文档输入到编辑装置108。当该一组文档没有经过语义分析和部分化时,分别通过已经解释过的文档分析装置103和部分化装置104进行语义分析和部分化。
首先,编辑装置108接收该一组文档的输入(步骤S2601)。这里,将考虑一次输入所有文档的情况,但是该文档也可以逐一给出以便对其进行连续处理。
接着,编辑装置108利用提供给该模板的名字作为线索加载由用户预先选择的模板,并且将该模板复制到缓冲器中以便稍后重写该模板(步骤S2602)。
随后,编辑装置108从该模板获取一个分量(步骤S2603)。
然后,编辑装置108从步骤S2603获取的模板中提取文档结构向量(v_1)、功能性作用向量(v_2)和语义属性向量(v_3),这些向量是通过模板生成装置2101获取并且如前面结合图24所解释的对于该模板的每个分量说明的(步骤S2604-S2606)。
紧接在步骤S2604后,编辑装置108从步骤S2601输入的一组文档中获取一个文档(步骤S2607),并从该获取的文档中提取一个分量(步骤S2608)。
随后,以分别与图24中步骤S2404、S2405和S2406相同的过程,编辑装置108关于步骤S2608提取的分量查找文档结构矢量(v_1’)、功能性作用向量(v_2’)和语义属性向量(v_3’)(步骤S2609-S2611)。
接着,对于在步骤S2604-S2606提取的向量和在步骤S2609-S2611提取的向量,编辑装置108计算向量v_1和v_1’之间的内积(s_1)、向量v_2和v_2’之间的内积(s_2)、和向量v_3和v_3’之间的内积(s_3),从而计算在各分量之间的相似度S_i(=s_1+s_2+s_3)。临时存储各计算的相似度(步骤S2612)。
随后,编辑装置108对于包含在布置S2607获取的文档中的所有分量重复S2608-S2612的处理(步骤S2613),并且进一步对于步骤S2601输入的该文档组中的所有文档重复该处理(步骤S2614)。
步骤S2614之后,编辑装置108从步骤S2612临时存储的单个相似度S_i获取最大值(S_max)(步骤S2615)。
随后,如果最大值(S_max)小于预定阈值(S_lim)(步骤S2616为“否”),则编辑装置108删除在缓冲器中复制的模板的相应的分量部分的值(步骤S2617)。相反地,如果个最大值(S_max)至少等于预定阈值(S_lim)(步骤S2616为“是”),则编辑装置108从个文档中的分量中选择最大化该相似度S_i的分量(步骤S2618),并用该选择的分量替换在缓冲器中复制的模板的相应的分量部分的值(步骤S2619)。
接着,编辑装置108对于在步骤S2602输入的模板中包含的所有分量重复步骤S2603-S2619的处理(步骤S2620)。
该缓冲器中的模板因为已经按照上述处理流程正确地进行了该替换处理,从而作为编辑结果输出(步骤S2621)。于是,该处理结束。
我们来考虑例如当指定图25中所示的模板和将图27A和27B中的数据作为一组文档输入的情况。
关于图25中用参考数字2501表示的该模板的部分,向量如下:
v_1=(1,0,0,0,0)
v_2=(0,1,0,0)
v_3=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
关于图27A和27B中用参考数字2701-2706表示的各个部分,向量如下:
部分2701:
v_1’=(0,0,1,0,0)
v_2’=(1,0,0,0)
v_3’=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
部分2702:
v_1’=(1,0,0,0,0)
v_2’=(0,1,0,0)
v_3’=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
部分2703:
v_1’=(1,0,0,0,0)
v_2’=(1,0,0,0)
v_3’=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)
部分2704:
v_1’=(0,0,1,0,0)
v_2’=(1,0,0,0)
v_3’=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
部分2705:
v_1’=(1,0,0,0,0)
v_2’=(0,0,1,0)
v_3’=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
部分2706:
v_1’=(0,0,0,0,1)
v_2’=(0,0,0,0)
v_3’=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
因此,与部分2501的相似度分别计算如下:
部分2701:S_i=0
部分2702:S_i=6
部分2703:S_i=1
部分2704:S_i=0
部分2705:S_i=5
部分2706:S_i=0
因而,相似度在部分2702最大。如果阈值S_max至多等于5,则用部分2702替换图25中模板的部分2501。
这个例子表示,部分2702和2705作为语义属性向量与部分2501等价,但是考虑到功能性作用向量的差别,选择部分2702作为更合适的分量。
同样地,对于参考数字2502表示的部分的向量:
v_1=(0,0,0,0,1)
v_2=(0,0,0,0)
v_3=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
相似度为:
部分2701:S_i=0
部分2702:S_i=0
部分2703:S_i=0
部分2704:S_i=0
部分2705:S_i=0
部分2706:S_i=1
因而,相似度在部分2706最大。如果阈值S_max是“0”,则用部分2706替换图25中模板的部分2502。
这里假定两个部分2501和2502均被替换,则编辑结果变为图28A所示。图28B示出了该编辑结果由浏览器显示的例子。
如上所述,根据本发明,能够提供一种文档信息处理设备,除了具有第一实施例的优点外,还具有能够易于收集被加入到产生的剪贴页的剪贴片断的优点。也就是说,用户能够很方便地再次产生与模板相似的剪贴页。例如根据图26的流程,编辑装置108能够根据存储在模板存储装置2102中的模板自动执行编辑处理。
而且,该剪贴页的模板是根据产生的剪贴页中的剪贴分量的组合而生成的。因而能够提供一种文档信息处理设备,当用户再次产生相似的剪贴页时,用户可以容易地根据该模板产生该剪贴页。
本发明的文档信息处理设备可以通过由计算机例如工作站(WS)或者个人计算机(PC)激活程序实现。
图29示出了描述一个示例性计算机的示意图,其中可以实现与本发明一致的系统和方法。该计算机包括执行该程序的中央处理单元2901,存储被处理的程序和数据的存储器2902,存储该程序、待搜索数据和OS(操作系统)的磁盘驱动器2903,以及用于从光盘读取程序和数据和向光盘写入的光盘驱动器2904。
进一步,该计算机包括作为在显示装置等上显示屏幕的界面的图像输出单元2905,从键盘、鼠标、触摸板等接收输入的输入接收单元2906,作为向外部装置传送输出或者从外部装置接收输入的接口(例如USB(通用串行总线)或音频输出终端)的输出/输入单元2907。此外,该文档信息处理设备包括显示装置2908例如LCD、CRT或投影机,输入装置2909例如键盘或鼠标,外部装置2910例如存储卡阅读器或扬声器。
中央处理单元2901从磁盘驱动器2903中读出程序并存入存储器2902中,然后运行该程序,从而实施图1所示的各个功能块。在运行程序期间,可以从磁盘驱动器2903读取一些或所有待搜索数据并存入存储器2902中。
作为基础操作,通过输入装置2909接收用户作出的检索请求,根据该检索请求搜索存储在磁盘驱动器2903和存储器2902中的待搜索数据。并且,在显示装置2908上显示检索结果。
显示在显示装置2908上的检索结果可以进一步通过声音提供给用户,例如使用作为外部装置2910连接的扬声器。可选地,将该检索结果使用作为外部装置2910连接的打印机以打印的形式提供。
本发明并不限于这些实施例,而是可以通过在不脱离本发明主旨的范围内修改组成元素而在改进的基础上形成。而且,可以通过适当地组合实施例中公开的多个组成元素而形成各种新技术。例如,可以从实施例中所示的所有组成元素中省略一些组成元素。而且,可以适当地组合不同实施例中的组成元素。

Claims (8)

1.一种文档信息处理设备,包括:
文档信息输入装置,用于输入文档信息;
文档分析装置,用于通过使用存储在文档分析知识存储装置中的分析知识来进行对该文档信息的文档分析,该文档分析是该文档信息的文档结构分析、在该文档信息中包含的部分的功能性作用分析以及包含在该文档信息中的单词、从句和句子的语义属性分析,并用于基于分析结果将结构标记、功能标记和语义属性标记设置到所述文档信息;
部分化装置,用于在所述文档信息中搜索所述结构标记、功能标记和语义属性标记,并用分量标记包围所述结构标记、功能标记和语义属性标记;
索引装置,用于通过所述分量标记将所述文档信息分割成每一信息分量,对每一信息分量分配分量ID,从所述信息分量的结构路径层级产生第一向量,从所述信息分量的功能路径层级产生第二向量,从所述信息分量的语义属性标记产生第三向量,获取存储在索引策略知识存储装置中的每一条索引策略知识,所述每一条索引策略知识包括索引策略选择向量和索引策略向量,计算所述每一条索引策略知识的索引策略选择向量和第一、第二及第三向量之间的相似度,提取具有最大相似度的一条索引策略知识,计算该条索引策略知识的索引策略向量和第三向量之间的积,该积为信息分量中具有语义属性标记的单词的权重;和
信息分量存储装置,用于关联地存储所述单词的权重、分量ID和文档信息。
2.如权利要求1所述的文档信息处理设备,进一步包括信息分量检索装置,用于接收检索请求,对于该检索请求已进行了语义分析和部分化处理,通过分量标记将检索请求分割为每一信息分量,从检索请求中的信息分量的结构路径层级、功能路径层级和语义属性标记产生三个向量,获取存储在检索策略知识存储装置中的每一条检索策略知识,所述每一条检索策略知识包括文档结构向量、功能性作用向量、语义属性向量和检索策略向量,计算所述信息分量和每一条检索策略知识之间的相似度,提取具有最大相似度的一条检索策略知识,将该条检索策略知识的检索策略向量与存储在信息分量存储装置中的每一信息分量的单词的权重相乘,并基于相乘结果从该信息分量存储装置中检索所述信息分量。
3.如权利要求1所述的文档信息处理设备,其中该文档分析装置通过使用语义分析知识进行该文档信息的语义属性分析。
4.如权利要求1所述的文档信息处理设备,进一步包括:
编辑模板存储装置,用于存储用于编辑所述信息分量的编辑模板;和
编辑装置,用于基于所述编辑模板和索引装置的分割结果中至少一个,对所述信息分量进行编辑,以生成新的文档信息。
5.如权利要求4所述的文档信息处理设备,进一步包括编辑模板生成装置,用于从该信息分量存储装置提取包含在剪贴簿中的信息分量的分量ID,基于该分量ID获取原先包含该信息分量的文档信息,从文档信息中的信息分量的结构路径层级、功能路径层级和语义属性标记产生三个向量,将所述三个向量转换成字符串,并通过用所述字符串替换该剪贴簿中的该信息分量而生成编辑模板。
6.如权利要求5所述的文档信息处理设备,进一步包括控制装置,用于将编辑模板生成装置生成的编辑模板存储在编辑模板存储装置中。
7.如权利要求1所述的文档信息处理设备,其中该文档分析知识存储装置存储有关该文档结构分析、该语义属性分析和该功能性作用分析的知识条目。
8.一种文档信息处理方法,包括以下步骤:
输入文档信息;
通过使用存储在文档分析知识存储装置中的分析知识来进行对输入的文档信息的文档分析,该文档分析是该文档信息的文档结构分析、在该文档信息中包含的部分的功能性作用分析以及包含在该文档信息中的单词、从句和句子的语义属性分析;
基于分析结果将结构标记、功能标记和语义属性标记设置到所述文档信息;
在所述文档信息中搜索所述结构标记、功能标记和语义属性标记;
用分量标记包围所述结构标记、功能标记和语义属性标记;
通过所述分量标记将所述文档信息分割成每一信息分量;
对每一信息分量分配分量ID;
从所述信息分量的结构路径层级产生第一向量;
从所述信息分量的功能路径层级产生第二向量;
从所述信息分量的语义属性标记产生第三向量;
获取存储在索引策略知识存储装置中的每一条索引策略知识,所述每一条索引策略知识包括索引策略选择向量和索引策略向量;
计算所述每一条索引策略知识的索引策略选择向量和第一、第二及第三向量之间的相似度;
提取具有最大相似度的一条索引策略知识;
计算该条索引策略知识的索引策略向量和第三向量之间的积,该积为信息分量中具有语义属性标记的单词的权重;和
关联地存储所述单词的权重、分量ID和文档信息作为信息分量存储装置中的组。
CNB2005100981319A 2004-09-21 2005-09-07 文档信息处理设备及文档信息处理方法 Expired - Fee Related CN100447779C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004273511A JP2006091994A (ja) 2004-09-21 2004-09-21 文書情報処理装置および方法、文書情報処理プログラム
JP2004273511 2004-09-21

Publications (2)

Publication Number Publication Date
CN1752963A CN1752963A (zh) 2006-03-29
CN100447779C true CN100447779C (zh) 2008-12-31

Family

ID=36146658

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100981319A Expired - Fee Related CN100447779C (zh) 2004-09-21 2005-09-07 文档信息处理设备及文档信息处理方法

Country Status (3)

Country Link
US (1) US20060080361A1 (zh)
JP (1) JP2006091994A (zh)
CN (1) CN100447779C (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236140A (ja) * 2005-02-25 2006-09-07 Toshiba Corp 情報管理装置、情報管理方法、及び情報管理プログラム
US20070162481A1 (en) * 2006-01-10 2007-07-12 Millett Ronald P Pattern index
US8266152B2 (en) * 2006-03-03 2012-09-11 Perfect Search Corporation Hashed indexing
US8176052B2 (en) * 2006-03-03 2012-05-08 Perfect Search Corporation Hyperspace index
US20070255694A1 (en) * 2006-04-07 2007-11-01 Jianqing Wu Document-drafting system using document components
US7689620B2 (en) * 2006-05-24 2010-03-30 Sizhe Tan Efficiently and systematically searching stock, image, and other non-word-based documents
US7912840B2 (en) * 2007-08-30 2011-03-22 Perfect Search Corporation Indexing and filtering using composite data stores
US7774347B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Vortex searching
US7774353B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Search templates
JP2009064080A (ja) * 2007-09-04 2009-03-26 Ricoh Co Ltd 画像処理装置と画像処理方法とプログラム
US8032495B2 (en) * 2008-06-20 2011-10-04 Perfect Search Corporation Index compression
JP5131923B2 (ja) * 2008-11-11 2013-01-30 日本電信電話株式会社 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
WO2016151690A1 (ja) 2015-03-20 2016-09-29 株式会社 東芝 文書検索装置、方法及びプログラム
US9922022B2 (en) * 2016-02-01 2018-03-20 Microsoft Technology Licensing, Llc. Automatic template generation based on previous documents
US10839149B2 (en) 2016-02-01 2020-11-17 Microsoft Technology Licensing, Llc. Generating templates from user's past documents
US11200217B2 (en) 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching
CN107563351A (zh) * 2017-09-22 2018-01-09 杰峯信息科技(中山)有限公司 一种基于自然语言处理的图像识别方法
JP7092998B2 (ja) * 2018-04-26 2022-06-29 富士通株式会社 分析プログラム及び分析方法
CN111026714A (zh) * 2019-11-07 2020-04-17 维沃移动通信有限公司 一种重命名方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282218A (ja) * 1996-04-10 1997-10-31 Nippon Telegr & Teleph Corp <Ntt> Html文書本型整形方法及びその装置
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US6192383B1 (en) * 1998-09-10 2001-02-20 International Business Machines Corporation Method and system in a computer network for automatically adding synchronization points to network documents
US6266683B1 (en) * 1997-07-24 2001-07-24 The Chase Manhattan Bank Computerized document management system
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755A (en) * 1854-04-11 Improvement in seed-planters
US6928302B1 (en) * 1993-04-27 2005-08-09 Broadcom Corporation Radio card having independent antenna interface supporting antenna diversity
US5961610A (en) * 1996-08-13 1999-10-05 General Electric Company Systems, methods and apparatus for generating and controlling display of medical images
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US6493711B1 (en) * 1999-05-05 2002-12-10 H5 Technologies, Inc. Wide-spectrum information search engine
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US20020091991A1 (en) * 2000-05-11 2002-07-11 Castro Juan Carlos Unified real-time microprocessor computer
US20020156792A1 (en) * 2000-12-06 2002-10-24 Biosentients, Inc. Intelligent object handling device and method for intelligent object data in heterogeneous data environments with high data density and dynamic application needs
US6538606B2 (en) * 2001-01-26 2003-03-25 Dell Products L.P. Antenna module interface extension
EP1473639A1 (en) * 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
US6781052B2 (en) * 2002-04-12 2004-08-24 Nexpress Solutions, Inc. High voltage cable EMI shield
US20050071150A1 (en) * 2002-05-28 2005-03-31 Nasypny Vladimir Vladimirovich Method for synthesizing a self-learning system for extraction of knowledge from textual documents for use in search
US8327442B2 (en) * 2002-12-24 2012-12-04 Herz Frederick S M System and method for a distributed application and network security system (SDI-SCAM)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
JPH09282218A (ja) * 1996-04-10 1997-10-31 Nippon Telegr & Teleph Corp <Ntt> Html文書本型整形方法及びその装置
US6266683B1 (en) * 1997-07-24 2001-07-24 The Chase Manhattan Bank Computerized document management system
US6192383B1 (en) * 1998-09-10 2001-02-20 International Business Machines Corporation Method and system in a computer network for automatically adding synchronization points to network documents
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法

Also Published As

Publication number Publication date
US20060080361A1 (en) 2006-04-13
JP2006091994A (ja) 2006-04-06
CN1752963A (zh) 2006-03-29

Similar Documents

Publication Publication Date Title
CN100447779C (zh) 文档信息处理设备及文档信息处理方法
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
US9323731B1 (en) Data extraction using templates
US7249328B1 (en) Tree view for reusable data markup language
US7512875B2 (en) Chart view for reusable data markup language
US7650355B1 (en) Reusable macro markup language
US7702684B2 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
US8707167B2 (en) High precision data extraction
CN110738037B (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
CN107358208B (zh) 一种pdf文档结构化信息提取方法及装置
US7555480B2 (en) Comparatively crawling web page data records relative to a template
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN102402604A (zh) 搜索引擎的有效前向排序
CN104123269A (zh) 一种基于模板的出版物半自动生成方法及系统
CN101432733A (zh) 利用来自搜索的所检索数据来增加电子文档的内容
US20050138079A1 (en) Processing, browsing and classifying an electronic document
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
CN104063367A (zh) 注释检索装置、方法及程序
US8578268B2 (en) Rendering electronic documents having linked textboxes
CN110716994B (zh) 一种支持异构地理数据资源检索的检索方法及装置
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
US20030191770A1 (en) System and method for formatting, proofreading and annotating information to be printed in directories
JP2002297662A (ja) 構造化文書編集方法および構造化文書編集装置および端末装置およびプログラム
JP7029205B1 (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081231

Termination date: 20140907

EXPY Termination of patent right or utility model