CN1841372A - 帮用户根据非结构化信息源形成结构化图表的方法和设备 - Google Patents

帮用户根据非结构化信息源形成结构化图表的方法和设备 Download PDF

Info

Publication number
CN1841372A
CN1841372A CNA200510063710XA CN200510063710A CN1841372A CN 1841372 A CN1841372 A CN 1841372A CN A200510063710X A CNA200510063710X A CN A200510063710XA CN 200510063710 A CN200510063710 A CN 200510063710A CN 1841372 A CN1841372 A CN 1841372A
Authority
CN
China
Prior art keywords
link
information source
search terms
user
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200510063710XA
Other languages
English (en)
Inventor
裘照明
谢国彤
刘�东
胡冈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNA200510063710XA priority Critical patent/CN1841372A/zh
Priority to US11/390,924 priority patent/US7725504B2/en
Publication of CN1841372A publication Critical patent/CN1841372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/12Symbolic schematics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于帮助用户根据非结构化信息源形成结构化图表的方法和设备。从一个或几个关键信息要素(例如一些特殊的字词)开始,通过在非结构化信息源(文本、音频、视频等)中进行交互式循环搜索,获得信息源中包含的客户的要求,在图表中绘制代表它们的元素,并和信息源中的对应内容之间建立链接。本发明还提出可以使用所建立的链接的分布来检查图表中是否已摘取了信息源中的所有要求。并且可以根据链接分布的密度来显示不同级别的警告。从而,用户可以更方便快捷地绘制结构化图表,而且容易进行核对和重新使用。

Description

帮用户根据非结构化信息源形成结构化图表的方法和设备
技术领域
本发明涉及帮助用户根据非结构化信息源形成结构化图表的方法和设备,其中在所述结构化图表中形成至少一个元素来表示所述非结构化信息源中包括的至少一个信息要素,所述信息要素为所述非结构化信息源中涉及的对象或对象之间的交互关系。
背景技术
当前,可视化在简明而又准确地描述系统的过程中起着重要的作用。通常,当人们想要设计新的系统时,可以从收集文本、音频、或视频等形式的必要信息和知识开始。在完成这一阶段的工作之后,需要以图表(如模型、导航图(sitemap)、蓝图等)的形式建立系统的体系架构,在其中非常清楚地显示这一系统的实质,以作为下一步的开发工作的基础。这一过程对于那些大型的复杂系统尤为重要。如何帮助人们从非正式的非结构化信息出发,来绘制正式的结构化图表成为系统设计的一个重要课题。
以IT体系设计为例,现在已有几种正规定义的图表来描述要创建的IT系统的不同方面。在使用统一建模语言(UML)的情况下,有类(class)、对象(object)、用例(use case)、序列(sequence)、协作(collaboration)、状态图(statechart)、活动组件(activity component)以及部署图(deployment diagram)等。系统设计师基于客户的要求绘制这些图表,而客户的要求通常是以文本形式(会晤记录、客户提供的文件等)提供的。现在已有用来帮助设计师产生这些图表的工具软件。AWB(设计师工作台)是当前已有的这种工具软件的一个例子。通过在AWB环境中读取和分析文本形式的描述,该软件帮助设计师识别各种元素,如角色(actor)、用例等。并在图表中的元素和其在文本文件中的对应部分之间创建链接。
然而,在AWB的实践中,读取文档中的每一个字,然后手工创建各种元素是既乏味又耗时的。这对于大型复杂系统而言尤其艰难,因为可能有成百上千页的文本需要设计师阅读。
因此,需要一种能更有效地帮助用户方便快捷地根据非结构化信息源形成结构化图表的方法和设备。
发明内容
本发明的目的是提供一种能够帮助用户容易地根据非结构化信息源形成结构化图表的方法和设备。
根据本发明的一个方面,提供了一种帮助用户根据非结构化信息源形成结构化图表的方法,下文中简称为结构化图表绘制辅助方法,其中在所述结构化图表中形成至少一个元素来表示所述非结构化信息源中包括的至少一个信息要素,所述信息要素为所述非结构化信息源中涉及的对象或对象之间的交互关系。该结构化图表绘制辅助方法包括:接收用户输入的代表信息要素的搜索项;根据用户输入的搜索项,在所述非结构化信息源中搜索与所述搜索项所代表的信息要素相关的内容;针对各信息要素,在所述结构化图表中形成的对应元素和在所述非结构化信息源中所搜索到的相关内容的位置之间形成链接。
该结构化图表绘制辅助方法还可以包括以下步骤:根据所搜索到的内容,在结构化图表中形成对应于所述信息要素的一个或多个元素。
该结构化图表绘制辅助方法还可以包括以下步骤:显示所搜索到的内容,以帮助用户从其中提取代表与所述信息要素关联的其它信息要素的其它搜索项,从而使用户可以在所述结构化图表中进一步添加对应于其它信息要素的其它元素;当用户再次输入代表其它信息要素的搜索项时,进一步针对所述搜索项执行所述搜索和形成链接的操作。
该结构化图表绘制辅助方法还可以包括计算链接在非结构化信息源中的分布的步骤。
该结构化图表绘制辅助方法还可以包括对链接分布偏少或没有链接的部分显示警告的步骤。
该结构化图表绘制辅助方法还可以根据链接分布密度,显示不同级别的警告。
该结构化图表绘制辅助方法还可以在所述一个元素表示对象时,还搜索包含与所述对象同类的对象的内容。即,该结构化图表绘制辅助方法还可以包括以下步骤:分析用户输入的代表信息要素的搜索项;给出可能代表该信息要素的其它搜索项;以及根据所述其它搜索项在非结构化信息源中搜索与所述信息要素相关的内容。
该结构化图表绘制辅助方法还可以包括:当发现所述非结构化信息源中一部分相连内容描述了与结构化图表中构成一子图的所有元素对应的信息要素且不涉及其它元素时,在所述子图和所述相连内容在非结构化信息源中的位置之间形成链接。
根据本发明的另一个方面,提供了一种用于帮助用户根据非结构化信息源形成结构化图表的设备,下文中简称为结构化图表绘制辅助设备,其中在所述结构化图表中形成至少一个元素来表示所述非结构化信息源中包括的至少一个信息要素,所述信息要素为所述非结构化信息源中涉及的对象或对象之间的交互关系。该结构化图表绘制辅助设备包括:接收装置,用于接收用户输入的代表信息要素的搜索项;搜索装置,用于根据用户输入的搜索项,在所述非结构化信息源中搜索与所述搜索项所代表的信息要素相关的内容;以及链接生成装置,用于针对各信息要素,在所述结构化图表中形成的对应元素和在所述非结构化信息源中所搜索到的相关内容的位置之间形成链接。
该结构化图表绘制辅助设备还可以包括结构化图表管理装置,用于根据所搜索到的内容,在结构化图表中形成对应于所述信息要素的一个或多个元素。
该结构化图表绘制辅助设备还可以包括显示装置,用于显示搜索到的内容,以帮助用户从其中提取代表与所述信息要素关联的其它信息要素的其它搜索项,从而使用户可以在所述结构化图表中进一步添加对应于其它信息要素的其它元素,其中,当用户再次通过所述接收装置输入代表其它信息要素的搜索项时,所述搜索装置和链接生成装置分别针对所述信息要素进一步执行所述搜索和形成链接的操作。
该结构化图表绘制辅助设备还可以包括链接分布计算装置,用于计算链接在非结构化信息源中的分布。
该结构化图表绘制辅助设备还可以包括警告信息生成装置,用于对链接分布偏少或没有链接的部分产生警告信息。
该警告信息生成装置可以包括:链接分布分级装置,根据非结构化信息源中各个部分的链接分布密度将各部分分为多个级别;以及分级警告信息生成装置,根据不同的链接分布级别,对不同的部分产生不同级别的警告信息。
该结构化图表绘制辅助设备还可以包括搜索项分析装置,用于分析用户输入的代表信息要素的搜索项,给出可能代表该信息要素的其它搜索项,并将其与用户输入的搜索项一同提供给搜索装置进行搜索。
该结构化图表绘制辅助设备还可以包括判断部分,用于判断所述非结构化信息源中是否有部分相连内容描述了与结构化图表中构成一子图的所有元素对应的信息要素且不涉及其它元素,其中,当所述判断部分判定存在这样的部分相连内容时,所述链接生成装置还在所述子图和所述相连内容在非结构化信息源中的位置之间形成链接。
通过使用根据本发明的方法和设备,不但可以提高设计师或绘图人员的图表绘制过程(DDP)的效率,而且即使在原来的设计师或绘图人员不在场的情况下,也可以容易地进行检查和重新使用。
此外,本发明还具有以下优点:
1.减少了设计师(绘图人员)的工作量。在搜索装置的帮助下,不需要仔细阅读对于大型系统而言可能非常冗长而且复杂的文本文件。设计师只需要阅读搜索装置返回的那些相关部分。
2.使得设计更加完整和准确。如果文本文件太多或太长,人们很难收集并记住文本中的所有要求。本发明通过执行搜索,可以容易地返回设计师想要了解的所有相关部分。而通过计算链接分布,可以大幅降低必要信息在图表中缺失的概率。
附图说明
图1图解了本发明的基于搜索技术的交互式循环图表绘制过程;
图2示出了根据本发明一个实施例的结构化图表绘制辅助设备的方框图;
图3是根据本发明的结构化图表绘制辅助方法的流程图;
图4图示了本发明可以使用的不同的搜索技术;
图5图示了结构化图表和非结构化信息之间的链接;
图6图示了基于所建立的链接进行核对的方式;
图7图示了根据本发明另一个实施例的结构化图表绘制辅助设备的体系结构。
具体实施方式
在本发明中,为了根据非正式的非结构化信息绘制正式的结构化图表,首先从一个或几个关键信息要素(例如一些特殊的字词)开始,通过在非结构化信息源(文本、音频、视频等)中进行交互式循环搜索,获得信息源中包含的客户的要求,在结构化图表中形成表示该信息要素的元素,并在所形成的元素和信息源中的相关内容之间建立链接。在本文中,信息要素一词是指非结构化信息源中涉及的对象、对象之间的交互关系等,而元素一词则是指结构化图表中以文字、图形等各种形式对非结构化信息源中的信息要素的表示。
本发明还提出可以使用所建立的链接的分布来检查信息源中的所有要求是否已被摘取到了结构化图表中。并且可以根据链接分布的密度来显示不同级别的警告。
下面参考附图详细描述根据本发明帮助用户(设计师或绘图人员)根据非结构化信息源绘制结构化图表的方法和设备。
首先参考图1简要说明本发明基于搜索技术的交互式循环图表绘制过程。
假设在与客户签约时收集了许多记录内容,其中包含着以非结构化信息形式(如文本形式)呈现的客户准确的要求。当设计师想要绘制结构化图表(例如UML中的用例图)时,可以根据其专业知识和对该项目的初步了解而选择第一个信息要素来创建结构化图表的初始部分,在其中形成对应于该信息要素的元素。例如,如果设计师知道其中应当有涉及消费者的用例,则绘制一个名为消费者的角色图标。
然后,设计师基于字符串“消费者”而进行搜索操作。搜索装置返回所有与“消费者”相关的语句或段落,例如“消费者将能够从他们自己的个人计算机浏览目录,并‘在线’定购商品”。根据这个句子或段落,设计师可以在用例图中创建更多的元素,如名为“浏览目录”和“定购商品”的两个用例和名为“目录服务”的另一个角色。然后,设计师可以进一步搜索“目录”,找到“消费者将能够通过电话使用这些实际的目录来订货”。根据所返回的这些文本,设计师不需要逐字阅读所有文本,就可以选择和创建与角色“消费者”、系统“定购管理系统”等对应的类、对象、用例、序列、协作、状态图、活动组件以及部署图等。
对于所返回的每个搜索结果,如果其被用于图表绘制过程中,即在结构化图表中添加了新的元素,则将创建对应的链接。继续这样的交互式循环搜索-绘制过程,本发明的系统帮助设计师从文本记录形式的非结构化信息源中提取各种信息要素,以创建结构化的图表。这里所说的信息要素可以是非结构化信息源中涉及的对象,如“消费者”、“目录服务”等,图1中用人形符号来表示;也可以是对象之间可能发生的事件、用例等,或者说,对象之间的交互关系,图1中用箭头以及椭圆来表示。当然,可以从非结构化信息源中提取的信息要素不限于这里提到的内容,结构化图表中对这些信息要素的表示方式(元素的表现形式)也不限于这里提到的方式。这里以文本形式的非结构化信息源为例进行描述,然而本领域技术人员应该明白,基于音频、视频等搜索方案,本发明完全适用于音频、视频等其它形式的非结构化信息源。
下面结合图2和图3,描述本发明的结构化图表绘制辅助设备和方法,其中图2示出了根据本发明一个实施例的结构化图表绘制辅助设备的方框图,图3是根据本发明的结构化图表绘制辅助方法的流程图。在图2中详细示出了本发明的结构化图表绘制辅助设备的各个装置,在图3中详细示出了本发明的结构化图表绘制辅助方法的各个步骤,但是本领域技术人员应该明白,并非所有这些装置和步骤都是本发明的必要技术特征。
本发明的结构化图表绘制辅助方法以绘图人员向接收装置10中输入搜索项(即搜索目标)开始。在步骤S1,接收装置10接收绘图人员输入的代表信息要素的搜索项,如图1的例子中的“消费者”。在步骤S2,搜索装置30根据用户输入的搜索项,在非结构化信息源100中搜索与这个信息要素相关的内容。图2中在接收装置10和搜索装置30之间还示出了搜索项分析装置20,该搜索项分析装置20不是必须的,其功能将在下面参考图4描述。
在步骤S3,在显示装置(图中未示出)上显示所搜索到的内容,绘图人员可以从其中提取与前面输入的第一个信息要素相关联的其它信息要素,从而结构化图表管理装置(图中未示出)可以根据所搜索到的内容在结构化图表中添加表示该其它信息要素的其它元素。
接下来在步骤S4,由链接生成装置30在结构化图表200中形成的对应元素和所搜索到的相关内容在非结构化信息源100中的位置之间形成链接。本领域技术人员应当明白,步骤S3和S4的顺序完全可以互换,而不影响本发明的实质。此外,这里描述了两个方面,即,根据步骤S2的搜索结果形成其它元素(步骤S3),以及根据所述搜索结果形成链接(步骤S4)。优选地,这两个方面可以结合在一起。但是应该明白,步骤S4的执行完全可以不依赖于步骤S3的执行。
本发明的一个重要思想在于基于搜索装置来使正式的结构化图表与非正式的非结构化信息相关联,从而提供交互式循环图表绘制过程,改善图表绘制过程的效率,并使结构化图表和它所基于的信息源之间更易于核对和重新使用。
现在参考图4详细描述如何使用搜索技术来使结构化图表与非结构化信息相关联。图4图示了本发明可以使用的不同的搜索技术。除了单纯的字符串匹配之外,当绘图人员在其搜索请求中添加了相应的要求时,还可以由搜索项分析装置20分析绘图人员输入的搜索项,得出其它一些同类或同义的词语,与绘图人员输入的搜索项一同提供给搜索装置30,从而搜索装置30可以返回所有包含与绘图人员输入的搜索项同类或同义的词语的语句或段落。例如,如图1的例子,绘图人员输入搜索项“消费者”时,搜索装置30最终可以返回所有包含具有人或组织的语义的名称(如“购物者”、“客户”、“用户”等词语)的语句或段落。
此外,搜索装置30还可以进行模式搜索。例如,在建立“消费者使用电话查阅目录”的用例之后,绘图人员可以搜索串模式“[n]查阅目录”,其中“[n]”表示人。这样,搜索装置可以找到“客户通过个人数字助理查阅目录”。从而,可以在图表中添加新的元素。
图5图示了结构化图表和非结构化信息源之间的链接。这里建立的链接不只是角色及其在图表中的表示之间的简单链接,其还可以是用例图或者用例图中的一部分与文本中的语句或段落之间的链接,如图5中标注了“加亮的链接”的链接。也就是说,可以在结构化图表中的一部分元素与非结构化信息源中相应内容或位置之间建立链接。所建立的链接用作超链接,以帮助人们浏览和在图表和文本记录之间切换。这一点对于检查和重新使用图表非常重要,特别是当原绘图人员不在场时更是如此。
更具体地说,有时,非结构化信息源中的一段或相连的几段文字可能对应于结构化图表中的多个元素组成的一个子图,这时可以建立子图和段落文字之间的链接。因此,结构化图表绘制辅助设备中还可以包括一个判断装置(未示出),用来判定非结构化信息源中是否有一部分相连内容(如一段或相连的几段文字)描述了与构成一个子图的所有元素对应的信息要素,并且不涉及该子图之外的其它元素,如果有,则链接生成装置30可以在这个子图和对应的相连内容在非结构化信息源中的位置之间形成链接。当然,上述判定过程也可以由设计师(绘图人员)完成。这样的链接所指向的非结构化信息源的部分通常是其中比较重要的、信息量密度较大的部分。设计师可能在非结构化信息源中遇到类似的描述,这时就可以重用相应的子图,而不必再从基本的元素开始构造。
返回图3,在步骤S5,如果用户继续输入与所添加的其它元素相关的搜索项时,处理返回步骤S1,继续进行执行步骤S1至S4中搜索、形成链接等步骤。
如果在步骤S5,绘图人员认为其已经完成了所有的绘图工作,即文本记录中的所有要求都已被提取出来,并被放到图表中,因而决定不再继续上述搜索-链接-绘制过程,则进入步骤S6,链接分布计算装置50计算链接在非结构化信息源中的分布。事实上,计算链接分布的步骤S6完全可以在每次形成链接(步骤S3)之后立刻进行,即可以随时更新链接分布计算结果。
下面,描述对所绘制的结构化图表200中是否遗漏了非结构化信息源100中的信息要素进行核对的过程。由于本发明在结构化图表200和非结构化信息源100中相应内容之间建立了链接,所以可以通过检查非结构化信息源100中链接的分布来检查其中是否遗漏了什么信息要素。对于没有链接或者链接偏少的部分,则需要绘图人员进一步的关注。至于一个部分中有多少链接可以称为偏少则可以根据不同的项目、客户、记录内容等多个方面的情况而改变,本发明不必对此做出具体限定。
在步骤S7,判断是否存在链接分布偏少甚至没有链接的部分。如果没有这样的部分,则处理结束,绘图完成。如果有,即如果发现有相当大的一部分记录中没有任何链接,或其中链接非常稀少,则在步骤S8,警告信息生成装置60对这些记录部分产生警告信息。图6图示了针对基于所建立的链接进行核对的方式。如图6所示,根据结构化图表和非结构化信息源之间的链接分布,可以向绘图人员发出警告。根据分布密度的不同,这种警告可以分为不同的级别。如图2所示,警告信息生成装置60可以包括链接分布分级装置61和分级警告信息生成装置62。链接分布分级装置61根据非结构化信息源100中各个部分的链接分布密度将各部分分为多个级别。分级警告信息生成装置62根据不同的链接分布级别,对不同链接分布级别的部分产生不同级别的警告信息。例如,如图6所示,非结构化信息源100中左下方的记录部分没有任何链接,因此给出最高级别的警告信息(图6中显示为全黑)。而下方第三个记录部分有链接,但是链接分布比较稀少,因此给出较低级别的警告信息(图6中显示为条纹状)。警告信息可以以各种不同的方式给出,例如文本方式、音频方式、或图形方式,相应地,不同级别的警告信息也可以以不同的方式相互区别。
针对警告信息,在步骤S9,绘图人员判断是否需要从警告信息所提示的部分中进一步提取信息要素,以在结构化图表100中添加对应的元素。绘图人员可以通过粗略阅读进行判断,也可以根据事先对这部分内容的大致了解或者这部分内容的性质或重要性而进行判断。在步骤S9,如果绘图人员决定要在结构化图表100中添加元素,则处理返回到步骤S1,而如果绘图人员认为不必再添加,则处理结束,绘图完成。
在上面的描述中,将图3示出的结构化图表绘制辅助方法的各个步骤描述为由图2示出的结构化图表绘制辅助设备的各个装置执行。事实上,本发明的结构化图表绘制辅助方法完全可以由其它装置执行,或者以其它方式执行。
图7图示了根据本发明另一个实施例的结构化图表绘制辅助设备的体系结构,其包括下述部件:内容分析器,用于在知识库的帮助下,基于用户在图表管理器中的输入,从非结构化信息中搜索相关语句或段落;内容处理器,用于处理所找到的内容,并产生动作列表,该动作列表将有助于通过与图表绘制者的交互作用,绘制包括元素的标识以及相关文本与图表元素之间的链接的图表;非结构化信息管理器,用于创建相关内容和所建立的链接的索引;结构化图表管理器,用于编辑/显示图表;链接分布分析器,用于分析链接分布,并在需要的时候显示多级警告;知识库,用于记录可重新使用的知识,如同义词库(thesaurus)和语句模式等;内容库,用于存储文件内容以及文件与图表之间的链接。
尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种修改。

Claims (16)

1.一种帮助用户根据非结构化信息源形成结构化图表的方法,其中在所述结构化图表中形成至少一个元素来表示所述非结构化信息源中包括的至少一个信息要素,所述信息要素为所述非结构化信息源中涉及的对象或对象之间的交互关系,所述方法包括以下步骤:
接收用户输入的代表信息要素的搜索项;
根据用户输入的搜索项,在所述非结构化信息源中搜索与所述搜索项所代表的信息要素相关的内容;
针对各信息要素,在所述结构化图表中形成的对应元素和在所述非结构化信息源中所搜索到的相关内容的位置之间形成链接。
2.如权利要求1所述的方法,还包括以下步骤:根据所搜索到的内容,在结构化图表中形成对应于所述信息要素的一个或多个元素。
3.如权利要求1所述的方法,还包括以下步骤:
显示所搜索到的内容,以帮助用户从其中提取代表与所述信息要素关联的其它信息要素的其它搜索项,从而使用户可以在所述结构化图表中进一步添加对应于其它信息要素的其它元素;
当用户再次输入代表其它信息要素的搜索项时,进一步针对所述搜索项执行所述搜索和形成链接的操作。
4.如权利要求1至3中任何一项所述的方法,还包括计算链接在所述非结构化信息源中的分布的步骤。
5.如权利要求4所述的方法,还包括对链接分布偏少或没有链接的部分显示警告的步骤。
6.如权利要求5所述的方法,其特征在于,根据链接分布密度,显示不同级别的警告。
7.如权利要求1至3中任何一项所述的方法,还包括以下步骤:
分析用户输入的代表信息要素的搜索项;
给出可能代表该信息要素的其它搜索项;以及
根据所述其它搜索项在非结构化信息源中搜索与所述信息要素相关的内容。
8.如权利要求1至3中任何一项所述的方法,还包括:当发现所述非结构化信息源中一部分相连内容描述了与结构化图表中构成一子图的所有元素对应的信息要素且不涉及其它元素时,在所述子图和所述相连内容在非结构化信息源中的位置之间形成链接。
9.一种用于帮助用户根据非结构化信息源形成结构化图表的设备,其中在所述结构化图表中形成至少一个元素来表示所述非结构化信息源中包括的至少一个信息要素,所述信息要素为所述非结构化信息源中涉及的对象或对象之间的交互关系,该设备包括:
接收装置,用于接收用户输入的代表信息要素的搜索项;
搜索装置,用于根据用户输入的搜索项,在所述非结构化信息源中搜索与所述搜索项所代表的信息要素相关的内容;以及
链接生成装置,用于针对各信息要素,在所述结构化图表中形成的对应元素和在所述非结构化信息源中所搜索到的相关内容的位置之间形成链接。
10.如权利要求9所述的设备,还包括结构化图表管理装置,用于根据所搜索到的内容,在结构化图表中形成对应于所述信息要素的一个或多个元素。
11.如权利要求9所述的设备,还包括显示装置,用于显示搜索到的内容,以帮助用户从其中提取代表与所述信息要素关联的其它信息要素的其它搜索项,从而使用户可以在所述结构化图表中进一步添加对应于其它信息要素的其它元素,
其中,当用户再次通过所述接收装置输入代表其它信息要素的搜索项时,所述搜索装置和链接生成装置分别针对所述信息要素进一步执行所述搜索和形成链接的操作。
12.如权利要求9至11中任何一项所述的设备,还包括链接分布计算装置,用于计算链接在非结构化信息源中的分布。
13.如权利要求12所述的设备,还包括警告信息生成装置,用于对链接分布偏少或没有链接的部分产生警告信息。
14.如权利要求13所述的设备,其特征在于,该警告信息生成装置包括:
链接分布分级装置,根据非结构化信息源中各个部分的链接分布密度将所述各部分分为多个级别;以及
分级警告信息生成装置,根据不同的链接分布级别,对不同的部分产生不同级别的警告信息。
15.如权利要求9至11中任何一项所述的设备,还包括搜索项分析装置,用于分析用户输入的代表信息要素的搜索项,给出可能代表该信息要素的其它搜索项,并将其与用户输入的搜索项一同提供给搜索装置进行搜索。
16.如权利要求9至11中任何一项所述的设备,还包括判断部分,用于判断所述非结构化信息源中是否有部分相连内容描述了与结构化图表中构成一子图的所有元素对应的信息要素且不涉及其它元素,其中,当所述判断部分判定存在这样的部分相连内容时,所述链接生成装置还在所述子图和所述相连内容在非结构化信息源中的位置之间形成链接。
CNA200510063710XA 2005-03-29 2005-03-29 帮用户根据非结构化信息源形成结构化图表的方法和设备 Pending CN1841372A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA200510063710XA CN1841372A (zh) 2005-03-29 2005-03-29 帮用户根据非结构化信息源形成结构化图表的方法和设备
US11/390,924 US7725504B2 (en) 2005-03-29 2006-03-28 Method and apparatus for helping user form structured diagram from unstructured information source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200510063710XA CN1841372A (zh) 2005-03-29 2005-03-29 帮用户根据非结构化信息源形成结构化图表的方法和设备

Publications (1)

Publication Number Publication Date
CN1841372A true CN1841372A (zh) 2006-10-04

Family

ID=37030404

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200510063710XA Pending CN1841372A (zh) 2005-03-29 2005-03-29 帮用户根据非结构化信息源形成结构化图表的方法和设备

Country Status (2)

Country Link
US (1) US7725504B2 (zh)
CN (1) CN1841372A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080740A (zh) * 2022-06-24 2022-09-20 中国电信股份有限公司 非结构化数据的分类方法、装置、可读介质及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120051583A1 (en) * 2010-08-26 2012-03-01 International Business Machines Corporation Soft error verification in hardware designs
US9223857B2 (en) * 2011-10-24 2015-12-29 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating a two-dimensional graphical grid representation of the treatment of a document

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680530A (en) * 1994-09-19 1997-10-21 Lucent Technologies Inc. Graphical environment for interactively specifying a target system
US7143074B2 (en) * 2002-11-11 2006-11-28 Zxibix, Inc. System and method of facilitating and evaluating user thinking about an arbitrary problem
US7174348B1 (en) * 2002-11-26 2007-02-06 Unisys Corporation Computer program having an object module and a software development tool integration module which automatically interlink artifacts generated in different phases of a software project
US20040210829A1 (en) * 2003-04-18 2004-10-21 International Business Machines Corporation Method of managing print requests of hypertext electronic documents
WO2005020091A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing text utilizing a suite of disambiguation techniques
US7827565B2 (en) * 2004-03-12 2010-11-02 Microsoft Corporation Integration architecture for non-integrated tools
US7603617B2 (en) * 2004-04-12 2009-10-13 Microsoft Corporation Interactive hyperlink selection and diagramming

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080740A (zh) * 2022-06-24 2022-09-20 中国电信股份有限公司 非结构化数据的分类方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
US20080263004A1 (en) 2008-10-23
US7725504B2 (en) 2010-05-25

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
JP4654776B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN110597999A (zh) 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
CN109101519B (zh) 信息采集系统和异构信息融合系统
CN104679783A (zh) 一种网络搜索方法和装置
CN115757689A (zh) 一种信息查询系统、方法及设备
CN110659310A (zh) 一种车辆信息的智能搜索方法
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
CN1808428A (zh) 展现及编辑信息检索条件的系统及方法
CN1841372A (zh) 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN116541578A (zh) 资产数字化多维度管理方法及系统
CN115438142B (zh) 一种对话式交互数据分析报告系统
Castellano et al. A web text mining flexible architecture
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
JP3478558B2 (ja) データベースヘのオブジェクト格納検索方法
CN114443728B (zh) 一种基于Elasticsearch的检测报告搜索方法及装置
CN113626642B (zh) 视频化脚本语义结构的组装方法、系统和电子装置
CN118013094A (zh) 一种非结构化指标评估数据的处理方法、系统及设备
CN115577078A (zh) 一种工程造价审计信息检索方法、系统、设备及存储介质
Burgess 8. Consolidate code from Semantic Spacetime Model Put data into queryable database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication