CN109213830B - 专业性技术文档的文档检索系统 - Google Patents
专业性技术文档的文档检索系统 Download PDFInfo
- Publication number
- CN109213830B CN109213830B CN201810671455.4A CN201810671455A CN109213830B CN 109213830 B CN109213830 B CN 109213830B CN 201810671455 A CN201810671455 A CN 201810671455A CN 109213830 B CN109213830 B CN 109213830B
- Authority
- CN
- China
- Prior art keywords
- concept
- concepts
- documents
- cluster
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000005259 measurement Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000013213 extrapolation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法、以及存储用于使数据处理系统执行该方法的指令的计算机可读介质。所述方法包括:使数据处理系统从库中识别与用户提供的检索关键词匹配的候选文档;使数据处理系统产生将候选文档中包含的概念相互关联的主题图形;和基于主题图形对候选文档进行聚类。对于每个聚类,数据处理系统显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
Description
背景技术
测量系统的改进已经使得产生包括基于软件的控制器的系统,所述控制器可以操作标的测量设备来进行目录不断增加的特定测量。该目录的剪切尺寸使得从不具吸引力的目录中选择测量协议。基于使用关键词检索缩小目录的方案也取得了有限的成功,因为检索需要用户具有特定仪器的操作技能级别。很多用户缺乏有关的操作技能水平。此外,对于相同或类似的函数,在不同测量设备中使用的函数定义可以随设备而异,这取决于购买设备的型号、安装的软件、或许可证类型。
通过使用很多现代仪器中包括的机载数据处理系统来尝试减轻这种检索问题已经取得有限的成功。这些搜索引擎通常检索包括每个测量协议的说明性文本的测量协议的数据库。搜索引擎要求用户输入一个或多个关键词并选择满足显示给用户的关键词检索的所有协议。用户然后必须滚动浏览目录并选择候选协议以详细查看说明性文本。此外,用户必须熟悉文档的专用词汇。如果用户选择过宽的关键词,则目录太多。如果用户选择的关键词太窄,则可能会错过所需的协议。
发明内容
本发明包括用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法、以及存储用于使数据处理系统执行该方法的指令的计算机可读介质。所述方法包括:使数据处理系统从库中识别与用户提供的检索关键词匹配的候选文档;使数据处理系统产生将候选文档中包含的概念相互关联的主题图形(topicalgraph);和基于主题图形对候选文档进行聚类。对于每个聚类,数据处理系统显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
在本发明的一个方面中,所述方法使得数据处理系统产生文本索引,该文本索引在库中的每个候选检索关键词的多个文档的每一个中指定一个位置。
在另一方面,所述方法使数据处理系统产生概念索引,该概念索引为多个文档中的每个概念指定一个位置以及指定该概念与多个文档中的所述概念中的另一概念之间的关系。
在另一方面,概念索引包括指定该文档与所述概念中的所述另一概念之间关系的强度的权重。
在另一方面,所述关系包括:亲代-子代关系,属种概念(generic concept-specific concept)关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,和问题和解决方案的关系。
在另一方面,所述关系包括将文档之一中的概念关键词与概念之一相关联的概念关键词关系。
在另一方面,主题图形中的概念各自包括描述该概念的概念名称,并且其中聚类名称是包括在该聚类中的候选文档中的概念之一的概念名称。
在另一方面,概念索引是从本体知识数据库中导出的。
在另一方面,聚类之一的概念名称包括该聚类之一内的两个概念所共有的亲代概念的名称。在另一方面,聚类之一的概念名称包括该聚类之一内的大多数概念所共有的亲代概念的名称。在另一方面,概念名称是聚类之一内的所有概念所共有的名称。
在另一方面,该方法包括接收来自用户的聚类名称之一和接收另一个检索关键词,和使数据处理系统产生候选文档,所述候选文档代表所述多个文档中属于该所述聚类名称之一的那些和之前选择的文档。
在另一方面,主题图形中的每个概念包括与该概念相关联的概念关键词的目录,并且当显示候选文档的概要时,数据处理系统显示与对应于该聚类名称的概念相关联的概念关键词。
在另一方面,数据处理系统响应于用户选择概念关键词之一,除了使用检索关键词之外还使用显示的概念关键词之一来进行对文档的另一检索。
本发明还包括具有指令的计算机可读介质,当将指令加载到数据处理系统上的处理器中时,所述指令使数据处理系统执行上面讨论的检索方法。
在另一方面,计算机可读介质还存储由数据处理系统用来从库产生主题图形的本体数据库。在另一方面,库与计算机可读介质分离。
本发明包括:
1.一种用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法,所述方法包括:
使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;
使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;
基于所述主题图形对所述候选文档进行聚类;以及
对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
2.项1所述的方法,其还包括使所述数据处理系统产生文本索引,所述文本索引在所述库中的每个候选检索关键词的所述多个文档的每一个中指定一个位置。
3.项1所述的方法,其还包括使所述数据处理系统产生概念索引,所述概念索引为所述多个文档中的每个概念指定一个位置以及指定该概念与所述多个文档中的所述概念中的另一概念之间的关系。
4.项3所述的方法,其中所述概念索引还包括指定所述文档与所述概念中的所述另一概念之间的所述关系的强度的权重。
5.项3所述的方法,其中所述关系包括亲代-子代关系,属种概念关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,和问题和解决方案的关系。
6.项3所述的方法,其中所述关系包括将所述文档之一中的概念关键词与所述概念之一相关联的概念关键词关系。
7.项3所述的方法,其中所述主题图形中的所述概念各自包括描述该概念的概念名称,并且其中所述聚类名称是包括在所述聚类中的所述候选文档中的所述概念之一的所述概念名称。
8.项3所述的方法,其中所述概念索引是从本体知识数据库中导出的。
9.项1所述的方法,其中所述聚类之一的所述概念名称包括该所述聚类之一内的所述概念中的两个概念所共有的亲代概念的名称。
10.项1所述的方法,其中所述聚类之一的所述概念名称包括该所述聚类之一内的大多数所述概念所共有的亲代概念的名称。
11.项1所述的方法,其中所述概念名称是所述聚类之一中的所有概念所共有的名称。
12.项1所述的方法,其还包括接收来自所述用户的所述聚类名称之一和接收另一个检索关键词,和使所述数据处理系统产生候选文档,所述候选文档代表所述多个文档中属于该所述聚类名称之一的那些和之前选择的文档。
13.项7所述的方法,其中所述主题图形中的每个概念包括与该概念相关联的概念关键词的目录,并且其中当显示所述候选文档的所述概要时,所述数据处理系统显示与对应于所述聚类名称的所述概念相关联的所述概念关键词。
14.项13所述的方法,其中所述数据处理系统响应于用户选择所述概念关键词之一,除了使用所述检索关键词之外还使用所述显示的概念关键词之一来进行对所述文档的另一检索。
15.一种具有指令的计算机可读介质,当将所述指令加载到数据处理系统上的处理器中时,所述指令使得所述数据处理系统执行检索方法,所述检索方法识别包括多个文档和由所述多个文档示例的多个概念的库中的文档,所述检索方法包括:
使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;
使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;
基于所述主题图形对所述候选文档进行聚类;和
对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
16.项15所述的计算机可读介质,其中所述计算机可读介质还存储由所述数据处理系统用来从所述库产生所述主题图形的本体数据库。
17.项16所述的计算机可读介质,其中所述库与所述计算机可读介质分离。
附图说明
图1是根据本发明第一实施方式的检索系统的方框图。
图2示出了对于所选文档中包括的概念从本体知识数据库产生的图。
图3A-图3C示出了局部分类的检索结果的输出显示屏的实例。
图4A-图4B是由图1所示的检索系统执行的处理的流程图。
图5示出了根据本发明另一种实施方式的检索系统。
图6是对应于图4B的检索系统的处理的流程图。
图7A-7B示出了根据第二实施方式的局部分类的检索结果的输出显示屏的实例。
具体实施方式
在本发明的一种实施方式中,本发明包括搜索引擎,其检索与在其上存储库和文档的测量仪器相关的文档的集合。本发明通过利用两个数据库来检索由关键词或短语描述的主题的文档集合,克服了上述问题。第一数据库是文档集合中术语的索引。该数据库将术语与术语出现的特定文档以及那些术语在文档中的位置联系起来。
第二数据库将称为本体知识数据库。本体知识数据库将文档涉及的特定领域中的概念关联起来,并且包括每个概念在库中的文档中出现的位置的目录。在本发明的一个方面中,每个概念由图中的节点表示。在图中通过表示关系的各个边缘(edge)将每个节点连接于其它节点。每种关系的特征在于类型和权重。这些关系包括亲代-子代关系,属-种关系,问题-解决方案关系等。本体知识数据库由提供文档集合的实体提供。调整与关系相关的权重以优化检索。每个节点的特征在于将概念传达给用户的短名称或标题。
除了与其它概念的关系之外,概念的特征还在于在库中的文档中出现的关键词或短语。将概念在库中的位置指派到这些关键词和/或短语的位置。与概念相关联的关键词或短语将称为概念关键词,以将这些关键词和短语与用于在关键词检索中检索文档的关键词或术语区分开。后面这些关键词将仅称为关键词或术语,除非上下文需要更高的精度;在这种情况下,在下面的讨论中这些关键词将称为检索关键词或检索术语。还应该注意的是,一些概念可能不具有任何与概念直接相关联的概念关键词。例如,通过亲代-子代关系相关联的两个概念。子代概念具有与该概念直接相关联的概念关键词。但是,亲代可能不具有任何与该概念直接相关联的概念关键词。
在本发明的一个方面中,概念和与该概念相关联的概念关键词之间的关系也由具有权重的边缘表示。因此,上面讨论的亲代概念通过具有组合权重的路径连接于子代的概念关键词,该组合权重将小于子代概念关键词关系的权重。概念-概念关键词关系是存储在本体知识数据库中的关系之一。在本发明的另一方面,库中每个文档中每个概念关键词的位置也存储在本体数据库中。
给定针对第一数据库的查询,使用第二数据库来对得到的文档进行分组。每个组涉及特定的概念。任何特定的文档可能在多个组中。为每个组指派名称,其反映组的基本概念。然后将检索结果与每个组的名称一起一次一个组地提供给用户,以有助于用户检索所需的文档。这允许用户专注于更可能包含所需文档的组,而无需接连检查来自查询的文档的整个目录。由于用户可以较有效地查看第一数据库的结果,因此可以容忍较多数量的“命中(hits)”,并且因此用户可以使用较宽泛的查询,而不会由于一次检查一个所得文档的任务而超载。
现在参考图1,其是根据本发明第一实施方式的检索系统100的方框图。在图1中,矩形方框表示处理操作,平行四边形方框表示对存储器或介质没有特别限制的数据,并且关键词输入单元块112(是基本上矩形的,其上边和下边不平行)是表示基于用户的手动操作的输入的方框。
对象文档102表示有待经历本申请实施方式的检索的文档,并且可以包括包含可检索文本信息的各种程序类型和非程序类型文档。这些文档的实例是程序、应用程序、手册和应用笔记。文档可以位于本申请实施方式安装到的测量设备上或位于测量设备可访问的网络上。网络可以包括互联网。
领域本体知识数据库104是与预先提供的特定领域有关的本体知识数据库,并且是其中数据作为与本体代码字典有关的概念积累在专业性领域中的数据块,所述专业性领域涉及本申请实施方式所安装于的测量设备的测量函数。如稍后所述,领域本体知识数据库104可以包括例如各种术语,即,与由测量设备进行的测量相关的概念,与那些概念中的每一个相关的其它概念的描述,和用于识别它们的关系的描述。例如,概念之间的关系可以包括属概念、种概念、作为另一概念的一部分或一个属性的概念、作为另一概念的同义词的概念,整体或整体的局部,问题和解决方案的关系,以及其它这样的关系。如上所述,本体知识数据库还包括概念关键词及其与各种概念的关系。
领域本体知识数据库104可以按本体语言(例如,网络本体语言(OWL)、资源描述框架(RDF)、RDF模式(RDF-S)或Hozo)来描述,并且是例如,预先创建的和由本申请实施方式的提供者提供的。
在领域本体知识数据库104中,定义了测量算法与其局部性概念之间的相关性(relevance),测量算法与归纳的测量问题的概念之间的相关性,测量算法与待测量装置的类型之间的相关性,以及其它这样的类型的相关性。
领域本体知识数据库104可以包括至少以下作为概念之间的关系的种类:表明给定概念由另一概念解决的解决方案的关系,表明多个概念具有至少有一个共有和通用的概念的同辈元素的关系,表明给定概念和另一个概念相互拥有或被相互拥有的局部性关系(part-of)。
文档索引器106从对象文档102产生文本索引108,并且从对象文档102和本体知识数据库104产生概念索引110。文本索引108可以包括包含在对象文档102内的各文档中的术语之间的对应关系,指示哪个文档包含该术语的文档标识符(文档ID),用于显示检索结果中的该术语的在文档内的出现位置等。概念索引110可以包括所选文档中包括的概念之间的关系。所选择的概念是由领域本体知识数据库104确定的。概念索引包括指示包含概念的文档的文档ID,当概念出现在文档中时获得的概念的出现位置等。
文档索引器106的处理优选地在将一个或多个新文档添加到文档库时进行。处理也可以定期进行,例如每天一次,或者在进行关键词检索之前进行。
用户通过在关键词输入单元块112处的手动操作等来输入作为检索关键词的关键词。随后,关键词搜索引擎114产生候选文档116,该候选文档116指示包含所接收的关键词的一组文档ID作为来自所接收的关键词的字符信息和指示上述的文本索引108。
在关键词检索完成之后,概念提取器118将包含在候选文档116中的文档ID的概念组及其相互关系输出到主题图形120作为图形数据。主题图形120可以将概念表达为节点,通过边缘将相关概念彼此连接,将概念之间的关系的种类定义为边缘的种类,和通过边缘的权重来定义概念之间的相似度的强度。基于在本体知识数据库104中描述的指示概念之间的关系的属性的种类,可以计算概念之间的相似度的强度。
随后,基于主题的文档聚类单元122将主题图形120内的图形数据分类为多个聚类。通常,节点通过边缘和权重连接于另一个节点,所述边缘指定两个节点之间关系,所述权重测量连接强度。权重的倒数(inverse)可视为两个节点之间的“距离”。考虑由第三个节点连接的两个节点。两个节点之间的距离可以用第一节点和第三节点之间的距离与第二节点和第三节点之间的距离的乘积的倒数来表示。给定一组节点和在节点对之间定义的距离,可以使用众多聚类算法来定义节点聚类。例如,可以将一个聚类定义为这样一组节点,这些节点彼此间的距离比与图形中其它节点之间的距离更近。
现在参考图2,图2示出了对于所选文档中包括的概念从本体知识数据库104产生的图形500。该图形是包括在本体知识数据库104中的概念的子集。圆形508和512至530各自指示节点,并将概念指派给各节点。表1中示出了相应节点的附图标记和所指派的概念。如上所述,相关节点通过边缘彼此连接,并且边缘包括种类和权重。在表2中显示了指派给相应边缘的种类和权重。通过概念索引110从领域本体知识数据库104导出每个边缘的种类,即概念之间的关系的种类。在表II中给出图2中示出的节点的边缘的权重和类型。
表1:节点和概念名称
节点的附图标记 | 概念名称 |
508 | 阈值电压(vth)测量 |
512 | 线性检索 |
514 | 线性检索起始栅极电压 |
516 | 线性检索停止栅极电压 |
518 | 线性检索阶跃栅极电压 |
520 | 固定Id线性外推 |
522 | 固定Id阈值电压栅极电压极限 |
524 | 固定Id阈值电压规定的漏极电压 |
526 | 二分法检索vmin |
528 | 二分法检索vmax |
530 | 二分法检索 |
表2:每条边缘的种类和权重
在该实例中,基于概念之间的相似度,基于主题的文档聚类单元122通过聚类方法例如将图2中所示的节点分类为多个聚类502、504和506。在该实例中,将上述圆形512和514分类为聚类506,并将节点526分类为聚类502。根据分类的结果,存在作为不属于圆形508所示的任何聚类的独立节点剩余的节点。
随后,通过使用本体知识数据库104,对于基于概念之间关系的种类的概念之间所共有的先代,基于主题的文档聚类单元122通过检索与属于主题图形120的每个聚类的相应节点相对应的概念来选择适合于每个聚类的标签的概念。或者,当每个聚类内所有节点的共有先代(即概念)无法确定为一个概念时,基于主题的文档聚类单元122通过选择最大数目的概念所共有的先代概念来选择最佳概念。基于主题的文档聚类单元122因此确定每个聚类的标签。作为结果,例如,在图2中,从聚类506中包含的多个节点(即,多个概念)中选择圆形512的概念作为聚类506的最优标签。
随后,基于主题的文档聚类单元122通过基于与另一个相关概念的关系和相似度的强度从与属于主题图形120的每个聚类的相应节点相对应的概念中选择适合于每个聚类的标签的概念来选择最佳概念。基于主题的文档聚类单元122因此确定每个聚类的标签。例如,在聚类506中出现1.00和0.46两种相似度。1.00的相似度(即强烈关联)基于这样的事实:这些概念是属于同一概念的相同种类的概念,且预期其总是同时出现。0.46的相似度(即相对较弱的关联)是基于概念之间的占有(局部)关系。在这种情况下,基于主题的文档聚类单元122参考领域本体知识数据库104来追踪局部关系,从而能够获得共有先代。当要选择标签时,期望不仅要根据相似性的强度来简单地识别中心概念(例如,文档1的方法),而且还要获得更抽象地概括该主题的概念。通过追踪主题内的概念的共有先代可以获得这样的概念。
因此,在这种情况下,基于主题的文档聚类单元122首先仅提取相应概念之间的局部关系,并且使用那些关系内的共有先代作为标签。随后,当共有先代无法确定为一个概念时,也考虑相似性的相对强度。结果,在聚类506的实例中,基于主题的文档聚类单元122将作为共有先代的概念“线性检索”确定为聚类506的标签。
通过上述函数,根据本发明,可以将用于检索的对象的文档ID分类为多个聚类,然后,作为标记的理由,不仅是本体上概念之间的垂直亲代-子代概念关系可以用于标记,而且概念之间的横向关系也可以用于标记,这使得能够灵活地标记,以匹配用户上下文。因此,可以从本体知识数据库104中进一步提取对用户特别有用的关键词,并在移除本体结构之后进行显示。
另外,基于主题的文档聚类单元122为每个聚类创建属于该聚类的文档的目录,并将该目录作为局部分类的检索结果124输出。
如上所述,基于主题的文档聚类单元122具有能够进行以下行为的特征:(1)从用户角度语义合理地、基于本体知识数据库尽可能多地将各种对象文档分类和组织;和(2)指派适当的名称(标签),使用户能够立即理解和掌握找到的组的含义。
现在参考图3A-图3C,其示出了局部分类的检索结果124的输出显示屏的实例。图3A是局部分类的检索结果124的第一屏幕300的图示。在图3A中,在字段302中显示“阈值电压”作为输入关键词,在状态指示符304中表示作为输入的结果命中了11个候选者。在聚类标签行306中指示聚类名称是“二分法检索”。作为属于上述聚类的文档,文档的文件名在第一列308中显示,文档的说明性文本在第二列310中显示。按钮312和314是用于转换到前一页或下一页的按钮,指示符316是关于显示位置的信息,指示当前显示的页面是三页中的第一页。
通过上述显示屏,用户可以理解列308和列310中显示的内容属于“二分法检索”概念,并且可以在不阅读列308和列310的详细信息的情况下立即判断是否将显示屏移动到下一页。因此,用户可以有效地理解检索结果并进行工作。
现在参考图3B,其是对局部分类的检索结果124的第二屏幕320的图示,并且显示具有与图3A的那些功能和内容相同的要素由与图3A的那些相同的附图标记表示。在聚类标签行326中指示聚类名称是“固定ID”。作为属于上述聚类的文档,文档的文件名称在第一列328中显示,文档的说明性文本在第二列330中显示。总共列出四个文档。指示符332指示当前正在显示的页面是三页中的第二页。
现在参考图3C,其是对局部分类的检索结果124的第三屏幕340的图示,并且显示具有与图3A的那些功能和内容相同的要素由与图3A的那些相同的附图标记表示。在聚类标签行346中指示聚类名称是“线性检索”。作为属于上述聚类的文档,文档的文件名称在第一列348中显示,文档的说明性文本在第二列350中显示。总共列出了六个文档。指示符352指示当前正在显示的页面是三页中的第三页。
如图3A-3B所示,在根据本申请实施方式的局部分类的检索结果124的输出显示屏中,针对通过分类获得的每个聚类选择性地显示检索结果(在这种情况下总共11个结果)并且还显示每个聚类的概念名称,这允许用户有效地选择具有要查看的详细描述或内容的候选者。
现在参考图4A-4B,图4A-4B是由图1所示的检索系统进行的处理的流程图。参照图4A,系统使用文档索引器106创建两个索引数据段。当处理开始时,在步骤202中,文档索引器106产生文本索引108。接下来,如在203所示,从对象文档102和本体知识数据库104创建概念索引110,并结束处理。
现在参考图4B,图4B是由关键词搜索引擎114、概念提取器118和基于主题的文档聚类单元122提供的处理的流程图。当处理开始时,关键词搜索引擎114向候选文档116输出与来自关键词输入单元块112和文本索引108的对象文档的关键词相关的文档ID 212,如在212处所示。接下来,概念提取器214从聚类候选文档216和概念索引110提取与对象文档中涉及输入关键词的文档ID有关的概念,产生作为加权图形数据的概念和相似度之间的关系类型,并将加权图形数据输出为主题图形120,如在214所示。
最后,基于主题的文档聚类单元122使主题图形120中的数据经历聚类处理,将由候选文档116指示的文档ID分类成相应的聚类,从主题图形120内的概念中选择最佳概念以用于标记每个聚类,将与每个标记的关键词有关的文档的目录输出到局部分类的检索结果124,如216处所示,并结束处理。
尽管上述实施方式允许用户使用宽泛的查询进行检索,但是检索结果受用户选择的词汇的限制,该词汇的词表可能与库中文档的作者用的词表不同。在本发明的一个方面中,可以使用概念关键词来扩大检索范围。考虑这样一种情况,其中检索关键词之一引出特定概念。该概念附加了包含在库文档中的概念关键词的目录。在本发明的实施方式中,用户可以扩大检索范围,以在新检索中包括附加到由原始检索找到的概念的一个或多个概念关键词作为用户最初选择的关键词的替代物。在这里,系统将向用户呈现概念关键词的目录,该目录直接与当前检索引发的概念相关联。
在本发明的另一方面中,可以通过指定用于从有待用在显示检索结果的主题图形中选择概念的关键词来精化处理。现在参考图5,其示出了根据本发明另一种实施方式的检索系统。图5是检索系统1000的方框图。方框的含义之间的差别根据它们的形状与图1中的那些相同,并且具有与图1相同的功能的方框由相同的附图标记表示。
在该实施方式中,除了正常的关键词输入之外,通过使用关键词输入单元2112,用户可以对有待经历精化检索的聚类名称指定限制作为除正常关键词输入之外的选项。当通过除了之前输入的关键词之外还在检索结果内指定聚类名称来执行精化检索时,将包含在指定聚类中的概念进一步聚类为多个子聚类,每个子聚类通过与第一实施方式的方法相同的方法标记。针对每个子聚类将属于指定聚类内的子聚类的文档列为更新的检索结果,并将该目录输出为局部分类的检索结果124。
例如,可以将“阈值电压”+/线性检索/输入到关键词输入单元2112。这里,“+”表示逻辑AND运算符,“/”是用于针对当进一步进行精化检索时使用的检索指定聚类名称为对象的分隔符。关键词搜索引擎2114配置为仅使用通过关键词输入单元2112输入的内容中的正常关键词,以从文本索引108产生包含关键词的文档ID集合作为字符信息,和将该文档ID集合输出到新提供的文档过滤器1004。文档过滤器1004配置为确定用于精化检索的聚类名称是否包含在通过关键词输入单元2112输入的内容中。当包含聚类名称时,文档过滤器1004查阅到局部排序检索结果124中作为先前检索结果的内容,以仅使从关键词搜索引擎2114接收的文档ID之中属于指定聚类的文档ID通过,并将通过的文档ID输出到候选文档2116。当用于精化检索的聚类名称不包含在通过关键词输入单元2112输入的内容中时,文档过滤器1004使从关键词搜索引擎2114接收的所有文档ID通过,并将通过的文档ID输出到候选文档2116。
检索系统1000的其他功能和操作与以上讨论的检索系统100的那些相同。以这种方式,用户还可以通过使用之前的检索结果不断地如下进一步推进检索:除了关键词输入单元2112中显示的之前检索关键词之外还指定要用于精化的聚类名称,和重复该处理。因此,可以实现检索的增量精化。
现在参考图6,图6是对应于上面讨论的图4B的检索系统1000的处理的流程图。与图4A的文档索引器106有关的操作在第二实施方式中是相同的,因此省略其描述。此外,在图6中,与图4B的操作相同的步骤由相同的附图标记表示。
在图6中,当处理开始时,首先,关键词搜索引擎2114将关于来自关键词输入单元2112的正常关键词部分和文本索引108的对象文档内的关键词的文档ID输出到文档过滤器1004,如在2212所示。随后,文档过滤器1004确定用于精化检索的聚类名称是否包含在通过关键词输入单元2112输入的内容中。当包含聚类名称时,文档过滤器1004查阅到局部分类的检索结果124的内容,以仅使属于指定聚类的文档ID通过,和将通过的文档ID输出到候选文档2116。当不包含用于精化的检索的聚类名称时,文档过滤器1004使从关键词搜索引擎2114接收到的所有文档ID通过,和将通过的文档ID输出到候选文档2116。随后,执行与图4B的那些相同的步骤214和216,然后过程返回到步骤2212,以基于来自关键词输入单元2112的更新输入重复步骤2212、214和216。
现在参考图7A和图7B,图7A和图7B示出了根据第二实施方式的局部分类的检索结果124的输出显示屏的实例。首先,图7A是根据第二实施方式的局部分类的检索结果124的第一屏幕1200的图示。在图7A中,“阈值电压”+/线性检索/在字段1202中显示为输入关键词,除了之前的检索关键词之外还为精化指定了聚类“线性检索”。在状态指示符1204中指示作为关于新输入的处理的结果已经命中了六个候选者。在聚类标签行1206中,聚类名称显示为“外推,线性检索”,其表示显示屏涉及聚类“线性检索”下的子聚类“外推”。作为属于上述子聚类的文档,文档的文件名称在第一列1208中显示,文档的说明性文本在第二列1210中显示。总共列出三个文档。按钮1212和1214以及指示器1216与图3A的相应按钮312和314以及相应指示器316相同,因此省略其描述。上述显示屏允许用户理解,在列1208和1210中显示的内容属于聚类“线性检索”下的子聚类“外推”的概念,并且结果已经通过使图3A到3C的结果经历关于聚类“线性检索”的精化检索而获得。因此,用户可以有效地了解增量精化的检索结果以进行工作。
现在参考图7B,其示出了根据第二实施方式的局部分类的检索结果124的第二屏幕1220,并且具有与图7A中的功能和内容相同的功能和内容的显示要素由与图7A相同的附图标记表示。在聚类标签行1226中,聚类名称显示为“指定目标,线性检索”。作为属于上述聚类的文档,文档的文件名称在第一列1228中显示,文档的说明性文本在第二列1230中显示。总共列出三个文档。指示符1236指示当前正在显示的页面是两页中的第二页。
在上述实施方式中,创建概念索引,其包括所选文档中包含的概念之间的关系。该索引是从本体知识数据库104创建的。可以从本体知识数据库104拷贝这些关系。或者,概念索引可以包括指向所讨论关系信息所在的本体知识数据库104中的位置的指针。
上述实施方式可以在安装在电子测量设备上的控制器上实施,该控制器包括处理器、各种类型的存储器、ASIC和FPGA,并且能够执行程序。在另一种情况下,第一实施方式可以在计算机例如PC上实施,计算机连接到电子测量设备的外部,包括处理器、各种类型的存储器、ASIC和FPGA以能够执行程序,或者已经在其上安装了各种OS之一,包括Windows(商标)和Linux(商标)。
本发明还包括存储代码的计算机可读介质,其将使计算机执行本发明的方法和任选地存储以上讨论的数据库之一或两者。例如,计算机可读介质可以包括本体知识数据库104以及用于执行本发明的方法的代码。在一种示例性的实施方式中,本体知识数据库包括概念关键词,但不包括在文档库中的位置。在进行关键词检索之前,搜索引擎通过查找概念关键词在当前库中的位置来创建概念索引。该实施方式允许针对专业性领域的本体知识数据库104向已安装其自己的文档库的用户提供根据本发明的搜索引擎。
在另一种实施方式中,该库由提供程序和本体知识数据库104的实体所包括。该库可以在单独的计算机可读介质上,可通过互联网获得,或者与程序和本体知识数据库104在同一计算机可读介质上。
针对本申请讨论的目的,计算机可读介质定义为构成根据35U.S.C.101的可授予专利权主题的任何介质并且排除不是根据35U.S.C.101的可授予专利权主题的任何介质。这样的介质的实例是非临时性介质如计算机磁盘和非易失性存储器。
已经提供了本发明的上述实施方式来说明本发明的各个方面。然而,应该理解,在不同的具体实施方式中示出的本发明的不同方面可以组合以提供本发明的其它实施方式。另外,根据前面的描述和附图,将容易理解对本发明的各种修改。因此,本发明仅由所附权利要求的范围来限定。
Claims (10)
1.一种用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法,所述方法包括:
提供概念数据库,所述概念数据库将所述多个文档涉及的特定领域中的概念关联起来;
提供对所述库的访问,所述库中的每个文档进一步包括概念索引,所述概念索引指示文档中包含的所述概念数据库中的概念;
使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;
使所述数据处理系统产生将所述候选文档的所述概念索引中包含的所述多个概念中的两个或多个相互关联的主题图形;
基于所述主题图形对所述候选文档进行聚类;以及
对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
2.权利要求1所述的方法,其还包括使所述数据处理系统产生所述概念索引,所述概念索引为所述多个文档中的所述多个概念中的每个概念指定一个位置以及指定该概念与所述多个文档中的所述概念中的另一概念之间的关系。
3.权利要求2所述的方法,其中所述概念索引还包括指定所述文档与所述概念中的所述另一概念之间的所述关系的强度的权重。
4.权利要求2所述的方法,其中所述关系包括选自以下的关系:亲代-子代关系,属种概念关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,将所述文档之一中的概念关键词与所述概念之一相关联的概念关键词关系,和问题和解决方案的关系。
5.权利要求2所述的方法,其中所述主题图形中的所述概念各自包括描述该概念的概念名称,并且其中所述聚类名称是包括在所述聚类中的所述候选文档中的所述概念之一的所述概念名称。
6.权利要求2所述的方法,其中所述概念索引是从本体知识数据库中导出的。
7.权利要求1所述的方法,其中所述聚类之一的所述概念名称包括选自以下的名词:该所述聚类之一内的所述概念中的两个概念所共有的亲代概念的名称,该所述聚类之一内的大多数所述概念所共有的亲代概念的名称,和所述聚类之一中的所有概念所共有的名称。
8.权利要求1所述的方法,其还包括接收来自所述用户的所述聚类名称之一和接收另一个检索关键词,和使所述数据处理系统产生候选文档,所述候选文档代表所述多个文档中属于该所述聚类名称之一的那些和之前选择的文档,所述文档满足所述另一个检索关键词。
9.一种具有指令的计算机可读介质,当将所述指令加载到数据处理系统上的处理器中时,所述指令使得所述数据处理系统执行检索方法,所述检索方法识别包括多个文档和由所述多个文档示例的多个概念的库中的文档,所述检索方法包括:
提供概念数据库,所述概念数据库将所述多个文档涉及的特定领域中的概念关联起来;
提供对所述库的访问,所述库中的每个文档进一步包括概念索引,所述概念索引指示文档中包含的所述概念数据库中的概念;使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;
使所述数据处理系统产生将所述候选文档的所述概念索引中包含的所述多个概念中的两个或多个相互关联的主题图形;
基于所述主题图形对所述候选文档进行聚类;和
对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。
10.权利要求9所述的计算机可读介质,其中所述计算机可读介质还存储由所述数据处理系统用来从所述库产生所述主题图形的本体数据库。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/640,122 US10872107B2 (en) | 2017-06-30 | 2017-06-30 | Document search system for specialized technical documents |
US15/640,122 | 2017-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213830A CN109213830A (zh) | 2019-01-15 |
CN109213830B true CN109213830B (zh) | 2023-11-03 |
Family
ID=64738078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810671455.4A Active CN109213830B (zh) | 2017-06-30 | 2018-06-26 | 专业性技术文档的文档检索系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10872107B2 (zh) |
CN (1) | CN109213830B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230112763A1 (en) * | 2021-09-24 | 2023-04-13 | Microsoft Technology Licensing, Llc | Generating and presenting a text-based graph object |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000077690A1 (en) * | 1999-06-15 | 2000-12-21 | Kanisa Inc. | System and method for document management based on a plurality of knowledge taxonomies |
CN101408885A (zh) * | 2007-10-05 | 2009-04-15 | 富士通株式会社 | 利用统计分布对主题进行建模 |
JP2010009251A (ja) * | 2008-06-25 | 2010-01-14 | Internatl Business Mach Corp <Ibm> | 文書データの検索を支援する装置及び方法 |
CN101692223A (zh) * | 2007-10-05 | 2010-04-07 | 富士通株式会社 | 响应于用户输入精炼搜索空间 |
JP2010118021A (ja) * | 2008-11-14 | 2010-05-27 | Yahoo Japan Corp | トピックグラフを利用したドキュメント検索サーバ及び方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN105144165A (zh) * | 2013-03-08 | 2015-12-09 | 谷歌公司 | 用于增强搜索结果的社交注释 |
US9348920B1 (en) * | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
CN105608232A (zh) * | 2016-02-17 | 2016-05-25 | 扬州大学 | 一种基于图形数据库的bug知识建模方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4620721Y1 (zh) | 1967-08-30 | 1971-07-19 | ||
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
DE60332315D1 (de) * | 2002-01-16 | 2010-06-10 | Elucidon Group Ltd | Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind |
JP3974511B2 (ja) * | 2002-12-19 | 2007-09-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
JP4587163B2 (ja) * | 2004-07-13 | 2010-11-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索システム、検索方法、報告システム、報告方法、及びプログラム |
US9110985B2 (en) * | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
EP1939797A1 (en) | 2006-12-23 | 2008-07-02 | NTT DoCoMo, Inc. | Method and apparatus for automatically determining a semantic classification of context data |
WO2009117830A1 (en) * | 2008-03-27 | 2009-10-01 | Hotgrinds Canada | System and method for query expansion using tooltips |
JP5289573B2 (ja) * | 2009-07-27 | 2013-09-11 | 株式会社東芝 | 関連性提示装置、方法およびプログラム |
US8463786B2 (en) * | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
US9443008B2 (en) | 2010-07-14 | 2016-09-13 | Yahoo! Inc. | Clustering of search results |
US10402502B2 (en) * | 2011-09-23 | 2019-09-03 | Shauki Elassaad | Knowledge discovery system |
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US10025978B2 (en) * | 2015-09-15 | 2018-07-17 | Adobe Systems Incorporated | Assigning of topical icons to documents to improve file navigation |
-
2017
- 2017-06-30 US US15/640,122 patent/US10872107B2/en active Active
-
2018
- 2018-06-26 CN CN201810671455.4A patent/CN109213830B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000077690A1 (en) * | 1999-06-15 | 2000-12-21 | Kanisa Inc. | System and method for document management based on a plurality of knowledge taxonomies |
CN101408885A (zh) * | 2007-10-05 | 2009-04-15 | 富士通株式会社 | 利用统计分布对主题进行建模 |
CN101692223A (zh) * | 2007-10-05 | 2010-04-07 | 富士通株式会社 | 响应于用户输入精炼搜索空间 |
JP2010009251A (ja) * | 2008-06-25 | 2010-01-14 | Internatl Business Mach Corp <Ibm> | 文書データの検索を支援する装置及び方法 |
JP2010118021A (ja) * | 2008-11-14 | 2010-05-27 | Yahoo Japan Corp | トピックグラフを利用したドキュメント検索サーバ及び方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN105144165A (zh) * | 2013-03-08 | 2015-12-09 | 谷歌公司 | 用于增强搜索结果的社交注释 |
US9348920B1 (en) * | 2014-12-22 | 2016-05-24 | Palantir Technologies Inc. | Concept indexing among database of documents using machine learning techniques |
CN105608232A (zh) * | 2016-02-17 | 2016-05-25 | 扬州大学 | 一种基于图形数据库的bug知识建模方法 |
Non-Patent Citations (1)
Title |
---|
Ugo Scaiella等.Topical Clustering of Search Results.《WSDM’12: Proceedings of the fifth ACM international conference on Web search and data mining》.2012,第223-232页. * |
Also Published As
Publication number | Publication date |
---|---|
US20190005052A1 (en) | 2019-01-03 |
US10872107B2 (en) | 2020-12-22 |
CN109213830A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nunez‐Mir et al. | Automated content analysis: addressing the big literature challenge in ecology and evolution | |
US20180032606A1 (en) | Recommending topic clusters for unstructured text documents | |
EP2823410B1 (en) | Entity augmentation service from latent relational data | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
US9342592B2 (en) | Method for systematic mass normalization of titles | |
KR100859918B1 (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
Lydia et al. | Correlative study and analysis for hidden patterns in text analytics unstructured data using supervised and unsupervised learning techniques | |
US20150269138A1 (en) | Publication Scope Visualization and Analysis | |
Koopman et al. | Contextualization of topics: Browsing through the universe of bibliographic information | |
Mirończuk | The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
Rus et al. | Customizing information capture and access | |
Wang et al. | Mining key information of web pages: A method and its application | |
JP5943756B2 (ja) | データ中のあいまいな箇所の検索 | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
Wei et al. | DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
JP2004078446A (ja) | キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム | |
Murata | Visualizing the structure of web communities based on data acquired from a search engine | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
Van den Hoven et al. | Beyond reported history: Strikes that never happened | |
Campbell et al. | An approach for the capture of context-dependent document relationships extracted from Bayesian analysis of users' interactions with information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |