CN101055580A - 用于检索文档的系统、方法及用户接口 - Google Patents

用于检索文档的系统、方法及用户接口 Download PDF

Info

Publication number
CN101055580A
CN101055580A CN 200710005435 CN200710005435A CN101055580A CN 101055580 A CN101055580 A CN 101055580A CN 200710005435 CN200710005435 CN 200710005435 CN 200710005435 A CN200710005435 A CN 200710005435A CN 101055580 A CN101055580 A CN 101055580A
Authority
CN
China
Prior art keywords
document
keyword
user interface
retrieval
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710005435
Other languages
English (en)
Other versions
CN101055580B (zh
Inventor
车完奎
金晶中
安汉峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR20060033663A external-priority patent/KR100862440B1/ko
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN101055580A publication Critical patent/CN101055580A/zh
Application granted granted Critical
Publication of CN101055580B publication Critical patent/CN101055580B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于检索文档的系统、方法及用户接口。所述系统包括存储文档的DB、文档特征编写单元、检索式输入单元、关键词提取单元、加权单元、文档检索单元以及输出单元。文档特征编写单元提取存储在文档数据库中的文档的属性信息,并且基于属性信息编写文档的索引。检索式输入单元接收用户输入的检索式。关键词提取单元从检索式中提取关键词。加权单元使用索引对提取的关键词加权。文档检索单元使用已加权的关键词检索相似文档。输出单元将由文档检索单元检索到的相似文档显示给用户。

Description

用于检索文档的系统、方法及用户接口
技术领域
本发明涉及一种用于检索文档的系统和方法,其能够检索与用户输入的检索式具有预定相似度的文档;并且涉及一种为用户提供的用于检索相似文档的用户接口。
背景技术
近来,文档检索系统得到广泛使用,其能够处理大量的文档信息而只提取和提供用户需要的信息。
换句话说,文档检索或信息检索是指用户从大量的文档或信息中检索所需的文档或信息。为了检索文档或信息,处理自然语言文本的关键词,为每个关键词加权,并进行检索和排序。
现有技术的文档检索系统只接收用户的检索式(query)并向用户输出从普通系统提取的普通结果。由于一般检索系统按照从用户接收到的检索式的范围(area)来对文档进行分类,因此难以为用户提供针对其喜好和特点而定制的信息。
此外,由于现有技术的系统只根据用户输入的检索式来检索所需的信息,因此在确定检索范围时可能出现错误。因此,在用户所需的信息与检索结果之间可能产生差异,从而使检索结果的准确性和可靠性下降。
另外,由于现有技术的系统依赖于提供信息的站点所使用的检索系统来检索从用户接收到的检索式,因此检索到的信息缺乏准确性,并且难以提供实时信息。然而,对于应当在生成时尽快检索到或者应当在长时间过去之前检索到的文档(例如专利文档)而言,需要对所述文档的访问方法和针对用户定制的检索方法。
发明内容
因此,本发明旨在一种用于检索文档的系统、方法及用户接口,其充分消除了由于现有技术的限制和不足而引起的一个或多个问题。
本发明的一个目的是提供一种用于检索文档的系统、方法及用户接口,其能够通过各种路径输入检索式,例如输入句子和附上文件。
本发明的另一目的是提供一种于检索文档的系统、方法及用户接口,其能够使用检索到的文档作为检索式检索与所检索到的文档类似的其它文档。
本发明的其它优点、目的及特征将在以下说明书中阐明一部分,其另一部分对于本领域的技术人员而言可通过研究以下内容而清楚了解,或者通过实施本发明而获知。通过在文字说明书、权利要求书以及附图中所具体指出的结构,可以实现和获得本发明的目的和其它优点。
为实现这些目的和其它优点,并根据本发明的目标,如在此具体实施和广泛描述的,提供一种检索文档的系统,所述系统包括:文档数据库,其存储文档;文档特征编写单元,其提取存储在所述文档数据库中的文档的属性信息,并且基于所述属性信息编写所述文档的索引;检索式输入单元,其接收用户输入的检索式;关键词提取单元,其从所述检索式中提取关键词;加权单元,其使用所述索引对提取的关键词加权;文档检索单元,其使用已加权的所述关键词检索相似文档;以及输出单元,其将由所述文档检索单元检索到的相似文档显示给用户。
在本发明的另一方案中,提供一种检索文档的方法,所述方法包括如下步骤:通过检索式输入单元接收用户输入的检索式;从所述检索式中提取关键词;对每个关键词加权;以及基于已加权的关键词检索相似文档。这里,利用存储在文档数据库中的文档的特征信息的索引,对所述关键词加的权重反映每个文档中所述关键词的出现频率。
应当理解的是,本发明的以上概括说明和以下详细说明都是示意性的和说明性的,其旨在提供对请求保护的发明的进一步说明。
附图说明
附图用于提供对本发明的进一步理解,其包含在本申请中并构成本申请的一部分。附图示出本发明的实施例,并和说明书一起用于说明本发明的原理。在附图中:
图1为示出根据本发明实施例的文档检索系统的方框图;
图2为示出各文档的属性信息的视图;
图3为示出根据本发明实施例的第一用户接口的视图;
图4为示出一种用户接口的视图,所述用户接口示出提取的关键词和每个关键词的权重;
图5为示出提取的关键词的加权方法的流程图;
图6为示出第二用户接口的视图,所述第二用户接口作为针对用户输入的检索式相似文档的检索列表;
图7为示出使用检索到的文档检索相似文档的方法的流程图;
图8为示出根据本发明实施例的第三用户接口的视图;以及
图9为示出从附件提取关键词的过程的流程图。
具体实施方式
下面将详细介绍本发明的优选实施例,其实例在附图中示出。在所有附图中,尽可能地使用相同的标号表示相同或相似的部件。
图1为示出根据本发明实施例的文档检索系统的方框图。
参照图1,根据本发明实施例的文档检索系统包括客户端200和通过网络210与客户端200连接的检索系统100,其中在客户端200处用户输入用于检索文档的检索式或者相对于检索式的相似文档的检索结果,检索系统100检索关于用户输入的检索式的类似文档。
客户端200包括输入单元和输出单元,用户使用所述输入单元将预定检索式传送到检索系统100,所述输出单元用于接收从检索系统100传送来的文档信息,以为用户显示所述信息。
检索系统100与客户端200之间的通信媒介包括各种通信网络,例如互联网和LAN。
检索系统100从检索式中提取关键词,使用所提取的关键词检索相似文档,并确定检索到的相似文档的相似度。检索系统100包括检索式输入单元190、相似文档检索部件160、文档数据库(以下用DB代表数据库)110、文档特征编写单元120、文档特征DB 130、相似词提取单元140、相似词DB150和辞典DB 170。
然而,检索系统100的硬件不限于特定结构。例如,检索系统100可以作为包括CPU或存储器(例如ROM、RAM和硬盘)的计算机来实现。
本发明中使用的术语“检索式”是指为了从文档DB 110、文档特征DB130、相似词DB 150或辞典DB 170中选择部分文档而输入的文本,并包含逻辑表示或自然语言的多个查询。
此外,本发明中使用的术语“检索式”不仅指用户输入的文本。例如,在用户检索与记录在特定文件中的文本相似的文档时,检索式可以是该特定文件。另外,在用户检索与检索到的文档相似的文档时,检索式可以是所检索到的文档。
而在本发明的说明中,“检索式”和“关键词”有时可能交替使用。
本发明的文档DB 110主要存储公开专利文档或登记的专利文档,但不限于此。下面,假定在文档DB 110中存储公开专利文档或登记的专利文档,描述从存储在文档DB 110中的文档检索与输入的检索式具有预定相似度的相似文档的方法。
在文档DB 110中存储多个专利文档,然而也可以从通过网际机器人(web robot)与网络连接的另一网络服务器获得专利文档,尽管图中没有示出。
文档特征编写单元120从存储在文档DB 110中的文档提取文档的属性信息,并基于该属性信息编写关于文档的索引。也就是说,文档特征编写单元120从存储在文档DB 110中的文档获得文本,以将关于每个关键词出现频率的索引信息提供给文档特征DB 130。
在通过检索式输入单元190输入预定检索式时或者在将新文档提供给文档DB 110时,文档特征编写单元120可以编写相应文档的特征。
接下来,文档特征编写单元120为存储在文档DB 110中的各文档编写索引文件,并使用该索引文件确定各文档的特征矢量。
下面参照图2描述上述操作。
图2为示出每个文档的属性信息的视图。
图2所示的文档的属性信息可由文档特征编写单元120以索引文件的形式编写,并且编写的索引文件存储在文档特征DB 130中。
文档特征编写单元120使用存储在文档特征DB 130中的索引文件可确定各文档的特征矢量,并且所述特征矢量可存储在文档特征DB 130中。
图2示出每个文档中关键词(A,B,C,D,M,I,K,O,P,Q,Z)的出现频率。这里,A表示诸如名词、专有名词和复合名词之类的词,而不表示字母“A”。例如,在文档1中包含关键词A、B、C和D的次数分别为35次、19次、15次和13次。在各文档中包含的关键词的出现频率表中按最高频率至最低频率的顺序排列关键词,如图2所示。
使用索引文件可提取各文档的特征矢量或各关键词的相似词。
通过下文将描述的相似词提取单元140和相似词DB 150,描述关键词的相似词的提取。下面,将描述提取各文档的特征矢量的结构。
在由用户使用检索式输入单元190输入的检索式被传送至文档DB 110或者新文档被提供至文档DB 110时,相似词提取单元140可提取相似词(或者相关术语)。
在这种情况下,相似词提取单元140从存储在文档DB 110中的各文档提取相似词,并可以使用如图2所示的各文档的索引文件。
在由相似词提取单元140进行相似词的提取时,检索包含输入的检索式以及与用户输入的检索式具有预定相关性的关键词的文档,从而提高所检索到的文档的可靠性。
相似词检索单元140从各文档的属性信息(编写为如图2所示的索引文件)中提取各文档的特征关键词。
例如,可从文档1中按最高至最低出现频率的顺序提取关键词A、B、C和D作为特征关键词。这里,从每个文档的索引文件提取的特征关键词的数量可由检索系统100的管理员在任何时间改变,因此特征关键词的数量没有限制。
也就是说,相似词提取单元140确定具有每个文档的关键词评估值的特征矢量作为系数(factor)。例如,当在每个文档中包含的关键词的总数为n时,每个文档的特征矢量由方程(1)表示为n维空间的矢量。
特征矢量=(关键词A的评估值w1,关键词B的评估值w2,……,词n的评估值wn)…………………………………………………(1)
例如,在文档(Salton,G:Automatic Text Processing:The transformation,Analysis,and Retrieval of Information by Computer,Addison-Wesley)中公开的tf*idf方案可用于评估值的算法中。根据tf*idf方法,在相应于文档1的n维特征矢量中,将与包含在文档1中的关键词相对应的系数计算为大于0的值,而将与文档1中不包含的关键词(频率为0的词)相对应的系数计算为0值。
在这一点上,作为特征矢量系数的关键词的评估值可以是包含在每个文档中的每个关键词的频率。
例如,文档1的关键词A、B和C可由相似词提取单元140集合为相似词,并且将所集合的相似词存储在相似词DB 150中。
也就是说,预定关键词A和B被相似词提取单元140集合,并且所集合的关键词A和B被存储在相似词DB 150中。
当关键词A和B中的任一个关键词包含在由关键词提取单元163提取的关键词中时,文档检索单元161检索包含另一个关键词的相似文档。
因此,并非一定要针对提取的关键词执行检索,而基于存储在文档DB110中的文档属性可以检索相似文档。
当关键词A包含在使用检索式输入单元190输入的检索式时,在检索相似文档时可检索出包含关键词B和C以及关键词A的文档。
如上所述,为存储在文档DB 110中的每个文档编写索引文件,并且使用索引文件提取相似词。下面,将详细描述相关于用户输入的检索式的相似文档的检索。
首先,将描述在用户输入以句子为单位的检索式的情况下文档的检索。
图3示出用户接口的第一实施例,所述用户接口是由检索系统100提供的,使得用户可以通过客户端200输入以句子为单位的检索式。
检索系统100包括输出单元180,所述输出单元180形成将传递给客户端200的用户接口,由输出单元180提供的第一用户接口300在图3中示出。
第一用户接口300包括句子输入部310和提示输入部320,在句子输入部310处用户输入以句子为单位的检索式,在提示输入部320处用户输入预定检索式以为特定关键词加更高的权重。
第一用户接口300还包括检索式询问部330,所述检索式询问部330允许用户检查从输入至句子输入部310和提示输入部320的检索式中提取的关键词。
这里,当用户点击检索式询问部330时,检索系统100接收句子输入部310和提示输入部320中输入的检索式,从接收到的检索式提取关键词,以及对每个提取的关键词加权(或赋予评估值)。
此外,提供搜索部340,用于使用户请求进行相似文档的检索。
下面,将详细描述提取的关键词的加权方法。
图5为示出提取的关键词的加权方法的流程图。
在通过检索系统100的检索式输入单元190接收到由用户以句子为单位输入的检索式时,相似文档检索部件160的关键词提取单元163提取关键词。
在这种情况下,关键词提取单元163基于语素(morphologic)分析使用辞典DB 170提取包含在以句子为单位输入的检索式中的词,并将所述词选为输入的检索式的关键词。
例如,当在步骤S501通过上述方法从输入的检索式中提取关键词A、B、C和D时,则在步骤S502相似文档检索部件160的加权单元162使用提取的关键词A、B、C和D检索存储在文档特征DB 130中的索引文件。
当包含提取的关键词A、B、C和D的索引文件存在时,(例如,图2所示的文档1),基于关键词A、B、C和D在文档中的出现频率为每个关键词加权。当多个索引文件包含关键词A、B、C和D时,在步骤S503可以计算关键词A、B、C和D在各文档中的出现频率的平均值作为所述关键词的权重。
当不存在包含所有关键词A、B、C和D的索引文件时,可以使用以下方法加权。
基于关键词A的出现频率最高的文档数量与关键词B等的出现频率最高的文档数量之间的比率,可以为关键词A、B、C和D加权。
此外,基于构成存储在文档特征DB 130中的索引文件的词的比率,也可以为关键词A、B、C和D加权。例如,使用存储在文档特征DB 130中的关键词A的数量、关键词B的数量等等的比率,可以为关键词A、B、C和D加权。
在为提取的关键词加权时,为通过提示输入部320输入的关键词加最高的权重。
通过输出单元180,将从检索式中提取的关键词和为所述关键词加的权重传递给客户端200,其中所述检索式是通过句子输入部310和提示输入部320输入的。
当用户选择图3所示的第一用户接口300的检索式询问部330时,提取的关键词和为所述关键词加的权重被显示,如图4所示。
用户可以通过客户端200的输入单元修改图4所示的各关键词和权重,由此用户能够更准确地建立所需的检索。
特别地,为各关键词加的各权重用作文档中相应关键词的出现频率。
例如,如图4所示,当“prism”的权重为15,而“axis”的权重为10时,相似文档检索部件160的文档检索单元161检索包括“prism”的频率比“axis”的频率高1.5倍的文档。
这里,文档检索单元161参照存储在文档特征DB 130中的索引文件来检索相似文档,如上所述。
接下来,将描述使用由相似文档检索部件160检索到的文档来检索其它相似文档的过程。
图6示出针对用户输入的检索式的相似文档的检索列表。
图6所示的检索结果列表代表检索系统100针对图3所示以句子为单位的检索式所实际检索到的相似文档。
用户可以使用检索结果列表检索其它相似文档,而不管其是针对通过各种路径输入的检索式的相似文档的检索结果,还是根据本发明包括特定关键词的文档的检索结果。
当如图6所示将预定文档列于表上时,用户可以检查特定文档,并且可以检索相对于检查的文档具有预定相似度的文档。
在本发明中,为用户提供的用以使用检索到的文档检索其它相似文档的用户接口可以称为第二用户接口600。第二用户接口600包括文档选择部610和文档检索请求部620。文档选择部610允许用户从检索文档列表中选择特定文档。用户可以使用文档检索请求部620请求检索与选择的文档相似的文档。
下面将详细描述通过检索系统100的输出单元180为用户提供的第二用户接口600。
诸如公开专利文档和登记的专利文档之类的专利文档包括为了易于对构成专利说明书(specification)的项目进行划分而标准化的文本,所述项目包括“名称”、“发明人”、“申请号”“专利号”、“授权日”、“摘要”、“发明的背景”、“简要说明”、“优选实施方式的说明(说明书)”、“权利要求书”,等等。
构成专利文档的项目中的一些项目可以显示给用户,如图6所示。特别地,在图6中示出了“摘要”、“说明书”、“权利要求书”以及“整个专利说明书”的预定百分比。
在本发明的检索系统100中,根据每个文档中用户输入的检索式和相对于所述检索式的相似词(或相关术语)的出现频率,计算每个文档的相似度,并且针对构成文档的项目,进行检索检索式和相似词的出现频率的过程。
也就是说,针对文档的“摘要”、“说明书”、“权利要求书”以及“整个专利说明书”,分别计算文档中用户输入的检索式和相似词的出现频率。
为此,针对构成专利文档的“名称”、“发明人”、“申请号”“专利号”、“授权日”、“摘要”、“发明的背景”、“简要说明”、“说明书”、“权利要求书”,分别编写由文档特征编写单元120编写的索引文件。
下面,描述当用户选择特定文档并输入文档检索请求部620以检索与选择的文档相似的文档时检索系统100的操作。
参照图1和图7详细描述上述操作。
在步骤S701,关键词提取单元163参照如上所述的辞典DB 170从用户选择的文档中提取关键词。
在步骤S702,加权单元162为由关键词提取单元163提取的每个关键词加权或赋予评估值。
这里,由加权单元162加的权重可以是选择的文档中每个关键词的出现频率。例如,关键词A、B、C、D、E、F以及其它关键词的出现频率可以分别为7%、6.5%、5%、4%、3%、2%以及少于1%。
在这种情况下,在步骤S703主要针对具有预定出现频率(例如5%)或者更高出现频率的关键词(例如,关键词A、B和C),检索相似文档。这里,用于选择关键词A、B和C的出现频率值可由检索系统100的管理员改变。
在步骤S703中,相似文档的检索由相似文档检索部件160的文档检索单元161执行,并且文档检索单元161可以参照存储在文档特征DB 130中的索引文件。
当使用存储在文档特征DB 130中的索引文件检索包括关键词A、B和C的文档时,具有类似于关键词A、B和C的权重的权重的文档为具有高相似度的文档。
在本发明的实施例中,关键词A、B和C(具有5%或者更高出现频率的关键词)可以是主关键词,而关键词D、E和F(具有等于或高于1%且低于5%的出现频率的关键)可以是次关键词。然而,关键词的这种划分可以改变。
在步骤S704,根据关键词A、B、C、D、E和F的出现频率,计算由文档检索单元161检索到的文档的相似度。
详细地,使用具有预定或更高权重的关键词A、B和C检索相似文档,然后计算每个检索到的文档中关键词A、B、C、D、E和F的出现频率。
接下来,针对使用关键词A、B和C检索到的文档,计算关键词D、E和F的出现频率。
简言之,使用关键词A、B和C从存储在文档DB 110中的文档中检索相似文档,然后使用关键词A、B、C、D、E和F计算检索到的相似文档的相似度。
在相似度的计算中可以使用检索方法中通常使用的基于不完全匹配模式的tf*idf加权方案。文档在其具有与主关键词A、B和C的权重相似的出现频率时具有高相似度,其中具有与次关键词D、E和F的权重相似的出现频率的文档为具有最高相似度的文档。
接下来,在步骤S705,根据相似度排列检索到的相似文档,并通过输出单元180将排列后的文档提供给用户。
参照图5执行针对以句子为单位的检索式的文档检索,并且参照图7执行相对于检索结果的文档的相似文档检索。然而,可由检索系统的管理员适当地组合这两种检索方法,而不应限于此。
接下来,描述当用户附上(attach)文本文件时检索与所附文件(附件)的文档的过程。
本检索过程不同于上述检索式的输入路径中的处理。也就是说,检索系统100的输出单元180为用户提供第三用户接口800以附上文本文件。
图8示出根据本发明实施例的为用户提供的第三用户接口800。第三用户接口800包括允许用户附上文件的附件部810。
为了限制通过附件部810附上的文件的格式,检索系统100的检索式输入单元190可以设置为只接收特定格式的文件。
检索式输入单元190被设置为监测附上的或者上载的文件的格式,以只接收特定格式的文件。
也就是说,检索式输入单元190被设置为只接收语素可分析文件,例如HTML(htm,html)、MS-Office文件(doc,xls,ppt)、韩文word文件(hwp)以及Adobe Acrobat(pdf),使得相似文档检索部件160的关键词提取单元163可以提取关键词。
因此,当用户通过附件部810附上jpg文件时,检索式输入单元190阻止接收附件,并且输出单元180可以将错误信息显示给用户。
设置检索式询问部830,从而在检索式输入单元190能够接收的格式的文件被附上时,用户能够询问从附件提取的关键词以及各个关键词的相应权重,并且检索式询问部830执行与图3所示的检索式询问部330相同的功能。
类似地,当用户输入检索式询问部830时,多个关键词和所述关键词的权重被显示,如图4所示。
第三用户接口800还包括搜索部840,所述搜索部840允许用户请求使用从附件中提取的关键词和所述关键词的权重检索相似文档。此外,设置提示输入部820,用以为预定输入关键词加高于预定值的权重,如图8所示。
这里,从附件中提取关键词的过程很重要,针对提取的关键词相似词的提取和相似文档的检索与上述说明相同。
参照图1和图9描述从附件提取关键词的过程。
在步骤S901,用户通过第三用户接口800附上(或上载)语素可分析文件,其中所述第三用户接口800是通过客户端200提供的。
在步骤S902当用户通过输入形成在第三用户接口800中的搜索部840请求检索相似文档时,则在步骤S903执行附件。
为此,多个程序存储在检索系统100中,并且存储的程序可限于能够执行HTML(htm,html)、MS-Office文件(doc,xls,ppt)、韩文word文件(hwp)以及Adobe Acrobat(pdf)的程序。
在本文中,检索式输入单元190只接收语素可分析文件。
当通过检索系统100执行附件时,输出单元180控制执行结果,使其不提供给客户端200。
也就是说,在从附件中提取关键词的过程中,输出单元180依赖于检索式输入单元190和关键词提取单元163,并在执行附件的同时防止根据将文件的执行的结果图像提供给用户。
接下来,关键词提取单元163提取关键词。在步骤S904,关键词提取单元163跳过除文本之外的格式的内容,例如jpg、jpeg、bmp等等,并且从语素可分析字符中提取关键词。
这里,如上所述,关键词提取单元163参照辞典DB 170来提取关键词,因此省略其详细描述。
对于通过上述过程提取的关键词,使用其出现频率为其加权,并且也可以提取通过相似词DB 150提取的关键词的相似词。
如上所述,基于存储在文档特征DB 130中的索引文件,使用关键词和相似词检索存储在文档DB 110中的相似文档。
根据本发明的实施例,用户能够通过各种路径输入检索式。
也就是说,用户能够复制记录在互联网或电子文档中的预定句子以及在图3所示的句子输入部310中输入句子,以检索与输入的句子相似的文档。
此外,用户能够从检索到的相似文档中选择特定文档,以检索与选择的文档相似的文档。
此外,用户能够附上文本文件,以检索与记录在所述文件中的文本相似的文档。
另外,为用户提供的用于上述检索的用户接口使得用户更便于进行文档检索。
对于本领域的技术人员来说显而易见的是,可对本发明进行各种修改和变化。因此,本发明应覆盖落入所附权利要求书及其等同方案范围内的本发明的修改和变化。

Claims (16)

1.一种检索文档的系统,所述系统包括:
文档数据库,其存储文档;
文档特征编写单元,其提取存储在所述文档数据库中的文档的属性信息,并且基于所述属性信息编写所述文档的索引;
检索式输入单元,其接收用户输入的检索式;
关键词提取单元,其从所述检索式中提取关键词;
加权单元,其使用所述索引对提取的关键词加权;
文档检索单元,其使用已加权的关键词检索相似文档;以及
输出单元,其将由所述文档检索单元检索到的相似文档显示给用户。
2.根据权利要求1所述的系统,其中所述文档特征编写单元从存储在所述文档数据库中的文档获得文本,以编写关于每个关键词的出现频率的索引信息。
3.根据权利要求1所述的系统,还包括:
文档特征数据库,其存储由所述文档特征编写单元编写的索引;以及
相似词提取单元,其从存储在所述文档特征数据库中的索引中提取每个文档的特征关键词,
其中,所述相似词提取单元确定包括所述关键词的评估值的特征矢量,所述评估值为每个文档中所述关键词的出现频率。
4.根据权利要求3所述的系统,其中所述相似词提取单元集合预定关键词A和B,并且
当所述关键词A和B中的任一关键词包含在由所述关键词提取单元提取的关键词中时,所述文档检索单元检索包括另一关键词的更相似文档。
5.根据权利要求4所述的系统,还包括相似词数据库,其存储由所述相似词提取单元集合的关键词,
其中,所述文档检索单元参照所述相似词数据库来检索所述相似文档。
6.根据权利要求1所述的系统,其中所述输出单元向与网络连接的客户端提供多种用户接口,并且
所述用户接口为用户通过各种路径输入检索式的环境,包括第一用户接口、第二用户接口和第三用户接口之一,其中在所述第一用户接口中以句子为单位输入检索式,在所述第二用户接口中将检索到的文档用作检索式,在所述第三用户接口中通过附上或上载文本文件输入检索式。
7.根据权利要求6所述的系统,其中当用户使用所述第三用户接口附上或上载预定文件时,所述检索式输入单元监测附上的或者上载的文件的格式,使得只接收指定格式的文件。
8.根据权利要1所述的系统,其中通过所述输出单元,将由所述加权单元对每个关键词加的权重提供给用户,并且
提供的关键词和加的权重是可修改的。
9.一种检索文档的方法,所述方法包括如下步骤:
通过检索式输入单元接收用户输入的检索式;
从所述检索式中提取关键词;
对每个关键词加权;以及
基于已加权的关键词检索相似文档,
其中,利用存储在文档数据库中的文档的特征信息的索引,对所述关键词加的权重反映每个文档中所述关键词的出现频率。
10.根据权利要求9所述的方法,在对每个关键词加权之前,还包括如下步骤:
从存储在所述文档数据库中的文档获得文本,以编写关于每个关键词的出现频率的索引信息;以及
利用每个文档中所述关键词的出现频率,确定包括每个关键词的评估值的特征矢量。
11.根据权利要求10所述的方法,其中将每个文档的关键词中具有预定或更高出现频率的关键词集合为相关术语,并且
在检索相似文档时检索包括所述相关术语的文档。
12.根据权利要求9所述的方法,其中在通过检索式输入单元接收用户输入的检索式之前,通过提供用户接口的输出单元,向用户提供第一用户接口、第二用户接口和第三用户接口之一,在所述第一用户接口中以句子为单位输入检索式,在所述第二用户接口中将检索到的文档用作检索式,在所述第三用户接口中通过附上或上载文本文件输入检索式。
13.根据权利要求12所述的方法,其中当用户使用所述第三用户接口附上或上载预定文件时,所述检索式输入单元监测附上的或者上载的文件的格式,使得只接收指定格式的文件。
14.一种向用户提供的用于文档检索的用户接口,用以通过各种路径输入检索式,其中可向用户提供两种或更多种所述用户接口,这些用户接口选自第一用户接口、第二用户接口和第三用户接口构成的集合,在所述第一用户接口中以句子为单位输入检索式,在所述第二用户接口中将检索到的文档用作检索式,在所述第三用户接口中通过附上或上载文本文件输入检索式。
15.根据权利要求14所述的用户接口,其中所述第一至第三用户接口包括检索式询问单元,用以确认/修改关于从输入的检索式提取的关键词和每个关键词的权重的信息。
16.根据权利要求14所述的用户接口,其中在所述第三用户接口上显示表示可附上或可上载语素可分析文件的信息。
CN2007100054355A 2006-04-13 2007-02-08 用于检索文档的系统、方法及用户接口 Expired - Fee Related CN101055580B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR1020060033663 2006-04-13
KR10-2006-0033658 2006-04-13
KR20060033658A KR100816912B1 (ko) 2006-04-13 2006-04-13 문서검색 시스템 및 그 방법
KR20060033663A KR100862440B1 (ko) 2006-04-13 2006-04-13 문서분석을 위한 사용자 인터페이스 시스템
KR1020060033658 2006-04-13
KR10-2006-0033663 2006-04-13

Publications (2)

Publication Number Publication Date
CN101055580A true CN101055580A (zh) 2007-10-17
CN101055580B CN101055580B (zh) 2011-10-05

Family

ID=38795417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100054355A Expired - Fee Related CN101055580B (zh) 2006-04-13 2007-02-08 用于检索文档的系统、方法及用户接口

Country Status (2)

Country Link
KR (1) KR100816912B1 (zh)
CN (1) CN101055580B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024027A (zh) * 2010-11-17 2011-04-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法
US8244711B2 (en) 2009-09-28 2012-08-14 Chin Lung Fong System, method and apparatus for information retrieval and data representation
CN103064840A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104170316A (zh) * 2012-01-05 2014-11-26 国际商业机器公司 社交网络环境中的面向目标的用户匹配
CN104182432A (zh) * 2013-05-28 2014-12-03 天津点康科技有限公司 基于人体生理参数检测结果的信息检索与发布系统及方法
CN105069157A (zh) * 2015-08-25 2015-11-18 长沙市麓智信息科技有限公司 基于检索式的专利检索系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106447300A (zh) * 2012-02-29 2017-02-22 Ubic股份有限公司 文档分类系统、文档分类方法及文档分类程序
CN107506498A (zh) * 2017-09-28 2017-12-22 合肥博力生产力促进中心有限公司 一种知识产权数据采集加工系统及方法
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN109325094A (zh) * 2018-09-18 2019-02-12 江苏润桐数据服务有限公司 一种专利检索自动去噪方法和装置
CN109522389A (zh) * 2018-11-07 2019-03-26 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN110955763A (zh) * 2019-11-15 2020-04-03 深圳供电局有限公司 一种基于审计风险库的数据搜索方法及系统
CN110955633A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 检索方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101263403B1 (ko) 2005-11-16 2013-05-10 정태우 입력한 단어의 우선 순위 설정에 따른 키워드 검색 장치,방법 및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로읽을 수 있는 기록매체
KR101224660B1 (ko) 2008-07-09 2013-01-21 고려대학교 산학협력단 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법
KR101145471B1 (ko) * 2009-05-15 2012-05-15 주식회사 엘지유플러스 모바일 쇼핑몰 서비스 제공 시스템 및 방법
KR100963885B1 (ko) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
KR101850886B1 (ko) 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
KR101456599B1 (ko) * 2013-05-07 2014-11-03 한국원자력 통제기술원 전략물자 판정 시스템 및 그 방법
CN117235242B (zh) * 2023-11-15 2024-02-06 浙江力石科技股份有限公司 一种基于智能问答数据库的热点信息筛选方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
KR20040048548A (ko) * 2002-12-03 2004-06-10 김상수 지능형 데이터베이스 및 검색 편집 프로그램을 통한사용자 맞춤 검색 방법 및 시스템
CN1517912A (zh) * 2003-01-16 2004-08-04 财团法人资讯工业策进会 专利文献资料检索的方法
WO2005033972A1 (ja) * 2003-09-30 2005-04-14 Intellectual Property Bank Corp. 類似率算出装置並びに類似率算出プログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244711B2 (en) 2009-09-28 2012-08-14 Chin Lung Fong System, method and apparatus for information retrieval and data representation
CN102024027B (zh) * 2010-11-17 2013-03-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法
CN102024027A (zh) * 2010-11-17 2011-04-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法
CN103064840A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN104170316A (zh) * 2012-01-05 2014-11-26 国际商业机器公司 社交网络环境中的面向目标的用户匹配
US10268653B2 (en) 2012-01-05 2019-04-23 International Business Machines Corporation Goal-oriented user matching among social networking environments
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统
CN106447300A (zh) * 2012-02-29 2017-02-22 Ubic股份有限公司 文档分类系统、文档分类方法及文档分类程序
CN104182432A (zh) * 2013-05-28 2014-12-03 天津点康科技有限公司 基于人体生理参数检测结果的信息检索与发布系统及方法
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN105069157A (zh) * 2015-08-25 2015-11-18 长沙市麓智信息科技有限公司 基于检索式的专利检索系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107506498A (zh) * 2017-09-28 2017-12-22 合肥博力生产力促进中心有限公司 一种知识产权数据采集加工系统及方法
CN109325094A (zh) * 2018-09-18 2019-02-12 江苏润桐数据服务有限公司 一种专利检索自动去噪方法和装置
CN110955633A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 检索方法及装置
CN109522389A (zh) * 2018-11-07 2019-03-26 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN109522389B (zh) * 2018-11-07 2020-09-01 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN110955763A (zh) * 2019-11-15 2020-04-03 深圳供电局有限公司 一种基于审计风险库的数据搜索方法及系统

Also Published As

Publication number Publication date
CN101055580B (zh) 2011-10-05
KR100816912B1 (ko) 2008-03-26
KR20070102033A (ko) 2007-10-18

Similar Documents

Publication Publication Date Title
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
JP7032397B2 (ja) 複数のデータ表現間の類似性を識別するための方法およびシステム
JP6832916B2 (ja) フィルタリング基準と一組のストリーム文書内のデータ項目との間の類似度を特定する方法およびシステム
JP6646650B2 (ja) データ項目をスパース分散表現にマッピングする方法およびシステム
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN101055585A (zh) 文档聚类系统和方法
US10599690B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
CN1871603A (zh) 处理查询的系统和方法
US20100036828A1 (en) Content analysis simulator for improving site findability in information retrieval systems
CN1882943A (zh) 使用超单元的搜索处理的系统和方法
CN1653448A (zh) 搜索数据源的系统和方法
CN1959674A (zh) 网络搜索方法、网络搜索设备和用户终端
CN101044481A (zh) 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品
WO2005074478A2 (en) System and method of context-specific searching in an electronic database
CN1750002A (zh) 提供搜索结果的方法
CN1910581A (zh) 用于按类别提供关键字输入频率信息的搜索系统及其方法
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
CN1744087A (zh) 搜索文档的文档处理装置及其控制方法
JP2007219722A (ja) 文書検索サーバおよび文書検索方法
US7765204B2 (en) Method of finding candidate sub-queries from longer queries
CN1825321A (zh) 词典类数据的检索方法、保存方法及检索系统
US20140280174A1 (en) Interactive user-controlled search direction for retrieved information in an information search system
US20050038805A1 (en) Knowledge Discovery Appartus and Method
JP5194731B2 (ja) 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム
US20110119250A1 (en) Forward Progress Search Platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111005

Termination date: 20150208

EXPY Termination of patent right or utility model