CN101276372A - 信息搜索装置及方法 - Google Patents

信息搜索装置及方法 Download PDF

Info

Publication number
CN101276372A
CN101276372A CNA2008100874895A CN200810087489A CN101276372A CN 101276372 A CN101276372 A CN 101276372A CN A2008100874895 A CNA2008100874895 A CN A2008100874895A CN 200810087489 A CN200810087489 A CN 200810087489A CN 101276372 A CN101276372 A CN 101276372A
Authority
CN
China
Prior art keywords
character string
unit
document
attribute
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100874895A
Other languages
English (en)
Inventor
铃木优
石谷康人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101276372A publication Critical patent/CN101276372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息搜索装置,在字符串累积单元中与第二字符串相对应地存储第一字符串,并根据其属性对每个第二字符串进行分类。该信息搜索装置进一步在存储单元中与指定信息相对应地存储属性,其中所述指定信息中的每个是根据对应的第一字符串和包含文档中的至少一个指定的。该信息搜索装置根据第一字符串和包含第一字符串的文档中的至少一个获取指定信息,并从存储单元提取多个属性。然后该信息搜索装置从字符串累积单元提取一个第二字符串。

Description

信息搜索装置及方法
技术领域
本发明涉及一种进行文档搜索的信息搜索装置及方法。
背景技术
近年来,由于计算机技术的发展以及计算机中使用的记录介质容量的增长,已经提出了许多用于在记录介质中进行搜索的技术。例如,利用用户使用的终端设备进行日常搜索的技术包括称为桌面搜索技术的技术。
通过使用桌面搜索技术,可以从记录在终端设备(如个人计算机(PC))内的存储介质(如硬盘)上的一组文档中搜索特定文档。当进行文档搜索时,用户不仅能够指定文档中所包含的关键字作为搜索条件,而且可以指定诸如文档的文件格式(例如,e-mail、文字处理器、电子表格、演讲稿等等)、文档创建日期、文档更新日期、文档创建者、文档作为e-mail消息发送/接收的日期、以及e-mail消息的发送者/接收者来作为搜索条件。通过使用桌面搜索技术,用户能够搜索终端设备内的所需文档。
当进行桌面搜索时,如果作为要进行搜索的搜索目标的存储介质中存储有大量文档,则用户需要指定适当的关键字和/或适当的属性信息作为搜索条件。在用户未能指定适当的关键字和/或适当的属性信息的情况下,将输出大量文档作为搜索结果。这种情况有时使得难以找到所需文档。
此外,对于搜索结果的输出,桌面搜索不能使用web搜索所使用的技术,利用该技术,根据与其它文档的链接关系,具有较高可靠性等级的文档以较高排名输出(例如,搜索引擎所用的网页排名(page rank)算法)。因此,在桌面搜索中,用户所需文档不一定在搜索结果中以较高排名输出。因此,用户需要从输出的搜索结果中的多个文档中查找所需文档。在这种情况下,用户需要花费大量时间浏览搜索结果。
为了避免这一问题,用户需要指定适当的关键字和/或适当的属性作为搜索条件。因此,指定搜索条件需要花费大量精力和时间。此外,为了用户提出并指定适当的搜索条件,用户需要详细知道他/她能够使用的属性信息。因此,在用户不熟悉搜索的情况下,用户指定搜索条件甚至花费更多精力和时间。
另外,已经提出了一种基于所指定单词的内容来确定用户意图的技术。看上去可以通过使用基于所指定单词的内容所确定的用户意图来指定更适当的搜索条件。例如,在JP-A 2006-65754(KOKAI)中公开了基于所指定单词的内容确定用户目的的技术的一个实例。
根据JP-A 2006-65754(KOKAI)中所公开的技术,提供了一个关于单词的词典。通过使用该词典,属性信息被附加到包含在文档中的每个单词上,该属性信息代表对应单词的含义。当用户选择了多个单词中的一个时,可以基于附加到该单词的属性信息来分析用户所指定的单词的内容。
但是,JP-A 2006-65754(KOKAI)中所公开的技术用于分析用户所采取的动作的目的,而非用于指定用于进行文档搜索的搜索条件。因此,难以将这一技术应用于指定搜索条件。
发明内容
根据本发明的一个方面,一种信息搜索装置,包括:文档累积单元,用于累积多个文档;字符串累积单元,用于累积多个第一字符串、多个第二字符串以及多个属性,并将所述多个第一字符串和所述多个第二字符串相互对应,其中所述多个第一字符串包含在所述多个文档的任意一个中并且用作搜索关键字,所述多个第二字符串包含在包括所述多个第一字符串的同一个文档中,所述属性是通过提取所述多个第二字符串来获取的;存储单元,用于相互对应地初步存储所述多个属性和指定信息,所述指定信息是从所述多个第一字符串和所述文档的至少一个中指定的;输入接收单元,用于接收第一字符串的输入;获取单元,用于从所述输入接收单元接收到的作为输入的所述第一字符串和包含所述第一字符串的文档的至少一个中获取指定信息;属性提取单元,用于从条件存储单元中提取与所述获取单元所获取的所述指定信息相对应的一个属性;字符串提取单元,用于从所述字符串累积单元中提取与所述输入接收单元接收到的作为输入的所述第一字符串相对应的并且所述属性提取单元提取了属性的第二字符串;以及搜索单元,用于从所述文档累积单元中搜索包含所述输入接收单元接收到的作为输入的所述第一字符串和所述字符串提取单元所提取的所述第二字符串这两者的一个文档。
根据本发明的另一方面,一种信息搜索方法,包括:在文档累积单元中累积多个文档;在字符串累积单元中累积多个第一字符串、多个第二字符串以及多个属性,并将所述多个第一字符串和所述多个第二字符串相互对应,其中所述多个第一字符串包含在所述多个文档的任意一个中并且用作搜索关键字,所述多个第二字符串包含在包括所述多个第一字符串的同一个文档中,所述属性是通过提取所述多个第二字符串来获取的;在存储单元中相互对应地初步存储所述多个属性和指定信息,所述指定信息是从所述多个第一字符串和所述文档的至少一个中指定的;接收第一字符串的输入;从在所述接收步骤中作为输入的所述第一字符串和包含所述第一字符串的文档的至少一个中获取指定信息;从所述存储单元中提取与所述获取步骤中所获取的所述指定信息相对应的一个属性;从所述字符串累积单元中提取与所述接收步骤中接收到的作为输入的所述第一字符串相对应的并且在所述提取步骤中提取了属性的第二字符串;以及从所述文档累积单元中搜索包含所述接收步骤中接收到的作为输入的所述第一字符串和所述字符串提取步骤中所提取的所述第二字符串这两者的一个文档。
附图说明
图1是根据本发明第一实施例的桌面搜索装置的方框图;
图2是用于解释存储在共现单词累积单元中的共现关系保存表的结构的图;
图3是用于解释存储在条件存储单元中的通用搜索条件保存表的结构的图;
图4是用于解释语义属性对应表的结构的图;
图5是用于解释历史保存表的结构的图;
图6是桌面搜索装置所执行的搜索处理中的过程的流程图;
图7是用于说明文档显示单元所显示的文档的实例的图;
图8是用于解释利用指定设备从文档显示单元所显示的文档中选择关键字的情况的图;
图9是用于说明单词显示单元所显示的单词的实例的图;
图10是用于说明搜索结果显示单元所显示的属性类型的实例的图;
图11是用于说明在搜索单元只检测到两个文档的情况下搜索结果显示单元显示文档名的实例的图;
图12是用于说明在从用户接收到文档选择的情况下搜索结果显示单元所显示的文档的实例的图;
图13是用于说明单词显示单元所提取的单词被显示并被根据其语义属性进行分类的实例的图;
图14是用于说明搜索结果显示单元所显示的属性类型的实例的图;
图15是用于说明搜索结果显示单元所显示的文档名的实例的图;
图16是特征单词提取单元从文档中提取特征单词所执行的处理中的过程的流程图;
图17是桌面搜索装置生成通用搜索条件所执行的处理中的过程的流程图;
图18是用于说明信息生成单元新生成的通用搜索条件的实例的图;
图19是用于说明用于修正信息生成单元所生成的通用搜索条件的用户界面的实例的图;
图20是用于说明在用户执行了修正操作后的状态下所显示的用户界面的实例的图;
图21是用于说明在用户已选择了关键字的情况下,呈现基于该关键字提取的通用搜索标准的名称的实例的图;
图22是用于说明在从用户接收到对“搜索提案材料”的方法的选择的情况下显示窗口的实例的图;
图23是用于说明为了接收关键字输入而显示的窗口的实例的图;
图24是用于说明在输入了关键字后进行搜索的情况下,与输入的关键字共现的单词被搜索结果显示单元显示,并被根据其属性类型进行分类的实例的图;以及
图25是用于说明桌面搜索装置的硬件配置的图。
具体实施方式
此后将参考附图,详细解释信息搜索装置和信息搜索方法的示例性实施例。在下述示例性实施例中,信息搜索装置应用于桌面搜索装置。但是,信息搜索装置也可以应用于除桌面搜索装置外的各种其它装置。
如图1中所示,根据本发明第一实施例的桌面搜索装置100包括:文档累积单元101;共现单词累积单元102;条件存储单元103;历史存储单元104;语义属性累积单元105;文档显示单元106;输入接收单元107;特征单词提取单元108;语义属性获取单元109;条件提取单元110;单词提取单元111;单词显示单元112;单词选择接收单元113;搜索单元114;搜索结果显示单元115;信息生成单元116;文档输入处理单元117;语义属性分析单元118;共现单词注册单元119;文档注册单元120;文档属性提取单元121;以及搜索条件注册单元122。
桌面搜索装置100是可用来从诸如文字处理器或web浏览器的应用程序所显示的文档中接收用户选择的关键字并在文档累积单元101中搜索与所接收的关键字相关的文档的装置。
文档累积单元101中累积有作为要进行搜索的搜索目标的文档以及搜索索引信息。搜索索引信息的实例包括:所累积的文档中包括的词素、每个文档的格式、每个文档的创建日期以及每个文档的创建者。在e-mail消息作为文档累积在文档累积单元101中的情况下,可以使用以下信息作为搜索索引信息:e-mail消息发送/接收的日期、e-mail消息的发送者/接收者以及e-mail消息是否附有数据。
可以使用公知的桌面搜索技术来实现文档累积单元101。因此,省略对其的进一步解释。
共现单词累积单元102中累积有与文档累积单元101中所累积的文档所包含的任意单词具有共现关系的单词,同时保持共现单词与共现单词所代表的语义属性相对应。
如图2中所示,共现关系保存表中存储有与其共现单词相对应的单词,同时根据其语义属性对共现单词进行分类,其中每个共现单词与所述单词中的一个对应单词具有共现关系。当搜索文档时,存储在共现关系保存表中的任意单词和共现单词可以作为搜索关键字。
此外,共现关系保存表中存储的由一个单词和与该单词具有共现关系的另一个单词组成的每个组合包含在文档累积单元101中存储的同一文档中。但是,共现关系保存表的形式不限于这一实例。共现关系保存表可以具有任意其它格式,只要共现关系保存表中存储有出现在同一文档中的单词之间的共现关系并且使得可以搜索具有共现关系的单词。进一步地,作为一种实现共现关系保存表的方法,可以使用例如关系数据库管理系统(RDBMS)。
条件存储单元103中存储有通用搜索条件保存表。通用搜索条件保存表中存储有根据用户所选关键字和包含所选关键字的文档中的一个所指定的指定信息,以及对应于该指定信息的通用搜索条件。通用搜索条件是用于缩小作为搜索目标的文档的条件,其是通过用户之前已经进行的搜索中所使用的通用搜索标准来获得的。通过使用这种通用搜索条件进行搜索,用户能够进行所需搜索而不需指定复杂的搜索条件。通用搜索条件是根据存储历史存储单元104中的历史信息生成的,将在其后对其进行解释。以下将详细解释生成通用搜索条件的方法。
通用搜索条件包括用于从共现关系保存表中提取作为附加搜索关键字的单词的语义属性,以及用于缩小作为搜索目标的文档的缩小条件。语义属性表示通过对作为搜索关键字的单词进行抽象所获取的属性。例如,当作为搜索关键字的单词是“小野”或“中村”时,语义属性是“名字”。
根据第一实施例,作为用于缩小文档的缩小条件,使用“创建者或发送者/接收者”或者“创建或发送/接收日期”。根据第一实施例,指定信息是从包含关键字的文档中提取的“关键字语义属性”或“特征单词”。还可以使用除了关键字语义属性和特征单词之外的其它信息作为指定信息。
如图3中所示,通用搜索条件保存表中存储有“关键字语义属性”、“特征单词”、“附加关键字语义属性”、“搜索过程中缩小处理所用属性信息”、“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”,并保持这些信息相互对应。因为通用搜索条件保存表具有上述表结构,所以可以根据从包含关键字语义属性和关键字的文档中提取的特征单词,来识别附加关键字语义属性和搜索过程中用于缩小文档所使用的缩小条件。存储一个或多个以下信息作为“搜索过程中缩小处理所用属性信息”:“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”。换句话说,通过参考“搜索过程中缩小处理所用属性信息”,可以将以下信息之一识别为用作缩小条件的域:“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”。
用于存储通用搜索条件的方法并不局限于图3中所示的通用搜索条件保存表。例如,另一种可接受的安排是:将关键字或关键字中包含的部分字符串存储为可用于搜索的域。当使用与这一实例中不同的表结构时,条件提取单元110(稍后解释)提取通用搜索条件所用的方法也应当根据表结构进行必要调整。例如,在通用搜索条件保存表中存储有多个关键字或包含在对应关键字中的部分字符串的情况下,一种可接受的安排是:条件提取单元110通过仍使用关键字作为搜索关键字来提取通用搜索条件。
语义属性累积单元105中存储有用于根据文档中包含的单词来识别语义属性的语义属性对应表。如图4中所示,语义属性对应表中存储有用于确定字符串的“模式”和“语义属性”,并保持其相互对应。例如,在图4中所示的语义属性对应表的记录401中,模式“([^平假名A到N]+)CO.,LTD.”(注:A和N是日语平假名和片假名字母表的第一个和最后一个字母)对应于语义属性“公司名”。通过参考语义属性对应表,可以获取与字符串对应的语义属性。
此外,在图4中所示的实例中,通过使用类似实用摘录和报告语言(Practical Extraction and Report Language,Perl)中所使用的常规表达来描述每个模式。但是,应当注意,类似“$公司名$”的模式可被与语义属性(例如,“公司名”)相对应的任意模式所代替,其中该语义属性对应于两个“$”符号之间的字符串。稍后将解释通过使用语义属性对应表所执行的处理。如此处所述,在语义属性对应表中预先指定了可通过语义属性获取单元109(稍后解释)获取的语义属性类型。语义属性的实例包括:“人名”、“公司名”、“组织名”、“设施名”以及“日期”。
历史存储单元104中存储有历史保存表,其示出了直到根据用户所选关键字检测到文档的时间为止,用户已选择过的信息以及缩小检测到的文档的处理中所用的信息,来作为历史。
如图5中所示,历史保存表中存储有“关键字”、“关键字语义属性”、“附加关键字语义属性”、“所选属性信息”、“文件格式”、“创建者或发送者/接收者”、“创建或发送/接收日期”、以及“原始文档中的特征单词”,并保持这些信息相互对应。稍后将解释这些域中的每一个。
文档显示单元106为用户显示任意文档。文档显示单元106用于显示文档的手段可以是桌面搜索装置100专用的手段。或者,可以使用诸如文字处理器或web浏览器的应用程序。
特征单词提取单元108从文档显示单元106显示的文档中提取形成特征的字符串(下文中,“特征单词”)。可以使用任何方法作为实现特征单词提取单元108提取特征单词所执行的处理的方法。例如,特征单词提取单元108可以使用诸如倒排文档频率(Inverted Document Frequency,IDF)的公知特征量来提取特征单词。
输入接收单元107接收用户从文档显示单元106显示的文档中选择的单词的输入作为关键字。一种可接受的安排是:输入接收单元107接收用户使用键盘输入的任意单词作为关键字。除第一实施例外,另一种可接受的安排是:输入接收单元107呈现用于接收关键字输入的对话框,以便接收用户通过该对话框输入的关键字。
语义属性获取单元109从语义属性累积单元105中获取输入接收单元107作为输入接收到的关键字的语义属性。
在作为输入所接收到的关键字的字符串与图4中所示的语义属性对应表中所存储的模式标准中的一个相匹配的情况下,语义属性获取单元109获取对应于该模式的语义属性来作为关键字的语义属性。获取语义属性的方法不限于上述实例;可以使用任意其它方法。
条件提取单元110通过使用以下各项中的一个或两个作为搜索关键字,从条件存储单元103中提取通用搜索条件:(a)特征单词提取单元108提取的特征单词以及(b)语义属性获取单元109所获取的关键字的语义属性。换句话说,条件提取单元110提取作为附加关键字的单词的语义属性以及文档搜索过程中所使用的缩小条件,作为通用搜索条件。
条件提取单元110所提取的通用搜索条件将用于下述情况中的一种或两种:(a)当单词提取单元111(稍后解释)搜索与关键字共现的单词时以及(b)当搜索单元114(稍后解释)缩小所检测到的文档时。
在条件提取单元110已经提取了多个通用搜索标准的情况下,一种可接受的安排是:向用户呈现多个通用搜索标准,以便由用户选择要使用的最佳通用搜索条件。
另一种可接受的安排是:条件提取单元110询问用户已提取的通用搜索条件是否应当用于文档搜索等。在这种情况下,当用户同意使用已提取的通用搜索条件时,该通用搜索条件将用于文档搜索等。
单词提取单元111根据关键字和条件提取单元110所提取的通用搜索条件,从共现单词累积单元102中提取与该关键字具有共现关系的单词。例如,在条件提取单元110所提取的通用搜索条件中“附加关键字语义属性”是“设施名”的情况下,单词提取单元111从与共现单词累积单元102内的关键字具有共现关系并与该关键字对应存储的多个单词中提取存储在域“设施名”中的单词,作为搜索中要使用的单词。
单词显示单元112显示单词提取单元111所提取的单词。单词选择接收单元113从用户接收从单词显示单元112显示的单词中选择的、要用于搜索的单词。随后,搜索单元114(稍后解释)在搜索中使用用户所选单词作为附加关键字。利用这种安排,在单词提取单元111提取了多个单词的情况下,可以从用户接收从多个单词中选择的、用于搜索的单词。
搜索单元114在文档累积单元101中搜索一个或多个文档,所述一个或多个文档中的每一个包含输入到输入接收单元107的关键字以及单词选择接收单元113接收到的所选择的附加关键字,并且所述一个或多个文档中的每一个满足已提取的通用搜索条件。例如,在已提取的通用搜索条件是图3中所示的通用搜索条件保存表内的通用搜索条件,其中在域“所选属性信息”中指定参数“文件格式”,并且在域“文件格式”中指定参数“演讲稿”的情况下,搜索单元114只搜索文件格式是演讲稿的文件。
在没有提取到通用搜索条件的情况下,搜索单元114在文档累积单元101中搜索包含关键字和附加关键字的一个或多个文档。
对于搜索单元114所执行的搜索中找到的文档组中的每个文档,文档属性提取单元121提取文档的属性信息。根据第一实施例,对于已提取的每个文档,文档属性提取单元121根据文档累积单元101中存储的搜索索引信息,提取诸如文档格式、文档创建日期、文档创建者、文档以e-mail消息发送/接收的日期、e-mail消息的发送者/接收者、e-mail消息是否附加有文档之类的文档属性信息。只有当搜索单元114检测到文档数量大于预定数量时,文档属性提取单元121才提取文档的属性信息。当检测到的文档数量小于预定数量时,文档属性提取单元121不执行属性提取处理。预定数量可以任意选择;但是,根据第一实施例该预定数量是“7”。
搜索结果显示单元115显示所检测到的作为搜索单元114进行的搜索的结果的文档。搜索结果显示单元115可以显示所检测到的文档本身;或者,搜索结果显示单元115可以只显示所检测到的文档名。在只显示所检测到的文档名的情况下,从用户接收到对文档名的选择后,搜索结果显示单元115显示所选文档。
搜索条件注册单元122在历史存储单元104中存储的历史保存表中注册示出以下元素的记录,并保持其相互对应:对从用户接收到的关键字的选择;关键字语义属性;附加关键字语义属性;用于缩小搜索目标并且由用户选择的条件(例如,文档的属性信息、文件格式、创建者、发送者/接收者、创建日期、以及发送/接收日期);以及从文档中提取的特征单词。
信息生成单元116包括历史判断单元123,并执行用于生成通用搜索条件的处理,并且将该通用搜索条件注册到条件存储单元103中。每次将新记录注册到历史保存表中时,历史判断单元123判断历史保存表是否包括预定数量或更大数量的、包含有与预定域内的新记录相同的值的记录。
在历史判断单元123判断有预定数量记录或更多记录的情况下,提取条件生成单元116概括这些记录中所存储的历史信息并生成通用搜索条件。提取条件生成单元116将所生成的通用搜索条件注册到条件存储单元103中。稍后将详细解释这一处理中的过程。
文档输入处理单元117对要存储在桌面搜索装置100所包括的文档累积单元101中的文档执行输入处理。文档输入处理单元117执行输入处理的文档可以是诸如文字处理器生成的文档、e-mail消息、演讲稿文档、电子表格文档以及因特网内容之类的任意格式。
语义属性分析单元118分析输入的文档并提取包含在输入文档中的特征单词,以便确定语义属性是什么。用于提取特征单词的方法和用于分析语义属性的方法与上述方法相同。因此,将省略其解释。语义属性分析单元118所执行的确定处理中使用的语义属性的类型是预先确定的。根据第一实施例,语义属性分析单元118通过从以下各项中选择一个来确定语义属性:“人名”、“公司名”、“组织名”、“设施名”、以及“日期”。
共现单词注册单元119根据特征单词以及语义属性分析单元118所分析的特征单词的语义属性,来分析共现关系。随后,共现单词注册单元119将已经分析的并且彼此具有共现关系的特征单词注册到共现单词累积单元102中,并保持其彼此对应。例如,为了分析共现关系,可以使用任意方法,不管其是否公知。
文档注册单元120将已输入的文档注册到文档累积单元101。当注册这些文档时,文档注册单元120提取每个输入文档中所包括的词素、每个输入文档的格式、每个文档的创建日期(如果该文档是e-mail消息,则是发送/接收日期)、每个文档的创建者(如果该文档是e-mail消息,则是发送者/接收者),以及e-mail消息是否附加有文档。然后文档注册单元120将所提取的信息添加到搜索索引并执行更新搜索索引的处理。
接下来将参考图6解释图1中所示的桌面搜索装置100所执行的搜索处理的过程。
首先,文档显示单元106向用户显示任意文档(步骤S601)。如图7中所示,在处理过程的以下描述中,将解释所显示的文档是日程表信息的实例。
返回图6的描述,在下一步中,特征单词提取单元108从文档显示单元106显示的文档中提取特征单词(步骤S602)。在本实例的处理过程中,假设特征单词提取单元108从文档中提取“日程表”、“访问”和“计划”作为特征单词。稍后将详细解释特征单词提取单元108执行的处理的过程。
接下来,输入接收单元107接收用户使用指示设备等从文档显示单元106显示的文档中选择的关键字(步骤S603)。如图8中所示,输入接收单元107执行用于输入在使用指示设备所选择的区域中所包含的字符串“株式会社东西保险”作为关键字的处理。
此后,语义属性获取单元109从语义属性累积单元105中获取输入接收单元107作为输入所接收到的关键字语义属性(步骤S604)。例如,在字符串是“株式会社东西保险”的情况下,语义属性获取单元109获取“公司名”作为语义属性。
随后,条件提取单元110使用特征单词提取单元108提取的特征单词和语义属性获取单元109获取的关键字语义属性作为搜索关键字,从条件存储单元103中提取通用搜索条件(步骤S605)。更具体而言,条件提取单元110使用关键字语义属性“公司名”以及三个特征单词“日程表”、“访问”或“计划”中的一个,从条件存储单元103中的通用搜索条件保存表中提取通用搜索条件。在本实例的处理过程中,条件提取单元110使用语义属性“公司名”和特征单词“日程表”作为搜索关键字,从图3中所示的通用搜索条件保存表中提取记录301。
换句话说,在本实例的处理过程中,因为语义属性获取单元109获取的关键字语义属性“公司名”与记录301中“关键字语义属性”域的值相匹配,并且特征单词提取单元108提取的特征单词中的一个,即“日程表”与记录301中“特征单词”域的值相匹配,所以条件提取单元110提取通用搜索条件的记录301。
当条件提取单元110将关键字语义属性和特征单词与记录中的值进行比较时,匹配可以是精确匹配或部分匹配。除第一实施例外,另一种可接受的安排是:条件提取单元110按照关键字语义属性和特征单词与记录中的值的匹配程度的顺序,执行对所提取的通用搜索标准进行排名的处理。
此后,条件提取单元110判断是否已经提取了通用搜索条件(步骤S606)。
在条件提取单元110已提取了一个或多个通用搜索标准的情况下(步骤S606:是),单词提取单元111提取具有在已提取的通用搜索标准内的“附加关键字语义属性”下指示的语义属性并在共现单词累积单元102中与该关键字对应存储的单词(步骤S607)。
例如,在图2中所示的共现单词累积单元102中,与输入的关键字“株式会社东西保险”对应存储的单词如下:用于语义属性“人名”的“小野”和“中村”;用于语义属性“地名”的“千代田”和“川崎”;用于语义属性“公司名”的“南北电机”;用于语义属性“组织名”的“研发中心”;用于语义属性“设施名”的“东西保险川崎分部”和“东西总部大厦”;以及用于语义属性“日期”的“2006年7月20日”和“2006年8月22日”。在本实例的处理过程中,将从这些单词中选择要在文档搜索中使用的附加关键字。
在使用图3中所示的记录301作为通用搜索条件的情况下,因为“附加关键字语义属性”是“设施名”,所以单词提取单元111从上面列出的那组单词中获取语义属性是“设施名”的单词“东西保险川崎分部”和“东西总部大厦”。
此后,在单词提取单元111已提取了多个单词的情况下,单词显示单元112显示所述多个单词(步骤S608)。另一方面,在单词提取单元111只提取一个单词的情况下,一种可接受的安排是:使用所提取的单词作为附加关键字,从而省略了步骤S608显示单词的处理和步骤S609接收对单词的选择的处理。
如图9中所示,单词显示单元112在窗口901中呈现单词提取单元111所提取的多个单词。如此处所述,一种可接受的安排是:单词显示单元112将所述多个单词呈现给用户,从而提示用户选择所述多个单词中的一个。
此后,单词选择接收单元113接收用户从单词显示单元112显示的多个单词中选择的一个单词(步骤S609)。在本实例的处理过程中,假设用户选择“东西保险川崎分部”作为附加关键字。
搜索单元114根据关键字、附加关键字以及通用搜索条件在文档累积单元101中进行搜索(步骤S610)。在使用图3中所示的记录301作为通用搜索条件的情况下,因为“搜索过程中缩小处理所用属性信息”是“文件格式”,并且“文件格式”是“演讲稿”,所以搜索单元114在文档累积单元101中搜索包含关键字“株式会社东西保险”、附加关键字“东西保险川崎分部”,并且文件格式是“演讲稿”的文档。用于搜索文档的方法使用公知的桌面搜索技术等来实现。因此,将省略其解释。
随后,在搜索单元114检测到“7”个或更多文档的情况下(其中“7”是预定数量),文档属性提取单元121从每个所检测到的文档中提取代表该文档的属性信息(步骤S611)。在本实例的处理过程中,文档属性提取单元121提取文件格式、文件创建日期、文件创建者、文件作为e-mail消息发送/接收的日期、e-mail消息的发送者/接收者作为属性信息。在所检测到的文档数量小于“7”的情况下,文档属性提取单元121不执行这一提取处理,而搜索结果显示单元115只显示检测到的文件的名称。
此后,搜索结果显示单元115根据属性类型将文档属性提取单元121所提取的属性信息进行分类并显示这些属性类型(步骤S612)。如图10中所示,搜索结果显示单元115为每类属性显示多个值。(例如,在属性类型是“创建或发送日期”的情况下,搜索结果显示单元115显示诸如“少于一周前”、“少于一月前”以及“一月前或更早”之类的值。)在图10所示的实例中,因为文件格式被通用搜索条件缩小为演讲稿,所以呈现除文件格式外的属性信息。
另外,在属性信息已经被文档属性提取单元121提取的情况下,如果文档中一致的属性信息的匹配率低于预定级别,则搜索结果显示单元115不必显示该属性信息。
此外,如图10中所示,搜索结果显示单元115显示文件创建日期和e-mail消息发送/接收日期,还显示文件创建者和e-mail消息发送者/接收者。此外,图10中,“创建或发送/接收日期”呈现为诸如“少于一周前”、“少于一月前”以及“一月前或更早”的时间段;但是,可以通过增加诸如“少于三月前”以及“少于6月前”之类的更多的时间段来呈现日期。进一步可选的,可以通过使用特定日期和时间,例如“2006年7月20日3:32p.m.”来呈现日期。
图10中,假设用户已从搜索结果显示单元115显示的属性信息中选择了“创建或发送/接收日期”是“少于一月前”的属性信息。在这种情况下,搜索结果显示单元115进一步显示与用户所选择的属性信息(即,创建或发送/接收日期是少于一月前)相匹配的文档:“EMS系统提案.ppt”和“工作流系统提案.ppt”。从而,用户能够进一步选择所述多个文档之一,例如“EMS系统提案.ppt”,作为他/她所需的文件。
在搜索单元114只检测到两个文档的情况下,不必根据文档的属性信息对其进行分类。因此,如图11中所示,搜索结果显示单元115只显示文档名,而不显示属性信息类型。因此,可以从用户接收对要显示的文档中的一个的选择。
随后,搜索结果显示单元115显示用户已经选择并作为选择接收的文档(步骤S613)。如图12中所示,可以看到,搜索结果显示单元115作为搜索结果所显示的文档包含关键字“株式会社东西保险”和附加关键字“东西保险川崎分部”。
另一方面,在条件提取单元110未提取通用搜索条件的情况下(步骤S606:否),单词提取单元111提取在共现单词累积单元102内对应于关键字存储的所有单词(步骤S614)。作为附加信息,不仅在未提取通用搜索条件的情况下,而且在用户已经确定他/她不使用已提取的通用搜索条件的情况下,都将执行步骤S614及其后的处理。
此后,单词显示单元112显示单词提取单元111所提取的单词,并根据其语义属性对所提取的单词进行分类(步骤S615)。如图13中所示,单词显示单元112显示与关键字“株式会社东西保险”相对应的单词,并根据诸如“地名”、“设施名”、“人名”、“组织名”、以及“日期”之类的语义属性对单词进行分类。
随后,单词选择接收单元113接收用户从单词显示单元112显示的多个单词中选择的语义属性和单词(步骤S616)。执行上述处理的原因是因为,在未检测到通用搜索条件的情况下,不能使用附加关键字或通用搜索条件来缩小文档。通过执行上述处理,在显示了与关键字共现的所有单词后从用户接收单词选择,从而可以使用接收到的所选单词作为附加关键字来搜索文档。因此,可以容易地检测到用户所需文档。
在图13中所示的实例中,假设单词选择接收单元113接收到指示已经选择了语义属性中的一种“设施名”以及作为设施名中的一种列出的“东西保险川崎分部”的输入。所接收到的作为选择的语义属性将被存储在历史保存表内的“所选属性信息”域中。
搜索单元114根据关键字和附加关键字在文档累积单元101中进行搜索(步骤S617)。在本实例的处理过程中,关键字是“株式会社东西保险”,附加关键字是“东西保险川崎分部”。此后,文档属性提取单元121从搜索单元114检测到的文档中提取属性信息(步骤S618)。
随后,搜索结果显示单元115根据属性类型对文档属性提取单元121所提取的属性信息进行分类,并显示这些属性类型和每个属性的值(步骤S619)。如图14中所示,搜索结果显示单元115使用树形结构显示每个属性类型的多个值。在图14中所示的实例中,假设用户从搜索结果显示单元115所显示的属性和每个属性值中选择“文件格式”作为属性并选择“演讲稿”作为属性值。
当用户选择一个属性时,搜索结果显示单元115显示具有所选属性的一个或多个文档名(步骤S620)。如图15中所示,根据用户的选择,多个文档被缩小到文件格式是演讲稿的那些文档。因此,搜索结果显示单元115显示“EMS系统提案.ppt”和“工作流系统提案.ppt”作为文档名。此后,当选择了文档名中的一个时,搜索结果显示单元115显示该文档,如图12中所示。
随后,搜索条件注册单元122在历史存储单元104中存储用户所选的关键字和附加关键字,以及附加关键字语义属性和为选择文档所选的属性,并保持其相互对应(步骤S621)。因为这些信息注册在历史存储单元104中,所以可以生成通用搜索标准。
搜索条件注册单元122将上述信息注册到历史存储单元104中作为历史信息。将参考图5解释所注册的历史信息。在图5中所示的历史保存表中,输入到输入接收单元107的关键字存储到“关键字”域中。语义属性获取单元109针对输入到输入接收单元107的关键字所获取的语义属性值存储到“关键字语义属性”域中。将图6中用户所选择的并在步骤S616接收的语义属性等存储到“所选属性信息”域中。将图6中步骤S616用户所选的用户所需文件的属性信息存储到“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”域中。特征单词提取单元108从文档显示单元106所显示的文档中提取的特征单词存储到“原始文档中的特征单词”域中。因为这些信息存储在对应域中,所以可以生成通用搜索标准。
当执行了上述处理时,呈现用户所需的文档。从而,该处理结束。在上述处理过程中可以使用通用搜索条件的情况下,减少了桌面搜索装置100向用户呈现的语义属性的数量和属性信息的数量。从而,可以减少用户必须指定搜索条件所造成的负担。
此外,在上述处理过程中,在不能使用通用搜索条件的情况下,用户需要指定比可以使用通用搜索条件的情况下更多的搜索标准。但是,用户能够在浏览桌面搜索装置100呈现的搜索标准中指定搜索标准。
接下来,将参考图16解释图6中所示的特征提取单元108从文档中提取特征单词所执行的步骤S602的处理。
首先,特征单词提取单元108获取指示文档累积单元101中所注册的文档总数的数目N(步骤S1601)。
接下来,特征单词提取单元108对文档显示单元106所显示的文档执行词素学分析,并提取独立单词(步骤S1602)。
此后,特征单词提取单元108获取指示文档累积单元101中所存储的文档中、包含独立单词Ti(第i个独立单词)的文档的总数的数字DFi(步骤S1603)。在这种情况下,“i”是表示大于等于“0”并小于所提取的独立单词的数量的变量。
随后,对于第i个独立单词Ti,特征单词提取单元108计算特征量,IDFi=log(N/DFi)(步骤S1604)。
此后,特征单词提取单元108判断所计算的值IDFi是否满足以下不等式,其中IDFmin表示预定下限值,IDFmax表示预定上限值(步骤S1605):
IDFmin<IDFi<IDFmax
在特征单词提取单元108判断满足上述必要条件时(步骤S1605:是),提取独立单词Ti作为特征单词(步骤S1606)。相反,在特征单词提取单元108判断不满足上述必要条件时(步骤S1605:否),不对独立单词Ti执行特定处理。
此后,特征单词提取单元108判断对每个独立单词Ti的处理是否都已完成(步骤S1607)。在特征单词提取单元108判断未完成对每个独立单词Ti的处理时(步骤S1607:否),特征单词提取单元108使变量i加1,以便再次执行步骤S1603到步骤S1606的处理。
另一方面,在特征单词提取单元108判断已完成对每个独立单词Ti的处理时(步骤S1607:是),所有处理都已完成。
接下来,将参考具体实例解释特征单词提取单元108执行的处理。假设文档累积单元101中注册了200,000个文档。首先,特征单词提取单元108在步骤S1601获取数量N=200,000。
接下来,在步骤S1602,特征单词提取单元108对例如图7中所示的文档执行词素学分析并获取以下单词作为独立单词:“周”、“日程表”、“8”、“3”、“周四”、“4”、“周五”、“5”、“周六”、“高桥”、“武”、“东西保险”、“访问”、“计划”以及“会议”。
接下来,在步骤S1603,特征单词提取单元108获取例如文档数DFi=600,因为独立单词“周”包含在文档累积单元101中注册的所有文档中的600个文档中。在步骤S1604,特征单词提取单元108通过计算log(200000/600)≌5.81获取独立单词“周”的特征量的值IDFi。
在步骤S1605,例如,在设置满足IDFmin=4.0和IDFmax=5.0的值的情况下,因为独立单词“周”的IDFi值是5.81,所以得到不等式IDFi>IDFmax。因此,特征单词提取单元108不提取“周”作为特征单词。
同样的,因为独立单词“日程表”包含在1500个文档中,在步骤S1603,特征单词提取单元108得到文档数DFi=1500。随后,在步骤S1604,特征单词提取单元108通过计算log(200000/1500)≌4.89获取独立单词“日程表”的特征量的值IDFi。
在步骤S1605,因为独立单词“日程表”的IDFi值是4.89,所以得到不等式IDFmin<IDFi<IDFmax。因此,在步骤S1606,特征单词提取单元108提取“日程表”作为特征单词。
在本实例的处理过程中,IDFmin和IDFmax的每个值都是常量。但是,该处理过程不限于每个值都是常量的这一实例。例如,另一种可接受的安排是:IDFmin和IDFmax的值根据文档累积单元101中所注册的该组文档中所包含的单词的IDF值来确定或更新。
通过对每个独立单词执行上述处理过程,特征单词提取单元108从图7中所示的文档中提取“日程表”、“访问”和“计划”作为特征单词。
下面,将参考图17解释桌面搜索装置100生成通用搜索标准的处理过程。根据第一实施例,搜索条件注册单元122每次存储信息到历史存储单元104中时,生成通用搜索条件。但是,第一实施例不限于在该时间生成通用搜索标准的这一实例。可以在任意其它时间生成通用搜索标准。
首先,提取条件生成单元116从历史存储单元104中读取新增加至历史存储单元104的一条历史信息记录(步骤S1701)。
接下来,提取条件生成单元116从历史存储单元104中读取历史存储单元104中已注册的另一条历史信息记录(步骤S1702)。
此后,历史判断单元123判断已读取的记录中“关键字语义属性”值是否相互匹配。历史判断单元123还判断在已读取的记录之间的“原始文档中的特征单词”域中是否有一个或多个一致单词(步骤S1703)。
在历史判断单元123判断两条记录中的“关键字语义属性”值不互相匹配,并且两个记录之间的“原始文档中的特征单词”域中没有一致单词的情况下(步骤S1703:否),不执行特定处理。
另一方面,在历史判断单元123判断两条记录中的“关键字语义属性”值相互匹配,并且/或两个记录之间的“原始文档中的特征单词”域中有一个或多个一致单词的情况下(步骤S1703:是),提取条件生成单元116生成新的通用搜索条件(步骤S1704)。当生成该通用搜索条件时,该通用搜索条件中不设置特定条件。在执行下述处理后,在通用搜索条件中设置标准。
提取条件生成单元116判断两条历史信息记录中的“关键字语义属性”值是否相互匹配(步骤S1705)。在提取条件生成单元116判断两个值相互匹配的情况下(步骤S1705:是),提取条件生成单元116将匹配的语义属性分配给通用搜索条件中的“关键字语义属性”(步骤S1706)。
接下来,在提取条件生成单元116判断两条历史信息记录中的“关键字语义属性”值不匹配的情况下(步骤S1705:否),或在分配了匹配的语义属性后(步骤S1706),提取条件生成单元116判断“原始文档中的特征单词”域中是否有一个或多个一致单词(步骤S1707)。在提取条件生成单元116判断“原始文档中的特征单词”域中有一个或多个一致单词的情况下(步骤S1707:是),提取条件生成单元116将一个或多个一致单词分配给通用搜索条件中的“原始文档中的特征单词”(步骤S1708)。
在提取条件生成单元116判断“原始文档中的特征单词”域中没有一致单词的情况下(步骤S1707:否),或在分配了一个或多个一致特征单词后(步骤S1708),提取条件生成单元116判断已读取的两条历史信息记录中的“附加关键字语义属性”值是否相互匹配(步骤S1709)。在提取条件生成单元116判断“附加关键字语义属性”值相互匹配的情况下(步骤S1709:是),提取条件生成单元116将匹配的语义属性分配给通用搜索条件中的“附加关键字语义属性”(步骤S1710)。
在提取条件生成单元116判断“附加关键字语义属性”值不匹配的情况下(步骤S1709:否),或在分配了匹配的语义属性后(步骤S1710),提取条件生成单元116判断已读取的两条历史信息记录中的“搜索过程中缩小处理所用属性信息”值是否相互匹配(步骤S1711)。在提取条件生成单元116判断“搜索过程中缩小处理所用属性信息”值相互匹配的情况下(步骤S1711:是),提取条件生成单元116将匹配的“搜索过程中缩小处理所用属性信息”分配给通用搜索条件中的“搜索过程中缩小处理所用属性信息”(步骤S1712)。
另一方面,在提取条件生成单元116判断“搜索过程中缩小处理所用属性信息”值不匹配的情况下(步骤S1711:否),或在分配了匹配的“搜索过程中缩小处理所用属性信息”后(步骤S1712),提取条件生成单元116判断已读取的两条历史信息记录中以下一个或多个域的属性信息值是否相互匹配:“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”(步骤S1713)。在提取条件生成单元116判断一个或多个域(即“文件格式”、“创建者或发送者/接收者”、以及“创建或发送/接收日期”)的属性信息值相互匹配的情况下(步骤S1713:是),提取条件生成单元116将匹配的属性信息分配给通用搜索条件中对应的属性信息(步骤S1714)。
随后,提取条件生成单元116判断是否已从历史存储单元104中读取了所有历史信息记录(步骤S1715)。在提取条件生成单元116判断未读取所有历史信息记录的情况下(步骤S1715:否),提取条件生成单元116再次开始步骤S1702读取记录的处理。利用这种安排,将对所有历史信息记录中的每一个执行上述处理。
当提取条件生成单元116判断已读取了所有历史信息记录时(步骤S1715:是),完成所有处理。
例如,在提取条件生成单元116判断在新增至图5中所示的历史保存表中的一条历史信息记录(即,记录501)和预先存储在历史保存表中的另一条历史信息记录(即,记录502)之间是否可以生成通用搜索条件的情况下,“关键字语义属性”值相互匹配,并且“原始文档中的特征单词”域中有一个一致单词,并且可以生成新的通用搜索条件。
如图18中所示,通过执行图17中所示的处理过程,提取条件生成单元116能够生成通用搜索条件,该通用搜索条件中存储有图5中所示的记录501和记录502之间的匹配的域信息。
在图17中所示的处理过程中,在新注册的搜索历史记录与多条历史信息记录类似的情况下,提取条件生成单元116生成多个通用搜索标准。但是,第一实施例不限于提取条件生成单元116生成多个通用搜索标准的这一实例。例如,另一种可接受的安排是:当判断所生成的多个通用搜索标准彼此类似时,提取条件生成单元116将这些通用搜索标准组合在一起。再一种可接受的安排是:在刚生成的通用搜索条件类似于已经存储在条件存储单元103中的另一个通用搜索条件的情况下,提取条件生成单元116将这些通用搜索条件组合在一起。
用于组合通用搜索标准的方法的一个实例是,只有当所有三条或多条搜索历史记录中或所有三条或多条通用搜索标准中有多条属性信息彼此匹配时,将属性信息分配给新生成的通用搜索条件的属性信息。另一个实例是,当只有一些搜索历史记录中或一些通用搜索标准中,多条属性信息彼此匹配时,将多个互不相同的值分配给通用搜索条件的属性信息。在这种分配多个互不相同的值的情况下,一种可接受的安排是:当再次使用该通用搜索条件时,桌面搜索装置100中所包含的单词选择接收单元113等询问用户应当使用哪个值。
此后,提取条件生成单元116将以上述方式生成的通用搜索条件注册到条件存储单元103中。存储在条件存储单元103中的通用搜索标准将由条件提取单元110提取,并在用户进行文档搜索时使用。
此外,另一种可接受的安排是:提取条件生成单元116允许用户修正所生成的通用搜索条件。如图19中所示,用户能够输入搜索条件名到“搜索方法名”框1901。用户进一步执行删除存储在图19中所示的“创建或发送/接收日期”框1902中的“一月前”的操作。
如图20中所示,在接收到用户进行的修正后,可以看到“搜索方法名”框2001已修改为“搜索提案材料”,并且之前“创建或发送/接收日期”框2002中所示的条件已被删除。在完成修正后,用户通过按下注册按钮2003来向桌面搜索装置100通知修正已完成。因此,提取条件生成单元116将已修正的通用搜索条件存储到条件存储单元113中。此外,如果用户已按下删除按钮2004,则提取条件生成单元116放弃已修正的通用搜索条件而不进行注册。
接下来,将解释为每个通用搜索标准指定了“搜索方法名”后执行的处理。如图21中所示,当用户选择了关键字时,因为呈现了通用搜索标准名,所以允许用户识别通用搜索标准的内容。此后,假设用户在图21中所示的实例中选择了搜索方法“搜索提案材料”。
如图22中所示,桌面搜索装置100根据对应于搜索方法“搜索提案材料”的通用搜索条件中所指定的标准,呈现共现语义属性并在搜索过程中缩小文档。
当使用根据第一实施例的桌面搜索装置100时,因为通过使用通用搜索条件基于语义属性而自动缩小了附加关键字,所以文档搜索中所用的搜索条件不需用户详细指定搜索条件就能被指定。因此,可以提高可用性。
本发明不限于上述示例性实施例。可以对本发明应用如下所述的各种修改。
在上述第一实施例的描述中,解释了从文档中选择关键字的实例。但是,输入接收单元107不必根据图8中所示的第一实施例的方法来接收关键字输入。下面将解释在不同窗口中接收到的关键字输入的修改实例。
如图23中所示,一种可接受的安排是:在与显示文档的窗口不同的窗口中接收关键字输入。
在这一修改实例中,用户需要执行将图23中所示的窗口调用到屏幕上的操作。可以使用任意方法来执行这一调用操作。例如,用户可以按下屏幕上预先准备的特定按钮或可以按下诸如鼠标之类的输入设备中提供的特定按钮。
如图24中所示,在显示了与通用搜索条件匹配的单词后,搜索结果显示单元115在单词下显示属性信息,并根据其类型对属性信息进行分类。如图24中所示,一种可接受的安排是:以用户能够跟踪树形结构的方式在一个窗口中显示属性信息。
如图25中所示,根据每个示例性实施例和修改实例的桌面搜索装置100包括作为硬件配置的以下元件:只读存储器(ROM)2502,用于存储桌面搜索处理程序等;中央处理单元(CPU)2501,用于根据ROM 2502中存储的程序控制桌面搜索装置100的组成元件;随机存取存储器(RAM)2503,用于存储控制桌面搜索装置100所需的各种类型的数据;显示设备2505,用于显示上述处理的结果等;通信接口(I/F)2507,用于将桌面搜索装置100连接到网络;诸如硬盘之类的外部存储设备2504;输入设备2506;以及总线2508,用于将所述组成元件相互连接。可以向桌面搜索装置100应用具有上述配置的任何通用计算机。
根据上述每个示例性实施例的桌面搜索装置100所执行的桌面搜索处理程序以可安装格式或可执行格式的文件的形式记录在计算机可读记录介质上,如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)或者数字多用途盘(DVD)。
在这种情况下,当从记录介质中读取并由桌面搜索装置100执行时,桌面搜索处理程序被装载到主存储设备中,从而在主存储设备内生成作为上述软件配置的功能元件。
另一种可接受的安排是:根据上述每个示例性实施例的桌面搜索装置100所执行的桌面搜索处理程序存储在连接到诸如因特网的网络的计算机中并通过网络下载来提供。进一步地,再一种可接受的安排是:根据上述每个示例性实施例的桌面搜索装置100所执行的桌面搜索处理程序通过诸如因特网的网络来提供或分发。
进一步地,又一种可接受的安排是:根据上述每个示例性实施例的桌面搜索处理程序预先合并到ROM等中。

Claims (13)

1、一种信息搜索装置,包括:
文档累积单元,用于累积多个文档;
字符串累积单元,用于累积多个第一字符串、多个第二字符串以及多个属性,并将所述多个第一字符串和所述多个第二字符串相互对应,其中所述多个第一字符串包含在所述多个文档的任意一个中并且用作搜索关键字,所述多个第二字符串包含在包括所述多个第一字符串的同一个文档中,所述属性是通过提取所述多个第二字符串来获取的;
存储单元,用于相互对应地初步存储所述多个属性和指定信息,所述指定信息是从所述多个第一字符串和所述文档的至少一个中指定的;
输入接收单元,用于接收第一字符串的输入;
获取单元,用于从所述输入接收单元接收到的作为输入的所述第一字符串和包含所述第一字符串的文档的至少一个中获取指定信息;
属性提取单元,用于从条件存储单元中提取与所述获取单元所获取的所述指定信息相对应的一个属性;
字符串提取单元,用于从所述字符串累积单元中提取与所述输入接收单元接收到的作为输入的所述第一字符串相对应的并且所述属性提取单元提取了属性的第二字符串;以及
搜索单元,用于从所述文档累积单元中搜索包含所述输入接收单元接收到的作为输入的所述第一字符串和所述字符串提取单元所提取的所述第二字符串这两者的一个文档。
2、根据权利要求1所述的装置,进一步包括:
字符串呈现单元,用于向用户呈现由所述字符串提取单元提取的所述第二字符串;以及
字符串选择接收单元,用于接收从所述字符串呈现单元呈现的所述第二字符串中对用作搜索关键字的一个第二字符串的选择,其中
所述搜索单元从所述文档累积单元中搜索包含所述第一字符串和所述字符串选择接收单元接收到的作为选择的所述一个第二字符串的一个文档。
3、根据权利要求1所述的装置,其中
所述存储单元存储代表所述第一字符串的属性的属性信息作为所述指定信息,
所述获取单元包括属性获取单元,用于从所述多个第一字符串中获取代表所述第一字符串的属性信息,以及
所述属性提取单元从所述存储单元中提取与所述属性获取单元所获取的所述属性信息相对应的一个属性。
4、根据权利要求1所述的装置,其中
所述存储单元存储从任意文档中提取的多个字符串作为所述指定信息,
所述获取单元包括字符串提取单元,用于从包含所述第一字符串的一个文档中提取第三字符串,以及
所述属性提取单元从所述存储单元中提取与所提取的字符串相对应的属性,其中所提取的字符串与所述字符串提取单元所提取的所述第三字符串相匹配。
5、根据权利要求1所述的装置,进一步包括:
历史存储单元,用于相互对应地存储多个第一字符串、指定信息以及多个属性,所述多个第一字符串由用户选择作为搜索关键字,所述指定信息是从所述多个第一字符串或者包含所述多个第一字符串的所述多个文档中指定的,并且所述属性是从用户选择作为另一个搜索关键字的所述第二字符串中获取的;
历史判断单元,用于判断存储在所述历史存储单元中的多个所述指定信息是否相互匹配;以及
注册单元,用于当所述历史判断单元判断多个所述指定信息相互匹配时,在所述存储单元中相互对应地注册所述指定信息和所述多个属性。
6、根据权利要求1所述的装置,进一步包括:
文档输入处理单元,用于执行输入所述多个文档的处理;
字符串注册单元,用于在所述字符串累积单元中相互对应地注册要执行输入处理的所述多个文档中所包含的所述多个第一字符串以及所述多个文档中所包含的所述多个第二字符串;以及
文档注册单元,用于在所述文档累积单元中注册要执行所述输入处理的所述多个文档。
7、根据权利要求1所述的装置,进一步包括搜索结果显示单元,用于显示所述搜索单元针对所述多个文档的每个属性所搜索的文档。
8、根据权利要求1所述的装置,其中
所述存储单元进一步相互对应地存储用于缩小所述多个文档的缩小条件,以及
所述搜索单元进一步搜索满足所述缩小条件的一个文档。
9、一种信息搜索方法,包括:
在文档累积单元中累积多个文档;
在字符串累积单元中累积多个第一字符串、多个第二字符串以及多个属性,并将所述多个第一字符串和所述多个第二字符串相互对应,其中所述多个第一字符串包含在所述多个文档的任意一个中并且用作搜索关键字,所述多个第二字符串包含在包括所述多个第一字符串的同一个文档中,所述属性是通过提取所述多个第二字符串来获取的;
在存储单元中相互对应地初步存储所述多个属性和指定信息,所述指定信息是从所述多个第一字符串和所述文档的至少一个中指定的;
接收第一字符串的输入;
从在所述接收步骤中作为输入的所述第一字符串和包含所述第一字符串的文档的至少一个中获取指定信息;
从所述存储单元中提取与所述获取步骤中所获取的所述指定信息相对应的一个属性;
从所述字符串累积单元中提取与所述接收步骤中接收到的作为输入的所述第一字符串相对应的并且在所述提取步骤中提取了属性的第二字符串;以及
从所述文档累积单元中搜索包含所述接收步骤中接收到的作为输入的所述第一字符串和所述字符串提取步骤中所提取的所述第二字符串这两者的一个文档。
10、根据权利要求9所述的方法,进一步包含:
向用户呈现在所述字符串提取步骤中所提取的所述第二字符串;以及
接收从所述字符串呈现步骤中呈现的所述第二字符串中对用作搜索关键字的一个第二字符串的选择,其中
在从所述文档累积单元的所述搜索步骤中搜索一个文档,所述文档包含所述第一字符串和接收到的作为选择的所述一个第二字符串。
11、根据权利要求9所述的方法,其中
在所述存储步骤中,在所述存储单元中存储代表所述第一字符串的属性的属性信息,作为所述指定信息,
所述获取步骤包括从所述多个第一字符串中获取代表所述第一字符串的属性信息的属性获取步骤,以及
在所述属性提取步骤中从所述存储单元中提取与所述属性获取步骤中所获取的所述属性信息相对应的一个属性。
12、根据权利要求9所述的方法,其中
在所述存储步骤中,在所述存储单元中存储从所述多个文档的任意一个中提取的多个字符串,作为所述指定信息,
所述获取步骤包括字符串提取步骤,用于从包含所述第一字符串的一个文档中提取第三字符串,以及
在所述属性提取步骤中,从所述存储单元中提取与所提取的字符串相对应的属性,其中所提取的字符串与所提取的第三字符串相匹配。
13、根据权利要求9所述的方法,进一步包括:
在历史存储单元中相互对应地存储多个第一字符串、指定信息以及多个属性,所述多个第一字符串由用户选择作为搜索关键字,所述指定信息是从所述多个第一字符串或包含所述多个第一字符串的所述多个文档中指定的,并且所述多个属性是从所述用户选择作为另一个搜索关键字的所述第二字符串中获取的;
在历史判断步骤中判断所述历史存储单元中存储的多个所述指定信息是否相互匹配;以及
当判断多个所述指定信息相互匹配时,在所述存储单元中相互对应地注册所述指定信息和所述多个属性。
CNA2008100874895A 2007-03-29 2008-03-28 信息搜索装置及方法 Pending CN101276372A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP087384/2007 2007-03-29
JP2007087384A JP4398992B2 (ja) 2007-03-29 2007-03-29 情報検索装置、情報検索方法及び情報検索プログラム

Publications (1)

Publication Number Publication Date
CN101276372A true CN101276372A (zh) 2008-10-01

Family

ID=39796052

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100874895A Pending CN101276372A (zh) 2007-03-29 2008-03-28 信息搜索装置及方法

Country Status (3)

Country Link
US (1) US8117177B2 (zh)
JP (1) JP4398992B2 (zh)
CN (1) CN101276372A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591897A (zh) * 2011-01-11 2012-07-18 株式会社东芝 文件检索装置以及文件检索方法
CN103220412A (zh) * 2013-03-20 2013-07-24 惠州Tcl移动通信有限公司 移动终端的日程表管理方法及系统
WO2013149443A1 (zh) * 2012-04-02 2013-10-10 鸿富锦精密工业(深圳)有限公司 专利核驳历程显示系统及方法
CN103902280A (zh) * 2012-12-24 2014-07-02 中国电信股份有限公司 事务处理方法及装置
WO2014146450A1 (en) * 2013-03-22 2014-09-25 Tencent Technology (Shenzhen) Company Limited Method, device and system for data searching
CN108463819A (zh) * 2015-11-11 2018-08-28 Syg研究所股份有限公司 使用智能终端的基于数字串的实时信息分发系统以及信息分发方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810469B2 (ja) * 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
US20090271388A1 (en) * 2008-04-23 2009-10-29 Yahoo! Inc. Annotations of third party content
JP5448412B2 (ja) * 2008-10-24 2014-03-19 キヤノン株式会社 情報処理装置およびその方法、プログラム、記録媒体
US8666972B2 (en) * 2009-02-12 2014-03-04 International Business Machines Corporation System and method for content management and determination of search conditions
JP5127751B2 (ja) * 2009-03-19 2013-01-23 株式会社東芝 情報検索装置及び方法
US8392973B2 (en) * 2009-05-28 2013-03-05 International Business Machines Corporation Autonomous intelligent user identity manager with context recognition capabilities
KR20110089012A (ko) * 2010-01-29 2011-08-04 삼성전자주식회사 전자책 단말기 및 그의 멀티태스킹 히스토리 제공방법
JP5703958B2 (ja) * 2011-05-20 2015-04-22 日本電気株式会社 情報検索装置、情報検索方法および情報検索プログラム
CN103827854A (zh) * 2011-09-29 2014-05-28 富士通株式会社 检索方法以及信息管理装置
US9092428B1 (en) * 2011-12-09 2015-07-28 Guangsheng Zhang System, methods and user interface for discovering and presenting information in text content
US10984337B2 (en) * 2012-02-29 2021-04-20 Microsoft Technology Licensing, Llc Context-based search query formation
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
WO2014025000A1 (ja) * 2012-08-08 2014-02-13 株式会社キーソフト 取引支援システム
KR102083209B1 (ko) * 2012-11-22 2020-03-02 삼성전자 주식회사 데이터 제공 방법 및 휴대 단말
JP6028656B2 (ja) * 2013-03-28 2016-11-16 富士通株式会社 データ抽出方法、装置及びプログラム
JP6365195B2 (ja) * 2014-10-03 2018-08-01 富士通株式会社 命令履歴分析プログラム、命令履歴分析装置、および、命令履歴分析方法
CN104679848B (zh) * 2015-02-13 2019-05-03 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
JP6613942B2 (ja) * 2016-02-10 2019-12-04 富士通株式会社 情報出力システム、情報出力方法および情報出力プログラム
CN107092616B (zh) * 2016-11-02 2020-08-28 北京星选科技有限公司 一种对象排序方法及装置
JP2019095848A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム
JP7452011B2 (ja) 2019-12-27 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
JP3015223B2 (ja) * 1993-05-14 2000-03-06 シャープ株式会社 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US6178416B1 (en) * 1998-06-15 2001-01-23 James U. Parker Method and apparatus for knowledgebase searching
JP4025443B2 (ja) * 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP3784060B2 (ja) * 2003-01-10 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索システム、その検索方法及びプログラム
WO2005036412A1 (en) * 2003-10-16 2005-04-21 Nhn Corporation A method of managing bulletin on internet and a system thereof
KR100806862B1 (ko) 2004-07-16 2008-02-26 (주)이네스트커뮤니케이션 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치
JP4081056B2 (ja) 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US20060287919A1 (en) * 2005-06-02 2006-12-21 Blue Mustard Llc Advertising search system and method
US7836065B2 (en) * 2005-11-01 2010-11-16 Sap Ag Searching multiple repositories in a digital information system
JP4247284B2 (ja) 2007-03-28 2009-04-02 株式会社東芝 情報検索装置、情報検索方法及び情報検索プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591897A (zh) * 2011-01-11 2012-07-18 株式会社东芝 文件检索装置以及文件检索方法
WO2013149443A1 (zh) * 2012-04-02 2013-10-10 鸿富锦精密工业(深圳)有限公司 专利核驳历程显示系统及方法
CN103902280A (zh) * 2012-12-24 2014-07-02 中国电信股份有限公司 事务处理方法及装置
CN103902280B (zh) * 2012-12-24 2017-04-12 中国电信股份有限公司 事务处理方法及装置
CN103220412A (zh) * 2013-03-20 2013-07-24 惠州Tcl移动通信有限公司 移动终端的日程表管理方法及系统
WO2014146450A1 (en) * 2013-03-22 2014-09-25 Tencent Technology (Shenzhen) Company Limited Method, device and system for data searching
CN108463819A (zh) * 2015-11-11 2018-08-28 Syg研究所股份有限公司 使用智能终端的基于数字串的实时信息分发系统以及信息分发方法
CN108463819B (zh) * 2015-11-11 2022-03-18 Syg研究所股份有限公司 使用智能终端的基于数字串的实时信息分发系统以及信息分发方法

Also Published As

Publication number Publication date
JP2008250385A (ja) 2008-10-16
US20080243791A1 (en) 2008-10-02
US8117177B2 (en) 2012-02-14
JP4398992B2 (ja) 2010-01-13

Similar Documents

Publication Publication Date Title
CN101276372A (zh) 信息搜索装置及方法
US7860872B2 (en) Automated media analysis and document management system
JP5295605B2 (ja) 検索キーワード改良装置、サーバ装置、および方法
US8135669B2 (en) Information access with usage-driven metadata feedback
KR101242369B1 (ko) 사용자 액티비티, 주의, 관심 측정을 활용하는 데이터감지, 저장, 인덱싱, 및 탐색
US8335787B2 (en) Topic word generation method and system
KR100958935B1 (ko) 편집 가능한 개인 사전을 제공하고 활용하는 방법 및시스템
CN101546341A (zh) 信息推荐装置和信息推荐方法
US8161056B2 (en) Database constructing apparatus and method
US20110208715A1 (en) Automatically mining intents of a group of queries
CN1934569A (zh) 集成有用户注释的搜索系统和方法
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
CN102227723B (zh) 辅助误译的检测的装置及方法
CN103838816A (zh) 文件检索装置、文件检索方法
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
CN101088082A (zh) 全文查询和搜索系统及其使用方法
CN102591897A (zh) 文件检索装置以及文件检索方法
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP3998201B2 (ja) 文書検索方法
EP2812814A1 (fr) Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe
JP4752293B2 (ja) 提示装置および方法、プログラム、並びに記録媒体
KR100963669B1 (ko) 토픽정보를 이용한 질의어 자동 입력 시스템 및 그 방법과그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081001