CN102591897A - 文件检索装置以及文件检索方法 - Google Patents

文件检索装置以及文件检索方法 Download PDF

Info

Publication number
CN102591897A
CN102591897A CN2011103227140A CN201110322714A CN102591897A CN 102591897 A CN102591897 A CN 102591897A CN 2011103227140 A CN2011103227140 A CN 2011103227140A CN 201110322714 A CN201110322714 A CN 201110322714A CN 102591897 A CN102591897 A CN 102591897A
Authority
CN
China
Prior art keywords
retrieval
mentioned
statement
attribute
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103227140A
Other languages
English (en)
Inventor
仲野亘
真锅俊彦
国分智晴
稻叶真纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN102591897A publication Critical patent/CN102591897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)
  • Camera Bodies And Camera Details Or Accessories (AREA)

Abstract

一种文件检索装置及文件检索方法,实施方式中的文件检索装置,具备:存储装置,该存储装置存储:结构化文件数据;抽出语句信息,包含在结构化文件数据中包含的每个语句的、抽出源的结构化文件数据的标识符与抽出源的结构化文件数据中的属性;以及方式判断规则,包含每个属性的检索方式和显示形式。此外,实施方式的文件检索装置,输入检索语句,在抽出语句信息中存在与检索语句一致的语句的情况下,参照抽出语句信息,判断检索语句的属性,根据判断出的属性,参照方式判断规则,判断对结构化文件数据进行检索的检索方式和检索结果的显示形式,通过判断出的检索方式,根据检索语句,进行文件检索,通过判断出的显示形式,输出检索结果。

Description

文件检索装置以及文件检索方法
本申请主张2011年1月11日提出的在先日本专利申请第2011-003439号的优先权,并引用其全部内容。
技术领域
本发明涉及文件检索装置以及文件检索方法。
背景技术
随着文件的电子化及万维网(World Wide Web,简称WWW)的普及,文件检索在日常生活及各种业务中被广泛使用。例如,通过利用互联网的检索服务,用户仅输入关键字即可收集在全球网页上记载的信息。此外,文件检索除了互联网的检索服务以外,还应用于以企业及政府机关的文件管理或信息共享为目的的系统,及用于个人信息整理的工具等。
文件检索通过输入关键字等的检索请求来执行。作为文件检索的输出结果,例如输出文件标题一览。用户从输出的文件一览中选择感兴趣的文件并确认文件内容,从而获得信息。
例如,在呼叫中心(call center),操作员通过文件检索来检索过去事例。,若该检索时的手续少、即能够高效地进行文件检索,则操作员能够一边参照关联的过去事例一边应对询问,因此能够提高工作效率。
有一些用来减少文件检索的步骤及手续以提高工作效率的方法。作为这些方法中的一个,有如下方法,即:在互联网的检索服务中,除了执行用于输出一览形式的检索结果的检索处理的按钮(button)之外,还准备有用来直接显示检索结果第1位的文件的内容的按钮。但是,仅当用户在事前知道检索结果的第1位是正确文件时,该方式才会有效。
此外,还有如下方法,即:利用Web检索中的过去的操作履历,推荐与作为检索请求而输入的关键字对应的Web站点。该方法中,利用输入的关键字来判断在过去的检索中频繁参照的Web站点,在该关键字的输入结束的时刻、并且在执行检索处理之前,以气球(吹き出し)形式等来推荐上述Web站点。
通过该方法,能够实现在检索请求的输入刚刚结束之后推荐记载有用户要求的信息的文件。但这是仅在将对象限定于Web检索、且能利用大量操作日志(log)的环境下有效的方法。即,在面向无法使用如Web检索那样的大量操作日志的企业内部及个人的文件检索中,无法有效地发挥作用。此外,需要用户输入检索请求的关键字直到关键字的最后为止。
发明内容
实施方式的文件检索装置,具备:存储装置,该存储装置存储:结构化文件数据;抽出语句信息,包含在结构化文件数据中包含的每个语句的、抽出源的结构化文件数据的标识符以及抽出源的结构化文件数据中的属性;以及方式判断规则,包含每个属性的检索方式和显示形式。此外,实施方式的文件检索装置,输入检索语句,在抽出语句信息中存在与检索语句一致的语句的情况下,参照抽出语句信息,判断检索语句的属性,根据判断出的属性,参照方式判断规则,判断对结构化文件数据进行检索的检索方式和检索结果的显示形式,通过判断出的检索方式,根据检索语句,进行文件检索,通过判断出的显示形式,输出检索结果。
附图说明
图1是表示第一实施方式的文件检索装置的整体结构的一例的图。
图2是表示第一实施方式的文件检索装置的检索画面的一例的图。
图3是表示第一实施方式的文件检索装置的文件数据的一例的图。
图4是表示第一实施方式的文件检索装置的文件结构信息的一例的图。
图5是表示第一实施方式的文件检索装置的抽出语句信息的一例的图。
图6是表示第一实施方式的文件检索装置的方式判断规则表的一例的图。
图7是表示第一实施方式的文件检索装置的文件检索处理的一例的流程图。
图8是表示第一实施方式的文件检索装置的方式判断处理的一例的流程图。
图9是表示被输出到第一实施方式的文件检索装置的输出部的检索结果画面的一例的图。
图10是表示被输出到第一实施方式的文件检索装置的输出部的检索结果画面的一例的图。
图11是表示第二实施方式的文件检索装置的整体结构的一例的图。
图12是表示第二实施方式的文件检索装置的检索方式指定画面的一例的图。
图13是表示第二实施方式的文件检索装置的检索方式指定区域的一例的图。
图14是表示第三实施方式的文件检索装置的整体结构的一例的图。
图15是表示第三实施方式的文件检索装置的查询(query)选择处理的一例的流程图。
图16是表示第三实施方式的文件检索装置的图标(icon)的一例的图。
图17是表示第三实施方式的文件检索装置的检索画面的一例的图。
图18是表示第四实施方式的文件检索装置的检索画面的一例的图。
图19是表示第四实施方式的文件检索装置的查询候补生成处理的一例的流程图。
图20是表示第四实施方式的文件检索装置的查询选择处理的一例的流程图。
具体实施方式
以下,参照附图,说明本发明的实施方式。
(第一实施方式)
图1表示本发明第一实施方式的文件检索装置的整体结构。
本实施方式的文件检索装置具备输入部11、文件检索部12、输出部15、文件存储部16、文件结构存储部17、抽出语句存储部18、方式判断规则存储部19。
输入部11进行作为检索请求的字符串的输入。即,用户利用输入部11输入的字符串作为检索请求而被发送到文件检索部12,进行文件检索。输入部11例如是键盘和鼠标,用于用户的输入及指示等。具体而言,在显示器所显示的输入画面中显示用户通过键盘输入的输入字符串,通过作为输入部11的鼠标点击输入画面上的“发送”按钮,从而向本实施方式的文件检索装置发送。
文件检索部12将从输入部11输入的字符串(以下称为输入字符串)变换为检索查询,根据该检索查询来检索在文件存储部16中存储的文件数据。文件检索部12具备抽出语句判断部13和方式判断部14。
抽出语句判断部13判断输入字符串是否存储在抽出语句存储部18中。方式判断部14根据抽出语句判断部13的判断结果,判断检索方式和显示形式。
例如,输入字符串是存储在后述抽出语句存储部18中的语句的情况下,文件检索部12根据存储在抽出语句存储部18中的该语句的属性,判断检索方式和显示形式。根据判断出的检索方式,文件检索部12进行文件存储部16的文件数据的检索。此外,根据判断出的显示形式,将检索结果输出到输出部15。输出部15例如是液晶显示器等显示装置。另外,作为输出部15的液晶显示器预先显示检索画面100。图2示出检索画面100的一例。
如图2所示,检索画面100具有用于输入检索请求的输入框101、检索结果显示区域102和输入按钮103。用户利用输入部11输入的检索请求即字符串被显示在输入框101中,若利用作为输入部11的鼠标点击输入按钮103,则该字符串被输入到文件检索部12,执行文件检索。检索结果显示区域102显示文件检索的结果。
文件存储部16对文件检索装置的检索对象的文件数据和文件数据的结构信息进行存储。即,文件存储部16存储的文件数据是包含基于标签(tag)赋予等的结构信息的数据。此外,文件存储部16存储的文件数据包含例如网页文件、业务上作成的文件、专利公报等的数据。本实施方式中,文件存储部16以用XML(Extensible Markup Language,可扩展标示语言)来表现文件的结构信息的形式对文件数据进行存储。
图3是在文件存储部16中存储的文件数据的一例。图3所示的文件数据,其文件ID是34281,构成要素是「/doc/header/category」、「/doc/header/title」以及「/doc/body/section/title」、「/doc/body/section/description」。
「/doc/header/category」表示文件数据的类别(category)。「/doc/header/title」表示文件数据的标题。「/doc/body/section/title」表示文件数据的章标题。「/doc/body/section/description」表示文件数据的每章的记载内容。即,本实施方式的文件数据按每个类别而分类。
文件结构存储部17存储文件结构信息,该文件结构信息具有构成要素信息和属性信息。构成要素信息表示文件存储部16存储的文件数据的构成要素。属性信息表示针对于构成要素的属性。
图4表示在文件结构存储部17中存储的文件结构信息200的一例。另外,文件结构信息按每个文件数据、即每个文件ID而被存储。
图4所示的文件结构信息200具有文件数据的构成要素201、和对从各构成要素抽出的语句赋予的属性202。另外,“term”是指未赋予构成要素的部分的语句的属性。例如,由于在文件结构信息的构成要素中没有图3所示的文件数据的构成要素「/doc/body/section/description」,因此在构成要素「/doc/body/section/description」中出现的语句的属性是「term」。
抽出语句存储部18,将从文件存储部16存储的文件数据中抽出的语句(以下,称为抽出语句),与抽出源的文件数据(以下称为抽出源文件)的文件ID和属性对应起来存储。该属性根据抽出语句的构成要素、参照图4所示的文件结构信息而被对应起来。
图5是在抽出语句存储部18中存储的抽出语句信息300的一例。如图5所示,抽出语句信息300具有:用于识别抽出语句的“语句ID”301;抽出语句的“标记(表記)”302和“读音”303;以及抽出源信息304。抽出源信息304具有抽出源的“文件ID”305、和该抽出源文件的抽出语句的“属性”306。
图5中,作为语句ID301是“1001”、标记302是“动作环境”、读音303是“どぅさかんきょぅ”的语句的抽出源信息304,示出了4个文件ID305与属性306的对。另外,读音303对抽出语句实施词素处理,通过对预先登录在词素解析辞典中的词素单位的读音进行组合,从而赋予读音。
另外,在抽出语句存储部18中存储的抽出语句,通过未图示的语句抽出部而被预先从文件存储部16存储的文件数据中抽出。该语句抽出部参照文件结构存储部17的文件结构信息,从文件存储部16存储的文件数据中将抽出语句抽出。
例如,语句抽出部参照文件结构信息的构成要素,将在构成要素内出现的字符串直接作为抽出语句抽出。或者,语句抽出部也可以进行词素解析、意义信息抽出、复合语抽出、固有表现抽出等各种抽出。或者,语句抽出部也可以根据词素解析、意义信息抽出、复合语抽出等的抽出结果,选择某个特定的种类。或者,语句抽出部也可以不仅抽出语句本身,而是将词类、意义属性名、语句的读音、出现过的文件信息等作为组而抽出。
进而,语句抽出部利用上述抽出的抽出语句,再次检索文件存储部16中的文件数据。即,语句抽出部检索是否存在除了对各抽出语句赋予了属性的文件数据以外出现的文件数据。在存在该出现的文件的情况下,语句抽出部将其文件ID与属性的对(文件ID、属性)全部存储到该抽出语句信息300的抽出源信息304。
方式判断规则存储部19存储方式判断规则400。方式判断规则400在通过文件检索部12进行文件检索处理时使用。
图6是方式判断规则400的一例。如图6所示,方式判断规则400示出每个属性401的检索单位402、检索种类403以及显示形式404。检索单位402与检索种类403合并称作检索方式。
检索单位402是文件检索部12进行检索时的单位。检索单位402例如是“文件”或“部分文件”。检索单位402是“文件”的情况下,文件检索部12进行以文件为单位的检索。检索单位402是“部分文件”的情况下,文件检索部12进行以文件数据内的构成要素为单位的检索。例如,在检索具有章/节结构的结构化文件数据的情况下,当检索单位402是“部分文件”时,文件检索部12以文件数据的章/节为单位来检索。
检索种类403表示检索方式的种类。检索种类403是例如“属性检索”或“全文检索”。检索种类403是“属性检索”的情况下,文件检索部12检索与属性对应的文件数据中的特定部分、及书录信息的一部分与检索语句一致的文件数据。检索种类403是“全文检索”的情况下,文件检索部12检索在文件中的某处含有检索语句的文件数据。
显示形式404表示向输出部15进行输出的形式。显示形式404例如是“一览显示”或“文件直接显示”。显示形式404是“一览显示”的情况下,文件检索部12将文件数据的标题一览显示到输出部15。显示形式404是“文件直接显示”的情况下,文件检索部12将检索结果的文件数据的内容显示到输出部15。
另外,文件存储部16、文件结构存储部17、抽出语句存储部18、方式判断规则存储部19既可以存储在同一存储装置中,也可以存储在多个存储装置中。存储装置例如是硬盘或闪存。
这里,利用图7~图10,说明本实施方式的文件检索装置的文件检索处理。以下说明的文件检索装置,将在企业等组织内公开的规格书、报告书等结构化文件的数据存储到文件存储部16中,根据用户的检索请求来检索该结构化文件数据,并输出检索结果。
具体而言,文件存储部16通过XML数据库实现。此外,在文件检索部12中,根据作为检索请求的输入字符串来制作检索查询(検索クェリ)。另外,利用作为XML数据库的询问语言的XQuery来制作检索查询。根据制作好的检索查询,文件检索部12检索文件存储部16。此外,文件检索处理开始时,在作为输出部15的液晶显示器上显示图2的检索请求画面100。在检索请求画面100的输入区域101中,显示由用户输入的字符串,即“公司内部文件管理系统规格书”。
图7是表示本实施方式的文件检索装置针对用户的检索请求而输出检索结果时的动作的流程图。
首先,文件输入部11取得由用户输入的输入字符串(步骤S101)。具体而言,用户使用作为输入部11的鼠标来点击输入按钮103,从而在输入区域101中显示的字符串被输入到文件检索部12。这里,“公司内部文件管理系统规格书”这一输入字符串被输入到文件检索部12。
若文件检索部12取得输入字符串,则文件检索部12的抽出语句判断部13判断该输入字符串是否存储在抽出语句存储部18中(步骤S102)。即,抽出语句判断部13检索在抽出语句存储部18中是否存储有与输入字符串一致的抽出语句。
输入字符串已存储在语句抽出存储部18中的情况下(步骤S102为“是”),方式判断部14进行方式判断处理(步骤S103)。
具体而言,方式判断部14参照与输入字符串一致的抽出语句的抽出语句信息、和在方式判断规则存储部19中存储的方式判断规则400,进行由检索单位402和检索种类403构成的检索方式以及显示形式404的判断。关于该方式判断处理,在后面进行叙述。
根据步骤S103中的检索方式的判断结果,文件检索部12对在文件存储部16中存储的文件数据群执行文件检索(步骤104)。若检索完成,则根据由步骤S103判断出的显示形式404,将检索结果显示到输出部15(步骤S105),文件检索处理结束。
输入字符串未存储在语句抽出存储部18中的情况下(步骤S102为“否”),文件检索部12对在文件存储部16中存储的文件数据群进行“文件单位”的“全文检索”(步骤S106)。若检索完成,则输出部15以一览形式来显示检索结果(步骤S107),文件检索处理结束。
这里,利用图8所示的流程图,说明图7的步骤S103中的、文件检索部12的方式判断处理。图8是表示文件检索部12的方式判断处理的一例的流程图。
首先,文件检索部12根据由图7的步骤S101输入的输入字符串,从抽出语句存储部13取得与该输入字符串一致的语句的抽出语句信息300(步骤S201)。接着,文件检索部12的抽出语句判断部13根据该抽出语句的属性306,判断该输入字符串的代表属性。
具体而言,根据在由步骤S201取得的抽出语句信息300中包含的抽出源信息304,文件检索部12的抽出语句判断部13判断该抽出语句的属性306是否是“doc_title”(步骤S202)。另外,在所取得的抽出语句信息300是从多个文件数据抽出的语句的抽出语句信息的情况下,即所取得的语句的抽出语句信息300中包含的抽出源文件ID305为多个的情况下,若抽出语句信息300中包含的抽出源文件ID305中的某一个所表示的文件数据的抽出语句的属性306是“doc_title”,则抽出语句判断部13将输入字符串的属性判断为“doc_title”。
在步骤S201中取得的抽出语句信息300的属性306是“doc_title”的情况下(步骤S202为“是”),方式判断部14根据属性306并参照方式判断规则400,确定检索单位402与检索种类403(步骤S203)。这里,属性306为“doc_title”,因此方式判断部14将检索单位402设为“文件”,将检索种类403设为“属性检索”。
接着,方式判断部14参照方式判断规则400来判断检索结果的显示形式。具体而言,方式判断部14首先判断语句属性是“doc_title”的抽出源文件是否为一个。(步骤S204)。
语句的属性是“doc_title”的抽出源文件为一个的情况下(步骤S204为“是”),方式判断部14选择方式判断规则400的“文件直接显示”(步骤S205),方式判断处理结束。
语句的属性是“doc_title”的抽出源文件有多个的情况下(步骤S204为“否”),方式判断部14选择方式判断规则400的“一览显示”(步骤S206),方式判断处理结束。
语句的属性不是“doc_title”的情况下(步骤S202为“否”),抽出语句判断部13判断语句的属性是否是“doc_category”(步骤S207)。另外,对象的语句是从多个文件数据中抽出的语句的情况下,即在对象的语句信息中包含的抽出源文件ID有多个的情况下,若某一个文件数据中的语句的属性是“doc_category”,则认为语句的属性是“doc_category”。
语句的属性是“doc_category”的情况下(步骤S207为“是”),方式判断部14根据语句的属性并参照方式判断规则400来确定检索单位、检索种类和显示形式(步骤S208)。具体而言,由于语句的属性是“doc_category”,因此方式判断部14将检索单位设为文件,将检索方式设为属性检索,将显示形式设为一览显示。然后,方式判断处理结果。
语句的属性不是“doc_category”的情况下(步骤S207为“否”),抽出语句判断部13判断语句的属性是否是section_title(步骤S209)。另外,所取得的语句信息是从多个文件中抽出的语句信息的情况下,即在所取得的语句信息中包含多个抽出源文件ID的情况下,若在各文件数据中的语句的属性之中、规定比例以上的属性是section_title,则认为语句的属性是section_title。即,属性是“section_title”的文件数据数相对于语句信息中所包含的文件数据数而未达到规定比例的情况下,抽出语句判断部13在步骤S20中判断为“否”。另外,该规定比例是预先确定的。
语句的属性是“section_title”的情况下(步骤S209为“是”),方式判断部14根据语句的属性并参照方式判断规则400来确定检索单位和检索种类(步骤S210)。这里,方式判断部14将检索单位设为“/doc/body/section”,将检索方式设为属性检索。
方式判断部14参照方式判断规则400来判断检索结果的显示形式。具体而言,由于方式判断规则400的显示形式是“一览显示”或“文件直接显示”,因此,首先判断语句的属性是section_title的抽出源文件是否为一个。(步骤S211)。
语句的属性是section_title的抽出源文件是一个的情况下(步骤S211为“是”),方式判断部14选择方式判断规则400的“文件直接显示”(步骤S212),方式判断处理结束。该情况下,输出部15直接显示根据方式判断处理结果而检索出的语句、被赋予了属性section_title的文件数据的/doc/body/section/title及该语句的构成要素/doc/body/section。
语句的属性是section_title的抽出源文件有多个的情况下(步骤S211为“否”),方式判断部14选择方式判断规则400的“一览显示”(步骤S213),方式判断处理结束。该情况下,输出部15将根据方式判断处理结果而检索出的、对语句赋予了属性section_title的文件的一览作为检索结果进行显示。另外,所显示的文件是由用户选择的文件时,也可以使/doc/body/section/title提示该语句的构成要素/doc/body/section。
语句的属性不是section_title的情况下(步骤S209为“否”),方式判断部14将语句的属性判断为“term”。并且,方式判断部14根据该属性“term”并参照方式判断规则400来确定检索单位、检索种类和显示形式(步骤S214)。方式判断部14结束方式判断处理。
图9是将全文检索方式的检索结果以一览显示形式进行显示的输出部15的一例。具体而言,图9示出了如下例子,即:从文件输入部11输入用户输入的“公司内部文件管理系统”这一输入字符串并进行文件检索处理的情况下,在输出部15中显示的检索画面100的一例。
图9所示的检索画面100是检索种类为“全文检索”、显示形式为“一览形式示”的情况。进行检索的结果,在检索结果显示区域102中,以一览形式来显示作为指向各文件原文的链接的文件数据名。用户选择在检索结果显示区域102中显示的文件数据名中的一个,从而能够阅览该文件。此外,通过再度向输入框101输入字符串并发送,能够重新进行检索。
图10是在输出部15中显示的画面的一例,显示利用检索式而筛选为单一文件的检索方式下的检索结果。即,图10示出,向输入框101输入“公司内部文件管理系统规格书”这一字符串并点击输入按钮103之后、在输出部15中显示的画面。本实施方式的输入部11,根据输入到输入框101的语句,生成检索式「/doc/header/title=“公司内部文件管理系统规格书”」,进行检索。检索的结果是,与输入字符串相同的“公司内部文件管理系统规格书”这一文件数据作为检索结果而被显示到检索结果显示区域102。另外,图10中,不显示指向文件“公司内部文件管理系统规格书”的原文的链接,而是直接显示原文。在用户请求其他文件的情况下,若再度向输入框101输入文字,则再度进行检索。
如上所述,本实施方式的文件检索装置,能够根据输入的语句的属性来进行适当的检索,因此,能够高效地进行检索。此外,本实施方式的文件检索装置,能够对检索结果进行适当的输出,因此,能够提高用户的工作效率。
(第二实施方式)
图11是本发明第二实施方式的文件检索装置的概略结构。另外,对与第一实施方式相同的结构附加同样的符号并省略说明。
如图11所示,本实施方式的文件检索装置结构为,在图1所示的文件检索装置的结构中还具有检索方式指定部20。
用户利于检索方式指定部20进行检索方式的指定。根据由该检索方式指定部20所指定的检索方式,文件检索部12再度进行文件存储部16的检索。
参照图12说明检索方式指定部20的检索方式指定处理的一例。图12所示的检索画面110示出如下状态,即:用户向输入框110输入“公司内部文件管理系统规格书”这一字符串且点击输入按钮113、通过输入部11输入该输入字符串之后的状态。在检索结果显示区域112中显示出检索结果的文件。
图12所示的检索画面110中,“公司内部文件管理系统规格书”被作为文件名而抽出,由于被抽出的文件是一个,因此直接显示检索结果的文件。
本实施方式的检索装置中,在进行第一实施方式的检索方式提示处理之后,若用户选择图12的其他检索方式链接114,则检索方式指定部20进行检索方式指定处理。
即,若用户通过输入部11选择其他检索方式链接114,则检索方式指定部20弹出并显示检索方式选择区域115。图13是显示出检索方式选择区域115的输出部15的一例。图13所示的输出部15中,例示出检索方式选择区域115、作为其他检索方式的“全文检索”。即,在检索方式提示处理中,选择的检索方式以外的检索方式被显示到检索方式选择区域115。这里,若点击“是”按钮,则通过作为其他检索方式的全文检索来进行对“公司内部文件管理系统规格书”的文件检索。
如上所述,根据本实施方式的文件检索装置,在检索结果不符合用户的意向的情况下,能够对检索方式进行再设定,因此用户能够进行有效的检索。
(第三实施方式)
图14表示本发明第三实施方式的文件检索装置的概略结构。另外,对与第一实施方式相同的结构附加同样的符号而省略说明。
如图14所示,本实施方式的文件检索装置的结构为,在图1所示的文件检索装置的结构中,还具有查询候补生成部27及查询选择部28。
查询候补生成部27生成与用户的输入字符串对应的检索查询的候补(以下称为查询候补)。即,查询候补生成部27对从输入部11输入的输入字符串、和在抽出语句存储部18中存储的抽出语句的标记302或读音303进行比较。比较的结果是,查询候补生成部27将判断为对应的语句作为查询候补向查询选择部28发送。
本实施方式的文件检索装置,当文件检索部12检索文件存储部16时,从查询候补生成部27生成的查询候补中,经由查询选择部28,利用用户选择的查询来进行检索。
另外,与第一实施方式同样,本实施方式的抽出语句存储部18中存储的抽出语句,通过未图示的语句抽出部而被从文件存储部16存储的文件数据中抽出。
本实施方式的语句抽出部针对在文件存储部12中存储的文件数据的整个范围,分别进行词素解析、固有表现抽出以及复合语抽出,根据各自的结果,将具有特定的词类、意义属性的语句抽出。语句抽出部对通过这些公知的手法抽出的语句,赋予抽出源的文件ID与该抽出源文件中的抽出语句的属性的对(文件ID,属性)。
查询候补生成部27,对从输入部11接收到的输入字符串、和在抽出语句存储部18中存储的语句的标记302或读音303进行比较,判断是否对应。若存在判断为对应的语句,则查询候补生成部27将该语句作为查询候补而向查询选择部28发送。另外,查询候补生成部27从输入部11接收输入字符串的定时是例如在输入部11中用户点击了输入按钮的定时。或者,也可以是输入了特定的文字数的定时、或在输入中经过了一定时间的定时。
查询候补生成部27在存储在抽出语句存储部18中的语句和输入字符串的标记302或读音303一致的情况下判断为对应。此外,也可以将例如具有包含部分输入字符串的标记、读音的语句、具有类似标记的语句、或者在意义及统计上密切相关的语句等判断为对应。
例如,从标记302或读音303前方一致的语句生成查询候补的情况下,若查询候补生成部27接受“し”,则“公司内部文件管理”、“公司内部文件检索”、“公司内部文件管理系统规格书”、“公司内部文件的选择方法”等的读音303以“し”开始的抽出语句存储部18中的语句作为查询候补而被抽出。另外,查询候补的个数多的情况下,可以通过term frequency·inversedocument frequency法(tf·idf法)等附加优先度,筛选为一定数量的查询候补。另外,此时,也可以删除优先度高的查询候补、和从开头开始的标记302为一定文字数以上或一定比例以上共通的查询候补。
并且,用户利用输入部11,从查询候补生成部27制作出的查询候补中选择查询。选择出的查询被发送到查询选择部28。查询选择部28根据接收到的查询,进行查询选择处理,与处理结果一起向文件检索部12发送。
这里,参照图15,说明查询选择部28的查询选择处理的一例。图15是表示查询选择处理的一例的流程图。
首先,查询选择部28接收由查询候补生成部27生成的查询候补及其属性(步骤S301)。查询选择部28将接收到的查询候补及其属性的对显示给用户。用户根据该查询候补与该查询候补的属性,选择检索对象的查询候补。
此时,存在与查询选择部28接收到的查询候补对应的属性为多个的情况。这种情况下,可以向用户显示全部的查询候补与其属性的对。或者,也可以选择1个针对查询候补的代表属性,显示该查询候补与该属性的对。本实施方式中,图15的步骤S302~步骤S308中,查询选择部28进行选择查询候补的代表属性的处理(以下,称为代表属性选择处理)。
首先,查询选择部28判断在与接收到的查询候补对应的属性中是否包含“doc_title”(步骤S302)。
查询候补的属性中包含“doc_title”的情况下(步骤S302为“是”),查询选择部28判断为查询候补的属性是“doc_title”(步骤S303)。
接收到的查询候补的属性中不包含“doc_title”的情况下(步骤S302为“否”),查询选择部28判断查询候补的属性是否包含“doc_category”(步骤S304)。
查询候补的属性中包含“doc_category”的情况下(步骤S304为“是”),查询选择部28判断为查询候补的属性是“doc_category”(步骤S305)。
查询候补的属性中不包含“doc_category”的情况下(步骤S304为“否”),查询选择部28判断在查询候补的属性中是否包含相对于被赋予给查询候补的全部的属性数量在规定比例以上的section_title(步骤S306)。即,属性「section_title」未达到规定比例的情况下,步骤S306判断为“否”。另外,规定比例是事先确定的。
查询候补的属性中包含规定比例以上的section_title的情况下(步骤S306为“是”),查询选择部28判断为查询候补的属性是section_title(步骤S307)。
查询候补的属性中不包含规定比例以上的section_title的情况下(步骤S306为“否”),查询选择部28判断为查询候补的属性是term(步骤S308)。
没有对从查询候补生成部27接收到的全部查询候补进行代表属性选择处理的情况下(步骤S309是“否”),对下一个的查询候补开始代表属性选择处理(步骤S312)。
对从查询候补生成部27接收到的全部查询候补进行了代表属性选择处理的情况下(步骤S309为“是”),查询选择部28将查询候补与其属性对应起来显示给用户(步骤S310)。该情况下,可以显示到作为输出部15的显示器上。另外,这里设定为,属性通过图标来表现并显示。图16是表示本实施方式的各属性的图标的一例。
图17表示将查询候补与其属性的一览显示给用户的画面的一例。图17是检索画面120的一例,具备输入框121、检索结果显示区域122、输入按钮123和查询候补显示区域124。输入框121、检索结果显示区域122以及输入按钮123具有与第一实施方式的检索画面100的输入框101、检索结果显示区域102以及输入按钮103同样的功能。
查询候补显示区域124是用于在步骤S310中将查询候补与其属性对应起来显示给用户的区域。图17中,作为查询候补,显示有“公司内部文件管理系统规格书”、“公司外发表申请”、“系统工程师”以及“季度(日文原文:四半期)”。“公司内部文件管理系统规格书”的属性是“doc_title”,“公司外发表申请”的属性是“section_title”,“系统工程师”以及“季度”的属性是“term”。
若用户从在查询候补显示区域124上显示的查询候补的语句中选择1个,则查询选择部28将选择出的查询候补与其属性发送给文件检索部12(步骤S311)。
文件检索部12若从查询选择部28接收作为查询候补的语句与其属性,则检索方式判断部14根据从查询选择部28接收到的作为查询候补的语句与其属性,执行图8所示的检索方式判断处理。并且,文件检索部12根据方式判断部14的判断结果,执行文件检索。输出部15输出文件检索部12的检索结果。
如上所述,根据本实施方式的文件检索装置,能够显示与用户的输入的文字相对应的查询候补。即,用户即使不将检索对象的字符串全部输入,也能够通过选择所提示的候补来执行文件检索,因此能够降低用户的输入负担。
此外,用上述那样的方法来执行检索时,将能够适用于输出的各候补的检索处理的种类的有关信息公开给用户,因此用户能够积极地进行基于筛选为直接单一的文件的检索处理等的之后的检索处理的种类的候补选择。
(第四实施方式)
本实施方式的文件检索装置采用与第三实施方式的文件检索装置同样的结构。
图18是用户通过第四实施方式的文件检索装置的输入部11输入检索对象的语句时的检索画面130的一例。
图18所示的检索画面130是类别检索用的检索画面130。检索画面130具备输入区域131和菜单134,该输入区域131用来输入用户进行文件检索的语句,该菜单34利用文件数据中的“/doc/header/category”的语句来输入用于筛选(絞り込む)检索对象文件的语句(以下,称作筛选语句)。即,本实施方式的文件检索装置中,用户利用输入部11向类别检索用的输入画面130的菜单134输入筛选语句。
即,通过从输入部11输入的筛选语句,检索对象的文件被筛选。这里,假设筛选为与输入了检索对象的文件的筛选语句类别一致的文件集合。具体而言,例如,根据用户利用输入部11输入到菜单134的筛选语句,参照抽出语句信息300,将与该筛选语句对应的属性306为“doc_category”的抽出源文件ID305作为检索对象的文件群。
另外,关于筛选语句,用户可以利用输入部11直接向菜单134输入,或者,也可以是,将抽出语句存储部18中存储的抽出语句信息300所包含的、属性306中包含“doc_category”的抽出语句显示在菜单134上,用户利用输入部134进行选择。
如图18所示,在本实施方式的文件检索装置中,抽出语句存储部18中存储的抽出语句信息300中所包含的、属性306中包含“doc_category”的抽出语句“规程”、“规格书”以及“手册”被显示在菜单134的下部。用户利用输入部11来选择用斜线部分表示的“规格书”这一类别。
根据指定的类别,查询候补生成部27生成查询候补。即,生成用户指定的类别内的查询候补。生成的查询候补被发送给查询选择部28,用户利用查询选择部28而从查询候补中选择1个,从而进行文件检索。
这里,参照图19,说明本实施方式的文件检索装置的动作。图19是表示本实施方式的文件检索装置的查询候补生成处理的一例的流程图。
另外,这里,若用户通过作为输入部11的鼠标点击类别检索用输入画面130的菜单134,则查询候补生成处理开始。
若用户通过输入部11点击菜单134,则查询候补生成部27从抽出语句存储部18取得具有“doc_category”属性的全部语句的抽出语句信息300(步骤S401)。如图18所示,查询候补生成部27在菜单134的下部对取得的语句进行一览显示(步骤S402)。
若用户通过作为输入部11的鼠标从步骤S402显示的语句一览中选择1个语句,则文件检索部12将在“/doc/header/category”中出现从菜单134输入的语句的文件的文件ID305抽出(步骤S403)。此时,文件检索部12例如取得在抽出语句存储部18的该选择语句的抽出语句信息300中、与属性「doc_category」成对存储的文件ID305从而得到实现。
用户利用输入部11向输入区域131输入检索对象的字符串(步骤S404)。查询候补生成部27生成与输入的字符串对应的查询候补(步骤S405)。在生成的各查询候补中,将仅在文件ID集合所包含的文件中出现的查询候补、以及文件ID集合发送到查询选择部28(步骤S406)。具体而言,例如,仅将在步骤S405生成的查询候补的抽出语句信息300的抽出源文件ID305中包含由步骤S405抽出的文件ID305的语句作为查询候补。
查询选择部28对于接收到的各查询候补,参照与该文件ID集合有关的抽出语句信息300,进行对应的属性判断处理(步骤S407)。
此外,本实施方式的查询选择部28,对于从查询候补生成部27接收到的各查询候补,从与由步骤S405抽出的文件ID305对应的属性中,进行属性的判断,进行查询选择处理。具体而言,如图20所示,在图15的步骤S301与步骤S302之间追加步骤S303,该步骤S303从接收到的查询候补的抽出语句信息300中仅抽出在步骤S405中抽出的文件ID集合中的属性,对抽出的属性进行图15的步骤S302到步骤S308的处理。由本实施方式的查询选择部28生成的查询候补被显示到输入区域131的下部。
本实施方式的文件检索装置根据类别来筛选检索对象的文件数据,用户选择利用筛选后的文件数据而生成的查询候补,从而进行文件检索。因此,本实施方式的文件检索装置能够进行高效的检索。即,根据本实施方式的文件检索装置,利用类别来筛选检索对象的文件数据而进行检索,从而能够进一步筛选检索结果。由此,容易将检索结果的文件数据直接显示给用户。另外,也能够利用类别以外的属性进行筛选。
以上说明了本发明的几个实施方式,但这些实施方式仅作为例示,并不意欲限定发明范围。这些新的实施方式能够以其他各种形态来实施,在不脱离发明主旨的范围内,能够进行各种省略、替换和变更。这些实施方式及其变形包含在发明范围及主旨中,并且包含在技术方案的范围所记载的发明及其等同范围内。

Claims (9)

1.一种文件检索装置,其中,具备:
存储装置,存储:结构化文件数据;抽出语句信息,包含有在上述结构化文件数据中包含的语句的、抽出源的结构化文件数据的标识符及上述抽出源的结构化文件数据中的属性;以及方式判断规则,包含有属性的检索方式和显示形式;
文字输入部,输入检索语句;
判断部,在上述抽出语句信息中存在与上述检索语句一致的语句的情况下,参照该抽出语句信息来判断上述检索语句的属性,根据判断出的上述属性,参照上述方式判断规则,判断对上述结构化文件数据进行检索的检索方式和检索结果的显示形式;
文件检索部,通过判断出的上述检索方式,根据上述检索语句进行上述结构化文件数据的检索;以及
输出部,通过判断出的上述显示形式,输出基于上述文件检索部的检索结果。
2.如权利要求1所述的文件检索装置,其中,
上述判断部在与判断出的上述属性对应的上述结构化文件数据的标识符是1个的情况下,将上述显示形式设为文件直接显示。
3.如权利要求1所述的文件检索装置,其中,
该文件检索装置还具备检索方式指定部,用来指定除了上述判断部判断出的上述检索方式以外的检索方式,
上述文件检索部根据由上述检索方式指定部指定的检索方式进行检索。
4.如权利要求1所述的文件检索装置,其中,
该文件检索装置具备:
查询候补生成部,根据来自上述文字输入部的输入文字来检索上述抽出语句信息,生成检索查询的候补;以及
查询选择部,判断与参照上述抽出语句信息而生成的上述查询候补相相对应的属性,将该查询候补与该属性对应起来表示给用户,将由用户选择出的查询候补及属性发送给上述文件检索部,
上述文件检索部将从上述查询选择部发送的上述查询候补作为上述检索语句,根据从上述查询选择部发送的上述属性参照上述方式判断规则来判断上述检索方式,通过判断出的上述检索方式对上述结构化文件数据进行检索。
5.如权利要求1所述的文件检索装置,其中,
上述输入部输入筛选语句,
上述文件检索部根据上述筛选语句来筛选上述结构化文件数据,并通过判断出的上述检索方式,根据上述检索语句对筛选后的上述结构化文件数据进行检索。
6.一种文件检索装置的文件检索方法,其中,
该文件检索装置具备存储装置,该存储装置存储:结构化文件数据;抽出语句信息,包含有在上述结构化文件数据中包含的每个语句的、抽出源的结构化文件数据的标识符及上述抽出源的结构化文件数据中的属性;以及方式判断规则,包含有每个属性的检索方式和显示形式,
上述文件检索方法具备以下步骤:
输入步骤,输入检索语句;
判断步骤,在上述抽出语句信息中存在与上述检索语句一致的语句的情况下,参照该抽出语句信息来判断上述检索语句的属性,根据判断出的上述属性,参照上述方式判断规则,判断对上述结构化文件数据进行检索的检索方式和检索结果的显示形式;
通过判断出的上述检索方式,根据上述检索语句进行上述结构化文件数据的检索的步骤;以及
通过判断出的上述显示形式,输出基于上述文件检索部的检索结果的步骤。
7.如权利要求6所述的文件检索方法,其中,
还具备在与判断出的上述属性对应的上述结构化文件数据的标识符是1个的情况下将上述显示形式设为文件直接显示的步骤。
8.如权利要求6所述的文件检索方法,其中,
该文件检索方法还具备以下步骤:
指定除了判断出的上述检索方式以外的检索方式的步骤;以及
根据该指定的检索方式进行检索的步骤。
9.如权利要求6所述的文件检索方法,其中,
该文件检索方法还具备以下步骤:
根据上述输入文字来检索上述抽出语句信息,生成检索查询的候补的步骤;
判断与参照上述抽出语句信息而生成的上述查询候补相对应的属性的步骤;
将该查询候补与该属性对应起来表示给用户,将由用户选择出的查询候补作为上述检索语句的步骤;以及
根据上述属性参照上述方式判断规则来判断上述检索方式,通过判断出的上述检索方式对上述结构化文件数据进行检索的步骤。
CN2011103227140A 2011-01-11 2011-10-21 文件检索装置以及文件检索方法 Pending CN102591897A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-003439 2011-01-11
JP2011003439A JP5185402B2 (ja) 2011-01-11 2011-01-11 文書検索装置、文書検索方法、及び文書検索プログラム

Publications (1)

Publication Number Publication Date
CN102591897A true CN102591897A (zh) 2012-07-18

Family

ID=46456065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103227140A Pending CN102591897A (zh) 2011-01-11 2011-10-21 文件检索装置以及文件检索方法

Country Status (4)

Country Link
US (1) US20120179709A1 (zh)
JP (1) JP5185402B2 (zh)
CN (1) CN102591897A (zh)
CA (1) CA2746999A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915425A (zh) * 2015-06-12 2015-09-16 北京北信源软件股份有限公司 一种文件内容的检索方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930060B (zh) * 2012-11-27 2016-05-04 孙振辉 一种数据库快速索引的方法及装置
CN104424255B (zh) * 2013-08-28 2019-02-01 阿尔派株式会社 检索装置及检索方法
GB2520936A (en) * 2013-12-03 2015-06-10 Ibm Method and system for performing search queries using and building a block-level index
CN106104520B (zh) * 2014-03-20 2019-04-26 日本电气株式会社 信息处理设备、信息处理方法和存储介质
CN107391535B (zh) * 2017-04-20 2021-01-12 创新先进技术有限公司 在文档应用中搜索文档的方法及装置
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7548569B2 (ja) * 2021-01-27 2024-09-10 株式会社LegalOn Technologies 文書処理プログラム、情報処理装置及び文書処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1362681A (zh) * 2000-12-27 2002-08-07 独立行政法人通讯综合研究所 信息检索处理装置和方法,记录信息检索程序的记录媒体
CN101276372A (zh) * 2007-03-29 2008-10-01 株式会社东芝 信息搜索装置及方法
CN101398841A (zh) * 2007-09-25 2009-04-01 株式会社东芝 用于支持信息搜索的设备和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2812357B2 (ja) * 1995-03-08 1998-10-22 日本電気株式会社 データベース検索システム
JPH096794A (ja) * 1995-06-14 1997-01-10 Fuji Xerox Co Ltd データ検索指示装置
JP2000250930A (ja) * 1999-03-01 2000-09-14 Matsushita Electric Ind Co Ltd 構造化文書検索システム
JP2002278972A (ja) * 2001-03-19 2002-09-27 Seiko Epson Corp 検索結果の表示
US20060004725A1 (en) * 2004-06-08 2006-01-05 Abraido-Fandino Leonor M Automatic generation of a search engine for a structured document
US20060259462A1 (en) * 2005-05-12 2006-11-16 Sybase, Inc. System and Methodology for Real-time Content Aggregation and Syndication
JP4347264B2 (ja) * 2005-05-20 2009-10-21 キヤノン株式会社 文書管理システム
US7765199B2 (en) * 2006-03-17 2010-07-27 Proquest Llc Method and system to index captioned objects in published literature for information discovery tasks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1362681A (zh) * 2000-12-27 2002-08-07 独立行政法人通讯综合研究所 信息检索处理装置和方法,记录信息检索程序的记录媒体
CN101276372A (zh) * 2007-03-29 2008-10-01 株式会社东芝 信息搜索装置及方法
CN101398841A (zh) * 2007-09-25 2009-04-01 株式会社东芝 用于支持信息搜索的设备和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915425A (zh) * 2015-06-12 2015-09-16 北京北信源软件股份有限公司 一种文件内容的检索方法及装置
CN104915425B (zh) * 2015-06-12 2018-08-17 北京北信源软件股份有限公司 一种文件内容的检索方法及装置

Also Published As

Publication number Publication date
CA2746999A1 (en) 2012-07-11
JP2012146097A (ja) 2012-08-02
JP5185402B2 (ja) 2013-04-17
US20120179709A1 (en) 2012-07-12

Similar Documents

Publication Publication Date Title
KR101960115B1 (ko) 대화 스레드의 요약 기법
US6182067B1 (en) Methods and systems for knowledge management
CN102591897A (zh) 文件检索装置以及文件检索方法
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US20170235841A1 (en) Enterprise search method and system
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
CN101167075B (zh) 专有表现抽取装置、方法以及程序
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US9489370B2 (en) Synonym relation determination device, synonym relation determination method, and program thereof
CN101118560A (zh) 关键词输出设备和关键词输出方法
CN103430172A (zh) 检索装置、检索方法及程序
KR20160042896A (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
CN103678362A (zh) 搜索方法及系统
CN110765233A (zh) 基于深度挖掘和知识管理技术的智能信息检索服务系统
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
Kumar Apache Solr search patterns
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN111190965A (zh) 基于文本数据的即席关系分析系统及方法
CN113407678A (zh) 知识图谱构建方法、装置和设备
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
CN110334112B (zh) 一种简历信息检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120718