CN102576362B - 设置元数据的方法、设置元数据的系统以及程序 - Google Patents

设置元数据的方法、设置元数据的系统以及程序 Download PDF

Info

Publication number
CN102576362B
CN102576362B CN201080043084.7A CN201080043084A CN102576362B CN 102576362 B CN102576362 B CN 102576362B CN 201080043084 A CN201080043084 A CN 201080043084A CN 102576362 B CN102576362 B CN 102576362B
Authority
CN
China
Prior art keywords
metadata
file
candidate
search
arranges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080043084.7A
Other languages
English (en)
Other versions
CN102576362A (zh
Inventor
野崎康行
松本俊子
大峡光晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Publication of CN102576362A publication Critical patent/CN102576362A/zh
Application granted granted Critical
Publication of CN102576362B publication Critical patent/CN102576362B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

提出了用于在搜索文件的日常过程中自然和高效率地设置元数据的方法。在文件搜索屏幕上,提供了确定元数据未设置文件的候选元数据以及使用已经设置的候选元数据初始化元数据的录入的功能。候选元数据的确定使用以下三种方法中的任何一种来执行:指定以正则表达式描述的匹配搜索关键词的字符串作为候选者的方法,指定匹配关键词词典的文件路径或文件中的字符串作为候选者的方法,以及指定在元数据已设置文件中频繁出现的元数据作为候选者的方法。

Description

设置元数据的方法、设置元数据的系统以及程序
技术领域
本发明涉及用于设置元数据的方法、用于设置元数据的系统、以及程序。例如,本发明涉及用于在搜索电子数据的过程期间提供元数据的方法。
背景技术
在许多组织例如企业中,大量的数据,例如用办公软件创建的文件或通过扫描书面文件创建的文件,被每天创建并且存储在文件服务器或类似物中。当期望的文件将要位于这样大量的数据中时,普遍使用了在文件服务器中搜索文件夹的方法。
然而,当文件夹结构复杂或当文件放在具有不是搜索期望的文件的人所意想的结构的文件夹中时,定位这样的文件将耗费相当长的时间。作为另一种搜索文件的方法,已知全文搜索方法。然而,这种方法至少存在两个问题。第一个问题是,某些文件不能够仅通过关键词搜索被定位(见图1)。例如,当想要定位在给定的时间段创建的所有文档时,检索这样的文档将是不可能的,因为全文搜索不能够将表示文档内的日期的字符串作为“与日期相关联的数据”对待。此外,作为其他的示例性的问题,可能有以下的情况,如果某些文档包含具有与搜索期望的文档的人使用的搜索关键词相同的含义的词语,那么所期望的文档不能够被定位,或如果客户名称在多行中描述,那么将不能找出包含客户名称的文件,即使通过客户名称(作为位于多行中的字符串)执行搜索。作为另一个问题,可能有大量无关的文件被找出的情况(见图2)。例如,如果执行搜索以定位其中将银行名称作为客户名称描述的文档,在另一个文件中,银行名称也可能作为过户账户名称描述,或如果通过ID例如报价数字执行搜索,那么与ID相同的数字可能被作为金额描述。这样的可归因于全文搜索的问题可能发生,因为在文档内的关键词不被作为具有含义的字符处理。
在本文中,已知使用与文档相关联的元数据(属性信息)来管理文档的方法。例如,专利文献1提出了虚拟文件夹系统。虚拟文件夹系统通过设置每个文件上的元数据并且定义搜索条件以定位在每个虚拟文件夹中的每个元数据来实现。当查阅虚拟文件夹时,相应于相关联的搜索条件的文件搜索结果被呈现,由此实现了基于搜索条件的文件分类。例如,当管理商业文档时,“文档类型名称”(例如合同、订单或报价单)和“开具日期”被设置作为所有文件的元数据,并且虚拟文件夹被指定搜索条件:“文档类型名称:‘合同’”。然后,当查阅虚拟文件夹时,可以获取合同的列表。相似地,如果另一个虚拟文件夹被指定搜索条件:“开具日期:‘2009年1月至3月’”,那么可以收集在指定的时期发布的文档。如上文描述的,虚拟文件夹系统通过含义来分类文件。因此,文档的有效使用是可能的。
当设置文档上的元数据时,用户参照原始文档进行设置。许多文档管理产品提供元数据注册屏幕,使得用户参照文件手工键入元数据。作为用于减少这样的手工录入操作的负担的方法,例如,已知在专利文献2中提出的方法,其中当新的文件存储在其中已经存储有另一个文件的文件夹中时,与已经存储的文件的元数据相同的元数据被自动设置在新注册的文件上。此外,专利文献3提出了当意图在(表示其元数据已经被注册的文件的)小图像中注册的文件被拖放至小图像时,用于自动在新注册的文件上设置已经注册的元数据的方法。此外,专利文献4提出了用于通过参照文档内的句子的内容和布局之间的关系自动地从文档抽取元数据的技术。
引用列表
专利文献
特许文献1:日本专利公布(特开昭)No.2003-323326A
特许文献2:日本专利公布(特开昭)No.2009-75667A
特许文献3:日本专利公布(特开昭)No.2006-209516A
特许文献4:日本专利公布(特开昭)No.2005-235099A
发明概述
技术问题
根据专利文献2至4,虽然元数据录入操作的负担减少了,但是不能消除在注册之前通过视觉检查待注册的目标文档的需要。例如,根据专利文献2和3,必需在选择合适的现有文件或用于文档的注册的小图像之前检查待注册的目标文档的内容。此外,根据专利文献4,不一定的是,正确的元数据可以始终被抽取。因此,在实践中,必需视觉地检查元数据是否是正确的,并且,如果发现元数据是不正确的,修改这样的元数据。即,在注册元数据时,人应当始终参照最初的文件并且检查与其相关联的元数据。
然而,这样的检查操作对于用户来说是复杂的和繁琐的。由于该原因,某些用户可能会倾向于在文件服务器中注册文件而不设置其上的元数据,使得基于元数据的文件的有效使用将是不可能的。
本发明鉴于以上问题而作出。本发明提供用于在搜索文件的日常过程中自然和高效率地设置元数据的技术。
问题的解决方案
为了解决上述的问题,根据本发明,基于搜索关键词执行搜索,并且从文件数据库获取匹配搜索关键词的文件,包括其元数据被设置的文件(下文还称为元数据已设置文件)以及其元数据未被设置的文件(下文还称为元数据尚未设置文件)。候选元数据确定处理单元将通过执行搜索获取的元数据已设置文件中的一个的元数据设置作为元数据尚未设置文件中的一个的候选元数据。然后,元数据设置处理单元根据来自用户的指令将候选元数据在元数据设置屏幕上确定并且注册作为待设置在元数据尚未设置文件上的元数据。更具体地,候选元数据确定处理单元从通过执行搜索获取的元数据已设置文件抽取匹配键入的筛选条件的元数据已设置文件,并且将所抽取的元数据已设置文件的元数据设置作为元数据尚未设置文件的候选元数据。如果候选元数据的数量是一个,那么元数据设置处理单元授权候选元数据作为不可改变的元数据,并且如果候选元数据的数量多于一个,那么元数据设置处理单元允许候选元数据中的一个被选择。
当搜索关键词被设置用于确定候选元数据时,如果搜索关键词以预注册的表达形式描述的话,候选元数据确定处理单元将搜索关键词设置作为候选元数据。
当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定候选元数据时,如果词典数据库中的候选字符串包含在元数据尚未设置文件的文件路径中或元数据尚未设置文件中的字符串中的话,候选元数据确定处理单元将候选字符串设置作为候选元数据。
本发明的进一步的特征将从以下用于实施本发明的实施方案以及附图变得明显。
本发明的有利的效果
根据本发明,可以在搜索文件的日常过程中自然和高效率地设置元数据。
附图简述
图1示出了不能够通过全文搜索(关键词搜索)定位文件的实施例。
图2示出了通过全文搜索(关键词搜索)找到无关的文件的实施例。
图3是示出了根据本发明的实施方案的用于设置元数据的系统的示意性配置的图。
图4是示出了示例性的元数据的图。
图5是示出了示例性的词典数据的图。
图6是示出了示例性的元数据项目设置文件的图。
图7是示出了示例性的筛选条件设置文件的图。
图8是图示搜索和元数据设置过程的总览的流程图。
图9是图示确定候选元数据的过程(细节)的流程图。
图10是图示键入元数据的过程(细节)的流程图。
图11是示出了示例性的搜索屏幕的图。
图12是示出了示例性的(另一个实施方案)搜索屏幕的图。
图13是示出了示例性的元数据设置屏幕的图。
图14是示出了候选元数据的列表的示例性的显示屏幕的图。
实施方案的描述
本发明涉及用于高效率地和精确地设置其元数据尚未被设置的文件上的元数据的技术。如果元数据可以被高效率地和精确地设置,那么也成为可能的是使用元数据高效率地和精确地搜索文件。
在下文,根据本发明的实施方案的用于设置元数据的方法将参照附图描述。应当注意,这些实施方案仅是例证性说明实施本发明的目的,并且因此不意图限制本发明的技术范围。对于每个附图中的共同结构指定相同的参考数字。
<用于设置元数据的系统的配置>
图3是示出了根据本发明的实施方案的用于设置元数据的系统(文档处理系统)的示意性的配置的图。本系统包括其中储存有文件的文件数据库301、用于搜索文件数据库301中的文件的索引302、其中存储有已设置的元数据的元数据数据库303、具有可以表现为元数据(例如,客户名称列表和产品名称列表)以确定候选元数据的候选者的集合的词典数据库304、描述由本系统设置的元数据项目的元数据项目设置文件305、用于缩小候选元数据的范围的筛选条件设置文件306、显示搜索结果和元数据设置屏幕的显示设备307、用于键入或编辑数据并且选择菜单的键盘308和定位设备309例如鼠标、以及执行必需的算术过程、控制过程或类似过程的中央处理单元310。在本文的文件数据库301中,其元数据已被设置的文件(还被称为元数据已设置文件)以及其元数据未被设置的文件(还被称为元数据尚未设置文件)二者都被存储。在搜索索引302中,与包含在每个文件的文件路径中或每个文件中的字符串相关联的索引被存储。对于文件数据库301、搜索索引302、元数据数据库303和词典数据库304中的每个,物理数据库实体的数量可以多于一个。
中央处理单元310包括使用搜索索引302执行对文件数据库301的关键词搜索的搜索执行单元(搜索执行功能)311、执行将搜索执行单元311获得的输出结果显示在显示设备307上的过程的搜索结果显示处理单元(显示功能)312、使用元数据已设置文件确定元数据尚未设置文件的候选元数据的候选元数据确定处理单元(元数据确定处理功能)313、以及执行设置文件上的元数据的过程的元数据设置处理单元(元数据设置处理功能)314。上述的处理单元以及用于这样的处理单元的数据或程序也可以以存储在记录介质例如CD-ROM、DVD-ROM、MO、软盘或USB存储器中的形式提供。
<元数据>
图4是示出了在元数据数据库303中的示例性的元数据的图。在元数据数据库303中,仅元数据被设置,而文件实体存储在文件数据库301中。因此,当元数据被在文件上设置时,这样的元数据被在元数据数据库303中设置。当元数据被在文件上设置时,元数据被依次地加入元数据数据库303中。
如图4中所示的,元数据被以表格形式管理,并且单个文件对应于单个行。表格由唯一地识别文件的ID 401、文件的文件路径402以及该文件已注册的元数据403组成。元数据403包括对应于使用本发明的系统管理的元数据项目的列。
在图4的实施例中,元数据项目包括文档类型名称404、客户名称405、开具日期406、项目ID 407、以及管理部门408。虽然在图4中某些方格是空的,但是这样的方格指示缺少对应的元数据。此外,可以加入元数据的组成要素,并且在这样的情况下,列被相应地加入域403中。
<词典数据>
图5是示出了在词典数据库304中的示例性的词典数据的图。词典数据库304由字符串的列表组成,所述字符串可以视为每个元数据项目的元数据。这样的列表被作为文本文件注册。
例如,如图5中所示的,元数据项目的元数据关键词的集合:“文档类型名称”被作为“Type.txt”注册,并且元数据项目的关键词的集合:“管理部门”被作为“Management.txt”注册。每个关键词使用换行被键入词典数据库中。
<元数据项目设置文件>
图6是示出了元数据项目设置文件305的内容的实施例的图。元数据项目设置文件305用于设置使用本系统注册的元数据项目的类型。在本文中设置的元数据项目对应于图4中的元数据403的列。元数据项目设置文件305被以XML格式描述,并且每个元数据项目被作为根目录标签<metaList>的子要素<item>描述。
当元数据项目是指词典文件时,“refDic”被指定作为<item>的属性,并且相应的词典文件的文件名被在其中描述。同时,当元数据项目被以固定格式(例如日期或ID)写入时,“regExp”被指定作为<item>的属性并且元数据在其中以正则表达式的形式描述。当词典数据被加入时,“refDic”的项目被加入元数据项目设置文件305中。
<筛选条件设置文件>
图7是示出了筛选条件设置文件306的内容的实施例的图。当本系统确定元数据尚未设置文件的候选元数据时,其使用元数据已注册文件作为一条信息,如下文描述的。然后,为了更精确地提取候选元数据,执行用于缩小元数据已注册文件的范围以确定候选元数据的操作。这是因为,如果缩小范围中的文件具有与元数据尚未设置文件的性质相似的性质,那么非常可能的是元数据尚未设置文件具有与该元数据已设置文件的元数据相同的元数据。例如,在同一个文件夹中的文件以较高的概率具有相同的元数据,因为这样的文件应该为了某种目的已经被存储在同一个文件夹中。此外,以相似的日期和时间创建的图像文件以较高的概率具有相同的元数据,因为这样的文件可能已经被使用多功能打印机或扫描仪同时创建。在本系统中,为了将文件特征缩小范围至相似的一个特征,使用了文件系统最初保留的文件属性。筛选条件设置文件确定在何条件下文件应当被视为“相似的文件”。
筛选条件设置文件以XML进行描述,并且每个条件在根节点<similarFileFilterSetting>的子要素<fileFilter>中描述。子要素<filefilter>将指示条件的名称的<name>、指示由条件涉及的文件系统上的属性名称的<dataOfFileSystem>、指示属性值的数据类型的<dataType>、以及指示在何条件下文件应当被视为相似的文件的<filterCondition>作为其子要素。用于分析<filterCondition>的值的方式因<dataType>而不同。例如,在图7中,与“Same_Folder”相关的筛选条件被设置作为第一<fileFilter>。这样的筛选条件描述关于在何条件下文件应当被视为“在同一个文件夹中的文件”的定义。在本文中,数据类型“FilePath”的数据从文件系统获取。类型名称是2的<filterCondition>指示,本系统被配置为将驻留在相关文件的两个层级内的文件夹中的文件视为“驻留在同一个文件夹中的文件”。
相似地,下一个<fileFilter>描述关于文件名是否相似的设置。在本文中,数据类型“string”的数据从文件系统获取。这种数据类型是70的<filterCondition>指示,其中70%或更多的构成字符匹配的文件名应当被视为相似的文件名。对于下一个<fileFilter>,数据类型“date”的数据从文件系统获取。在本文中,<filterCondition>是7指示,在相关文件的创建日期之前和之后7天内创建的文件应当被视为相似的文件。
最后的<fileFilter>确定文件类型是否相同。即,本系统基于扩展名的类型确定文件类型是否相同。即,系统检查文件扩展名属于<filterCondition>中的哪个<group>,并且确定在相同的组中描述的其他的扩展名是相同的文件类型。因此,其扩展名是“doc”、“docx”、“rtf”、“txt”和“pdf”的文件可以被确定为具有相同的文件类型。
<搜索和元数据设置处理>
图8是用于图示搜索和在搜索期间设置元数据未注册文件上的元数据的过程的总览的流程图。
首先,候选元数据确定处理单元313读取元数据项目设置文件305和筛选条件设置文件306(步骤801)。在本文中,可以从元数据项目设置文件305知道使用本系统设置的元数据项目以及与元数据项目相关的词典的存在与否。还可以从筛选条件设置文件306知道可以使用本发明的系统设置的筛选条件。在这样的信息被读取之后,搜索结果显示处理单元312显示候选元数据输出设置屏幕,并且接受来自用户的录入。候选元数据输出设置屏幕是可以在其上设置是否使用搜索关键词、是否使用词典数据以及将使用哪个筛选条件的屏幕。
然后,搜索执行单元311从用户接收搜索关键词,并且使用搜索索引302执行基于关键词的搜索(步骤802)。
然后,候选元数据确定处理单元313从步骤802中执行的搜索结果确定每个元数据未注册文件的候选元数据(步骤803)。文件的元数据是否已经被注册可以通过检查元数据数据库303是否具有作为元数据已设置文件的文件而确定。确定候选元数据的详细过程(步骤803)将在下文描述(见图9)。
然后,搜索结果显示处理单元312将在步骤802中执行的搜索结果显示在显示设备307上,如图11或图12中所示的,使得元数据已注册文件被与元数据未注册文件分开显示(步骤804)。与文件相关的显示内容的实例包括文件名、文件摘要信息(关于文件内的搜索关键词的字符串的信息)以及文件路径。对于元数据已注册文件,相关联的元数据从元数据数据库303获取并且被显示。对于元数据未注册文件,在步骤803中确定的候选元数据被显示。
搜索结果显示处理单元312接受关于是否键入每个元数据未注册文件的元数据的录入(步骤805)。具有两个用于初始化录入的方法。第一方法是使用在步骤803中获得的候选元数据作为元数据来初始化元数据的录入的方法。第二方法是在其中没有一个元数据项目被设置的状态(即不使用候选元数据)初始化元数据的录入的方法。例如,如果用户可以从文件摘要信息或在步骤804中显示的文件路径确定候选元数据是正确的,那么元数据的录入可以使用第一方法初始化。可选择地,如果候选元数据被确定为是不正确的或候选元数据是否是正确的不能够从摘要信息或文件路径知道,那么元数据的录入可以使用第二方法初始化。在任何情况下,元数据的录入可以使用单个操作初始化。如果在步骤805中元数据被确定为键入,那么流程进行至步骤806,并且如果不是的话,那么流程进行至步骤808。
如果为每个元数据尚未设置文件键入元数据(如果步骤805的回答是“是”),那么元数据设置处理单元314对于在步骤805中选择的文件执行键入元数据的过程(步骤806)。详细的处理将在下文描述(见图10)。
在步骤806中确定元数据时,搜索结果显示处理单元312识别其元数据刚刚被设置而作为元数据已注册文件的文件,并且再次显示搜索结果(步骤807)。在步骤807之后,流程返回至步骤805以继续该过程。
最终,搜索结果显示处理单元312检查在步骤801中显示的候选元数据输出设置屏幕上的设置是否已经改变(步骤808),并且如果发现设置改变(例如如果筛选条件和类似物在图11中改变),那么流程返回至步骤803以继续该过程。如果没有发现改变,那么过程终结。
<确定候选元数据的处理(步骤803的细节)>
图9是用于图示确定每个元数据未注册文件的候选元数据的过程的细节的流程图。候选元数据可以使用以下三种方法中的任何一种确定。第一方法是指定搜索关键词作为候选元数据的方法。第二方法是检查词典中的关键词是否包含在元数据未注册文件的文档内的字符串中或在元数据未注册文件的文件路径中,并且如果发现关键词包含在其中,那么指定这样的关键词作为候选元数据的方法。第三方法是搜索在元数据已注册文件中频繁地出现的元数据并且指定这样的元数据作为候选元数据的方法。在下文,这样的过程的细节将被描述。应当注意,进行每个步骤的主体是候选元数据确定处理单元313,除非另有说明。
首先,在搜索结果中,元数据未注册文件的数量用N表示(步骤901)。在下文,执行该过程,假定N表示其候选元数据尚未被确定的元数据未注册文件的数量。
然后,确定N是否为零(步骤902)。如果N是零,那么这意味着搜索结果最初不包含元数据未注册文件或(如将从以下的过程理解的)对于所有元数据未注册文件已经确定了候选元数据。如果N是零,那么过程终结,并且如果N不是零,那么流程进行至下一个步骤903。
然后,选择其候选元数据尚未被确定的文件中的一个。这样的文件用F表示(步骤903)。
从候选元数据输出设置窗格读取是否使用在当前的搜索中使用的搜索关键词作为候选元数据(例如,检查“搜索关键词”是否在图11中的候选元数据输出设置窗格中被设置为“使用”)(步骤904)。如果确定使用搜索关键词,那么流程进行至下一个步骤905,并且如果不是的话,那么流程进行至步骤906。
此外,确定搜索关键词是否是候选元数据的可能性(步骤905)。具体地,读取在元数据项目设置文件305中的<item>标签的属性“regExp”中描述的正则表达式的值,并且如果该值匹配搜索关键词,那么这样的搜索关键词被指定作为相应的元数据项目<item>的“候选”元数据。例如,如果搜索关键词是“设计部门(designing department)”,那么其对应于“regExp=*Department”。因此,搜索关键词“设计部门”被指定作为候选元数据。应当注意,如果搜索关键词匹配两个或更多个元数据项目的正则表达式,或如果搜索关键词不匹配任何一个正则表达式中,那么这样的搜索关键词不被指定作为候选元数据。
相似地,从候选元数据输出设置窗格读取是否使用词典确定候选元数据(步骤906)。如果使用词典确定候选元数据,那么流程进行至下一个步骤907,并且如果不使用的话,那么流程进行至步骤908。
然后,执行使用词典确定候选元数据的过程(步骤907)。具体地,参照由元数据项目设置文件305中的<item>标签的属性“refDic”给予的词典。如果发现词典中的关键词出现在文件F的文件路径中或在文件F内的字符串中,那么这样的关键词被指定作为相应的元数据项目<item>的候选元数据。当词典中的多个关键词出现在文件F的文件路径中或在文件F内时或当词典中的关键词中没有一个出现时,词典中没有关键词被指定作为候选元数据。
上述的步骤905和907是使用元数据已注册文件确定候选元数据的过程。同时,在步骤908中,从候选元数据输出设置窗格读取哪个筛选条件被指定。然后,在元数据已注册文件中,选择匹配文件F的指定的筛选条件的文件(如果没有指定的筛选条件,那么选择所有的元数据已注册文件)。基于筛选条件设置文件306的内容确定元数据已注册文件中的任何一个是否匹配筛选条件。在本文中所选择的文件称为文件组FG。
然后,从文件组FG收集对应于每个元数据项目(包括在域403中的项目)的元数据(步骤909)。如果FG中的最频繁的元数据出现的百分比大于或等于阈值T%,那么这样的元数据被指定作为“候选”元数据。例如,假设文件组FG包括100个文件,并且从其收集元数据项目“文档类型名称”,如果80个文件的元数据表示“报价单”并且如果阈值T是80%或更小,那么“报价单”可以被指定作为候选者。以相似的方式汇总对应于其他的元数据项目的元数据,并且将最频繁的元数据出现的百分比与阈值比较。如果百分比大于或等于阈值,那么这样的元数据被指定作为候选者。
此外,由于已经确定单个元数据未注册文件的候选元数据,N被N-1覆写,并且流程返回至步骤902以继续执行该过程(步骤910)。
在图9中,为了确定候选元数据,使用搜索关键词(步骤904和905),并且之后使用词典(步骤906和907),并且最终,使用在元数据已注册文件中频繁地出现的关键词(步骤908和909)。然而,上述的顺序可以改变。
同时,当元数据项目具有多个候选者时(例如当首先使用搜索关键词确定一个候选者,并且然后使用词典确定另一个候选者时),之前确定的候选者可以被新确定的候选者覆写。可选择地,可以始终使用之前确定的候选者。
<元数据录入过程的细节(步骤806)>
图10是用于图示键入元数据未被键入的文件的元数据的过程的细节的流程图。
首先,搜索结果显示处理单元312显示元数据未被键入的文件的内容,如图13中所示的(步骤1001)。
然后,元数据设置处理单元314显示用于键入对应于每个元数据项目的元数据的文本框,并且接受元数据的录入(步骤1002)。在此时间,如果元数据的录入已经使用在步骤805中作为元数据采用的候选元数据来初始化,那么这样的候选元数据的值被输入文本框中并且以不可编辑状态显示。
元数据设置处理单元314接受是否列出对应于每个元数据项目的候选元数据的录入(检测候选元数据按钮是否被按下),并且显示对应于元数据项目的候选元数据的列表(步骤1003)。在本文中的候选元数据的列表通过汇总来自文件组的匹配元数据已注册文件的给定的筛选条件的元数据而确定。候选元数据以频率递减的顺序显示。
此外,元数据设置处理单元314接受用户从步骤1003中显示的列表中选择的元数据(步骤1004)。
最终,元数据设置处理单元314确定所键入的元数据是否已经被用户授权(步骤1005)。如果所键入的元数据被确定为已经被用户授权,那么其作为元数据数据库303中的元数据被注册。然后,过程终结。
<搜索屏幕的实施例>
图11是示出了本发明的系统的示例性的搜索屏幕的图。当用户将搜索关键词键入文本框1101中并且按下搜索执行按钮1102时,执行搜索。搜索结果可以被显示为使得元数据已注册文件和元数据未注册文件二者以混合的方式显示。可选择地,这样的文件可以分开显示。可以使用复选框1103切换显示。图11的配置示出了其中两种文件以混合的方式显示的实施例。
通过搜索找出的文件在搜索结果显示窗格1104中显示。所找出的文件中的每个被显示为具有文件名1105、文件摘要信息1106和文件路径1107。对于元数据已注册文件,也显示其元数据1108。同时,元数据未注册文件被显示为具有指示元数据不存在的符号1109。此外,确定和显示文件的候选元数据1110。当元数据的录入通过采用候选元数据1110初始化时,按钮1111被按下,但是当元数据的录入在不采用候选元数据时进行初始化时,按钮1112被按下。例如,如果用户通过察看在屏幕上显示的摘要性显示或文件路径,确定元数据是明显地正确的,那么他/她按下按钮1111以初始化元数据的录入。
可以在候选元数据输出设置窗格1113上设置和调整候选元数据,使得合适的候选元数据被呈现。例如,当使用搜索关键词确定候选元数据时,使用单选按钮1114选择候选者,而当使用词典数据时,使用单选按钮1115选择候选者。此外,当候选元数据选自元数据已注册文件的元数据时,可以使用文件系统的属性对元数据已注册文件执行缩小范围(筛选过程),使得更精确的候选元数据可以被呈现。例如,当文件被缩小范围至在同一个文件夹中的文件时,勾选复选框1116。相似地,当文件被缩小范围至其文件名是相似的的文件时,勾选复选框1117;当被缩小范围至其创建日期和时间接近的文件时,勾选复选框1118;当被缩小范围至其最后访问日期和时间接近的文件时,勾选复选框1119;并且当被缩小范围至相同的文件类型的文件时,勾选复选框1120。当候选元数据输出设置窗格1113的设置改变时,重新确定并且再次显示在搜索结果显示窗格1104上的每个文件的候选元数据1110。
图12是示出了本系统的另一个示例性的搜索屏幕的图。图12与图11不同的是复选框1201(图11中的1103)被勾选。然后,显示搜索结果,使得元数据未注册文件和元数据已注册文件分开地分别显示在未注册文件显示窗格1202和已注册文件显示窗格1203上。使用这样的显示配置,用户可以专注于输入元数据的操作。此外,可以容易地找到元数据未注册文件。
同时,图11的显示配置是搜索结果的常规显示,其是在用户主要想执行搜索时不会感到繁琐的界面。
使用诸如图12中示出的显示配置的显示配置,当使用键入文本框1204中的“报价单”执行搜索时,将找出多个与报价单相关的文件。因此,在为报价单文件集中设置元数据时,这样的配置是方便且高效率的。此外,当没有关键词键入用于键入搜索关键词的文本框1204中时执行搜索,可以显示包括在文件服务器中的所有文件。因此,所有的元数据未注册文件可以显示,并且元数据可以在其上设置而没有遗漏。
<元数据设置屏幕>
图13是示出了本系统的示例性的元数据设置屏幕的图。被选择的文件显示在元数据设置屏幕上的文件显示区域1301中。用户在察看所显示的文件时设置元数据。元数据被显示在用于每个元数据项目的文本框中。
在图13中,文档类型名称显示在文本框1302中,客户名称显示在文本框1303中,开具日期显示在文本框1304中,项目ID显示在文本框1305中,并且管理部门显示在文本框1306中。在搜索屏幕上,当元数据的录入通过采用候选元数据来初始化时(当元数据的录入通过按下图11中的按钮1111初始化时),已经设置的元数据项目被配置为是不可编辑的(图13中的文本框1302和1303)。使用这样的显示配置,用户可以缩小待设置的元数据项目的范围。因此,元数据可以以更高效率进行注册。这样的配置在具有很多元数据项目时是特别高效的。当用于每个元数据项目的候选者列表按钮1307被按下时,对应的元数据项目的候选元数据的列表以精确度递减的顺序显示。候选者列表和列表的显示顺序可以在候选元数据输出设置窗格1308上调整。用户可以从候选者列表选择合适的元数据或直接地将元数据键入文本框中。当所有的元数据已经键入并且“键入”键1309被按下时,所键入的元数据被在系统中注册。
图14示出了示例性的显示候选者列表的屏幕。具体地,图14示出了在图13中的候选者列表按钮1307被按下时显示的屏幕。候选者列表以下拉列表1401的形式显示,并且候选元数据以精确度递减的顺序显示。当用户从列表选择候选元数据中的一个并且按下“确定”按钮1402时,所选择的元数据被输入图13中的文本框中。当用户按下“取消”按钮1403时,元数据不被输入并且屏幕被关闭。
<结论>
根据本发明,基于搜索关键词执行搜索,并且从文件数据库获取匹配搜索关键词的文件,包括元数据已设置文件和元数据尚未设置文件二者。然后,已经通过执行搜索获取的元数据已设置文件通过筛选条件缩小范围(例如见图7),并且缩小范围的元数据已设置文件的元数据被设置作为元数据尚未设置文件的候选元数据。然后,元数据设置处理单元根据来自用户的指令将候选元数据在元数据设置屏幕上确定(使其不可编辑)并且注册作为待设置在元数据尚未设置文件上的元数据。因此,可以高效率地设置文件的元数据。即,虽然始终视觉地检查注册元数据的操作,但是不必检查或编辑所有的元数据项目。因此,可以简化元数据的注册。此外,因为在搜索文件服务器的日常过程中自然地进行元数据的注册,所以可以实现用户的无压力的元数据设置。
当具有单条候选元数据时,候选元数据被授权作为不可变的数据。然而,当具有多条候选元数据时,其中的一条被配置为是可选择的。以这种方式,不是所有的元数据都被配置为是不可编辑的,但是元数据被配置为可以灵活地设置,由此可以改进元数据设置的精确度。
当搜索关键词被设置用于确定候选元数据时,如果搜索关键词被以预注册的表达形式描述的话,候选元数据确定处理单元将搜索关键词设置作为候选元数据。此外,当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定候选元数据时,如果词典数据库中的候选字符串包含在元数据尚未设置文件的文件路径中或元数据尚未设置文件中的字符串中的话,候选元数据确定处理单元将候选字符串设置作为候选元数据。因此,元数据可以与搜索关键词相关联地或与文件路径相关联地设置。
应当注意,本发明也可以通过实施实施方案的功能的软件的程序代码实现。在这样的情况下,其上记录有程序代码的存储介质被提供给系统或装置,并且系统或装置中的计算机(或CPU或MPU)读取存储在存储介质中的程序代码。在这种情况下,从存储介质读取的程序代码自身实施上述的实施方案的功能,并且程序代码自身以及其上记录有程序代码的存储介质构成本发明。对于用于供应这样的程序代码的存储介质,例如,使用软盘、CD-ROM、DVD-ROM、硬盘、光盘、磁光盘、CD-R、磁带、非易失存储卡、ROM或类似物。
此外,基于程序代码的指令,在计算机或类似设备上运行的OS(操作系统)可以执行实际过程中的某些或全部,并且上述的实施方案的功能可以通过这些过程实施。此外,在从存储介质读取的程序代码被写入计算机中的存储器之后,计算机的CPU或类似物可以基于程序代码的指令执行实际的过程中的某些或全部,并且上述的实施方案的功能可以通过这些过程实现。
此外,实施实施方案的功能的软件的程序代码可以通过网络分发,并且由此存储在系统或装置中的存储工具例如硬盘或存储器中,或诸如CD-RW或CD-R的存储介质中,并且在使用时,系统或装置中的计算机(或CPU或MPU)可以读取存储在存储工具或存储介质中的程序代码并且执行程序代码。
参考标号列表
301文件数据库
302搜索索引
303元数据数据库
304词典数据库
305元数据项目设置文件
306筛选条件设置文件
307显示设备
308键盘
309鼠标
310中央处理单元
311搜索执行单元
313候选元数据确定处理单元
314元数据设置处理单元
401文件ID
402文件路径
403整个元数据
404文档类型名称
405客户名称
406开具日期
407项目ID
408管理部门
1101用于键入搜索关键词的文本框
1102搜索执行按钮
1103用于确定是否分开显示元数据已设置文件和元数据尚未设置文件的复选框
1104搜索结果显示窗格
1105通过搜索找出的文件的文件名
1106通过搜索找出的文件的摘要信息
1107通过搜索找出的文件的文件路径
1108通过搜索找出的文件的元数据
1109指示元数据尚未被注册的符号
1110通过搜索找出的文件的候选元数据
1111用于通过使用候选元数据初始化元数据录入的按钮
1112用于在不使用候选元数据时初始化元数据录入的按钮
1113候选元数据输出设置窗格
1114用于确定是否使用搜索关键词的单选按钮
1115用于确定是否使用词典的单选按钮
1116用于确定是否根据筛选条件选择在同一个文件夹中的文件的复选框
1117用于确定是否根据筛选条件选择具有相似的文件名的文件的复选框
1118用于确定是否根据筛选条件选择其创建日期和时间接近的文件的复选框
1119用于确定是否根据筛选条件选择其最后访问日期和时间接近的文件的复选框
1120用于确定是否根据筛选条件选择相同的文件类型的文件的复选框
1201用于确定是否分开显示元数据已设置文件和元数据尚未设置文件的复选框
1202用于元数据尚未设置文件的显示窗格
1203用于元数据已设置文件的显示窗格
1204用于键入搜索关键词的文本框
1301文件显示区域
1302指示与文档类型名称相关联的元数据的文本框
1303指示与客户名称相关联的元数据的文本框
1304指示与开具日期相关联的元数据的文本框
1305指示与项目ID相关联的元数据的文本框
1306指示与管理部门相关联的元数据的文本框
1307显示候选元数据的列表的候选者列表按钮
1308候选元数据输出设置窗格
1309键入按钮
1401示出了候选元数据的列表的下拉列表
1402确定按钮
1403取消按钮

Claims (4)

1.一种用于设置电子文件上的元数据的元数据设置方法,包括:
搜索执行步骤,其中搜索执行单元基于搜索关键词执行搜索,并且从文件数据库获取匹配所述搜索关键词的文件,所述文件包括元数据已设置文件和元数据尚未设置文件;
搜索结果显示步骤,其中搜索结果显示处理单元将在所述搜索执行步骤中获取的所述元数据已设置文件和所述元数据尚未设置文件作为搜索结果显示;
候选元数据确定处理步骤,其中候选元数据确定处理单元将在所述搜索执行步骤中获取的所述元数据已设置文件中的一个的元数据设置作为所述元数据尚未设置文件中的一个的候选元数据;
元数据设置屏幕显示步骤,其中所述搜索结果显示处理单元将由用户选择的元数据尚未设置文件的元数据设置屏幕显示在显示单元上;以及
元数据注册步骤,其中元数据设置处理单元根据来自用户的指令将所述候选元数据在所述元数据设置屏幕上确定并且注册作为待设置在所述元数据尚未设置文件上的元数据;
其中在所述候选元数据确定处理步骤中,所述候选元数据通过以下方式中的任何一种确定:
(i)所述候选元数据确定处理单元从在所述搜索执行步骤中获取的所述元数据已设置文件抽取匹配键入的筛选条件的元数据已设置文件,并且将所抽取的元数据已设置文件的元数据设置作为所述元数据尚未设置文件的候选元数据;
(ii)当所述搜索关键词被设置用于确定所述候选元数据时,如果所述搜索关键词以预注册的表达形式描述的话,所述候选元数据确定处理单元将所述搜索关键词设置作为所述候选元数据;以及
(iii)当存储有能够视为元数据的候选字符串的词典数据库被设置用于确定所述候选元数据时,如果所述词典数据库中的所述候选字符串包含在所述元数据尚未设置文件的文件路径中或所述元数据尚未设置文件中的字符串中的话,所述候选元数据确定处理单元将所述候选字符串设置作为所述候选元数据。
2.根据权利要求1所述的元数据设置方法,其中在所述元数据注册步骤中,如果所述候选元数据的数量是一个,那么所述元数据设置处理单元授权所述候选元数据作为不可改变的元数据,并且如果所述候选元数据的数量多于一个,那么所述元数据设置处理单元允许所述候选元数据中的一个被选择。
3.一种用于设置电子文件上的元数据的元数据设置系统,包括:
文件数据库,其中存储有元数据已设置文件和元数据尚未设置文件;
搜索执行单元,其被配置为基于搜索关键词执行搜索并且从所述文件数据库获取匹配所述搜索关键词的文件,所述文件包括元数据已设置文件和元数据尚未设置文件;
搜索结果显示处理单元,其被配置为将通过所述搜索执行单元获取的所述元数据已设置文件和所述元数据尚未设置文件作为搜索结果显示在显示单元上;
候选元数据确定处理单元,其被配置为将通过所述搜索执行单元获取的所述元数据已设置文件中的一个的元数据设置作为所述元数据尚未设置文件中的一个的候选元数据;以及
元数据设置处理单元,其被配置为执行设置元数据的处理,
其中当所述搜索结果显示处理单元将由用户选择的元数据尚未设置文件的元数据设置屏幕显示在所述显示单元上时,所述元数据设置处理单元根据来自用户的指令将所述候选元数据在所述元数据设置屏幕上确定并且注册作为待设置在所述元数据尚未设置文件上的元数据;
其中所述候选元数据确定处理单元还被配置成通过以下方式中的任何一种确定所述候选元数据:
(i)所述候选元数据确定处理单元从通过所述搜索执行单元获取的所述元数据已设置文件抽取匹配键入的筛选条件的元数据已设置文件,并且将所抽取的元数据已设置文件的元数据设置作为所述元数据尚未设置文件的候选元数据;
(ii)其中当所述搜索关键词被设置用于确定所述候选元数据时,如果所述搜索关键词以预注册的表达形式描述的话,所述候选元数据确定处理单元将所述搜索关键词设置作为所述候选元数据;以及
(iii)所述元数据设置系统还包括存储有可能会作为元数据出现的候选字符串的词典数据库,其中如果所述词典数据库被设置用于确定所述候选元数据,如果所述词典数据库中的所述候选字符串包含在所述元数据尚未设置文件的文件路径中或所述元数据尚未设置文件中的字符串中的话,那么所述候选元数据确定处理单元将所述候选字符串设置作为所述候选元数据。
4.根据权利要求3所述的元数据设置系统,其中如果所述候选元数据的数量是一个,那么所述元数据设置处理单元授权所述候选元数据作为不可改变的元数据,并且如果所述候选元数据的数量多于一个,那么所述元数据设置处理单元允许所述候选元数据中的一个被选择。
CN201080043084.7A 2009-09-30 2010-09-30 设置元数据的方法、设置元数据的系统以及程序 Expired - Fee Related CN102576362B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009227664A JP5424798B2 (ja) 2009-09-30 2009-09-30 メタデータ設定方法及びメタデータ設定システム、並びにプログラム
JP2009-227664 2009-09-30
PCT/JP2010/005878 WO2011040025A1 (en) 2009-09-30 2010-09-30 Method for setting metadata, system for setting metadata, and program

Publications (2)

Publication Number Publication Date
CN102576362A CN102576362A (zh) 2012-07-11
CN102576362B true CN102576362B (zh) 2015-04-01

Family

ID=43825870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080043084.7A Expired - Fee Related CN102576362B (zh) 2009-09-30 2010-09-30 设置元数据的方法、设置元数据的系统以及程序

Country Status (5)

Country Link
US (1) US20120179702A1 (zh)
EP (1) EP2483814A4 (zh)
JP (1) JP5424798B2 (zh)
CN (1) CN102576362B (zh)
WO (1) WO2011040025A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348890B2 (en) 2011-08-30 2016-05-24 Open Text S.A. System and method of search indexes using key-value attributes to searchable metadata
CN105653531B (zh) * 2014-11-12 2020-02-07 中兴通讯股份有限公司 数据提取方法及装置
JP6613620B2 (ja) * 2015-05-20 2019-12-04 富士電機株式会社 対策事例情報登録・検索装置、キーワード決定方法
US11030181B2 (en) 2015-11-30 2021-06-08 Open Text Sa Ulc Systems and methods for multi-brand experience in enterprise computing environment
US10719487B2 (en) * 2016-01-29 2020-07-21 M-Files Oy Method, an apparatus, a computer program product for determining metadata for a data item
US9842095B2 (en) * 2016-05-10 2017-12-12 Adobe Systems Incorporated Cross-device document transactions
CN107729476B (zh) * 2017-10-16 2020-07-24 昆仑智汇数据科技(北京)有限公司 一种机器数据在线处理方法及系统
KR101955974B1 (ko) * 2018-08-30 2019-03-12 주식회사 아이오케이 음원 관련 파일 등록 요청 장치 및 그 제어방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259410A (ja) * 2001-03-05 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> オブジェクト分類管理方法、オブジェクト分類管理システム、オブジェクト分類管理プログラム及び記録媒体
US6795094B1 (en) * 1997-04-22 2004-09-21 Canon Kabushiki Kaisha Method and apparatus for processing an image, and storage
CN101247494A (zh) * 2007-01-05 2008-08-20 索尼株式会社 信息处理装置、方法及程序

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US7925682B2 (en) * 2003-03-27 2011-04-12 Microsoft Corporation System and method utilizing virtual folders
JP2005309727A (ja) * 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
GB0524572D0 (en) * 2005-12-01 2006-01-11 Univ London Information retrieval
JP2008134850A (ja) * 2006-11-28 2008-06-12 Canon Inc メタデータ入力支援方法、メタデータ入力支援装置、及びコンピュータプログラム
US8069173B2 (en) * 2007-11-12 2011-11-29 Canon Kabushiki Kaisha Information processing apparatus and method of controlling the same, information processing method, and computer program
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
US9710491B2 (en) * 2009-11-02 2017-07-18 Microsoft Technology Licensing, Llc Content-based image search
JP5512489B2 (ja) * 2010-10-27 2014-06-04 株式会社日立ソリューションズ ファイル管理装置及びファイル管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795094B1 (en) * 1997-04-22 2004-09-21 Canon Kabushiki Kaisha Method and apparatus for processing an image, and storage
JP2002259410A (ja) * 2001-03-05 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> オブジェクト分類管理方法、オブジェクト分類管理システム、オブジェクト分類管理プログラム及び記録媒体
CN101247494A (zh) * 2007-01-05 2008-08-20 索尼株式会社 信息处理装置、方法及程序

Also Published As

Publication number Publication date
JP2011076396A (ja) 2011-04-14
EP2483814A1 (en) 2012-08-08
JP5424798B2 (ja) 2014-02-26
CN102576362A (zh) 2012-07-11
US20120179702A1 (en) 2012-07-12
EP2483814A4 (en) 2015-09-02
WO2011040025A1 (en) 2011-04-07

Similar Documents

Publication Publication Date Title
CN102576362B (zh) 设置元数据的方法、设置元数据的系统以及程序
US8799317B2 (en) Forensic system, forensic method, and forensic program
US9244920B2 (en) Forensic system, forensic method, and forensic program
US8549037B2 (en) Forensic system, forensic method, and forensic program
US7636886B2 (en) System and method for grouping and organizing pages of an electronic document into pre-defined categories
US6477528B1 (en) File management system, electronic filing system, hierarchical structure display method of file, computer readable recording medium recording program in which function thereof is executable
US20060206462A1 (en) Method and system for document manipulation, analysis and tracking
US8065267B2 (en) Information processing device, file data merging method, file naming method, and file data output method
US20090089315A1 (en) System and method for associating metadata with electronic documents
JP2013211040A (ja) 情報処理装置並びにファイル管理方法
Groom et al. Improved standardization of transcribed digital specimen data
Böschen Software review: The JATSdecoder package—extract metadata, abstract and sectioned text from NISO-JATS coded XML documents; Insights to PubMed central’s open access database
US9195661B2 (en) Method and system for click-thru capability in electronic media
EP2461255A1 (en) Document data processing device
Pledge et al. Process and progress: working with born-digital material in the Wendy Cope Archive at the British Library
JP4787590B2 (ja) 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
US20210240334A1 (en) Interactive patent visualization systems and methods
Asfoor Applying Data Science Techniques to Improve Information Discovery in Oil And Gas Unstructured Data
JP5690301B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP3998201B2 (ja) 文書検索方法
JP4098509B2 (ja) 文書処理装置及び文書処理方法
Simpson OceanBestPractices Guidelines for Editors, Version 1.
Bryant Using Reference Manager
Guide User
Thummala Bibliography Tools in the Context of WWW and LATEX

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150401

Termination date: 20170930