CN1731398A - 信息处理装置、文档检索方法 - Google Patents
信息处理装置、文档检索方法 Download PDFInfo
- Publication number
- CN1731398A CN1731398A CNA2005100894255A CN200510089425A CN1731398A CN 1731398 A CN1731398 A CN 1731398A CN A2005100894255 A CNA2005100894255 A CN A2005100894255A CN 200510089425 A CN200510089425 A CN 200510089425A CN 1731398 A CN1731398 A CN 1731398A
- Authority
- CN
- China
- Prior art keywords
- document
- mentioned
- retrieval
- degree
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000010365 information processing Effects 0.000 title abstract 3
- 238000003860 storage Methods 0.000 title description 18
- 230000008569 process Effects 0.000 claims description 32
- 230000003750 conditioning effect Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 abstract description 4
- 238000007726 management method Methods 0.000 description 104
- 238000012545 processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 8
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供信息处理装置、文档检索方法。在以多个数据库为对象进行文档检索时,可以在短时间以适当量输出适宜的检索结果的检索技术。为了解决该课题,本发明的信息处理装置具备以下的构成。即,是以多个数据库为对象进行文档检索的信息处理装置,包括:检索在上述多个数据库中被存储在任意的数据库中的文档的部件;记录给被存储在上述多个数据库中的文档的访问信息的部件;使用上述访问信息抽出上述被检索的文档和访问顺序的最近的文档,基于该访问顺序,算出和上述被检索的文档的关联度的部件;可以把上述被检索的文档,和由算出了上述关联度的文档作为检索结果输出的部件。
Description
技术领域
本发明涉及电子文档的管理技术,特别涉及进行电子文档检索的检索技术。
背景技术
在企业和机关的办公室中,办公环境的网络化、数字化不断进展,把各种文档利用文字处理软件、电子数据表软件、图像软件等软件作为电子文档保管。此外,也进行用扫描器等的设备把纸文档转换为电子文档并进行保管。
这样在办公室中需要保管许多的电子文档,因此,在许多办公室中导入文档管理系统,谋求电子文档的有效的管理(例如,参照特开2000-315210号公报)。
但是,在一个数据库中处理的文档数是有限的,当登记文档数增大时,分割数据库,分成多个数据库进行管理。此外,如果以巨大的文档数为对象进行检索,则因为检索效率差(需要检索时间),所以还有准备分散数据库环境的情况。进而,起初作为文档管理系统的运用方针,还有以部署单位分割数据库,或者针对每个文档的种类分割数据库运用的情况。因此,重要的是在文档管理系统中的电子文档的检索时,考虑以多个数据库为对象进行。
在此,作为进行被分散后的多个数据库的检索的文档管理系统,例如考虑图3所示的系统。在该图中,301~303是文档管理服务器,305是客户机,相互经由网络304连接。另外,在该图中为了简单说明,文档管理服务器和数据库是1∶1相对应,此外,卷服务器省略。
在这样的文档管理系统中,当从客户机305发出检索指示的情况下,各文档管理服务器以与各个服务器连接的数据库为对象进行检索,在客户机305中,把在各文档管理服务器中的检索结果归拢在一起的结果作为最终的检索结果显示给用户。但是,当使用这样的检索方式进行多个数据的检索的情况下,存在以下的问题。
首先,在上述文档管理系统中如果构成是逐次对各数据库进行各文档管理服务器的检索,则检索处理需要的时间与检索对象数据库数相应增大。另一方面,当如各文档管理服务器301、302、303各自并行进行检索那样构成的情况下,虽然可以避免这样的问题,但必须等待检索处理时间中最花时间的来自数据库的检索结果,在处理时间的缩短中存在限度。
进而,当对每个数据库检索时的评价的基准(评价算法)不同的情况下,在把最终的检索结果显示在客户机305上时,如果根据得分单纯联系起来,则不能得到适宜的排列(最终的检索结果)。此外,当数据库的数多的情况下,最终的检索结果的数也增大(例如,在与10个数据库连接的环境中,如果从1个数据库取得100件的检索结果,则最终的检索结果显示1000件)。
这样在以多个数据库为对象进行检索时,当使用以往的检索方式的情况下,存在三个问题,第一,随着检索对象的数据库的增加处理时间增长,第二,作为最终结果存在不能得到适宜的结果的情况,第三,随着检索对象的数据库的增加最终结果增大。
本发明就是鉴于上述问题而完成的,其目的在于提供一种在以多个数据库为对象进行文档检索时,可以在短时间以适当量输出适宜的检索结果的检索技术。
发明内容
为了实现上述目的本发明的信息处理装置具备以下那样的构成。即,
是以多个数据库为对象进行文档检索的信息处理装置,包含:
在上述多个数据库中检索存储在任意的数据库中的文档的检索部件;
记录给被存储在上述多个数据库中的文档的访问信息的记录部件;
使用上述服务信息抽出由上述检索部件检索出的文档和访问顺序中最近的文档,基于该访问顺序,算出与用上述检索部件检索的文档的关联度的算出部件;
可以把用上述检索部件检索的文档、由上述算出部件算出了关联度的文档作为检索结果输出的输出部件。
如果采用本发明,则在由多个数据组成的分散数据库环境中进行文档检索时,可以在短时间适量地输出适宜的检索结果。
本发明的其它特征与优点,根据结合附图的以下说明将会明白,其中,在附图中对同样或相似的部分附加相同的参照标号。
附图说明
附图包含在说明书中,构成其一部分,表示本发明的实施方式,并与上面所给出的概括说明和下面给出的其优选方式的详细说明一起用于阐述本发明的原理。
图1是用于说明本发明的一种实施方式的信息处理装置的功能构成的方框图。
图2是展示具备本发明的一种实施方式的信息处理装置的文档管理系统构成的图。
图3是展示进行多个数据库的检索的文档管理系统的一个例图。
图4是展示文档管理客户端软件的画面构成的一个例图。
图5是展示在文档管理客户端软件中的,文档更新时的用户接口的一个例图。
图6是展示本发明的一种实施方式中的文档管理服务器具备的数据库的一个例图。
图7是展示关联文档访问信息的一个例图。
图8是展示关联文档访问信息的一个例图。
图9是展示由检索结果整形单元输出的检索结果的一个例图。
图10是说明关联文档访问信息的更新处理流程的流程图。
图11是用于说明图10的流程图的具体例子的图。
图12是展示从单一数据库的检索结果中生成包含关联文档的检索结果的处理流程的流程图。
图13是展示一次检索结果一览的一个例图。
图14是展示求关联度的处理流程的流程图。
图15是展示根据访问时间确定加权的表的一例的图。
图16是展示最终命中一览表的合成处理流程的流程图。
图17是用于说明同一关联文档的例子的图。
图18是用于说明在编辑规定的文档中有对其它的文档进行访问的图。
图19是展示表示检出状态的关联文档访问信息的一个例图。
图20是展示表示检出状态的关联文档访问信息的一个例图。
图21是展示求解相对在编辑中的文档被访问过的文档的关联度的处理流程的流程图。
图22是展示表示在文档间进行了复制的状态的关联文档访问信息的一个例图。
图23是展示依照编辑的状态在关联度上进行加权的处理流程的流程图。
图24是展示求解访问了文档的全部用户的关联度的合计的处理流程的流程图。
图25是用于说明每个用户的关联度求法的图。
具体实施方式
下面参照附图对本发明的优选实施方式进行详细说明。
[实施方式1]
<文档管理系统的构成>
图2是展示具备本发明的一个实施方式的信息处理装置(文档管理服务器)的文档管理系统构成的图。在该图中,201是文档管理服务器,具有数据库202。文档管理服务器201把在文档管理系统内的保管场所、实际文档数据的保存场所、制成日期、更新日期、所有人等的文档属性、记录着用户的操作和访问的日志保持在数据库202中。203是文档卷服务器,保管文档的实际数据。在此保管的数据被实施压缩处理高效率地保管。用网络204连接客户机PC205和206和文档管理服务器201、文档卷服务器203。从客户机PC205、206通过在此未图示的文档管理客户端软件,在服务器中保管文档数据,或者从服务器取得文档数据。
例如,说明从客户机PC205向文档管理系统登记文档数据的情况。在客户机PC205上,起动文档管理客户端软件,和文档管理服务器201连接。如果指定文档管理系统内的文档夹,对文档管理客户端软件进行文档数据登记指示,则文档管理服务器201判定是否有对文档夹的访问权,或者是否有只存储该文档的容量等是否可以容许文档登记,在可以登记的情况下,把该文档的制成日期、更新日期、所有人等的属性信息存储在文档管理服务器201内的数据库202中,把该文档的实际数据存储在文档卷服务器203中。此时,实际文档数据的文档卷服务器203的保存场所被通知给文档管理服务器201,并保存该信息。进而,进行了文档登记的记录也作为日志保持。此外,在客户机PC205上,经由文档管理客户端软件取得从文档卷服务器203中选择出的文档,也可以用与上述文档对应的应用程序软件来编辑。在编辑上述文档后,把更新后的文档数据存储在上述文档卷服务器203中,向上述文档管理服务器201通知所更新的信息,更新管理信息。
进而,为了对被登记的文档实现制成用于进行全文检索的索引,也可以用光学性文字识别(OCR)抽出原文,或者从应用程序软件中直接抽出正文进行全文检索的准备。此外,这些正文抽出的时间在文档登记时也没关系,也可以用调度程序在夜间等一并进行。
此外,可以在文档管理系统中具有保存被更新前的文档的版本管理方法。这种方法是把已指定的次数的更新前的信息保持在数据库中的方法。在进行版本管理的情况下,把多个更新前的实际文档和最新的实际文档存储在上述文档卷服务器203中,在上述文档管理服务器201中记录与该文档有关的版本信息。此外,也有在文档登记时生成用于显示文档的缩小图像的小图块(thumbnail)那样的结构。
在文档管理系统中,因为由多名用户登记许多文档,所以具备可以检索文档的结构。作为检索方法,有采用文档的名称、制作人、制作日期、更新者等的文档属性信息的检索;基于通过从文档中直接抽出正文制成的索引信息的全文搜索等,所述文档是从前面叙述的图像中采用光学性的文字识别产生的图像的文本化文档和由应用程序软件生成的文档。用户为了高效率地检索自己需要的文档使用在文档管理系统中准备的这样的检索结构。
在文档管理系统201中的数据库202中,存储对于各文档的文档名等的属性信息,以及用于全文检索的索引信息。在进行检索时,例如如果是关系数据库则用SQL对数据库202执行检索。此外,在检索中,根据检索关键字的重要度进行加权,或者计测在文档中出现的关键字数,进行评价,确定排列。
<文档管理客户端软件>
图4是文档管理客户端软件的画面构成的一个例子。在此,在本实施方式中说明的文档管理系统中,把文档的管理体系设置为多个文档柜,在文档柜内设置多个文档夹,在文档夹中保持多个文档。此外,文档夹也可以在内部进一步具有文档夹。进而,图4中的所谓文档柜和数据库是同一意义,各文档柜402、403由各个数据库管理。
401提供用于以基于上述文档管理体系的树构造进行访问的窗口。402和403是文档柜,在内部进一步包含文档夹。402是文档柜关闭的状态,403表示文档柜打开的状态。在关闭的情况下,在文档柜的侧面显示“+”,在打开的状态下,在文档柜的侧面显示“-”。该结构对于文档夹也一样。打开的文档柜显示内部的文档夹如404所示。显示栏405当在窗口401中选择了文档柜的情况下,显示包含在该文档柜内的文档夹一览,当选择了文档夹的情况下,显示包含在该文档夹中的文档和文档夹。此时的显示方法,如显示栏405所示那样对文档显示小图块,文档夹也可以是图标显示的形式,或者,虽然未图示,也可将文档名和大小、页数、更新日期等附加在文档上的信息一同一览显示。此外,也可以复合显示。
另外,可以用对应的应用程序打开显示栏405内的文档406编辑。所谓对应的应用程序例如如果是文字处理机文档,则用对应的文字处理机应用程序来编辑,如果是表计算文档,则用对应的表计算应用程序来编辑。在此,文档和应用程序的对应关系可以使用作为周知的技术的操作系统产生的文档名的扩展符和应用程序的相关的功能。
在用对应的应用程序编辑文档406后,用文档管理客户端软件例如显示图5的确认信息。用户可以从作为新文档保存(501)、更新文档(502)、取消更新(503)中选择对编辑后的文档的处理。当选择了501的情况下,在文档管理系统的上述文档卷服务器203、上述文档管理服务器201中作为新的另一文档登记。当选择了503的情况下,则废弃更新处理,设不曾有过文档的编辑。即,文档的更新不反映在上述文档卷服务器203、上述文档管理服务器201中。当选择了502的情况下,在变更后的文档中置换上述文档卷服务器203,在上述文档管理服务器201中存储编辑后的信息。
<文档管理服务器的功能构成>
图1是用于说明本发明的一个实施方式的信息处理装置(文档管理服务器)的功能构成的方框图。如果从键盘和鼠标等的用户输入装置101向文档管理系统给予涉及文档的登记、删除、编辑等文档的操作指令,则在用户指示单元102中接收该指令,向文档访问单元105转移控制。此外,当给予了检索指示的情况下,在用户指示单元102中接收指令,向检索部件106转移控制。
首先说明文档登记处理。用键盘和鼠标等的用户输入装置101选择登记对象的文档,给出登记的指示后,则在用户指定单元102中接收指令,从输入设备103指定的文档被输入到文档访问单元105。另外,设输入设备103不仅是扫描器和数字复印机等的实体设备,还包含操作系统的文档系统等的假想的设备。文档访问单元105在用户指定的数据库中在数据库选择单元107中选择访问对象的文档管理数据库110以及实际文档数据库109。文档访问单元105把从输入设备103输入的文档存储到实际文档数据库109,把实际文档的保管场所、用户信息、日期信息等的属性信息存储在文档管理数据库110。
另外,全文检索用的正文的索引制作在索引制作单元114中进行。在索引制作单元114中,如果是图像文档则执行光学性的文字识别(OCR),如果是应用程序文档则从其中抽出文字,进行文本化制成全文检索用的索引,存储在文档管理数据库109中。该索引制成单元114的调用在文档登记时也可以,也可以通过调度程序,在文档管理系统不太使用的夜间等的时间段进行。
以下说明文档删除处理。用键盘和鼠标等的用户输入装置101选择删除对象的文档,给出删除指示后,则在用户指示单元102中接收指令,向文档访问单元105传送删除指示。文档访问单元105用数据库选择单元107确定存储着指定的文档的数据库,从文档管理数据库110中取得文档保管场所即实际文档数据库109和其内部的位置,从文档管理数据库110中删除该文档信息。与此同时,删除在已取得的实际文档数据库109的已取得的位置上的该文档的实际文档数据。
以下说明文档编辑处理。在文档管理系统中的文档的编辑由检出、检入这2个指示控制。即,在进行文档的编辑时,用键盘和鼠标等的用户输入装置101选择编辑对象的文档,给出编辑的指示后,则在用户指示单元102中接收指令,向文档访问单元105传送检出的指示。在文档访问单元105中,用数据库选择单元107访问存储编辑对象文档的管理数据的文档管理数据库110,把该文档设置成检出(编辑中)状态,从实际文档数据库109中取得实际文档,送到输出设备104。由此,用于编辑的应用程序处于执行的状态,用户可以编辑该文档。此时,对于文档管理数据库110中的该文档的状态是检出状态,即使另一用户尝试对该文档访问,文档管理数据库110也拒绝处理。进而,并不是对于全部的文档操作进行拒绝处理,例如,如允许以读取专用形式打开,不能处于编辑状态那样,可以设置成只对部分的操作拒绝的结构。
如果结束编辑,则从用户指示单元102向文档访问单元105指示该文档的检入。对于编辑的结束,用户可以明确指示,也可以是检测应用程序的结束那样的结构,文档访问单元105在解除作为该文档的存储地的文档管理数据库的该文档的检出状态的同时,从输入设备103中取得变更后的文档,更新实际文档数据库109的文档(置换)。进而,例如,在文档管理数据库110中更新对于更新者和更新日期等的更新后的文档的属性信息。
以下说明文档检索处理。当执行文档的检索的情况下,用用户指示单元102向检索部件106发送检索的指示。在检索部件106中,对已指定的数据库在数据库选择单元107中选择执行检索的数据库,对管理信息数据库110执行检索。检索的种类是每一属性一致的检索,或者全文检索,可以执行多个检索方式。把得到的检索结果在检索部件106中变换为用户容易看的形式,发送到输出设备104。作为检索可以在文档管理数据库110中进行,但也可以另外准备服务器,安装检索引擎使用。
进而,在有从数据库选择单元107向文档管理数据库110进行访问时,用日志管理单元108对全部的访问进行监视,作为日志把操作履历保存在文档管理数据库110中。
在图1中,文档管理数据库110和实际文档数据库109虽然仅各图示一个,但存在多个,可以用数据库选择单元107选择与指示相应的适当的数据库。
<数据库的构成>
用图6说明本发明的一个实施方式的文档管理服务器具备的数据库202的一个例子。图6由3个文档管理数据库(文档柜)601、602、603组成,在各数据库中,分别存储2个文档信息。在文档管理数据库601中存储文档A(604)、文档B(605),在文档管理数据库602中存储文档C(606)、文档D(607),在文档管理数据库604中存储文档E(608)、文档F(609)的文档信息。假设某一用户把文档按照B→E→C→D的顺序进行访问(610)。此时,把特定的文档的下一被打开的文档作为有可能与该特定的文档关联的文档(关联文档),记录在被存储在文档管理数据库110中的每个文档所具有的“关联文档访问信息”中。
<关联文档访问信息>
在图7中举出“关联文档访问信息”的一个例子。在有对各文档的访问后,把被访问的文档对每个用户记录。进而,以下说明以XML形式记录关联文档访问信息的情况。
701是路由要素,表示关联文档。在该路由要素以下记录各用户的访问信息。在此,为了简单说明省略XML宣言。在图7中,702和705是每一用户的信息。进而,在图7的例子中,在同一XML内记录多个用户的访问信息,但对每个用户也可以具有作为各自的数据。在此,702是表示与用户有关的信息的标签,具有身份(id)属性和组(group)属性。在身份(id)属性中加入作为用于识别用户的固有值的用户ID,组(group)属性同样加入用于识别用户所属的组的固有的值(组ID)。705是用户ID为03521的另一用户的访问信息。703、704是与关联文档有关的信息,表示该文档(Document)要素的顺序(order)属性从该文档开始数访问了第几个。例如,703因为顺序(order)是1,所以访问了打开该文档后的下一个文档,704因为顺序(order)是2,所以进而接着访问703的下一个文档。
此外,在此所述的访问表示打开文档,但也可以对其他的操作(例如,属性的确认等)进行记录。
在Document要素703、704中除了顺序(order)外,有名称(name)属性、身份(id)属性、数据库(database)属性、db name属性、数据(data)属性、时间(time)属性。名称(name)属性记录文档名,文档(Document)属性的id属性记录用于唯一确定文档的值(文档ID),在数据库(database)属性中,表示文档管理数据库的所在。在此,作为一例使用了ID地址,但并不限于此,只要是可以指定数据库的信息就可以。例如,代替IP地址可以使用数据源名称(DSN)。如果数据库和该数据库内的文档ID唯一确定则可以特定文档。数据库名称(db name)属性是数据库的名称,在数据(date)属性、时间(time)属性中,记录访问了各个文档的日期和时间。此外,顺序(order)属性是0的文档(Document)要素706是与该文档有关的信息,只记录着访问的日期(数据(date)属性)和时间(时间(time)属性)。
进而,在图7的例子中虽然用XML形式记述,但并不限于此,即使是其他的格式也可以。此外,在对该文档的访问后对被访问的文档记录2次,但也可以增加记录次数,也可以只记录1次。此外,不仅在对该文档的访问后,而且也可以在访问前记录已访问的次数。例如,在图8的例子中801的线框部分的顺序(order)是-1。顺序(order)是负值表示对该文档的访问之前已被访问过的文档。
在此是访问信息的记录,但在前面说明的图1中,用日志管理单元108监视对全部的文档的访问记录,作为日志(不同用户访问一览表)被记录。从该日志信息中,取得在与图7的关联文档有关的信息中需要的信息。日志信息因为对每个用户全部记录,所以还可以取得对图8所示那样的该文档的访问之前已被访问过的文档的信息等。
“关联文档访问信息”在文档管理数据库110中作为该文档的属性信息记录。另外,如上所述在记录时因为使用具有扩展性的XML,所以不大幅度改变数据库构造,就可以具有关联文档访问信息。但是,关联文档访问信息并不只是作为文档的属性信息,当然也可以设置专用的表等记录。
<不同用户访问一览表>
在数据库选择单元107中,记录对每个用户访问的文档。对每个用户记录的文档的访问信息是“不同用户访问一览表”,可以使用XML形式记录。但是,并不限于XML,也可以用其他的格式记录。“不同用户访问一览表”的路由要素是访问用户(Access User),由指定识别用户的用户ID的身份(id)属性和指定识别用户所属的组的组ID的组(group)属性组成(和图7的702一样)。在其中,访问信息按照访问的文档顺序记录。该访问的文档的信息因为具有和前面说明的图7的703、704一样的信息(表示该用户访问过的顺序的顺序(order)属性,名称(name)属性,身份(id)属性,数据库(database)属性,数据库名称(db name)属性,数据(date)属性,时间(time)属性),所以对内容的详细想参照图7。
即,在图7中说明的“关联文档访问信息”是以该文档为中心,记录用户前后访问过的文档(和其顺序)的信息,“不同用户的访问一览表(日志信息)”以用户为中心记录访问过的文档(和其顺序)。因而,例如在制成关联文档访问信息时,如果把表示用户访问过的绝对性的顺序的不同用户访问一览表的顺序(order)属性,变更为在表示以文档为中心的前后的相对性的顺序的关联文档访问信息中的顺序(order)属性,则可以容易地制成关联文档访问信息。
以下,作为本实施方式的说明,设所谓“关联文档访问信息”只表示作为对象的特定的用户的信息。即,把特定用户的访问用户(AccessUser)要素部分作为对象,与其它用户有关的部分作为对象外。
此外,在上述的不同用户访问一览表中,是单一用户的信息,在有多名用户的情况下需要具有多个不同用户访问一览表。也可以设置成集中多名用户用1个访问一览表管理那样的管理体系。
进而,在该“不同用户访问一览表”中的顺序的记录把在前面图4中说明的文档管理客户端软件的起动中作为范围记录。例如,起动文档管理客户端软件,按照B→E→C→D的顺序访问,结束一次文档关联客户端软件。其后,即使再次起动文档管理客户端软件访问了文档F,也在前一次起动时的最后把至有访问的文档D为止作为关联的文档处理,设文档F作为另一访问记录进行记录。但是,如果是一定时间内,则当再次起动文档管理客户端软件的情况下,也可以留下访问记录。
<关联文档访问信息的更新处理流程>
用图10的流程图说明在文档访问时的“关联文档访问信息”的更新处理。首先,在步骤S1001中,当检测到日志管理单元108对文档n的访问的情况下,进入步骤S1002。在步骤S1002中,在对应的用户的“不同用户访问一览表”中记录用户ID、文档名、数据库名、访问时间等的访问运行信息。此外,当在数据库自身中具有日志的情况下,各文档管理服务器记录访问信息。
在步骤S1003中,判断是否成为记录以后访问的文档的设定。如果需要记录,则进入步骤S1004,如果不需要记录,则进入步骤S1010。在步骤S1004中,在循环(loop)中代入x。在此,x表示成为记录在第x后到所访问的文档为止的设定。在步骤S1005中,确认在“不同用户访问一览表”中从文档n开始数是否存在循环号前的文档记录。当存在的情况下进入步骤S1006,当不存在的情况下进入步骤S1008。
在步骤S1006步骤中,在“不同用户访问一览表”中,取得从文档n开始至循环号前的文档信息。在此,所谓文档信息是由用于识别关于被存储在哪个文档管理数据库中的信息和文档的ID等构成的文档属性。相对于在步骤S1006中取得的从文档信息至循环号前的文档的“关联文档访问信息”,在步骤S1007中,作为访问了循环号后的文档记录文档n。在步骤S1008中,把从循环中减去1的值更改设定为循环,进行下一文档信息取得的准备。
在步骤S1009中,确认循环是否是零。如果不是零因为有需要处理的文档,所以返回步骤S1006。如果是零则进入步骤S1010。
如果用图11说明从步骤S1004到步骤S1009,则1105是概念性表示不同用户访问一览表的图,设文档n(1101)是最后被访问的文档。设此前被访问的文档是文档m(1102),再以前访问的文档是文档l(1103),进而再之前访问的文档是文档k(1104)。
例如把x设置为2,则在最初的步骤S1106的执行中,取得文档l的信息。在下一步骤S1006的执行中,取得文档m的信息。如果从文档l看,则文档n是第2个以后(下一个的下一个)访问的文档,如果从m看则文档n是下一个被访问的文档。即,在步骤S1007中该信息对于各文档l、文档m的“关联文档访问信息”,把文档n作为以后访问的文档记录。
在步骤S1010中,判定是否成为记录以前已访问的文档的设定。如果需要记录则进入步骤S1011,如果不需要记录则结束。在步骤S1011中,在循环(loop)中代入y。在此,y表示成为记录到在第y个前被访问的文档为止的设定。在步骤S1012中,在“不同用户访问一览表”中确认是否存在从文档n开始数到循环号前的文档记录。当存在的情况下进入步骤S1013,当不存在的情况下进入步骤S1015。
在步骤S1013中,用“不同用户访问一览表”取得从文档n开始至循环号前的文档信息。在此,所谓文档信息是用于识别被存储在哪个文档管理数据库中和文档的ID等文档属性。在步骤S1014中,在文档n的“管理文档访问信息”中作为访问到-循环号前的文档记录在步骤S1013中取得的文档和文档信息。在步骤S1015中,把从循环号中减去1的值更改设定为循环(loop),进行下一文档信息取得的准备。
在步骤S1016中,确认循环是否是零。如果不是零因为有应该处理的文档,所以返回步骤S1012。如果是零则结束处理。
和刚才一样使用图11说明从步骤S1010到步骤S1016。例如把y设置为2,则在最初的步骤S1013中,取得文档1的信息。在以下的步骤S1013中,取得文档m的信息。如果从文档n看,则文档1是第2个前(前面的前面)访问的文档,文档m是之前访问的文档。即,在步骤S1014中,对于文档n的“管理文档访问信息”,作为前面已访问的文档记录文档l、文档m。
<检索处理的概要>
在此,用图1、图6、图7说明用户ID是00110的用户对数据库601在所希望的区域中执行检索的例子。从用户指示单元102向检索部件106发送检索的指示。检索部件106中的检索执行单元111为了检索已指定的文档管理数据库601,把控制转移到数据库选择单元107。数据库选择单元107选择文档管理数据库110(相当于图6的601),对文档管理数据库110执行检索。检索方式可以采用文档属性的检索也可以是全文检索。检索的结果,设文档B符合,检索的得分是300。在此,为了简单说明,检索结果的文档是1个,但是多个检索结果也没关系。
文档管理数据库110和检索结果(符合的文档和表示适合程度的得分)一同输出各符合的文档的“关联文档访问信息”。检索结果处理单元112接收这些结果。
检索结果处理单元112进行以下的处理算出关联文档的关联度。使用图7的关联文档访问信息进行说明。首先,从“关联文档访问信息”中选择与自己的用户有关的信息。这种情况下,访问用户(AccessUser)要素的身份(id)属性是00110。访问的顺序相对该文档(文档B)的下一文档(顺序(order)属性是1:文档E),把关联度设置为10,相对其下一文档(顺序(order)属性是2:文档C)分配5。另外,该关联度可以是任意的正数。10和5的关联度数值是作为一例举出的,并不限于该数值。此外,也可以使用以后叙述的式(2)。
进而,检索结果处理单元112从求得的关联度中计算关联文档的得分。首先,标准化各关联文档的关联度使其处于[0,1]内的值。在本实施方式的情况中,因为与符合的文档关联的关联文档是2个文档,关联度合计是10+5=15,所以被标准化的关联度文档E是10/15,文档C是5/15。进而,使用以下的评价式,计算对各关联文档的得分。
[式1]
Sn=int((S0×Rn))-1 ……(1)
S0:源文档的得分
Sn:文档n的得分
Rn:文档n的经标准化的关联度
对于文档E,是(300×10/15)-1=199,对于文档C是(300×5/15)-1=99。在此,所谓int设为求进位、舍去、四舍五入等整数的函数,只要使用适当的整数化方法之一即可。此外,在上述评价式中,减去1是因为经标准化后的关联度取[0,1],在其上乘以源文档(符合的文档)的得分,所以通过减1必然使顺序位在元文档下位。检索结果处理单元112把符合的文档及其得分、关联文档以及在此求得的得分送到检索结果整形单元113。在检索结果整形单元113中,以得分为基础分类整形检索结果,输出到输出设备104。进而,关联度的算出、标准化的方法,以及上述评价式(1)是用于说明本实施方式的一例,也可以使用其他的评价式等。
此外,在上述例子中,以符合的文档是1个文档的情况为例子进行说明,但也有多个文档符合,在该多个符合的文档的某几个中包含同一关联文档的情况。例如,在检索文档管理数据库110时,假设除了上述文档B外文档A也符合。假设文档A的得分是90分,在文档A之后访问的文档是文档C(关联度10),接着其访问的文档是文档F(关联度5)。如果使用(1)的评价式计算被标准化的关联度,则文档C是(90×10/15)-1=59,文档F是(90×S/15)-1=29。因而作为关联文档包含文档C。在本实施方式中,当出现了同一关联文档的情况下采用最高的得分,在上述例子中作为与文档B关联的文档采用得分99。另外,作为求文档C的得分的方法,此外,也可以使用:i)采用低的得分(这种情况下是59),ii)把平均值设置为得分(这种情况下是79)的方法。进而,也可以使用户或者文档管理系统的管理者从这些方法中选择所希望的方法。
此外,如图8中说明的那样当对该文档记录前后访问的文档的情况下,也可以用访问的距离(顺序(order)属性的绝对值)把关联度在前后设置为相同,也可以在前后在关联度中设置差。当不依赖于访问的前后给予同一关联度的情况下,例如可以使用式2。
[式2]
在此,所谓int设为求进位、舍去、四舍五入等整数的函数。可以选择适当的整数化方法。在不依赖于访问的前后的距离1的情况下是10,在距离2的情况下是5。通过在访问的前后改变该关联度的式子,还可以通过访问的前后改变关联度的值。
此外也可以根据访问时间的间隔进行加权算出关联文档的得分。例如在“关联文档访问信息”中因为有数据属性和时间属性,所以在求关联度时,假设以一定时间,或者一定日期访问间隔空闲为对象外。这是因为一般认为在时间空闲访问的情况下,关联性弱的缘故。例如,从数据属性、时间属性中在α时间以上没有访问的现象作为关联文档对象外例如乘以权重0,当超过β时间不足α时间的情况下,进行加权使关联度降低(例如,乘以权重0.5)(α>β)。
<检索处理的流程>
用图12的流程图说明从单一数据库的检索结果(“一次检索结果一览”)生成包含关联文档的检索结果(“最终符合一览表”)的方法。
在此,所谓“最终符合一览表”不仅是进行了检索的数据库的检索结果,而且对于与检索结果的文档有关的文档,是从实际检索的文档的得分和关联文档的关联度中算出模拟的得分,提示给用户的最终的检索结果一览表。
在步骤S1201中执行已指定的数据库的检索。检索方式可以是采用属性的检索,也可以是全文检索。检索的方式、方法是任意的。在步骤S1202中,从指定的数据库中取得“一次检索结果一览”。
作为在步骤S1202中取得的“一次检索结果一览”的一例,可以列举图13那样的由文档ID(1301)、文档名(1302)、得分(1303)组成的表形式。在检索中符合的文档是用得分分类的文档。进而,并不限于表,可以是XML形式,也可以是其他形式。
在步骤S1203中,确认步骤S1201的检索结果是否存在。当不存在(没有符合的文档)的情况下,因为不能进行关联文档的检索,所以结束处理。当存在的情况下,进入步骤S1204,在n中代入1。
在步骤S1205中,取得对“一次检索结果一览”的第n个文档(以下,表示为文档n)的“关联文档访问信息”。在步骤S1206中,算出对文档n关联的全部文档的关联度。在步骤S1207中,以在步骤S1206中求得的关联度为基础,进行把文档n和其关联文档埋入到“最终符合一览表”中的最终符合一览表合成处理。在步骤S1208中,在n中增加1。
在步骤S1209中,检查是否处理了“一次检索结果一览”中的全部的文档。如果全部文档的处理未结束,则返回步骤S1205。另一方面,当对全部文档的处理结束,则结束。另外,有关步骤S1206的关联度计算和步骤S1207最终符合一览表合成处理的流程图将在以后叙述。
<关联度算出处理流程>
用图14的流程图说明求步骤S1206的关联度的处理。在从步骤S1401到步骤S1410中,首先求关联文档的关联度。在步骤S1401中,在ε中代入1。ε是附加在关联度上的加权。在步骤S1402上,从在前面的图12的步骤S1205中求得的文档n的“关联文档访问信息”中选择未求关联度的关联文档。进而,虽然在图14的流程图中未图示,但当在步骤S1205中求得的“关联文档访问信息”中不存在关联文档的情况下,跳过图14的处理。
在步骤S1403中,判定在步骤S1402中选择的关联文档的文档信息的访问时间是否是大于等于成为关联文档的对象外的一定时间。更具体地说,分别比较成为关联的基底的文档(顺序(prder)属性是零的文档)和在步骤S1402中选择出的文档的数据属性以及时间属性,调查是否有大于等于一定时间的差。如果在经过一定时间以上访问的情况下,进入步骤S1408。
在步骤S1408中,把关联度r设置为零(设为没有关联)。如果未经过成为关联文档对象外的时间,则进入步骤S1404。在步骤S1404中,判定在步骤S1402中选择的文档信息的访问时间是否成为加权对象的时间。如果不是加权对象,则进入步骤S1407,如果是加权对象,则进入步骤S1405。
在步骤S1405中,根据成为关联的基底的文档和在步骤S1402中选择出的文档的访问时间的差,选择加权pi(0<pi<1)。在此,设i是与访问时间的差相应的索引。在步骤S1406中,在ε中代入pi。
在此,举更具体的例子说明从步骤S1403到步骤S1406的访问时间的加权。设成为关联文档的基底的符合文档(顺序(order)属性是零的文档)的数据属性是“2004-06-25”,时间属性是“17:48:05+900”。例如,当把超过12小时没有访问的文档作为关联对象外的情况下,则数据属性是“2004-06-26”,时间属性“9:21:02+0900”的文档成为关联文档对象外。
此外,在进行加权的关联文档中,准备根据图15所示那样的依照访问时间差来确定pi的表。图15的表是其一例。访问时间差超过1小时在2小时以内时的加权pi是0.9,同样,访问时间差超过2小时在3小时以内时的加权p2是0.8,访问时间差超过3小时在6小时以内时的加权p3是0.5,访问时间差超过6小时在12小时以内时的加权p4是0.1。当超过12小时的情况下,如上所述在关联文档对象以外。
在步骤S1407中,求在步骤S1402中选择出的文档的关联度r。为了求关联度,例如,利用前面所示的式(2)等。在步骤S1409中,在关联度r上乘权重ε,作为最终算出出被整数化的结果的关联度,登记在“关联文档访问信息”的步骤S1402中选择出的该关联文档上。在此,整数化的函数int和前面说明的一样。
在步骤S1410中,对于“关联文档访问信息”的全部的关联文档,判定是否进行了求关联度的处理,如果求关联度的文档还有则返回步骤S1401,如果全部的文档已处理,则进入步骤S1411。
在步骤S1411中,求全部的关联文档的关联度之和,代入总和(Sum)中。在此为了简化说明进行省略,但当在步骤S1411之后总和(Sum)是0的情况下,因为完全没有关联文档,所以不执行步骤S1412以下的步骤。
在从步骤S1412到步骤S1414中,是基于从步骤S1401到步骤S1410求得的最终的关联度求各关联文档的得分的处理。步骤S1412从在前面的图12的步骤S1205中求得的“关联文档访问信息”中,选择没有求得分的关联文档。在此,在“关联文档访问信息”中,在步骤S1409中登记关联度。
在步骤S1413中,求关联文档的得分,在步骤S1412中选择出的该文档的“关联文档访问信息”中登记得分。作为一例,说明使用了式(1)的情况。从关联文档信息中取得关联文档的关联度r,对在步骤S1411中求得的总和(Sum)除r的值进行整数化,把从乘以成为关联的基底的文档的得分S0的值中减去一的值作为得分。更具体地说,想参照说明式(1)的部分。
在步骤S1414中,对于全部的关联文档判定是否进行求得分的处理,如果还有求得分的关联文档则返回步骤S1412,如果对全部的关联文档进行了处理,则结束。
在图14的流程图中,对于在检索中符合的文档有时存在同一关联文档的情况(在关联文档的访问信息中存在多个同一文档)。例如,在图17所示的访问顺序中制成“关联文档访问信息”,当文档B在检索中是符合的文档的情况下,文档A在文档B的前后进行访问。在图14中,即使在此情况下,也是作为各个关联文档进行处理算出得分,进行以后叙述的S1027(详细是图16的流程图)的处理。在本实施方式中,如图16所示,在同一关联文档中采用更高的得分。这样,对同一关联文档独立算出得分,如同另一关联文档处理也可以。进而,在求关联度时也可以预先抽出关联度更高的文档。此外,对于同一关联文档,也可以采用在取得关联度的和等,在从步骤S1401到步骤S1410的处理中把多个同一关联文档集中为1个的处理。具体地说,当在步骤S1409中同一关联文档存在于关联文档访问信息中的情况下,只要进行优先进行关联度高的文档的处理和取关联度和的处理等即可。
<最终符合合成处理的流程>
在图16的流程图中,对于步骤S1207的最终符合一览表合成处理进行说明。在步骤S1601中,把在步骤S1205中取得的“一次检索结果一览”的第n个文档n的得分插入到“最终符合一览表”的对应的得分位置。当然,最初在“最终符合一览表”中没有登记任何文档。
在步骤S1602中,选择没有进行从文档n的“关联文档访问信息”到“最终符合一览表”的插入处理的文档。在步骤S1603中,取得在步骤S1602中选择的关联文档的得分。在步骤S1604中,判定该得分是否是零,如果是零,因为意味是没有关联的文档所以进入步骤S1609,处理下一文档,如果不是零则进入步骤S1605。
在步骤S1605中,在最终符合一览表中确认是否存在在步骤S1602中选择出的文档。作为该确认的方式,有例如判定文档ID是否一样的方法等。如果不存在同样的文档则进入步骤S1608。另一方面,如果存在同样文档则进入步骤S1606。
在步骤S1606中,把在“最终符合一览表”中存在的同一文档的得分和在步骤S1602中选择的文档的得分比较,当在“最终符合一览表”中存在的同样文档的得分一方相等或者大的情况下,进入步骤S1609。反之当小的情况下,进入步骤S1607。在步骤S1607中,进行“最终符合一览表”中的同一文档的删除。在步骤S1608中,把在步骤S1602中选择出的文档插入到“最终符合一览表”的对应的得分位置。
在步骤S1609中,对于“关联文档访问信息”的全部的关联文档,判定是否进行了在“最终符合一览表”中的配置处理,如果有未处理的文档则返回到步骤S1602,如果对全部的文档进行了处理则结束。
另外,在图16的流程图中虽然说明了优先进行具有更高得分的文档那样的处理,但也可以这样进行,即,在步骤S1606中把在最终文档一览表中存在的同一文档的得分和在步骤S1602中选择出的文档的得分比较,如果相等或者低,则使具有更低的得分的文档优先,此外,对于重复出现的文档进行记录,最终计算平均值,插入到最终符合一览表。
<检索结果的显示>
图9展示在检索结果整形单元113中输出的检索结果的一个例图。检索结果作为由求得的得分901、文档名902、数据库名903的各字段组成的一览表显示在区域904上。在图9中,把上述的结果作为例子并用其进行显示。此外,用检索结果一览的下部的按键可以对从区域904中选择出的文档执行动作。当执行“打开键”905的情况下,由应用程序打开被选择的文档。此外,“移动键”906把被选择的文档存在的数据库及存储该文档的目录显示在文档管理客户端软件上。“关闭键”907进行结束检索结果关闭的动作。此外还可以设置用于编辑的键,或者编辑属性的键,可以设置用一般的文档管理客户端软件实现可能的功能的结构。此外,可以选择的文档并不限于一个,可以选择多个。
进而,在本实施方式中,只使用一个数据库的检索结果,但也可以集中从多个数据库中选择出几个的结果。作为集中方法,有把各个文档、关联文档的得分作为一个检索结果显示的方法。此外,也可以用一个数据库的检索结果选择出的文档,进行另一数据库的缩小范围检索。在这种情况下,可以实现多个数据库的检索的高速化。
从以上的说明可知,如果采用本实施方式的信息处理装置,则基于用户访问文档的顺序求关联的文档,通过基于该访问顺序对每个关联文档算出关联度,即使在由多个数据库组成的环境中,只要进行单一的数据库的检索,就可以把其他的数据库的文档作为检索结果提示。
因此,即使数据库的数增加,因为可以不检索全部的数据库就可以求关联的文档,所以检索的处理时间被缩短。此外,因为按照访问顺序求关联度,所以即使是从不同的数据库抽出的文档,也可以集中检索关联文档,进而,最终的检索结果的数量也不会依赖数据库的数量过份增加。
[实施方式2]
在实施方式1中,不用访问种类来区别,而全部使用同一关联度,但也可以用访问种类改变关联度。在本实施方式中,说明基于访问的种类,特别文档的编辑状态是检出或者检入来变更关联度的例子。
某一文档在开始被编辑(检出)到结束编辑(检出)为止被访问的文档因为关联参照的可能性高,所以可以捕捉到关联度高。使用图18说明具体例子。
如图18所示那样对文档的访问顺序设为B→E→C→D。在此,设文档E不是为了阅览而打开而是为了编辑而打开(检出1801)。而后,设在打开文档D前结束了文档E的编辑(检入1802)。此时,对于文档E,文档C是在检出(编辑中)中被打开的文档。当是这样在检出中参照的文档的情况下,被记录在关联文档访问信息中。
如果具体地说,则例如当有按照图18所示的顺序访问的情况下,文档B的关联文档访问信息如图7所示。从文档B看的情况下,文档E的检出、检入因为在文档B自身被打开后进行,所以不记录。
此外,文档E的文档访问信息如图19所示。因为文档E自己检出,文档C在检出状态时被打开,所以文档(Document)要素的检出(checkout)属性为(yes)(1901)。此外,文档D因为在检入后被打开,所以检出(checkout)属性不存在。
此外,文档C的关联文档访问信息如图20所示。因为在文档C之前访问的文档E处于检出中,所以检出(checkout)属性为(yes)(2001)。另一方面,文档D从文档C来看因为和检出没有关系,所以检出(checkout)属性不存在。在本实施方式中,为了说明的简化,示例了对文档B、文档E记录后2次的访问,对文档C记录前后一次的访问的关联文档访问信息。进而,对于在检出状态中没有关系的文档,未记述检出(checkout)属性,也可以进行记述使其具有否(no)这样的值。
用于把检出的状态记录在关联文档访问信息中的流程图如图21所示。进而,对于和图10一样的处理附加同样的参照符号并省略说明。和图10的流程图的不同之处是在步骤S1007后,在步骤S2101中判定该文档是否在检出中,如果在检出中,则在步骤S2102中确认循环(loop)号前的文档是否被打开。如果没有打开则进入步骤S1008。如果打开则进入步骤S2103,在步骤S2103中对循环号前的关联文档访问信息记为文档n在检验中(把检出(checkout)属性设置为是(yes))。此外,在步骤S2101中因为如果不在检出中就不需要记录,所以进入步骤S1008。
此外,同样,在步骤S1014后在步骤S2104中判定该文档是否在检出中,如果是在检出中,则在步骤S2105中确认循环(loop)号前的文档是否被打开。如果没有打开则进入步骤S1015。如果打开则进入步骤S2106,在步骤S2106中对文档n的关联文档访问信息,记为循环号前的关联文档n在检出中打开着(把检出(checkout)属性设置为是(yes))。此外,在步骤S2104中因为如果不在检出中就不需要记录,所以进入步骤S1015。
此外,不仅可以记录检出、检入这样的信息,而且还可以记录在文档间复制了内容的信息。也可以在用户输入装置101中设置监视输入的结构,从文档管理系统中检测被打开的文档之间进行了内容的复制,写入关联文档访问信息。为了实现该监视,例如在操作系统上可以使用作为用于把进行复制操作的数据暂时存储在存储器上的结构的剪贴板。
图22展示进行了文档间检复制时的关联文档访问信息的例子。设以前面的图18的顺序访问,进一步进行了从文档B到文档E的内容的复制。此外关联文档访问信息设为进行该文档的后2次的访问记录。
如图22所示,涉及文档B的关联文档访问信息的文档E的信息中,有复制(copy)属性,其内容为to(2201)。即表示在文档E中复制了内容。此外,在文档E中因为从原本应该作为记录对象外的文档B复制内容,所以有顺序(order)属性是空的文档要素,记载与文档B有关的信息。因为访问日期是对象外,所以虽然未记录,但有复制属性,其内容为源(from),知道从文档B复制了内容(2202)。
图23展示说明对与检出状态或文档间复制相应的加权进行了设定的关联度的算出方法的流程图。这因为和图14的流程图大致相同,所以对同样的处理附加同一参照符号并省略说明。在步骤S2301中取得与检出状态或在文档间与复制相应的加权δ。因为一般认为在检出中打开的文档或进行文档间复制的文档关联度较强,所以δ>1。在步骤S2303中,在ε上乘以δ计算用于算出关联度的基础的加权。
对于检出中的文档,也可以不进行在步骤S1403中设置在关联文档对象外,在步骤S1404中基于访问时间附加低的权重的工作。
通过这样算出关联度,计算得分,可以对在编辑中被打开的文档或在文档之间进行了内容复制的文档进一步提高关联度,在“最终符合一览表”中还可以提高这种关联文档的得分。
[实施方式3]
在上述实施方式1和实施方式2中,只把本用户作为对象,处理“关联文档访问信息”,但不仅是本用户,其他用户的关联文档也可以作为检索对象。为了实现它,例如在图14中,“关联文档访问信息”并不限于本用户,只要以全部的用户的关联文档为对象算出关联度即可。
进而,不仅单纯地把全部用户的关联文档作为对象,例如也可以只把特定的用户和组作为对象,或者相反作为对象外。此外,也有通过只对自己,或者特定的用户和组给予一定的权重,在关联度中设置差的结构。
使用图24的流程图,说明集中多个用户的关联文档访问信息的关联度的方法。在步骤S2401中,取得在该文档的关联文档访问信息中未处理的用户(User)X的关联文档访问信息。如在上述实施方式1的图7中说明的那样,在一个关联文档访问信息中记录来自多个用户的访问信息。
在步骤S2402中,判定用户X相对关联度是对象的用户,或者是组。如果不是对象用户、组,则进入步骤S2410。另一方面,如果是对象用户、组则进入步骤S2403。
在步骤S2403中,从在步骤S2401中取得的对用户X的关联文档访问信息中取得未处理的关联文档的关联度。在步骤S2404中,判定用户X是否是加权对象用户或者对象组。如果不是加权对象用户或者对象组,则进入步骤S2406。另一方面,如果是加权对象用户或者对象组,则进入步骤S2405,在关联度上进行加权。
在步骤S2406中,判定是否已经算出了同一文档的关联度。当同一文档不存在关联度不存在的情况下,进入步骤S2408,进行在步骤S2403中选择出的关联文档的关联度的新的登记处理。当在步骤S2706中判定为同一文档存在的情况下,进入步骤S2407,进行关联度的加算处理。在步骤S2409中,判断对用户X的关联文档是否已全部处理,如果没有全部处理则返回步骤S2403,如果已全部处理,则进入步骤S2410。在步骤S2410中,当处理了关联文档访问信息的全部的用户情况下进行结束,如果有还未处理的用户,则返回步骤S2401。
用图25进行更具体的说明。对于文档B,设在关联文档访问信息内有用户X和用户Y的信息(关联度)(2501)。如果单纯合计每个用户的关联度,则如2502那样成为用户X和用户Y各自的文档的关联度的和。但是如果设对用户X给予权重1.5,则如在2503中所示那样,文档D不改变是5,而文档E为10×1.5=15,文档C为2×1.5+10=13,可以依照特定的用户、组改变关联度。
通过这样对每个用户的关联度设置加权或对象外,可以不依赖各个用户,进行更详细的得分附加。
[其他实施方式]
另外,本发明还可以适用于由多个机器(例如主计算机、接口设备、读取器、打印机等)构成的系统,也可以适用于由一个机器组成的装置(例如,复印机、传真机等)。
此外,本发明的目的当然也可以通过把记录有实现上述实施方式的功能的软件的程序代码的记录介质提供给系统或者装置,该系统或者装置的计算机(或者CPU和MPU)读出被存储在存储介质中的程序代码执行来实现。
在这种情况下,从存储介质读出的程序代码自身实现上述的实施方式的功能,存储有该程序代码的存储介质构成本发明。
作为用于提供程序代码的存储介质,例如可以使用软盘(注册商标)、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、非易失性的存储卡、ROM等。
此外,通过计算机执行读出的程序代码,不仅可以实现上述的实施方式的功能,而且还包含基于该程序代码的指示,在计算机上运行的OS(操作系统)等进行实际执行的处理的一部分或者全部,用该处理实现上述的实施方式的功能的情况。
进而,当然还包含从存储介质读出的程序代码在被写入到配备在被插入到计算机中的功能扩展端口和与计算机连接的功能扩展组件中的存储器中后,根据该程序代码的指示,配备在该功能扩展端口和功能扩展组件中的CPU等进行实际处理的一部分或者全部,通过该处理实现上述的实施方式的功能的情况。
本发明并不限于上述实施方式,在不脱离本发明的精神和范围内可以进行各种变更和修改。因此,为了公开本发明的范围,附加权利要求书的权利要求项。
Claims (10)
1、一种信息处理装置,以多个数据库为对象进行文档的检索,其特征在于包括:
检索在上述多个数据库中被存储在任意的数据库中的文档的检索部件;
记录对被存储在上述多个数据库中的文档的访问信息的记录部件;
使用上述访问信息抽出由上述检索部件检索的文档和访问顺序最近的文档,基于该访问顺序,算出与由上述检索部件检索的文档的关联度的算出部件;
可以把由上述检索部件检索的文档,和由上述算出部件算出了关联度的文档作为检索结果输出的输出部件。
2、根据权利要求1所述的信息处理装置,其特征在于:
在编辑由上述检索部件检索的文档的过程中,当用上述记录部件记录了表示有对上述访问顺序最近的文档进行访问的访问信息的情况下,上述算出部件进行规定的加权算出上述关联度。
3、根据权利要求1所述的信息处理装置,其特征在于:
当在由上述检索部件检索的文档和上述访问顺序最近的文档之间进行了复制的情况下,上述算出部件进行规定的加权算出上述关联度。
4、根据权利要求1所述的信息处理装置,其特征在于:
上述记录部件以XML形式记录上述访问信息。
5、根据权利要求1所述的信息处理装置,其特征在于:
上述算出部件在上述访问顺序最近的文档中,从对由上述检索部件检索的文档访问开始,对在一定时间内访问的文档算出上述相关度。
6、根据权利要求1所述的信息处理装置,其特征在于:
上述算出部件在上述访问顺序最近的文档中,从对由上述检索部件检索的文档的访问开始,对经过一定时间后访问的文档进行规定的加权算出上述关联度。
7、根据权利要求1所述的信息处理装置,其特征在于:
上述算出部件在上述访问顺序最近的文档中,对于由同一用户访问的文档算出上述关联度。
8、根据权利要求1所述的信息处理装置,其特征在于:
上述算出部件与对上述访问顺序最近的文档进行访问的用户相对应,进行规定的加权算出上述关联度。
9、根据权利要求1所述的信息处理装置,其特征在于:
上述任意的数据库可由用户选择。
10、一种文档检索方法,以多个数据库为对象进行文档检索,其特征在于包括:
检索在上述多个数据库中被存储在任意的数据库中的文档的检索步骤;
记录对被记录在上述多个数据库中的文档的访问信息的记录步骤;
使用上述访问信息抽出由上述检索步骤检索的文档和访问顺序最近的文档,基于该文档顺序,算出与由上述检索步骤检索的文档的相关度的算出步骤;
可以把由上述检索步骤检索的文档,和由上述算出步骤算出了关联度的文档作为检索结果输出的输出步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004231435A JP2006048536A (ja) | 2004-08-06 | 2004-08-06 | 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体 |
JP2004231435 | 2004-08-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1731398A true CN1731398A (zh) | 2006-02-08 |
CN100444164C CN100444164C (zh) | 2008-12-17 |
Family
ID=35758602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100894255A Expired - Fee Related CN100444164C (zh) | 2004-08-06 | 2005-08-05 | 信息处理装置、文档检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7401078B2 (zh) |
JP (1) | JP2006048536A (zh) |
CN (1) | CN100444164C (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN106156266A (zh) * | 2015-05-12 | 2016-11-23 | 富士施乐株式会社 | 信息处理装置以及信息处理方法 |
CN106326224A (zh) * | 2015-06-16 | 2017-01-11 | 珠海金山办公软件有限公司 | 一种文件查找方法及装置 |
CN111767693A (zh) * | 2019-03-13 | 2020-10-13 | 富士施乐株式会社 | 信息处理装置、信息处理方法及计算机可读记录介质 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100857A1 (en) * | 2005-10-31 | 2007-05-03 | International Business Machines Corporation | Computer-implemented method, tool, and program product for storing a business document in an enterprise software application environment |
US7743343B2 (en) * | 2005-11-01 | 2010-06-22 | Microsoft Corporation | Combined representation of a hierarchical data item collection |
US9135304B2 (en) * | 2005-12-02 | 2015-09-15 | Salesforce.Com, Inc. | Methods and systems for optimizing text searches over structured data in a multi-tenant environment |
US7529761B2 (en) * | 2005-12-14 | 2009-05-05 | Microsoft Corporation | Two-dimensional conditional random fields for web extraction |
JP4887800B2 (ja) * | 2006-01-24 | 2012-02-29 | 富士ゼロックス株式会社 | 文書処理システム |
JP5057546B2 (ja) * | 2006-03-24 | 2012-10-24 | キヤノン株式会社 | 文書検索装置および文書検索方法 |
US8001130B2 (en) * | 2006-07-25 | 2011-08-16 | Microsoft Corporation | Web object retrieval based on a language model |
US7720830B2 (en) * | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US7921106B2 (en) * | 2006-08-03 | 2011-04-05 | Microsoft Corporation | Group-by attribute value in search results |
US8260787B2 (en) * | 2007-06-29 | 2012-09-04 | Amazon Technologies, Inc. | Recommendation system with multiple integrated recommenders |
US8751507B2 (en) * | 2007-06-29 | 2014-06-10 | Amazon Technologies, Inc. | Recommendation system with multiple integrated recommenders |
JP2009199164A (ja) * | 2008-02-19 | 2009-09-03 | Ricoh Co Ltd | 文書管理装置、文書管理方法及び記録媒体 |
US7991650B2 (en) | 2008-08-12 | 2011-08-02 | Amazon Technologies, Inc. | System for obtaining recommendations from multiple recommenders |
JP5534666B2 (ja) * | 2008-10-31 | 2014-07-02 | キヤノン株式会社 | ドキュメント処理装置およびその制御方法、ドキュメント管理システムおよび該システムにおけるデータ処理方法並びにコンピュータプログラム |
US20100115468A1 (en) * | 2008-11-06 | 2010-05-06 | Kodimer Marianne L | System and method for hierarchical electronic file navigation from a processing device front panel |
JP5324903B2 (ja) * | 2008-12-10 | 2013-10-23 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 類似度計算装置、方法及びプログラム、データ検索システム及び方法 |
JP4876151B2 (ja) * | 2009-07-23 | 2012-02-15 | 株式会社日立製作所 | 検索キーワード候補表示システム、検索キーワード候補表示方法およびプログラム |
JP5836706B2 (ja) | 2011-08-31 | 2015-12-24 | キヤノン株式会社 | 情報処理装置、文書アクセス方法、及びコンピュータプログラム |
CN102929957A (zh) * | 2012-10-09 | 2013-02-13 | 广东欧珀移动通信有限公司 | 一种排序结果集的显示方法、装置及移动终端 |
JP2021149439A (ja) * | 2020-03-18 | 2021-09-27 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832350B1 (en) * | 1998-09-30 | 2004-12-14 | International Business Machines Corporation | Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria |
US6964011B1 (en) | 1998-11-26 | 2005-11-08 | Canon Kabushiki Kaisha | Document type definition generating method and apparatus, and storage medium for storing program |
JP2000315210A (ja) | 1999-04-30 | 2000-11-14 | Ricoh Co Ltd | 文書管理システムおよび文書管理方法 |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
JP4498523B2 (ja) * | 2000-02-29 | 2010-07-07 | パナソニック株式会社 | ブックマークリスト表示方法、及び携帯電話機 |
CN1339756A (zh) * | 2000-08-23 | 2002-03-13 | 松下电器产业株式会社 | 文档检索和分类方法及其装置 |
KR100449497B1 (ko) * | 2000-12-21 | 2004-09-21 | 주식회사 매직아이 | 실시간 정보 제공 장치 및 그 처리 방법 |
US7058624B2 (en) * | 2001-06-20 | 2006-06-06 | Hewlett-Packard Development Company, L.P. | System and method for optimizing search results |
JP2003216649A (ja) * | 2002-01-25 | 2003-07-31 | Nippon Hoso Kyokai <Nhk> | 画像検索装置及び画像検索プログラム |
JP4255239B2 (ja) * | 2002-03-29 | 2009-04-15 | 富士通株式会社 | 文書検索方法 |
US7231395B2 (en) * | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
JP2004178184A (ja) * | 2002-11-26 | 2004-06-24 | Canon Inc | オブジェクト検索装置(検索式の再構成) |
-
2004
- 2004-08-06 JP JP2004231435A patent/JP2006048536A/ja not_active Withdrawn
-
2005
- 2005-08-03 US US11/195,616 patent/US7401078B2/en not_active Expired - Fee Related
- 2005-08-05 CN CNB2005100894255A patent/CN100444164C/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN106156266A (zh) * | 2015-05-12 | 2016-11-23 | 富士施乐株式会社 | 信息处理装置以及信息处理方法 |
CN106156266B (zh) * | 2015-05-12 | 2019-10-29 | 富士施乐株式会社 | 信息处理装置以及信息处理方法 |
CN106326224A (zh) * | 2015-06-16 | 2017-01-11 | 珠海金山办公软件有限公司 | 一种文件查找方法及装置 |
CN111767693A (zh) * | 2019-03-13 | 2020-10-13 | 富士施乐株式会社 | 信息处理装置、信息处理方法及计算机可读记录介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100444164C (zh) | 2008-12-17 |
US20060031211A1 (en) | 2006-02-09 |
US7401078B2 (en) | 2008-07-15 |
JP2006048536A (ja) | 2006-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1731398A (zh) | 信息处理装置、文档检索方法 | |
JP4398992B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
CN1114878C (zh) | 代理主计算机和用于在一个浏览器和一个代理计算机之间访问和检索信息的方法 | |
CN1193292C (zh) | 数据处理方法与装置 | |
US20020184196A1 (en) | System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata | |
JP4367355B2 (ja) | 写真画像検索装置、写真画像検索方法、記録媒体、およびプログラム | |
CN1536483A (zh) | 网络信息抽取及处理的方法及系统 | |
CN1667609A (zh) | 文档信息管理系统和文档信息管理方法 | |
CN1694100A (zh) | 改进文档检索的内容传播 | |
CN1392992A (zh) | 项目管理系统和方法 | |
CN1542655A (zh) | 信息处理装置和信息处理方法、以及存储媒体、程序 | |
CN1846210A (zh) | 利用本体存储并检索数据的方法及装置 | |
CN1167014C (zh) | 文件处理方法和数据处理装置 | |
CN1137320A (zh) | 用于建立关系型数据库模式的语义目标模型化系统 | |
CN1591406A (zh) | 集成多应用数据处理系统 | |
CN1573923A (zh) | 用于用户模型化以增强对命名实体识别的系统和方法 | |
CN1711522A (zh) | 图形用户接口建模系统 | |
CN1573753A (zh) | 数据库对象脚本生成方法和系统 | |
CN1716249A (zh) | 延迟取出用户定义类型的指定成员的系统和方法 | |
CN101021856A (zh) | 分布式语音检索系统 | |
CN1666192A (zh) | 检索处理系统、其检索服务器、客户端、检索处理方法、程序及记录介质 | |
US20190034455A1 (en) | Dynamic Glyph-Based Search | |
CN1290899A (zh) | 使用多个数据操作模块的数据管理系统 | |
JP4894253B2 (ja) | メタデータ生成装置およびメタデータ生成方法 | |
JP5760732B2 (ja) | 業務分析装置、業務分析プログラム、及び業務分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081217 Termination date: 20160805 |
|
CF01 | Termination of patent right due to non-payment of annual fee |