CN111737397A - 信息处理装置、文档管理系统、记录媒体及信息处理方法 - Google Patents
信息处理装置、文档管理系统、记录媒体及信息处理方法 Download PDFInfo
- Publication number
- CN111737397A CN111737397A CN201910814137.3A CN201910814137A CN111737397A CN 111737397 A CN111737397 A CN 111737397A CN 201910814137 A CN201910814137 A CN 201910814137A CN 111737397 A CN111737397 A CN 111737397A
- Authority
- CN
- China
- Prior art keywords
- document
- information
- index
- document type
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/21—Intermediate information storage
- H04N1/2166—Intermediate information storage for mass storage, e.g. in document filing systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明的目的在于提供一种能够参考文档的预先确定的部分,且与未考虑文档类别来制作索引数据的情况相比提高检索精度的信息处理装置、文档管理系统、记录媒体及信息处理方法,所述信息处理装置具有:文档信息获取单元,获取与文档的文档类别建立有对应关联的文档信息;文档类别信息获取单元,按文档的文档类别,获取设定有制作索引数据时参考的文档的参考范围的文档类别信息;及制作单元,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
Description
技术领域
本发明涉及一种信息处理装置、文档管理系统、记录媒体及信息处理方法。
背景技术
为了检索数据库,有时通过索引从文档提取表示该文档的特征的关键词来事先制作索引。爬行程序(crawler)通过在采集文档时检索索引,能够缩短检索时间。
若将整个文档作为参考范围来制作索引,则有时需要大量时间,因此有时将预先确定的部分作为参考范围来制作索引而不是将整个文档作为参考范围。
专利文献1:日本特开平10-214268号公报
专利文献2:日本特开2000-235579号公报
专利文献3:日本特开2015-032281号公报
发明内容
本发明的目的在于,参考文档的预先确定的部分,且与不考虑文档类别而制作索引数据的情况相比提高检索精度。
本发明的一方式所涉及的信息处理装置的特征在于,具有:文档信息获取单元,获取与文档的文档类别建立有对应关联的文档信息;文档类别信息获取单元,按文档的文档类别,获取设定有在制作索引数据时参考的文档的参考范围的文档类别信息;及制作单元,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
并且,其特征在于,当文档的状态发生转变时,所述文档信息中包含的文档还与该文档的状态建立对应关联,所述文档类别信息按文档的文档类别、文档的状态而设定,所述制作单元参考相当于参考范围的该文档的范围制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别及状态对应的所述文档类别信息。
并且,其特征在于,若检测到所述文档的状态的变化,则所述制作单元参考相当于参考范围的该文档的范围来重新制作该文档的索引数据,所述参考范围设定于与该文档的文档类别及变化后的状态对应的所述文档类别信息。
并且,其特征在于,所述参考范围通过选择构成文档的1个或多个项目来设定。
并且,其特征在于,在设定于所述参考范围的各项目中设定有在制作索引数据时参考时的优先级,所述制作单元根据设定于所述参考范围中包含的各项目的优先级,确定在制作所述索引数据时参考的项目的顺序。
并且,其特征在于,当所述文档的状态发生转变时,所述制作单元根据该文档的状态设定该文档的索引数据的最大容量。
并且,其特征在于,所述文档类别信息按文档的文档类别、文档的状态而生成,所述各文档类别信息中设定有所述索引数据的容量的权重系数,所述制作单元以显示在最大容量以内的方式制作该文档的索引数据,所述最大容量通过对预先确定的索引数据的基准容量乘以设定于与所述文档的文档类别及状态对应的所述文档类别信息的权重系数来获得。
本发明的一方式所涉及的文档管理系统的特征在于,具有:文档信息存储单元,存储将利用索引数据的文档和该文档的文档类别建立有对应关联的文档信息;文档类别信息存储单元,按文档的文档类别,存储设定有在制作索引数据时参考的文档的参考范围的文档类别信息;及制作单元,若文档登录到所述文档信息存储单元,则参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与该文档的文档类别对应的所述文档类别信息。
本发明的一方式所涉及的记录媒体,其记录有用于使计算机作为如下单元发挥功能的程序:文档信息获取单元,获取与文档的文档类别建立有对应关联的文档信息;文档类别信息获取单元,按文档的文档类别,获取设定有在制作索引数据时参考的文档的参考范围的文档类别信息;及制作单元,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
本发明的一方式所涉及的信息处理方法,其包含如下步骤:文档信息获取步骤,获取与文档的文档类别建立有对应关联的文档信息;文档类别信息获取步骤,按文档的文档类别,获取设定有制作索引数据时参考的文档的参考范围的文档类别信息;及制作步骤,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
发明效果
根据本发明的第1方案,能够参考文档的预先确定的部分,且与未考虑文档类别来制作索引数据的情况相比提高检索精度。
根据本发明的第2方案,能够根据文档的状态,使在制作索引数据时参考的文档的范围不同。
根据本发明的第3方案,能够制作与文档的状态相应的索引数据。
根据本发明的第4方案,能够将构成文档的项目中包含适于该文档的全文检索的词汇的可能性高的项目作为参考范围来制作索引数据。
根据本发明的第5方案,能够优先将优先级高的项目中包含的词汇包含在索引数据中。
根据本发明的第6方案,能够按文档的状态使索引数据的最大容量不同。
根据本发明的第7方案,能够制作与文档的状态相应的容量的索引数据。
根据本发明的第8方案,能够参考文档的预先确定的部分,且与不考虑文档类别来制作索引数据的情况相比提高检索精度。
根据本发明的第9方案,能够参考文档的预先确定的部分,且与不考虑文档类别来制作索引数据的情况相比提高检索精度。
根据本发明的第10方案,能够参考文档的预先确定的部分,且与未考虑文档类别来制作索引数据的情况相比提高检索精度。
附图说明
根据以下附图,对本发明的实施方式进行详细叙述。
图1是本实施方式的文档管理装置的框结构图;
图2是表示设定于本实施方式的文档类别信息存储部的文档类别信息的数据结构的一例的图;
图3是表示本实施方式的文档类别选择画面的一例的图;
图4是表示本实施方式的文档类别信息设定画面的一例的图;
图5是表示本实施方式的各状态的文档类别信息设定画面的一例的图;
图6是表示本实施方式的文档登录处理的流程图;
图7是表示本实施方式的文档登录画面的一例的图;
图8是表示登录于本实施方式的文档信息存储部的文档信息的数据结构的一例的图;
图9是表示本实施方式的索引处理的流程图。
具体实施方式
以下,根据附图对本发明的实施方式进行说明。
图1是本实施方式的文档管理装置10的框结构图。本实施方式的文档管理装置10能够通过通用的服务器计算机等信息处理装置实现。即,文档管理装置10具有CPU、ROM、RAM、硬盘驱动器(HDD)等存储单元,并且经由网络获取作为处理对象的文档时,具有网络接口。从CD-ROM或USB存储器等计算机可读取的记录介质读取目录时,需要具备用于该读取的外部接口。并且,文档管理装置10需要与用户授受信息,因此作为用于授受信息的用户界面,例如具有鼠标和键盘等输入单元或显示器等显示单元。或者,经由网络与用户进行信息的授受时,设置网络接口。
如图1所示,本实施方式的文档管理装置10具有设定处理部11、文档登录处理部12、索引制作处理部13、状态更新部14、检索处理部15、文档类别信息存储部16、文档信息存储部17及索引存储部18。另外,从图中省略在本实施方式的说明中不使用的构成要件。
设定处理部11根据基于文档的管理员等(以下,“管理员”)的输入,设定与文档管理装置10作为管理对象的文档的文档类别相关的信息(以下,“文档类别信息”),并登录于文档类别信息存储部16。文档登录处理部12将通过用户指定的成为索引的制作对象的文档和该文档的文档类别建立对应关联来生成文档信息,并登录于文档信息存储部17。另外,本实施方式中所说的“文档”是指,包含被电子化而能够记录于文档信息存储部17的文本字符的数据。
索引制作处理部13对参考范围进行参考来制作该文档的索引,并保存于索引存储部18,所述参考范围设定于与文档登录处理部12所接收的索引制作对象的文档的文档类别对应的文档类别信息。并且,当检测到文档的状态的变化时,重新制作该文档的索引来更新现有的索引。在此,“索引”是指,为了快速进行检索而利用的索引数据。与各文档对应而制作索引。作为检索文档的方法,有全文检索。全文检索中,检索作为目标的文档时,检索文档的所有内容中包含的术语等字符串。但是,在成为检索目的地的数据库中存储有数量庞大的文档时,若检索文档的所有内容,则有可能导致花费大量的检索时间。因此,事先通过进行索引从文档提取表示该文档的特征的术语并另外存储。存储该提取的术语的就是索引。并且,全文检索中,通过检索索引找出成为检索对象的文档。
详细内容将进行后述,但在登录于文档信息存储部17的文档中,与该文档的当前的状态建立对应关联来存储,但若检测到文档的状态的变化,则状态更新部14以变化后的文档的状态更新设定于文档信息存储部17的该文档的状态。
但是,文档在从制作文档至不再被利用为止的期间具有生命周期。并且,根据文档的种类而具有特有的生命周期。例如,当文档为合同书时,该合同书利用于商谈,若商谈成功则进入合同期间,之后保管一定期间,最后被废弃。即,合同书在生命周期上,以商谈中、合同期间、保管、废弃的状态发生转变。当文档为通知单时,以发生、传达、活用、保管、废弃的状态发生转变。并且,当文档为授权文档时,以编辑中、起草、待授权、已授权、保管、废弃的状态发生转变。
如此,本实施方式中“文档的状态”是指生命周期上的文档的状态,随着时间的经过,有可能单方向发生变化。
检索处理部15根据包含来自用户的检索语句的检索请求检索索引,若发现符合检索请求的1个或多个文档,则向用户提示与该1个或多个文档相关的信息。并且,当用户从所提示的信息(即,检索结果)中包含的文档中指定了文档时,从文档信息存储部17读出该文档的实体数据,并向用户提供。
文档管理装置10中的各构成要件11~15通过形成文档管理装置10的计算机和通过搭载于计算机的CPU动作的程序的协同操作来实现。并且,各存储部16~18通过搭载于文档管理装置10的HDD实现。或者,也可以经由网络利用RAM或位于外部的存储单元。本实施方式中,将所需的构成要件搭载于1台文档管理装置10来形成,但也可以分散配置于多个计算机,构筑为包括多个计算机的文档管理系统。
并且,本实施方式中使用的程序不仅能够通过通信单元提供,还能够存储于CD-ROM和USB存储器等计算机能够读取的记录介质来提供。从通信单元或记录介质提供的程序安装于计算机,通过计算机的CPU依次执行程序来实现各种处理。
本实施方式中,制作索引时,并不参考整个文档而是参考一部分。其特征在于,根据作为索引的制作对象的文档的文档类别设定在制作该索引时参考的文档的部分(以下,还称为“索引的参考范围”)。即,根据文档的种类,能够将文档的不同部分作为索引的参考范围。
并且,如前述,在生命周期上,文档的状态可发生变化,但本实施方式的特征在于,进一步地,即使是相同的文档类别,也能够根据文档的状态,决定将多个索引的参考范围中的哪一个优先作为索引的参考范围,或设定其优先级。
接着,对本实施方式的动作进行说明,但本实施方式中,需要在制作索引之前事先设定文档类别信息。以下,对文档类别信息的事先设定进行说明。
图2是表示设定于本实施方式的文档类别信息存储部16的文档类别信息的数据结构的一例的图。文档类别信息按文档类别而设定。图2所示的文档类别信息包含文档结构信息、索引对象范围信息及生命周期信息。关于文档,根据文档的种类,能够在一定程度上确定所记述的内容及顺序、所谓的章结构。尤其,在事务所,准备固定模板等来决定章结构的情况并不少。文档结构信息中,设定该章结构作为文档结构数据。图2中,例示有文档类别为合同书的文档结构数据21。索引对象范围信息中,设定管理员从文档结构数据中作为索引的参考范围来选出的文档结构(图2中的“选择索引对象”)。生命周期信息中,包含与该文档类别的生命周期上的文档的状态对应而包含索引容量权重系数及索引优先级的状态转变定义数据。图2中,例示有文档类别为合同书的生命周期信息23。例如,如前述,合同书在生命周期上,以商谈中、合同期间、保管、废弃的状态发生转变。因此,生命周期信息的文档状态中,在该文档类别中设定转变的各状态。针对索引容量权重系数及索引优先级的详细内容将进行后述。若考虑生命周期信息,则文档类别信息还能够按文档类别、文档的状态设定。
文档类别信息通过后述的设定处理设定,但关于各文档类别中的文档结构数据及生命周期信息中包含的文档状态,需要在实施设定处理之前设定登录于文档类别信息存储部16。关于文档结构数据,设想管理员在事先设定,但也可以通过分析合同书等文档的结构来自动生成。
图3是表示本实施方式的文档类别选择画面的一例的图。管理员通过进行规定的操作来显示文档类别选择画面。另外,管理员可以利用文档管理装置10的用户界面,也可以从终端装置经由网络访问文档管理装置10,从而在终端装置显示文档类别选择画面。
设定处理部11根据该用户操作读出设定于文档类别信息存储部16的文档类别,显示文档类别选择画面。设定处理部11将所显示的各文档类别和设定按钮建立对应关联。管理员从该画面选择与作为设定对象的文档类别对应的设定按钮。另外,还能够选择与已设定文档类别信息的文档类别对应的设定按钮,此时,设定按钮成为设定的变更按钮这样的定位。
图4是表示在从文档类别选择画面选择设定按钮之后显示的文档类别信息设定画面的一例的图。图4是作为文档类别选择了合同书时的显示例。设定处理部11从文档类别信息存储部16读出合同书的状态转变定义数据23中的生命周期24即文档状态,并以能够选择各文档状态的方式显示于文档类别信息设定画面。并且,设定处理部11读出合同书的文档结构数据21,并以表形式显示。并且,将构成合同书的各项目和用于选作进行索引的对象的勾选框25建立对应关联来显示。另外,本实施方式中,“项目”是指,构成文章的章、节、项等文档被分割记述的单位。
管理员在如以上那样显示的文档类别信息设定画面中,勾选与在制作合同书的索引时欲参考的项目即欲包含在进行索引的参考范围中的项目对应的勾选框25。图4中示出有用户在构成合同书的项目中作为进行索引的参考范围选择“序文”且不选择“合同期间”时的设定例。
但是,在构成文档的项目中,根据文档类别,包含大量的成为该文档的特征的语句的项目在一定程度上被确定。例如,从过去的实绩得知,若为合同书,则在序文、目的、本文等中相对较多地包含特征性语句,在通知方法、后文等中相对地并不会较多地包含特征性语句。得知若为书籍,则在目录、索引等中相对较多地包含特征性语句,在献辞、序言、后记等中相对地并不会较多地包含特征性语句。而且得知,若为论文,则在概要、目录等中相对较多地包含特征性语句,在谢词、参考文献、附录等中相对地并不会较多地包含特征性语句。
如此,例如优选管理员选择包含大量的成为文档特征的语句的项目作为索引的参考范围即索引对象。在此所说的“索引的参考范围”和“索引对象”可以作为相同含义来考虑。另外,也可以由设定处理部11根据过去的实绩自动选择索引对象。
如以上,若由管理员从构成合同书的所有项目中选择1个或多个项目作为索引的参考范围,则设定处理部11将所选择的项目作为合同书中的选择索引对象22来登录于文档类别信息存储部16。本实施方式中,如此在整个文档、该例中在合同书这一文档中,将如上述那样选择的项目作为索引的参考范围来制作索引。
并且,本实施方式中,能够进一步对作为索引的参考范围来选择的各项目,按文档的状态设定用于作为索引的参考范围的优先级。
图5是表示本实施方式的各状态的文档类别信息设定画面的一例的图。图5是在文档类别信息设定画面中,管理员从以能够选择的方式显示于生命周期24的文档的状态中选择了“合同期间”时显示的各状态的文档类别信息设定画面的显示例。
设定处理部11从文档类别信息存储部16读出合同书的文档结构数据21,并以表形式显示。并且,对所显示的文档结构的各项目中通过上述处理选作索引的参考范围的项目,勾选索引对象的栏。并且,与合同书的文档结构对应而设置索引优先级的设定栏26。而且,设定处理部11对文档的状态(该例中,“合同期间”)设置索引容量的权重系数的设定栏27。
管理员从各状态的文档类别信息设定画面对索引对象的各项目设定索引的优先级。本实施方式中,越是小的数,越提高优先级,因此从1开始依次设定优先级。另外,即使对索引对象外的各项目设定优先级,也没有意义,因此例如优选设为对索引对象外的各项目无法设定优先级。并且,用户还在设定栏27输入针对文档的状态(该例中,“合同期间”)的索引容量的权重系数。另外,关于从各状态的文档类别信息设定画面设定的索引的优先级及索引容量的权重系数,分别在使用时进行详细说明。
若设为如上并由用户输入至各栏26、27,则设定处理部11将所输入的索引容量的权重系数设定登录为图2所示的合同书的与所选择的文档状态“合同期间”对应的索引容量权重系数。并且,将所输入的索引的优先级作为优先级列表,设定登录为与所选择的文档状态“合同期间”对应的索引优先级。
另外,在此将合同书的“合同期间”为例进行了说明,但对其他文档状态“商谈中”、“保管”及“废弃”也同样地设定登录索引容量权重系数及索引优先级。
如以上说明,本实施方式中,在开始制作索引之前预先设定登录文档类别信息。
接着,利用图6所示的流程图,对将作为索引的制作对象的文档登录于文档管理装置10的文档登录处理进行说明。该文档登录处理通过文档登录处理部12实施。
若由用户进行规定的操作,则文档登录处理部12根据该用户操作显示文档登录画面。另外,用户可以利用文档管理装置10的用户界面,也可以从终端装置经由网络访问文档管理装置10,从而在终端装置显示文档登录画面。
图7是表示本实施方式的文档登录画面的一例的图。用户从文档登录画面输入指定作为登录对象的文件的文件名和文档类别之后,选择登录按钮。根据登录按钮的选择,文档登录处理部12从文件名中指定的存储位置获取该文档(步骤101),并且获取所选择的该文档的文档类别(步骤102)。并且,文档登录处理部12将登录对象的文档的文件名、该文档的实体数据及该文档的属性信息作为一组来生成文档信息,并登录于文档信息存储部17(步骤103)。
图8是表示登录于本实施方式的文档信息存储部17的文档信息的数据结构的一例的图。文档信息具有前述的数据结构,但管理员所指定的文档类别作为属性信息之一而登录为文档信息。并且,属性信息中包含的文档状态表示该文档的文档类别中的文档的状态,但文档登录处理部12读出设定于文档类别信息存储部16的该文档类别的生命周期中最初的文档状态并设定为初始值。另外,例如,也可以如下,即,在文档登录画面中,若选择文档类别,则显示该文档类别的生命周期,使用户指定登录时刻的文档的状态,以便在登录于文档信息存储部17的文档的状态转变为下一状态时也能够对应。或者,文档登录处理部12也可以使状态更新部14获取该文档的文档状态来设定登录于文档信息存储部17。另外,文档的属性信息中,有可能设定有文档的制作者或访问权限等信息,但本实施方式中并不使用,因此省略。
若如以上来登录文档,则对所登录的文档制作索引。以下,利用图9所示的流程图,对由索引制作处理部13实施的索引处理进行说明。
索引制作处理部13从文档信息存储部17获取处理对象的文档及该文档的属性信息中包含的文档类别及文档状态(步骤111)。接着,索引制作处理部13获取与所获取的文档类别对应的文档类别信息中符合所获取的文档状态的文档类别信息(步骤112)。例如,当文档为合同书时,除了图2所示的文档结构数据21及选择索引对象22以外,若当前的文档的状态为商谈中,则从状态转变定义数据23中获取与商谈中对应的索引容量权重系数及优先级列表。
但是,对登录于索引存储部18的索引中已确定有成为基准的容量。索引制作处理部13通过在成为该基准的容量乘以所获取的索引容量权重系数,计算所制作的索引的最大容量(步骤113)。即,索引制作处理部13根据文档类别设定索引的最大容量。并且,索引制作处理部13反复执行以下的处理直至达到计算出的最大容量,由此逐渐制作成索引。
即,索引制作处理部13参考所获取的优先级列表,确定在索引时参考的索引的参考范围的顺序。因此,索引制作处理部13将在没有作为索引的参考范围的项目中优先级最高的项目作为参考范围来进行索引,由此制作索引(步骤114)。在此,索引制作处理部13对将新制作的索引追加到反复执行步骤114来制作的索引时的索引的容量和在步骤113中计算出的最大容量进行比较。并且,制作中的索引的容量未达到最大容量时(步骤115中是),将新制作的索引追加到已制作的索引并返回步骤114。
通过反复进行以上处理,制作中的索引的容量逐渐增加,但在此制作中的索引的容量达到最大容量时(步骤115中否),若将新制作的索引追加到已制作的索引,则会导致超过最大容量,因此索引制作处理部13不追加新制作的索引而结束索引。并且,在结束的时刻的索引作为该文档的索引而保存于索引存储部18(步骤116)。
本实施方式中,一边如以上那样从优先级高的索引的参考范围依次参考,一边以限制在最大容量以内的方式逐渐制作索引。如此,根据本实施方式,即使在对索引设定有最大容量时,也能够将表示文档特征的语句优先包含在索引中,因此能够提高检索精度。
但是,本实施方式中,即使是相同的文档类别,也能够根据文档状态的变化改变索引的内容。例如在外部的工艺管理系统(未图示)中管理文档状态时,状态更新部14从工艺管理系统接收通知或者进行查询来检测文档状态发生转变的情况。若通过文档状态发生转变来检测到状态的变更,则状态更新部14以将设定于文档信息存储部17的属性信息的文档状态变更为转变后的状态的方式进行更新。
若设定于文档信息存储部17的文档状态被更新,则索引制作处理部13为了重新制作该文档的索引而开始执行索引处理。此时执行的索引处理与利用图4所示的流程图说明的内容相同,但索引制作处理部13在步骤112中从文档类别信息存储部16读出与转变后的文档状态对应的索引容量权重系数及优先级列表并进行处理。如此,根据文档状态制作并更新索引。
但是,文档管理系统提供全文检索功能时,有时进行所谓的全文索引,即,将作为检索对象的存储于该文档管理系统的文档的所有记述作为索引的参考范围。全文索引中,将整个文档作为参考范围,因此所制作的索引的容量具有相对变大的趋势。文档管理系统通过采用即付的云端实现时,随着索引的容量的增加,成本增加。
因此,通常进行所谓的部分索引来削减索引的容量,即,将索引的参考范围设为一部分而不是整个文档。本实施方式中同样地进行部分索引。
但是,认为在部分索引的情况下,根据将文档的哪一部分作为索引的参考范围,检索精度会不同。因此,本实施方式中,设为能够根据文档类别设定索引的参考范围。关于文档,如前述,根据文档的种类,在一定程度上可确定所记述的内容及顺序、所谓的章结构。若能够确定章结构,即,若能够确定构成文档的项目,则能够在一定程度上确定在哪一项目中是否有重要的记述,换言之,能够在一定程度上确定表示文档特征的语句更多地包含在哪一项目中。因此,本实施方式中,着眼于文档类别,设为能够按文档类别设定索引的参考范围。并且,本实施方式中,设为能够以构成文档的项目单位提取索引的参考范围。
如此,本实施方式中,设为能够根据文档类别动态设定选作索引的参考范围的文档的部分。由此,与将预先确定的文档的部分一律作为索引的参考范围的情况相比,能够有效地提取表示文档特征的部分。换言之,能够在索引中更多地包含表示文档特征的语句,因此该文档变得易检索,因此能够提高检索精度。并且,能够在索引中不包含不表示文档特征的语句,因此还能够减少检索干扰。
本实施方式中,设为能够如前述那样按文档类别设定索引的参考范围。但是,认为即使是相同的文档种类,根据生命周期上的文档的状态,欲作为检索对象的语句会发生变化。例如,在文档为合同书的情况下,若为商谈中,则可设想到合同条件和作业内容的记载范围会频繁被参考,因此例如优选以根据与此相关的检索语句进行检索的方式制作索引。并且,合同期间中与商谈中不同,可设想到不履行债务的应对或瑕疵担保的记载范围会频繁被参考,因此例如优选以根据与此相关的检索语句进行检索的方式制作索引。而且,保管中可设想到为了审计,有关合同期间或金额的记载会频繁被参考,因此例如优选以根据与此相关的检索语句进行检索的方式制作索引。
因此,虽然没有特别限定,但优选设为即使是相同的文档类别,也能够根据文档状态个别地设定索引的参考范围,但本实施方式中,设为能够如前述那样按文档类别、文档状态设定索引的参考范围。
另一方面,如前述,即付的情况下,欲对所制作的索引的容量设置一定程度的限制。此时,例如将从所选出的成为索引对象的项目中将参考频度变高的项目中记载的语句优先包含在索引中。因此,本实施方式中,设为如下:能够设定容许制作索引的容量(前述的“索引的最大容量”),并且对作为索引对象来提取的各项目,根据文档状态设定优先级(即,从图5所示的各状态的文档类别信息设定画面设定的“索引优先级”)。例如,若设为能够将在该文档的状态中参考频度变高的项目的优先级设定为较高来进行索引,则从优先级高的项目优先成为索引的参考范围,在该文档状态中表示特征的语句包含在索引中。由此,能够抑制伴随即付的成本增加且提高检索精度。
并且,若考虑依赖于索引的容量的成本,则欲极力抑制索引的容量的情况如前述。但是,若考虑检索精度,则无法无用地削减容量。因此,本实施方式中,设为能够按文档的状态设定索引容量权重系数,并根据文档状态设定索引的最大容量。例如,当合同书的文档状态为废弃时,认为该文档为废弃后,因此被检索的可能性相对低。因此,该情况下,将成本方面放在优先地位,相对减小索引的最大容量。由此,能够使所制作的索引的容量相对小。另一方面,当合同书中文档状态为合同期间或保管时,被频繁利用的可能性高,因此相对加大索引的最大容量,以便容易检索。由此,所制作的索引的容量相对变大,但能够提高检索精度。
另外,本实施方式中,例示了为了限制每1个文档的索引的最大容量,作为与成为基准的容量相乘的索引容量权重系数,设定1以上的数值的情况。假设对登录于索引存储部18的索引的容量设定有上限,则为了与索引的上限容量相乘,需将索引容量权重系数设为1以下的正数。另外,也可以以上限容量统一制作所有的索引,但若考虑即付,则当为没有被频繁利用的文档状态时,例如优选如前述那样以索引的容量变小的方式制作。
上述本发明的实施方式是以例示及说明为目的而提供的。另外,本发明的实施方式并不全面详尽地包括本发明,并且并不将本发明限定于所公开的方式。很显然,对本发明所属的领域中的技术人员而言,各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此,本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。
符号说明
10-文档管理装置,11-设定处理部,12-文档登录处理部,13-索引制作处理部,14-状态更新部,15-检索处理部,16-文档类别信息存储部,17-文档信息存储部,18-索引存储部。
Claims (10)
1.一种信息处理装置,其特征在于,具有:
文档信息获取单元,获取与文档的文档类别建立有对应关联的文档信息;
文档类别信息获取单元,按文档的文档类别,获取设定有制作索引数据时参考的文档的参考范围的文档类别信息;及
制作单元,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
2.根据权利要求1所述的信息处理装置,其特征在于,
当文档的状态发生转变时,
所述文档信息中包含的文档还与该文档的状态建立对应关联,
所述文档类别信息按文档的文档类别、文档的状态而设定,
所述制作单元参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别及状态对应的所述文档类别信息。
3.根据权利要求2所述的信息处理装置,其特征在于,
若检测到所述文档状态的变化,则所述制作单元参考相当于参考范围的该文档的范围来重新制作该文档的索引数据,所述参考范围设定于与该文档的文档类别及变化后的状态对应的所述文档类别信息。
4.根据权利要求1或2所述的信息处理装置,其特征在于,
所述参考范围通过选择构成文档的1个或多个项目来设定。
5.根据权利要求4所述的信息处理装置,其特征在于,
在设定于所述参考范围的各项目中设定有在制作索引数据时参考时的优先级,
所述制作单元根据设定于所述参考范围中包含的各项目的优先级,确定在制作所述索引数据时参考的项目的顺序。
6.根据权利要求1所述的信息处理装置,其特征在于,
当所述文档的状态发生转变时,所述制作单元根据该文档的状态设定该文档的索引数据的最大容量。
7.根据权利要求6所述的信息处理装置,其特征在于,
所述文档类别信息按文档的文档类别、文档的状态而生成,
所述各文档类别信息中设定有所述索引数据的容量的权重系数,
所述制作单元以限制在最大容量以内的方式制作该文档的索引数据,所述最大容量通过对预先确定的索引数据的基准容量乘以设定于与所述文档的文档类别及状态对应的所述文档类别信息的权重系数来获得。
8.一种文档管理系统,其特征在于,具有:
文档信息存储单元,存储将利用索引数据的文档和该文档的文档类别建立有对应关联的文档信息;
文档类别信息存储单元,按文档的文档类别,存储设定有在制作索引数据时参考的文档的参考范围的文档类别信息;及
制作单元,若文档登录到所述文档信息存储单元,则参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与该文档的文档类别对应的所述文档类别信息。
9.一种记录媒体,其记录有用于使计算机作为如下单元发挥功能的程序:
文档信息获取单元,获取与文档的文档类别建立有对应关联的文档信息;
文档类别信息获取单元,按文档的文档类别,获取设定有在制作索引数据时参考的文档的参考范围的文档类别信息;及
制作单元,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
10.一种信息处理方法,其包括如下步骤:
文档信息获取步骤,获取与文档的文档类别建立有对应关联的文档信息;
文档类别信息获取步骤,按文档的文档类别,获取设定有制作索引数据时参考的文档的参考范围的文档类别信息;及
制作步骤,参考相当于参考范围的该文档的范围来制作该文档的索引数据,所述参考范围设定于与所述文档的文档类别对应的所述文档类别信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-055950 | 2019-03-25 | ||
JP2019055950A JP7293780B2 (ja) | 2019-03-25 | 2019-03-25 | 情報処理装置、文書管理システム及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737397A true CN111737397A (zh) | 2020-10-02 |
Family
ID=72606090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910814137.3A Pending CN111737397A (zh) | 2019-03-25 | 2019-08-30 | 信息处理装置、文档管理系统、记录媒体及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11244000B2 (zh) |
JP (1) | JP7293780B2 (zh) |
CN (1) | CN111737397A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6905724B1 (ja) * | 2021-01-27 | 2021-07-21 | 株式会社 情報システムエンジニアリング | 情報提供システム及び情報提供方法 |
JP7272540B2 (ja) * | 2021-07-06 | 2023-05-12 | 株式会社 情報システムエンジニアリング | 情報提供システム、情報提供方法、及びデータ構造 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3416780B2 (ja) * | 1993-05-17 | 2003-06-16 | 株式会社日立製作所 | 構造化文書のブラウズ装置 |
JPH10214268A (ja) | 1997-01-29 | 1998-08-11 | Omron Corp | 文書検索方法および装置 |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
JP2000235579A (ja) | 1999-02-15 | 2000-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体 |
US8255408B1 (en) * | 2005-08-26 | 2012-08-28 | At&T Intellectual Property Ii, L.P. | System and method for categorizing long documents |
US20070208761A1 (en) * | 2005-11-14 | 2007-09-06 | Lunt Tracy T | Mapping electronic files contained in an electronic mail file to a file class |
KR100756921B1 (ko) * | 2006-02-28 | 2007-09-07 | 한국과학기술원 | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. |
JP5903800B2 (ja) * | 2011-08-23 | 2016-04-13 | コニカミノルタ株式会社 | 文書管理システムおよびサーバ |
JP6107524B2 (ja) | 2013-08-07 | 2017-04-05 | 富士ゼロックス株式会社 | 文書管理装置及び文書管理プログラム |
EP2978231A1 (en) * | 2014-07-25 | 2016-01-27 | Telefonica Digital España, S.L.U. | Method, system and device for proactive content customization |
RU2014134291A (ru) * | 2014-08-21 | 2016-03-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы классификации и структурирования документов |
WO2016112468A1 (en) * | 2015-03-16 | 2016-07-21 | Titus Inc. | Automated classification and detection of sensitive content using virtual keyboard on mobile devices |
US10726074B2 (en) * | 2017-01-04 | 2020-07-28 | Microsoft Technology Licensing, Llc | Identifying among recent revisions to documents those that are relevant to a search query |
-
2019
- 2019-03-25 JP JP2019055950A patent/JP7293780B2/ja active Active
- 2019-07-11 US US16/509,479 patent/US11244000B2/en active Active
- 2019-08-30 CN CN201910814137.3A patent/CN111737397A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11244000B2 (en) | 2022-02-08 |
US20200311125A1 (en) | 2020-10-01 |
JP7293780B2 (ja) | 2023-06-20 |
JP2020160494A (ja) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2013329525C1 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
KR101511656B1 (ko) | 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 | |
CA2638558C (en) | Topic word generation method and system | |
JPWO2006134682A1 (ja) | 固有表現抽出装置、方法、及びプログラム | |
CN111737397A (zh) | 信息处理装置、文档管理系统、记录媒体及信息处理方法 | |
JP2013161371A (ja) | テキスト検索装置及びプログラム | |
JP4179858B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
CN114328983A (zh) | 文档碎化方法、数据检索方法、装置及电子设备 | |
US10474700B2 (en) | Robust stream filtering based on reference document | |
CN110008407B (zh) | 一种信息检索方法及装置 | |
CN109712613B (zh) | 语义分析库更新方法、装置及电子设备 | |
JP2006024158A (ja) | 分類案内装置 | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
JP2011090463A (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP5211000B2 (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
CN109684442B (zh) | 一种文本检索方法、装置、设备及程序产品 | |
JP2010218216A (ja) | 類似文書検索システム、方法及びプログラム | |
CN111723286A (zh) | 一种数据处理的方法及装置 | |
JP2020030634A (ja) | 検索装置、検索方法及び検索プログラム | |
JP2019125025A (ja) | システム、文書データの管理方法、及びプログラム | |
CN117272953B (zh) | 一种文档信息自动填充方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan Applicant after: Fuji film business innovation Co.,Ltd. Address before: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan Applicant before: Fuji Xerox Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |