CN114647615A - 一种文档的归集方法、装置及计算机存储介质 - Google Patents

一种文档的归集方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN114647615A
CN114647615A CN202210282924.XA CN202210282924A CN114647615A CN 114647615 A CN114647615 A CN 114647615A CN 202210282924 A CN202210282924 A CN 202210282924A CN 114647615 A CN114647615 A CN 114647615A
Authority
CN
China
Prior art keywords
document
target
information
keyword
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210282924.XA
Other languages
English (en)
Inventor
金成伟
杨鹤鸣
苏振文
程然
梁冠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Original Assignee
Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Planning and Designing Institute of Telecommunications Co Ltd filed Critical Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority to CN202210282924.XA priority Critical patent/CN114647615A/zh
Publication of CN114647615A publication Critical patent/CN114647615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文档的归集方法、装置及计算机存储介质,该方法包括:接收目标文档,所述目标文档为需要进行归集的任一文档;基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;根据所述第一目标信息,对所述目标文档进行归集。可见,本发明能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。

Description

一种文档的归集方法、装置及计算机存储介质
技术领域
本发明涉及信息管理技术领域,尤其涉及一种文档的归集方法、装置及计算机存储介质。
背景技术
随着信息化技术的快速发展,对于企业来说,在经营生产中产生了大量的文档信息,当企业中的文档达到一定数量后,对这些海量的文档信息的管理就显得尤为重要,对文档信息的管理包括对这些海量的文档进行整理和归集,以方便日后进行文档调取和查看,因此,良好的企业文档信息的管理可使企业的运营更加顺畅,能够大大提高企业的管理效率。
当前,在企业的文档信息的管理中,通常是通过人工手动对文档信息进行整理和归集。然而,实践发现,当通过人工手动对企业中的文档信息进行管理和归集时,当企业中的文档数量较多时,对文档的归集会浪费企业的人力物力,并且,通过人工手动对文档进行归集可能会发生文档的归集错误,导致文档的归集准确性不高。
发明内容
本发明所要解决的技术问题在于,提供一种文档的归集方法、装置及计算机存储介质,能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。
为了解决上述技术问题,本发明第一方面公开了一种文档的归集方法,所述方法包括:
接收目标文档,所述目标文档为需要进行归集的任一文档;
基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;
根据所述第一目标信息,对所述目标文档进行归集。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述第一目标信息,对所述目标文档进行归集,包括:
根据所述目标文档的所述第一目标信息中的所述文档类别子信息,确定所述目标文档对应的目标文件夹,其中,所述目标文件夹中存放有与所述目标文件夹的类型对应的所有相关文档;
根据确定出的文档组卷算法,确定所述目标文档在所述目标文件夹中对应的目标案卷,其中,案卷为多个互有联系的文档集合;
将所述目标文档存放在所述目标文件夹的所述目标案卷中。
作为一种可选的实施方式,在本发明第一方面中,所述接收目标文档,所述目标文档为需要进行归集的任一文档,包括:
某一用户进入文档上传界面;
通过所述文档上传界面,所述某一用户上传目标文档,所述目标文档为需要进行归集的任一文档;
和/或,
连接目标系统,所述目标系统为包含多个文档的任一系统;
从所述目标系统中获取目标文档,所述目标文档为需要进行归集的任一文档。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合;
确定所述目标文档的所述关键词集合中的每个关键词的权重值;
根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词;
将所述目标关键词确定为所述目标文档的文档索引信息,所述文档索引信息用于为文档的检索提供指引。
作为一种可选的实施方式,在本发明第一方面中,所述基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合,包括:
基于确定出的TF-IDF算法对所述目标文档进行内容解析,得到初始关键词集合,其中,所述初始关键词集合中包括根据所述目标文档初始确定的至少一个关键词;
根据数据库中归集的所有文档的数量,得到概率分母数;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的文档数量,得到概率分子数;
计算所述概率分子数和所述概率分母数的比值,以得到所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率,从所述初始关键词集合中确定所述目标文档的关键词集合,其中,所述关键词集合中包括所述目标文档对应的至少一个关键词。
作为一种可选的实施方式,在本发明第一方面中,所述确定所述目标文档的所述关键词集合中的每个关键词的权重值,包括:
确定所述目标文档的所述关键词集合中的每个关键词对应的第二目标信息,所述第二目标信息包括频率信息和/或来源信息,其中,所述频率信息为所述关键词集合中的每个关键词出现在所述目标文档中的频率,所述来源信息为所述关键词集合中的每个关键词出现在所述目标文档的位置来源,其中,所述位置来源包括文档标题和/或文档摘要和/或文档正文;
根据所述第二目标信息,确定所述关键词集合中的每个关键词的权重值。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词,包括:
将所述目标文档的所述关键词集合中的所有关键词对应的权重值大于等于预设权重阈值的关键词确定为所述目标文档的目标关键词;
和/或,
对所述目标文档的所述关键词集合中的所有关键词对应的权重值按照从大到小进行排序,得到所述目标文档的所有关键词的序列;
将所述目标文档的所有关键词的序列中的前预设数量个所述关键词确定为目标关键词。
本发明第二方面公开了一种文档的归集装置,所述装置包括:
接收模块,用于接收目标文档,所述目标文档为需要进行归集的任一文档;
识别模块,用于基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;
归集模块,用于根据所述第一目标信息,对所述目标文档进行归集。
作为一种可选的实施方式,在本发明第二方面中,所述归集模块根据所述第一目标信息,对所述目标文档进行归集的具体方式为:
根据所述目标文档的所述第一目标信息中的所述文档类别子信息,确定所述目标文档对应的目标文件夹,其中,所述目标文件夹中存放有与所述目标文件夹的类型对应的所有相关文档;
根据确定出的文档组卷算法,确定所述目标文档在所述目标文件夹中对应的目标案卷,其中,案卷为多个互有联系的文档集合;
将所述目标文档存放在所述目标文件夹的所述目标案卷中。
作为一种可选的实施方式,在本发明第二方面中,所述接收模块接收目标文档,所述目标文档为需要进行归集的任一文档的具体方式为:
某一用户进入文档上传界面;
通过所述文档上传界面,所述某一用户上传目标文档,所述目标文档为需要进行归集的任一文档;
和/或,
连接目标系统,所述目标系统为包含多个文档的任一系统;
从所述目标系统中获取目标文档,所述目标文档为需要进行归集的任一文档。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
解析模块,用于基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合;
确定模块,用于确定所述目标文档的所述关键词集合中的每个关键词的权重值;根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词;将所述目标关键词确定为所述目标文档的文档索引信息,所述文档索引信息用于为文档的检索提供指引。
作为一种可选的实施方式,在本发明第二方面中,所述解析模块基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合的具体方式为:
基于确定出的TF-IDF算法对所述目标文档进行内容解析,得到初始关键词集合,其中,所述初始关键词集合中包括根据所述目标文档初始确定的至少一个关键词;
根据数据库中归集的所有文档的数量,得到概率分母数;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的文档数量,得到概率分子数;
计算所述概率分子数和所述概率分母数的比值,以得到所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率,从所述初始关键词集合中确定所述目标文档的关键词集合,其中,所述关键词集合中包括所述目标文档对应的至少一个关键词。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块确定所述目标文档的所述关键词集合中的每个关键词的权重值的具体方式为:
确定所述目标文档的所述关键词集合中的每个关键词对应的第二目标信息,所述第二目标信息包括频率信息和/或来源信息,其中,所述频率信息为所述关键词集合中的每个关键词出现在所述目标文档中的频率,所述来源信息为所述关键词集合中的每个关键词出现在所述目标文档的位置来源,其中,所述位置来源包括文档标题和/或文档摘要和/或文档正文;
根据所述第二目标信息,确定所述关键词集合中的每个关键词的权重值。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词的具体方式为:
将所述目标文档的所述关键词集合中的所有关键词对应的权重值大于等于预设权重阈值的关键词确定为所述目标文档的目标关键词;
和/或,
对所述目标文档的所述关键词集合中的所有关键词对应的权重值按照从大到小进行排序,得到所述目标文档的所有关键词的序列;
将所述目标文档的所有关键词的序列中的前预设数量个所述关键词确定为目标关键词。
本发明第三方面公开了一种文档的归集装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的文档的归集方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的文档的归集方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,接收目标文档,所述目标文档为需要进行归集的任一文档;基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;根据所述第一目标信息,对所述目标文档进行归集。可见,本发明能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,对目标文档自动进行归集操作,能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种文档的归集方法的流程示意图;
图2是本发明实施例公开的另一种文档的归集方法的流程示意图;
图3是本发明实施例公开的一种文档的归集装置的结构示意图;
图4是本发明实施例公开的另一种文档的归集装置的结构示意图;
图5是本发明实施例公开的又一种文档的归集装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例公开了一种文档的归集方法、装置及计算机存储介质,能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,对目标文档自动进行归集操作,能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种文档的归集方法的流程示意图。如图1所示,该文档的归集方法可以包括以下操作:
101、接收目标文档,目标文档为需要进行归集的任一文档。
本发明实施例中,该目标文档为需要进行归集的任一文档,该目标文档按照文档格式来分可以包括word文档、excel文档和pdf文档等,该目标文档按照文档类型来分也可以包括技术文档、管理文档和标准作业流程文档等,该目标文档还可以为其他相关文档,本发明实施例不做限定。
在一个可选的实施例中,该接收目标文档,该目标文档为需要进行归集的任一文档,可以包括:
某一用户进入文档上传界面;
通过该文档上传界面,该某一用户上传目标文档,该目标文档为需要进行归集的任一文档;
和/或,
连接目标系统,该目标系统为包含多个文档的任一系统;
从该目标系统中获取目标文档,该目标文档为需要进行归集的任一文档。
在该可选的实施例中,某一用户通过登入该文档归集系统,并进入文档上传界面,通过手动上传文档到文档归集系统中。也可以将该文档归集系统与目标系统(如广东通服统一OA系统)进行对接,在成功对接到目标系统后,该文档归集系统就可以获取该目标系统中的相关文档,并对目标系统中的这些文档进行归集操作。
在该可选的实施例中,通过上述两种方式获取待归集的文档的操作可单独进行,也可以同步进行。
可见,该可选的实施例能够通过多种途径获取相关文档,并对相关文档进行归集操作,可提高获取待归集文档的效率,从而提高文档归集效率。
102、基于确定出的文档识别模型对目标文档进行识别,得到第一目标信息,第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息。
本发明实施例中,该第一目标信息中的名称子信息为该文档的标题,对于有标题的文档直接使用该文档的标题,对于没有标题的文档则根据文档内容自动生成文档标题;该第一目标信息中的类别子信息为该文档的类别;该第一目标信息中的文档关联用户子信息为该文档对应的关联用户信息,该关联用户包括该文档的撰写人员,上传人员等信息;该第一目标信息中的文档上传时间子信息为该文档的上传到该文档归集系统的时刻;该第一目标信息中的保密等级子信息为该文档的保密等级,该保密等级可以包括多个等级,例如,可以为高保密等级、中保密等级和低保密等级,当文档只能被少部分人员查看时,则可设置为高保密等级。
103、根据第一目标信息,对目标文档进行归集。
本发明实施例中,综合文档的第一目标信息中的多个子信息内容,将目标文档归集到对应的文件夹中,进一步的,在将目标文档归集到文件夹中后,确定该目标文档在该文件夹中的位置,可通过预设排序方式对该文件夹中的文档进行排序,通过有规律的排序,可快速的了解该目标文档的具体位置。
举例来说,需要对设备操作手册文档和设备采购合同文档进行归集,由于该设备操作手册文档的文档类型是技术文档,并且所有技术人员和相关设备管理人员有权限浏览该文档,因此,该设备操作手册文档属于低保密等级,因此,将该设备操作手册文档归集到兼具技术文档属性和低保密等级属性的文件夹中;由于该设备采购合同文档的文档类型是管理文档,并且只有与该设备相关的管理人员才有权限浏览该设备采购合同文档,因此,该设备操作手册文档属于中保密等级,因此,将该设备采购合同文档归集到兼具管理文档属性和中保密等级属性的文件夹中。
可见,实施本发明实施例所描述的文档的归集方法能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,对目标文档自动进行归集操作,能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。
实施例二
请参阅图2,图2是本发明实施例公开的另一种文档的归集方法的流程示意图。如图2所示,该文档的归集方法可以包括以下操作:
201、接收目标文档,目标文档为需要进行归集的任一文档。
202、基于确定出的文档识别模型对目标文档进行识别,得到第一目标信息,第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息。
203、根据目标文档的第一目标信息中的文档类别子信息,确定目标文档对应的目标文件夹,其中,目标文件夹中存放有与目标文件夹的类型对应的所有相关文档。
本发明实施例中,针对步骤201-步骤203的其它描述,请参照实施例一中针对步骤101-步骤103的详细描述,本发明实施例不再赘述。
204、根据确定出的文档组卷算法,确定目标文档在目标文件夹中对应的目标案卷,其中,案卷为多个互有联系的文档集合。
本发明实施例中,该文档组卷算法可对该目标文档进行分析,确定该目标文档在该目标文件夹中对应的目标案卷,其中,目标案卷中的文档在文档内容、文档来源等方面存在关联,当该目标文档有与其相关的案卷时,则将该目标文档放在对应的目标案卷中,当该目标文档没有与其相关的案卷时,则将该目标文档单独存放在目标文件夹中。
205、将目标文档存放在目标文件夹的目标案卷中。
举例来说,需要对A设备采购合同文档进行归集,可通过文档组卷算法确定该A设备采购合同文档在目标文件夹中对应的目标案卷,经过文档组卷算法对该A设备采购合同文档的内容的分析,最终在目标文件夹中找到的目标案卷为“A设备管理文档案卷”,在该A设备管理文档案卷中存储了A设备的相关管理文件,最终,将该A设备采购合同文档存放在目标文件夹中的A设备管理文档案卷中。
可见,实施本发明实施例所描述的文档的归集方法能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,先确定该目标文档的目标文件夹,然后通过文档组卷算法在目标文件夹中确定该目标文档对应的目标案卷,并将该目标文档存放在该目标案卷中,实现快速对大量的文档进行归集,以提高文档归集的效率,同时可以进一步保证文档归集的准确性。
在一个可选的实施例中,该方法还可以包括:
基于确定出的文档内容解析算法对该目标文档进行内容解析,得到该目标文档的关键词集合;
确定该目标文档的该关键词集合中的每个关键词的权重值;
根据该目标文档的该关键词集合中的每个关键词的权重值,确定出目标关键词;
将该目标关键词确定为该目标文档的文档索引信息,该文档索引信息用于为文档的检索提供指引。
在该可选的实施例中,根据每个关键词的权重值确定的目标关键词可以为1个,也可以为多个,本发明实施例不做限定。
可见,该可选的实施例能够根据解析出的每个关键词的权重值的情况,来确定该目标文档的目标关键词,可提高确定文档关键词的精度。
在另一个可选的实施例中,该基于确定出的文档内容解析算法对该目标文档进行内容解析,得到该目标文档的关键词集合,包括:
基于确定出的TF-IDF算法对该目标文档进行内容解析,得到初始关键词集合,其中,该初始关键词集合中包括根据该目标文档初始确定的至少一个关键词;
根据数据库中归集的所有文档的数量,得到概率分母数;
根据该初始关键词集合中的每个关键词出现在归集的所有文档中的文档数量,得到概率分子数;
计算该概率分子数和该概率分母数的比值,以得到该初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率;
根据该初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率,从该初始关键词集合中确定该目标文档的关键词集合,其中,该关键词集合中包括该目标文档对应的至少一个关键词。
可见,该可选的实施例能够通过TF-IDF算法解析得到目标文档的初始关键词集合,随后通过上述操作进一步对初始关键词集合中的关键词进行筛选,最终得到更加合适且精准的关键词。
在又一个可选的实施例中,该确定该目标文档的该关键词集合中的每个关键词的权重值,可以包括:
确定该目标文档的该关键词集合中的每个关键词对应的第二目标信息,该第二目标信息包括频率信息和/或来源信息,其中,该频率信息为该关键词集合中的每个关键词出现在该目标文档中的频率,该来源信息为该关键词集合中的每个关键词出现在该目标文档的位置来源,其中,该位置来源包括文档标题和/或文档摘要和/或文档正文;
根据该第二目标信息,确定该关键词集合中的每个关键词的权重值。
可见,该可选的实施例能够通过每个关键词的出现频率信息和来源信息等来确定每个关键词的权重值,可提高关键词的权重值的计算精度,从而进一步提高选取的关键词的精度。
在又一个可选的实施例中,该根据该目标文档的该关键词集合中的每个关键词的权重值,确定出目标关键词,可以包括:
将该目标文档的该关键词集合中的所有关键词对应的权重值大于等于预设权重阈值的关键词确定为该目标文档的目标关键词;
和/或,
对该目标文档的该关键词集合中的所有关键词对应的权重值按照从大到小进行排序,得到该目标文档的所有关键词的序列;
将该目标文档的所有关键词的序列中的前预设数量个该关键词确定为目标关键词。
可见,该可选的实施例能够通过多种方式来从关键词集合中确定该目标文档对应的目标关键词,可提高该目标关键词的确定精度。
实施例三
请参阅图3,图3是本发明实施例公开的一种文档的归集装置的结构示意图。如图3所示,该装置可以包括:
接收模块301,用于接收目标文档,该目标文档为需要进行归集的任一文档;
识别模块302,用于基于确定出的文档识别模型对该目标文档进行识别,得到第一目标信息,该第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;
归集模块303,用于根据该第一目标信息,对该目标文档进行归集。
可见,实施本发明实施例所描述的文档的归集装置能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,对目标文档自动进行归集操作,能够快速对大量的文档进行归集,以提高文档归集的效率,同时可以保证文档归集的准确性。
在一个可选的实施例中,该归集模块303根据该第一目标信息,对该目标文档进行归集的具体方式为:
根据该目标文档的该第一目标信息中的该文档类别子信息,确定该目标文档对应的目标文件夹,其中,该目标文件夹中存放有与该目标文件夹的类型对应的所有相关文档;
根据确定出的文档组卷算法,确定该目标文档在该目标文件夹中对应的目标案卷,其中,案卷为多个互有联系的文档集合;
将该目标文档存放在该目标文件夹的该目标案卷中。
可见,实施本发明实施例所描述的文档的归集装置能够根据对目标文档识别的名称子信息和类别子信息等多种子信息,先确定该目标文档的目标文件夹,然后通过文档组卷算法在目标文件夹中确定该目标文档对应的目标案卷,并将该目标文档存放在该目标案卷中,实现快速对大量的文档进行归集,以提高文档归集的效率,同时可以进一步保证文档归集的准确性。
在另一个可选的实施例中,该接收模块301接收目标文档,该目标文档为需要进行归集的任一文档的具体方式为:
某一用户进入文档上传界面;
通过该文档上传界面,该某一用户上传目标文档,该目标文档为需要进行归集的任一文档;
和/或,
连接目标系统,该目标系统为包含多个文档的任一系统;
从该目标系统中获取目标文档,该目标文档为需要进行归集的任一文档。
可见,该可选的实施例能够通过多种途径获取相关文档,并对相关文档进行归集操作,可提高获取待归集文档的效率,从而提高文档归集效率。
在又一个可选的实施例中,该装置还可以包括:
解析模块304,用于基于确定出的文档内容解析算法对该目标文档进行内容解析,得到该目标文档的关键词集合;
确定模块305,用于确定该目标文档的该关键词集合中的每个关键词的权重值;根据该目标文档的该关键词集合中的每个关键词的权重值,确定出目标关键词;将该目标关键词确定为该目标文档的文档索引信息,该文档索引信息用于为文档的检索提供指引。
可见,该可选的实施例能够根据解析出的每个关键词的权重值的情况,来确定该目标文档的目标关键词,可提高确定文档关键词的精度。
在又一个可选的实施例中,该解析模块304基于确定出的文档内容解析算法对该目标文档进行内容解析,得到该目标文档的关键词集合的具体方式为:
基于确定出的TF-IDF算法对该目标文档进行内容解析,得到初始关键词集合,其中,该初始关键词集合中包括根据该目标文档初始确定的至少一个关键词;
根据数据库中归集的所有文档的数量,得到概率分母数;
根据该初始关键词集合中的每个关键词出现在归集的所有文档中的文档数量,得到概率分子数;
计算该概率分子数和该概率分母数的比值,以得到该初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率;
根据该初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率,从该初始关键词集合中确定该目标文档的关键词集合,其中,该关键词集合中包括该目标文档对应的至少一个关键词。
可见,该可选的实施例能够通过TF-IDF算法解析得到目标文档的初始关键词集合,随后通过上述操作进一步对初始关键词集合中的关键词进行筛选,最终得到更加合适且精准的关键词。
在又一个可选的实施例中,该确定模块305确定该目标文档的该关键词集合中的每个关键词的权重值的具体方式为:
确定该目标文档的该关键词集合中的每个关键词对应的第二目标信息,该第二目标信息包括频率信息和/或来源信息,其中,该频率信息为该关键词集合中的每个关键词出现在该目标文档中的频率,该来源信息为该关键词集合中的每个关键词出现在该目标文档的位置来源,其中,该位置来源包括文档标题和/或文档摘要和/或文档正文;
根据该第二目标信息,确定该关键词集合中的每个关键词的权重值。
可见,该可选的实施例能够通过每个关键词的出现频率信息和来源信息等来确定每个关键词的权重值,可提高关键词的权重值的计算精度,从而进一步提高选取的关键词的精度。
在又一个可选的实施例中,该确定模块305根据该目标文档的该关键词集合中的每个关键词的权重值,确定出目标关键词的具体方式为:
将该目标文档的该关键词集合中的所有关键词对应的权重值大于等于预设权重阈值的关键词确定为该目标文档的目标关键词;
和/或,
对该目标文档的该关键词集合中的所有关键词对应的权重值按照从大到小进行排序,得到该目标文档的所有关键词的序列;
将该目标文档的所有关键词的序列中的前预设数量个该关键词确定为目标关键词。
可见,该可选的实施例能够通过多种方式来从关键词集合中确定该目标文档对应的目标关键词,可提高该目标关键词的确定精度。
实施例四
请参阅图5,图5是本发明实施例公开的又一种文档的归集装置的结构示意图。如图5所示,该装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,用于执行实施例一或实施例二所描述的文档的归集方法中的步骤。
实施例五
本发明实施例公开了一种计算机读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一或实施例二所描述的文档的归集方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二所描述的文档的归集方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种文档的归集方法、装置及计算机存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种文档的归集方法,其特征在于,所述方法包括:
接收目标文档,所述目标文档为需要进行归集的任一文档;
基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;
根据所述第一目标信息,对所述目标文档进行归集。
2.根据权利要求1所述的文档的归集方法,其特征在于,所述根据所述第一目标信息,对所述目标文档进行归集,包括:
根据所述目标文档的所述第一目标信息中的所述文档类别子信息,确定所述目标文档对应的目标文件夹,其中,所述目标文件夹中存放有与所述目标文件夹的类型对应的所有相关文档;
根据确定出的文档组卷算法,确定所述目标文档在所述目标文件夹中对应的目标案卷,其中,案卷为多个互有联系的文档集合;
将所述目标文档存放在所述目标文件夹的所述目标案卷中。
3.根据权利要求2所述的文档的归集方法,其特征在于,所述接收目标文档,所述目标文档为需要进行归集的任一文档,包括:
某一用户进入文档上传界面;
通过所述文档上传界面,所述某一用户上传目标文档,所述目标文档为需要进行归集的任一文档;
和/或,
连接目标系统,所述目标系统为包含多个文档的任一系统;
从所述目标系统中获取目标文档,所述目标文档为需要进行归集的任一文档。
4.根据权利要求3所述的文档的归集方法,其特征在于,所述方法还包括:
基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合;
确定所述目标文档的所述关键词集合中的每个关键词的权重值;
根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词;
将所述目标关键词确定为所述目标文档的文档索引信息,所述文档索引信息用于为文档的检索提供指引。
5.根据权利要求4所述的文档的归集方法,其特征在于,所述基于确定出的文档内容解析算法对所述目标文档进行内容解析,得到所述目标文档的关键词集合,包括:
基于确定出的TF-IDF算法对所述目标文档进行内容解析,得到初始关键词集合,其中,所述初始关键词集合中包括根据所述目标文档初始确定的至少一个关键词;
根据数据库中归集的所有文档的数量,得到概率分母数;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的文档数量,得到概率分子数;
计算所述概率分子数和所述概率分母数的比值,以得到所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率;
根据所述初始关键词集合中的每个关键词出现在归集的所有文档中的出现概率,从所述初始关键词集合中确定所述目标文档的关键词集合,其中,所述关键词集合中包括所述目标文档对应的至少一个关键词。
6.根据权利要求4或5所述的文档的归集方法,其特征在于,所述确定所述目标文档的所述关键词集合中的每个关键词的权重值,包括:
确定所述目标文档的所述关键词集合中的每个关键词对应的第二目标信息,所述第二目标信息包括频率信息和/或来源信息,其中,所述频率信息为所述关键词集合中的每个关键词出现在所述目标文档中的频率,所述来源信息为所述关键词集合中的每个关键词出现在所述目标文档的位置来源,其中,所述位置来源包括文档标题和/或文档摘要和/或文档正文;
根据所述第二目标信息,确定所述关键词集合中的每个关键词的权重值。
7.根据权利要求6所述的文档的归集方法,其特征在于,所述根据所述目标文档的所述关键词集合中的每个关键词的权重值,确定出目标关键词,包括:
将所述目标文档的所述关键词集合中的所有关键词对应的权重值大于等于预设权重阈值的关键词确定为所述目标文档的目标关键词;
和/或,
对所述目标文档的所述关键词集合中的所有关键词对应的权重值按照从大到小进行排序,得到所述目标文档的所有关键词的序列;
将所述目标文档的所有关键词的序列中的前预设数量个所述关键词确定为目标关键词。
8.一种文档的归集装置,其特征在于,所述装置包括:
接收模块,用于接收目标文档,所述目标文档为需要进行归集的任一文档;
识别模块,用于基于确定出的文档识别模型对所述目标文档进行识别,得到第一目标信息,所述第一目标信息包括文档名称子信息和/或文档类别子信息和/或文档关联用户子信息和/或文档上传时间子信息和/或保密等级子信息;
归集模块,用于根据所述第一目标信息,对所述目标文档进行归集。
9.一种文档的归集装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的文档的归集方法中的部分或全部步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的文档的归集方法中的部分或全部步骤。
CN202210282924.XA 2022-03-22 2022-03-22 一种文档的归集方法、装置及计算机存储介质 Pending CN114647615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210282924.XA CN114647615A (zh) 2022-03-22 2022-03-22 一种文档的归集方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282924.XA CN114647615A (zh) 2022-03-22 2022-03-22 一种文档的归集方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114647615A true CN114647615A (zh) 2022-06-21

Family

ID=81994661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282924.XA Pending CN114647615A (zh) 2022-03-22 2022-03-22 一种文档的归集方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114647615A (zh)

Similar Documents

Publication Publication Date Title
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
WO2023272850A1 (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN112259170A (zh) 基于机器学习算法的生物信息分析平台
CN110689211A (zh) 网站服务能力的评估方法及装置
CN111858236B (zh) 知识图谱监控方法、装置、计算机设备及存储介质
CN114049016A (zh) 指标相似性判断方法、系统、终端设备及计算机存储介质
CN111325562A (zh) 粮食安全追溯系统及方法
CN111369294A (zh) 软件造价估算方法及装置
CN114647615A (zh) 一种文档的归集方法、装置及计算机存储介质
CN116049644A (zh) 特征筛选和聚类分箱方法、装置、电子设备及存储介质
CN108520012A (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN115204128A (zh) 一种配置文件生成方法、装置和计算机可读存储介质
CN108711073B (zh) 用户分析方法、装置及终端
CN112182218A (zh) 文本数据的分类方法及装置
CN116860909B (zh) 基于生化知识图谱的数据存储方法、系统及存储介质
US20210349896A1 (en) Serum of truth
CN111881286B (zh) 一种分类模糊性分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination