CN107085583A - 一种基于内容的电子文档管理方法及装置 - Google Patents
一种基于内容的电子文档管理方法及装置 Download PDFInfo
- Publication number
- CN107085583A CN107085583A CN201610957633.0A CN201610957633A CN107085583A CN 107085583 A CN107085583 A CN 107085583A CN 201610957633 A CN201610957633 A CN 201610957633A CN 107085583 A CN107085583 A CN 107085583A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- catalogue
- document
- keyword set
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于内容的电子文档管理方法及装置,所述方法包括:接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件;若所述定位条件为属性信息,则在托管目录中检索得到文档定位结果,若所述定位条件为定位关键词集或者所述定位条件为定位关键词集与属性信息,则在数据库的目录索引表中检索,得到文档定位结果;输出符合上述定位条件的文档定位结果。通过本发明方案,为用户快速查找出所需电子文档,提高了电子文档的管理效率,为分散在计算设备各处的电子文档提供了统一管理。
Description
技术领域
本发明涉及信息管理及信息处理领域,具体涉及一种基于内容的电子文档管理方法及装置。
背景技术
电子化办公过程中产生了大量电子文档,包括特定的组织机构分发下的电子文档,及用户通过各种通讯工具交流的电子文档。由于这些文档往往分散在通用计算设备的不同位置,当用户想要对某一特定文档进行操作时,耗费大量时间查找该文档到底存放在何处,给用户带来了极大的不便利,造成了文档管理的效率低下。
发明内容
本发明实施例提供了一种基于内容的电子文档管理方法及装置,旨在提高用户对分散在计算设备不同位置的文档的管理效率,帮助用户快速找到需要的电子文档。
本发明实施例的第一方面,提供一种基于内容的电子文档管理方法,所述方法包括:
接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,所述定位条件包括:属性信息和/或定位关键词集;
若所述定位条件为属性信息,则在托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,所述托管目录为受计算设备保护且用户无法直接点击访问的目录,计算设备中所有的电子文档均可存放于所述托管目录下;
若所述定位条件为定位关键词集,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为文档定位结果,其中,所述第一目标关键词集为与所述定位关键词集的第一相似度不小于预设的第一相似度阈值的电子文档的关键词集,所述目录索引表为根据托管目录实时更新的,记录有托管目录中每个电子文档所在目录的信息、文档关键词集的索引表,其中所述目录索引表记录的文档关键词集为电子文档的最多前N个最大权重的关键词组成的关键词集,N为预设的大于或等于2的自然数,所述目录索引表预先存储于计算设备的数据库中;
若所述定位条件为属性信息和定位关键词集,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在所述第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
输出符合所述定位条件的文档定位结果。
本发明实施例的第二方面,提供一种基于内容的电子文档管理装置,所述电子文档管理装置包括:
定位请求接收单元,用于接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,所述定位条件包括:属性信息和/或定位关键词集;
托管目录检索单元,用于当所述定位请求接收单元获取到的定位条件为属性信息时,在所述托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
索引表检索单元,用于当所述定位请求接收单元获取到的定位条件为定位关键词集时,分别计算所述定位关键词集和所述目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为所述文档定位结果;还用于当所述定位请求获取单元获取到的定位条件为属性信息和定位关键词集时,分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
定位结果输出单元,用于输出所述托管目录检索单元及所述索引表检索单元检索到的符合定位条件的文档定位结果。
由上可见,本发明实施例中,首先接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,然后当所述定位条件为属性信息时,在托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,当所述定位条件为定位关键词集时,分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为文档定位结果,当所述定位条件为属性信息和定位关键词集时,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在所述第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,最后输出符合所述定位条件的文档定位结果。本发明实施例为分散在计算设备各处的电子文档提供了统一管理,方便用户快速查找出所需的电子文档,提高了用户对电子文档操作的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于内容的电子文档管理方法的实现流程图;
图2为本发明实施例提供的电子文档归类方法的实现流程图;
图3为本发明实施例提供的基于内容的电子文档管理装置的结构框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中,首先接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,然后当所述定位条件为属性信息时,在托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,当所述定位条件为定位关键词集时,分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为文档定位结果,当所述定位条件为属性信息和定位关键词集时,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在所述第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,最后输出符合所述定位条件的文档定位结果。本发明实施例为分散在计算设备各处的电子文档提供了统一管理,方便用户快速查找出所需的电子文档,提高了用户对电子文档操作的效率。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的基于内容的电子文档管理方法的实现流程,详述如下:
在步骤S101中,接收输入的电子文档定位请求,根据上述电子文档定位请求获取定位条件,上述定位条件包括:属性信息和/或定位关键词集。
在本发明实施例中,首先接收用户输入的电子文档定位请求,根据上述电子文档定位请求,获取用户目标电子文档的定位条件。其中,上述定位条件包括但不限于如下一种以上:定位关键词集,文档属性,文档内容片段,文档安全级别,其中,上述文档属性又包括但不限于如下一项以上:文档名称,文档生成时间,文档修改时间,文档归类时间,文档扩展名,文档大小。可选地,可以在计算设备的任一文件上或者桌面空白区域接收到用户以右键点击或者其它点击方式输入的唤醒上下文菜单指令后,弹出上下文菜单。可选地,可以在接收了用户在上述上下文菜单中选择“文档自动定位”这一菜单项后,为用户呈现图形用户界面或者其它交互界面,利用上述图形用户界面或者其它交互界面引导用户输入定位条件。在本发明实施例中,主要针对定位条件为属性信息和/或定位关键词集的情况作出说明。
若在步骤S101中获得的上述定位条件为属性信息,则执行步骤S102,在托管目录中检索与上述属性信息匹配的电子文档,将检索到的与上述属性信息匹配的电子文档作为文档定位结果。
在本发明实施例中,根据步骤S101中获取到的定位条件,进行文档检索。由于获取到的定位条件有多种类型,因而存在多种应用场景。在一种应用场景中,上述定位条件具体为属性信息,则此时,只需在托管目录中检索与上述属性信息匹配的电子文档,将检索到的与上述属性信息匹配的电子文档作为文档定位结果。其中,托管目录为受计算设备保护且用户无法直接点击访问的目录,计算设备中所有的电子文档均可存放于上述托管目录下。当电子文档存放于托管目录的子目录下时,能够实现对计算设备中上述托管目录下的所有子目录及这些子目录下的文件提供统一管理。
若在步骤S101中获得的上述定位条件为定位关键词集,则执行步骤S103,分别计算上述定位关键词集和上述目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与上述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将上述可定位目录下的电子文档作为文档定位结果。
在本发明实施例中,上述定位关键词集的获取可以通过用户在图形用户界面的关键词栏中直接输入目标电子文档的一个以上关键词组成上述定位关键词集;或者,在步骤S103中,可以由用户在关键词栏输入一句关键句子后,由电子文档管理装置自动提取有效关键词组成上述定位关键词集,在此不作限制。
在提取到定位关键词集后,将分别计算上述定位关键词集与目录索引表中各个电子文档的关键词集的第一相似度,若存在第一目标关键词集,则将与上述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,并将可定位目录下的电子文档作为文档定位结果,上述第一目标关键词集为与上述定位关键词集的第一相似度不小于预设的第一相似度阈值的电子文档的关键词集。其中,上述第一相似度阈值可以预先设置在0.9至1之间,可以是系统设置的,也可以是用户自行设置的,此处不作限定。上述目录索引表为根据托管目录实时更新的,记录有托管目录中每个电子文档所在目录的信息及文档关键词集的索引表,并且上述目录索引表预先存储于计算设备的数据库中。具体地,上述目录索引表记录有托管目录中各个电子文档的信息,包括但不限于:文档的目录ID,文档的最大权重的关键词,文档的最多前N个关键词组成的关键词集,文档所在目录的目录名称,该条记录的修改时间及该条记录的生成时间。其中,每个文档的目录ID是唯一的数字,而上述N可以为20,每当目录索引表需要新记录一个电子文档的信息时,这个电子文档的目录ID将由电子文档管理装置在已有的最大的目录ID上加一而得,同时会从该电子文档的所有关键词中挑选出前20个权重最大的关键词组成目录索引表中针对这个电子文档记录的关键词集。可选地,当发现第一个第一目标关键词集时,则立刻终止对上述定位关键词集与目录索引表中剩余电子文档的关键词集的相似度计算,将得到的第一个也是唯一一个第一目标关键词集所关联的电子文档所在的目录确定为可定位目录。
具体地,上述“分别计算上述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度”,包括:
获取上述定位关键词集包含的各个关键词的经验权重;
根据带权重的内积算法,计算上述定位关键词集与目录索引表中记录的各个电子文档的关键词集之间的第一相似度。
其中,可以预先在电子文档管理装置中创建一个经验权重文件,记录有各个关键词及其对应的经验权重。针对任一需要进行相似度计算的关键词,却无法从经验权重文件中找到对应的关键词时,则赋予在经验权重文件中不存在对应关键词的上述关键词为初始的经验权重1。每当用户通过任一关键词在定位过程中找到正确的电子文档时,则在经验权重文件中将上述关键词对应的经验权重加上预设的关键词动态量。可选地,上述关键词动态量被预设为0.1。
在获取到定位关键词集中包含的各个关键词的经验权重后,根据带权重的内积算法,计算上述定位关键词集与目录索引表中各个电子文档的关键词集的第一相似度,上述带权重的内积算法具体为:
s.t.v(xi)=v(yj)
其中,v(xi)表示向量x中的第i个词形,v(yj)表示向量y中的第j个词形,wxi表示向量x中的第i个词形的权重,wyj表示向量y中的第j个词形的权重,|v(x)|表示向量x的长度,|v(y)|表示向量y的长度,S表示向量x与向量y的带权重的内积算法的计算结果,v(xi)=v(yj)为公式的约束条件,表示向量x中的第i个词形与向量y中的第j个词形相同。上述公式的运算过程具体为,当满足上述约束条件时,则累加向量x中的第i个词形与向量y中的第j个词形的权重的点积,除以两个向量的长度积平方根作为计算结果。即,在计算定位关键词集与目录索引表中各个电子文档的关键词集的第一相似度的过程中,针对上述目录索引表中的一个电子文档的关键词集进行与上述定位关键词集的第一相似度计算时,将上述定位关键词集作为向量x,将上述目录索引表中的该个电子文档的关键词集作为向量y,判断在向量x及向量y中是否有关键词相同,若两个向量中存在有相同的关键词,则累加所有相同的关键词的经验权重的点积,再除以两个向量的长度积的平方根,以此作为上述目录索引表中的该个电子文档的关键词集与上述定位关键词集的第一相似度的计算结果。
可选地,在上述“获取上述定位关键词集包含的各个关键词的经验权重”后,“根据带权重的内积算法,计算上述定位关键词集与目录索引表中记录的各个电子文档的关键词集之间的第一相似度”前,上述方法还包括:
将上述定位关键词集与上述目录索引表中记录的各个电子文档的最大权重的关键词作相似度计算,筛选出上述相似度计算结果大于预设的第一相似度阈值的电子文档。使得在计算第一相似度之前,粗略的筛选一遍目录索引表,后续则无需一一计算定位关键词集与目录索引表中各个电子文档的关键词集之间的第一相似度,减少了电子文档管理装置的运算量。
进一步地,上述数据库中还包含关键词索引表,则上述将上述可定位目录下的电子文档作为文档定位结果,还包括:
在关键词索引表中查找出处于上述可定位目录下的各个电子文档的关键词集;计算上述定位关键词集与上述可定位目录下的各个电子文档的关键词集的第二相似度;若存在第二目标关键词集,则将与上述第二目标关键词集关联的电子文档确定为文档定位结果,其中,上述第二目标关键词集为与上述定位关键词集的第二相似度不小于预设的第二相似度阈值的电子文档的关键词集。
其中,由于在目录索引表中查找到的可定位目录下,可能包括多个电子文档,但并非所有的电子文档都是真正符合定位条件的,因而需要在从目录索引表获取到了可定位目录后,再到关键词索引表中对可定位目录下的所有电子文档进行更为精确的相似度计算,对可定位目录下的电子文档进行二次筛选,提高文档定位的准确率。上述第二相似度阈值可以被设置在0.9至1之间,可以与第一相似度阈值相等。可选地,上述第二相似度的计算也可以参照上述带权重的内积算法的实现流程而得。具体地,在目录索引表中,获取与上述第一目标关键词集关联的电子文档所处的目录的目录名称,根据上述获得的目录名称,在目录索引表中筛选得到所有处于该目录下的电子文档,并获取该目录下电子文档的目录ID。根据获取到的各个目录ID,从关键词索引表中找到对应的电子文档储存的关键词集,并进行电子文档的第二相似度的计算及比对,得到第二目标关键词集,并以此确定文档定位结果。具体地,上述关键词索引表记录有托管目录中各个电子文档的信息,包括但不限于:文档的属性信息,全路径名,安全级别,关键词集,自定义关键词集,注释关键词集,目录ID。需要注意的是,目录索引表中保存的文档的关键词集为电子文档的最多前N个最大权重的关键词组成的关键词集,而此处关键词索引表中保存的关键词集为电子文档的全部关键词组成的关键词集。当然,限于资源,当一个电子文档包含的关键词有成千上万个时,关键词索引表中记录的关键词集仍然会对关键词有所筛选。例如,一个电子文档的关键词提取出来有三千个,那么在目录索引表中,记录的这个电子文档的关键词集只会由三千个关键词中权重最大的前20个关键词组成,而关键词索引表中,记录的这个电子文档的关键词集会由三千个关键词中权重最大的前1000个关键词组成。这样一开始在目录索引表作第一相似度的运算时,由于目录索引表存放的信息量较少,因此检索速度会较快,能够提高整体检索效率,分摊相似度的计算压力。
可选地,在获取定位关键词集时,还可以通过让用户在图形用户界面中输入目标电子文档的描述性信息实现,上述目标电子文档的描述性信息包括但不限于如下一种以上:用户对目标电子文档自定义的概括类文字,用户对目标电子文档注释的解释类文字。若用户输入对目标电子文档自定义的概括类文字,则提取上述概括类文字组成定位自定义关键词集;若用户输入对目标电子文档注释的解释类文字,则提取上述解释类文字组成定位注释关键词集。然后根据相似度算法,分别计算上述定位自定义关键词集和/或上述定位注释关键词集与目录索引表中记录的各个电子文档的的关键词集之间的第一相似度。
可选地,上述数据库中还包括自定义关键词索引表和/或注释关键词索引表,若接收到的定位关键词集包括定位自定义关键词集和/或定位注释关键词,则在上述“在关键词索引表中查找出处于上述可定位目录下的各个电子文档的关键词集”前,上述方法还包括:
在自定义关键索引表和/或注释关键词索引表中查找出处于上述可定位目录下的各个电子文档的自定义关键词集和/或注释关键词集;计算上述定位自定义关键词集和/或定位注释关键词集与上述可定位目录下的各个电子文档的自定义关键词集和/或注释关键词集的第二相似度;将此次计算得到的第二相似度与预设的第二相似度阈值作比较,筛选出此次第二相似度大于预设的第二相似度阈值的电子文档;根据筛选出的电子文档的目录ID,在关键词索引表中找到对应的电子文档的相关信息。即,当接收到定位自定义关键词集和/或定位注释关键词时,先在目录索引表中进行相似度的计算及筛选,再在自定义关键索引表和/或注释关键词索引表中作相似度的计算及筛选,最后在关键词索引表中作相似度的计算及筛选,由于目录索引表,自定义关键索引表及注释关键词索引表中存放的信息较少,因此相似度的计算及筛选较快,能够有效减轻在关键词索引表中进行相似度计算及筛选的运算压力。
其中,上述目录ID在目录索引表,关键词索引表,自定义关键词索引表及注释关键词索引表中均有记录。上述目录ID作为外键,将上述四个表中记录的电子文档的信息关联了起来。
若在步骤S101中获得的上述定位条件为属性信息及定位关键词集,则执行步骤S104,分别计算上述定位关键词集和上述目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在上述第一目标关键词集,则将与上述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在上述可定位目录中检索与上述属性信息匹配的电子文档,将检索到的与上述属性信息匹配的电子文档作为文档定位结果;
在本实施例中,根据用户的设定,上述步骤S102及步骤S103中提到的两种应用场景可以分开独立存在,也可以同时存在。当上述两种应用场景同时存在时,即定位条件包含定位关键词集与属性信息时,则以步骤S103的实现过程作为基础,从目录索引表中筛选出与定位关键词集相似度大的电子文档的关键词集后,将这些电子文档再根据属性信息作进一步筛选。
可选地,在步骤S104中,利用定位关键词集在目录索引表中确定可定位目录后,可以参照上述步骤S103的具体实现过程,在关键词索引表中计算可定位目录下各个电子文档的关键词集与上述定位关键词集的第二相似度并筛选,以保证最终获得的文档定位结果是相当可靠的。
可选地,在步骤S104中,若接收到的为自定义关键词集和/或注释关键词集,则可以参照上述步骤S103的具体实现过程,在确定了可定位目录后,先在自定义关键词索引表和/或注释关键词索引表中作筛选,再在关键词索引表中作筛选。
可选地,用户还可以通过输入文档的内容片段或者文档的安全级别作为文档定位条件对文档进行定位。类似地,当用户输入的文档定位条件为文档内容片段时,可以参照上述步骤S103中的方法,使用相似度算法查找出符合文档定位条件的电子文档;当用户输入的文档定位条件为文档安全级别时,则在关键词索引表中查找匹配上述文档安全级别的电子文档。
在步骤S105中,输出符合上述定位条件的文档定位结果。
在本发明实施例中,若定位条件为属性信息,则输出上述步骤S102中检索到的与上述属性信息匹配的电子文档;
若定位条件为定位关键词集,则输出上述步骤S103中确定的可定位目录下的电子文档;
若定位条件为属性信息及定位关键词集,则输出上述步骤S104中确定的可定位目录下与上述属性信息匹配的电子文档;
若定位条件包含有文档的内容片段和/或文档的安全级别,则在上述数据库的关键词索引表中检索出与上述定位条件匹配的电子文档后,输出与上述定位条件匹配的电子文档。
具体地,步骤S105可以表现为,当上述文档定位结果中的电子文档新增加了预设数量个时,输出上述文档定位结果中新增加的各个电子文档的文档名称。使得电子文档管理装置无需等待整个定位过程完成,只要获得了新的文档定位结果,就可以输出给用户,便于用户能够较为实时的获取到文档定位结果,避免用户等待过长时间。
可选地,上述步骤S103或S104中,还包括下述步骤:
若根据定位关键词集在目录索引表中没有检索到可定位目录,则按照关键词索引表中各个电子文档的文档相关信息中保存有的文档归类时间,由近至远的遍历上述关键词索引表中的各个电子文档的信息;根据相似度算法,计算上述关键词索引表中各个电子文档的关键词集与定位关键词集的第二相似度,当存在任一电子文档的第二相似度大于预设的第二相似度阈值时,确定上述电子文档为定位结果。
其中,在计算电子文档与定位关键词集的第二相似度时,若定位条件还包括文档的属性信息,即处于步骤S104之后,则在计算相似度前先作筛选,只针对符合属性信息的电子文档进行第二相似度的运算。具体地,一旦出现电子文档的第二相似度大于预设的第二相似度阈值,则立刻终止对剩余其它电子文档的相似度运算,并将上述电子文档确定为定位结果;或者,还可以遍历所有的电子文档后,将所有第二相似度大于预设的第二相似度阈值的电子文档均作为定位结果;或者,还可以遍历所有的电子文档后,从所有第二相似度大于预设的第二相似度阈值的电子文档中,挑选出第二相似度最高的电子文档作为定位结果,此处不作限定。最终,在步骤S105中将上述定位结果输出。
可选地,在上述“若根据定位关键词集在目录索引表中没有检索到可定位目录,则按照关键词索引表中各个电子文档的文档相关信息中保存有的文档归类时间,由近至远的遍历上述关键词索引表中的各个电子文档的信息;根据相似度算法,计算上述关键词索引表中各个电子文档的关键词集与定位关键词集的第二相似度,当存在任一电子文档的第二相似度大于预设的第二相似度阈值时,确定上述电子文档为定位结果”之后,上述方法还包括:
接收输入的继续定位指令;
根据上述继续定位指令,按照电子文档的归类时间,由近至远的将剩余还未输出过的电子文档依次确定为定位结果,并在步骤S105中依次输出,直到接收到用户的停止定位指令或者用户更改定位条件为止,即,将第二相似度不大于第二相似度阈值的所有电子文档根据归类时间,由近至远的确定为定位结果,并在步骤S105中根据归类时间近远顺序依次输出。
可选地,步骤S105之后,还包括下述步骤:
接收输入的点击查阅指令;
根据用户的点击查阅指令,选择指定的电子文档,并显示上述指定的电子文档的文档相关信息。
在步骤S105中,由于可能出现输出给用户文档数量较多的情况,因而不可能将所有输出的电子文档的文档相关信息都显示出来,而只能显示电子文档的文档名字。若用户对其中任一电子文档感兴趣,可以点击感兴趣的电子文档,电子文档管理装置在接收到用户输入的点击查阅指令后,将根据点击的坐标选择用户感兴趣的电子文档,并在屏幕上显示上述用户感兴趣的电子文档的文档相关信息。
可选地,步骤S105之后,还包括下述步骤:
检测当前用户的安全级别;
若当前用户的安全级别低于上述文档定位结果的安全级别,则提示用户提升安全级别或提示用户放弃查看上述文档定位结果。
其中,托管目录所保存的各个电子文档都有各自的安全级别,并且各电子文档的安全级别信息均保存在关键词索引表中。在步骤S105输出了文档定位结果后,若文档定位结果中的某些电子文档的安全级别较高,而当前用户的安全级别与上述的某些电子文档的安全级别相比较低,则此时电子文档管理装置将保护上述安全级别较高的某些电子文档,使当前用户无法查阅。例如,电子文档安全管理装置对文档的安全级别的设定有普通(默认)、初级、中级和高级四个级别,用户得到的文档定位结果中,有一个电子文档的安全级别为高级,而用户的安全级别为初级,则此时该电子文档的安全级别高于当前用户的安全级别,电子文档管理装置将弹出弹窗,提示升级当前用户的安全级别才能查看上述安全级别为高级的电子文档,或者,提示用户放弃查看上述安全级别为高级的电子文档。
可选地,上述步骤“根据用户的点击查阅指令,选择指定的电子文档,并显示上述指定的电子文档的文档相关信息”之后,还包括下述步骤:
接收输入的打开电子文档指令,根据上述打开电子文档指令,确定待打开电子文档;
将待打开的电子文档复制到临时文件夹,并打开上述临时文件夹。
其中,当用户在查阅了电子文档的文档相关信息后,若其中有用户满意的电子文档,则用户可以输入打开电子文档指令,将上述满意的电子文档作为待打开电子文档。用户此时其实是想将待打开电子文档打开后进行查阅或者编辑,由于该电子文档实际存放于受保护的托管目录中,因此需要将上述待打开电子文档先复制到临时文件夹中后,才能对该文档进行实际的操作。可选地,电子文档管理装置可以记录上述待打开文档在临时文件夹中的全路径名及上述待打开文档在关键词索引表中存放的全路径名,以便于用户更新文件或者生成新版本文件。
为使上述步骤S101至步骤S105更为清楚,以下举出具体的例子作详细说明,需要说明的是,限于篇幅,下述例子可能省略了上述步骤S101至步骤S105的某些可选的实现过程:
用户通过图形用户界面,输入关键词句子“文档安全管理技术方案”作为关键词;输入文档扩展名为“doc pdf”,表示文档扩展名可以为doc或者pdf;输入文档生成时间为“2016-05-01 11:21至2016-08-23 11:21”;通过下拉菜单,输入安全级别为“普通(默认)”,点击“开始定位”图标按钮;
电子文档管理装置接收上述开始定位请求,首先从输入的关键词句子“文档安全管理技术方案”中,提取定位关键词:文档、安全、管理、技术、方案,并从经验权重文件中获取各个有效关键词的经验权重,作为例子,假定经验权重文件已有的数据为:
用户(2.5),学习(2.6),方法(2.2),安全(3.5),机器(3.1),管理(3.3)。
则针对此次输入的关键词句子“文档安全管理技术方案”,可以得到定位关键词的向量为<文档(1.0),安全(3.5),管理(3.3),技术(1.0),方案(1.0)>,其中,最大权重的关键词为“安全”;
根据上述定位条件,形成SQL语句,在目录索引表中,查找出最大权重的关键词为“安全”的电子文档的关键词集和目录名;
分别将上述查询到的目录索引表中符合定位条件的电子文档的关键词集与定位关键词集作带权重的内积算法的相似度计算,得到一个大于第一相似度阈值的第一目标关键词集;
将上述一个第一目标关键词集对应的电子文档的目录作为可定位目录,将上述目录的目录名称作为查询条件,再次在目录索引表中检索出处于这个可定位目录下的所有电子文档对应的目录ID号;
根据目录ID号,在关键词索引表中筛选出具有相同目录ID号的电子文档的相关信息,并形成SQL语句,在关键词索引表的具有相同目录ID号的电子文档中,筛选出电子文档的安全级别为普通(默认),文档的生成时间在2016-05-01 11:21至2016-08-23 11:21之间及扩展名为pdf或者doc的电子文档作为关键词索引表中二次筛选后得到的电子文档,并计算定位关键词集与关键词索引表中二次筛选后得到的电子文档的关键词集的第二相似度;
当得到第二相似度大于预设的第二相似度阈值的第二目标关键词集时,将上述第二目标关键词集关联的电子文档作为文档定位结果。其中,可能得到多个第二目标关键词集,即可能有多个电子文档作为文档定位结果。每当文档定位结果中新获得了20个电子文档时,则将新获得的20个电子文档的文档名称通过用户图形界面输出给用户进行查阅。
用户可通过点击感兴趣的电子文档的文档名称,获得该电子文档的更为详细的信息,并决定是继续定位查找还是结束定位查找。
由上可见,在本发明实施例中,可以接收电子文档定位请求,根据定位条件,利用托管目录和/或关键词索引表,为处于企业中的用户提供快速定位电子文档的功能,实现了对分散在计算设备各处的电子文档的统一管理,更好地满足用户的需求。当本发明实施例应用于国产操作平台上时,可以构建自主、可控的企业电子文档的安全防护体系,适应国家信息化的安全战略需要。
在实施例一的基础上,本发明实施例中的基于内容的电子文档管理方法还包括:电子文档归类方法。具体地,如图2所示,该电子文档归类方法包括:
在步骤S201中,接收输入的电子文档归类请求,根据上述电子文档归类请求获取待归类电子文档中的归类关键词集。
在本发明实施例中,电子文档管理装置可以被动或者主动地触发电子文档归类操作,例如,可以是接收用户输入的电子文档归类请求后,根据上述电子文档归类请求即刻触发电子文档归类操作,获取待归类电子文档中的关键词集。或者,在步骤S201中,也可以是事先设置一个定期归类的时间,每当到达固定的时间点时,电子文档归类装置将自动针对所有已归类的电子文档,触发步骤S201的执行,以此实现不仅能够根据用户的需求提供电子文档的归类管理,还可以定期的自动触发电子文档的归类管理。上述固定的时间点可以是用户预先设置的,也可以由电子文档管理装置默认设置,此处不作限定。在接收了用户输入的电子文档归类请求后,将根据电子文档归类请求选定用户想要归类的电子文档作为待归类电子文档,并获取上述待归类电子文档的关键词集。
可选地,电子文档在步骤S201中还可以获取用户对待归类电子文档输入的安全级别,若未在步骤S201中接收到用户输入的待归类电子文档的安全级别,则为上述待归类电子文档的安全级别作自动标注;
可选地,电子文档管理装置可以参照上述步骤S101,在用户以右键点击或者其它点击方式唤醒上下文菜单后,为用户呈现图形用户界面,通过图形用户界面引导用户输入电子文档归类请求,并接收用户在上述图形用户界面上输入的电子文档归类请求,为用户提供更简洁的操作手段。当然,也可以通过其它交互界面接收用户输入的电子文档归类请求,此处不作限定;
在一种应用场景中,上述电子文档具体为文字类电子文档,则步骤S201具体表现为:接收输入的电子文档归类请求,根据上述电子文档归类请求,从上述待归类电子文档中提取关键词;若从上述待归类电子文档中提取关键词成功,则将从上述待归类电子文档中提取的关键词组成上述待归类电子文档的归类关键词集,以此实现电子文档管理装置自动提取电子文档的关键词集,减少用户操作。
在另一种应用场景中,若从上述待归类电子文档中提取关键词失败或上述待归类电子文档为非文字类电子文档,则步骤S201具体表现为:接收输入的电子文档归类请求,根据上述电子文档归类请求,接收输入的文档描述性信息,并提取上述文档描述性信息的关键词组成上述待归类电子文档的归类关键词集,以此实现当无法从待归类电子文档中提取出关键词时,还能通过用户输入的方式获取到待归类电子文档的关键词集。进一步地,可以弹出提示框,提示用户无法从待归类电子文档中提取关键词或提示用户待归类电子文档为非文字类电子文档,并引导用户通过图形用户界面或其它交互界面输入描述性信息。其中,上述用户输入的描述性信息包括但不限于如下一种以上:用户对电子文档自定义的概括类文字,用户对电子文档注释的解释类文字。针对接收到的用户对电子文档自定义的概括类文字,提取上述概括类文字的关键词集,组成归类自定义关键词集;针对接收到的用户对电子文档注释的解释类文字,提取上述解释类文字的关键词集,组成归类注释关键词集。
在步骤S202中,分别计算上述归类关键词集与关键词索引表中各个电子文档的关键词集之间的第三相似度。
在本发明实施例中,电子文档管理装置将根据相似度算法,分别计算上述关键词集与关键词索引表中各个电子文档的关键词集的第三相似度。
在步骤203中,若存在第三目标关键词集,则将与上述第三目标关键词集关联的电子文档所在的目录确定为归类目录,其中,上述第三目标关键词集为与上述归类关键词集的第三相似度不小于预设的第三相似度阈值的电子文档的关键词集;
在本发明实施例中,若步骤S202得到的计算结果中,存在第三目标关键词集,则将与上述第三目标关键词集关联的电子文档所在的目录确定为归类目录。可选地,一旦步骤S202中计算得到第三目标关键词集时,就即刻停止计算上述第三相似度的操作,将上述得到的唯一的一个第三目标关键词集所在的目录确定为归类目录。可选地,第三相似度阈值将被设置为一个较大的值,例如,可以将第三相似度阈值设置在0.9以上,以此确保在步骤S203中确定的归类目录是非常可靠,值得信赖的。
可选地,若步骤S201若处于上述第一种应用场景,即此时的待归类电子文档是文字类电子文档并且提取关键词成功,则在步骤S202中,根据相似度算法,计算上述归类关键词集与上述关键词索引表中各个电子文档的关键词集的第三相似度。或者,若步骤S201处于上述第二种应用场景,即此时提取文字类电子文档的关键词集失败或者待归类电子文档是非文字类电子文档,电子文档从用户输入的概括类文字和/或解释类文字提取出了归类自定义关键词集和/或归类注释关键词集,则在步骤S202中,根据相似度算法,首先在自定义关键索引表和/或注释关键词索引表中,计算上述归类自定义关键词集和/或归类注释关键词集与上述自定义关键索引表和/或注释关键词索引表中各个电子文档的自定义关键词集和/或注释关键词集的第三相似度,并在步骤S203中,在上述自定义关键索引表和/或注释关键词索引表找出一个第三相似度大于第三相似度阈值的电子文档后,获取该电子文档的目录ID,根据目录ID在关键词索引表中找出保存有对应目录ID的电子文档的自定义关键词集和/或归类注释关键词集,再次与上述归类自定义关键词集和/或归类注释关键词集作相似度计算,确认其在关键词索引表中计算得到的第三相似度也大于第三相似度阈值后,根据该电子文档的目录ID在目录索引表中查找出对应的目录名称,确定归类目录。若未能在上述自定义关键索引表和/或注释关键词索引表中找到第三相识度大于第三相似度阈值的电子文档的自定义关键词集和/或归类注释关键词集,则再计算归类自定义关键词集和/或归类注释关键词集与上述关键词索引表中的各个电子文档的自定义关键词集和/或注释关键词集的第三相似度。需要说明的是,关键词索引表中记录的自定义关键词集为该电子文档所有自定义关键词的集合;注释关键词集为该电子文档所有注释关键词的集合。而在自定义关键索引表中记录的自定义关键词集只记录有该电子文档经验权重较高的部分自定义关键词,注释关键索引表中记录的注释关键词集只记录有该电子文档经验权重较高的部分注释关键词。以此实现减少相似度计算的运算量。上述步骤实现了,获取到的归类自定义关键词和/或归类注释关键词在与关键词索引表记录的全面的自定义关键词集和/或注释关键词集作相似度计算及比对之前,先与自定义关键词表和/获注释关键词表的记录的部分自定义关键词和/或注释关键词作数据量较小的相似度计算,获得大致的范围后再到关键词索引表中作相似度的精确计算,以此实现减少相似度计算的运算量。
在步骤S204中,将上述待归类电子文档归类至上述归类目录下;
在本发明实施例中,在确定了归类目录后,则将待归类电子文档移动到上述归类目录下。可以是直接移动待归类电子文档至归类目录下,或者,在步骤S204中,也可以是只移动待归类电子文档的副本至归类目录下,此处不作限定。可选地,可以弹出选择框,让用户在上述两种移动方式中作出选择。需要说明的是,该归类目录实际存放在上述托管目录下。
可选地,当归类目录中的文档数量未超过预设的文档数量阈值时,则直接执行上述移动待归类电子文档操作;当归类目录中的文档数量达到或超过预设文档数量阈值时,则将归类目录分裂为两个子目录。可选地,为两个子目录重新命名时,可以为子目录的名字为原归类目录的名字加上序号,以标明上述两个子目录为同一个目录分裂而得。原归类目录中的电子文档将被随机的分配至任一子目录中,或者,也可以按照用户预设的顺序及比例分配。上述待归类目录也将随机的分配至原归类目录分裂的任一子目录中。在分配过程中,电子文档管理装置将保证任一子目录的文档数量均不超过预设文档数量阈值。
在步骤S205中,分别在上述目录索引表和上述关键词索引表添加上述待归类电子文档的文档相关信息,其中,在上述关键词索引表中添加的上述待归类电子文档的文档相关信息的信息量多于在上述目录索引表中添加的上述待归类电子文档的文档相关信息的信息量。
在本发明实施例中,当将待归类电子文档归类至归类目录后,则需要更新关键词索引表及目录索引表,在关键词索引表及目录索引表中添加上述待归类电子文档的文档相关信息,为新归类至托管目录的上述待归类电子文档建立新的映射。其中,关键词索引表将记录有电子文档的几乎绝大部分信息,包括但不限于:文档的属性信息,全路径名,安全级别,关键词集,自定义关键词集,注释关键词集,目录ID。而目录索引表中记录的电子文档信息将大大少于关键词索引表中记录的信息,包括但不限于:目录ID,最大权重的关键词,关键词集,文档所在目录的目录名称,该条记录的修改时间及该条记录的生成时间。需要注意的是,文档所在目录的目录名称仅仅存储于目录索引表中,而目录ID为目录索引表为每个新归类至托管目录下的电子文档时,自动生成的一个唯一对应的数字。并且目录索引表中记录的关键词集所包含的关键词的数量远远少于关键词索引表中记录的关键词集所包含的关键词的数量。
可选地,若上述待归类电子文档在归类过程中利用了自定义关键词集和/或注释关键词集作相似度计算,则还需要对应的更新自定义关键词索引表和/或注释关键词索引表。其中自定义关键词索引表和注释关键词索引表记录的电子文档的信息也包括目录ID。以此实现该目录ID作为外键,将自定义目录索引表,关键词索引表,自定义关键词索引表及注释关键词索引表紧密的联系起来,在归类时即形成映射关系。
可选地,在步骤S202之后,还包括下述步骤:
若不存在第三目标关键词集,则比较计算得到的最大的第三相似度与预设的第四相似度阈值的大小;
若上述最大的第三相似度大于上述第四相似度阈值,则将上述最大的第三相似度关联的电子文档所在的目录确定为归类目录。
其中,由于在步骤S202中,预设的第三相似度阈值常常较大,因而可能出现不存在第三目标关键词集的情况。则此时将得到的最大的第三相似度与预设的第四相似度阈值作比较,当最大的第三相似度大于上述预设的第四相似度阈值时,则确定该最大的第三相似度对应的电子文档所在的目录为归类目录。需要注意的是,上述第四相似度阈值必然一定程度的小于第三相似度阈值。可选地,可以将第二相似度阈值预设为0.5至0.9之间的任意一个数。此时确定的归类目录,虽然不是非常可靠的,但仍具有一定参考性与实用意义。
可选地,若上述最大的第三相似度不大于上述第四相似度阈值,则在上述“将上述待归类电子文档归类至上述归类目录下”步骤之后,上述方法还包括下述步骤:
为上述待归类电子文档在上述托管目录下创建新的子目录,将上述新的子目录作为归类目录;
为上述归类目录随机生成目录名称。
其中,由于对上述计算得到的第三相似度与与两个预设的相似度阈值作比较后,仍未筛选出合适的归类目录,因此认为此时托管目录中暂未存在与待归档电子文档相匹配的目录,需要在托管目录中为待归档电子文档建立一个新的目录作为其归类目录。上述新的目录的名字可以为随机生成的,也可以为用户自行输入的,在此不作限定。当新的目录的名字是由电子文档管理装置随机生成时,可以采用52个大、小写英文字母和10个阿拉伯数字,按均匀随机分布生成6位字母数字混合而得,若上述生成的目录名与托管目录中已存在的目录的目录名重复,则再次随机生成新的目录名,直到不重复为止。
可选的,上述方法还包括下述步骤:
周期性获取托管目录中已标注了安全级别的电子文档的关键词集,安全级别,关键词集中各个关键词对应的经验权重,生成安全分级知识库,将上述获取到的信息存储于数据库的训练安全分级词集信息表中。以此实现通过机器学习理论对托管目录中的文档进行有效的安全信息提取,并生成利用安全分级知识库进行电子文档安全分级的安全级别分类器。
可选的,上述方法还包括下述步骤:
接收对上述托管目录中的一个电子文档输入的特殊重要信息集及上述电子文档的安全级别,将上述特殊重要信息及对应电子文档的安全级别添加进安全分级知识库中,并将上述电子文档的特殊重要信息存储于数据库的特殊重要信息表中,其中特殊重要信息为用户手动输入的安全分级词。以此实现人工的对上述安全分级知识库及利用上述安全分级知识库作分级的安全级别分类器作进一步补充和完善。
可选地,步骤S201之后,上述方法还包括下述步骤:
若接收到用户输入的安全级别自动标注指令,则根据上述安全分级知识库为待归类电子文档标记安全级别。以此实现在归类时调用安全级别分类器为电子文档自动标注安全级别,简化用户的操作。
需要说明的是,本发明实施例中提及的电子文档管理装置具体可以以软件的方式(例如App的形式)和/或硬件的方式集成在计算设备(例如电子计算机、智能手机、平板电脑等终端)中。
由上可见,在本发明实施例中采用中文信息处理技术对待归类电子文档进行智能文本分析后,提取其中的关键词集,通过相似度计算,将电子文档有序的归类至托管目录中,并将相关的信息存储于数据库的表格中,为文档的定位提供了坚实的基础。实现了对分散在计算设备各处的电子文档的统一管理,避免了文档分散管理带来的不可控性,保证了文档集合的可控性,提高了用户在后续对电子文档进行定位操作时的效率。进一步地,可以结合安全级别分类器为用户提供电子文档的安全性管理,更适用于有安全需求的组织机构。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,上述的存储介质,如ROM/RAM、磁盘或光盘等。
实施例二
图3示出了本发明实施例二提供的电子文档管理装置的具体结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。该电子文档管理装置3包括:定位请求接收单元31,托管目录检索单元32,索引表检索33,定位结果输出单元34。
其中,定位请求接收单元31,用于接收输入的电子文档定位请求,根据上述电子文档定位请求获取定位条件,上述定位条件包括:属性信息和/或定位关键词集;
托管目录检索单元32,用于当上述定位请求接收单元31获取到的定位条件为属性信息时,在上述托管目录中检索与上述属性信息匹配的电子文档,将检索到的与上述属性信息匹配的电子文档作为文档定位结果;
索引表检索单元33,用于当上述定位请求接收单元31获取到的定位条件为定位关键词集时,分别计算上述定位关键词集和上述目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与上述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将上述可定位目录下的电子文档作为上述文档定位结果;还用于当上述定位请求获取单元31获取到的定位条件为属性信息和定位关键词集时,分别计算上述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与上述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与上述属性信息匹配的电子文档,将检索到的与上述属性信息匹配的电子文档作为文档定位结果;
定位结果输出单元34,用于输出上述托管目录检索单元32及上述索引表检索单元33检索到的符合定位条件的文档定位结果。
可选地,上述上述索引表检索单元33还包括:
经验权重获取子单元,用于在上述索引表检索单元33需要计算第一相似度时,获取上述定位关键词集包含的各个关键词的经验权重;
第一相似度计算子单元,用于根据带权重的内积算法,计算上述定位关键词集与目录索引表中记录的各个电子文档的关键词集之间的第一相似度。
可选地,上述上述索引表检索单元33还包括:
关键词索引表检索子单元,用于在关键词索引表中查找出处于上述可定位目录下的各个电子文档的关键词集,计算上述定位关键词集与上述可定位目录下的各个电子文档的关键词集的第二相似度,若存在第二目标关键词集,则将与上述第二目标关键词集关联的电子文档确定为文档定位结果,其中,上述第二目标关键词集为与上述定位关键词集的第二相似度不小于预设的第二相似度阈值的电子文档的关键词集。
具体地,上述定位结果输出单元34还用于,当上述托管目录检索单元32或索引表检索单元33获取到的文档定位结果中的电子文档新增加了预设数量个时,输出上述文档定位结果中新增加的各个电子文档的文档名称。
可选地,上述电子文档管理装置3还包括:
归类请求接收单元,用于接收输入的电子文档归类请求,根据上述电子文档归类请求获取待归类电子文档中的归类关键词集;
归类相似度计算单元,用于分别计算上述归类请求接收单元接收到的归类关键词集与上述关键词索引表记录的各个电子文档的关键词集之间的第三相似度;
归类目录确定单元,用于若存在第三目标关键词集,则将与上述第三目标关键词集关联的电子文档所在的目录确定为归类目录,其中上述第三目标关键词集为第三相似度计算单元计算得到的与上述归类关键词集的第三相似度不小于预设的第三相似度阈值的电子文档的关键词集;
文档归类单元,用于将上述待归类电子文档归类至上述归类目录确定单元确定的归类目录下;
索引表更新单元,用于根据上述文档归类单元的归类结果,分别在上述目录索引表和上述关键词索引表添加上述待归类电子文档的文档相关信息,其中,在上述关键词索引表中添加的上述待归类电子文档的文档相关信息的信息量多于在上述目录索引表中添加的上述待归类电子文档的文档相关信息的信息量。
具体地,上述归类请求单元还包括:
第一归类关键词集提取单元,用于当上述待归类电子文档为文字类电子文档时,从上述待归类电子文档中提取关键词,若从上述待归类电子文档中提取关键词成功,则将从上述待归类电子文档中提取的关键词组成上述待归类电子文档的归类关键词集;
第二归类关键词集提取单元,用于当从上述待归类电子文档中提取关键词失败或上述待归类电子文档为非文字类电子文档时,接收输入的文档描述性信息,并提取上述文档描述性信息的关键词组成上述电子文档的关键词集。
可选地,上述电子文档管理装置3还包括:
二次归类目录确定单元,用于若不存在第三目标关键词集,则比较上述归类相似度计算单元计算得到的最大的第三相似度与预设的第四相似度阈值的大小;若上述最大的第三相似度大于上述第四相似度阈值,则将上述最大的第三相似度关联的电子文档所在的目录确定为归类目录。
可选地,上述电子文档管理装置3还包括:
归类目录创建单元,用于若归类相似度计算单元计算得到的最大的第三相似度不大于上述第四相似度阈值,则为上述待归类电子文档在上述托管目录下创建新的子目录,将上述新的子目录作为归类目录,并为上述归类目录随机生成目录名称。
需要说明的是,本发明实施例中提及的基于内容的电子文档管理装置具体可以以软件的方式(例如App的形式)和/或硬件的方式集成在计算设备(例如电子计算机、智能手机、平板电脑等终端)中。
应理解,本发明实施例中的电子文档管理装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,在本发明实施例中,基于内容的电子文档管理装置可以接收电子文档定位请求,根据定位条件,利用托管目录和/或关键词索引表,为处于企业中的用户提供快速定位电子文档的功能,实现了对分散在计算设备各处的电子文档的统一管理,更好地满足用户的需求。当本发明实施例应用于国产操作平台上时,可以构建自主、可控的企业电子文档的安全防护体系,适应国家信息化的安全战略需要。
需要说明的是,在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种较佳实施例,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于内容的电子文档管理方法,其特征在于,所述方法包括:
接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,所述定位条件包括:属性信息和/或定位关键词集;
若所述定位条件为属性信息,则在托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果,所述托管目录为受计算设备保护且用户无法直接点击访问的目录,计算设备中所有的电子文档均可存放于所述托管目录下;
若所述定位条件为定位关键词集,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为文档定位结果,其中,所述第一目标关键词集为与所述定位关键词集的第一相似度不小于预设的第一相似度阈值的电子文档的关键词集,所述目录索引表为根据托管目录实时更新的,记录有托管目录中每个电子文档所在目录的信息、文档关键词集的索引表,其中所述目录索引表记录的文档关键词集为电子文档的最多前N个最大权重的关键词组成的关键词集,N为预设的大于或等于2的自然数,所述目录索引表预先存储于计算设备的数据库中;
若所述定位条件为属性信息和定位关键词集,则分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在所述第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
输出符合所述定位条件的文档定位结果。
2.如权利要求1所述的方法,其特征在于,所述分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,包括:
获取所述定位关键词集包含的各个关键词的经验权重;
根据带权重的内积算法,计算所述定位关键词集与目录索引表中记录的各个电子文档的关键词集之间的第一相似度。
3.如权利要求1所述的方法,其特征在于,所述数据库还包括:关键词索引表;所述将所述可定位目录下的电子文档作为文档定位结果,包括:
在关键词索引表中查找出处于所述可定位目录下的各个电子文档的关键词集;
计算所述定位关键词集与所述可定位目录下的各个电子文档的关键词集的第二相似度;
若存在第二目标关键词集,则将与所述第二目标关键词集关联的电子文档确定为文档定位结果,其中,所述第二目标关键词集为与所述定位关键词集的第二相似度不小于预设的第二相似度阈值的电子文档的关键词集。
4.如权利要求1所述的方法,其特征在于,所述输出符合所述定位条件的文档定位结果,包括:
当所述文档定位结果中的电子文档新增加了预设数量个时,输出所述文档定位结果中新增加的各个电子文档的文档名称。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收输入的电子文档归类请求,根据所述电子文档归类请求获取待归类电子文档的归类关键词集;
分别计算所述归类关键词集与关键词索引表记录的各个电子文档的关键词集之间的第三相似度;
若存在第三目标关键词集,则将与所述第三目标关键词集关联的电子文档所在的目录确定为归类目录,其中,所述第三目标关键词集为与所述归类关键词集的第三相似度不小于预设的第三相似度阈值的电子文档的关键词集;
将所述待归类电子文档归类至所述归类目录下;
分别在所述目录索引表和所述关键词索引表添加所述待归类电子文档的文档相关信息,其中,在所述关键词索引表中添加的所述待归类电子文档的文档相关信息的信息量多于在所述目录索引表中添加的所述待归类电子文档的文档相关信息的信息量。
6.如权利要求5所述的方法,其特征在于,所述接收输入的电子文档归类请求,根据所述电子文档归类请求获取待归类电子文档的归类关键词集,包括:
若所述待归类电子文档为文字类电子文档,则从所述待归类电子文档中提取关键词;
若从所述待归类电子文档中提取关键词成功,则将从所述待归类电子文档中提取的关键词组成所述待归类电子文档的归类关键词集;
若从所述待归类电子文档中提取关键词失败或所述待归类电子文档为非文字类电子文档,则接收输入的文档描述性信息,并提取所述文档描述性信息的关键词组成所述电子文档的关键词集。
7.如权利要求5所述的方法,其特征在于,所述分别计算所述归类关键词集与关键词索引表记录的各个电子文档的关键词集之间的第三相似度,之后还包括:
若不存在第三目标关键词集,则比较计算得到的最大的第三相似度与预设的第四相似度阈值的大小;
若所述最大的第三相似度大于所述第四相似度阈值,则将所述最大的第三相似度关联的电子文档所在的目录确定为归类目录。
8.如权利要求7所述的方法,其特征在于,若所述最大的第三相似度不大于所述第四相似度阈值,则所述将所述待归类电子文档归类至所述归类目录下,之前还包括:
为所述待归类电子文档在所述托管目录下创建新的子目录,将所述新的子目录作为归类目录;
为所述归类目录随机生成目录名称。
9.一种基于内容的电子文档管理装置,其特征在于,所述基于内容的电子文档管理装置包括:
定位请求接收单元,用于接收输入的电子文档定位请求,根据所述电子文档定位请求获取定位条件,所述定位条件包括:属性信息和/或定位关键词集;
托管目录检索单元,用于当所述定位请求接收单元获取到的定位条件为属性信息时,在所述托管目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
索引表检索单元,用于当所述定位请求接收单元获取到的定位条件为定位关键词集时,分别计算所述定位关键词集和所述目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,将所述可定位目录下的电子文档作为所述文档定位结果;还用于当所述定位请求获取单元获取到的定位条件为属性信息和定位关键词集时,分别计算所述定位关键词集和目录索引表中记录的各个电子文档的关键词集之间的第一相似度,若存在第一目标关键词集,则将与所述第一目标关键词集关联的电子文档所在的目录确定为可定位目录,在可定位目录中检索与所述属性信息匹配的电子文档,将检索到的与所述属性信息匹配的电子文档作为文档定位结果;
定位结果输出单元,用于输出所述托管目录检索单元及所述索引表检索单元检索到的符合定位条件的文档定位结果。
10.如权利要求9所述的一种基于内容的电子文档管理装置,其特征在于,所述基于内容的电子文档管理装置还包括:
归类请求接收单元,用于接收输入的电子文档归类请求,根据所述电子文档归类请求获取待归类电子文档中的归类关键词集;
归类相似度计算单元,用于分别计算所述归类请求接收单元接收到的归类关键词集与所述关键词索引表记录的各个电子文档的关键词集之间的第三相似度;
归类目录确定单元,用于若存在第三目标关键词集,则将与所述第三目标关键词集关联的电子文档所在的目录确定为归类目录,其中所述第三目标关键词集为第三相似度计算单元计算得到的与所述归类关键词集的第三相似度不小于预设的第三相似度阈值的电子文档的关键词集;
文档归类单元,用于将所述待归类电子文档归类至所述归类目录确定单元确定的归类目录下;
索引表更新单元,用于根据所述文档归类单元的归类结果,分别在所述目录索引表和所述关键词索引表添加所述待归类电子文档的文档相关信息,其中,在所述关键词索引表中添加的所述待归类电子文档的文档相关信息的信息量多于在所述目录索引表中添加的所述待归类电子文档的文档相关信息的信息量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610957633.0A CN107085583B (zh) | 2016-10-27 | 2016-10-27 | 一种基于内容的电子文档管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610957633.0A CN107085583B (zh) | 2016-10-27 | 2016-10-27 | 一种基于内容的电子文档管理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107085583A true CN107085583A (zh) | 2017-08-22 |
CN107085583B CN107085583B (zh) | 2021-05-28 |
Family
ID=59615017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610957633.0A Active CN107085583B (zh) | 2016-10-27 | 2016-10-27 | 一种基于内容的电子文档管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107085583B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334590A (zh) * | 2018-01-30 | 2018-07-27 | 吴雨潞 | 一种信息检索系统 |
CN109684272A (zh) * | 2018-12-29 | 2019-04-26 | 国家电网有限公司 | 文档保存方法、系统及终端设备 |
CN109712674A (zh) * | 2019-01-14 | 2019-05-03 | 深圳市泰尔迪恩生物信息科技有限公司 | 注释数据库索引结构、快速注释遗传变异的方法及系统 |
CN109766415A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种书本目录的定位方法及系统 |
CN111858476A (zh) * | 2020-07-20 | 2020-10-30 | 上海闻泰电子科技有限公司 | 文件处理方法、装置、电子设备和计算机可读存储介质 |
CN111949823A (zh) * | 2020-06-30 | 2020-11-17 | 视联动力信息技术股份有限公司 | 一种目录的展示方法、装置和存储介质 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
CN113094519A (zh) * | 2021-05-07 | 2021-07-09 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN116541347A (zh) * | 2023-06-29 | 2023-08-04 | 北京数场科技有限责任公司 | 获得文档认知的方法、装置以及计算设备 |
CN116777686A (zh) * | 2023-04-19 | 2023-09-19 | 深圳昊通技术有限公司 | 一种企业知识产权分类预警方法、系统和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055585A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档聚类系统和方法 |
CN105468785A (zh) * | 2015-12-24 | 2016-04-06 | 张梅云 | 一种计算机文件管理方法 |
-
2016
- 2016-10-27 CN CN201610957633.0A patent/CN107085583B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055585A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档聚类系统和方法 |
CN105468785A (zh) * | 2015-12-24 | 2016-04-06 | 张梅云 | 一种计算机文件管理方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334590A (zh) * | 2018-01-30 | 2018-07-27 | 吴雨潞 | 一种信息检索系统 |
CN109684272A (zh) * | 2018-12-29 | 2019-04-26 | 国家电网有限公司 | 文档保存方法、系统及终端设备 |
CN109712674A (zh) * | 2019-01-14 | 2019-05-03 | 深圳市泰尔迪恩生物信息科技有限公司 | 注释数据库索引结构、快速注释遗传变异的方法及系统 |
CN109712674B (zh) * | 2019-01-14 | 2023-06-30 | 深圳市泰尔迪恩生物信息科技有限公司 | 注释数据库索引结构、快速注释遗传变异的方法及系统 |
CN109766415B (zh) * | 2019-01-18 | 2022-05-06 | 广东小天才科技有限公司 | 一种书本目录的定位方法及系统 |
CN109766415A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种书本目录的定位方法及系统 |
CN111949823A (zh) * | 2020-06-30 | 2020-11-17 | 视联动力信息技术股份有限公司 | 一种目录的展示方法、装置和存储介质 |
CN111858476A (zh) * | 2020-07-20 | 2020-10-30 | 上海闻泰电子科技有限公司 | 文件处理方法、装置、电子设备和计算机可读存储介质 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
CN112507068B (zh) * | 2020-11-30 | 2023-11-14 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
CN113094519A (zh) * | 2021-05-07 | 2021-07-09 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN113094519B (zh) * | 2021-05-07 | 2023-04-14 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN116777686A (zh) * | 2023-04-19 | 2023-09-19 | 深圳昊通技术有限公司 | 一种企业知识产权分类预警方法、系统和存储介质 |
CN116777686B (zh) * | 2023-04-19 | 2024-07-05 | 深圳昊通技术有限公司 | 一种企业知识产权分类预警方法、系统和存储介质 |
CN116541347A (zh) * | 2023-06-29 | 2023-08-04 | 北京数场科技有限责任公司 | 获得文档认知的方法、装置以及计算设备 |
CN116541347B (zh) * | 2023-06-29 | 2023-12-01 | 北京数场科技有限责任公司 | 获得文档认知的方法、装置以及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107085583B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085583A (zh) | 一种基于内容的电子文档管理方法及装置 | |
US11790006B2 (en) | Natural language question answering systems | |
CN107391671B (zh) | 一种文档泄露检测方法及系统 | |
CN109871446A (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN110121705A (zh) | 将语用学原理应用于与可视分析交互的系统和方法 | |
CN110163476A (zh) | 项目智能推荐方法、电子装置及存储介质 | |
Deshpande et al. | Text summarization using clustering technique | |
CN110134800A (zh) | 一种文档关系可视化处理方法及装置 | |
CN107704601A (zh) | 大数据检索方法与系统、计算机存储介质及电子设备 | |
CN103514181B (zh) | 一种搜索方法和装置 | |
CN108664599A (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN106951503A (zh) | 信息提供方法、装置、设备以及存储介质 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN105631007A (zh) | 一种行业技术信息搜集方法及系统 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN109408658A (zh) | 表情图片提示方法、装置、计算机设备及存储介质 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN107291951A (zh) | 数据处理方法、装置、存储介质和处理器 | |
CN107315735A (zh) | 用于笔记整理的方法及设备 | |
CN115617980A (zh) | 一种诉讼案例检索报告生成方法及系统 | |
CN107870985A (zh) | 一种检索信息的方法、服务器及计算机可读存储介质 | |
Saenko et al. | Filtering abstract senses from image search results | |
CN105893527A (zh) | 一种智能用户信息录入方法 | |
Hartmann et al. | Using similarity measures for context-aware user interfaces | |
CN110457435A (zh) | 一种专利新颖性分析系统及其分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |