CN113127572B - 档案合并方法、装置、设备及计算机可读存储介质 - Google Patents
档案合并方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113127572B CN113127572B CN201911407408.XA CN201911407408A CN113127572B CN 113127572 B CN113127572 B CN 113127572B CN 201911407408 A CN201911407408 A CN 201911407408A CN 113127572 B CN113127572 B CN 113127572B
- Authority
- CN
- China
- Prior art keywords
- file
- archive
- target
- node
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种档案合并方法、装置、设备及计算机可读存储介质,其中该方法包括:获取需要进行档案合并的多个目标档案数据;根据所述多个目标档案数据,构建档案关系图;根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;对所述档案族所包括的各目标档案数据进行合并。本发明能提高档案合并的准确率。
Description
技术领域
本发明涉及档案管理技术领域,特别涉及一种档案合并方法、装置、设备及计算机可读存储介质。
背景技术
随着社会的进步,人员流通更加普遍,加大了人员管理的难度。基于此,一些部门或者系统通过建立人员档案,对人员进行管理。但在归档的过程中,由于抓拍人脸的角度、光线、是否戴配饰等原因导致数据归档不成功,进而对同一个人进行重复建档,造成一人多档,增加了档案数据的管理工作量。为减少一人多档,通常需要对档案数据库中的档案进行合并。目前普遍通过比较两个档案之间的相似度大小进行档案合并,但这种方式会有误差传递,可见,目前这种合并方式造成档案合并的准确率低。
发明内容
本发明提供了一种档案合并方法、装置、设备及计算机可读存储介质,其目的是为了解决档案合并的准确率低的问题。
为了达到上述目的,第一方面,本发明的实施例提供了一种档案合并方法,包括:
获取需要进行档案合并的多个目标档案数据;
根据所述多个目标档案数据,构建档案关系图;
根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;
对所述档案族所包括的各目标档案数据进行合并。
第二方面,本发明的实施例还提供了一种档案合并装置,包括:
获取模块,用于获取需要进行档案合并的多个目标档案数据;
构建模块,用于根据所述多个目标档案数据,构建档案关系图;
确定模块,用于根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;
合并模块,用于对所述档案族所包括的各目标档案数据进行合并。
第三方面,本发明的实施例还提供了一种档案合并设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的档案合并方法的步骤。
第四方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的档案合并方法的步骤。
本发明的上述方案至少有如下的有益效果:
传统的方法是基于两个档案相似度大小进行档案合并,会有误差传递,导致不是同一个人的档案会被合并成一个档案,从而产生归档错误,在本发明的实施例中,通过在获取到需要进行档案合并的多个目标档案数据后,先根据多个目标档案数据,构建档案关系图,然后再根据该档案关系图确定出包括同一人员的档案数据的档案族,最终对档案族内的各目标档案数据进行合并,由于档案族是基于档案和档案间的相互连通性来进行区分不同的人,从而有避免了将不同人员的档案数据合并成一个档案数据的情况出现,大大提高了档案合并的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的档案合并方法的流程图;
图2是本发明实施例的实例中档案关系图的示意图;
图3是本发明实施例的实例中确定档案族的过程图之一;
图4是本发明实施例的实例中确定档案族的过程图之二;
图5是本发明实施例的实例中确定档案族的过程图之三;
图6是本发明实施例的实例中确定档案族的过程图之四;
图7是本发明实施例的实例中确定档案族的过程图之五;
图8是本发明实施例的实例中确定档案族的过程图之六;
图9是本发明实施例的实例中确定档案族的过程图之七;
图10是本发明实施例的档案合并装置的结构示意图;
图11是本发明实施例的档案合并设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
如图1所示,本发明的实施例提供了一种档案合并方法,该方法包括:
步骤11,获取需要进行档案合并的多个目标档案数据。
其中,在本发明的实施例中,上述多个目标档案数据可以为档案数据库中的部分或者全部档案数据。其中,上述档案数据库中存储有多个档案数据,以及多个档案数据中每两个档案数据之间的档案相似度。为便于对众多的档案数据进行管理,在档案数据库中,每个档案数据均具有一对应的档案标识信息(如档案编号等),用于在档案数据库内唯一标识对应的档案数据。同时,档案数据库中的每个档案数据中均携带有用于指示该档案数据是否为实名档案数据的第一指示信息,以及用于指示该档案数据所包含的档案事件数量的第二指示信息。上述档案事件可以为该档案事件所属档案数据对应的人员在多种不同状态时的人脸图像(如戴眼镜时的人脸图像、不戴眼镜时的人脸图像、戴帽子时的人脸图像、不戴帽子时的人脸图像、仰头时的人脸图像、低头时的人脸图像、侧脸时的人脸图像以及大笑时的人脸图像等)、事件以及事件发生的时间地点等。
需要说明的是,在本发明的实施例中,需要进行合并的目标档案数据可以为档案数据库中相似度较高的档案数据,因为这些档案数据很可能是同一人员的档案数据,为便于档案管理,需要对其进行合并归档。
具体的,在本发明的实施例中,上述步骤11的具体实现方式可以为:首先从档案数据库中存储的档案相似度中筛选出大于预设阈值的目标档案相似度;然后从所述档案数据库中提取所述目标档案相似度对应的多个档案数据,并将提取到的多个档案数据作为需要进行档案合并的多个目标档案数据。即,将档案数据库中档案相似度大于预设阈值的档案数据作为目标档案数据,可以理解的是,上述预设阈值可根据具体情况进行设定,如设定为0.85。当然,上述步骤11中的目标档案数据也可以是预先指定的需要进行合并的档案数据。
步骤12,根据所述多个目标档案数据,构建档案关系图。
其中,在本发明的实施例中,可结合上述目标档案相似度构建档案关系图。需要说明的是,在本发明的实施例中,构建该档案关系图主要是为了后续能快速、准确的确定出包括同一人员的档案数据的档案族,进而避免将不同人员的档案数据合并成一个档案数据的情况出现,大大提高了档案合并的准确率。
具体的,可通过如下方式构建档案关系图:首先设置与所述多个目标档案数据一一对应的多个档案节点;然后在所述目标档案相似度对应的两个档案节点之间设置连接线,得到档案关系图。即,先设置与多个目标档案数据一一对应的多个档案节点,然后分别针对每个大于预设阈值的目标档案相似度,在该目标档案相似度对应的两个档案节点之间设置连接线,便能得到档案关系图。例如,假设步骤11中确定出的多个目标档案数据包括目标档案数据a1、a2、a3、a4、b5、b6和b7,在获取目标档案数据a1、a2、a3、a4、b5、b6和b7时用到的预设阈值为0.85,目标档案数据a1与a2之间的相似度为0.90,目标档案数据a1与a3之间的相似度为0.92,目标档案数据a1与a4之间的相似度为0.90,目标档案数据a2与a4之间的相似度为0.94,目标档案数据a3与a4之间的相似度为0.95,目标档案数据a3与b5之间的相似度为0.89,目标档案数据b5与b6之间的相似度为0.91,目标档案数据b5与b7之间的相似度为0.90,目标档案数据b7与b6之间的相似度为0.91,则先设置7个档案节点,分别为a1、a2、a3、a4、b5、b6和b7(与多个目标档案数据一一对应),然后根据在获取目标档案数据a1、a2、a3、a4、b5、b6和b7时用到的目标档案相似度,分别在a1与a2、a1与a3、a1与a4、a2与a4、a3与a4、a3与b5、b5与b6、b5与b7、b7与b6之间设置连接线,便得到了如图2所示的档案关系图。
步骤13,根据所述档案关系图,确定出所述多个目标档案数据中的档案族。
其中,上述档案族所包括的各目标档案数据为同一人员的档案数据。即,上述步骤13的目的是为了从多个目标档案数据中确定出档案族,将不同人员的区分开,以确保能提高档案合并的准确率。具体的,上述步骤13可基于深度优先搜索算法实现,精准确定出多个目标档案数据中的所有档案族。例如,假设上述多个目标档案数据包括人员A的4个目标档案数据(分别为目标档案数据a1、a2、a3和a4),以及人员B的3个档案数据(分别为目标档案数据b5、b6和b7),那么执行上述步骤13后能得到两个档案族,分别是档案族A(包括目标档案数据a1、a2、a3和a4),和档案族B(包括目标档案数据b5、b6和b7)。
步骤14,对所述档案族所包括的各目标档案数据进行合并。
其中,在本发明的实施例中,针对每个档案族,均会执行上述步骤14。即,会分别针对每个档案族,合并该档案族内的目标档案数据。具体可基于目标档案数据中携带的第一指示信息和第二指示信息完成合并。
如上所述,档案数据库中的每个档案数据中均携带有用于指示该档案数据是否为实名档案数据的第一指示信息,以及用于指示该档案数据所包含的档案事件数量的第二指示信息,那么,上述目标档案数据中也携带有用于指示所述目标档案数据是否为实名档案数据的第一指示信息,以及用于指示所述目标档案数据所包含的档案事件数量的第二指示信息。
具体的,在本发明的实施例中,上述步骤14的具体实现方式包括如下步骤:
步骤一,根据所述档案族所包括的各目标档案数据携带的第一指示信息,判断所述档案族所包括的各目标档案数据中是否存在实名档案数据,当所述档案族所包括的各目标档案数据中存在实名档案数据时,执行步骤二,当所述档案族所包括的各目标档案数据中不存在实名档案数据时,执行步骤三。
步骤二,保留所述实名档案数据,将所述档案族中除所述实名档案数据以外的其他目标档案数据包含的档案事件归至所述实名档案数据中,并删除所述档案族中除所述实名档案数据以外的其他目标档案数据。以上述档案族A为例,假设目标档案数据a1、a2、a3和a4中目标档案数据a1为实名档案数据,则保留目标档案数据a1,将目标档案数据a2、a3和a4包含的档案事件归至目标档案数据a1中,并删除目标档案数据a2、a3和a4。在具体应用中,可通过将目标档案数据a2、a3和a4包含的档案事件的标记改成目标档案数据a1的方式,将目标档案数据a2、a3和a4包含的档案事件归至目标档案数据a1中。
步骤三,根据所述档案族所包括的各目标档案数据携带的第二指示信息,对所述档案族所包括的各目标档案数据进行合并。
具体的,上述步骤三的实现方式可以为:保留所述档案族中包含档案事件数量最多的目标档案数据,将所述档案族中除该目标档案数据以外的其他目标档案数据包含的档案事件归至该目标档案数据中,并删除所述档案族中除该目标档案数据以外的其他目标档案数据。以上述档案族B为例,假设目标档案数据b5、b6和b7中包含档案事件数量最多的是目标档案数据b5,则保留目标档案数据b5,将目标档案数据b6和b7包含的档案事件归至目标档案数据b5中,并删除目标档案数据b6和b7。在具体应用中,可通过将目标档案数据b6和b7包含的档案事件的标记改成目标档案数据b5的方式,将目标档案数据b6和b7包含的档案事件归至目标档案数据b5中。当然可以理解的是,在本发明的实施例中,上述步骤三除了选择保留包含档案事件数量最多的目标档案数据外,也还可以选择保留包含档案事件数量最少的目标档案数据。
值得一提的是,在本发明的实施例中,通过在获取到需要进行档案合并的多个目标档案数据后,先根据多个目标档案数据,构建档案关系图,然后再根据该档案关系图确定出包括同一人员的档案数据的档案族,最终对档案族内的各目标档案数据进行合并,从而有避免了将不同人员的档案数据合并成一个档案数据的情况出现,大大提高了档案合并的准确率。
接下来,结合相关附图对上述步骤13,根据所述档案关系图,确定出所述多个目标档案数据中的档案族的具体实现方式作进一步进行说明。
具体的,在本发明的实施例中,上述步骤13的具体实现方式如下:以所述多个档案节点中的任一档案节点作为搜索起点,对所述档案关系图中的档案节点进行深度优先搜索,并记录每个档案节点被搜索到的次序号。
其中,在每搜索到一个档案节点时,为该档案节点设置一搜索校验值,所述搜索校验值的初始值为该档案节点被搜索到的次序号,当搜索到该档案节点的下一档案节点时,判断该下一档案节点是否已存在搜索校验值,若该下一档案节点不存在搜索校验值,则为该下一档案节点设置一搜索校验值,该下一档案节点的搜索校验值的初始值为该下一档案节点被搜索到的次序号;若该下一档案节点存在搜索校验值,则将该档案节点的搜索校验值更新为该下一档案节点的搜索校验值,并判断所述档案关系图中不存在搜索校验值的剩余档案节点中是否存在该档案节点能直接到达的其他档案节点,若存在,则将该其他档案节点作为该档案节点的下一档案节点,若不存在,则从该档案节点开始进行回溯。
在回溯到一搜索校验值等于该档案节点的搜索校验值、且被搜索到次序号与该档案节点的搜索校验值相等的目标档案节点时,将该档案节点、所述目标档案节点以及回溯路径上的其他档案节点作为一档案族,并将所述档案族从所述档案关系图中删除;其中,在回溯到所述目标档案节点与该档案节点之间的任一档案节点时,判断该任一档案节点的搜索校验值是否与该档案节点的搜索校验值相等,若该任一档案节点的搜索校验值与该档案节点的搜索校验值不相等,则将该任一档案节点的搜索校验值更新为该档案节点的搜索校验值。
为便于理解,在此以图2所示的档案关系图为例,对档案族的确定过程进行说明。
假设以档案节点a1为搜索起点,对档案关系图中的档案节点进行深度优先搜索,以数组num[]来记录每个档案节点被搜索到的次序号,如档案节点a1的num=1,以数组low[]来记录每个档案节点的搜索校验值,如档案节点a1的low=1,通过堆栈存储上述数组num[]和low[]。
如图3所示,以档案节点a1为搜索起点,按照a1,a3,b5,b7,b6依次深度优先搜索到档案节点b6,在深度优先搜索过程中,a3的num=2,low=2,b5的num=3,low=3,b7的num=4,low=4,b6的num=5,low=5,此时当搜索到档案节点b6下一档案节点b5时,发现b5已存在搜索校验值,且b5的low=3,则如图4所示,将b6的low更新为3,此时发现档案关系图中不存在low值的剩余档案节点(即档案节点a2和a4)中不存在档案节点b6能直接到达的其他档案节点,则从档案节点b6开始进行回溯,回溯到档案节点b7时,发现b7的low=4,与档案节点b6的low值不相等、且大于b6的low值,则将档案节点b7的low值更新为3,当回溯到档案节点b5时,发现b5的low值与b6的low值相等、且b5的num值与low值相等,则将b5作为目标档案节点,将档案节点b5、b6、b7作为一档案族,并将档案节点b5、b6、b7从档案关系图中删除。同时基于深度优先搜索的特性,回溯还在继续,此时回溯到档案节点a3,基于深度优先搜索的特性,如图5所示,搜索到档案节点a4,记a4的num=6,low=6,再搜索到档案节点a1,发现档案节点a1已存在搜索校验值,则如图6所示,将档案节点a4的low值更新为1,此时发现档案关系图中不存在low值的剩余档案节点(即档案节点a2)中档案节点a4能直接到达档案节点a2,则如图7所示,搜索到档案节点a4的下一档案节点a2,记a2的num=7,low=7,此时继续搜索,当搜索到档案节点a2下一档案节点a1时,发现a1已存在搜索校验值,且a1的low=1,则如图8所示,将a2的low值更新为1,且同时发现档案关系图中不存在low值的剩余档案节点(此时已不存在剩余档案节点)中不存在档案节点a2能直接到达档案节点,则从档案节点a2开始进行回溯,在回溯的过程中,在回溯到档案节点a4时,发现a4的low值与a2的low值相等,则不进行任何处理并继续回溯,在回溯到档案节点a3时,发现a3的low值与a2的low值不相等,如图9所示,则将档案节点a3的low值更新为1,当回溯到档案节点a1时,发现a1的low值与a2的low值相等、且a1的num值与low值相等,则将a1作为目标档案节点,将档案节点a1、a2、a3和a4作为一档案族。
如图10所示,本发明的实施例还提供了一种档案合并装置,该装置包括:获取模块101、构建模块102、确定模块103和合并模块104。
其中,获取模块101,用于获取需要进行档案合并的多个目标档案数据。
构建模块102,用于根据所述多个目标档案数据,构建档案关系图。
确定模块103,用于根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据。
合并模块104,用于对所述档案族所包括的各目标档案数据进行合并。
具体的,上述获取模块101包括筛选单元和提取单元。
其中,筛选单元,用于从档案数据库中存储的档案相似度中筛选出大于预设阈值的目标档案相似度;所述档案数据库中存储有多个档案数据,以及所述多个档案数据中每两个档案数据之间的档案相似度。
提取单元,用于从所述档案数据库中提取所述目标档案相似度对应的多个档案数据,并将提取到的多个档案数据作为需要进行档案合并的多个目标档案数据。
值得一提的是,在本发明的实施例中,档案合并装置100为与上述档案合并方法对应的装置,能提高档案合并的准确率。
需要说明的是,档案合并装置100包括实现上述档案合并方法的所有模块或者单元,为避免过多重复,在此不对档案合并装置100的各模块或者单元进行赘述。
如图11所示,本发明的实施例还提供了一种档案合并设备,包括存储器1101、处理器1102以及存储在所述存储器1101中并可在所述处理器1102上运行的计算机程序1103,所述处理器1102执行所述计算机程序1103时实现上述的档案合并方法的步骤。
具体的,档案合并设备1100的处理器1102执行所述计算机程序1103时实现如下步骤:获取需要进行档案合并的多个目标档案数据;根据所述多个目标档案数据,构建档案关系图;根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;对所述档案族所包括的各目标档案数据进行合并。
可选的,档案合并设备1100的处理器1102执行所述计算机程序1103时还实现如下步骤:从档案数据库中存储的档案相似度中筛选出大于预设阈值的目标档案相似度;所述档案数据库中存储有多个档案数据,以及所述多个档案数据中每两个档案数据之间的档案相似度;从所述档案数据库中提取所述目标档案相似度对应的多个档案数据,并将提取到的多个档案数据作为需要进行档案合并的多个目标档案数据。
可选的,档案合并设备1100的处理器1102执行所述计算机程序1103时还实现如下步骤:设置与所述多个目标档案数据一一对应的多个档案节点;在所述目标档案相似度对应的两个档案节点之间设置连接线,得到档案关系图。
可选的,档案合并设备1100的处理器1102执行所述计算机程序1103时还实现如下步骤:以所述多个档案节点中的任一档案节点作为搜索起点,对所述档案关系图中的档案节点进行深度优先搜索,并记录每个档案节点被搜索到的次序号。其中,在每搜索到一个档案节点时,为该档案节点设置一搜索校验值,所述搜索校验值的初始值为该档案节点被搜索到的次序号,当搜索到该档案节点的下一档案节点时,判断该下一档案节点是否已存在搜索校验值,若该下一档案节点不存在搜索校验值,则为该下一档案节点设置一搜索校验值,该下一档案节点的搜索校验值的初始值为该下一档案节点被搜索到的次序号;若该下一档案节点存在搜索校验值,则将该档案节点的搜索校验值更新为该下一档案节点的搜索校验值,并判断所述档案关系图中不存在搜索校验值的剩余档案节点中是否存在该档案节点能直接到达的其他档案节点,若存在,则将该其他档案节点作为该档案节点的下一档案节点,若不存在,则从该档案节点开始进行回溯。其中,在回溯到一搜索校验值等于该档案节点的搜索校验值、且被搜索到次序号与该档案节点的搜索校验值相等的目标档案节点时,将该档案节点、所述目标档案节点以及回溯路径上的其他档案节点作为一档案族,并将所述档案族从所述档案关系图中删除;其中,在回溯到所述目标档案节点与该档案节点之间的任一档案节点时,判断该任一档案节点的搜索校验值是否与该档案节点的搜索校验值相等,若该任一档案节点的搜索校验值与该档案节点的搜索校验值不相等,则将该任一档案节点的搜索校验值更新为该档案节点的搜索校验值。
可选的,上述目标档案数据中携带有用于指示所述目标档案数据是否为实名档案数据的第一指示信息,以及用于指示所述目标档案数据所包含的档案事件数量的第二指示信息,档案合并设备1100的处理器1102执行所述计算机程序1103时还实现如下步骤:根据所述档案族所包括的各目标档案数据携带的第一指示信息,判断所述档案族所包括的各目标档案数据中是否存在实名档案数据;当所述档案族所包括的各目标档案数据中存在实名档案数据时,保留所述实名档案数据,并将所述档案族中除所述实名档案数据以外的其他目标档案数据包含的档案事件归至所述实名档案数据中;删除所述档案族中除所述实名档案数据以外的其他目标档案数据;当所述档案族所包括的各目标档案数据中不存在实名档案数据时,根据所述档案族所包括的各目标档案数据携带的第二指示信息,对所述档案族所包括的各目标档案数据进行合并。
可选的,档案合并设备1100的处理器1102执行所述计算机程序1103时还实现如下步骤:保留所述档案族中包含档案事件数量最多的目标档案数据,并将所述档案族中除该目标档案数据以外的其他目标档案数据包含的档案事件归至该目标档案数据中;删除所述档案族中除该目标档案数据以外的其他目标档案数据。
即,在本发明的具体实施例中,档案合并设备1100的的处理器1102执行所述计算机程序1103时实现上述的档案合并方法的步骤,能提高档案合并的准确率。
示例性的,上述计算机程序1103可以被分割成一个或多个模块/单元,该一个或者多个模块/单元被存储在存储器1101中,并由处理器1102执行,以完成本发明。且该一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序1103在档案合并设备1100中的执行过程。
上述档案合并设备1100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该档案合并设备1100可包括,但不仅限于,处理器1102、存储器1101。本领域技术人员可以理解,所述示意图仅仅是档案合并设备1100的示例,并不构成对档案合并设备1100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如档案合并设备1100还可以包括输入输出设备、网络接入设备、总线等。
上述处理器1102可以是中央处理单元(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器1102是档案合并设备1100的控制中心,利用各种接口和线路连接整个档案合并设备1100的各个部分。
上述存储器1101可用于存储计算机程序1103和/或模块,处理器1102通过运行或执行存储在存储器1101内的计算机程序1103和/或模块,以及调用存储在存储器1101内的数据,实现档案合并设备1100的各种功能。具体的,存储器1101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1101可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,由于档案合并设备1100的处理器1102执行所述计算机程序1103时实现上述的档案合并方法的步骤,因此上述档案合并方法的所有实施例均能适用于该档案合并设备1100,且均能达到相同或相似的有益效果。
此外,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的档案合并方法的步骤。
即,在本发明的具体实施例中,计算机可读存储介质的计算机程序被处理器执行时实现上述的档案合并方法的步骤,能提高档案合并的准确率。
示例性的,计算机可读存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种档案合并方法,其特征在于,包括:
获取需要进行档案合并的多个目标档案数据;
根据所述多个目标档案数据,构建档案关系图;
根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;
对所述档案族所包括的各目标档案数据进行合并;
所述根据所述多个目标档案数据,构建档案关系图的步骤,包括:
设置与所述多个目标档案数据一一对应的多个档案节点;
在目标档案相似度对应的两个档案节点之间设置连接线,得到档案关系图,所述目标档案相似度为档案数据库中大于预设阈值的档案相似度,所述档案相似度为所述档案数据库中存储的各档案之间的相似度;
所述根据所述档案关系图,确定出所述多个目标档案数据中的档案族的步骤,包括:
以所述多个档案节点中的任一档案节点作为搜索起点,对所述档案关系图中的档案节点进行深度优先搜索,并记录每个档案节点被搜索到的次序号;
其中,在每搜索到一个档案节点时,为该档案节点设置一搜索校验值,所述搜索校验值的初始值为该档案节点被搜索到的次序号,当搜索到该档案节点的下一档案节点时,判断该下一档案节点是否已存在搜索校验值,若该下一档案节点不存在搜索校验值,则为该下一档案节点设置一搜索校验值,该下一档案节点的搜索校验值的初始值为该下一档案节点被搜索到的次序号;若该下一档案节点存在搜索校验值,则将该档案节点的搜索校验值更新为该下一档案节点的搜索校验值,并判断所述档案关系图中不存在搜索校验值的剩余档案节点中是否存在该档案节点能直接到达的其他档案节点,若存在,则将该其他档案节点作为该档案节点的下一档案节点,若不存在,则从该档案节点开始进行回溯;
在回溯到一搜索校验值等于该档案节点的搜索校验值、且被搜索到次序号与该档案节点的搜索校验值相等的目标档案节点时,将该档案节点、所述目标档案节点以及回溯路径上的其他档案节点作为一档案族,并将所述档案族从所述档案关系图中删除;其中,在回溯到所述目标档案节点与该档案节点之间的任一档案节点时,判断该任一档案节点的搜索校验值是否与该档案节点的搜索校验值相等,若该任一档案节点的搜索校验值与该档案节点的搜索校验值不相等,则将该任一档案节点的搜索校验值更新为该档案节点的搜索校验值。
2.根据权利要求1所述的方法,其特征在于,所述获取需要进行档案合并的多个目标档案数据的步骤,包括:
从档案数据库中存储的档案相似度中筛选出大于预设阈值的目标档案相似度;所述档案数据库中存储有多个档案数据,以及所述多个档案数据中每两个档案数据之间的档案相似度;
从所述档案数据库中提取所述目标档案相似度对应的多个档案数据,并将提取到的多个档案数据作为需要进行档案合并的多个目标档案数据。
3.根据权利要求1所述的方法,其特征在于,所述目标档案数据中携带有用于指示所述目标档案数据是否为实名档案数据的第一指示信息,以及用于指示所述目标档案数据所包含的档案事件数量的第二指示信息;
所述对所述档案族所包括的各目标档案数据进行合并的步骤,包括:
根据所述档案族所包括的各目标档案数据携带的第一指示信息,判断所述档案族所包括的各目标档案数据中是否存在实名档案数据;
当所述档案族所包括的各目标档案数据中存在实名档案数据时,保留所述实名档案数据,并将所述档案族中除所述实名档案数据以外的其他目标档案数据包含的档案事件归至所述实名档案数据中;
删除所述档案族中除所述实名档案数据以外的其他目标档案数据;
当所述档案族所包括的各目标档案数据中不存在实名档案数据时,根据所述档案族所包括的各目标档案数据携带的第二指示信息,对所述档案族所包括的各目标档案数据进行合并。
4.根据权利要求3所述的方法,其特征在于,所述根据所述档案族所包括的各目标档案数据携带的第二指示信息,对所述档案族所包括的各目标档案数据进行合并的步骤,包括:
保留所述档案族中包含档案事件数量最多的目标档案数据,并将所述档案族中除该目标档案数据以外的其他目标档案数据包含的档案事件归至该目标档案数据中;
删除所述档案族中除该目标档案数据以外的其他目标档案数据。
5.一种档案合并装置,其特征在于,包括:
获取模块,用于获取需要进行档案合并的多个目标档案数据;
构建模块,用于设置与所述多个目标档案数据一一对应的多个档案节点;在目标档案相似度对应的两个档案节点之间设置连接线,得到档案关系图,所述目标档案相似度为档案数据库中大于预设阈值的档案相似度,所述档案相似度为所述档案数据库中存储的各档案之间的相似度;
确定模块,用于根据所述档案关系图,确定出所述多个目标档案数据中的档案族;所述档案族所包括的各目标档案数据为同一人员的档案数据;
以所述多个档案节点中的任一档案节点作为搜索起点,对所述档案关系图中的档案节点进行深度优先搜索,并记录每个档案节点被搜索到的次序号;
其中,在每搜索到一个档案节点时,为该档案节点设置一搜索校验值,所述搜索校验值的初始值为该档案节点被搜索到的次序号,当搜索到该档案节点的下一档案节点时,判断该下一档案节点是否已存在搜索校验值,若该下一档案节点不存在搜索校验值,则为该下一档案节点设置一搜索校验值,该下一档案节点的搜索校验值的初始值为该下一档案节点被搜索到的次序号;若该下一档案节点存在搜索校验值,则将该档案节点的搜索校验值更新为该下一档案节点的搜索校验值,并判断所述档案关系图中不存在搜索校验值的剩余档案节点中是否存在该档案节点能直接到达的其他档案节点,若存在,则将该其他档案节点作为该档案节点的下一档案节点,若不存在,则从该档案节点开始进行回溯;
在回溯到一搜索校验值等于该档案节点的搜索校验值、且被搜索到次序号与该档案节点的搜索校验值相等的目标档案节点时,将该档案节点、所述目标档案节点以及回溯路径上的其他档案节点作为一档案族,并将所述档案族从所述档案关系图中删除;其中,在回溯到所述目标档案节点与该档案节点之间的任一档案节点时,判断该任一档案节点的搜索校验值是否与该档案节点的搜索校验值相等,若该任一档案节点的搜索校验值与该档案节点的搜索校验值不相等,则将该任一档案节点的搜索校验值更新为该档案节点的搜索校验值;
合并模块,用于对所述档案族所包括的各目标档案数据进行合并。
6.根据权利要求5所述的装置,其特征在于,所述获取模块包括:
筛选单元,用于从档案数据库中存储的档案相似度中筛选出大于预设阈值的目标档案相似度;所述档案数据库中存储有多个档案数据,以及所述多个档案数据中每两个档案数据之间的档案相似度;
提取单元,用于从所述档案数据库中提取所述目标档案相似度对应的多个档案数据,并将提取到的多个档案数据作为需要进行档案合并的多个目标档案数据。
7.一种档案合并设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的档案合并方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的档案合并方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407408.XA CN113127572B (zh) | 2019-12-31 | 2019-12-31 | 档案合并方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407408.XA CN113127572B (zh) | 2019-12-31 | 2019-12-31 | 档案合并方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127572A CN113127572A (zh) | 2021-07-16 |
CN113127572B true CN113127572B (zh) | 2023-03-03 |
Family
ID=76769577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911407408.XA Active CN113127572B (zh) | 2019-12-31 | 2019-12-31 | 档案合并方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127572B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109703604A (zh) * | 2018-12-07 | 2019-05-03 | 天津津航计算技术研究所 | 一种可调整的局部最优进路快速搜索方法 |
CN109740004A (zh) * | 2018-12-28 | 2019-05-10 | 上海依图网络科技有限公司 | 一种归档方法及装置 |
CN110348347A (zh) * | 2019-06-28 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种信息处理方法及装置、存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008525896A (ja) * | 2004-12-23 | 2008-07-17 | ビカム, インコーポレイテッド | リンクされた文書の集合に相対的品質スコアを割り当てるための方法 |
TW201013426A (en) * | 2008-09-19 | 2010-04-01 | Esobi Inc | Combination method for document clusters |
KR20130063589A (ko) * | 2011-12-07 | 2013-06-17 | 한국전자통신연구원 | 태그 그래프를 이용한 파일 검색 장치 및 방법 |
US10013444B2 (en) * | 2012-03-02 | 2018-07-03 | International Business Machines Corporation | Modifying an index node of a hierarchical dispersed storage index |
US10114823B2 (en) * | 2013-11-04 | 2018-10-30 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
JP6145064B2 (ja) * | 2014-03-06 | 2017-06-07 | 日本電信電話株式会社 | 文書集合分析装置、文書集合分析方法、文書集合分析プログラム |
-
2019
- 2019-12-31 CN CN201911407408.XA patent/CN113127572B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109703604A (zh) * | 2018-12-07 | 2019-05-03 | 天津津航计算技术研究所 | 一种可调整的局部最优进路快速搜索方法 |
CN109740004A (zh) * | 2018-12-28 | 2019-05-10 | 上海依图网络科技有限公司 | 一种归档方法及装置 |
CN110348347A (zh) * | 2019-06-28 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种信息处理方法及装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113127572A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108089893B (zh) | 冗余资源的确定方法、装置、终端设备与存储介质 | |
CN109271321B (zh) | 一种贡献代码数统计方法及装置 | |
US20140052692A1 (en) | Virtual Machine Snapshot Backup Based on Multilayer De-duplication | |
US9015119B2 (en) | Performing a background copy process during a backup operation | |
CN111104540B (zh) | 图像搜索方法、装置、设备及计算机可读存储介质 | |
US20230008406A1 (en) | File Storage Method and Apparatus, and Device and Readable Storage Medium | |
WO2018006721A1 (zh) | 日志文件的存储方法及装置 | |
US9213759B2 (en) | System, apparatus, and method for executing a query including boolean and conditional expressions | |
CN111767270A (zh) | 数据迁移方法、装置、服务器及存储介质 | |
CN112433888B (zh) | 数据处理方法及装置、存储介质和电子设备 | |
CN113127572B (zh) | 档案合并方法、装置、设备及计算机可读存储介质 | |
CN108804625B (zh) | 一种lsm树的优化方法、装置及计算机设备 | |
CN112527276B (zh) | 一种可视化编程工具中的数据更新方法、装置及终端设备 | |
CN113032610B (zh) | 档案管理方法、装置、设备及计算机可读存储介质 | |
CN106648550B (zh) | 用于并发执行任务的方法与设备 | |
CN111399759B (zh) | 读数据、写数据的方法、以及对象文件系统 | |
CN111399754B (zh) | 存储空间的释放方法、装置及分布式系统 | |
CN114385188A (zh) | 一种代码工作量统计方法、装置和电子设备 | |
CN114547184A (zh) | 人员信息同步方法、终端设备及存储介质 | |
CN112148712A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN115037799B (zh) | 限流方法、装置、设备及介质 | |
CN111371818A (zh) | 一种数据请求的验证方法、装置及设备 | |
CN108763003B (zh) | 一种测试方法、装置和系统 | |
CN112825083B (zh) | 群体关系网的构建方法、装置、设备及可读存储介质 | |
CN112825083A (zh) | 群体关系网的构建方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |