CN111488894A

CN111488894A - 档案合并方法及装置

Info

Publication number: CN111488894A
Application number: CN201910075553.6A
Authority: CN
Inventors: 蒋林玻; 何欢; 高剑
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-08-04
Also published as: WO2020151507A1

Abstract

本申请提供一种档案合并方法及装置，该档案合并方法中，第一设备可以计算M_i个档案中的第一档案的代表图片与M_j个档案中每个档案的代表图片之间的相似度；并确定所述M_j个档案中，代表图片与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；从而，第一设备能够将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理。可见，该档案合并方法基于上述的相似度，能够将第i个第二设备中的各档案与第j个第二设备中的各档案进行合并处理，获得的第一设备中的档案。从而，有利于对不同区域、不同厂商或不同分局的档案进行合并，获得大规模的档案。

Description

档案合并方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种档案合并方法及装置。

背景技术

随着人脸建设的普及，产生了大量的人脸抓拍数据，比如，一个中级城市具有两万个相机，则每年抓拍的人脸数就在千亿级别。随着未来智能摄像头的更多普及，城市中一年抓拍的人脸图像数将向万亿级演进，因此如何对这些人脸图像数据进行归档处理，获得一人一档就成为一个亟待解决的问题。

发明内容

本申请提供一种档案合并方法及相关设备，能够对多个档案进行合并处理，获得更大规模的档案。

第一方面，本申请提供一种档案合并方法，该档案合并方法中，第一设备可以从第i个第二设备获取M_i个档案的档案信息，以及从第j个第二设备中获取M_j个档案的档案信息；每个档案信息中包括档案的代表图片；针对该M_i个档案中任一档案，如第一档案为例，第一设备计算该M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；并确定所述M_j个档案中，代表图片与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；从而，第一设备能够将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。可见，该档案合并方法基于每个档案的代表图片之间的相似度，能够将第i个第二设备中的各档案与第j个第二设备中的各档案进行合并处理，获得的第一设备中的档案。从而，有利于对不同区域、不同厂商或不同分局的档案进行合并，获得大规模的档案，以实现一人一档。

在一种可选的实施方式中，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；针对实名档案，可以通过实名档案信息确定档案的待合并档案。也就是说，所述第一设备计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，所述第一设备从所述M_j个档案中确定档案类型为实名档案的P_j个档案；当所述Mi个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案。相应的，所述第一设备计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，包括：所述第一设备计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。可见，该实施方式能够基于档案实名信息，确定实名档案的一部分待合并档案，再计算相似度，确定相似度大于第一预设阈值的另一部分待合并档案，从而能够降低相似度的计算量，同时提高档案合并的准确度。

在另一种可选的实施方式中，第一设备可以先确定第一档案的子集，即合并可能性值较大的档案集合；再针对该第一档案的子集，利用相似度确定该第一档案的待合并档案。例如，所述第一设备在计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，可以计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；再从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；相应的，计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，包括：所述第一设备计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。可见，该实施方式可以基于档案合并可能性值确定第一档案的子集，只需计算第一档案的代表图片与该第一档案的子集中档案的代表图片之间的相似度即可，从而大大降低了相似度的计算量。

其中，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息。档案地理区域可以为该档案中图像数据的采集区域，如不同的城市、区县等行政区域；档案置信度为该档案在该档案地理区域部署档案建设平台对该档案地理区域抓拍的图像数据所进行的图像归档算法，由于不同档案地理区域所采用的图像归档算法不同，所获得的档案的准确性也不同，因此，利用该档案置信度对所获得的档案的质量进行评估指示；档案社交属性信息是指该档案所对应的人或客户的社交属性信息，如工作地点、居住地点以及出现频率较高的区域等。因此，第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，可以包括：所述第一设备根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。

在一种可选的实施方式中，所述档案类型还包括非实名档案和未归档图片，所述实名档案的代表图片是从所述实名档案的实名图像中确定的；所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度确定的；所述未归档图片的档案的代表图片为所述未归档图片。可见，该实施方式所确定的代表图片，有利于提高代表图片之间相似度的准确性，继而改善档案合并的准确度。

在一种可选的实施方式中，所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度，对所述各图像进行合成获得的。例如，利用数学建模、机器学习等方式对非实名档案中各图像的图像质量、图像区分度以及图像相似度进行分析，生成图像质量高，与其他档案的图像区分度高，以及与本档案的图像相似度高的图片，作为代表图片。从而，有利于进一步提高各档案的代表图片之间相似度的准确性，继而改善档案合并的准确度。

第二方面，本申请实施例还提供了一种档案合并装置，该档案合并装置包括：获取单元，用于分别获取M_i个档案的档案信息和M_j个档案的档案信息，所述M_i表示第i个第二设备存储的M_i个档案，所述M_j表示第j个第二设备存储的M_j个档案；所述i和所述j互不相等，且均为大于或等于1的整数；每个档案的档案信息包括代表图片，所述代表图片为所述每个档案包含的一个或多个图像数据中最具代表性的图片；计算单元，用于计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；所述第一档案为所述M_i个档案中的任一档案；确定单元，用于从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；合并单元，用于将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。可见，该档案合并装置可以应用在市局或省局档案系统中，从而对多个分局的档案进行合并，获得市局或省局的档案，从而有利于建立一人一档。

在一种可选的实施方式中，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；所述确定单元，在所述计算单元计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于从所述M_j个档案中确定档案类型为实名档案的P_j个档案；以及当所述Mi个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案；所述计算单元，计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。可见，该档案合并装置还能够基于档案实名信息，确定实名档案的一部分待合并档案，再计算相似度，确定相似度大于第一预设阈值的另一部分待合并档案，从而能够降低相似度的计算量，同时提高档案合并的准确度。

在另一种可选的实施方式中，所述计算单元计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；所述确定单元，还用于从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；所述计算单元计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。可见，该实施方式可以基于档案合并可能性值确定第一档案的子集，只需计算第一档案的代表图片与该第一档案的子集中档案的代表图片之间的相似度即可，从而大大降低了相似度的计算量。

在一种可选的实施方式中，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息，所述计算单元计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，具体为：根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。可见，该实施方式基于档案地理区域、档案置信度、档案社交属性信息计算档案合并可能性值，有利于在降低相似度的计算量的同时，保证档案合并的准确度。

在一种可选的实施方式中，所述档案类型还包括非实名档案和未归档图片，所述实名档案的代表图片是从所述实名档案的实名图像中确定的；所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度确定的；所述未归档图片的档案的代表图片为所述未归档图片。

在另一种可选的实施方式中，所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度，对所述各图像进行合成获得的。

第三方面，本申请实施例还提供一种档案合并设备，该档案合并设备包括：处理器和存储器；所述存储器用于存储程序代码，所述处理器，用于调用所述存储器存储的程序指令，当所述程序代码被执行时，以使所述设备执行以下操作：分别获取M_i个档案的档案信息和M_j个档案的档案信息，所述M_i表示第i个第二设备存储的M_i个档案，所述M_j表示第j个第二设备存储的M_j个档案；所述i和所述j互不相等，且均为大于或等于1的整数；每个档案的档案信息包括代表图片，所述代表图片为所述每个档案包含的一个或多个图像数据中最具代表性的图片；计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；所述第一档案为所述M_i个档案中的任一档案；从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

在一种可选的实施方式中，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；所述处理器计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于执行以下操作：从所述M_j个档案中确定档案类型为实名档案的P_j个档案；当所述Mi个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案；所述处理器计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。

在一种可选的实施方式中，所述处理器计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于执行以下操作：计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；相应的，所述处理器计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。

在一种可选的实施方式中，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息，所述处理器计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，具体为：根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。

在一种可选的实施方式中，所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度，对所述各图像进行合成获得的。

第四方面，本申请实施例提供了一种计算机存储介质，用于储存为上述第一设备所用的计算机软件指令，其包括用于执行上述第一方面所述的档案合并方法所设计的程序。

第五方面，本申请还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的档案合并方法。

第六方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持第一设备在上述方面中所涉及的功能，例如，确定或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存发射端必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1是本申请实施例提供的一种档案合并应用场景的示意图；

图2是本申请实施例提供的另一种档案合并应用场景的示意图；

图3为本申请实施例提供的一种档案信息包括的字段信息的示意图；

图4是本申请实施例提供的一种档案合并方法的流程示意图；

图5是本申请实施例提供的另一种档案合并方法的流程示意图；

图6是本申请实施例提供的又一种档案合并方法的流程示意图；

图7是本申请实施例提供的一种档案合并装置的结构示意图；

图8为本申请实施例提供的一种档案合并设备的结构示意图。

具体实施方式

本申请提供一种档案合并方法，能够对多个档案进行归档处理，有利于获得一人一档。

请参阅图1，图1是本申请实施例提供的一种档案合并应用场景的示意图。如图1所示，随着人脸建设的普及，产生了大量的人脸抓拍数据，比如，一个中级城市2万个相机，每年抓拍的人脸数在千亿级，通过本申请提供的档案合并方法，能够将各个设备抓拍图像数据档案进行合并，从而有利于获得一人一档。

以下对该档案合并方法进行详细阐述。

本申请提供的档案合并方法中，第一设备可以从第i个第二设备获取M_i个档案的档案信息，以及从第j个第二设备中获取M_j个档案的档案信息；每个档案信息中包括档案的代表图片；针对该M_i个档案中任一档案，如第一档案为例，第一设备计算该M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；并确定所述M_j个档案中，代表图片与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；从而，第一设备能够将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。可见，该档案合并方法基于每个档案的代表图片之间的相似度，能够将第i个第二设备中的各档案与第j个第二设备中的各档案进行合并处理，获得的第一设备中的档案。从而，有利于对不同区域、不同厂商或不同分局的档案进行合并，获得大规模的档案，以实现一人一档。

例如，该归档合并方法应用在省局或市局的档案系统中，第一设备可以为省局或市局的档案设备，各第二设备可以为各分局对应的档案设备，这样，第一设备中的档案可以通过本申请所述的档案合并方法，对各第二设备的档案进行合并处理获得。

本申请实施例中，档案信息可以包括代表图片、档案类型、档案地理区域、档案置信度、档案社交属性信息等。其中，代表图片为档案包含的图像数据中最具代表性的图片；档案类型可以包括实名档案、非实名档案和未归档图片等；档案地理区域可以为该档案中图像数据的采集区域，如不同的城市、区县等行政区域；档案置信度为该档案在该档案地理区域部署档案建设平台对该档案地理区域抓拍的图像数据所进行的图像归档算法，由于不同档案地理区域所采用的图像归档算法不同，所获得的档案的准确性也不同，因此，利用该档案置信度对所获得的档案的质量进行评估指示；档案社交属性信息是指该档案所对应的人或客户的社交属性信息，如工作地点、居住地点以及出现频率较高的区域等。

可选的，该档案信息还可以包括其他信息，如图2所示，图2为本申请实施例提供的一种档案信息包括的字段信息的示意图。其中，代表图片可以为必须包含的字段信息，其他字段信息可以为可选的字段信息，具体的，可以基于档案合并所需的档案信息来确定。如图3所示，字段信息(1)为档案地理区域字段，可以包括如省厅/分局/市局等层次化区域信息；字段信息(2)为档案所在区域的档案标识或档案索引字段，如档案地理区域为市局，该档案ID为1，则表示该档案为市局的第二设备中的第一档案；字段信息(3)为档案类型字段，该档案类型可以包括实名档案、非实名档案和未归档图片；字段信息(4)为构建该档案的第二设备所属的厂商字段，可以基于该厂商确定构建该档案所采用的图像归档算法；字段信息(5)为代表图片字段，该代表图片字段可以包括档案的一个或多个代表图片，以及代表图片的相关信息，如存储位置、该代表图片所对应的源图像数据所对应的拍摄时间、拍摄位置等；字段信息(6)为档案可合并区域字段，该字段可以提供该档案优先能够合并的档案所属的区域；字段信息(7)为档案置信度字段，该字段可以提供该档案的档案置信度；字段信息(8)可以包括其他的一些可选档案信息，例如，档案对应的各摄像头的放置位置、该档案关联的其他特征、位置以及档案中各图像数据的光照和清晰度等等，本申请实施例不做限定。

其中，除了可以直接基于字段信息(6)确定两个不同区域档案的合并可能性外，第一设备在获取到每个档案的档案信息后，还可以基于档案地理区域、档案置信度和档案社交属性信息等计算各档案之间的合并可能性值。例如，档案地理区域的空间距离越近，存在同一人或客户的档案的可能性越大，则该具有这些档案地理区域的档案，合并可能性就越大；同理，档案置信度越大，说明该档案的准确度越高，与其他档案置信度高的档案的合并可能性就越大；同理，社交属性信息有重合的档案之间，档案合并可能性也越大。

其中，实名档案是指包含实名图像数据的档案，如包含证件照、护照照片等档案；非实名档案是指不包含上述类似实名图像数据的档案；未归档图片为不属于任何档案的图片。

本申请实施例中，档案也可以称为图像数据集合。其中，各第二设备的档案是基于所属地理位置区域部署的相机抓拍的图像数据，进行图像归档后获得的。其中，第一设备的档案，是针对多个第二设备的档案，采用本申请所述的档案合并方法进行合并处理获得的。

本申请实施例中，代表图片为每个档案包含的一个或多个图像数据中最具代表性的图片。作为一种可选的实施方式，该代表图片可以直接从档案包含的图像数据中选择。例如，实名档案的代表图片是从所述实名档案的实名图像中确定的；所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度确定的；所述未归档图片的档案的代表图片为该未归档图片。作为另一种可选的实施方式，针对非实名档案，该代表图片还可以为从档案包含的图像数据生成的。例如，从非实名档案中选择图像质量较好、与其他档案的图像区分度较大且与本档案的图像数据相似度较高的多个图像数据，基于机器学习、数据建模等方法生成非实名档案的代表图片。其中，图像区分度是指图片与其他档案的图片之间的差异性；图像相似度是指图片与自身所在档案的图片之间的相似性。

另外，本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。例如，第一档案用于表示Mi个档案中的任一个档案，以区别Mj个档案；第二档案用于区分是基于相似度确定的第一档案的待合并档案；第三档案用于区分是基于档案实名信息确定的第一档案的待合并档案。

请参阅图3，图3是本申请实施例提供的一种档案合并方法的流程示意图，如图4所示，该档案合并方法可以包括以下步骤：

101、第一设备从第i个第二设备获取M_i个档案的档案信息，或者第i个第二设备向第一设备发送所存储的M_i个档案的档案信息；以及第一设备从第j个第二设备获取M_j个档案的档案信息，或者第j个第二设备向第一设备发送所存储的M_j个档案的档案信息；

可选的，每个第二设备可以针对自身维护的档案，以周期性上报的方式或预设条件触发上报的方式，向第一设备发送各档案的档案信息；相应的，第一设备也可以以周期性上报的方式或预设条件触发上报的方式，获取每个第二设备维护或创建的档案。其中，每个第二设备可以采用不同的图像归档算法或设备，来维护或创建档案。

102、第一设备计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；

103、第一设备从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；

104、第一设备将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

其中，该第一档案为该M_i个档案中的任一档案，也就是说，步骤102-104可以针对该M_i个档案中的每个档案来执行。从而，第一设备可以通过步骤102-104，从该M_j个档案中，确定出该M_i个档案中每个档案的待合并档案，将每个档案的图像数据与该档案的待合并档案的图像数据分别进行进行合并处理，可以获得第一设备的P_j个档案，其中，P_j＝M_j。

其中，相似度用于衡量两个代表图片是否为同一个人的图像，从而有利于将同一个人的两个档案进行合并处理。因此，该第一预设阈值越大，所获得的每个档案的待合并档案的准确度越高；同样，由于代表图片可能是同一个人处于不同场景、不同时间以及不同拍摄设备下拍摄的，所以第一预设阈值越大，可能造成对实际属于同一个人的两个档案误判为无法合并。因此，该第一预设阈值可以通过机器学习或数学建模获得。

可见，本申请实施例基于每个档案的代表图片之间的相似度，对多个档案的图像数据进行合并处理，有利于按照层次化的思想，将小规模的档案合并获得大规模的档案。

另外，104中，第一设备将第一档案的图像数据与第一档案的待合并档案的图像数据进行合并处理，获得第一设备的档案，可以包括：第一设备从第i个第二设备获取第一档案的图像数据，以及从第j个第二设备获取第一档案的待合并档案的图像数据；第一设备将第一档案的图像数据和第一档案的待合并档案的图像数据进行合并，获得第一设备的档案。可见，第一设备根据档案的档案信息确定档案能够合并时，才从各第二设备获取相应的档案的图像数据，从而避免先获取所有档案的图像数据，再一一比对所导致的计算量巨大的问题。

请参阅图4，图4是本申请实施例提供的另一种档案合并方法的流程示意图。其中，图4所示的档案合并方法与图3所示的档案合并方法相比，可以针对档案类型为实名档案的档案，可以基于档案实名信息来确定待合并档案。如图4所示，该档案合并方法可以包括：

201、第一设备分别获取M_i个档案的档案信息和M_j个档案的档案信息；

202、第一设备从M_j个档案中确定档案类型为实名档案的P_j个档案；

203、第一设备在M_i个档案中第一档案的档案类型为实名档案时，从该P_j个档案中确定与第一档案的档案实名信息相同的第三档案，将该第三档案作为该第一档案的待合并档案；

204、第一设备计算该第一档案的代表图片与该M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度；

205、第一设备从该M_j个档案中除所述P_j个档案之外的档案中，确定与第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将该第二档案作为该第一档案的待合并档案；

206、第一设备将第一档案的图像数据与第一档案的待合并档案的图像数据进行合并处理，获得第一设备的档案。

其中，第一档案的待合并档案包括第二档案和第三档案。

可见，实名档案由于档案信息中还包括档案实名信息，直接基于档案实名信息确定第一档案的待合并档案，准确度高，又可以降低相似度的计算量。

请参阅图5，图5是本申请实施例提供的又一种档案合并方法的流程示意图。其中，图5所示的档案合并方法与图3所示的档案合并方法相比，能够在计算各档案的代表图片的相似度之前，可以计算档案之间的档案合并可能性值；针对档案合并可能性值较高的档案，进行相似度的计算，能够降低相似度的计算量。如图5所示，该档案合并方法可以包括以下步骤：

301、第一设备分别获取M_i个档案的档案信息和M_j个档案的档案信息；

302、第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；

303、所述第一设备从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；

304、所述第一设备计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度；

305、第一设备从所述第一档案的子集中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；

306、所述第一设备将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

可见，图5所示的档案合并方法，基于档案合并可能性值，可以减少相似度的计算量。

本申请实施例中，第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，可以包括：所述第一设备根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。

例如，第一设备可以通过统计、深度学习、机器学习以及数据建模等方法，根据档案地理区域、档案置信度和档案社交属性信息对档案合并可能性值影响的大小，分别为这些参数设置不同的权重系数；基于不同档案的档案地理区域之间的空间距离、档案置信度的高低、档案社交属性信息的相关性大小，结合相应的权重系数，计算不同档案之间的档案合并可能性值。

其中，第一档案的子集，是基于档案合并可能性值，从M_j个档案中确定的。可选的，第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值后，可以将该M_j个档案与该第一档案之间的M_j个档案合并可能值，以该M_j个档案的索引为顺序进行排列，或者以该M_j个档案合并可能性值的大小为顺序进行排列。如表1所示，第一档案与M_j个档案之间的合并可能性值，以M_j个档案中每个档案的索引为顺序进行排列。其中，1_j至M_j分别为该M_j个档案中的第1至M_j个档案的索引或标识；假设与第一档案的档案合并可能性值大于第二预设阈值的多个档案分别为：档案1_j、档案3_j、档案5_j，则该第一档案的子集为该档案1_j、档案3_j、档案5_j构成的集合。

表1

相应的，针对该M_i中每个档案，如档案1_i、档案2_i，...，档案M_i，都可以获得如表2所示的档案合并可能性值列表。

表2

在一种可选的实施例中，图4采用档案实名信息确定第一档案的待合并档案，可以与图5采用的档案合并可能性值缩小相似度的计算量相结合。

例如，第一档案为实名档案时，第一设备可以从P_j个档案中确定与第一档案的档案实名信息相同的第三档案；第一设备计算第一档案的代表图片与M_j个档案中除该P_j个档案之外的每个档案的代表图片的相似度时，可以先计算第一档案与M_j个档案中除该P_j个档案之外的每个档案之间的档案合并可能性值；进而，从该Mj个档案中除该P_j个档案之外的档案中，确定与该第一档案的档案合并可能性值大于第二预设阈值的多个档案，作为该第一档案的子集；从而，第一设备可以计算该第一档案的代表图片与该第一档案的子集中每个档案的代表图片之间的相似度即可。从而，可以大大的降低相似度的计算量。

可选的，针对档案类型不是实名档案的档案，可以基于图3和图5所示的档案合并方法进行合并。上述图3至5所述的档案合并处理方法是以该M_i个档案中的任一档案，即第一档案为例进行阐述的，针对该M_i个档案中的其他档案也可以采用上述图3至5任一个或多个所述的档案合并处理方法。相应的，针对多个第二设备，也可以采用上述图3至5任一个或多个所述的档案合并处理方法，对多个第二设备中的档案进行合并处理。

另外，本申请实施例提供的档案合并方法还可以应用在公安系统中，例如，图6是本申请实施例提供的另一种档案合并应用场景的示意图；如图6所示，第一设备可以为市局档案系统中的设备；多个第二设备，如N个第二设备，分别是各个分局档案系统中的设备；第一设备可以利用本申请实施例所述的档案合并方法，对该多个第二设备中的档案进行合并处理。以解决无法基于每个公安分局的档案平台构建市局、省局的档案的问题，从而避免针对每次业务需求，需对各个分局的档案平台中所有档案进行遍询，所引起的操作繁琐。

例如，该档案合并方法可以应用在多个第二设备的场景。如针对N个第二设备，第一设备可以针对第1个第二设备，从其他第2至N个第二设备的档案中，确定该第1个第二设备中每个档案的待合并档案集合；再针对第2个第二设备，从其他第3至N个第二设备的档案中，确定该第2个第二设备中每个档案的待合并档案集合；…，直至针对第N-1个第二设备，从第N个第二设备的档案中，确定该第N-1个第二设备中每个档案的待合并档案集合；进而，将各档案和各档案的待合并档案集合中的档案分别进行合并，获得第一设备的档案。

再例如，针对N个第二设备，第一设备每次可以从该N个第二设备中任意选择两个不同的第二设备，如第i个第二设备和第j个第二设备，执行本申请所述的档案合并方法，从该第j个第二设备中，确定该第i个第二设备中每个档案的待合并档案(也可以称为待合并档案集合)；将该第i个第二设备中每个档案与该每个档案的待合并档案集合进行合并，获得第一设备的Q_i个档案；依次类推，遍历完所有的第二设备，一共可以获得第一设备的

个档案；第一设备可以针对该

个档案，确定每个档案的档案信息；第一设备再针对该

个档案，再基于代表图片的相似度、档案实名信息以及档案合并可能性值等方法进行档案合并，直至档案的代表图片之间的相似度均小于第一预设阈值时为止。

请参阅图7，图7是本申请实施例提供的一种档案合并装置的结构示意图，如图7所示，该档案合并装置可以包括获取单元401、计算单元402、确定单元403以及合并单元404，其中：

获取单元401，用于分别获取M_i个档案的档案信息和M_j个档案的档案信息，所述M_i表示第i个第二设备存储的M_i个档案，所述M_j表示第j个第二设备存储的M_j个档案；所述i和所述j互不相等，且均为大于或等于1的整数；每个档案的档案信息包括代表图片，所述代表图片为所述每个档案包含的一个或多个图像数据中最具代表性的图片；

计算单元402，用于计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；所述第一档案为所述M_i个档案中的任一档案；

确定单元403，用于从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；

合并单元404，用于将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

可见，该档案合并装置可以应用在市局或省局档案系统中，从而对多个分局的档案进行合并，获得市局或省局的档案，从而有利于建立一人一档。

在一种可选的实施方式中，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；所述确定单元403，在所述计算单元402计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于从所述M_j个档案中确定档案类型为实名档案的P_j个档案；以及当所述Mi个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案；所述计算单元402，计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。可见，该档案合并装置还能够基于档案实名信息，确定实名档案的一部分待合并档案，再计算相似度，确定相似度大于第一预设阈值的另一部分待合并档案，从而能够降低相似度的计算量，同时提高档案合并的准确度。

在另一种可选的实施方式中，所述计算单元402计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；所述确定单元403，还用于从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；所述计算单元402计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。可见，该实施方式可以基于档案合并可能性值确定第一档案的子集，只需计算第一档案的代表图片与该第一档案的子集中档案的代表图片之间的相似度即可，从而大大降低了相似度的计算量。

在一种可选的实施方式中，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息，所述计算单元402计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，具体为：根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。可见，该实施方式基于档案地理区域、档案置信度、档案社交属性信息计算档案合并可能性值，有利于在降低相似度的计算量的同时，保证档案合并的准确度。

请参阅图8，图8为本申请实施例提供的一种档案合并设备的结构示意图，其中，该档案合并设备可以执行上述图7所示的装置，也就是说，该档案合并设备可以执行上述方法实施例中第一设备的相关操作，也可以具有上述第一设备的相关功能。该档案合并设备也可以为芯片或电路，如可设置于上述第一设备内的芯片或电路。该第一设备可以包括处理器501和存储器502。该存储器502用于存储指令，该处理器501用于执行该存储器502存储的指令，以使所述档案合并设备实现前述第一设备的相关操作，比如档案合并方法等。

进一步的，该网络还可以包括接收器504和发送器505。再进一步的，该网络还可以包括总线系统503.

其中，处理器510、存储器520、接收器540和发送器550通过总线系统530相连，处理器501用于执行该存储器502存储的指令，以控制接收器504接收信号，并控制发送器505发送信号，完成上述方法中网络设备的步骤。其中，接收器504和发送器505可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。所述存储器502可以集成在所述处理器501中，也可以与所述处理器501分开设置。

作为一种实现方式，接收器504和发送器505的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器501可以考虑通过专用处理芯片、处理电路、处理器或者通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的第一设备所述的操作。即将实现处理器501，接收器504和发送器505功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器501，接收器504和发送器505的功能，比如，处理器501可以调用存储器502中的程序代码，或者基于接收器504和发送器505，执行图7中获取单元的相关操作，或者执行上述方法实施例第一设备执行的相关操作或实施方式。

所述设备所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述，此处不做赘述。

应理解，在本申请实施例中，处理器可以是中央处理单元(Central ProcessingUnit，简称为“CPU”)，该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。

该总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统。

此外，本申请还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行本申请实施例所述档案合并方法中由第一设备执行的相应操作和/或流程。

本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行本申请实施例所述档案合并方法中由第一设备执行的相应操作和/或流程。

本申请还提供一种芯片，包括处理器。该处理器用于调用并运行存储器中存储的计算机程序，以执行本申请实施例所述档案合并方法中由第一设备执行的相应操作和/或流程。可选地，该芯片还包括存储器，该存储器与该处理器通过电路或电线与存储器连接，处理器用于读取并执行该存储器中的计算机程序。进一步，可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理。该通信接口可以是输入输出接口。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种档案合并方法，其特征在于，包括：

第一设备分别获取M_i个档案的档案信息和M_j个档案的档案信息，所述M_i表示第i个第二设备存储的M_i个档案，所述M_j表示第j个第二设备存储的M_j个档案；所述i和所述j互不相等，且均为大于或等于1的整数；每个档案的档案信息包括代表图片，所述代表图片为所述每个档案包含的一个或多个图像数据中最具代表性的图片；

所述第一设备计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；所述第一档案为所述M_i个档案中的任一档案；

所述第一设备从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；

所述第一设备将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

2.根据权利要求1所述的方法，其特征在于，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；

所述第一设备计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，所述方法还包括：

所述第一设备从所述M_j个档案中确定档案类型为实名档案的P_j个档案；

当所述M_i个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案；

所述第一设备计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，包括：

所述第一设备计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。

3.根据权利要求1或2所述的方法，其特征在于，所述第一设备计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，所述方法还包括：

所述第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；

所述第一设备从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；

所述第一设备计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，包括：

所述第一设备计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。

4.根据权利要求3所述的方法，其特征在于，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息，所述第一设备计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，包括：

所述第一设备根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述档案类型还包括非实名档案和未归档图片，

所述实名档案的代表图片是从所述实名档案的实名图像中确定的；

所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度确定的；

所述未归档图片的档案的代表图片为所述未归档图片。

6.根据权利要求5所述的方法，其特征在于，所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度，对所述各图像进行合成获得的。

7.一种档案合并装置，其特征在于，包括：

获取单元，用于分别获取M_i个档案的档案信息和M_j个档案的档案信息，所述M_i表示第i个第二设备存储的M_i个档案，所述M_j表示第j个第二设备存储的M_j个档案；所述i和所述j互不相等，且均为大于或等于1的整数；每个档案的档案信息包括代表图片，所述代表图片为所述每个档案包含的一个或多个图像数据中最具代表性的图片；

计算单元，用于计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度；所述第一档案为所述M_i个档案中的任一档案；

确定单元，用于从所述M_j个档案中，确定与所述第一档案的代表图片之间的相似度大于第一预设阈值的第二档案，将所述第二档案作为所述第一档案的待合并档案；

合并单元，用于将所述第一档案的图像数据与所述第一档案的待合并档案的图像数据进行合并处理，获得合并档案。

8.根据权利要求7所述的装置，其特征在于，所述档案信息还包括档案类型，所述档案类型包括实名档案，所述实名档案的档案信息中还包括档案实名信息；

所述确定单元，在所述计算单元计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于从所述M_j个档案中确定档案类型为实名档案的P_j个档案；以及当所述Mi个档案中的第一档案的档案类型为实名档案时，从所述P_j个档案中，确定与所述第一档案的档案实名信息相同的第三档案，将所述第三档案作为所述第一档案的待合并档案；

所述计算单元，计算所述M_i个档案中的第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：

计算所述第一档案的代表图片与所述M_j个档案中除所述P_j个档案之外每个档案的代表图片之间的相似度。

9.根据权利要求7或8所述的装置，其特征在于，所述计算单元计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度之前，还用于计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值；

所述确定单元，还用于从所述M_j个档案中，确定与所述第一档案之间的档案合并可能性值大于第二预设阈值的多个档案，作为所述第一档案的子集；

所述计算单元计算所述M_i个档案中第一档案的代表图片与所述M_j个档案中每个档案的代表图片之间的相似度，具体为：

计算所述第一档案的代表图片与所述第一档案的子集中每个档案的代表图片之间的相似度。

10.根据权利要求9所述的装置，其特征在于，所述档案信息还包括档案地理区域、档案置信度、档案社交属性信息，所述计算单元计算所述M_i个档案中的第一档案与所述M_j个档案中每个档案之间的档案合并可能性值，具体为：

根据所述M_i个档案中的第一档案以及所述M_j个档案中每个档案的档案地理区域、档案置信度和档案社交属性信息，计算所述第一档案与所述M_j个档案中每个档案之间的档案合并可能性值。

11.根据权利要求8至10任一项所述的装置，其特征在于，所述档案类型还包括非实名档案和未归档图片，

所述未归档图片的档案的代表图片为所述未归档图片。

12.根据权利要求11所述的装置，其特征在于，所述非实名档案的代表图片是根据所述非实名档案中各图像的图像质量、图像区分度以及图像相似度，对所述各图像进行合成获得的。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至6任一项所述的方法。