CN111368867A - 档案归类方法及系统、计算机可读存储介质 - Google Patents
档案归类方法及系统、计算机可读存储介质 Download PDFInfo
- Publication number
- CN111368867A CN111368867A CN201910562363.7A CN201910562363A CN111368867A CN 111368867 A CN111368867 A CN 111368867A CN 201910562363 A CN201910562363 A CN 201910562363A CN 111368867 A CN111368867 A CN 111368867A
- Authority
- CN
- China
- Prior art keywords
- value
- image
- image characteristic
- characteristic value
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种档案归类方法及系统、计算机可读存储介质,属于数据分析领域。该方法包括:获取多个档案中的多个图像信息;对多个图像信息进行特征值提取处理,得到与多个图像信息对应的多个图像特征值;对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理。本发明通过对图像特征值进行比对来形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成具有关联性的档案的档案集合的准确性较高。
Description
技术领域
本发明涉及数据分析领域,特别涉及一种档案归类方法及系统、计算机可读存储介质。
背景技术
在一些场景中,需要对档案进行归类,将一个档案分配到一个或者多个类别中,得到多个不同类别的档案集合。举例而言,可以根据档案的主题来进行归类,也可以根据档案的属性信息来进行归类,其中,档案的属性信息可以包括档案的类型、作者、出版、时间等信息。通过对档案的归类,可以从得到的档案集合中获取更多具有系列性、连续性、关联性的信息。
传统方法中通常需要人工对档案数据库中的档案进行归类。然而,由于档案数据库里存储的档案数量极其庞大,人工从档案数据库中查找相关档案的效率较低,导致对档案进行归类的效率较低,并且还可能会遗漏一些相关档案,导致后续形成的档案集合的准确性较低。
发明内容
本申请提供了一种档案归类方法及系统、计算机可读存储介质,可以解决现有的对档案进行归类的效率较低,且后续形成的档案集合的准确性较低的问题。所述技术方案如下:
第一方面,提供了一种档案归类方法,所述方法包括:
获取多个档案中的多个图像信息,每个所述档案包括至少一个图像信息;
对所述多个图像信息进行特征值提取处理,得到与所述多个图像信息对应的多个图像特征值;
基于所述多个图像信息对应的多个图像特征值,以及所述多个档案与所述多个图像信息的对应关系,确定每个所述档案对应的图像特征值;
对于每个所述档案,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;
当存在与所述第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和所述第一图像特征值对应的档案进行关联处理。
可选的,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对,包括:
对于每个所述第一图像特征值,确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
可选的,所述图像特征值为数组或向量,
所述确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值,包括:
当所述图像特征值为数组时,基于相似度公式,确定所述第一图像特征值a与每个第二图像特征值b的相似度值q,所述相似度公式为:
q=m1/m,其中,m1为所述第一图像特征值a与所述第二图像特征值b数值相同位的个数,m为所述第一图像特征值a与所述第二图像特征值b中长度最长的数组的长度;
当所述图像特征值为向量时,计算所述第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定所述第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
可选的,所述对所述多个图像信息中的图像信息进行特征值提取处理,得到与所述多个图像信息一一对应的多个图像特征值,包括:
对所述多个图像信息中的图像信息执行卷积算法,得到与所述多个图像信息一一对应的多个图像特征值。
可选的,所述方法还包括:对每个所述图像特征值进行评分处理,得到与每个所述图像特征值对应的评分值;
当任一图像特征值对应的评分值低于评分阈值时,删除所述任一图像特征值。
可选的,每个所述图像特征值配置有特征值类型,
所述将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对,包括:
对所述档案对应的每个所述第一图像特征值执行比对过程,所述比对过程包括:
获取所述其他档案对应的第二图像特征值中与所述第一图像特征值的特征值类型一致的备选图像特征值;
将所述第一图像特征值依次与每个所述备选图像特征值进行比对,得到所述第一图像特征值与每个备选图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
第二方面,提供了一种档案归类系统,所述系统包括:
获取模块,用于获取多个档案中的多个图像信息,每个所述档案包括至少一个图像信息;
特征提取模块,用于对所述多个图像信息进行特征值提取处理,得到与所述多个图像信息对应的多个图像特征值;
确定模块,用于基于所述多个图像信息对应的多个图像特征值,以及所述多个档案与所述多个图像信息的对应关系,确定每个所述档案对应的图像特征值;
比对模块,用于对于每个所述档案,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;
关联模块,用于当存在与所述第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和所述第一图像特征值对应的档案进行关联处理。
可选的,所述比对模块包括:
第一确定单元,用于对于每个所述第一图像特征值,确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值;
检测单元,用于检测每个相似度值是否大于相似度阈值;
第二确定单元,用于当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
可选的,所述图像特征值为数组或向量,所述第一确定单元,用于:
当所述图像特征值为数组时,基于相似度公式,确定所述第一图像特征值a与每个第二图像特征值b的相似度值q,所述相似度公式为:
q=m1/m,其中,m1为所述第一图像特征值a与所述第二图像特征值b数值相同位的个数,m为所述第一图像特征值a与所述第二图像特征值b中长度最长的数组的长度;
当所述图像特征值为向量时,计算所述第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定所述第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
可选的,所述比对系统还包括:
评分模块,用于对每个所述图像特征值进行评分处理,得到与每个所述图像特征值对应的评分值;
删除模块,用于当任一图像特征值对应的评分值低于评分阈值时,删除所述任一图像特征值。
可选的,每个所述图像特征值配置有特征值类型,所述比对模块包括:
比对单元,用于对所述档案对应的每个所述第一图像特征值执行比对过程,所述比对过程包括:
获取所述其他档案对应的第二图像特征值中与所述第一图像特征值的特征值类型一致的备选图像特征值;
将所述第一图像特征值依次与每个所述备选图像特征值进行比对,得到所述第一图像特征值与每个备选图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,存储的所述计算机程序被处理器执行时能够实现第一方面任一所述的档案归类方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
通过对获取多个档案中的多个图像信息进行特征提取处理,得到与该多个图像信息对应的多个图像特征值,基于该多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值,对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理,从而可以形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成档案集合的准确性较高。并且该档案归类方法是采用对图像特征值进行比对的方式形成档案集合的,避免了相关技术中文本信息无法概述对应档案的全部的基本信息的问题,例如,可以基于人员的人脸信息形成档案集合,提高了后续形成的档案集合的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种档案归类方法的流程图;
图2是本发明实施例提供的另一种档案归类的方法流程图;
图3是本发明实施例提供的一种档案归类系统的框图;
图4是本发明实施例通过的一种比对模块的框图;
图5是本发明实施例提供的另一种档案归类系统的框图;
图6是本发明实施例提供的一种档案归类系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在相关技术中,可以预先对每个档案设置文本信息,该文本信息用于概述对应档案的基本信息,例如,若该档案中的内容是人员信息,那么,该文本信息可以概述档案中人员的体质特征(例如,性别、身高和年龄等)、工作经历和社会关系等,将每个档案对应的文本信息与其他档案对应的文本信息进行比对,将文本信息匹配的档案进行关联处理,以形成档案集合。但是,通过文本信息概述档案的基本信息的绝限性较高,文本信息无法概述对应档案的全部的基本信息,例如,文本信息无法概述对应档案中人员的人脸信息,导致后续形成的档案集合的准确性较低。
请参考图1,图1是本发明实施例通过的一种档案归类方法的流程图,该档案归类方法可以包括:
步骤101、获取多个档案中的多个图像信息。每个档案包括至少一个图像信息。
步骤102、对多个图像信息进行特征值提取处理,得到与多个图像信息对应的多个图像特征值。
步骤103、基于多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值。
步骤104、对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对。
步骤105、当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理。
综上所述,本发明实施例提供的档案归类方法,通过对获取多个档案中的多个图像信息进行特征提取处理,得到与该多个图像信息对应的多个图像特征值,基于该多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值,对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理,从而可以形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成档案集合的准确性较高。并且该档案归类方法是采用对图像特征值进行比对的方式形成档案集合的,避免了相关技术中文本信息无法概述对应档案的全部的基本信息的问题,例如,可以基于人员的人脸信息形成档案集合,提高了后续形成的档案集合的准确性。
请参考图2,图2是本发明实施例提供的另一种档案归类方法的流程图,该档案归类方法可以包括:
步骤201、获取多个档案中的多个图像信息。
在本发明实施例中,每个档案对应的至少一个图像信息。可选的,可以从档案数据库中获取多个档案对应的多个图像信息,该档案数据库可以存储在存储服务器中,该档案数据库中可以存储有多个档案以及与多个档案对应的多个图像信息。
举例而言,若档案中的内容是人员信息,那么,用户在处理一个人员信息时,会将该人员信息对应的所有线索图像上传到档案数据库中,档案数据库可以针对每个人员信息生成与该人员信息对应的档案,以使档案数据库中可以存储多个档案以及多个档案对应的多个图像信息。该图像信息可以为人员的人脸信息、证件的图像信息或其他特征信息等。
在一种可选的实现方式中,该档案数据库中还可以存储视频信息,每个视频信息可以对应一个档案,此时,可以获取该视频信息中的n帧图像信息,n为正整数,任意两帧时序上相邻的图像信息的时间差可以相同。例如,假设视频信息的持续时长为10秒,当需要获取该视频信息中的5帧图像信息时,可以基于该视频信息每隔2秒获取1帧图像信息。
步骤202、对多个图像信息进行特征值提取处理,得到与多个图像信息对应的多个图像特征值。
在本发明实施例中,该图像特征值用于反映图像信息本身的特征,可以为向量或数组。当图像信息不同时,图像特征值的提取处理的方式也不同。
在一种可选的实现方式中,图像特征值提取处理可以由卷积神经网络(英文:convolutional neural network;简称:CNN)来实现,例如,可以直接向CNN中输入图像信息,由CNN计算输出图像特征值。在另一种可选的实现过程中,特征提出处理也可以由其他计算模块或者特征提取器来实现,例如,可以对图像信息进行卷积运算,将运算得到的结果作为图像特征值。需要说明的是,特征值提取处理的方式还可以有其他方式,本发明实施例对此不做限定。
还需要说明的是,若初次对档案数据库中存储的多个档案进行档案归类,步骤201需要获取档案数据库中的所有的图像信息;若已经对档案数据库中存储的多个档案进行了档案归类,用户在档案数据库中上传了新的档案所对应的所有线索图像,或者,针对某个档案上传了新的线索图像,由于该新上传的线索图像并未进行特征提取处理,而其他的线索图像已经进行了特征提取处理,因此步骤201中无需获取档案数据库中存储的所有的图像信息,只需要获取未进行特征提取处理的图像信息。通常情况下,在对图像信息建模进行特征提取处理后,可以对该图像信息设置用于指示已经特征提取处理的已进行特征提取的标签,因此,在步骤201中可以通过逐一的判断图像信息是否携带有该已进行特征提取的标签,来确定需要获取的图像信息,示例的,当判断出某个图像信息未携带有已进行特征提取的标签时,获取该图像信息,并对该图像信息进行特征提取处理;当判断出某个图像信息携带有已进行特征提取的标签时,过滤该图像信息,并判断下一个图像信息是否携带有用于指示已经进行特征提取处理的标识信息。
步骤203、对每个所述图像特征值进行评分处理,得到与每个所述图像特征值对应的评分值。
在本发明实施例中,在对图像信息进行特征提取处理得到对应的图像特征值后,需要执行对图像特征值进行比对的步骤,若图像信息对应的图像的显示质量较差,则对该图像信息进行特征提取处理后得到的图像特征值与其他的图像特征值进行比对的准确性较低,为了提高对图像特征值进行比对的准确性,需要将该显示质量较差的图像信息通过特征提取处理得到的图像特征值进行删除。
示例的,在步骤203中得到与每个图像特征值对应的评分值后,可以判断每个图像特征值对应的评分值是否低于评分阈值。例如,当任一图像特征值的评分值低于评分阈值时,执行步骤204;当任一图像特征值的评分值不低于评分阈值时,执行步骤205。
步骤204、当任一图像特征值对应的评分值低于评分阈值时,删除该任一图像特征值。
示例的,当任一图像特征值对应的评分值低于评分阈值时,可以确定该任一图像特征值对应的图像信息的显示质量较差,删除该任一图像特征值。
步骤205、当任一图像特征值对应的评分值不低于评分阈值时,将该任一图像特征值确定为有效的图像特征值。
示例的,当任一图像特征值对应的评分值不低于评分阈值时,可以确定出该任一图像特征值对应的图像信息的显示质量较好,将该任一图像特征值确定为有效的图像特征值,在后续执行对图像特征值比对的步骤时,对图像特征值进行比对的准确性较高。
步骤206、基于多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值。
在本发明实施例中,每个图像信息均会对应一个图像特征值,并且每个图像信息还会对应一个档案,因此可以基于多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定出每个档案对应的图像特征值。
步骤207、对于每个档案,将该档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对。
在本发明实施例中,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对有可实现方式,本发明实施例以以下两种可实现方式为例进行示意性说明:
在第一种可实现方式中,上述步骤207可以包括以下几个步骤:
步骤A1,对于每个第一图像特征值,确定第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
示例的,若档案中对应了2个第一图像特征值,其他档案对应了8个第二图像特征值,在步骤A1后可以得到16个相似度值,每个相似度值为:1个第一图像特征值与1个第二图像特征值之间的相似度值。
在本发明实施例中,该图像特征值可以为数组,也可以为相邻向量。
当图像特征值为数组时,该数组可以为一维数组,该步骤A1中的确定相似度的过程可以为:基于相似度公式,确定第一图像特征值a与每个第二图像特征值b的相似度值q。该相似度公式为:
q=m1/m,其中,m1为第一图像特征值a与第二图像特征值b数值相同位的个数,m为第一图像特征值a与第二图像特征值b中长度最长的数组的长度。
通常情况下,各个数组的长度是相同的。例如,若a和b的长度均为10,即m=10,a为“1234567890”,b为“1234567880”将a与b的每一位分别对比后,得到a和b的第一位至第八位以及第十位均相同,m1=9,则相似度q=9/10=0.9=90%。
当图像特征值为向量时,该步骤A1中的确定相似度的过程可以为:计算第一图像特征值与其他档案对应的每个第二图像特征值的距离;基于计算得到的距离确定第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。其中,距离与相似度负相关,也即是距离越小,相似度越大,例如,可以采用欧氏距离公式计算该距离。
步骤B1,检测每个相似度值是否大于相似度阈值。
在本发明实施例中,可以逐一的检测每个相似度阈值是否大于相似度阈值,该相似度阈值通常是人工设置的例如,该相似度阈值可以为70%。当某一相似度值大于相似度阈值时,执行步骤C1;当某一相似度值不大于相似度阈值时,执行步骤D1。
步骤C1,当某一相似度值大于相似度阈值时,确定存在与第一图像特征值匹配的第二图像特征值。
示例的,当某一相似度值大于相似度阈值时,可以确定出存在两个图像信息相关度较高,因此,可以确定存在与第一图像特征值匹配的第二图像特征值。
步骤D1,当某一相似度值不大于相似度阈值时,过滤该相似度值。
示例的,在过滤该相似度值后,需要检测下一个相似度值是否大于相似度阈值。
在第二种可实现方式中,每个图像特征值配置有模型类型,举例而言,该模型类型可以包括:人脸类型、配饰类型和车辆类型等。为了提高比对效率,可以对相同的模型类型的两个图像特征值进行比对,示例的,上述步骤207可以包括:对档案对应的每个第一图像特征值执行比对过程,该比对过程可以包括如下几个步骤:
步骤A2、获取其他档案对应的第二图像特征值中与第一图像特征值的特征值类型一致的备选图像特征值。
示例的,可以基于每个第一图像特征值配置的模型类型,在其他档案对应的第二图像特征值中查询与该第一图像特征值的特征值类型一致的备选图像特征值。
步骤B2、将第一图像特征值依次与每个备选图像特征值进行比对,得到第一图像特征值与每个备选图像特征值的相似度值。
例如,假设需要对三个档案进行档案归类,该三个档案分别为:档案A、档案B和档案C,其中,档案A对应两个图像特征值,档案B对应两个图像特征值,档案C对应三个图像特征值。
若每个图像特征值不配置模型类型,对于档案A,将档案A对应的每个图像特征值与其他档案对应的每个图像特征值进行比对时,需要执行10次比对的过程。
若每个图像特征值配置模型类型,假设档案A对应的两个图像特征值的模型类型分别为人脸类型和车辆类型,档案B中对应两个图像特征值的模型类型分别为人脸类型和配饰类型,档案C中对应的三个图像特征值的模型类型分别为人脸类型、配饰类型和车辆模型。对于档案A,将档案A对应的每个图像特征值与其他档案对应的每个图像特征值进行比对时,需要执行3次比对的过程。
因此,当对每个图像特征值配置模型类型时,可以对相同的模型类型的两个图像特征值进行比对,有效的缩短了比对次数,提高了比对效率。
需要说明的是,步骤B2中具体得到相似度值的原理可以参考上述步骤A1,在此不再赘述。
步骤C2、检测每个相似度值是否大于相似度阈值。
该步骤C2可以参考上述步骤B1,在此不再赘述。
步骤D2、当某一相似度值大于相似度阈值时,确定存在与第一图像特征值匹配的第二图像特征值。
该步骤D2可以参考上述步骤C1,在此不再赘述。
步骤E2,当某一相似度值不大于相似度阈值时,过滤该相似度值。
该步骤E2可以参考上述步骤D1,在此不再赘述。
在本发明实施例中,在第一档案(该第一档案为步骤201中获取的多个图像信息所对应的全部的档案中的任一档案)对应的第一图像特征值与其他档案对应的第二图像特征值进行比对后,可以对该第一档案设置用于指示该第一档案已经与其他档案进行比对的已比对标签,在后续对第二档案(该第二档案为全部的档案中除第一档案之外的任一档案)对应的第一图像特征值与其他档案对应的第二图像特征值进行比对时,可以通过判断其他档案中是否携带已比对标签,来避免重复对第二档案与第一档案进行比对,从而进一步的提高了比对效率。
例如,假设需要对三个档案进行档案归类,该三个档案分别为:档案A、档案B和档案C,在档案A对应的目标图像特征值与其他档案(档案B和档案C)对应的图像特征值进行比对后,对档案A设置已比对标签;当档案B对应的目标图像特征值与其他档案(档案A和档案C)对应的图像特征值进行比对时,可以确定出档案A携带了已比对标签,该档案B对应的目标图像特征值仅需要与档案C对应的图像信息进行比对即可,无需重复对档案B对应的目标图像特征值与档案A对应的图像信息进行比对,进一步的提高了比对效率。
步骤208、当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理。
示例的,可以通过对每个档案设置用于指示与该档案关联的档案的关联标签的方式,实现对两个档案进行关联处理。例如,假设需要对三个档案进行档案归类,该三个档案分别为:档案A、档案B和档案C,当通过上述步骤确定出需要对档案A与档案B进行关联处理时,可以对档案A设置用于指示该档案A的关联档案为档案B的关联标签,对档案B设置用于指示该档案B的关联档案为档案A的关联标签。
在一种可选的实现方式中,在步骤208后,可以形成档案集合,此时通过人工判断的方式对该档案集合中的关联档案作进一步的筛选,从而进一步的提高了形成的档案集合的准确性。
需要说明的是,本发明实施例提供的档案归类方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
综上所述,本发明实施例档案归类方法,通过对获取多个档案中的多个图像信息进行特征提取处理,得到与该多个图像信息对应的多个图像特征值,基于该多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值,对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理,从而可以形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成档案集合的准确性较高。并且该档案归类方法是采用对图像特征值进行比对的方式形成档案集合的,避免了相关技术中文本信息无法概述对应档案的全部的基本信息的问题,例如,可以基于人员的人脸信息形成档案集合,提高了后续形成的档案集合的准确性。
本发明实施例还提供了一种档案归类系统,请参考图3,图3是本发明实施例提供的一种档案归类系统的框图,该档案归类系统300可以包括:
获取模块301,用于获取多个档案中的多个图像信息,每个档案包括至少一个图像信息。
特征提取模块302,用于对多个图像信息进行特征值提取处理,得到与多个图像信息对应的多个图像特征值。
确定模块303,用于基于多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值。
比对模块304,用于对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对。
关联模块305,用于当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理。
可选的,如图4所示,图4是本发明实施例通过的一种比对模块的框图,该比对模块304,包括:
第一确定单元3041,用于对于每个第一图像特征值,确定第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
检测单元3042,用于检测每个相似度值是否大于相似度阈值。
第二确定单元3043,用于当某一相似度值大于相似度阈值时,确定存在与第一图像特征值匹配的第二图像特征值。
可选的,图像特征值为数组或向量,该第一确定单元3041,用于:
当图像特征值为数组时,基于相似度公式,确定第一图像特征值a与每个第二图像特征值b的相似度值q,相似度公式为:
q=m1/m,其中,m1为第一图像特征值a与第二图像特征值b数值相同位的个数,m为第一图像特征值a与第二图像特征值b中长度最长的数组的长度;
当图像特征值为向量时,计算第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
可选的,如图5所示,图5是本发明实施例提供的另一种档案归类系统的框图,系统还可以包括:
评分模块306,用于对每个图像特征值进行评分处理,得到与每个图像特征值对应的评分值。
删除模块307,用于当任一图像特征值对应的评分值低于评分阈值时,删除任一图像特征值。
可选的,每个图像特征值配置有特征值类型,该比对模块304可以包括:
比对单元,用于对档案对应的每个第一图像特征值执行比对过程,比对过程包括:
获取其他档案对应的第二图像特征值中与第一图像特征值的特征值类型一致的备选图像特征值;将第一图像特征值依次与每个备选图像特征值进行比对,得到第一图像特征值与每个备选图像特征值的相似度值;检测每个相似度值是否大于相似度阈值;当某一相似度值大于相似度阈值时,确定存在与第一图像特征值匹配的第二图像特征值。
需要说明的是,上述实施例中档案归类系统包括的每个模块可以分别集成在一个硬件设备中,或者,将某几个模块集成在一个硬件设备中,或者,将所有的模块集成在一个硬件设备中,本发明实施例对此不做限定。
示例的,请参考图6,图6是本发明实施例提供的一种档案归类系统的结构示意图。该档案归类系统400可以包括:比对服务器401和归类设备402。该归类设备402可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。比对服务器401也可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
该归类设备402与比对服务器401之间建立有通信连接。需要说明的是,本发明实施例中所谓的通信连接,可以是通过有线网络或者无线网络建立的通信连接。上述实施例中的获取模块301和关联模块305可以集成在该归类设备402中;上述实施例中的特征提取模块302、确定模块303和比对模块304可以集成在该比对服务器401中。
可选的,该档案归类系统00还可以包括存储服务器403,该存储服务器403可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。该存储服务器403与归类设备402之间建立有通信连接,该存储服务器403用于为归类设备402提供多个档案。
可选的,该档案归类系统00还可以包括数据采集设备404,该数据采集设备404可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。该数据采集设备404与存储服务器403之间建立有通信连接。该数据采集设备404用于采集每个档案对应的至少一个图像信息,并将图像信息上传到存储服务器403中。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、模块、单元和方法,可以通过其它的方式实现。例如,以上所描述的归类设备和比对服务器的实施例仅仅是示意性的,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如将归类设备中的多个模块,以及比对服务器中的多个模块结合的一个设备中,或者可以将各个模块分别部署在不同的设备中,本发明实施例对此不作限定。
综上所述,本发明实施例档案归类系统,通过对获取多个档案中的多个图像信息进行特征提取处理,得到与该多个图像信息对应的多个图像特征值,基于该多个图像信息对应的多个图像特征值,以及多个档案与多个图像信息的对应关系,确定每个档案对应的图像特征值,对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理,从而可以形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成档案集合的准确性较高。并且该档案归类方法是采用对图像特征值进行比对的方式形成档案集合的,避免了相关技术中文本信息无法概述对应档案的全部的基本信息的问题,例如,可以用于猎头公司、医院或公安的档案合并形成,提高了后续形成的档案集合的准确性。
本发明实施例还提供了一种计算机设备,包括处理器和存储器,其中,存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现图1或图2示出的档案归类方法。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质为非易失性计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,存储的计算机程序被处理器执行时能够实现图1或图2示出的档案归类方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行图1或图2示出的档案归类方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种档案归类方法,其特征在于,所述方法包括:
获取多个档案中的多个图像信息,每个所述档案包括至少一个图像信息;
对所述多个图像信息进行特征值提取处理,得到与所述多个图像信息对应的多个图像特征值;
基于所述多个图像信息对应的多个图像特征值,以及所述多个档案与所述多个图像信息的对应关系,确定每个所述档案对应的图像特征值;
对于每个所述档案,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;
当存在与所述第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和所述第一图像特征值对应的档案进行关联处理。
2.根据权利要求1所述的方法,其特征在于,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对,包括:
对于每个所述第一图像特征值,确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
3.根据权利要求2所述的方法,其特征在于,所述图像特征值为数组或向量,
所述确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值,包括:
当所述图像特征值为数组时,基于相似度公式,确定所述第一图像特征值a与每个第二图像特征值b的相似度值q,所述相似度公式为:
q=m1/m,其中,m1为所述第一图像特征值a与所述第二图像特征值b数值相同位的个数,m为所述第一图像特征值a与所述第二图像特征值b中长度最长的数组的长度;
当所述图像特征值为向量时,计算所述第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定所述第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
对每个所述图像特征值进行评分处理,得到与每个所述图像特征值对应的评分值;
当任一图像特征值对应的评分值低于评分阈值时,删除所述任一图像特征值。
5.根据权利要求1所述的方法,其特征在于,每个所述图像特征值配置有特征值类型,
所述将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对,包括:
对所述档案对应的每个所述第一图像特征值执行比对过程,所述比对过程包括:
获取所述其他档案对应的第二图像特征值中与所述第一图像特征值的特征值类型一致的备选图像特征值;
将所述第一图像特征值依次与每个所述备选图像特征值进行比对,得到所述第一图像特征值与每个备选图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
6.一种档案归类系统,其特征在于,所述系统包括:
获取模块,用于获取多个档案中的多个图像信息,每个所述档案包括至少一个图像信息;
特征提取模块,用于对所述多个图像信息进行特征值提取处理,得到与所述多个图像信息对应的多个图像特征值;
确定模块,用于基于所述多个图像信息对应的多个图像特征值,以及所述多个档案与所述多个图像信息的对应关系,确定每个所述档案对应的图像特征值;
比对模块,用于对于每个所述档案,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;
关联模块,用于当存在与所述第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和所述第一图像特征值对应的档案进行关联处理。
7.根据权利要求6所述的系统,其特征在于,所述比对模块包括:
第一确定单元,用于对于每个所述第一图像特征值,确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值;
检测单元,用于检测每个相似度值是否大于相似度阈值;
第二确定单元,用于当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
8.根据权利要求7所述的系统,其特征在于,所述图像特征值为数组或向量,所述第一确定单元,用于:
当所述图像特征值为数组时,基于相似度公式,确定所述第一图像特征值a与每个第二图像特征值b的相似度值q,所述相似度公式为:
q=m1/m,其中,m1为所述第一图像特征值a与所述第二图像特征值b数值相同位的个数,m为所述第一图像特征值a与所述第二图像特征值b中长度最长的数组的长度;
当所述图像特征值为向量时,计算所述第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定所述第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
9.根据权利要求6至8任一所述的系统,其特征在于,所述系统还包括:
评分模块,用于对每个所述图像特征值进行评分处理,得到与每个所述图像特征值对应的评分值;
删除模块,用于当任一图像特征值对应的评分值低于评分阈值时,删除所述任一图像特征值。
10.根据权利要求6所述的系统,其特征在于,每个所述图像特征值配置有特征值类型,所述比对模块包括:
比对单元,用于对所述档案对应的每个所述第一图像特征值执行比对过程,所述比对过程包括:
获取所述其他档案对应的第二图像特征值中与所述第一图像特征值的特征值类型一致的备选图像特征值;
将所述第一图像特征值依次与每个所述备选图像特征值进行比对,得到所述第一图像特征值与每个备选图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
11.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,存储的所述计算机程序被处理器执行时能够实现权利要求1至5任一所述的档案归类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562363.7A CN111368867B (zh) | 2019-06-26 | 2019-06-26 | 档案归类方法及系统、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562363.7A CN111368867B (zh) | 2019-06-26 | 2019-06-26 | 档案归类方法及系统、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368867A true CN111368867A (zh) | 2020-07-03 |
CN111368867B CN111368867B (zh) | 2023-09-05 |
Family
ID=71209950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910562363.7A Active CN111368867B (zh) | 2019-06-26 | 2019-06-26 | 档案归类方法及系统、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368867B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668635A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 图像归档方法、装置、设备及计算机存储介质 |
CN115757799A (zh) * | 2022-12-02 | 2023-03-07 | 松原市邹佳网络科技有限公司 | 基于人工智能的数据存储方法、系统及云平台 |
CN116343210A (zh) * | 2023-03-24 | 2023-06-27 | 广州慧信档案技术有限公司 | 档案数字化的管理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251253A1 (en) * | 2012-03-21 | 2013-09-26 | Casio Computer Co., Ltd. | Image processing device that displays retrieved image similar to target image |
CN108733819A (zh) * | 2018-05-22 | 2018-11-02 | 深圳云天励飞技术有限公司 | 一种人员档案建立方法和装置 |
CN109344271A (zh) * | 2018-09-30 | 2019-02-15 | 南京物盟信息技术有限公司 | 视频人像档案处理方法及其系统 |
CN109740004A (zh) * | 2018-12-28 | 2019-05-10 | 上海依图网络科技有限公司 | 一种归档方法及装置 |
CN109784220A (zh) * | 2018-12-28 | 2019-05-21 | 上海依图网络科技有限公司 | 一种确定路人轨迹的方法及装置 |
-
2019
- 2019-06-26 CN CN201910562363.7A patent/CN111368867B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251253A1 (en) * | 2012-03-21 | 2013-09-26 | Casio Computer Co., Ltd. | Image processing device that displays retrieved image similar to target image |
CN108733819A (zh) * | 2018-05-22 | 2018-11-02 | 深圳云天励飞技术有限公司 | 一种人员档案建立方法和装置 |
CN109344271A (zh) * | 2018-09-30 | 2019-02-15 | 南京物盟信息技术有限公司 | 视频人像档案处理方法及其系统 |
CN109740004A (zh) * | 2018-12-28 | 2019-05-10 | 上海依图网络科技有限公司 | 一种归档方法及装置 |
CN109784220A (zh) * | 2018-12-28 | 2019-05-21 | 上海依图网络科技有限公司 | 一种确定路人轨迹的方法及装置 |
Non-Patent Citations (2)
Title |
---|
HAMED ERFANKHAH,ET AL: "combining real-valued and binary gabor-radon features for classification and search in medical imaging archives", 2017 IEEE SSCI * |
杨有,等: "档案图像处理模型研究", 重庆文理学院学报, vol. 29, no. 5 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668635A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 图像归档方法、装置、设备及计算机存储介质 |
CN112668635B (zh) * | 2020-12-25 | 2022-05-27 | 浙江大华技术股份有限公司 | 图像归档方法、装置、设备及计算机存储介质 |
CN115757799A (zh) * | 2022-12-02 | 2023-03-07 | 松原市邹佳网络科技有限公司 | 基于人工智能的数据存储方法、系统及云平台 |
CN115757799B (zh) * | 2022-12-02 | 2023-10-24 | 北京国联视讯信息技术股份有限公司 | 基于人工智能的数据存储方法、系统及云平台 |
CN116343210A (zh) * | 2023-03-24 | 2023-06-27 | 广州慧信档案技术有限公司 | 档案数字化的管理方法及装置 |
CN116343210B (zh) * | 2023-03-24 | 2023-10-17 | 广州慧信档案技术有限公司 | 档案数字化的管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111368867B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN110941594B (zh) | 一种视频文件的拆分方法、装置、电子设备及存储介质 | |
WO2021217934A1 (zh) | 监控牲畜数量的方法、装置、计算机设备及存储介质 | |
US11727053B2 (en) | Entity recognition from an image | |
AU2010322173B2 (en) | Automatically mining person models of celebrities for visual search applications | |
CN103207898B (zh) | 一种基于局部敏感哈希的相似人脸快速检索方法 | |
US10997134B2 (en) | Automatic entity resolution with rules detection and generation system | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
US20090274364A1 (en) | Apparatus and methods for detecting adult videos | |
US9471675B2 (en) | Automatic face discovery and recognition for video content analysis | |
CN110162665B (zh) | 视频搜索方法、计算机设备及存储介质 | |
CN110348362B (zh) | 标签生成、视频处理方法、装置、电子设备及存储介质 | |
CN107180056B (zh) | 视频中片段的匹配方法和装置 | |
CN111368867B (zh) | 档案归类方法及系统、计算机可读存储介质 | |
CN109426785B (zh) | 一种人体目标身份识别方法及装置 | |
CN110019891B (zh) | 图像存储方法、图像检索方法及装置 | |
JP5685324B2 (ja) | 映像を比較する方法および装置 | |
US10943098B2 (en) | Automated and unsupervised curation of image datasets | |
CN111931548B (zh) | 人脸识别系统、建立人脸识别数据的方法及人脸识别方法 | |
CN105024987A (zh) | 一种web业务日志的监测方法和装置 | |
US11403875B2 (en) | Processing method of learning face recognition by artificial intelligence module | |
WO2020135756A1 (zh) | 视频段的提取方法、装置、设备及计算机可读存储介质 | |
US20200364259A1 (en) | Image retrieval | |
CN116032741A (zh) | 一种设备识别方法、装置、电子设备和计算机存储介质 | |
CN111177436A (zh) | 一种人脸特征检索方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |