CN113127712A - 一种归档方法及装置 - Google Patents

一种归档方法及装置 Download PDF

Info

Publication number
CN113127712A
CN113127712A CN201911406336.7A CN201911406336A CN113127712A CN 113127712 A CN113127712 A CN 113127712A CN 201911406336 A CN201911406336 A CN 201911406336A CN 113127712 A CN113127712 A CN 113127712A
Authority
CN
China
Prior art keywords
data
file
cover
feature
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911406336.7A
Other languages
English (en)
Other versions
CN113127712B (zh
Inventor
戴世稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN201911406336.7A priority Critical patent/CN113127712B/zh
Publication of CN113127712A publication Critical patent/CN113127712A/zh
Application granted granted Critical
Publication of CN113127712B publication Critical patent/CN113127712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种归档方法及装置,包括:对特征集的特征数据进行数据处理,获得训练后的模型及特征数据的聚类中心;根据训练后的模型对所有档案的封面和聚类中心进行计算,获得所有档案的封面的编码数据;根据封面编码数据对待处理档案进行归档。本申请通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。

Description

一种归档方法及装置
技术领域
本申请属于数据处理技术领域,尤其涉及一种归档方法及装置。
背景技术
在大数据时代的环境下,由于数据量庞大且复杂,数据处理的效率和准确率显得非常重要。
目前的归档方法主要是基于暴利搜索的方法来计算档案的相似度,从而对档进行归档,对存储资源和计算资源要求比较高。在档案数据量特别大时,容易造成数据混乱的问题。并且,现有技术中,为了提高归档效率,通常采用多封面进行归档,造成了存储资源和计算资源需求量大,数据处理的效率低的情况。
发明内容
本申请实施例提供了一种归档方法及装置,可以解决现有归档方法存储资源和计算资源需求量大,数据处理的效率低的问题。
第一方面,本申请实施例提供了一种归档方法,包括:
对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取档案的封面;
将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
根据所述封面编码数据对待处理档案进行归档。
第二方面,本申请实施例提供了一种归档装置,包括:
数据处理模块,用于对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取模块,用于获取档案的封面;
计算模块,用于将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
归档模块,用于根据所述封面编码数据对待处理档案进行归档。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的归档方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的归档方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的归档方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的归档方法的流程示意图;
图2是本申请一实施例提供的基于归档方法的聚类处理流程示意图;
图3是本申请一实施例提供的基于归档方法求取档案的封面编码数据的流程示意图;
图4是本申请一实施例提供的基于归档方法的对待归档档案进行归档的流程示意图;
图5是本申请另一实施例提供的归档装置的结构示意图;
图6是本申请一实施例提供终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的归档方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
图1示出了本申请提供的归档方法的示意性流程图,作为示例而非限定,该方法可以应用于上述任一终端设备中。
S101、对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心。
在具体应用中,对训练样本数据的特征集中的特征数据进行数据训练,获得数据处理后的特征集中特征数据的聚类中心。其中,特征数据可以是特征向量,数据处理可以是对特征数据进行聚类。
具体的,可以将特征集的所有特征数据分为互不相交的P个部分(其中,P为正整数);
并对每个部分中的所有特征数据进行K个聚类中心的聚类(K-mean)处理,以获得聚类处理(也可视为压缩)后的特征数据。
S102、获取档案的封面。
在具体应用中,对每个档案选取至少两个封面。
封面是指用于在执行档案归档、查找档案等操作时,使用的某一类型的索引内容,封面包括但不限于档案的封面图像。
S103、将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据。
在具体应用中,将每一个档案的每个封面的特征向量分成P个部分;
对每一个档案的每个封面的每个部分的特征数据和各自的特征集对应部分的K个聚类中心进行计算,依此获得所有档案的所有封面的封面编码数据。
S104、根据所述封面编码数据对待处理档案进行归档。
在具体应用中,获取特征集的每个部分的聚类中心中每两个聚类中心的距离,获得特征集的每个部分的聚类中心的距离向量池,将待处理档案的特征数据分成P个部分,计算待处理档案的每个部分特征数据分别与特征集的对应部分的K个聚类中心之间的欧氏距离,以获得待处理档案的该部分特征数据的编码数据,并根据距离向量池获得待处理档案的每个部分特征数据与所有档案之间的距离,获取待处理档案的所有部分特征数据与所有档案之间的欧氏距离中的最大值,若最大值大于或等于归档阈值,则判定待处理档案归档成功。
在一个实施中,步骤S101,包括:
S1011、将训练样本数据的特征集中的特征数据分成互不相交的P个部分;其中,特征数据为特征向量,P为正整数;
S1012、对每一部分的特征数据进行聚类,获得特征集的所有部分的所有聚类中心的值。
在具体应用中,P为正整数,且可根据实际情况进行具体设定,例如,设定P为4。
需要说明的是,特征数据具体可以是特征向量,训练样本数据的特征集中的任一特征数据、任一档案的任一封面的特征数据和待处理档案的任一特征数据为相同维度的特征数据,分别将上述三种特征数据分为互不相交的相同个数的部分,便于计算每个档案的每个封面的每个部分特征数据分别与特征集的对应部分的所有聚类中心之间的欧氏距离,和待处理档案的每个部分特征数据分别与特征集的对应部分的所有聚类中心之间的欧氏距离。
例如,若训练样本数据的特征集中的任一特征向量为128维,P设定为4,则可将训练样本数据的特征集中的特征向量分为4部分,其中,特征集的第一部分包括M条特征向量的第1个至第32个浮点数据,第二部分包括M条特征向量的第33个至第64个浮点数据,第三部分包括M条特征向量的第65个至第96个浮点数据,第四部分包括M条特征向量的第97个至第128个浮点数据。同样的,任一档案的任一封面的第一部分包括该封面的特征向量的第1个至第32个浮点数据,第二部分包括该封面的特征向量的第33个至第64个浮点数据,第三部分包括该封面的特征向量的第65个至第96个浮点数据,第四部分包括该封面的特征向量的第97个至第128个浮点数据;待处理档案的第一部分包括该待处理档案的特征向量的第1个至第32个浮点数据,第二部分包括该待处理档案的特征向量的第33个至第64个浮点数据,第三部分包括该待处理档案的特征向量的第65个至第96个浮点数据,第四部分包括该待处理档案的特征向量的第97个至第128个浮点数据。
通过将数据集中的特征数据分成多个部分,并分别对每个部分进行聚类处理,实现对特征数据的压缩处理,进而减小了归档处理的计算量。
在一个实施中,步骤S1011,包括:
将训练样本数据的特征集中的M条D维特征向量分成互不相交的P个部分;其中,第一部分包括M条特征向量的第1个至第D/P个浮点数据,第二部分包括M条特征向量的第D/P+1个至第2D/P个浮点数据...第P部分包括M条特征向量的第(P-1)D/P+1个至第D个浮点数据,M和D均为正整数。
在具体应用中,M和D均为正整数,其中,P应是D的因数,P、M、D的值可根据实际情况进行具体设定。例如,若D为8,P应是8的因数,如P可以是4,也可以是2。
作为示例而非限定,M应为大于P的正整数,例如,若D为8,P为4,则M可以是1000。
例如,若设定D为128维,P为4,则可将训练样本数据的特征集中的M条128维特征向量分成互不相交的4个部分,其中,第一部分包括M条特征向量的第1个至第32个浮点数据,第二部分包括M条特征向量的第33个至第64个浮点数据,第3部分包括M条特征向量的第65个至第96个浮点数据,第4部分包括M条特征向量的第97个至第128个浮点数据。
如图2所示,示例性的展示了对训练样本数据的特征集的特征数据进行聚类处理的流程示意图。
图2中,具体为将训练样本数据的特征集中M个128维特征向量分为4个部分,并进行256个聚类中心的聚类处理的过程。
在一个实施中,步骤S1012,包括:
取出每一部分的特征数据中的K条特征数据作为该部分的K个聚类中心,其中,K为正整数;
计算每一部分的每一条特征数据分别与该部分的K个聚类中心的值之间的欧氏距离,以获得每条特征数据对应的多个欧氏距离;
根据每条特征数据对应的多个欧氏距离,确定每条特征数据中最小的欧氏距离对应的聚类中心,并将该最小的欧氏距离对应的特征数据作为该聚类中心的归属值,以此获取每个部分的K个聚类中心的归属值,每个所述聚类中心包括多个归属值;
计算每一部分的每一个聚类中心的归属值的平均值,将所述平均值作为每一部分的该聚类中心更新后的值,并获得每一部分K个聚类中心更新后的值;
对每一部分的特征数据进行迭代聚类,直至聚类的次数大于或等于聚类次数阈值,或者直至聚类误差小于或等于聚类误差阈值时,停止聚类;
将停止聚类时刻的任一部分的K个聚类中心更新后的值,作为所述部分的K个聚类中心的值,并获得所有部分的所有聚类中心的值。
在具体应用中,从特征集中每一部分的M条特征数据中抽取K个特征数据作为该部分的K个聚类中心,计算每一部分的每一条特征数据分别与该部分的K个聚类中心的值之间的欧氏距离,以获得每条特征数据对应的K个欧氏距离,确定每条特征数据中最小的欧氏距离对应的聚类中心,并将该最小的欧氏距离对应的特征数据作为该聚类中心的归属值,计算该聚类中心的归属值包含的所有浮点数据的平均值,将计算平均值之后获得的局值向量作为更新后的该聚类中心的值,依此获得每一部分的K个更新后的聚类中心的值。
迭代执行上述聚类操作,直至聚类的次数大于或等于聚类次数阈值,或者直至聚类误差小于或等于聚类误差阈值时,停止聚类。获取停止聚类时刻的每一部分的K个更新后的聚类中心的值对应作为每一部分的K个聚类中心的值,并依此获得所有部分的所有聚类中心的值。
例如,若设定D为128,P为4,K为256,则从特征集中第一部分的M条特征数据中抽取256个特征数据作为第一部分的256个聚类中心。
计算第一部分中每一条特征数据分别与第一部分中的256个聚类中心的值之间的欧氏距离,然后第一部分中最小的欧氏距离对应的聚类中心,并将该最小的欧氏距离对应的特征数据作为该聚类中心的归属值,计算归属值的32个浮点数据的平均值,将计算平均值之后获得的局值向量作为更新后的该聚类中心的值。
在具体应用中,聚类次数阈值和聚类误差阈值可根据实际情况进行具体设定,例如,以第一部分为例,若设定聚类次数阈值为3次,则在第一部分的特征数据迭代执行3次聚类之后,可停止聚类,并将第一部分的特征数据在第三次聚类后获得的K个更新后的聚类中心的值作为第一部分的K个聚类中心的值。
聚类误差为任一部分特征数据执行第i次聚类后获得的K个聚类中心的值,与执行第i-1次聚类后获得的K个聚类中心的值之间的差值。
例如,以第一部分为例,若聚类误差阈值设定为0.1,则在第2次聚类误差小于或等于0.1时(例如,第2次聚类误差为0.05),可停止聚类,将第一部分的特征数据在第二次聚类后获得的K个更新后的聚类中心的值作为第一部分的K个聚类中心的值。
通过计算每个部分每个特征数据分别与对应部分的所有聚类中心的值之间的欧氏距离,并根据每条特征数据对应的K个欧氏距离,确定每条特征数据中最小的欧氏距离对应的聚类中心,并将该最小的欧氏距离对应的特征数据作为该聚类中心的归属值,并计算归属值的浮点数据的平均值,通过平均值对聚类中心的值进行更新,为对待处理档案归档提供了准确度高的用于检索的数据。
在一个实施中,步骤S103,包括:
S1031、获取每个档案的X个封面的特征数据;其中,X为正整数;
S1032、将每个档案的每个封面的特征数据分成互不相交的P个部分;
S1033、根据所述特征集的聚类中心对每个档案的每个封面的每个部分特征数据进行编码,获得所有档案的所有封面的所有部分的封面编码数据。
在具体应用中,可根据每个档案的不同类型的索引选取对应X个数的封面,并获得每个档案的每个封面的特征数据,根据P的值将每个档案的每个封面的特征数据分成互不相交的P个部分,然后对任一个档案的任一个封面的任一部分特征数据分别和特征集中对应部分的所有聚类中心的值进行计算,获得任一个档案的任一个封面的任一部分的封面编码数据,并依此获得所有档案的所有封面的所有部分的封面编码数据。其中,X为正整数,X和M、D或P可以相同也可以不同。
需要说明的是,任意一个档案的任意一个封面的特征数据应是与特征集中的特征数据具有相同维度的特征向量。例如,特征集的特征数据为128维的特征向量,则任意一个档案的任意一个封面的特征数据也为128维的特征向量。
通过选取每个档案的多个封面,并将每个档案的每个封面的特征数据分成与数据集的特征数据相同个数的部分,获得对应部分的聚类中心的值与任一档案的任一封面的任一部分特征数据之间的欧氏距离,获得任一档案任一封面的任一部分的封面编码数据,依此获得所有档案的所有封面的所有部分的封面编码数据,简化了封面编码数据的计算方法,提高了对档案进行检索的效率。
在一个实施中,步骤S1033,包括:
计算任一档案的任一封面的任一部分特征数据与特征集的对应部分的K个聚类中心之间的欧氏距离,以获得任一档案的任一封面的任一部分特征数据对应的多个欧氏距离;
根据任一档案的任一封面的任一部分特征数据对应的多个欧氏距离,确定任一档案的任一封面的任一部分特征数据中最小的欧氏距离对应的聚类中心的值,作为该部分的封面编码数据;
遍历所有档案的所有封面的所有部分特征数据,获得所有档案的所有封面的所有部分的封面编码数据。
在具体应用中,将每个档案的每个封面的特征数据分成互不相交的P个部分,然后计算任一档案的任一封面中任一部分特征数据与特征集中特征数据的对应部分的K个聚类中心之间的欧氏距离,以获得该档案的该封面中该部分特征数据对应的多个欧氏距离,根据该档案的该封面中该部分特征数据对应的多个欧氏距离,确定该档案的该封面的该部分特征数据中最小的欧氏距离对应的聚类中心的值,作为该部分的封面编码数据,遍历所有档案的所有封面的所有部分特征数据,依此获得所有档案的所有封面的所有部分的封面编码数据。
例如,设定P为4,任一封面的特征数据为128维特征向量,K为256,X为3,则将任一档案的任一封面的特征数据分为4份。其中,以第一部分为例,可计算某一档案的某一封面的第一部分特征数据分别与特征集中第一部分的256个聚类中心的值之间的欧氏距离,根据该档案的该封面中第一部分特征数据对应的多个欧氏距离,确定该档案的该封面的第一部分特征数据中最小的欧氏距离对应的第一部分的聚类中心的值,作为该档案的该封面的第一部分特征数据的封面编码数据。
然后遍历所有档案的所有封面的所有部分特征数据,依此获得所有档案的所有封面的所有部分的封面编码数据。
图3示例性的示出了计算获得档案的封面数据的封面编码数据的流程示意图;
图3中,具体基于图2为将特征集M个128维特征向量分为4个部分,并进行256个聚类中心的聚类处理,然后计算任一个档案的任一个封面的任一部分特征数据分别与特征集中对应部分的256个聚类中心的值之间的欧氏距离,获得任一个档案的任一个封面的任一部分的封面编码数据,并依此获得任一档案的任一封面的所有部分的封面编码数据(图3中最右的M个封面编码数据)。其中,如4,56,132,226可表示为某一封面的4个部分的封面编码数据。
通过计算对应部分的聚类中心的值与任一档案的任一封面的欧氏距离来获得任一档案的任一封面的封面编码数据,提高了封面编码数据的获取效率,进而提高了对档案进行检索的效率。
在一个实施中,步骤S104,包括:
S1041、计算特征集的每一个部分的聚类中心的距离向量池;
S1042、将待处理档案的特征数据分成P个部分;
S1043、根据特征集的聚类中心计算获得待处理档案的待处理档案编码数据;其中,所述待处理档案编码数据包括P个部分的档案编码数据;
S1044、根据特征集的所有部分的聚类中心对应的距离向量池获取所述待处理档案的待处理档案编码数据与每一个档案的每一个封面的封面编码数据之间的相似度;
S1045、计算所述待处理档案的待处理档案编码数据与每一个档案的所有封面的封面编码数据之间的相似度的平均值;
S1046、获取所有平均值中的最大值,并比较所述最大值和预设的归档阈值的大小;
S1047、若所述最大值大于或等于所述归档阈值,则判定所述待处理档案归档成功。
在具体应用中,计算特征集中每个部分的聚类中心的距离向量池,然后将待处理档案的特征数据分成P个部分,计算待处理档案的任一部分特征数据分别与特征集中对应部分的K个聚类中心的值之间的欧氏距离,获取与待处理档案的任一部分特征数据之间的欧氏距离最小的特征集中对应部分的聚类中心的值,作为待处理档案的该部分的档案编码数据,并依此获得待处理档案的P个档案编码数据;然后根据待处理档案的P个档案编码数据以及每个档案的每个封面的每个封面编码数据查询距离向量池,获得待处理档案的P个档案编码数据分别与每个档案的每个封面的每个封面编码数据之间的欧氏距离,计算获得待处理档案的P个档案编码数据与每一个档案每个封面的所有封面编码数据之间的欧氏距离的平均值,作为待处理档案的待处理档案编码数据与每一个档案每个封面的封面编码数据之间的相似度(也可称作距离),计算待处理档案的待处理档案编码数据与每一个档案的所有封面的封面编码数据之间的相似度的平均值,获取相似度的平均值的最大值,若最大值大于或等于预设的归档阈值,则判定待处理档案归档成功。
例如,设定P为4,根据待处理档案的4个档案编码数据以及每个档案的每个封面的每个封面编码数据查询距离向量池,获得待处理档案的4个档案编码数据与每个档案的每个封面的每个封面编码数据之间的欧氏距离,然后计算待处理档案的4个档案编码数据与每个档案的每个封面的所有封面编码数据之间的欧氏距离的平均值,作为待处理档案的待处理档案编码数据与每个档案的每个封面的封面编码之间的相似度。
计算获得待处理档案的待处理档案编码数据与每个档案的所有封面的封面编码之间的相似度的平均值,获取待处理档案与所有档案之间的相似度中的最大值,若最大值大于或等于预设的归档阈值,则判定待处理档案归档成功。
如图4所示,示例性的示出了一种对待归档档案进行归档的流程图。
图4中,基于图2至图3将特征集M个128维特征向量分为4个部分,并进行256个聚类中心的聚类处理,然后计算每个档案的每个封面的每个特征数据分别与特征集中对应部分的256个聚类中心的值之间的欧氏距离,并依此获得每个档案的每个封面的所有部分的封面编码数据。计算特征集中每个部分的聚类中心的距离向量池,并根据距离向量池获得待处理档案的4个档案编码数据分别与每个档案的每个封面的每个封面编码数据之间的欧氏距离,然后计算待处理档案的4个档案编码数据与每个档案的每个封面的每个封面编码之间的欧氏距离的平均值,作为待处理档案的待处理档案编码数据与每个档案的每个封面的封面编码数据之间的相似度,并获取待处理档案的待处理档案编码数据与每一个档案的所有封面的封面编码数据之间的相似度的平均值,获取相似度的平均值的最大值,若最大值大于或等于预设的归档阈值,则判定待处理档案归档成功。
通过计算对应部分的聚类中心与待归档数据的距离,获得待归档数据的待归档编码数据,提高了获取待归档数据的待归档编码数据的效率,然后通过计算待归档编码数据和档案的封面数据的相似度,根据相似度是否达到预设阈值,判定档案是否归档成功,简化了对待归档数据进行归档的操作,提高了归档效率。
在一个实施中,步骤S1041,包括:
计算特征集的每个部分的聚类中心中每两个聚类中心之间的欧氏距离,获得每个部分的聚类中心的距离向量池。
在具体应用中,计算特征集中每个部分的聚类中心中每两个聚类中心之间的欧氏距离,获得特征集中所有部分的聚类中心的距离向量池。
例如,若K为256,以第一部分为例,计算特征集中第一部分中每一个聚类中心与其他255个聚类中心(第一部分中除该聚类中心以外的255个聚类中心)之间的欧氏距离,作为特征集中第一部分的聚类中心的距离向量池,并依此获得特征集中所有部分的距离向量池。
通过计算特征集中每个部分的聚类中心中每两个聚类中心之间的欧氏距离,形成特征集中每个部分的聚类中心对应的距离向量池,便于后续基于距离向量池快速获得待归档数据的待归档编码数据和所有档案的编码数据之间的距离,进而提高了对待归档数据进行归档的效率。
在一个实施中,步骤S1043,包括:
分别计算待处理档案的任一部分特征数据与特征集的对应部分的K个聚类中心之间的欧氏距离,获得与待处理档案的该部分特征数据之间的欧氏距离最小的对应部分的聚类中心的值,作为待处理档案的待处理档案编码数据。
在具体应用中,例如,若P为4,待处理档案的特征数据为128维的特征向量,K为256。将待处理档案的特征数据分成4个部分,以第一部分为例,可计算待处理档案的第一部分特征数据分别与特征集中特征数据的第一部分的256个聚类中心的值之间的欧氏距离,获取与待处理档案的第一部分特征数据之间的欧氏距离最小的第一部分的聚类中心的值,作为待处理档案第一部分的档案编码数据,并依此获得待处理档案的4个档案编码数据。
通过计算并获取与待处理档案的对应部分特征数据之间的欧氏距离最小的对应部分的聚类中心的值,作为待处理档案的待处理档案编码数据,简化了对待处理数据进行编码的操作,提高了对待处理档案进行检索和归档的效率。
本实施例通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的归档方法,图5示出了本申请实施例提供的归档装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图5,该归档装置100包括:
数据处理模块101,用于对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取模块102,用于获取档案的封面;
计算模块103,用于将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
归档模块103,用于根据所述封面编码数据对待处理档案进行归档。
本实施例通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图6为本申请一实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意各个归档方法实施例中的步骤。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的举例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (11)

1.一种归档方法,其特征在于,包括:
对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取档案的封面;
将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
根据所述封面编码数据对待处理档案进行归档。
2.如权利要求1所述的归档方法,其特征在于,所述对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心,包括:
将训练样本数据的特征集中的特征数据分成互不相交的P个部分;其中,特征数据为特征向量,P为正整数;
对每一部分的特征数据进行聚类,获得特征集的所有部分的所有聚类中心的值。
3.如权利要求2所述的归档方法,其特征在于,所述对每一部分的特征数据进行聚类,获得特征集的所有部分的所有聚类中心的值,包括:
取出每一部分的特征数据中的K条特征数据作为该部分的K个聚类中心,其中,K为正整数;
计算每一部分的每一条特征数据分别与该部分的K个聚类中心的值之间的欧氏距离,以获得每条特征数据对应的多个欧氏距离;
根据每条特征数据对应的多个欧氏距离,确定每条特征数据中最小的欧氏距离对应的聚类中心,并将该最小的欧氏距离对应的特征数据作为该聚类中心的归属值,以此获取每个部分的K个聚类中心的归属值,每个所述聚类中心包括多个归属值;
计算每一部分的每一个聚类中心的归属值的平均值,将所述平均值作为每一部分的该聚类中心更新后的值,并获得每一部分K个聚类中心更新后的值;
对每一部分的特征数据进行迭代聚类,直至聚类的次数大于或等于聚类次数阈值,或者直至聚类误差小于或等于聚类误差阈值时,停止聚类;
将停止聚类时刻的任一部分的K个聚类中心更新后的值,作为所述部分的K个聚类中心的值,并获得所有部分的所有聚类中心的值。
4.如权利要求1所述的归档方法,其特征在于,所述将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据,包括:
获取每个档案的X个封面的特征数据;其中,X为正整数;
将每个档案的每个封面的特征数据分成互不相交的P个部分;
根据所述特征集的聚类中心对每个档案的每个封面的每个部分特征数据进行编码,获得所有档案的所有封面的所有部分的封面编码数据。
5.如权利要求4所述的归档方法,其特征在于,所述根据所述特征集的聚类中心对每个档案的每个封面的每个部分特征数据进行编码,获得所有档案的所有封面的所有部分的封面编码数据,包括:
计算任一档案的任一封面的任一部分特征数据与特征集的对应部分的K个聚类中心之间的欧氏距离,以获得任一档案的任一封面的任一部分特征数据对应的多个欧氏距离;
根据任一档案的任一封面的任一部分特征数据对应的多个欧氏距离,确定任一档案的任一封面的任一部分特征数据中最小的欧氏距离对应的聚类中心的值,作为该部分的封面编码数据;
遍历所有档案的所有封面的所有部分特征数据,获得所有档案的所有封面的所有部分的封面编码数据。
6.如权利要求1所述的归档方法,其特征在于,所述根据所述封面编码数据对待处理档案进行归档,包括:
计算特征集的每一个部分的聚类中心的距离向量池;
将待处理档案的特征数据分成P个部分;
根据特征集的聚类中心计算获得待处理档案的待处理档案编码数据;其中,所述待处理档案编码数据包括P个部分的档案编码数据;
根据特征集的所有部分的聚类中心对应的距离向量池获取所述待处理档案的待处理档案编码数据与每一个档案的每一个封面的封面编码数据之间的相似度;
计算所述待处理档案的待处理档案编码数据与每一个档案的所有封面的封面编码数据之间的相似度的平均值;
获取所有平均值中的最大值,并比较所述最大值和预设的归档阈值的大小;
若所述最大值大于或等于所述归档阈值,则判定所述待处理档案归档成功。
7.如权利要求6所述的归档方法,其特征在于,所述计算特征集的每一个部分的聚类中心的距离向量池,包括:
计算特征集的每个部分的聚类中心中每两个聚类中心之间的欧氏距离,获得每个部分的聚类中心的距离向量池。
8.如权利要求6所述的归档方法,其特征在于,所述根据特征集的聚类中心计算获得待处理档案的待处理档案编码数据,包括:
分别计算待处理档案的任一部分特征数据与特征集的对应部分的K个聚类中心之间的欧氏距离,获得与待处理档案的该部分特征数据之间的欧氏距离最小的对应部分的聚类中心的值,作为待处理档案的待处理档案编码数据。
9.一种归档装置,其特征在于,包括:
数据处理模块,用于对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取模块,用于获取档案的封面;
计算模块,用于将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
归档模块,用于根据所述封面编码数据对待处理档案进行归档。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN201911406336.7A 2019-12-31 2019-12-31 一种归档方法及装置 Active CN113127712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911406336.7A CN113127712B (zh) 2019-12-31 2019-12-31 一种归档方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911406336.7A CN113127712B (zh) 2019-12-31 2019-12-31 一种归档方法及装置

Publications (2)

Publication Number Publication Date
CN113127712A true CN113127712A (zh) 2021-07-16
CN113127712B CN113127712B (zh) 2024-06-07

Family

ID=76768685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911406336.7A Active CN113127712B (zh) 2019-12-31 2019-12-31 一种归档方法及装置

Country Status (1)

Country Link
CN (1) CN113127712B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1691033A (zh) * 2003-11-13 2005-11-02 佳能株式会社 成像设备、系统,处理、控制任务的方法,及存储介质
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
TW200630886A (en) * 2005-02-28 2006-09-01 Microsoft Corp File system represented inside a database
CN102804208A (zh) * 2009-11-18 2012-11-28 谷歌公司 为视觉搜索应用自动挖掘名人的个人模型
US8442951B1 (en) * 2011-12-07 2013-05-14 International Business Machines Corporation Processing archive content based on hierarchical classification levels
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109740004A (zh) * 2018-12-28 2019-05-10 上海依图网络科技有限公司 一种归档方法及装置
CN109783664A (zh) * 2018-12-28 2019-05-21 上海依图网络科技有限公司 一种归档方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
CN1691033A (zh) * 2003-11-13 2005-11-02 佳能株式会社 成像设备、系统,处理、控制任务的方法,及存储介质
TW200630886A (en) * 2005-02-28 2006-09-01 Microsoft Corp File system represented inside a database
CN102804208A (zh) * 2009-11-18 2012-11-28 谷歌公司 为视觉搜索应用自动挖掘名人的个人模型
US8442951B1 (en) * 2011-12-07 2013-05-14 International Business Machines Corporation Processing archive content based on hierarchical classification levels
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109740004A (zh) * 2018-12-28 2019-05-10 上海依图网络科技有限公司 一种归档方法及装置
CN109783664A (zh) * 2018-12-28 2019-05-21 上海依图网络科技有限公司 一种归档方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
夏宇;刘天华;: "基于聚类分析的教职工档案管理", 沈阳师范大学学报(自然科学版), no. 02 *
夏宇;刘天华;: "基于聚类分析的教职工档案管理", 沈阳师范大学学报(自然科学版), no. 02, 15 April 2016 (2016-04-15) *
张雁泉;: "文件整理归档方法改革的现实意义", 兰台世界, no. 18 *
赵媛;: "公路工程档案唯一性标识编码研究", 云南档案, no. 06, 20 June 2018 (2018-06-20) *

Also Published As

Publication number Publication date
CN113127712B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN107729935B (zh) 相似图片的识别方法和装置、服务器、存储介质
US8838657B1 (en) Document fingerprints using block encoding of text
CN112099725A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN111291571A (zh) 语义纠错方法、电子设备及存储介质
CN113010116B (zh) 一种数据处理方法、装置、终端设备及可读存储介质
CN111460098A (zh) 文本匹配方法、装置及终端设备
CN113918598A (zh) 一种乘积量化搜索方法、装置、终端和存储介质
CN112163409A (zh) 一种相似文档检测方法、系统、终端设备及计算机可读存储介质
CN109829383B (zh) 掌纹识别方法、装置和计算机设备
CN113609128B (zh) 生成数据库实体类的方法、装置、终端设备及存储介质
CN114374392A (zh) 一种数据压缩存储方法、装置、终端设备及可读存储介质
CN107368281B (zh) 一种数据处理方法及装置
CN110321858B (zh) 视频相似度确定方法、装置、电子设备及存储介质
CN110287943B (zh) 图像的对象识别方法、装置、电子设备及存储介质
CN113127712B (zh) 一种归档方法及装置
US8930939B2 (en) Comparing system engram with product engram to determine compatibility of product with system
CN115455083A (zh) 查重方法、装置、电子设备及计算机存储介质
CN110413603B (zh) 重复数据的确定方法、装置、电子设备及计算机存储介质
CN112990466A (zh) 一种冗余规则检测方法、装置以及服务器
CN113760876A (zh) 一种数据过滤方法和装置
CN113392184A (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN111611056A (zh) 数据处理方法、装置、计算机设备及存储介质
CN109344132B (zh) 用户信息的合并方法、计算机可读存储介质及终端设备
CN111611417B (zh) 图像去重方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant