CN116089648A - 基于人工智能的档案管理系统及方法 - Google Patents
基于人工智能的档案管理系统及方法 Download PDFInfo
- Publication number
- CN116089648A CN116089648A CN202310373916.0A CN202310373916A CN116089648A CN 116089648 A CN116089648 A CN 116089648A CN 202310373916 A CN202310373916 A CN 202310373916A CN 116089648 A CN116089648 A CN 116089648A
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- context semantic
- archive
- image block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims description 25
- 238000007726 management method Methods 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims description 323
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 60
- 238000013507 mapping Methods 0.000 claims description 58
- 230000000903 blocking effect Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000001514 detection method Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及智能管理领域,其具体地公开了一种基于人工智能的档案管理系统及方法,其通过采用基于深度学习的神经网络模型挖掘出检测图像和档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
Description
技术领域
本申请涉及智能管理领域,且更为具体地,涉及一种基于人工智能的档案管理系统及方法。
背景技术
随着档案管理系统的不断发展完善,各企业对档案管理工作的要求越来越高,如何更好地管理和利用档案资源为各项工作服务成为了档案管理工作的重要职责。目前档案的管理数字化支撑不足,档案的检索大部分仍通过人工方式进行,且档案数量繁多,需要投入大量的人力和时间,其规范性、完整性和适用性不能得到很好的保证。
因此,期望一种优化的基于人工智能的档案管理系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于人工智能的档案管理系统及方法,其通过采用基于深度学习的神经网络模型挖掘出检测图像和档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
根据本申请的一个方面,提供了一种基于人工智能的档案管理系统,其包括:
检测图像采集模块,用于获取待检测图片;
图像分块模块,用于对所述待检测图片进行图像分块处理以得到待检测图像块的序列;
图像嵌入化模块,用于将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;
检测图像全局语义关联模块,用于将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;
参考图像采集模块,用于获取备选档案库图像;
参考图像全局语义关联模块,用于对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;
差异性编码模块,用于分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;以及
匹配检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
在上述基于人工智能的档案管理系统中,所述检测图像全局语义关联模块,包括:上下文编码单元,用于使用所述ViT模型的转换器对所述待检测图像块嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义待检测图像块特征向量;以及,级联单元,用于将所述多个全局上下文语义待检测图像块特征向量进行级联以得到所述多个待检测图像块上下文语义关联特征向量。
在上述基于人工智能的档案管理系统中,所述参考图像全局语义关联模块,包括:档案库图像分块单元,用于对所述备选档案库图像进行图像分块处理以得到备选档案库图像块的序列;档案库图像嵌入编码单元,用于将所述备选档案库图像块的序列输入所述嵌入层以得到备选档案库图像块嵌入向量的序列;以及,档案库图像全局关联编码模块,用于将所述备选档案库图像块嵌入向量的序列通过所述ViT模型以得到所述多个备选档案库图像块上下文语义关联特征向量。
在上述基于人工智能的档案管理系统中,所述差异性编码模块,包括:优化因数计算单元,用于计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数;加权优化单元,用于以所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数作为权重,对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权以得到校正后待检测图像块上下文语义关联特征向量和校正后备选档案库图像块上下文语义关联特征向量;以及,余弦距离值计算单元,用于计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。
在上述基于人工智能的档案管理系统中,所述优化因数计算单元,用于:以如下优化公式计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数;其中,所述公式为:
其中表示所述待检测图像块上下文语义关联特征向量,表示所述备选档案库图像块上下文语义关联特征向量,为所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的逐位置关联得到的关联矩阵,和是所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量构成的高斯密度图的均值向量和逐位置方差矩阵,表示矩阵乘法,表示表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,表示所述第一关联-概率密度分布仿射映射因数,表示所述第二关联-概率密度分布仿射映射因数。
在上述基于人工智能的档案管理系统中,所述余弦距离值计算单元,用于:以如下距离公式来计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;其中,所述公式为:
其中分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量,分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量的各个位置的特征值,表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。
根据本申请的另一方面,提供了一种基于人工智能的档案管理方法,其包括:
获取待检测图片;
对所述待检测图片进行图像分块处理以得到待检测图像块的序列;
将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;
将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;
获取备选档案库图像;
对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;
分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于人工智能的档案管理方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于人工智能的档案管理方法。
与现有技术相比,本申请提供的一种基于人工智能的档案管理系统及方法,其通过采用基于深度学习的神经网络模型挖掘出检测图像和档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于人工智能的档案管理系统的场景示意图;
图2为根据本申请实施例的基于人工智能的档案管理系统的框图;
图3为根据本申请实施例的基于人工智能的档案管理系统的系统架构图;
图4为根据本申请实施例的基于人工智能的档案管理系统中参考图像全局语义关联模块的框图;
图5为根据本申请实施例的基于人工智能的档案管理系统中差异性编码模块的框图;
图6为根据本申请实施例的基于人工智能的档案管理方法的流程图;
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如前背景技术所言,目前档案的管理数字化支撑不足,档案的检索大部分仍通过人工方式进行,且档案数量繁多,需要投入大量的人力和时间,其规范性、完整性和适用性不能得到很好的保证。因此,期望一种优化的基于人工智能的档案管理系统。
相应地,考虑到对于电子档案中存在的图片文件,目前很难基于图片中的内容特征信息,通过以图搜图的方式对图片档案进行内容识别,以此来完成档案库中的图像检索。因此,在本申请的技术方案中,为了能够提高检测图像和档案库图像中的隐含差异性特征信息的表达能力,以提高以图搜图方式检索的精准度,期望对于所述检测图像和所述档案库图像进行深层的充分隐含特征表达。但是,考虑到由于图像中关于目标对象的隐含特征可能为小尺度的特征信息,并不能够基于传统的方式进行特征捕捉提取,造成对于图像特征识别检索的精准度较低。因此,在此过程中,难点在于如何充分地挖掘出所述检测图像和所述档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为挖掘所述检测图像和所述档案库图像的隐含差异性特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取待检测图片。接着,考虑到由于所述待检测图片中关于目标对象的隐含特征为小尺度的细微特征,为了能够提高所述待检测图片中关于目标对象特征的表达能力,以此来提高档案库图片检索的精准度,在本申请的技术方案中,对所述待检测图片进行图像分块处理以得到待检测图像块的序列。应可以理解,所述待检测图像块的序列中的各个待检测图像块的尺度相较于原图像被缩减,因此,所述待检测图片中关于小尺寸的目标对象隐含特征在所述各个待检测图像块中不再是小尺寸对象,以便于后续进行图像的特征匹配和差异性对比。
然后,将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列,特别地,这里,所述嵌入层通过可学习嵌入矩阵将所述待检测图像块的序列中各个待检测图像块线性投影为一维嵌入向量。嵌入化的实现过程是先分别将各个所述待检测图像块中所有像素位置的像素值排列为一维向量,然后使用全连接层对该一维向量进行全连接编码以实现嵌入化。
进一步地,考虑到由于所述待检测图像块的序列的各个待检测图像块都为图像数据,并且所述待检测图像块的序列的各个待检测图像块中关于目标对象的隐含特征信息间具有着关联关系,因此,使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述各个待检测图像块的特征挖掘,但是由于卷积运算的固有局限性,纯CNN的方法很难学习明确的全局和远程语义信息交互。因此,在本申请的技术方案中,将所述待检测图像块嵌入向量的序列通过ViT模型中进行编码,以提取出所述各个待检测图像块中关于目标对象的隐含上下文语义关联特征,从而得到多个待检测图像块上下文语义关联特征向量。应可以理解,ViT可以像Transformer一样直接通过自注意机制处理所述各个待检测图像块,以此来分别提取出所述各个待检测图像块中关于所述目标对象的隐含上下文语义关联特征信息。
为了能够实现以图搜图的档案库检索,需要进行待监测图片和备选档案库图像的差异性特征对比来评估两者图像的相似度,以此来完成以所述待检测图片到所述备选档案库图像的搜索方式。因此,在本申请的技术方案中,对于所述备选档案库图像,也将其进行相同的语义关联特征提取。也就是,具体地,对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量。应可以理解,这样,可以提取出所述备选档案库图像中的各个备选档案库图像块的关于目标对象的隐含上下文语义关联特征信息。
然后,分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值,以此来计算出所述待检测图片和所述备选档案库图像两者中的各个相对应的图像块中关于目标对象的差异性隐含特征分布信息,以此来对于两者图像的每个相对应的局部区域进行差异性特征对比检测,从而实现两者图像整体的关于目标对象特征的匹配度评估,以得到由多个余弦距离值组成的分类特征向量。接着,进一步将所述分类特征向量通过分类器中进行分类处理,以得到用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的分类结果。
也就是,在本申请的技术方案中,所述分类器的标签包括所述待检测图片和所述备选档案库图像之间的匹配度超过预定阈值(第一标签),以及,所述待检测图片和所述备选档案库图像之间的匹配度没有超过预定阈值,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2 之和为一。因此,所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的评估检测标签,因此,在得到所述分类结果后,可基于所述分类结果来准确地判断两者图像的匹配度,以进行准确地档案库中的图像检索。
特别地,在本申请的技术方案中,这里,在分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值时,如果能够提升所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的逐位置特征值粒度关联性,以及所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量整体相对于概率密度分布的向量粒度关联性,则可以提升计算得到的余弦距离值的准确性,从而提升所述余弦距离值组成的所述分类特征向量的分类结果的准确性。
为所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的逐位置关联得到的关联矩阵,和是所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量构成的高斯密度图的均值向量和协方差矩阵。
也就是,通过构造所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的关联特征空间和由高斯概率密度表示的概率密度分布空间,可以通过将所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量分别映射到关联特征空间和概率密度分布空间内的仿射单应性子空间中,来提取特征表示在关联特征域和概率密度分布域内的符合仿射单应性的表示,通过以所述关联-概率密度分布仿射映射因数值和分别对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权,就可以提升所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量相对于其特征值粒度的关联表示在概率密度分布上向量粒度的一致性。这样,就提升了所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值的准确性,从而提升了所述分类特征向量的分类结果的准确性。这样,能够对于两者图像的匹配度进行准确评估,进而提高档案库中的图像检索精准度。
基于此,本申请提出了一种基于人工智能的档案管理系统,其包括:检测图像采集模块,用于获取待检测图片;图像分块模块,用于对所述待检测图片进行图像分块处理以得到待检测图像块的序列;图像嵌入化模块,用于将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;检测图像全局语义关联模块,用于将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;参考图像采集模块,用于获取备选档案库图像;参考图像全局语义关联模块,用于对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;差异性编码模块,用于分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;以及,匹配检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
图1为根据本申请实施例的基于人工智能的档案管理系统的场景示意图。如图1所示,在该应用场景中。通过摄像头(例如,如图1中所示意的C)获取待检测图片,以及,获取备选档案库图像。接着,将上述图像输入至部署有用于基于人工智能的档案管理算法的服务器(例如,图1中的S)中,其中,所述服务器能够以所述基于人工智能的档案管理算法对上述输入的图像进行处理,以生成用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2为根据本申请实施例的基于人工智能的档案管理系统的框图。如图2所示,根据本申请实施例的基于人工智能的档案管理系统300,包括:检测图像采集模块310;图像分块模块320;图像嵌入化模块330;检测图像全局语义关联模块340;参考图像采集模块350;参考图像全局语义关联模块360;差异性编码模块370;以及,匹配检测模块380。
其中,所述检测图像采集模块310,用于获取待检测图片;所述图像分块模块320,用于对所述待检测图片进行图像分块处理以得到待检测图像块的序列;所述图像嵌入化模块330,用于将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;所述检测图像全局语义关联模块340,用于将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;所述参考图像采集模块350,用于获取备选档案库图像;所述参考图像全局语义关联模块360,用于对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;所述差异性编码模块370,用于分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;以及,所述匹配检测模块380,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
图3为根据本申请实施例的基于人工智能的档案管理系统的系统架构图。如图3所示,在该网络架构中,首先通过所述检测图像采集模块310获取待检测图片;接着,所述图像分块模块320对所述检测图像采集模块310获取的待检测图片进行图像分块处理以得到待检测图像块的序列;所述图像嵌入化模块330将所述图像分块模块320得到的待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;然后,所述检测图像全局语义关联模块340将所述图像嵌入化模块330得到的待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;所述参考图像采集模块350获取备选档案库图像;然后,所述参考图像全局语义关联模块360对所述参考图像采集模块350获取的备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;所述差异性编码模块370分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;进而,所述匹配检测模块380将所述差异性编码模块370计算所得的分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述检测图像采集模块310,用于获取待检测图片。应可以理解,对于电子档案中存在的图片文件来说,难以基于图片中的内容特征信息,通过以图搜图的方式对图片档案进行内容识别来完成图像的检索,因此,在本申请的技术档案中,为了能够提高检测图像和档案库图像中的隐含差异特征信息的表达能力,以此来提高图像检测的精准性,可通过基于对检测图像和档案库图像的隐含差异性特征分布信息对比,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而能够准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。因此,在本申请的一个具体示例中,首先,可通过摄像头来获取待检测图片,以及,从档案库中获取参考图片。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述图像分块模块320,用于对所述待检测图片进行图像分块处理以得到待检测图像块的序列。考虑到由于所述待检测图片中关于目标对象的隐含特征为小尺度的细微特征,为了能够提高所述待检测图片中关于目标对象特征的表达能力,以此来提高档案库图片检索的精准度,在本申请的技术方案中,对所述待检测图片进行图像分块处理以得到待检测图像块的序列。其中,所述待检测图像块的序列中的各个待检测图像块的尺度相较于原图像被缩减,因此,所述待检测图片中关于小尺寸的目标对象隐含特征在所述各个待检测图像块中不再是小尺寸对象,以便于后续进行图像的特征匹配和差异性对比。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述图像嵌入化模块330,用于将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列。将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列,特别地,这里,所述嵌入层通过可学习嵌入矩阵将所述待检测图像块的序列中各个待检测图像块线性投影为一维嵌入向量。嵌入化的实现过程是先分别将各个所述待检测图像块中所有像素位置的像素值排列为一维向量,然后使用全连接层对该一维向量进行全连接编码以实现嵌入化。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述检测图像全局语义关联模块340,用于将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量。考虑到由于所述待检测图像块的序列的各个待检测图像块都为图像数据,并且所述待检测图像块的序列的各个待检测图像块中关于目标对象的隐含特征信息间具有着关联关系,因此,使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述各个待检测图像块的特征挖掘,但是由于卷积运算的固有局限性,纯CNN的方法很难学习明确的全局和远程语义信息交互。因此,在本申请的技术方案中,将所述待检测图像块嵌入向量的序列通过ViT模型中进行编码,以提取出所述各个待检测图像块中关于目标对象的隐含上下文语义关联特征,从而得到多个待检测图像块上下文语义关联特征向量。应可以理解,ViT可以像Transformer一样直接通过自注意机制处理所述各个待检测图像块,以此来分别提取出所述各个待检测图像块中关于所述目标对象的隐含上下文语义关联特征信息。更具体地,在本申请的一个具体示例中,使用所述ViT模型的转换器对所述待检测图像块嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义待检测图像块特征向量;以及,将所述多个全局上下文语义待检测图像块特征向量进行级联以得到所述多个待检测图像块上下文语义关联特征向量。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述参考图像采集模块350,用于获取备选档案库图像。为了能够实现以图搜图的档案库检索,需要进行待监测图片和备选档案库图像的差异性特征对比来评估两者图像的相似度,以此来完成以所述待检测图片到所述备选档案库图像的搜索方式。因此,在本申请的技术方案中,还需获取所述备选档案库图像。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述参考图像全局语义关联模块360,用于对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量。也就是,在本申请的技术方案中,对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量。应可以理解,这样,可以提取出所述备选档案库图像中的各个备选档案库图像块的关于目标对象的隐含上下文语义关联特征信息。
图4为根据本申请实施例的基于人工智能的档案管理系统中参考图像全局语义关联模块的框图。如图4所示,所述参考图像全局语义关联模块360,包括:档案库图像分块单元361,用于对所述备选档案库图像进行图像分块处理以得到备选档案库图像块的序列;档案库图像嵌入编码单元362,用于将所述备选档案库图像块的序列输入所述嵌入层以得到备选档案库图像块嵌入向量的序列;以及,档案库图像全局关联编码模块363,用于将所述备选档案库图像块嵌入向量的序列通过所述ViT模型以得到所述多个备选档案库图像块上下文语义关联特征向量。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述差异性编码模块370,用于分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量。也就是,计算所述每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值,以此来计算出所述待检测图片和所述备选档案库图像两者中的各个相对应的图像块中关于目标对象的差异性隐含特征分布信息,以此来对于两者图像的每个相对应的局部区域进行差异性特征对比检测,从而实现两者图像整体的关于目标对象特征的匹配度评估,以得到由多个余弦距离值组成的分类特征向量。特别地,在本申请的技术方案中,这里,在分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值时,如果能够提升所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的逐位置特征值粒度关联性,以及所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量整体相对于概率密度分布的向量粒度关联性,则可以提升计算得到的余弦距离值的准确性,从而提升所述余弦距离值组成的所述分类特征向量的分类结果的准确性。因此,本申请的申请人对每组所述待检测图像块上下文语义关联特征向量,例如记为和所述备选档案库图像块上下文语义关联特征向量,例如记为,计算其关联-概率密度分布仿射映射因数,表示为:
其中表示所述待检测图像块上下文语义关联特征向量,表示所述备选档案库图像块上下文语义关联特征向量,为所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的逐位置关联得到的关联矩阵,和是所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量构成的高斯密度图的均值向量和逐位置方差矩阵,表示矩阵乘法,表示表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,表示所述第一关联-概率密度分布仿射映射因数,表示所述第二关联-概率密度分布仿射映射因数。也就是,通过构造所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的关联特征空间和由高斯概率密度表示的概率密度分布空间,可以通过将所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量分别映射到关联特征空间和概率密度分布空间内的仿射单应性子空间中,来提取特征表示在关联特征域和概率密度分布域内的符合仿射单应性的表示,通过以所述关联-概率密度分布仿射映射因数值和分别对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权,就可以提升所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量相对于其特征值粒度的关联表示在概率密度分布上向量粒度的一致性。这样,就提升了所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值的准确性,从而提升了所述分类特征向量的分类结果的准确性。这样,能够对于两者图像的匹配度进行准确评估,进而提高档案库中的图像检索精准度。
图5为根据本申请实施例的基于人工智能的档案管理系统中差异性编码模块的框图。如图5所示,所述差异性编码模块370,包括:优化因数计算单元371,用于计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数;加权优化单元372,用于以所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数作为权重,对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权以得到校正后待检测图像块上下文语义关联特征向量和校正后备选档案库图像块上下文语义关联特征向量;以及,余弦距离值计算单元373,用于计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。其中,所述余弦距离值计算单元373,包括:以如下距离公式来计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;其中,所述公式为:
其中分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量,分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量的各个位置的特征值,表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。
具体地,在所述基于人工智能的档案管理系统300的运行过程中,所述匹配检测模块380,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。也就是,在本申请的技术方案中,将所述分类特征向量通过分类器以得到用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的分类结果,具体地,使用所述分类器以如下公式对所述分类特征向量进行处理以获得分类结果,其中,所述公式为:
,其中,到为权重矩阵,到为偏置向量,为分类特征向量。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述分类特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。在本申请的技术方案中,所述分类器的标签包括所述待检测图片和所述备选档案库图像之间的匹配度超过预定阈值(第一标签),以及,所述待检测图片和所述备选档案库图像之间的匹配度没有超过预定阈值,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2 之和为一。因此,所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值的评估检测标签,因此,在得到所述分类结果后,可基于所述分类结果来准确地判断两者图像的匹配度,以进行准确地档案库中的图像检索。
综上,根据本申请实施例的基于人工智能的档案管理系统300被阐明,其通过采用基于深度学习的神经网络模型挖掘出检测图像和档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
如上所述,根据本申请实施例的基于人工智能的档案管理系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的基于人工智能的档案管理系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于人工智能的档案管理系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于人工智能的档案管理系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于人工智能的档案管理系统300与该终端设备也可以是分立的设备,并且该基于人工智能的档案管理系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图6为根据本申请实施例的基于人工智能的档案管理方法的流程图。如图6所示,根据本申请实施例的基于人工智能的档案管理方法,包括步骤:S110,获取待检测图片;S120,对所述待检测图片进行图像分块处理以得到待检测图像块的序列;S130,将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;S140,将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;S150,获取备选档案库图像;S160,对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;S170,分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;以及,S180,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值。
在一个示例中,在上述基于人工智能的档案管理方法中,所述步骤S140,包括:使用所述ViT模型的转换器对所述待检测图像块嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义待检测图像块特征向量;以及,将所述多个全局上下文语义待检测图像块特征向量进行级联以得到所述多个待检测图像块上下文语义关联特征向量。
在一个示例中,在上述基于人工智能的档案管理方法中,所述步骤S160,包括:对所述备选档案库图像进行图像分块处理以得到备选档案库图像块的序列;将所述备选档案库图像块的序列输入所述嵌入层以得到备选档案库图像块嵌入向量的序列;以及,将所述备选档案库图像块嵌入向量的序列通过所述ViT模型以得到所述多个备选档案库图像块上下文语义关联特征向量。
在一个示例中,在上述基于人工智能的档案管理方法中,所述步骤S170,包括:计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数;以所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数作为权重,对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权以得到校正后待检测图像块上下文语义关联特征向量和校正后备选档案库图像块上下文语义关联特征向量;以及,计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。其中,计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数,包括:以如下优化公式计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数;其中,所述公式为:
其中表示所述待检测图像块上下文语义关联特征向量,表示所述备选档案库图像块上下文语义关联特征向量,为所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的逐位置关联得到的关联矩阵,和是所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量构成的高斯密度图的均值向量和逐位置方差矩阵,表示矩阵乘法,表示表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,表示所述第一关联-概率密度分布仿射映射因数,表示所述第二关联-概率密度分布仿射映射因数;以及,计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值,包括:以如下距离公式来计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;其中,所述公式为:
其中分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量,分别表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量的各个位置的特征值,表示所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值。
在一个示例中,在上述基于人工智能的档案管理方法中,所述步骤S180,包括:使用所述分类器以如下公式对所述分类特征向量进行处理以获得分类结果,其中,所述公式为:,其中,到为权重矩阵,到为偏置向量,为分类特征向量。
综上,根据本申请实施例的基于人工智能的档案管理方法被阐明,其通过采用基于深度学习的神经网络模型挖掘出检测图像和档案库图像的隐含差异性特征分布信息,以此来对于两者图像中关于目标对象的隐含差异性特征进行充分精准地表达,进而准确地判断两者图像的匹配度,以提高档案库中的图像检索精准度。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于人工智能的档案管理系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如待检测图像块上下文语义关联特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的基于人工智能的档案管理方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的基于人工智能的档案管理方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (8)
1.一种基于人工智能的档案管理系统,其特征在于,包括:
检测图像采集模块,用于获取待检测图片;
图像分块模块,用于对所述待检测图片进行图像分块处理以得到待检测图像块的序列;
图像嵌入化模块,用于将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;
检测图像全局语义关联模块,用于将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;
参考图像采集模块,用于获取备选档案库图像;
参考图像全局语义关联模块,用于对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;
差异性编码模块,用于分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;
以及,匹配检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值;
所述差异性编码模块,包括:
优化因数计算单元,用于计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数;
加权优化单元,用于以所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数作为权重,对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权以得到校正后待检测图像块上下文语义关联特征向量和校正后备选档案库图像块上下文语义关联特征向量;
以及,余弦距离值计算单元,用于计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;
所述优化因数计算单元,用于:以如下优化公式计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数;
其中,所述公式为:
2.根据权利要求1所述的基于人工智能的档案管理系统,其特征在于,所述检测图像全局语义关联模块,包括:
上下文编码单元,用于使用所述ViT模型的转换器对所述待检测图像块嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义待检测图像块特征向量;
以及,级联单元,用于将所述多个全局上下文语义待检测图像块特征向量进行级联以得到所述多个待检测图像块上下文语义关联特征向量。
3.根据权利要求2所述的基于人工智能的档案管理系统,其特征在于,所述参考图像全局语义关联模块,包括:
档案库图像分块单元,用于对所述备选档案库图像进行图像分块处理以得到备选档案库图像块的序列;
档案库图像嵌入编码单元,用于将所述备选档案库图像块的序列输入所述嵌入层以得到备选档案库图像块嵌入向量的序列;
以及,档案库图像全局关联编码模块,用于将所述备选档案库图像块嵌入向量的序列通过所述ViT模型以得到所述多个备选档案库图像块上下文语义关联特征向量。
4.根据权利要求3所述的基于人工智能的档案管理系统,其特征在于,所述余弦距离值计算单元,用于:以如下距离公式来计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;
其中,所述公式为:
6.一种基于人工智能的档案管理方法,其特征在于,包括:
获取待检测图片;
对所述待检测图片进行图像分块处理以得到待检测图像块的序列;
将所述待检测图像块的序列输入嵌入层以得到待检测图像块嵌入向量的序列;
将所述待检测图像块嵌入向量的序列通过ViT模型以得到多个待检测图像块上下文语义关联特征向量;
获取备选档案库图像;
对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量;
分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量;
以及,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待检测图片和所述备选档案库图像之间的匹配度是否超过预定阈值;
所述分别计算每组对应的所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量之间的余弦距离值以得到由多个余弦距离值组成的分类特征向量,包括:
计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到第一关联-概率密度分布仿射映射因数和第二关联-概率密度分布仿射映射因数;
以所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数作为权重,对所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量进行加权以得到校正后待检测图像块上下文语义关联特征向量和校正后备选档案库图像块上下文语义关联特征向量;
以及,计算所述校正后待检测图像块上下文语义关联特征向量和所述校正后备选档案库图像块上下文语义关联特征向量之间的所述余弦距离值;
以如下优化公式计算所述待检测图像块上下文语义关联特征向量和所述备选档案库图像块上下文语义关联特征向量的关联-概率密度分布仿射映射因数以得到所述第一关联-概率密度分布仿射映射因数和所述第二关联-概率密度分布仿射映射因数;
其中,所述公式为:
7.根据权利要求6所述的一种基于人工智能的档案管理方法,其特征在于,对所述备选档案库图像进行图像分块处理后通过所述嵌入层和所述ViT模型以得到多个备选档案库图像块上下文语义关联特征向量,包括:
对所述备选档案库图像进行图像分块处理以得到备选档案库图像块的序列;
将所述备选档案库图像块的序列输入所述嵌入层以得到备选档案库图像块嵌入向量的序列;
以及,将所述备选档案库图像块嵌入向量的序列通过所述ViT模型以得到所述多个备选档案库图像块上下文语义关联特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310373916.0A CN116089648B (zh) | 2023-04-10 | 2023-04-10 | 基于人工智能的档案管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310373916.0A CN116089648B (zh) | 2023-04-10 | 2023-04-10 | 基于人工智能的档案管理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116089648A true CN116089648A (zh) | 2023-05-09 |
CN116089648B CN116089648B (zh) | 2023-06-06 |
Family
ID=86202958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310373916.0A Active CN116089648B (zh) | 2023-04-10 | 2023-04-10 | 基于人工智能的档案管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089648B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342964A (zh) * | 2023-05-24 | 2023-06-27 | 杭州有朋网络技术有限公司 | 针对于电子商务平台的图片宣传的风控系统及其方法 |
CN116954113A (zh) * | 2023-06-05 | 2023-10-27 | 深圳市机器时代科技有限公司 | 智能机器人驱动传感智能控制系统及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573711A (zh) * | 2014-12-22 | 2015-04-29 | 上海交通大学 | 基于文本-物体-场景关系的物体和场景的图像理解方法 |
CN114880514A (zh) * | 2022-07-05 | 2022-08-09 | 人民中科(北京)智能技术有限公司 | 图像检索方法、装置以及存储介质 |
US20220383630A1 (en) * | 2021-05-28 | 2022-12-01 | Google Llc | Training large-scale vision transformer neural networks |
CN115630751A (zh) * | 2022-11-14 | 2023-01-20 | 杭州邬萍科技有限公司 | 基于大数据的风险预测系统及其预测方法 |
CN115860271A (zh) * | 2023-02-21 | 2023-03-28 | 杭州唛扑网络科技有限公司 | 艺术设计用方案管理系统及其方法 |
CN115936586A (zh) * | 2023-02-27 | 2023-04-07 | 云南远信科技有限公司 | 一种基于自动化收集技术的信息化系统检测方法 |
-
2023
- 2023-04-10 CN CN202310373916.0A patent/CN116089648B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573711A (zh) * | 2014-12-22 | 2015-04-29 | 上海交通大学 | 基于文本-物体-场景关系的物体和场景的图像理解方法 |
US20220383630A1 (en) * | 2021-05-28 | 2022-12-01 | Google Llc | Training large-scale vision transformer neural networks |
CN114880514A (zh) * | 2022-07-05 | 2022-08-09 | 人民中科(北京)智能技术有限公司 | 图像检索方法、装置以及存储介质 |
CN115630751A (zh) * | 2022-11-14 | 2023-01-20 | 杭州邬萍科技有限公司 | 基于大数据的风险预测系统及其预测方法 |
CN115860271A (zh) * | 2023-02-21 | 2023-03-28 | 杭州唛扑网络科技有限公司 | 艺术设计用方案管理系统及其方法 |
CN115936586A (zh) * | 2023-02-27 | 2023-04-07 | 云南远信科技有限公司 | 一种基于自动化收集技术的信息化系统检测方法 |
Non-Patent Citations (6)
Title |
---|
HAO DING等: "Fast range profile simulation using shooting and bouncing ray technique under arbitrary radar signal", 《ISAPE2012》, pages 1008 - 1011 * |
KUN YUAN等: "Incorporating Convolution Designs into Visual Transformers", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 559 - 568 * |
党小刚等: "转台旋转轴的偏角误差检测与分析", 《西安工业大学学报》, vol. 39, no. 1, pages 21 - 26 * |
朱娜娜: "图像自动标注与检索技术研究", 《中国优秀硕士学位论文全文数据库》, pages 138 - 1343 * |
李佳盈等: "基于ViT的细粒度图像分类", 《计算机工程与设计》, vol. 44, no. 3, pages 916 - 921 * |
赵曦明: "火箭结构动力学建模及模态偏差分析", 《中国优秀硕士学位论文全文数据库》, pages 031 - 1575 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342964A (zh) * | 2023-05-24 | 2023-06-27 | 杭州有朋网络技术有限公司 | 针对于电子商务平台的图片宣传的风控系统及其方法 |
CN116342964B (zh) * | 2023-05-24 | 2023-08-01 | 杭州有朋网络技术有限公司 | 针对于电子商务平台的图片宣传的风控系统及其方法 |
CN116954113A (zh) * | 2023-06-05 | 2023-10-27 | 深圳市机器时代科技有限公司 | 智能机器人驱动传感智能控制系统及其方法 |
CN116954113B (zh) * | 2023-06-05 | 2024-02-09 | 深圳市机器时代科技有限公司 | 智能机器人驱动传感智能控制系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116089648B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115203380B (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
Palm et al. | Attend, copy, parse end-to-end information extraction from documents | |
Zhao et al. | Hyperspectral anomaly detection based on stacked denoising autoencoders | |
CN116010713A (zh) | 基于云计算的创新创业平台服务数据处理方法及系统 | |
CN116089648B (zh) | 基于人工智能的档案管理系统及方法 | |
CN115860271B (zh) | 艺术设计用方案管理系统及其方法 | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
CN113221918B (zh) | 目标检测方法、目标检测模型的训练方法及装置 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN116304307A (zh) | 一种图文跨模态检索网络训练方法、应用方法及电子设备 | |
CN114898266B (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
CN116309580A (zh) | 基于磁应力的油气管道腐蚀检测方法 | |
Wu et al. | Variant semiboost for improving human detection in application scenes | |
CN116467485B (zh) | 一种视频图像检索构建系统及其方法 | |
CN116993446A (zh) | 电子商务用物流配送管理系统及其方法 | |
CN116311276A (zh) | 文档图像矫正方法、装置、电子设备及可读介质 | |
CN114328884B (zh) | 一种图文去重方法及装置 | |
KR20230097540A (ko) | 물체 경계 예측 불확실성 및 강조 신경망을 이용한 물체 검출 장치 및 방법 | |
Zhou et al. | Ship detection in optical satellite images based on sparse representation | |
CN115700828A (zh) | 表格元素识别方法、装置、计算机设备和存储介质 | |
Santhanalakshmi et al. | A custom deep convolutional neural network cdnn-(with yolo v3 based newly constructed backbone) for multiple object detection | |
Xiang et al. | Discriminative boosted forest with convolutional neural network-based patch descriptor for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |