CN114117095A

CN114117095A - 一种基于图像识别的声像档案著录方法及装置

Info

Publication number: CN114117095A
Application number: CN202210082816.8A
Authority: CN
Inventors: 戴志惠
Original assignee: Guangdong Tuyou Software Technology Co ltd
Current assignee: Guangdong Tuyou Software Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-01

Abstract

本申请提供了一种基于图像识别的声像档案著录方法及装置。所述基于图像识别的声像档案著录方法包括：获取待归类图片信息；根据所述待归类图片信息获取图片特征信息以及基本属性信息；识别所述图片特征信息，从而获取图像基础信息；根据所述图像基础信息和/或基本属性信息生成著录信息。本申的基于图像识别的声像档案著录方法对档案管理部门针对声像档案整理工作提供新技术手段，通过图像识别的方式获取图像中的信息，特别是能解决存量声像档案补充著录难题，也为档案信息精准检索与利用提供了新方法，减少对拍摄者依赖，降低了人力成本，有效提高档案管理工作水平。

Description

一种基于图像识别的声像档案著录方法及装置

技术领域

本申请属于档案著录技术领域，特别涉及一种基于图像识别的声像档案著录方法及基于图像识别的声像档案著录装置。

背景技术

国家档案局先后制定了《照片类电子档案元数据方案》（DAT 54-2014）、《录音录像类电子档案元数据方案》（DAT 63-2017），对各类声像档案著录工作涉及的档案实体元基本数据项（如档号、主题、主要人物、地点、时间、拍摄者）提出具体著录要求，同时还记录电子档案自身的相关电子文件主体信息、档案内容场景特征信息记录。

目前档案管理部门在进行声像类（含照片、录间、录像）档案采集、整理工作时，主要由声像档案拍摄者亲自著录完成，主要对档案内容的人物、时间、地点、拍摄者及事由进行著录，如果在档案产生时拍摄者未能及时完成著录或著录信息不完整，后期整理工作人员或档案进馆后工作人员由于对档案内容不知情，是无法完成档案信息著录工作，这样必将与《数码照片归档与管理规范》（DAT 50-2014）及《录音录像档案管理规范》（DAT 78-2019）等规定不符，严重影响档案归档及后期利用检索等工作。

近几年各级档案部门实施数字档案馆（室）建设，大量纸质照片、录音录像带档案得到数字化处理，由于年久失传或找不到经办人等原因，大量珍贵档案得不到有效整理著录，也就无法进行档案分类、标注和著录工作，严重影响了档案利用服务。

声像档案经常用于记录工作事务，但实际工作表明，由于前期著录欠完整，导致查档时就出现查找不到档案困境。

声像档案整理著录内容主要包括两类：一是档案内容五要素信息，包括主题、人物、时间、地点、拍摄者；二是档案场景分类信息，该类信息无固定项是依具体图像内容而定，其用途是根据档案图像内容进行分类标著，可实现更精细的检索与分类服务。

发明内容

为了解决上述技术问题至少之一，本申请提供了一种基于图像识别的声像档案著录方法。

本申请第一方面提供了一种基于图像识别的声像档案著录方法，所述基于图像识别的声像档案著录方法包括：

获取待归类图片信息；

根据所述待归类图片信息获取图片特征信息以及基本属性信息；

识别所述图片特征信息，从而获取图像基础信息；

根据所述图像基础信息和/或基本属性信息生成著录信息。

可选地，所述图像基础信息包括人脸信息；

所述根据所述图像基础信息和/或基本属性信息生成著录信息进一步包括：

获取预设人脸数据库，所述人脸数据库中包括至少一个预设人脸信息以及每个预设人脸信息所对应的人物基础信息；

判断所述人脸信息是否与所述人脸数据库中的预设人脸信息相似，若有，则

获取该预设人脸信息所对应的人物基础信息作为著录信息。

可选地，所述图像基础信息包括背景信息；

获取场景分类器；

提取所述背景信息的背景特征；

将所述背景特征输入至所述场景分类器中，从而获取场景信息，将所述场景信息作为著录信息。

可选地，所述基本属性信息包括图像创建时间信息、拍摄地点信息、哈希码值以及操作用户名中的至少一个信息。

可选地，所述根据所述图像基础信息和/或基本属性信息生成著录信息进一步包括：

根据所述图像基础信息获取所述场景信息；

根据所述人脸信息获取所述的人物基础信息；

根据所述场景信息、人物基础信息以及基本属性信息生成标题信息。

可选地，所述根据所述场景信息、人物基础信息以及基本属性信息生成标题信息包括：

获取标题生成规则；

根据所述标题生成规则对所述场景信息、人物基础信息以及基本属性信息进行处理，从而生成标题信息；

所述人物基础信息包括人物姓名、职位、性别。

可选地，所述根据所述标题生成规则对所述场景信息、人物基础信息以及基本属性信息进行处理，从而生成标题信息包括：

获取所述基本属性信息的拍摄地点信息；

获取所述人物基础信息的姓名信息和/或职务信息；

获取预设行为数据库，所述预设行为数据库包括至少一个预设场景信息以及每个预设场景信息所对应行为信息；

获取与所述场景信息相同的预设场景信息所对应的行为信息；

将所述拍摄地点信息、姓名信息和/或职务信息以及所述对应行为信息进行组合，从而形成标题信息。

本申请还提供了一种基于图像识别的声像档案著录装置，所述基于图像识别的声像档案著录装置包括：

待归类图片信息获取模块，所述待归类图片信息获取模块用于获取待归类图片信息；

特征及基本属性获取模块，所述特征及基本属性获取模块用于根据所述待归类图片信息获取图片特征信息以及基本属性信息；

图像基础信息获取模块，所述图像基础信息获取模块用于识别所述图片特征信息，从而获取图像基础信息；

著录信息生成模块，所述著录信息生成模块用于根据所述图像基础信息和/或基本属性信息生成著录信息。

本申请还提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序用于实现如上所述的基于图像识别的声像档案著录方法。

本申请还提供了一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如上所述的基于图像识别的声像档案著录方法。

本申的基于图像识别的声像档案著录方法对档案管理部门针对声像档案整理工作提供新技术手段，通过图像识别的方式获取图像中的信息，特别是能解决存量声像档案补充著录难题，也为档案信息精准检索与利用提供了新方法，减少对拍摄者依赖，降低了人力成本，有效提高档案管理工作水平。

附图说明

图1是本申请基于图像识别的声像档案著录方法的一优选实施例的流程图；

图2是为适于用来实现本申请实施方式的终端或服务器的计算机设备的结构示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

如图1所示的基于图像识别的声像档案著录方法包括：

步骤1：获取待归类图片信息；

步骤2：根据待归类图片信息获取图片特征信息以及基本属性信息；

步骤3：识别图片特征信息，从而获取图像基础信息；

步骤4：根据图像基础信息和/或基本属性信息生成著录信息。

在本实施例中，图像基础信息包括人脸信息；

根据图像基础信息和/或基本属性信息生成著录信息进一步包括：

获取预设人脸数据库，人脸数据库中包括至少一个预设人脸信息以及每个预设人脸信息所对应的人物基础信息；

获取该预设人脸信息所对应的人物基础信息作为著录信息。

在本实施例中，人物基础信息包括人物姓名、职位、性别等。

在本实施例中，图像基础信息进一步包括背景信息；

根据所述图像基础信息和/或基本属性信息生成著录信息进一步包括：

获取场景分类器；

提取背景信息的背景特征；

将背景特征输入至所述场景分类器中，从而获取场景信息，将场景信息作为著录信息。

在本实施例中，基本属性信息包括图像创建时间信息、拍摄地点信息、哈希码值以及操作用户名中的至少一个信息。

在本实施例中，根据所述图像基础信息和/或基本属性信息生成著录信息进一步包括：

根据所述图像基础信息获取所述场景信息；

根据所述人脸信息获取所述的人物基础信息；

在一个实施例中，著录信息包括主题、主要人物、时间、地点、拍摄者，可以理解的是，由于上述的图像基础信息、基本属性信息在一些情况下可能不全，因此，著录信息可以缺少某些项目，例如，由于没有图片的拍摄地点，导致无法得到地点信息，又或者由于没有拍摄时间，所以无法得到时间信息等，此时，可以通过人为赋值的情况进行赋值，也可以进行缺省赋值等。

在本实施例中，根据场景信息、人物基础信息以及基本属性信息生成标题信息包括：

获取标题生成规则；

根据标题生成规则对所述场景信息、人物基础信息以及基本属性信息进行处理，从而生成标题信息。

在本实施例中，根据所述标题生成规则对所述场景信息、人物基础信息以及基本属性信息进行处理，从而生成标题信息包括：

获取基本属性信息的拍摄地点信息；

获取人物基础信息的姓名信息和/或职务信息；

获取预设行为数据库，预设行为数据库包括至少一个预设场景信息以及每个预设场景信息所对应行为信息；

获取与场景信息相同的预设场景信息所对应的行为信息；

将拍摄地点信息、姓名信息和/或职务信息以及所述对应行为信息进行组合，从而形成标题信息。

采用这种方式，可以自动获取到准确的标题信息，并且该标题信息可以比较完整的介绍出出场的主要人物和/或职务，以及在什么地方等，让观看者一目了然。

下面以举例的方式对本申请进行进一步阐述，可以理解的是，该举例并不构成对本申请的任何限制。

在进行本申请的基于图像识别的声像档案著录方法之前，首先需要进行分类器的学习，包括人脸图像的识别以及场景图像的识别，具体而言如下：

通过图像特征模型抽取及分类模型学习技术，为会议、讲话、接见、就餐、集体照、个人照、蓝天、白云、动物、植物、鲜花、标志性建筑物、户外、室内会议、讲话、接见、就餐、学习等常用场景进行规则识别学习，将其图像特征进行提取、去噪、平滑、变换等处理，最终完成场景图像重要特征描述并存储到“场景特征”库中。

将经常出现在档案内容中的人物头像进行收集，利用人脸识别模块对这些头像的人脸特征信息进行扫描、分析、提取，并保存到预设人脸数据库中。

在本实施例中，基本属性信息也通过待归类图片信息获取，具体而言，读取图像文件自身属性内容，如创建时间、拍摄地点GPS、哈希码、操作用户名等。

在本实施例中，依据《录音录像类电子档案元数据方案》（DAT 63-2017）、《照片类电子档案元数据方案》（DAT 54-2014）规定，制定档案著录信息项填充组合规则。

在本实施例中，著录信息包括人物基础信息，人物基础信息由图像识别模块对档案内容进行扫描、分析、提取操作，将所提取的人脸特征与人脸数据库的人脸信息进行比对，如有匹配项则读取对应的人物基础信息，其中，人物基础信息包括人物姓名、职位等，将这些信息进行著录。

在本实施例中，著录信息包括地点信息，地点信息可以通过如下两种方式获取：

1、读取待归类图片信息的基本属性信息所包含的GPS信息进行填充著录。

2、获取场景信息，当图像识别到的是常见场景时（如学校大门、学校礼堂、图书馆等），以场景信息作为地点信息填充著录。

在本实施例中，著录信息包括标题信息，标题信息根据事先设置的主题生成规则（如：XX（主要人物）到XX（地点）XX参观或学习（凭场景特征推导）），其中，主要人物即人脸数据库中包括的人脸即为主要人物，地点通过上述的方式获取，行为信息可以是参观、学习等，通过场景推倒获得。

在本实施例中，著录信息包括场景信息，场景信息通过上述的场景识别方法获取即可。

当获取到上述的各个著录信息后，通过著录规则，将各个著录信息填充至预设的著录信息表格中即可，并进行保存，从而实现基于图像识别的声像档案著录工作。

在本实施例中，本申请具有一个档案库，档案库中包括各种人物以及每个人物名下的著录信息。当需要进行档案人物追加著录时，只需要将获取的图像进行识别，从而判断出该图像中的人物，并通过该图像获取图像基础信息、基本属性信息，继而通过图像基础信息、基本属性信息获取到著录信息，然后对相关人物的著录信息进行更新即可。

在本实施例中，在档案涉及人物职位职称发生变化时，该方法为档案著录信息更新提供了有效手段，工作人员只需在人物库中更新人物职位或职称内容，然后针地该人物涉及档案执行著录更新方法，即可批量完成相关档案著录更新处理。

采用本申请的基于图像识别的声像档案著录方法，整个操作过程不需要原来生产档案拍摄者参与即可完成，即整理人员可对档案产生活动内容不知情情况下，即可完成著录信息的操作，为解决存量声像档案快速地补充著录提供了有效办法。

本申请基于图像识别的声像档案自动化著录方法，对档案管理部门针对声像档案整理工作提供新技术手段，特别是能解决存量声像档案补充著录难题，也为档案信息精准检索与利用提供了新方法，减少对拍摄者依赖，降低了人力成本，有效提高档案管理工作水平。

实施例1：

需要将该人物的著录信息进行更新，首先，需要在人脸数据库中更新该人物的预设人脸信息（若已有该人物则不需要更新），其次，获取该预设人脸信息所对应的人物基础信息并进行更新，例如，其升职了，则将原有职位改为现在职位。

其次，获取待归类图片信息（可以理解的是，该待归类图片信息可以从单位的数据库中获取，可以通过人脸识别的方式遍历单位数据库中的所有照片，找到包括该人脸的图片作为待归类图片信息）。

最后，当获取该待归类图片信息后，通过本申请的基于图像识别的声像档案著录方法生成著录信息，继而将生成的著录信息上传并保存。

在本实施例中，1、人脸识别基于谷歌FaceNet和TensorFlow开源技术实现，通过调用CASIA 预训练模型对图像内容进行分析，完成人物对象识别、人脸信息提取工作，为后面人脸配对服务奠定数据基础。

2、将常用人员电子照片中的人物人脸信息进行提取，并以二进制流格式存储到数据库中，形成常用人物信息库。

3、将电子照片中的人物人脸信息进行提取，并以二进制流格式存储到数据库中，形成预设人脸数据库。

4、在人脸配对模块中，通过设置配对相似度值，将提取出的档案人脸信息库与预设人脸数据库中的信息进行相似度配对，检索配对成功的人物基础信息出来。

5、图像分类基于Faster R-CNN开源技术实现，通过Alexnet模型对图像内容进行分析，提取内容特征值，完成照片内容场景的分类标注，进一步丰富档案信息项提取。

6、通过读取照片电子文件属性中的创建时间、位置信息（手机照片有GPS信息）、拍摄者等信息提取，完成电子文件信息提取。

本申请还提供了一种基于图像识别的声像档案著录装置，所述基于图像识别的声像档案著录装置包括待归类图片信息获取模块、特征及基本属性获取模块、图像基础信息获取模块以及著录信息生成模块，待归类图片信息获取模块用于获取待归类图片信息；特征及基本属性获取模块用于根据所述待归类图片信息获取图片特征信息以及基本属性信息；图像基础信息获取模块用于识别所述图片特征信息，从而获取图像基础信息；著录信息生成模块用于根据图像基础信息和/或基本属性信息生成著录信息。

本申请还提供了一种计算机设备，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序用于实现基于图像识别的声像档案著录方法。

本申请还提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的基于图像识别的声像档案著录方法。

该计算机可读存储介质可以是上述实施方式中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时按上述方法对数据进行处理。

下面参考图2，其示出了适于用来实现本申请实施方式的计算机设备400的结构示意图。图2示出的计算机设备仅仅是一个示例，不应对本申请实施方式的功能和使用范围带来任何限制。

如图2所示，计算机设备400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有设备400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于图像识别的声像档案著录方法，其特征在于，所述基于图像识别的声像档案著录方法包括：

获取待归类图片信息；

识别所述图片特征信息，从而获取图像基础信息；

根据所述图像基础信息和/或基本属性信息生成著录信息。

2.如权利要求1所述的基于图像识别的声像档案著录方法，其特征在于，所述图像基础信息包括人脸信息；

获取该预设人脸信息所对应的人物基础信息作为著录信息。

3.如权利要求2所述的基于图像识别的声像档案著录方法，其特征在于，所述图像基础信息包括背景信息；

获取场景分类器；

提取所述背景信息的背景特征；

4.如权利要求3所述的基于图像识别的声像档案著录方法，其特征在于，所述基本属性信息包括图像创建时间信息、拍摄地点信息、哈希码值以及操作用户名中的至少一个信息。

5.如权利要求4所述的基于图像识别的声像档案著录方法，其特征在于，所述根据所述图像基础信息和/或基本属性信息生成著录信息进一步包括：

根据所述图像基础信息获取所述场景信息；

根据所述人脸信息获取所述的人物基础信息；

6.如权利要求5所述的基于图像识别的声像档案著录方法，其特征在于，所述根据所述场景信息、人物基础信息以及基本属性信息生成标题信息包括：

获取标题生成规则；

所述人物基础信息包括人物姓名、职位、性别。

7.如权利要求6所述的基于图像识别的声像档案著录方法，其特征在于，所述根据所述标题生成规则对所述场景信息、人物基础信息以及基本属性信息进行处理，从而生成标题信息包括：

获取所述基本属性信息的拍摄地点信息；

获取所述人物基础信息的姓名信息和/或职务信息；

将所述拍摄地点信息、姓名信息和/或职务信息以及所述行为信息进行组合，从而形成标题信息。

8.一种基于图像识别的声像档案著录装置，其特征在于，所述基于图像识别的声像档案著录装置包括：

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序用于实现如权利要求1-7中任意一项所述的基于图像识别的声像档案著录方法。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如权利要求1-7中任意一项所述的基于图像识别的声像档案著录方法。