CN114329132A - 一种档案要素补充采集系统 - Google Patents

一种档案要素补充采集系统 Download PDF

Info

Publication number
CN114329132A
CN114329132A CN202210244109.4A CN202210244109A CN114329132A CN 114329132 A CN114329132 A CN 114329132A CN 202210244109 A CN202210244109 A CN 202210244109A CN 114329132 A CN114329132 A CN 114329132A
Authority
CN
China
Prior art keywords
file
metadata
information
audio
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210244109.4A
Other languages
English (en)
Other versions
CN114329132B (zh
Inventor
何鹏飞
陈欣
瞿欢
姬辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yundang Information Technology Co ltd
Original Assignee
Nanjing Yundang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yundang Information Technology Co ltd filed Critical Nanjing Yundang Information Technology Co ltd
Priority to CN202210244109.4A priority Critical patent/CN114329132B/zh
Publication of CN114329132A publication Critical patent/CN114329132A/zh
Application granted granted Critical
Publication of CN114329132B publication Critical patent/CN114329132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种档案要素补充采集系统,该系统包括以下组成:文件检测与配置模块,用于对不同的电子原文类型进行检测,并创建不同的适配器;适配器模块,用于提供文件的基础信息提取及内容解析;元数据采集引擎模块,用于根据元数据项抽取、合并相关数据,并生成正式的元数据;元数据存储模块,用于实现元数据的入库存储。通过利用电子档案代替原件使用,有效延长原件的保存时间,提高办公效率,电子档案管理使资料能及时归档,并尽快提供利用,从而提高办公效率。电子档案提高经济效益,数字化管理档案使传统的以纸质为载体的档案信息对象转为机读档案,不仅节约了保管费用,节省了占地空间,而且查阅方便迅速,避免了造成纸张和人员浪费。

Description

一种档案要素补充采集系统
技术领域
本发明涉及数据采集技术领域,具体来说,涉及一种档案要素补充采集系统。
背景技术
目前我国已经全面进入到大数据时代,与此同时信息传播科技也得到发展,在这双方面影响下,我国档案系统也逐渐向数字化发展。档案数字化是档案事业发展的基本方向,数字档案馆的建设,电子档案管理系统的普及应用实现了档案的多样化发展。
信息时代,人们对数据的利用提出了更高的要求。现阶段电子档案主要是对原有纸质档案和声像档案的数字化加工处理,往往仅限于著录一些简单的题名、责任者、文件格式等条目信息,对声像档案只是从传统载体转换为电子载体,无法涵盖档案的主题内容,人物信息,音视频档案的核心要素,更不用说全部信息内容,无法实现真正意义上的数据化。
用户通过计算机检索电子档案时,仅能看到有限的著录信息,要想真正了解内容则需要打开电子原文,如音视频档案逐一观看、收听,这无疑给音视频档案的采集、整理、著录和利用工作造成了极大不便。
此外,在现有档案业务流程中,档案元数据的获取依赖上流的给予,业务相关的元数据准确性,可靠性较高,但涉及到电子文件实体元数据,如照片类元数据中内容相关的人物、地点、背景,图像参数相关的水平分辨率、垂直分辨率、图像高宽、色彩空间、YCbCr分量(YCBCR或是Y'CBCR,是色彩空间的一种,通常会用于影片中的影像连续处理,或是数字摄影系统中。Y'为颜色的亮度(luma)成分、而CB和CR则为蓝色和红色的浓度偏移量成份)、压缩率、压缩方案,拍摄设备相关的设备制造商、设备型号、感光器、软件信息等,全球定位信息相关的全球定位信息系统版本、经纬度、基准、海拔、方向基准等等;视频元数据中视频参数相关的视频编码标准、色彩空间、分辨率、帧率、视频比特率等等元数据项一般都会缺失,而随着电子档案的进一步分析利用的需求,这些元数据项越来越重要。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种档案要素补充采集系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种档案要素补充采集系统,该系统包括以下组成:
文件检测与配置模块,用于对不同的电子原文类型进行检测,并创建不同的适配器;
适配器模块,用于提供文件的基础信息提取及内容解析;
元数据采集引擎模块,用于根据元数据项抽取、合并相关数据,并生成正式的元数据;
元数据存储模块,用于实现元数据的入库存储。
进一步的,所述电子原文类型包括便携式文档格式,图像格式,音频格式,视频格式,波音声音文件。
进一步的,所述元数据存储模块包括中间数据库与元数据库。
进一步的,所述文件检测与配置模块实现不同的电子原文类型检测,并创建不同的适配器,包括以下步骤:
筛选出一条元数据项存在缺失的档案数据;
判断所述档案数据是否存在电子原文,若不存在电子原文则停止检测,流程结束;
若存在电子原文则读取电子原文信息,并分析电子原文的格式,创建相应的适配器。
进一步的,所述适配器模块实现文件的基础信息提取及内容解析,包括以下步骤:
对不同电子原文类型的文件进行解析,获取实体基础要素;
判断电子原文中是否存在音频信息,若存在则将音频信息转换成文字,并存入所述中间数据库;若不存在音频信息则进行下一步骤;
判断电子原文中是否存在图像信息,若存在则对图片进行人脸标注识别以及图片场景识别,并存入所述中间数据库;若不存在图像信息则进行下一步骤;
判断电子原文中是否存在视频信息,若存在则抽取视频中的字幕信息,将视频主要帧转换为图片进行图片识别,结合字幕识别视频中的人物与场景信息,并存入所述中间数据库;若不存在视频信息则流程结束。
进一步的,当所述电子原文类型为音频格式文件时,所述音频格式文件的实体基础要素包括文件大小、音频时长及计算码率。
进一步的,当所述电子原文类型为图像格式文件时,所述对图像格式文件进行解析的方法为解析文件头部的可交换图像文件信息,且所述图像格式文件的实体基础要素包括宽度、高度、经纬度、水平分辨率、垂直分辨率、色彩空间分量、色彩空间及设备厂商。
进一步的,当所述电子原文类型为视频格式文件时,所述视频格式文件的实体基础要素包括时长、宽度、高度、视频编码、色彩空间、分辨率、帧率、音频比特率、音频编码标准、声道及音频采样率。
进一步的,当电子原文类型为非音频格式、非视频格式或非图像格式时,所述对图像格式文件进行解析的方法为分别解析文件中的图像、音频数据及视频数据,并重新构造相应的解析器进行解析。
进一步的,所述元数据存储模块实现元数据的入库存储的步骤包括:
读取解析完成后的档案数据;
将解析流程中各类元数据信息进行汇总与合并;
将综合档案信息和抽取的元数据信息数据进行清洗;
将清洗后的结果存入所述元数据库。
本发明的有益效果为:通过对不同格式的电子原文的解析,提取文件基础元数据项,照片、音视频内容项,补充原有元数据信息,为电子档案的进一步分析利用提供基础。抽取到电子原文内容并存入数据库后,文本信息相关的利用方式都能使用。照片类抽取到主题,人物,场景,地点信息后,可以通过文本搜索方式搜索人物照片档案,搜索相同地点照片,并进行主题聚类等分析,使用。同时视频类抽取到内容,人物,场景,地点,台词等内容后,可以通过文本搜索方式搜索包含人物相关视频档案,包含地点视频档案等。
通过利用电子档案代替原件使用,有效延长原件的保存时间,提高办公效率,电子档案管理使资料能及时归档,并尽快提供利用,从而提高办公效率。电子档案提高经济效益,数字化管理档案使传统的以纸质为载体的档案信息对象转为机读档案,不仅节约了保管费用,节省了占地空间,而且查阅方便迅速,避免了反复印制资料而造成的纸张和人员的浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种档案要素补充采集系统的系统框图;
图2是根据本发明实施例的一种档案要素补充采集系统中文件类型及适配器分类框图;
图3是根据本发明实施例的一种档案要素补充采集系统中元数据采集的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种档案要素补充采集系统。
现结合附图和具体实施方式对本发明进一步说明,如图1-图3所示,根据本发明实施例的档案要素补充采集系统,该系统包括以下组成:
文件检测与配置模块,用于对不同的电子原文类型进行检测,并创建不同的适配器;
其中,所述文件检测与配置模块实现不同的电子原文类型检测,并创建不同的适配器,包括以下步骤:
筛选出一条元数据项存在缺失的档案数据;
判断所述档案数据是否存在电子原文,若不存在电子原文则停止检测,流程结束;
若存在电子原文则读取电子原文信息,并分析电子原文的格式,创建相应的适配器。
如图2所示,所述电子原文类型包括便携式文档格式(pdf),ofd,图像格式(jpg),音频格式(mp3),视频格式(mp4),波音声音文件(wav)。
适配器模块,用于提供文件的基础信息提取及内容解析;
其中,所述适配器模块实现文件的基础信息提取及内容解析,包括以下步骤:
对不同电子原文类型的文件进行解析,获取实体基础要素;
判断电子原文中是否存在音频信息,若存在则将音频信息转换成文字,并存入所述中间数据库;若不存在音频信息则进行下一步骤;
判断电子原文中是否存在图像信息,若存在则对图片进行人脸标注识别以及图片场景识别,并存入所述中间数据库;若不存在图像信息则进行下一步骤;
判断电子原文中是否存在视频信息,若存在则抽取视频中的字幕信息,将视频主要帧转换为图片进行图片识别,结合字幕识别视频中的人物与场景信息,并存入所述中间数据库;若不存在视频信息则流程结束。
在一个实施例中,当所述电子原文类型为音频格式文件时,所述音频格式文件的实体基础要素包括文件大小、音频时长及计算码率。
在一个实施例中,当所述电子原文类型为图像格式文件时,所述对图像格式文件进行解析的方法为解析文件头部的可交换图像文件信息,且所述图像格式文件的实体基础要素包括宽度、高度、经纬度、水平分辨率、垂直分辨率、色彩空间(YCbCr)分量、色彩空间及设备厂商。
在一个实施例中,当所述电子原文类型为视频格式文件时,所述视频格式文件的实体基础要素包括时长、宽度、高度、视频编码、色彩空间、分辨率、帧率、音频比特率、音频编码标准、声道及音频采样率。
在一个实施例中,当电子原文类型为非音频格式、非视频格式或非图像格式时,所述对图像格式文件进行解析的方法为分别解析文件中的图像、音频数据及视频数据,并重新构造相应的解析器进行解析。
元数据采集引擎模块,用于根据元数据项抽取、合并相关数据,并生成正式的元数据;
元数据存储模块,用于实现元数据的入库存储。
其中,所述元数据存储模块包括中间数据库与元数据库。
此外,所述元数据存储模块实现元数据的入库存储的步骤包括:
读取解析完成后的档案数据;
将解析流程中各类元数据信息进行汇总与合并;
将综合档案信息和抽取的元数据信息数据进行清洗;
将清洗后的结果存入所述元数据库。
在实际运用过程中,本系统操作可总结为以下四个流程:
1、每一类档案通过系统界面上传(也提供数字化成功批量上传接口);
2、上传完成后会进入系统,相关的基础元数据信息上传时会录入;
3、后端程序检测到新的数据入库,开始执行专利种相关流程(判断是否需求解析元数据,电子原文类型,初始化对应的解析适配器,解析数据,补充元数据);
4、实现元数据查看。
综上所述,借助于本发明的上述技术方案,通过对不同格式的电子原文的解析,提取文件基础元数据项,照片、音视频内容项,补充原有元数据信息,为电子档案的进一步分析利用提供基础。抽取到电子原文内容并存入数据库后,文本信息相关的利用方式都能使用。照片类抽取到主题,人物,场景,地点信息后,可以通过文本搜索方式搜索人物照片档案,搜索相同地点照片,并进行主题聚类等分析,使用。同时视频类抽取到内容,人物,场景,地点,台词等内容后,可以通过文本搜索方式搜索包含人物相关视频档案,包含地点视频档案等。
通过利用电子档案代替原件使用,有效延长原件的保存时间,提高办公效率,电子档案管理使资料能及时归档,并尽快提供利用,从而提高办公效率。电子档案提高经济效益,数字化管理档案使传统的以纸质为载体的档案信息对象转为机读档案,不仅节约了保管费用,节省了占地空间,而且查阅方便迅速,避免了反复印制资料而造成的纸张和人员的浪费。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种档案要素补充采集系统,其特征在于,该系统包括以下组成:
文件检测与配置模块,用于对不同的电子原文类型进行检测,并创建不同的适配器;
适配器模块,用于提供文件的基础信息提取及内容解析;
元数据采集引擎模块,用于根据元数据项抽取、合并相关数据,并生成正式的元数据;
元数据存储模块,用于实现元数据的入库存储。
2.根据权利要求1所述的一种档案要素补充采集系统,其特征在于,所述电子原文类型包括便携式文档格式,图像格式,音频格式,视频格式及波音声音文件。
3.根据权利要求2所述的一种档案要素补充采集系统,其特征在于,所述元数据存储模块包括中间数据库与元数据库。
4.根据权利要求3所述的一种档案要素补充采集系统,其特征在于,所述文件检测与配置模块实现不同的电子原文类型检测,并创建不同的适配器,包括以下步骤:
筛选出一条元数据项存在缺失的档案数据;
判断所述档案数据是否存在电子原文,若不存在电子原文则停止检测,流程结束;
若存在电子原文则读取电子原文信息,并分析电子原文的格式,创建相应的适配器。
5.根据权利要求4所述的一种档案要素补充采集系统,其特征在于,所述适配器模块实现文件的基础信息提取及内容解析,包括以下步骤:
对不同电子原文类型的文件进行解析,获取实体基础要素;
判断电子原文中是否存在音频信息,若存在则将音频信息转换成文字,并存入所述中间数据库;若不存在音频信息则进行下一步骤;
判断电子原文中是否存在图像信息,若存在则对图片进行人脸标注识别以及图片场景识别,并存入所述中间数据库;若不存在图像信息则进行下一步骤;
判断电子原文中是否存在视频信息,若存在则抽取视频中的字幕信息,将视频主要帧转换为图片进行图片识别,结合字幕识别视频中的人物与场景信息,并存入所述中间数据库;若不存在视频信息则流程结束。
6.根据权利要求5所述的一种档案要素补充采集系统,其特征在于,当所述电子原文类型为音频格式文件时,所述音频格式文件的实体基础要素包括文件大小、音频时长及计算码率。
7.根据权利要求6所述的一种档案要素补充采集系统,其特征在于,当所述电子原文类型为图像格式文件时,所述对图像格式文件进行解析的方法为解析文件头部的可交换图像文件信息,且所述图像格式文件的实体基础要素包括宽度、高度、经纬度、水平分辨率、垂直分辨率、色彩空间分量、色彩空间及设备厂商。
8.根据权利要求7所述的一种档案要素补充采集系统,其特征在于,当所述电子原文类型为视频格式文件时,所述视频格式文件的实体基础要素包括时长、宽度、高度、视频编码、色彩空间、分辨率、帧率、音频比特率、音频编码标准、声道及音频采样率。
9.根据权利要求8所述的一种档案要素补充采集系统,其特征在于,当电子原文类型为非音频格式、非视频格式或非图像格式时,所述对图像格式文件进行解析的方法为分别解析文件中的图像、音频数据及视频数据,并重新构造相应的解析器进行解析。
10.根据权利要求9所述的一种档案要素补充采集系统,其特征在于,所述元数据存储模块实现元数据的入库存储的步骤包括:
读取解析完成后的档案数据;
将解析流程中各类元数据信息进行汇总与合并;
将综合档案信息和抽取的元数据信息数据进行清洗;
将清洗后的结果存入所述元数据库。
CN202210244109.4A 2022-03-14 2022-03-14 一种档案要素补充采集系统 Active CN114329132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210244109.4A CN114329132B (zh) 2022-03-14 2022-03-14 一种档案要素补充采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210244109.4A CN114329132B (zh) 2022-03-14 2022-03-14 一种档案要素补充采集系统

Publications (2)

Publication Number Publication Date
CN114329132A true CN114329132A (zh) 2022-04-12
CN114329132B CN114329132B (zh) 2022-05-17

Family

ID=81033505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210244109.4A Active CN114329132B (zh) 2022-03-14 2022-03-14 一种档案要素补充采集系统

Country Status (1)

Country Link
CN (1) CN114329132B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757914A (zh) * 2022-12-01 2023-03-07 青岛诺亚信息技术有限公司 一种档案元数据免著录收集系统
CN116029277A (zh) * 2022-12-16 2023-04-28 北京海致星图科技有限公司 多模态知识解析的方法、装置、存储介质、设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090008016A (ko) * 2007-07-16 2009-01-21 엠비엔테크(주) 멀티미디어 콘텐츠 통합관리 시스템
CN111046235A (zh) * 2019-11-28 2020-04-21 福建亿榕信息技术有限公司 基于人脸识别的声像档案搜索方法、系统、设备及介质
CN111353065A (zh) * 2018-12-20 2020-06-30 北京嘀嘀无限科技发展有限公司 语音档案存储方法、装置、设备以及计算机可读存储介质
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090008016A (ko) * 2007-07-16 2009-01-21 엠비엔테크(주) 멀티미디어 콘텐츠 통합관리 시스템
CN111353065A (zh) * 2018-12-20 2020-06-30 北京嘀嘀无限科技发展有限公司 语音档案存储方法、装置、设备以及计算机可读存储介质
CN111046235A (zh) * 2019-11-28 2020-04-21 福建亿榕信息技术有限公司 基于人脸识别的声像档案搜索方法、系统、设备及介质
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757914A (zh) * 2022-12-01 2023-03-07 青岛诺亚信息技术有限公司 一种档案元数据免著录收集系统
CN116029277A (zh) * 2022-12-16 2023-04-28 北京海致星图科技有限公司 多模态知识解析的方法、装置、存储介质、设备
CN116029277B (zh) * 2022-12-16 2024-04-05 北京海致星图科技有限公司 多模态知识解析的方法、装置、存储介质、设备

Also Published As

Publication number Publication date
CN114329132B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN114329132B (zh) 一种档案要素补充采集系统
Erol et al. Linking multimedia presentations with their symbolic source documents: algorithm and applications
US7243101B2 (en) Program, image managing apparatus and image managing method
US7876381B2 (en) Telop collecting apparatus and telop collecting method
US8126294B2 (en) Video structuring device
US6993196B2 (en) Digital image storage method
Elmagarmid et al. Video Database Systems: Issues, Products and Applications
KR101406843B1 (ko) 멀티미디어 컨텐츠 부호화방법 및 장치와, 부호화된멀티미디어 컨텐츠 응용방법 및 시스템
US7584217B2 (en) Photo image retrieval system and program
KR100686521B1 (ko) 비디오 및 메타데이터의 통합을 위한 비디오 멀티미디어응용 파일 형식의 인코딩/디코딩 방법 및 시스템
Fujisawa et al. Information capturing camera and developmental issues
US20070070408A1 (en) Image album creating system, image album creating method and image album creating program
CN101021903A (zh) 视频字幕内容分析系统
Erol et al. Linking presentation documents using image analysis
CN102457817B (zh) 一种手机报中新闻内容的抽取方法及系统
Lienhart Indexing and retrieval of digital video sequences based on automatic text recognition
CN111860523B (zh) 一种声像档案的智能著录系统与方法
CN115795096A (zh) 一种影视素材的视频元数据标注方法
CN112925905A (zh) 提取视频字幕的方法、装置、电子设备和存储介质
WO2021101024A1 (ko) 클라우드 기반 동영상 가상 스튜디오 서비스 시스템
US20150078730A1 (en) Signal recording apparatus, camera recorder, and signal processing system
Ide et al. An automatic video indexing method based on shot classification
Chua et al. Stratification approach to modeling video
CN116011443A (zh) 一种基于人工智能的文件要素信息识别方法及装置
WO2022119326A1 (ko) 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A supplementary collection system for archival elements

Granted publication date: 20220517

Pledgee: Nanjing Bank Co.,Ltd. Nanjing Financial City Branch

Pledgor: Nanjing Yundang Information Technology Co.,Ltd.

Registration number: Y2024980006632

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ji Hui

Inventor after: Liu Peng

Inventor after: Chen Xin

Inventor after: Qu Huan

Inventor after: He Pengfei

Inventor after: Ren Supei

Inventor after: Yu Xiaoyan

Inventor before: He Pengfei

Inventor before: Chen Xin

Inventor before: Qu Huan

Inventor before: Ji Hui