CN111860523A

CN111860523A - 一种声像档案的智能著录系统与方法

Info

Publication number: CN111860523A
Application number: CN202010735493.9A
Authority: CN
Inventors: 周钊; 郑莹斌; 叶浩
Original assignee: Shanghai Duiguan Information Technology Co ltd
Current assignee: Shanghai Duiguan Information Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111860523B

Abstract

本发明适用于图像处理技术领域，提供了一种声像档案的智能著录系统与方法，通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块，图像采集模块连接图像分类模块，图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块，人脸特征提取模块连接特征组合模块，数据库模块连接人脸特征提取模块，利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术，实现声像档案的智能著录。

Description

一种声像档案的智能著录系统与方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种声像档案的智能著录系统与方法。

背景技术

档案著录是在编制档案目录时，对档案的内容和形式特征进行分析、选择和记录的过程。档案著录包括著和录两种。著，即标引，将其内容的主题的自然语言转化成检索的标准语言的过程。录，即抄录，是将文案文献的形式特征例如作者、时间等照录在著录条目上。标引是针对档案的内容而言，而抄录则是其形式特征，是文献本身固有的自然语言。标引是著录的核心。

随着声像采集设备的发展，人们越来越喜欢使用声像形式来记录相关的事件。声像档案主要以磁性材料、感光材料、电脑磁盘等为载体、以图像、视频、音频等为主要反映方式、记录在政治、经济、科学、技术、文化等各项活动中直接形成的、具有保存价值的包括照片、录音带、录像带、影视片等专门载体的历史记录。然而在庞大的声像档案中，查找出我们需要的信息也变得越来越困难。

目前的声像档案的著录大多通过人工的方式，首先将整理声像数据经过人工查看，确定声像档案的内容描述、事件包含的任务、事件发生的时期、事件发生的地点等一系列声像档案信息。

目前的声像档案著录方式有以下几个缺点：一是效率低，一段声像资料可能大部分都不含有需要著录的信息，工作人员首先要都先查看一遍，这导致大量的事件浪费在浏览无用的信息上；二是难度高，声像档案中有时会出现大量的人物，工作人员需要将重要的人物都识别出来，这无疑对工作人员的要求很高，容易造成遗漏或者错误。三是校验困难，对于著录人员提供的著录结果，需要其余工作人员再去查看视频校验，校验难度大；四是成本高，需要大量的人力去完成声像档案的著录。

发明内容

本发明提供一种声像档案的智能著录系统与方法，旨在解决现有技术存在的问题。

本发明是这样实现的，提供一种声像档案的智能著录系统，包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块；

所述图像采集模块用于采集待录入的声像档案中的视频图像；

所述图像分类模块连接所述图像采集模块，所述图像采集模块将采集的视频图像输送到所述图像分类模块，所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征，根据所述特征为每一帧的图像进行分类，分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面；

所述OCR字符检测识别模块连接所述图像分类模块，所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块，所述字符识别模块用于利用卷积神经网络提取画面中的文字特征，利用字符检测算法，框定文字的位置，将文字区域的特征输入到字符识别算法中，识别出文字的具体内容，组成图像的文字信息；

所述人脸检测模块连接所述图像分类模块，所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中，所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息；

所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块，所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块，所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块；所述特征组合模块用于将字符识别结果和图像的特征结合，如果图像的分类为一个会议并且在图像的上部分有横幅的特征，将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中，得到字符识别结果是会议名称的置信度，从而判断出档案的内容主题；

所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块，所述图像分类模块将所述图像的特征输送到所述信息匹配模块，所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块，所述信息匹配模块用于将每个席卡和人脸匹配，形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块；

所述人脸特征提取模块连接所述特征组合模块，所述特征组合模块将所述人脸集输送到所述人脸特征提取模块，所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中，建立人脸库索引。

优选的，所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。

优选的，所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取；所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。

本发明还提供如上述任意一种声像档案的智能著录系统的著录方法，包括以下步骤：

S1、通过图像采集模块采集待录入的声像档案中的视频图像；

S2、所述图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征，根据所述特征为每一帧的图像进行分类，分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面；

S3、所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块，所述字符识别模块用于利用卷积神经网络提取画面中的文字特征，利用字符检测算法，框定文字的位置，将文字区域的特征输入到字符识别算法中，识别出文字的具体内容，组成图像的文字信息；

S4、所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中，所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息；

S5、所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块，所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块；所述特征组合模块用于将字符识别结果和图像的特征结合，如果图像的分类为一个会议并且在图像的上部分有横幅的特征，将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中，得到字符识别结果是会议名称的置信度，从而判断出档案的内容主题；

S6、所述图像分类模块将所述图像的特征输送到所述信息匹配模块，所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块，所述信息匹配模块用于将每个席卡和人脸匹配，形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块；

S7、所述特征组合模块将所述人脸集输送到所述人脸特征提取模块，所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中，建立人脸库索引。

与现有技术相比，本发明的有益效果是：本发明的一种声像档案的智能著录系统与方法，通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块，图像采集模块连接图像分类模块，图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块，人脸特征提取模块连接特征组合模块，数据库模块连接人脸特征提取模块，利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术，实现声像档案的智能著录。

附图说明

图1为本发明的一种声像档案的智能著录方法的流程示意图。

图2为本发明的实施例二的智能著录方法的实施原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例提供一种技术方案：一种声像档案的智能著录系统与方法，著录系统包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块。

图像采集模块用于采集待录入的声像档案中的视频图像。

图像分类模块连接图像采集模块，图像采集模块将采集的视频图像输送到图像分类模块，图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征，根据特征为每一帧的图像进行分类，分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面。

OCR字符检测识别模块连接图像分类模块，图像分类模块将正面会议画面、会议横幅画面、席卡画面输送到OCR字符检测识别模块，字符识别模块用于利用卷积神经网络提取画面中的文字特征，利用字符检测算法，框定文字的位置，将文字区域的特征输入到字符识别算法中，识别出文字的具体内容，组成图像的文字信息。其中，优选的，可以使用RRPN算法，RRPN算法使用了锚点的思路，利用预先产生的候选框来确定是否包含文字，并且对每个候选框进行回归预测，确定更为准确的文字位置。另外，此处可以使用的图像字符识别包括各类基于深度学习的图像字符识别方法，例如CRNN等，优选使用CRNN算法，CRNN算法使用了卷积层、递归层和合成层组成，能够对一张输入的图片进行特征抽取，识别出上面的文字信息。

人脸检测模块连接图像分类模块，图像分类模块将正面会议画面和人脸画面送入到人脸检测模块中，人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息。其中，此处可以使用的图像字符检测包括使用人脸图像训练的通用图像物体检测框架，如基于Mask-RCNN等算法。又如各类基于深度学习的图像人脸检测方法。

特征组合模块连接OCR字符检测识别模块和人脸检测模块，OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到特征组合模块，人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到特征组合模块。关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。特征组合模块用于将字符识别结果和图像的特征结合，如果图像的分类为一个会议并且在图像的上部分有横幅的特征，将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中，得到字符识别结果是会议名称的置信度，从而判断出档案的内容主题。

信息匹配模块连接图像分类模块和OCR字符检测识别模块，图像分类模块将图像的特征输送到信息匹配模块，OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到信息匹配模块，信息匹配模块用于将每个席卡和人脸匹配，形成包含席卡文字内容信息和人脸信息的人脸集并存储到数据库模块。OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取。字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。

人脸特征提取模块连接特征组合模块，特征组合模块将人脸集输送到人脸特征提取模块，人脸特征提取模块用于将每一张人脸的特征存入到数据库模块中，建立人脸库索引。

如图1所示，本发明提供的一种声像档案的智能著录系统的著录方法，包括以下步骤：

S1、通过图像采集模块采集待录入的声像档案中的视频图像。

S2、图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征，根据特征为每一帧的图像进行分类，分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面。

S3、图像分类模块将正面会议画面、会议横幅画面、席卡画面输送到OCR字符检测识别模块，字符识别模块用于利用卷积神经网络提取画面中的文字特征，利用字符检测算法，框定文字的位置，将文字区域的特征输入到字符识别算法中，识别出文字的具体内容，组成图像的文字信息。

S4、图像分类模块将正面会议画面和人脸画面送入到人脸检测模块中，人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息。

S5、OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到特征组合模块，人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到特征组合模块。特征组合模块用于将字符识别结果和图像的特征结合，如果图像的分类为一个会议并且在图像的上部分有横幅的特征，将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中，得到字符识别结果是会议名称的置信度，从而判断出档案的内容主题。

S6、图像分类模块将图像的特征输送到信息匹配模块，OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到信息匹配模块，信息匹配模块用于将每个席卡和人脸匹配，形成包含席卡文字内容信息和人脸信息的人脸集并存储到数据库模块。

S7、特征组合模块将人脸集输送到人脸特征提取模块，人脸特征提取模块用于将每一张人脸的特征存入到数据库模块中，建立人脸库索引。

实施例二

本实施例提供一种声像档案的智能著录方法，其通过实施例一的一种声像档案的智能著录系统实现智能著录，从而提供声像档案关键内容、关键人物智能录入的方案，可以接入高等院校、中小学校的后台管理系统，配合声像档案管理系统，整理历史的一些声像档案，例如校友档案等，为后续的声像档案检索提供基础。具体实施步骤如图2所示：

1)采集设备获取声像档案，传入到声像档案管理系统。

2)由智能著录系统进行声像档案的分析，包括关键图像分类、人脸检测、字符识别等，最后将所有的信息汇总后返回声像档案的一些关键信息。

3)声像档案管理系统将关键的信息建立索引，提供给用户进行检索。

实施例三

本实施例提供一种声像档案的智能著录方法，其通过实施例一种的智能著录系统实现智能著录。在电视台等单位存在着大量的视频档案，但是这些视频档案大多没有很好的档案信息或者解释，没有足够的信息进行视频档案的查询，例如要搜索某些人员参加过的节目并且找到具体的视频片段，如果没有详细到每一个时间点的说明，无法很快速的定位需要的内容。本发明提出了针对电视台等拥有许多视频档案的单位，进行多媒体档案智能著录的系统与方法，可以更好的利用声像档案。著录方法包括以下步骤：

1)采集设备获取声像档案，传入智能著录系统。

2)智能著录系统提取档案的人脸，并提取每一张人脸的特征，并且记录每张人脸出现的时间，形成索引。

3)输入要查询的人脸，提取特征后，进行人脸的检索，将检索出来的时间段进行整合，筛选出相关的档案。

实施例四

本实施例提供一种声像档案的智能著录方法，其通过实施例一种的智能著录系统实现智能著录。

在政府部门、事业单位等相关单位存在这大量领导会议讲话、领导视察等大量声像档案，由于数据量庞大，而且由于之前的档案没有很好的进行档案信息的整理，导致许多的档案无法进行很好的检索。本发明提出了声像档案的著录系统，不仅能够根据会议的席卡自动为人脸匹配姓名属性，还能通过会议的横幅自动录入会议的主题。为后期的检索提供资料。著录方法包括以下步骤：

1)将历史声像档案传入智能著录系统。

2)智能著录系统提取档案的人脸、文字、横幅、席卡等特征，根据这些特征进行人脸与名称的匹配、会议主题匹配、人脸特征建立等一系列工作，建立后续索引的数据库。

3)输入要查询的人脸，提取特征后，进行人脸的检索，筛选出声像档案。输入会议名称，匹配相应的会议声像资料。输入人名，匹配相应的会议资料。

本发明的一种声像档案的智能著录系统与方法，通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块，图像采集模块连接图像分类模块，图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块，人脸特征提取模块连接特征组合模块，数据库模块连接人脸特征提取模块，利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术，实现声像档案的智能著录。满足各类学校、电视台等广电系统、政府部门、事业单位等对声像档案的著录需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声像档案的智能著录系统，其特征在于：包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块；

2.如权利要求1所述的一种声像档案的智能著录系统，其特征在于：所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。

3.如权利要求1所述的一种声像档案的智能著录系统，其特征在于：所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取；所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。

4.如权利要求1至3中任意一项所述的一种声像档案的智能著录系统的著录方法，其特征在于：包括以下步骤：

5.如权利要求4所述的一种声像档案的智能著录系统的著录方法，其特征在于：所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。

6.如权利要求4所述的一种声像档案的智能著录系统的著录方法，其特征在于：所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取；所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。