CN111860523A - 一种声像档案的智能著录系统与方法 - Google Patents
一种声像档案的智能著录系统与方法 Download PDFInfo
- Publication number
- CN111860523A CN111860523A CN202010735493.9A CN202010735493A CN111860523A CN 111860523 A CN111860523 A CN 111860523A CN 202010735493 A CN202010735493 A CN 202010735493A CN 111860523 A CN111860523 A CN 111860523A
- Authority
- CN
- China
- Prior art keywords
- module
- face
- character
- image
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 claims description 92
- 238000000605 extraction Methods 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- 102100032202 Cornulin Human genes 0.000 claims description 7
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000696 magnetic material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明适用于图像处理技术领域,提供了一种声像档案的智能著录系统与方法,通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块,图像采集模块连接图像分类模块,图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块,人脸特征提取模块连接特征组合模块,数据库模块连接人脸特征提取模块,利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术,实现声像档案的智能著录。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种声像档案的智能著录系统与方法。
背景技术
档案著录是在编制档案目录时,对档案的内容和形式特征进行分析、选择和记录的过程。档案著录包括著和录两种。著,即标引,将其内容的主题的自然语言转化成检索的标准语言的过程。录,即抄录,是将文案文献的形式特征例如作者、时间等照录在著录条目上。标引是针对档案的内容而言,而抄录则是其形式特征,是文献本身固有的自然语言。标引是著录的核心。
随着声像采集设备的发展,人们越来越喜欢使用声像形式来记录相关的事件。声像档案主要以磁性材料、感光材料、电脑磁盘等为载体、以图像、视频、音频等为主要反映方式、记录在政治、经济、科学、技术、文化等各项活动中直接形成的、具有保存价值的包括照片、录音带、录像带、影视片等专门载体的历史记录。然而在庞大的声像档案中,查找出我们需要的信息也变得越来越困难。
目前的声像档案的著录大多通过人工的方式,首先将整理声像数据经过人工查看,确定声像档案的内容描述、事件包含的任务、事件发生的时期、事件发生的地点等一系列声像档案信息。
目前的声像档案著录方式有以下几个缺点:一是效率低,一段声像资料可能大部分都不含有需要著录的信息,工作人员首先要都先查看一遍,这导致大量的事件浪费在浏览无用的信息上;二是难度高,声像档案中有时会出现大量的人物,工作人员需要将重要的人物都识别出来,这无疑对工作人员的要求很高,容易造成遗漏或者错误。三是校验困难,对于著录人员提供的著录结果,需要其余工作人员再去查看视频校验,校验难度大;四是成本高,需要大量的人力去完成声像档案的著录。
发明内容
本发明提供一种声像档案的智能著录系统与方法,旨在解决现有技术存在的问题。
本发明是这样实现的,提供一种声像档案的智能著录系统,包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块;
所述图像采集模块用于采集待录入的声像档案中的视频图像;
所述图像分类模块连接所述图像采集模块,所述图像采集模块将采集的视频图像输送到所述图像分类模块,所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;
所述OCR字符检测识别模块连接所述图像分类模块,所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;
所述人脸检测模块连接所述图像分类模块,所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;
所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块,所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;
所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块,所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;
所述人脸特征提取模块连接所述特征组合模块,所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。
优选的,所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。
优选的,所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。
本发明还提供如上述任意一种声像档案的智能著录系统的著录方法,包括以下步骤:
S1、通过图像采集模块采集待录入的声像档案中的视频图像;
S2、所述图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;
S3、所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;
S4、所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;
S5、所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;
S6、所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;
S7、所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。
优选的,所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。
优选的,所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。
与现有技术相比,本发明的有益效果是:本发明的一种声像档案的智能著录系统与方法,通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块,图像采集模块连接图像分类模块,图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块,人脸特征提取模块连接特征组合模块,数据库模块连接人脸特征提取模块,利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术,实现声像档案的智能著录。
附图说明
图1为本发明的一种声像档案的智能著录方法的流程示意图。
图2为本发明的实施例二的智能著录方法的实施原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
本实施例提供一种技术方案:一种声像档案的智能著录系统与方法,著录系统包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块。
图像采集模块用于采集待录入的声像档案中的视频图像。
图像分类模块连接图像采集模块,图像采集模块将采集的视频图像输送到图像分类模块,图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面。
OCR字符检测识别模块连接图像分类模块,图像分类模块将正面会议画面、会议横幅画面、席卡画面输送到OCR字符检测识别模块,字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息。其中,优选的,可以使用RRPN算法,RRPN算法使用了锚点的思路,利用预先产生的候选框来确定是否包含文字,并且对每个候选框进行回归预测,确定更为准确的文字位置。另外,此处可以使用的图像字符识别包括各类基于深度学习的图像字符识别方法,例如CRNN等,优选使用CRNN算法,CRNN算法使用了卷积层、递归层和合成层组成,能够对一张输入的图片进行特征抽取,识别出上面的文字信息。
人脸检测模块连接图像分类模块,图像分类模块将正面会议画面和人脸画面送入到人脸检测模块中,人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息。其中,此处可以使用的图像字符检测包括使用人脸图像训练的通用图像物体检测框架,如基于Mask-RCNN等算法。又如各类基于深度学习的图像人脸检测方法。
特征组合模块连接OCR字符检测识别模块和人脸检测模块,OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到特征组合模块,人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到特征组合模块。关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题。
信息匹配模块连接图像分类模块和OCR字符检测识别模块,图像分类模块将图像的特征输送到信息匹配模块,OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到信息匹配模块,信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到数据库模块。OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取。字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。
人脸特征提取模块连接特征组合模块,特征组合模块将人脸集输送到人脸特征提取模块,人脸特征提取模块用于将每一张人脸的特征存入到数据库模块中,建立人脸库索引。
如图1所示,本发明提供的一种声像档案的智能著录系统的著录方法,包括以下步骤:
S1、通过图像采集模块采集待录入的声像档案中的视频图像。
S2、图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面。
S3、图像分类模块将正面会议画面、会议横幅画面、席卡画面输送到OCR字符检测识别模块,字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息。
S4、图像分类模块将正面会议画面和人脸画面送入到人脸检测模块中,人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息。
S5、OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到特征组合模块,人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到特征组合模块。特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题。
S6、图像分类模块将图像的特征输送到信息匹配模块,OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到信息匹配模块,信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到数据库模块。
S7、特征组合模块将人脸集输送到人脸特征提取模块,人脸特征提取模块用于将每一张人脸的特征存入到数据库模块中,建立人脸库索引。
实施例二
本实施例提供一种声像档案的智能著录方法,其通过实施例一的一种声像档案的智能著录系统实现智能著录,从而提供声像档案关键内容、关键人物智能录入的方案,可以接入高等院校、中小学校的后台管理系统,配合声像档案管理系统,整理历史的一些声像档案,例如校友档案等,为后续的声像档案检索提供基础。具体实施步骤如图2所示:
1)采集设备获取声像档案,传入到声像档案管理系统。
2)由智能著录系统进行声像档案的分析,包括关键图像分类、人脸检测、字符识别等,最后将所有的信息汇总后返回声像档案的一些关键信息。
3)声像档案管理系统将关键的信息建立索引,提供给用户进行检索。
实施例三
本实施例提供一种声像档案的智能著录方法,其通过实施例一种的智能著录系统实现智能著录。在电视台等单位存在着大量的视频档案,但是这些视频档案大多没有很好的档案信息或者解释,没有足够的信息进行视频档案的查询,例如要搜索某些人员参加过的节目并且找到具体的视频片段,如果没有详细到每一个时间点的说明,无法很快速的定位需要的内容。本发明提出了针对电视台等拥有许多视频档案的单位,进行多媒体档案智能著录的系统与方法,可以更好的利用声像档案。著录方法包括以下步骤:
1)采集设备获取声像档案,传入智能著录系统。
2)智能著录系统提取档案的人脸,并提取每一张人脸的特征,并且记录每张人脸出现的时间,形成索引。
3)输入要查询的人脸,提取特征后,进行人脸的检索,将检索出来的时间段进行整合,筛选出相关的档案。
实施例四
本实施例提供一种声像档案的智能著录方法,其通过实施例一种的智能著录系统实现智能著录。
在政府部门、事业单位等相关单位存在这大量领导会议讲话、领导视察等大量声像档案,由于数据量庞大,而且由于之前的档案没有很好的进行档案信息的整理,导致许多的档案无法进行很好的检索。本发明提出了声像档案的著录系统,不仅能够根据会议的席卡自动为人脸匹配姓名属性,还能通过会议的横幅自动录入会议的主题。为后期的检索提供资料。著录方法包括以下步骤:
1)将历史声像档案传入智能著录系统。
2)智能著录系统提取档案的人脸、文字、横幅、席卡等特征,根据这些特征进行人脸与名称的匹配、会议主题匹配、人脸特征建立等一系列工作,建立后续索引的数据库。
3)输入要查询的人脸,提取特征后,进行人脸的检索,筛选出声像档案。输入会议名称,匹配相应的会议声像资料。输入人名,匹配相应的会议资料。
本发明的一种声像档案的智能著录系统与方法,通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块,图像采集模块连接图像分类模块,图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块,人脸特征提取模块连接特征组合模块,数据库模块连接人脸特征提取模块,利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术,实现声像档案的智能著录。满足各类学校、电视台等广电系统、政府部门、事业单位等对声像档案的著录需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种声像档案的智能著录系统,其特征在于:包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块;
所述图像采集模块用于采集待录入的声像档案中的视频图像;
所述图像分类模块连接所述图像采集模块,所述图像采集模块将采集的视频图像输送到所述图像分类模块,所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;
所述OCR字符检测识别模块连接所述图像分类模块,所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;
所述人脸检测模块连接所述图像分类模块,所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;
所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块,所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;
所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块,所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;
所述人脸特征提取模块连接所述特征组合模块,所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。
2.如权利要求1所述的一种声像档案的智能著录系统,其特征在于:所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。
3.如权利要求1所述的一种声像档案的智能著录系统,其特征在于:所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。
4.如权利要求1至3中任意一项所述的一种声像档案的智能著录系统的著录方法,其特征在于:包括以下步骤:
S1、通过图像采集模块采集待录入的声像档案中的视频图像;
S2、所述图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;
S3、所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;
S4、所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;
S5、所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;
S6、所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;
S7、所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。
5.如权利要求4所述的一种声像档案的智能著录系统的著录方法,其特征在于:所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。
6.如权利要求4所述的一种声像档案的智能著录系统的著录方法,其特征在于:所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735493.9A CN111860523B (zh) | 2020-07-28 | 2020-07-28 | 一种声像档案的智能著录系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735493.9A CN111860523B (zh) | 2020-07-28 | 2020-07-28 | 一种声像档案的智能著录系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860523A true CN111860523A (zh) | 2020-10-30 |
CN111860523B CN111860523B (zh) | 2024-04-30 |
Family
ID=72947805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010735493.9A Active CN111860523B (zh) | 2020-07-28 | 2020-07-28 | 一种声像档案的智能著录系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860523B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887656A (zh) * | 2021-01-26 | 2021-06-01 | 黄旭诗 | 一种基于虚拟现实的多人在线会议系统 |
CN112990036A (zh) * | 2021-03-23 | 2021-06-18 | 广东图友软件科技有限公司 | 一种基于分块放大提升集体照人脸识别精度方法 |
CN114117095A (zh) * | 2022-01-25 | 2022-03-01 | 广东图友软件科技有限公司 | 一种基于图像识别的声像档案著录方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084254A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | 電子ファイリングシステムおよびファイリング方法 |
CN102855317A (zh) * | 2012-08-31 | 2013-01-02 | 王晖 | 一种基于演示视频的多模式索引方法及系统 |
CN103995904A (zh) * | 2014-06-13 | 2014-08-20 | 上海珉智信息科技有限公司 | 一种影像档案电子资料的识别系统 |
WO2018107605A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN109993049A (zh) * | 2018-11-27 | 2019-07-09 | 上海眼控科技股份有限公司 | 一种面向智能安防领域的视频图像结构化分析系统 |
CN110765907A (zh) * | 2019-10-12 | 2020-02-07 | 安徽七天教育科技有限公司 | 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法 |
CN111046235A (zh) * | 2019-11-28 | 2020-04-21 | 福建亿榕信息技术有限公司 | 基于人脸识别的声像档案搜索方法、系统、设备及介质 |
-
2020
- 2020-07-28 CN CN202010735493.9A patent/CN111860523B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084254A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | 電子ファイリングシステムおよびファイリング方法 |
CN102855317A (zh) * | 2012-08-31 | 2013-01-02 | 王晖 | 一种基于演示视频的多模式索引方法及系统 |
CN103995904A (zh) * | 2014-06-13 | 2014-08-20 | 上海珉智信息科技有限公司 | 一种影像档案电子资料的识别系统 |
WO2018107605A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN109993049A (zh) * | 2018-11-27 | 2019-07-09 | 上海眼控科技股份有限公司 | 一种面向智能安防领域的视频图像结构化分析系统 |
CN110765907A (zh) * | 2019-10-12 | 2020-02-07 | 安徽七天教育科技有限公司 | 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法 |
CN111046235A (zh) * | 2019-11-28 | 2020-04-21 | 福建亿榕信息技术有限公司 | 基于人脸识别的声像档案搜索方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
方军;汤进军;: "人脸识别技术应用于声像档案整理工作探析", 黑龙江档案, no. 03, 15 June 2020 (2020-06-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887656A (zh) * | 2021-01-26 | 2021-06-01 | 黄旭诗 | 一种基于虚拟现实的多人在线会议系统 |
CN112990036A (zh) * | 2021-03-23 | 2021-06-18 | 广东图友软件科技有限公司 | 一种基于分块放大提升集体照人脸识别精度方法 |
CN114117095A (zh) * | 2022-01-25 | 2022-03-01 | 广东图友软件科技有限公司 | 一种基于图像识别的声像档案著录方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111860523B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860523A (zh) | 一种声像档案的智能著录系统与方法 | |
US20050114357A1 (en) | Collaborative media indexing system and method | |
US20110087703A1 (en) | System and method for deep annotation and semantic indexing of videos | |
CN112100438A (zh) | 一种标签抽取方法、设备及计算机可读存储介质 | |
CN102855317B (zh) | 一种基于演示视频的多模式索引方法及系统 | |
CN109299324B (zh) | 一种标签式视频文件的检索方法 | |
TW200426622A (en) | Method and apparatus for content representation and retrieval in concept model space | |
CN103530652A (zh) | 一种基于人脸聚类的视频编目方法、检索方法及其系统 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
Over et al. | TRECVID 2009-goals, tasks, data, evaluation mechanisms and metrics | |
CN106095764A (zh) | 一种动态图片处理方法及系统 | |
Over et al. | Trecvid 2013–an introduction to the goals, tasks, data, evaluation mechanisms, and metrics | |
Jain et al. | Experiential meeting system | |
CN114333005A (zh) | 对象识别方法、系统及存储介质 | |
CN113301382B (zh) | 视频处理方法、设备、介质及程序产品 | |
CN113327619A (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
Over et al. | TRECVID 2005-an introduction | |
CN113407778A (zh) | 标签识别方法及装置 | |
CN111522992A (zh) | 题目入库方法、装置、设备及存储介质 | |
CN115618080A (zh) | 基于数据管理平台的数据管理实现方法及数据管理平台 | |
Christel | Automated metadata in multimedia information systems | |
Leung et al. | Content-based retrieval in multimedia databases | |
Thuraisingham | Managing and mining multimedia databases | |
KR20220036772A (ko) | 기관 리포지토리와 연계된 개인기록 통합 관리 서비스 제공 시스템 | |
Karray et al. | Indexing video summaries for quick video browsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |