CN112004111B - 一种全域深度学习的新闻视频信息抽提方法 - Google Patents
一种全域深度学习的新闻视频信息抽提方法 Download PDFInfo
- Publication number
- CN112004111B CN112004111B CN202010902006.3A CN202010902006A CN112004111B CN 112004111 B CN112004111 B CN 112004111B CN 202010902006 A CN202010902006 A CN 202010902006A CN 112004111 B CN112004111 B CN 112004111B
- Authority
- CN
- China
- Prior art keywords
- module
- video
- image
- text
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 17
- 102100032202 Cornulin Human genes 0.000 claims abstract description 6
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010191 image analysis Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000005381 potential energy Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 229910052698 phosphorus Inorganic materials 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 11
- 238000006073 displacement reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/231—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
- H04N21/23106—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving caching operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种全域深度学习的新闻视频信息抽提方法,属于图像数据处理技术领域,先对新闻视频中的各段新闻切分镜头,再对镜头打标签,计算标签相似度,相似的镜头合并构成一个主题,然后对主题视频分离音轨,得到的音频素材经过语音识别后生成的文本经Textrank算法生成文本摘要;再检测主题视频的关键帧,提取关键物体、知名人物、关键文字。本发明采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM‑CRF模型识别命名实体,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题。
Description
技术领域
本发明属于图像数据处理技术领域,涉及一种全域深度学习的新闻视频信息抽提方法。
背景技术
随着传播媒介的转变以及5G时代的到来,传统的以文字为载体的新闻日渐式微,而以视频等多媒体形式为载体的新闻不断涌现,承载了越来越多的信息量,这种改变给档案的管理和检索带来了巨大的挑战。新闻视频包含多维度的信息,主要包括语音信息、视觉信息、文字信息等,这就需要结合多种技术手段将其中的关键信息提取出来,并转换成普通的文本信息以方便管理和检索。语音信息的提取主要用到语音识别技术,语音识别一般包括声学模型和语言模型,声学模型中双向LSTM网络存在解码时延高的问题,语音模型中n-gram应用较为广泛,但当n较大时,存在数据稀疏的问题,导致估计结果不准确。视频信息提取模型中,I3D,S3D,P3D等通过3D卷积进行端到端联合时空建模,尽管能捕获时空特征,但是不可避免地引入了额外计算量。文字信息提取主要采用OCR技术,但视频中自然场景中的文字识别面临着图像背景复杂、分辨率低、字体多样、分布随意等挑战,OCR难以应付。
发明内容
本发明的目的是提供一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种全域深度学习的新闻视频信息抽提方法,包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
优选的,所述动态镜头为短视频数据。
优选的,在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
优选的,在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
W=diag(W(X1),...,W(Xn))
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
其中,pX(x)为图像各灰度级别出现的概率;
步骤
A5:计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,图像直方图与镜头直方图差异最小的即为该动态镜头的关键帧。
优选的,在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,和分别代表回看的阶数和前看的阶数,和分别为t-s1*i和t+s2*j对应的时不变系数;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符。
优选的,在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为feature map,大小是W×H×C;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值,k个边缘调整偏移;
优选的,在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
本发明所述的一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题,textrank算法中引入word2vec替换同现窗口计算词语间的相似性,采用BM25算法替换经典的TF-IDF算法计算句子间的相似性,TSM模型中使用位移操作,在不加任何参数计算量的基础上,实现时空建模,给视频自动生成标签,并结合镜头分割技术,实现视频的主题分割,针对新闻视频中复杂的文字背景,采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM-CRF模型识别命名实体。
附图说明
图1为本发明的流程图。
具体实施方式
如图1所示的一种全域深度学习的新闻视频信息抽提方法,包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
时间移位模块TSM在保持2D CNN的低复杂性的基础上,实现3D CNN的高性能。TSM尽可能多使用位移操作,把权值叠加操作放到2D CNN本身的卷积里去做,这样就可在不加任何参数计算量基础上,实现时间建模。TSM在时间维度上移动了部分通道,位移后多余的砍掉、空缺的补零,因此便于在相邻帧之间交换信息。但是太多通道进行时间位移,会损害2D CNN空间特征,太少通道进行时间位移,那么网络学习不到时间特征,残差TSM通过整合位移前后的特征,以解决此问题。得到镜头对应的标签,用BM25算法计算每个镜头标签的相似度,作为镜头的相似度,合并在时间维度相邻且相似度高的镜头为主题视频。
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
优选的,所述动态镜头为短视频数据。
优选的,在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
优选的,在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
本发明是先用BM25算法度量句子间的相似性,再用textrank模型生成文本摘要。
BM25算法是一种常见的用来做文本相似度的算法,主要就是计算一个句子里面所有词q1,q2,...,qm和另一个句子里面所有词d1,d2,...,dn的总相关度,公式如下:
其中,Wi为词语的权重,可以用逆向文档频率IDF替换,R(qi,dj)为两个句子间词语之间的相似性,通过计算词向量的余弦相似度可以得到;N为句子的数量,n(qi)为含词语qi的句子数量,IDF表示逆文档频率,Q表示一个句子,D表示另一个句子,m取值为一个句子的词语数,n取值为另一个句子的词语数,i表示一个句子的第i个词,j表示另一个句子的第j个词。
初始时,可以设置每个句子的重要性为1,摘要提取的过程就是通过不断地迭代,计算textrank值,提取最重要的句子作为文本摘要,其计算迭代公式如下:
其中,S(Vi)为句子i的重要性,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向句子i的句子集合,Out(Vi)是句子j指向的其他句子的集合,Weight(i,j)表示边的权值,b表示j能取到的值。
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
光流是目标、场景或摄像机在连续两帧图像间运动时造成的目标的运动表现。它代表着图像在平移过程中的二维矢量场,是通过二维图像来表示物体点三维运动的速度场,反映了微小时间间隔内由于运动形成的图像变化,来确定图像点上的运动方向和运动速率。而对于动态视频,使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域。
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
W=diag(W(X1),...,W(Xn))
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
其中,pX(x)为图像各灰度级别出现的概率,Hk表示运动区域;
步骤A5:计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,图像直方图与镜头直方图差异最小的即为该动态镜头的关键帧。
优选的,在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
本实施例考虑到语音的短时平稳特性,对分离得到的音轨样本要进行加窗分帧的操作,每帧语音的时长通常为10ms。
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标,能达到在不损失模型性能的同时又加速了模型解码效率的效果;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,表示第l层记忆模块第t时刻的输出值,表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,和分别代表回看的阶数和前看的阶数,和分别为t-s1*i和t+s2*j对应的时不变系数,i表示回看的第i阶,j表示前看的第j阶;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符。
CBHG语言模型的网络由embedding层、pre-net模块、CBHG模块构成。而CBHG模块由1-D convolution bank,highway network,bidirectional GRU构成。文本中的中文字符通过字典转化为index形式的数字形式作为模型的输入,模型第一次为嵌入层,通过不断的训练学习到语料库中每个字的词向量。接着为encoder pre-net模块,它共有两层,层与层之间的连接是全连接,第一层的隐藏单元数目与输入单元数目相等,而第二层的隐藏单元数目减半;两个隐藏层的激活函数均为ReLu,并保持0.5的dropout来提高泛化能力。之后为conv banks,这个卷积层有K个大小不同的1维的filter,用来提取不同长度的上下文信息,由于运用了padding,因此这k个卷积核输出的大小均是相同的,k个卷积核的输出堆积在一起,进入池化层,其卷积核步长为1,大小为2。highway层的结构为把输入同时放入到两个一层的全连接网络中,这两个网络的激活函数分别采用了ReLu和sigmoid函数,假定输入为input,ReLu的输出为output1,sigmoid的输出为output2,那么highway layer的输出为
output1*output2+input*(1-output2)。
最后highway层的输出经由双向GRU,再经过全连接层和激活函数argmax后,得到最终的输出结果。
优选的,在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距,i表示图像的第i个像素点,n表示反例图像,p表示正例图像;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为feature map,大小是W×H×C;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值(text和non-text proposal各有一个分数),k个边缘调整偏移(精修每个proposal的水平平移量);
优选的,在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
本实施例中,沿水平正方向,寻找和第i个锚框boxi水平距离小于50的候选Anchor,从候选Anchor中,挑出与boxi直方向重合度overlapv大于0.7的Anchor,挑选符合条件中Softmax score最大的第j个锚框boxj。沿水平负方向,寻找和boxj水平距离小于50的候选Anchor,从候选Anchor中,挑出与boxj竖直方向overlapv大于0.7的Anchor,挑出符合条件中Softmax score最大的第j个锚框boxk。如果第i个锚框的分值不小于第k个锚框的分值scorei>=socrek,那么设置Graph(i,j)=True,即第i个锚框到第j个锚框的连接图是最长连接。
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
CTC通过梯度调整LSTM的参数w,使得对于输入样本为π∈B-1(z)时有p(l|x)取得最大。其中π∈B-1(z)代表所有经过B变换后是z的路经π,w表示LSTM的参数,l表示输出的文本序列,B表示一种转换,p表示条件概率,x表示输入,π表示路经。
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
在BiLSTM的上面挂一层条件随机场模型作为模型的解码层,
CRF概率模型的具体形式:
其中, 和by′,y分别表示由标签y′转移到标签y的权重和偏差,z表示输入序列,Y(z)表示句子z可能的标签序列集合,n表示句子的字数,i表示第i个字,表示得分函数,也即BiLSTM模型得输出,p表示概率模型,T表示转置。
在训练过程中,采用极大似然估计原理对其进行优化,其目标函数为:
y*=arg maxy∈y(z)p(y|z;W,b);
其中,
y*表示目标函数,y表示标签,p表示概率模型。
本发明首先用感知哈希算法将新闻视频分割为若干个镜头,使用MoviePy库提取新闻视频中的音轨素材。为了使用DFSMN模型,需要部署Kaldi环境。将汉语语音语料库存储到相应的路经,配置run.sh脚本,设置运行环境,指定训练数据集,修改训练模型为DFSMN,即可开始训练。将训练好的模型文件放到models目录下,分离的音频放到audio目录下即可进行语音识别。配置HanLP环境,按NLP分词模式对文本进行分词、词性标注和去停词得到关键词,计算关键词的IDF值,以此作为关键词的权重,用BM25算法计算句子间的相似性,以句子为节点相似性矩阵为边用textrank算法迭代计算句子的重要性,摘取最重要的句子作为文本摘要。TSM视频自动打标模型训练可以加载在ImageNet上训练的ResNet50权重作为初始化参数以加快训练速度。然后使用OpenCV对视频进行分帧,使用OpenCV中的Shi-Tomasi算法进行角点检测,用角点创建掩膜,使用光流进行特征点匹配跟踪目标,在计算运动目标的图像熵,以此为依据抽取动态视频的关键帧。得到的关键帧输入YOLOv3进行目标物体检测。收集知名人物的图像各若干张,并将图像尺寸缩放到160×160对于静态视频,将准备的数据输入Facenet进行训练。计算镜头内每帧图像的灰度直方图,以与灰度直方图的平均值差异最小的作为关键帧。使用天池ICPR2018数据集,统一标签为ICDAR格式,再将原始数据标签需要转化为宽度为16的anchor标签,缩放图片保证文本框label的最短边要等于600,相应的anchor也要相应倍数的缩放。将准备好的数据输入CTPN模型进行训练,模型预测的结果是一系列的anchors,需要按照一定规则组合成文本框,取文本框对应的图片输入CRNN-CTC模型输出文字识别结果。对语料库按照BIO模式进行序列标注,将样本输入BiLSTM-CRF模型进行训练。最后融合语音生成的文本、视频生成的文本和场景文字识别生成的文本,得到新闻视频的描述信息并分新闻视频建立档案。
本发明所述的一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题,textrank算法中引入word2vec替换同现窗口计算词语间的相似性,采用BM25算法替换经典的TF-IDF算法计算句子间的相似性,TSM模型中使用位移操作,在不加任何参数计算量的基础上,实现时空建模,给视频自动生成标签,并结合镜头分割技术,实现视频的主题分割,针对新闻视频中复杂的文字背景,采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM-CRF模型识别命名实体。
Claims (4)
1.一种全域深度学习的新闻视频信息抽提方法,其特征在于:包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
W=diag(W(X1),...,W(Xn))
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
其中,pX(x)为图像各灰度级别出现的概率,X表示运动区域内的点,Hk表示运动区域;
步骤A5:得到的关键帧输入YOLOv3进行目标物体检测,收集知名人物的图像各若干张,并将图像尺寸缩放到160×160对于静态视频,将准备的数据输入Facenet进行训练,计算镜头内每帧图像的灰度直方图,计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,以与灰度直方图的平均值差异最小的作为关键帧;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,和分别代表回看的阶数和前看的阶数,和分别为t-s1*i和t+s2*j对应的时不变系数;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距,i表示图像的第i个像素点,n表示反例图像,p表示正例图像;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为featuremap,大小是W×H×C,H和W分别是feature map的高度和宽度,C是feature map的通道数;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值,k个边缘调整偏移;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
2.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:所述动态镜头为短视频数据。
3.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
4.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010902006.3A CN112004111B (zh) | 2020-09-01 | 2020-09-01 | 一种全域深度学习的新闻视频信息抽提方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010902006.3A CN112004111B (zh) | 2020-09-01 | 2020-09-01 | 一种全域深度学习的新闻视频信息抽提方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112004111A CN112004111A (zh) | 2020-11-27 |
CN112004111B true CN112004111B (zh) | 2023-02-24 |
Family
ID=73465686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010902006.3A Active CN112004111B (zh) | 2020-09-01 | 2020-09-01 | 一种全域深度学习的新闻视频信息抽提方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112004111B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541490A (zh) * | 2020-12-03 | 2021-03-23 | 广州城市规划技术开发服务部有限公司 | 一种基于深度学习的档案影像信息结构化构建方法及装置 |
CN112579823B (zh) * | 2020-12-28 | 2022-06-24 | 山东师范大学 | 基于特征融合和增量滑动窗口的视频摘要生成方法及系统 |
CN112468877B (zh) * | 2021-02-01 | 2021-05-04 | 北京中科大洋科技发展股份有限公司 | 一种基于ai内容分析和ocr识别的智能新闻编目方法 |
CN112905820B (zh) * | 2021-03-30 | 2022-11-11 | 山西大学 | 一种基于逻辑学习的多图检索方法 |
CN113127622B (zh) * | 2021-04-29 | 2023-06-09 | 西北师范大学 | 一种从语音到图像的生成方法及系统 |
CN113361249B (zh) * | 2021-06-30 | 2023-11-17 | 北京百度网讯科技有限公司 | 文档判重方法、装置、电子设备和存储介质 |
CN115883873A (zh) * | 2021-09-28 | 2023-03-31 | 山东云缦智能科技有限公司 | 一种基于视频基因的视频对比方法 |
CN114218438B (zh) * | 2021-12-23 | 2023-03-21 | 北京百度网讯科技有限公司 | 视频数据处理方法、装置、电子设备和计算机存储介质 |
CN114598933B (zh) * | 2022-03-16 | 2022-12-27 | 平安科技(深圳)有限公司 | 一种视频内容处理方法、系统、终端及存储介质 |
CN116311538B (zh) * | 2023-05-18 | 2023-09-01 | 江苏弦外音智造科技有限公司 | 一种分布式音视频处理系统 |
CN117676136B (zh) * | 2023-11-16 | 2024-06-14 | 广州群接龙网络科技有限公司 | 一种群接龙数据处理方法及系统 |
CN117573870B (zh) * | 2023-11-20 | 2024-05-07 | 中国人民解放军国防科技大学 | 一种多模态数据的文本标签提取方法、装置、设备及介质 |
CN118609034B (zh) * | 2024-08-08 | 2024-10-15 | 华侨大学 | 基于帧级时间聚合策略的沉浸式视频质量评价方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197135A (zh) * | 2019-05-13 | 2019-09-03 | 北京邮电大学 | 一种基于多维分割的视频结构化方法 |
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN111191078A (zh) * | 2020-01-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 基于视频信息处理模型的视频信息处理方法及装置 |
CN111538896A (zh) * | 2020-03-12 | 2020-08-14 | 成都云帆数联科技有限公司 | 基于深度学习的新闻视频细粒度标签智能提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117910A1 (en) * | 2018-10-16 | 2020-04-16 | Thomas WILLOMITZER | Methods and apparatus for generating a video clip |
CN109743642B (zh) * | 2018-12-21 | 2020-07-03 | 西北工业大学 | 基于分层循环神经网络的视频摘要生成方法 |
CN111401368B (zh) * | 2020-03-24 | 2023-04-18 | 武汉大学 | 一种基于深度学习的新闻视频标题提取方法 |
-
2020
- 2020-09-01 CN CN202010902006.3A patent/CN112004111B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN110197135A (zh) * | 2019-05-13 | 2019-09-03 | 北京邮电大学 | 一种基于多维分割的视频结构化方法 |
CN111191078A (zh) * | 2020-01-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 基于视频信息处理模型的视频信息处理方法及装置 |
CN111538896A (zh) * | 2020-03-12 | 2020-08-14 | 成都云帆数联科技有限公司 | 基于深度学习的新闻视频细粒度标签智能提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112004111A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112004111B (zh) | 一种全域深度学习的新闻视频信息抽提方法 | |
US11709883B2 (en) | Image based content search and recommendations | |
CN102414680B (zh) | 利用跨域知识的语义事件检测 | |
US20190065492A1 (en) | Zero-shot event detection using semantic embedding | |
US20200104318A1 (en) | Multi-modal image search | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
Mikriukov et al. | Unsupervised contrastive hashing for cross-modal retrieval in remote sensing | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN111062277A (zh) | 基于单目视觉的手语-唇语转化方法 | |
CN112085120A (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Husain et al. | Multimodal fusion of speech and text using semi-supervised LDA for indexing lecture videos | |
Zhang et al. | Vehicle license plate detection and recognition using deep neural networks and generative adversarial networks | |
Retsinas et al. | An alternative deep feature approach to line level keyword spotting | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
Negi et al. | Object detection based approach for an efficient video summarization with system statistics over cloud | |
Chen et al. | Dual-bottleneck feature pyramid network for multiscale object detection | |
Sowmyayani et al. | Content based video retrieval system using two stream convolutional neural network | |
Li et al. | Review network for scene text recognition | |
CN113536015A (zh) | 一种基于深度辨识度迁移的跨模态检索方法 | |
CN111523430B (zh) | 基于ucl的可定制交互式视频制作方法与装置 | |
CN117668262A (zh) | 基于人工智能语音与图像识别技术的声像档案利用系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |