CN112004111B - 一种全域深度学习的新闻视频信息抽提方法 - Google Patents

一种全域深度学习的新闻视频信息抽提方法 Download PDF

Info

Publication number
CN112004111B
CN112004111B CN202010902006.3A CN202010902006A CN112004111B CN 112004111 B CN112004111 B CN 112004111B CN 202010902006 A CN202010902006 A CN 202010902006A CN 112004111 B CN112004111 B CN 112004111B
Authority
CN
China
Prior art keywords
module
video
image
text
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010902006.3A
Other languages
English (en)
Other versions
CN112004111A (zh
Inventor
易黎
郭士串
刘奕伶
李念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202010902006.3A priority Critical patent/CN112004111B/zh
Publication of CN112004111A publication Critical patent/CN112004111A/zh
Application granted granted Critical
Publication of CN112004111B publication Critical patent/CN112004111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23106Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种全域深度学习的新闻视频信息抽提方法,属于图像数据处理技术领域,先对新闻视频中的各段新闻切分镜头,再对镜头打标签,计算标签相似度,相似的镜头合并构成一个主题,然后对主题视频分离音轨,得到的音频素材经过语音识别后生成的文本经Textrank算法生成文本摘要;再检测主题视频的关键帧,提取关键物体、知名人物、关键文字。本发明采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM‑CRF模型识别命名实体,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题。

Description

一种全域深度学习的新闻视频信息抽提方法
技术领域
本发明属于图像数据处理技术领域,涉及一种全域深度学习的新闻视频信息抽提方法。
背景技术
随着传播媒介的转变以及5G时代的到来,传统的以文字为载体的新闻日渐式微,而以视频等多媒体形式为载体的新闻不断涌现,承载了越来越多的信息量,这种改变给档案的管理和检索带来了巨大的挑战。新闻视频包含多维度的信息,主要包括语音信息、视觉信息、文字信息等,这就需要结合多种技术手段将其中的关键信息提取出来,并转换成普通的文本信息以方便管理和检索。语音信息的提取主要用到语音识别技术,语音识别一般包括声学模型和语言模型,声学模型中双向LSTM网络存在解码时延高的问题,语音模型中n-gram应用较为广泛,但当n较大时,存在数据稀疏的问题,导致估计结果不准确。视频信息提取模型中,I3D,S3D,P3D等通过3D卷积进行端到端联合时空建模,尽管能捕获时空特征,但是不可避免地引入了额外计算量。文字信息提取主要采用OCR技术,但视频中自然场景中的文字识别面临着图像背景复杂、分辨率低、字体多样、分布随意等挑战,OCR难以应付。
发明内容
本发明的目的是提供一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种全域深度学习的新闻视频信息抽提方法,包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
优选的,所述动态镜头为短视频数据。
优选的,在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
优选的,在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
Figure GDA0003647630040000041
W=diag(W(X1),...,W(Xn))
Figure GDA0003647630040000042
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,
Figure GDA0003647630040000043
表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
Figure GDA0003647630040000044
其中,pX(x)为图像各灰度级别出现的概率;
步骤
A5:计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,图像直方图与镜头直方图差异最小的即为该动态镜头的关键帧。
优选的,在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
Figure GDA0003647630040000051
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,
Figure GDA0003647630040000052
表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,
Figure GDA0003647630040000053
Figure GDA0003647630040000054
分别代表回看的阶数和前看的阶数,
Figure GDA0003647630040000055
Figure GDA0003647630040000056
分别为t-s1*i和t+s2*j对应的时不变系数;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符。
优选的,在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
Figure GDA0003647630040000061
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为feature map,大小是W×H×C;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值,k个边缘调整偏移;
优选的,在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
本发明所述的一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题,textrank算法中引入word2vec替换同现窗口计算词语间的相似性,采用BM25算法替换经典的TF-IDF算法计算句子间的相似性,TSM模型中使用位移操作,在不加任何参数计算量的基础上,实现时空建模,给视频自动生成标签,并结合镜头分割技术,实现视频的主题分割,针对新闻视频中复杂的文字背景,采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM-CRF模型识别命名实体。
附图说明
图1为本发明的流程图。
具体实施方式
如图1所示的一种全域深度学习的新闻视频信息抽提方法,包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
时间移位模块TSM在保持2D CNN的低复杂性的基础上,实现3D CNN的高性能。TSM尽可能多使用位移操作,把权值叠加操作放到2D CNN本身的卷积里去做,这样就可在不加任何参数计算量基础上,实现时间建模。TSM在时间维度上移动了部分通道,位移后多余的砍掉、空缺的补零,因此便于在相邻帧之间交换信息。但是太多通道进行时间位移,会损害2D CNN空间特征,太少通道进行时间位移,那么网络学习不到时间特征,残差TSM通过整合位移前后的特征,以解决此问题。得到镜头对应的标签,用BM25算法计算每个镜头标签的相似度,作为镜头的相似度,合并在时间维度相邻且相似度高的镜头为主题视频。
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
优选的,所述动态镜头为短视频数据。
优选的,在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
优选的,在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
本发明是先用BM25算法度量句子间的相似性,再用textrank模型生成文本摘要。
BM25算法是一种常见的用来做文本相似度的算法,主要就是计算一个句子里面所有词q1,q2,...,qm和另一个句子里面所有词d1,d2,...,dn的总相关度,公式如下:
Figure GDA0003647630040000101
Figure GDA0003647630040000102
其中,Wi为词语的权重,可以用逆向文档频率IDF替换,R(qi,dj)为两个句子间词语之间的相似性,通过计算词向量的余弦相似度可以得到;N为句子的数量,n(qi)为含词语qi的句子数量,IDF表示逆文档频率,Q表示一个句子,D表示另一个句子,m取值为一个句子的词语数,n取值为另一个句子的词语数,i表示一个句子的第i个词,j表示另一个句子的第j个词。
初始时,可以设置每个句子的重要性为1,摘要提取的过程就是通过不断地迭代,计算textrank值,提取最重要的句子作为文本摘要,其计算迭代公式如下:
Figure GDA0003647630040000111
其中,S(Vi)为句子i的重要性,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向句子i的句子集合,Out(Vi)是句子j指向的其他句子的集合,Weight(i,j)表示边的权值,b表示j能取到的值。
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
光流是目标、场景或摄像机在连续两帧图像间运动时造成的目标的运动表现。它代表着图像在平移过程中的二维矢量场,是通过二维图像来表示物体点三维运动的速度场,反映了微小时间间隔内由于运动形成的图像变化,来确定图像点上的运动方向和运动速率。而对于动态视频,使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域。
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
Figure GDA0003647630040000121
W=diag(W(X1),...,W(Xn))
Figure GDA0003647630040000122
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,
Figure GDA0003647630040000123
表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
Figure GDA0003647630040000124
其中,pX(x)为图像各灰度级别出现的概率,Hk表示运动区域;
步骤A5:计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,图像直方图与镜头直方图差异最小的即为该动态镜头的关键帧。
优选的,在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
本实施例考虑到语音的短时平稳特性,对分离得到的音轨样本要进行加窗分帧的操作,每帧语音的时长通常为10ms。
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标,能达到在不损失模型性能的同时又加速了模型解码效率的效果;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
Figure GDA0003647630040000131
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,
Figure GDA0003647630040000132
表示第l层记忆模块第t时刻的输出值,
Figure GDA0003647630040000133
表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,
Figure GDA0003647630040000134
Figure GDA0003647630040000135
分别代表回看的阶数和前看的阶数,
Figure GDA0003647630040000136
Figure GDA0003647630040000137
分别为t-s1*i和t+s2*j对应的时不变系数,i表示回看的第i阶,j表示前看的第j阶;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符。
CBHG语言模型的网络由embedding层、pre-net模块、CBHG模块构成。而CBHG模块由1-D convolution bank,highway network,bidirectional GRU构成。文本中的中文字符通过字典转化为index形式的数字形式作为模型的输入,模型第一次为嵌入层,通过不断的训练学习到语料库中每个字的词向量。接着为encoder pre-net模块,它共有两层,层与层之间的连接是全连接,第一层的隐藏单元数目与输入单元数目相等,而第二层的隐藏单元数目减半;两个隐藏层的激活函数均为ReLu,并保持0.5的dropout来提高泛化能力。之后为conv banks,这个卷积层有K个大小不同的1维的filter,用来提取不同长度的上下文信息,由于运用了padding,因此这k个卷积核输出的大小均是相同的,k个卷积核的输出堆积在一起,进入池化层,其卷积核步长为1,大小为2。highway层的结构为把输入同时放入到两个一层的全连接网络中,这两个网络的激活函数分别采用了ReLu和sigmoid函数,假定输入为input,ReLu的输出为output1,sigmoid的输出为output2,那么highway layer的输出为
output1*output2+input*(1-output2)。
最后highway层的输出经由双向GRU,再经过全连接层和激活函数argmax后,得到最终的输出结果。
优选的,在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
Figure GDA0003647630040000151
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距,i表示图像的第i个像素点,n表示反例图像,p表示正例图像;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为feature map,大小是W×H×C;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值(text和non-text proposal各有一个分数),k个边缘调整偏移(精修每个proposal的水平平移量);
优选的,在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
本实施例中,沿水平正方向,寻找和第i个锚框boxi水平距离小于50的候选Anchor,从候选Anchor中,挑出与boxi直方向重合度overlapv大于0.7的Anchor,挑选符合条件中Softmax score最大的第j个锚框boxj。沿水平负方向,寻找和boxj水平距离小于50的候选Anchor,从候选Anchor中,挑出与boxj竖直方向overlapv大于0.7的Anchor,挑出符合条件中Softmax score最大的第j个锚框boxk。如果第i个锚框的分值不小于第k个锚框的分值scorei>=socrek,那么设置Graph(i,j)=True,即第i个锚框到第j个锚框的连接图是最长连接。
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
CTC通过梯度
Figure GDA0003647630040000161
调整LSTM的参数w,使得对于输入样本为π∈B-1(z)时有p(l|x)取得最大。其中π∈B-1(z)代表所有经过B变换后是z的路经π,w表示LSTM的参数,l表示输出的文本序列,B表示一种转换,p表示条件概率,x表示输入,π表示路经。
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
在BiLSTM的上面挂一层条件随机场模型作为模型的解码层,
CRF概率模型的具体形式:
Figure GDA0003647630040000162
其中,
Figure GDA0003647630040000171
Figure GDA0003647630040000172
和by′,y分别表示由标签y′转移到标签y的权重和偏差,z表示输入序列,Y(z)表示句子z可能的标签序列集合,n表示句子的字数,i表示第i个字,
Figure GDA0003647630040000173
表示得分函数,也即BiLSTM模型得输出,p表示概率模型,T表示转置。
在训练过程中,采用极大似然估计原理对其进行优化,其目标函数为:
y*=arg maxy∈y(z)p(y|z;W,b);
其中,
y*表示目标函数,y表示标签,p表示概率模型。
本发明首先用感知哈希算法将新闻视频分割为若干个镜头,使用MoviePy库提取新闻视频中的音轨素材。为了使用DFSMN模型,需要部署Kaldi环境。将汉语语音语料库存储到相应的路经,配置run.sh脚本,设置运行环境,指定训练数据集,修改训练模型为DFSMN,即可开始训练。将训练好的模型文件放到models目录下,分离的音频放到audio目录下即可进行语音识别。配置HanLP环境,按NLP分词模式对文本进行分词、词性标注和去停词得到关键词,计算关键词的IDF值,以此作为关键词的权重,用BM25算法计算句子间的相似性,以句子为节点相似性矩阵为边用textrank算法迭代计算句子的重要性,摘取最重要的句子作为文本摘要。TSM视频自动打标模型训练可以加载在ImageNet上训练的ResNet50权重作为初始化参数以加快训练速度。然后使用OpenCV对视频进行分帧,使用OpenCV中的Shi-Tomasi算法进行角点检测,用角点创建掩膜,使用光流进行特征点匹配跟踪目标,在计算运动目标的图像熵,以此为依据抽取动态视频的关键帧。得到的关键帧输入YOLOv3进行目标物体检测。收集知名人物的图像各若干张,并将图像尺寸缩放到160×160对于静态视频,将准备的数据输入Facenet进行训练。计算镜头内每帧图像的灰度直方图,以与灰度直方图的平均值差异最小的作为关键帧。使用天池ICPR2018数据集,统一标签为ICDAR格式,再将原始数据标签需要转化为宽度为16的anchor标签,缩放图片保证文本框label的最短边要等于600,相应的anchor也要相应倍数的缩放。将准备好的数据输入CTPN模型进行训练,模型预测的结果是一系列的anchors,需要按照一定规则组合成文本框,取文本框对应的图片输入CRNN-CTC模型输出文字识别结果。对语料库按照BIO模式进行序列标注,将样本输入BiLSTM-CRF模型进行训练。最后融合语音生成的文本、视频生成的文本和场景文字识别生成的文本,得到新闻视频的描述信息并分新闻视频建立档案。
本发明所述的一种全域深度学习的新闻视频信息抽提方法,解决了同时提取新闻视频中的语音信息、视频信息和文字信息的技术问题,textrank算法中引入word2vec替换同现窗口计算词语间的相似性,采用BM25算法替换经典的TF-IDF算法计算句子间的相似性,TSM模型中使用位移操作,在不加任何参数计算量的基础上,实现时空建模,给视频自动生成标签,并结合镜头分割技术,实现视频的主题分割,针对新闻视频中复杂的文字背景,采用CTPN串联CRNN+CTC模型,能高效地提取图像中的文字信息,然后用BiLSTM-CRF模型识别命名实体。

Claims (4)

1.一种全域深度学习的新闻视频信息抽提方法,其特征在于:包括以下步骤:
步骤1:建立视频采集服务器、中心分布式服务器集群和客户端服务器;
视频采集服务器用来采集新闻视频,并将新闻视频发送给中心分布式服务器集群进行存储和处理;
在中心分布式服务器集群中建立视频预处理层、视频解码层、音频解码层、图像解析层、文本解析层和数据库;
在视频预处理层建立视频缓存模块和镜头切割模块,视频缓存模块用于缓存由视频采集服务器发送过来的新闻视频,镜头切割模块用于对新闻视频进行镜头切割,生成动态镜头;
在视频解码层建立镜头标签模块、相似性计算模块、镜头拼接模块、图像处理模块和关键帧缓存模块,镜头标签模块用于对动态镜头进行标记,相似性计算模块用于对标记后的动态镜头相似度计算,得到相似镜头,镜头拼接模块用于对相似镜头进行拼接,得到主题视频,图像处理模块用于解析主题视频得到关键帧;
在音频解码层建立音轨分离模块、音素提取模块和文字提取模块,音轨分离模块用于对主题视频进行图像和音频的分离,得到音频的音轨数据,音素提取模块用于对音轨进行提取,生成音素,文字提取模块用于对音素进行音频文字转换,生成文字数据;
在图像解析层建立知名人物检测模块、关键目标检测模块和文本定位模块,知名人物检测模块用于对关键帧中的知名人物头像进行识别,关键目标检测模块用于对关键帧中的关键目标进行识别,文本定位模块用于对关键帧中的文字进行定位;
在文本解析层建立摘要生成模块、文字识别模块和命名识别模块,摘要生成模块用于对文字数据生成文本摘要;
步骤2:视频采集服务器收集互联网中的新闻视频,并将新闻视频发送给中心分布式服务器集群,新闻视频中包含来源地址;
步骤3:中心分布式服务器集群接收到新闻视频后,在视频预处理层对新闻视频进行预处理:首先在视频缓存模块对新闻视频进行缓存,然后在镜头切割模块中通过感知哈希算法对新闻视频进行镜头分割,得到数个动态镜头;
步骤4:在视频解码层,由镜头标签模块通过TSM时空模型对每一个动态镜头进行标记,生成每一个动态镜头的标签;
步骤5:相似性计算模块通过BM25算法对所有标签进行相似度计算,镜头拼接模块将标签相似的动态镜头拼接成主题视频;
步骤6:图像处理模块获取主题视频,对主题视频中的每一帧图像采用光流法、灰度直方图法、Lucas–Kanade算法和图像熵计算法进行处理,得到关键帧,并发送给关键帧缓存模块进行缓存;
在执行步骤5到步骤6时,具体包括如下步骤:
步骤A1:用BM25算法计算每个动态镜头的标签的相似度,作为动态镜头的相似度,合并在时间维度相邻且相似度高的动态镜头为主题视频;
步骤A2:利用光流法来确定主题视频的图像点上的运动方向和运动速率;
步骤A3:使用Lucas–Kanade算法来计算光流微粒矢量场提取运动区域:
ATW2Av=ATW2b;
Figure FDA0003949547530000021
W=diag(W(X1),...,W(Xn))
Figure FDA0003949547530000022
其中,A表示邻域内n个点的亮度差分矩阵,v表示目标的速度,I表示亮度即像素的灰度值,b表示邻域内n个点亮度随时间变化的矩阵,W表示窗口权重函数,该函数使得邻域中心的加权比周围的大,T表示矩阵转置,X1、X2、…、Xn表示邻域内的n个点,n表示邻域内有n个点,diag表示对角矩阵,t表示时间,
Figure FDA0003949547530000031
表示微分;
步骤A4:计算运动区域的图像熵,图像熵越大,图像所包含的信息量越大,以图像熵为依据提取每个动态镜头的关键帧,图像熵的计算公式如下:
Figure FDA0003949547530000032
其中,pX(x)为图像各灰度级别出现的概率,X表示运动区域内的点,Hk表示运动区域;
步骤A5:得到的关键帧输入YOLOv3进行目标物体检测,收集知名人物的图像各若干张,并将图像尺寸缩放到160×160对于静态视频,将准备的数据输入Facenet进行训练,计算镜头内每帧图像的灰度直方图,计算动态镜头中每一帧图像的灰度直方图,再取其平均值作为动态镜头的灰度直方图,以与灰度直方图的平均值差异最小的作为关键帧;
步骤7:在音频解码层,音轨分离模块对主题视频进行音轨分离,得到音轨样本,音轨样本包括声谱图或频谱图;
步骤8:音素提取模块通过DFSMN-CBHG语音识别方法对音轨样本进行提取,得到音素;
步骤9:文字提取模块根据音素将音频转化文字数据;
在执行步骤8到步骤9时,具体包括如下步骤:
步骤B1:对音轨样本进行加窗分帧的处理,得到语音帧;
步骤B2:将相邻时刻的语音帧进行绑定作为输入,预测这些语音帧的目标输出得到的一个平均输出目标;
步骤B3:在DFSMN模型中,在不同层之间的记忆模块上添加跳转连接,使低层记忆模块的输出直接累加到高层记忆模块里,高层记忆模块的梯度直接赋值给低层的记忆模块,生成拼音符号序列,记忆模块的更新公式如下:
Figure FDA0003949547530000041
其中,H变换表示低层记忆模块到高层记忆模块的连接函数,
Figure FDA0003949547530000042
表示第l-1层记忆模块第t时刻的输出,s1和s2分别表示历史和未来时刻的编码步幅因子,
Figure FDA0003949547530000043
Figure FDA0003949547530000044
分别代表回看的阶数和前看的阶数,
Figure FDA0003949547530000045
Figure FDA0003949547530000046
分别为t-s1*i和t+s2*j对应的时不变系数;
步骤B4:利用CBHG语言模型将拼音符号序列转换为中英文字符;
步骤10:在图像解析层,知名人物检测模块调取关键帧,利用YOLOv3模型做目标物体检测和职业检测,利用Facenet模型辨别知名人物;
步骤11:关键目标检测模块利用Facenet模型对关键帧中的目标物体进行识别;
步骤12:文本定位模块利用CTPN模型检测关键帧中文字位置,生成包含文字的图像;
在执行步骤10到步骤12时,具体包括如下步骤:
步骤C1:YOLOv3采取上采样和融合做法,融合了3个尺度的单元格,在多个尺度的融合特征图上分别独立做检测,每个尺度下分配3个Anchor Box,其初始值由K-means聚类算法产生,每个单元格输出(1+4+C)*3个值,即,4个定位信息、1个置信度得分和C个条件类别概率,bounding box利用多个逻辑回归进行多标签分类,每一个bounding box要预测自身位置(x,y,w,h)和confidence共5个值,每个单元格还要预测一个类别信息,损失函数采用的二值交叉熵损失;
步骤C2:FaceNet由批量输入层和深度CNN构成,然后进行L2归一化,从而实现面部数据嵌入到欧几里得空间,引入三元组损失函数,输入为三张图片Triplet,分别为固定影像A,反例图像N和正例图像P,其中,固定影像A与正例图像P为同一人,与反例图像N为不同人;
利用三重损失将固定影像A与正例图像P之间的距离最小化,同时将固定影像A与反例图像N之间的距离最大化,使固定影像A与反例图像N的距离恒大于α,计算公式如下:
Figure FDA0003949547530000051
其中,f(x)为图像x到特征空间的映射,α为超参数,为使让d(A,P)与d(N,P)之间总存在一个差距,i表示图像的第i个像素点,n表示反例图像,p表示正例图像;
步骤C3:CTPN模型使用VGG16作为base net提取特征,得到conv5_3的特征作为featuremap,大小是W×H×C,H和W分别是feature map的高度和宽度,C是feature map的通道数;在feature map上使用大小为3×3的滑动窗进行滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移;将特征向量输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;
CTPN模型输出持续的固定宽度细粒度text proposal,输出层部分主要有三个输出:2k个y轴坐标,2k个分值,k个边缘调整偏移;
步骤13:在文本解析层,摘要生成模块获取所述文字数据,利用textrank模型生成文本摘要;
步骤14:文字识别模块获取包含文字的图像,利用CRNN-CTC的方法来进行文字识别,生成文本框文字数据;
步骤15:命名识别模块获取文本框文字数据,再用BiLSTM-CRF进行命名实体识别,生成关键字;
步骤16:数据库存储新闻视频、文本摘要、主题视频和关键字;
步骤17:客户端调取新闻视频、文本摘要、主题视频和关键字,并通过屏幕展示给用户查看。
2.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:所述动态镜头为短视频数据。
3.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:在执行步骤3时,首先将新闻视频分帧为不同的图像,将每张图像调整缩小为固定尺寸的小图像,再将小图像转换成灰度图像,对比每个像素的灰度与固定小图像的平均值:大于或等于平均值记为1,小于平均值记为0,从而就构成一串固定位的整数,生成图像的指纹,然后计算汉明距离,即不同位的个数,达到一定的阈值即为视频的镜头边界。
4.如权利要求1所述的一种全域深度学习的新闻视频信息抽提方法,其特征在于:在执行步骤13到步骤15时,具体步骤如下:
步骤D1:通过text proposal确定最终的文本位置;使用标准的非极大值抑制算法来过滤多余的text proposal;最后使用基于图的文本行构造算法,将得到不同的文本段合并成文本行;
步骤D2:CRNN+CTC的方法进行文字识别时,使用标准的CNN网络提取文本图像的卷积特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,使用转录层CTC进行预测得到文本序列;
步骤D3:通过一个BiLSTM计算得到某个词标注为各类标签的势能分布,然后取这些标签里面势能最大的那个标签作为分类结果输出。
CN202010902006.3A 2020-09-01 2020-09-01 一种全域深度学习的新闻视频信息抽提方法 Active CN112004111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010902006.3A CN112004111B (zh) 2020-09-01 2020-09-01 一种全域深度学习的新闻视频信息抽提方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010902006.3A CN112004111B (zh) 2020-09-01 2020-09-01 一种全域深度学习的新闻视频信息抽提方法

Publications (2)

Publication Number Publication Date
CN112004111A CN112004111A (zh) 2020-11-27
CN112004111B true CN112004111B (zh) 2023-02-24

Family

ID=73465686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010902006.3A Active CN112004111B (zh) 2020-09-01 2020-09-01 一种全域深度学习的新闻视频信息抽提方法

Country Status (1)

Country Link
CN (1) CN112004111B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置
CN112579823B (zh) * 2020-12-28 2022-06-24 山东师范大学 基于特征融合和增量滑动窗口的视频摘要生成方法及系统
CN112468877B (zh) * 2021-02-01 2021-05-04 北京中科大洋科技发展股份有限公司 一种基于ai内容分析和ocr识别的智能新闻编目方法
CN112905820B (zh) * 2021-03-30 2022-11-11 山西大学 一种基于逻辑学习的多图检索方法
CN113127622B (zh) * 2021-04-29 2023-06-09 西北师范大学 一种从语音到图像的生成方法及系统
CN113361249B (zh) * 2021-06-30 2023-11-17 北京百度网讯科技有限公司 文档判重方法、装置、电子设备和存储介质
CN115883873A (zh) * 2021-09-28 2023-03-31 山东云缦智能科技有限公司 一种基于视频基因的视频对比方法
CN114218438B (zh) * 2021-12-23 2023-03-21 北京百度网讯科技有限公司 视频数据处理方法、装置、电子设备和计算机存储介质
CN114598933B (zh) * 2022-03-16 2022-12-27 平安科技(深圳)有限公司 一种视频内容处理方法、系统、终端及存储介质
CN116311538B (zh) * 2023-05-18 2023-09-01 江苏弦外音智造科技有限公司 一种分布式音视频处理系统
CN117676136B (zh) * 2023-11-16 2024-06-14 广州群接龙网络科技有限公司 一种群接龙数据处理方法及系统
CN117573870B (zh) * 2023-11-20 2024-05-07 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质
CN118609034B (zh) * 2024-08-08 2024-10-15 华侨大学 基于帧级时间聚合策略的沉浸式视频质量评价方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197135A (zh) * 2019-05-13 2019-09-03 北京邮电大学 一种基于多维分割的视频结构化方法
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN111191078A (zh) * 2020-01-08 2020-05-22 腾讯科技(深圳)有限公司 基于视频信息处理模型的视频信息处理方法及装置
CN111538896A (zh) * 2020-03-12 2020-08-14 成都云帆数联科技有限公司 基于深度学习的新闻视频细粒度标签智能提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117910A1 (en) * 2018-10-16 2020-04-16 Thomas WILLOMITZER Methods and apparatus for generating a video clip
CN109743642B (zh) * 2018-12-21 2020-07-03 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN111401368B (zh) * 2020-03-24 2023-04-18 武汉大学 一种基于深度学习的新闻视频标题提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN110197135A (zh) * 2019-05-13 2019-09-03 北京邮电大学 一种基于多维分割的视频结构化方法
CN111191078A (zh) * 2020-01-08 2020-05-22 腾讯科技(深圳)有限公司 基于视频信息处理模型的视频信息处理方法及装置
CN111538896A (zh) * 2020-03-12 2020-08-14 成都云帆数联科技有限公司 基于深度学习的新闻视频细粒度标签智能提取方法

Also Published As

Publication number Publication date
CN112004111A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
US11709883B2 (en) Image based content search and recommendations
CN102414680B (zh) 利用跨域知识的语义事件检测
US20190065492A1 (en) Zero-shot event detection using semantic embedding
US20200104318A1 (en) Multi-modal image search
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN110390363A (zh) 一种图像描述方法
Mikriukov et al. Unsupervised contrastive hashing for cross-modal retrieval in remote sensing
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Husain et al. Multimodal fusion of speech and text using semi-supervised LDA for indexing lecture videos
Zhang et al. Vehicle license plate detection and recognition using deep neural networks and generative adversarial networks
Retsinas et al. An alternative deep feature approach to line level keyword spotting
Hoxha et al. Remote sensing image captioning with SVM-based decoding
Negi et al. Object detection based approach for an efficient video summarization with system statistics over cloud
Chen et al. Dual-bottleneck feature pyramid network for multiscale object detection
Sowmyayani et al. Content based video retrieval system using two stream convolutional neural network
Li et al. Review network for scene text recognition
CN113536015A (zh) 一种基于深度辨识度迁移的跨模态检索方法
CN111523430B (zh) 基于ucl的可定制交互式视频制作方法与装置
CN117668262A (zh) 基于人工智能语音与图像识别技术的声像档案利用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant