CN112818906B - 一种基于多模态信息融合理解的全媒体新闻智能编目方法 - Google Patents
一种基于多模态信息融合理解的全媒体新闻智能编目方法 Download PDFInfo
- Publication number
- CN112818906B CN112818906B CN202110198428.1A CN202110198428A CN112818906B CN 112818906 B CN112818906 B CN 112818906B CN 202110198428 A CN202110198428 A CN 202110198428A CN 112818906 B CN112818906 B CN 112818906B
- Authority
- CN
- China
- Prior art keywords
- news
- text
- fusion
- cataloging
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/43—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于多模态信息融合的全媒体新闻智能编目方法,对全媒体新闻中的视频信息、语音信息、字幕条信息、人物信息进行统一表征与融合理解来获得多模态融合特征,使用多模态融合特征实现新闻的自动切片、自动编目描述、自动场景分类。本发明的有益效果在于:实现了面向全媒体新闻的自动化综合编目的完整流程,通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物,提高了编目方法的准确率与泛化性,并大幅减少人工编目时间。
Description
技术领域
本发明涉及智能媒体领域,具体涉及一种基于多模态信息融合理解的全媒体新闻智能编目方法。
背景技术
随着智能移动设备的普及以及数字媒体内容的发展,包含图像、视频、语音、文本等全媒体新闻内容被高频生产并快速传播,海量资源与高人力成本的问题使得传媒行业越来越迫切的寻求在分类、编目、检索等资源管理流程中的智能化方法。
全媒体新闻是典型的多模态内容载体,它包含了新闻现场或演播室影像、新闻字幕文本、新闻播报语音等多模态信息,这使得面向单模态处理的智能技术无法有效替代编目任务中的人工流程。相比于单模态,多模态之间的互补性、关联性提供了求解每种模态潜在解释因素的监督信息,对多模态信息进行表征、转化、融合等综合的处理更接近于人类智能对自然界的感知与理解模式。因此,如何融合新闻内容中多种模态信息,实现资源的自动化编目流程,是媒体行业广泛存在的需求和挑战。
目前,不论是以电视台为代表的传统广电单位,还是以今日头条为代表的新兴自媒体社区,人工编目仍然是媒体内容分类入库的普遍方法,其一般步骤是:编目人员先将新闻视频按场景或镜头进行切片(拆条)标注,然后对各个片段的内容进行文本描述、关键词描述、广电分类描述、关键人物描述等,最后提交入库。高质量的新闻编目可以提供优质的资源检索、资源点播、资源推荐等服务,是全媒体时代重要的基础业务流程。尽管近年来有云媒资系统、深度学习等新框架或新技术的辅助,增加了新闻编目流程的自动化程度,但它们常限于对资源的云端管理,或是对单模态内容的单任务处理,无法覆盖编目所需的完整流程以实现全面的智能化流水线。我们将当前已有的编目方法归纳如下:
1.传统编目管理系统:采用手动的方式进行新闻资源的切片、描述、分类等,全部操作取决于编目人员的主观判断。该方法普遍用于传媒行业的传统媒资管理系统,管理人员首先登录系统,然后对待编资源进行相应操作,最后提交系统完成入库。
2.具有智能拆条辅助的编目系统:采用基于镜头转换的分割方法,将新闻资源拆分为独立片段(即自动标注拆条的起止时间),编目人员对切片效果进行确认,然后手动完成片段描述、分类等后续工作。
3.具有智能场景分类的编目系统:采用深度学习等技术对视频场景进行智能分类,自动为视频标注“综艺”、“体育”、“动画”等场景标签,编目人员对分类标签进行确认,然后手动完成拆条、片段描述、分类等后续工作。
4.综合智能编目系统:包含上述1、2、3条中若干功能的综合系统,但系统中的各个功能都是相对独立的,即针对同一资源分别运行对应的算法以生成基于单模态信息的结果。
上述编目方法存在两点主要缺陷。第一,系统中涉及到的智能算法均是面向单模态内容的提取、分析和生成方法,即使计算机视觉、自然语言处理、语音识别等人工智能技术在单模态信息的处理任务上已经达到了接近或超越人脑的能力,但单模态的信息往往难以提供场景或现象中的完整知识;在全媒体新闻编目流程中,由于缺少对新闻内容包含的多模态信息的统一表征(融合)与综合分析(理解)的有效方法,大量的分类、标注、描述、审核工作仍然需要投入较多的人工成本来完成。第二,智能编目系统中的视频镜头分割、视频语义描述等方法是从已有的机器学习任务场景移植来的,这些方法在面向新闻报道场景时存在兼容问题:基于镜头转换的分割仅考虑前后帧的变化,常用于关键帧提取的前置步骤,但它没有考虑同一场景中事件的连续性,如同一事件中远景与中景的镜头的切换在新闻编目中一般认为是一个片段,不需要加以分割;视频语义描述常分析场景中的动作及事件的描述,但它没有聚焦核心人物的行为事件,这与编目中的片段内容描述需求不符。
发明内容
本发明针对现有编目过程中新闻内容单模态处理模式所导致的效果瓶颈与人工依赖问题,以及面向新闻报道内容的编目算法兼容性问题,提出一种基于多模态信息融合理解的全媒体新闻智能编目方法,该方法提升了从新闻报道中获取编目所需知识的完整性、有效性和兼容性,从而实现更高准确度与自动化程度的智能编目流程。
一种基于多模态信息融合理解的全媒体新闻智能编目方法,包括以下步骤:
1)获取原始新闻视频,分割镜头片段并定位场景关键帧;
2)从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段;
3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本;
4)对步骤2)获得的切片片段进行语音识别获得语音文本;
5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本;
6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配,得到人物信息文本;
7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本,输入到多模态融合的生成模型处理,生成新闻关键词及综合编目描述,经过整理和组装后输出,完成新闻智能编目。
步骤1)中,获取原始新闻视频,分割镜头片段并定位场景关键帧,具体包括:
将原始新闻视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,将窗口内的拥有最大差异值的帧作为镜头边界帧,将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为Di,i为从1开始的片段序号),抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段Di中的场景关键帧记为ki)。
步骤2)中,从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段,具体包括:
A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧ki的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签(预设的新闻场景分类标签包含“演播室”、“会议现场”、“户外连线”等新闻报道中的常见场景);
B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理;
C):将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段,生成多个切片片段。
步骤B)中,具体包括:若ki的场景分类标签与ki-1的场景分类标签重合率大于预设的阈值(本发明中设置为0.5),则删除片段Di与Di-1间的镜头边界标记,取两者的场景分类标签并集作为合并后片段的新分类标签。
步骤3)中,基于步骤2)的切片片段,通过已训练的新闻视频编目描述模型生成各个片段的视频描述,具体方法是:通过卷积神经网络模块提取片段的视觉特征,然后将这些视觉特征传入长短期记忆网络模块,生成描述新闻内容的自然语言文本,该文本是符合新闻编目任务所需的描述语言风格(结构)的。
步骤4)中,基于步骤2)的切片片段的音频流,通过语音识别技术对音频特征进行提取和转换,生成语音文本。
步骤5)中,从步骤2)的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧),然后基于抽取到的图像帧,通过已训练的用于图像中文字识别的卷积神经网络来提取字幕条文本,最后对提取到的文本进行比对去重,输出最终的字幕识别文本。
步骤6)中,基于步骤2)的切片片段,通过已经经过人脸识别任务训练的卷积神经网络,对片段中的人脸特征进行提取,将提取的人脸特征与新闻人物库中的人脸特征进行匹配,若相似度达到预设的阈值(本发明设置为0.72),则获取该人物的信息文本。
步骤7)中,步骤3)得到的新闻描述文本作为主要特征,步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征,输入到多模态融合的生成模型中。
多模态融合的生成模型处理,具体包括:
将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中,使文本转化为语义特征向量,然后将这些向量通过统一映射层分别映射到统一的语义空间中,接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征,最后将新闻融合特征通过已训练的文本解码层来生成综合编目描述以及新闻关键词的关键度(即该词作为新闻关键词的推荐程度)。
所述的多模态融合的生成模型采用以下公式:
文本嵌入:Vx=x1v1+x2v2+…+xnvn
式中:x为被嵌入文本基于嵌入字典的One-hot编码,n为嵌入字典的维度;若xi为x的非0位,则vi为该文本对应嵌入字典中的向量行;Vx为该文本嵌入后的向量;
式中:A,b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数;k为输入向量x的维度,m为映射后的统一域的向量维度;ai,j即为矩阵A中第i行第j列的权重系数,bi即为向量b中排序为i的向量系数。
式中:xi为模态i在统一语义空间中的向量,wi为xi对应的新闻语义权重系数;A,b和f(·)分别表示融合层的末层的权重矩阵、偏置向量和激活函数;
文本解码:该过程由多个长短期记忆网络(Long Short-Term Memory,LSTM)堆叠实现:
L1=LSTM1(R)
Li+1=LSTMi+1(Li)
C(Li)=f(Li;W,b)
Outputtext=[OL1,OL2,OL3,…]
Outputcriticality=[C(L1),C(L2),C(L3),…]
式中:R为融合后的特征向量;LSTMi(·)为第i个长短期记忆网络的函数表示,它的特征输出为Li,文本输出为OLi;f(·;W,b)为关键度运算的函数表示,其中W,b分别为承担该运算的层的权重矩阵与偏置向量,基于Li运算获得的关键度表示为Outputtext为最终生成的完整文本描述,它是各个长短期记忆网络的文本输出所组成的队列;Outputcriticality为文本描述中各个词对应的关键率所组成的队列。
经过整理和组装后输出的结构包括:“原视频id”,“片段序列id”,“片段起止时间”,“自动描述文本”,“自动识别人物”,“自动场景分类”,“字幕识别文本”,“语音识别文本”,“自动新闻关键词”。
具体地,一种面向全媒体新闻报道的多模态信息智能编目的自动化流程,包括以下步骤:
第1步:对原始新闻视频进行预处理,并搜索镜头边界帧以及镜头内场景关键帧,具体过程包括:将完整视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,将窗口内的拥有最大差异值的帧作为镜头边界帧,将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为Di,i为从1开始的片段序号),抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段Di中的场景关键帧记为ki)。
第2步:通过已训练的用于新闻场景分类任务的残差网络来提取第1步中各个场景关键帧ki的视觉特征并推理获得最高匹配度的面向新闻场景的分类标签(预设的新闻场景分类标签包含“演播室”、“会议现场”、“户外连线”等新闻报道中的常见场景)。
第3步:基于第2步中获得的各个片段的场景分类标签进行相邻同场景合并处理,具体流程是:若ki的场景分类标签与ki-1的场景分类标签重合率大于预设的阈值(本发明中设置为0.5),则删除片段Di与Di-1间的镜头边界标记,取两者的场景分类标签并集作为合并后片段的新分类标签。
第4步:将第3步处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段。
第5步:基于第4步的切片片段,通过已训练的新闻视频编目描述模型生成各个片段的视频描述,具体方法是:通过卷积神经网络模块提取片段的视觉特征,然后将这些视觉特征传入长短期记忆网络模块,生成描述新闻内容的自然语言文本,该文本是符合新闻编目任务所需的描述语言风格(结构)的。
第6步:基于第4步的切片片段的音频流,通过语音识别技术对音频特征进行提取和转换,生成语音文本。
第7步:从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧),然后基于抽取到的图像帧,通过已训练的用于图像中文字识别的卷积神经网络来提取字幕条文本,最后对提取到的文本进行比对去重,输出最终的字幕识别文本。
第8步:基于第4步的切片片段,通过已经经过人脸识别任务训练的卷积神经网络,对片段中的人脸特征进行提取,将提取的人脸特征与新闻人物库中的人脸特征进行匹配,若相似度达到预设的阈值(本发明设置为0.72),则获取该人物的信息文本。
第9步:以第5步中获得的描述文本为主要特征,以第2步中获取的新闻场景分类标签、第6步中获取的语音文本、第7步中获取的字幕文本、第8步中获取的人物信息文本为辅助特征,通过如图2所示的新闻内容多模态融合的生成模型来消除冗余信息,生成若干有效且唯一的新闻关键词及综合编目描述,具体方法是:将不同模态获得的文本特征输入到已通过新闻语料文本训练的嵌入层中,使文本转化为语义特征向量,然后将这些向量通过统一映射层分别映射到统一的语义空间中,接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征,最后将融合特征通过已训练的文本解码层来生成综合编目描述文本以及本文中各个词的关键度(即该词作为新闻关键词的推荐程度)。上述的模型中的处理过程可以用如下公式进行表示:
文本嵌入:Vx=x1v1+x2v2+…+xnvn
式中:x为被嵌入文本基于嵌入字典的One-hot编码,n为嵌入字典的维度;若xi为x的非0位,则vi为该文本对应嵌入字典中的向量行;Vx为该文本嵌入后的向量
式中:A,b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数;k为输入向量x的维度,m为映射后的统一域的向量维度;ai,j即为矩阵A中第i行第j列的权重系数,bi即为向量b中排序为i的向量系数。
式中:xi为模态i在统一语义空间中的向量,wi为xi对应的新闻语义权重系数;A,b和f(·)分别表示融合层的末层的权重矩阵、偏置向量和激活函数。
文本解码:该过程由多个长短期记忆网络(Long Short-Term Memory,LSTM)堆叠实现:
L1=LSTM1(R)
Li+1=LSTMi+1(Li)
C(Li)=f(Li;W,b)
Outputtext=[OL1,OL2,OL3,…]
Outputcriticality=[C(L1),C(L2),C(L3),…]
式中:R为融合后的特征向量;LSTMi(·)为第i个长短期记忆网络的函数表示,它的特征输出为Li,文本输出为f(·;W,b)为关键度运算的函数表示,其中W,b分别为承担该运算的层的权重矩阵与偏置向量,基于Li运算获得的关键度表示为/>Outputtext为最终生成的完整文本描述,它是各个长短期记忆网络的文本输出所组成的队列;Outputcriticality为文本描述中各个词对应的关键率所组成的队列。
第10步:对第1-9步中涉及编目知识的信息进行组装,输出为结构包括{“原视频id”,“片段序列id”,“片段起止时间”,“自动描述文本”,“自动识别人物”,“自动场景分类”,“字幕识别文本”,“语音识别文本”,“自动新闻关键词”}的数据并存入数据库。步骤1-10完整实现了新闻视频智能编目的自动化流程。
与现有技术相比,本发明具有如下优点:
本发明实现视频切片和场景分类任务的一种面向新闻场景的视频快速切片与分类方法,与已有方法的区别在于:(1)直接面向新闻报道视频的镜头切分需求:已有的基础镜头分割方法仅依靠搜索镜头边界帧将视频分割为多个镜头片段,而没有考虑通过多个镜头表现的同一场景内容,这与新闻编目切片的需求不符,本发明提出的方法对相邻镜头的相似场景进行合并,避免了镜头切分粒度过细的情况;(2)低复杂度的新闻场景判定:已有基于视觉特征的视频分类方法通过目标检测、视频流特征提取分析来获得视频分类标签,效果较好但复杂度很高,本发明提出的方法在镜头切分的过程中同步对场景进行分类,并且只对片段中的一帧图像进行视觉特征提取和分析,在保证新闻场景分类可靠的前提下尽量降低复杂度。
本发明针对全媒体新闻内容的编目需求,提出了一种基于多模态信息融合理解的智能编目方法,可以实现新闻视频、播报语音、新闻字幕条、新闻人物的统一表征与融合理解,自动化的生成综合编目信息。本发明方法实现了面向全媒体新闻的自动化综合编目的完整流程,通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物,提高了编目方法的准确率与泛化性,并大幅减少人工编目时间。
附图说明
图1为本发明基于多模态信息融合理解的全媒体新闻智能编目方法的流程示意图;
图2为本发明新闻智能编目流程示意图;
图3为本发明新闻内容多模态融合的生成模型的示意图;
图4为本发明面向新闻场景的视频快速切片与分类方法的流程示意图。
具体实施方式
一种基于多模态信息融合的全媒体新闻智能编目方法,包括:面向全媒体新闻报道的多模态信息智能编目的自动化流程;将多模态新闻信息进行融合并生成新闻关键词及综合编目描述的方法。面向全媒体新闻报道的多模态信息智能编目的自动化流程,包括:面向新闻场景的视频快速切片与分类方法;将切分片段进行面向新闻报道的自动视频描述、新闻报道语音识别、新闻字幕条识别、新闻人物匹配;将多模态新闻信息进行融合后生成综合编目信息。
将多模态新闻信息进行融合并生成新闻关键词及综合编目描述的方法,包括:将新闻片段图像信息、新闻片段语音信息、新闻片段字幕条信息、新闻片段人物信息作为输入;将新闻内容中的多模态特征转换为语义文本,并映射到统一的语义空间中进行融合;基于统一空间中的新闻特征生成新闻关键词及新闻综合编目描述。
面向新闻场景的视频快速切片与分类方法,包括:通过帧间差异快速定位镜头分界帧及新闻场景关键帧;基于新闻场景关键帧图像提取视觉特征,进行快速的场景分类标签判定;对场景分类标签重合率高的相邻镜头片段进行合并,获取符合新闻编目需求的视频切片(拆条)片段。
如图1和图2所示,一种基于多模态信息融合的全媒体新闻智能编目方法,包括以下步骤:
第1步:将完整视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,设置一个镜头边界的可能帧的队列N,初始为空集。以10帧为窗口范围,以8帧为步长,从视频的初始帧开始,循环以下过程:搜索当前窗口内差异值最大的帧,判断该帧与最后加入队列N的帧的步长距离,若距离大于预设的最小镜头长度,则将该帧加入队列N。将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为Di,i为从1开始的片段序号),抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段Di中的场景关键帧记为ki)。
第2步:构建新闻场景分类图片数据集,为图片设置“演播室”、“会议现场”、“户外连线”等新闻报道中的常见的场景标签,对面向新闻场景分类任务的残差网络进行训练。通过训练后的残差网络来提取第1步中各个场景关键帧ki的视觉特征并推理获得最高匹配度的面向新闻场景的分类标签。
第3步:基于第2步中获得的各个片段的场景分类标签进行相邻同场景合并处理,具体流程是:若ki的场景分类标签与ki-1的场景分类标签重合率大于预设的阈值(本发明中设置为0.5),则删除片段Di与Di-1间的镜头边界标记,取两者的场景分类标签并集作为合并后片段的新分类标签。
第4步:将第3步处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段。
第5步:基于第4步的切片片段,通过已训练的新闻视频编目描述模型生成各个片段的视频描述。新闻视频编目描述模型训练的具体方法是:通过人工对新闻视频切片为单一场景的片段,并对片段进行人工编目描述,将片段作为输入特征,将片段对应的描述文本作为目标输出,以减少模型实际输出与目标输出的差异为任务目标对模型进行迭代训练。新闻视频编目描述模型推理的具体方法是:将片段输入模型,通过模型中的卷积神经网络模块提取片段的视觉特征,然后将这些视觉特征传入模型的长短期记忆网络模块,生成描述新闻内容的自然语言文本。
第6步:基于第4步的切片片段的音频流,通过语音识别技术对音频特征进行提取和转换,生成语音文本。
第7步:从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧),然后基于抽取到的图像帧,通过已训练的用于图像中文字识别任务的卷积神经网络来提取字幕条文本,最后对提取到的文本进行比对去重,输出最终的字幕识别文本。
第8步:从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧),然后基于抽取到的图像帧,通过已训练的用于图像中人脸识别任务的卷积神经网络来提取图像中的人脸特征,接着将提取到的人脸特征与新闻人物库中的人脸特征进行匹配,若相似度达到预设的阈值(本发明设置为0.72),则设置该人物为匹配成功人物,最后输出不重复的若干匹配成功人物的信息文本。
第9步:以第5步中获得的描述文本为主要特征,以第2步中获取的新闻场景分类标签、第6步中获取的语音文本、第7步中获取的字幕文本、第8步中获取的人物信息文本为辅助特征,通过如图3所示的新闻内容多模态融合的生成模型来消除冗余信息,生成若干有效且唯一的新闻关键词及综合编目描述,具体方法是:将不同模态获得的文本特征输入到已通过新闻语料文本训练的嵌入层中,使文本转化为语义特征向量,然后将这些向量通过统一映射层分别映射到统一的语义空间中,接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征,最后将融合特征通过已训练的文本解码层来生成综合编目描述文本以及本文中各个词的关键度(即该词作为新闻关键词的推荐程度)。上述的模型中的处理过程可以用如下公式进行表示:
文本嵌入:Vx=x1v1+x2v2+…+xnvn
式中:x为被嵌入文本基于嵌入字典的One-hot编码,n为嵌入字典的维度;若xi为x的非0位,则vi为该文本对应嵌入字典中的向量行;Vx为该文本嵌入后的向量;
式中:A,b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数;k为输入向量x的维度,m为映射后的统一域的向量维度;ai,j即为矩阵A中第i行第j列的权重系数,bi即为向量b中排序为i的向量系数。
式中:xi为模态i在统一语义空间中的向量,wi为xi对应的新闻语义权重系数;A,b和f(·)分别表示融合层末层的权重矩阵、偏置向量和激活函数。
文本解码:该过程由多个长短期记忆网络(Long Short-Term Memory,LSTM,)堆叠实现:
L1=LSTM1(R)
Li+1=LSTMi+1(Li)
C(Li)=f(Li;W,b)
Outputtext=[OL1,OL2,OL3,…]
Outputcriticality=[C(L1),C(L2),C(L3),…]
式中:R为融合后的特征向量;LSTMi(·)为第i个长短期记忆网络的函数表示,它的特征输出为Li,文本输出为f(·;W,b)为关键度运算的函数表示,其中W,b分别为承担该运算的层的权重矩阵与偏置向量,基于Li运算获得的关键度表示为/>Outputtext为最终生成的完整文本描述,它是各个长短期记忆网络的文本输出所组成的队列;Outputcriticality为文本描述中各个词对应的关键率所组成的队列。
第10步:对第1-9步中涉及编目知识的信息进行组装,输出为结构包括{“原视频id”,“片段序列id”,“片段起止时间”,“自动描述文本”,“自动识别人物”,“自动场景分类”,“字幕识别文本”,“语音识别文本”,“自动新闻关键词”}的数据并存入数据库。步骤1-10完整实现了新闻视频智能编目的自动化流程。
如图4所示,本发明包括第1-4步中实现视频切片和场景分类任务的一种面向新闻场景的视频快速切片与分类方法,该方法首先通过帧间直方图差异值快速定位镜头边界帧,然后仅选择镜头内的中间帧作为关键帧图像输入到已训练的新闻场景分类模型中,再从预设的“演播室”、“会议现场”、“户外连线”等新闻场景分类标签中快速推理获得匹配度高的标签,最后将标签重合率高的相邻镜头片段进行合并,输出切片与场景分类结果。
Claims (3)
1.一种基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,包括以下步骤:
1)获取原始新闻视频,分割镜头片段并定位场景关键帧;
2)生成多个切片片段,具体包括:
A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签;
B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理;
C):将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段,生成多个切片片段;
3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本;
4)对步骤2)获得的切片片段进行语音识别获得语音文本;
5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本;
6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配,得到人物信息文本;
7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本,输入到多模态融合的生成模型处理,生成新闻关键词及综合编目描述,经过整理和组装后输出,完成新闻智能编目;
多模态融合的生成模型处理,具体包括:
将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中,使文本转化为语义特征向量,然后将这些向量通过统一映射层分别映射到统一的语义空间中,接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征,最后将新闻融合特征通过已训练的文本解码层来生成综合编目描述以及新闻关键词的关键度;
所述的多模态融合的生成模型采用以下公式:
文本嵌入:Vx=x1v1+x2v2+…+xnvn;
式中:xi为被嵌入文本基于嵌入字典的One-hot编码的第i位,n为嵌入字典的维度;vi为该文本对应嵌入字典中的向量行;Vx为该文本嵌入后的向量;
式中:A,b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数;k为输入向量x的维度;m为映射后的统一域的向量维度;
式中:xi为模态i在统一语义空间中的向量,wi为xi对应的新闻语义权重系数;A,b和f(·)分别表示融合层的末层的权重矩阵、偏置向量和激活函数;
文本解码:该过程由多个长短期记忆网络堆叠实现:
L1=LSTM1(R)
Li+1=LSTMi+1(Li)
C(Li)=f(Li;W,b)
Outputtext=[OL1,OL2,OL3,…]
Outputcriticality=[C(L1),C(L2),C(L3),…]
式中:R为融合后的特征向量;LSTMi+1(·)为第i+1个长短期记忆网络的函数表示,它的特征输出为Li+1,文本输出为OLi+1;f(·;W,b)为关键度运算的函数表示,其中W,b分别为承担该运算的层的权重矩阵与偏置向量,基于Li运算获得的关键度表示为C(Li);Outputtext为最终生成的完整文本描述,它是各个长短期记忆网络的文本输出所组成的队列;Outputcriticality为文本描述中各个词对应的关键度所组成的队列。
2.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤1)中,获取原始新闻视频,分割镜头片段并定位场景关键帧,具体包括:
将原始新闻视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,将窗口内的拥有最大差异值的帧作为镜头边界帧,将两个镜头边界帧间的所有帧作为一个镜头片段,抽取各个镜头片段的中间帧作为该片段的场景关键帧。
3.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤7)中,步骤3)得到的新闻描述文本作为主要特征,步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征,输入到多模态融合的生成模型中。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110198428.1A CN112818906B (zh) | 2021-02-22 | 2021-02-22 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
US17/674,321 US11776267B2 (en) | 2021-02-22 | 2022-02-17 | Intelligent cataloging method for all-media news based on multi-modal information fusion understanding |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110198428.1A CN112818906B (zh) | 2021-02-22 | 2021-02-22 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818906A CN112818906A (zh) | 2021-05-18 |
CN112818906B true CN112818906B (zh) | 2023-07-11 |
Family
ID=75864815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110198428.1A Active CN112818906B (zh) | 2021-02-22 | 2021-02-22 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11776267B2 (zh) |
CN (1) | CN112818906B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613065B (zh) * | 2021-08-02 | 2022-09-09 | 北京百度网讯科技有限公司 | 视频编辑方法、装置、电子设备以及存储介质 |
US20230068502A1 (en) * | 2021-08-30 | 2023-03-02 | Disney Enterprises, Inc. | Multi-Modal Content Based Automated Feature Recognition |
CN114332729B (zh) * | 2021-12-31 | 2024-02-02 | 西安交通大学 | 一种视频场景检测标注方法及系统 |
CN114005079B (zh) * | 2021-12-31 | 2022-04-19 | 北京金茂教育科技有限公司 | 多媒体流处理方法及装置 |
CN114598933B (zh) * | 2022-03-16 | 2022-12-27 | 平安科技(深圳)有限公司 | 一种视频内容处理方法、系统、终端及存储介质 |
CN115695852B (zh) * | 2022-12-30 | 2023-03-28 | 成都华栖云科技有限公司 | 一种基于多模态信息融合的视频镜头自动挑选组合方法 |
CN116939291B (zh) * | 2023-09-13 | 2023-11-28 | 浙江新华移动传媒股份有限公司 | 一种视频快速拆条方法及相关装置 |
CN117056863B (zh) * | 2023-10-10 | 2023-12-26 | 湖南承希科技有限公司 | 一种基于多模态数据融合的大数据处理方法 |
CN117150436B (zh) * | 2023-10-31 | 2024-01-30 | 上海大智慧财汇数据科技有限公司 | 多模态自适应融合的主题识别方法及系统 |
CN117573870B (zh) * | 2023-11-20 | 2024-05-07 | 中国人民解放军国防科技大学 | 一种多模态数据的文本标签提取方法、装置、设备及介质 |
CN117574214B (zh) * | 2024-01-15 | 2024-04-12 | 中科链安(北京)科技有限公司 | 智能合约分类模型训练方法、智能合约分类方法及装置 |
CN117789680A (zh) * | 2024-02-23 | 2024-03-29 | 青岛海尔科技有限公司 | 基于大模型的多媒体资源的生成方法、装置及存储介质 |
CN117876941A (zh) * | 2024-03-08 | 2024-04-12 | 杭州阿里云飞天信息技术有限公司 | 目标多模态模型系统及构建方法、视频处理模型训练方法、视频处理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102075695A (zh) * | 2010-12-30 | 2011-05-25 | 中国科学院自动化研究所 | 面向海量广播电视节目的新一代智能编目系统和方法 |
CN102752540A (zh) * | 2011-12-30 | 2012-10-24 | 新奥特(北京)视频技术有限公司 | 一种基于人脸识别技术的自动编目方法 |
CN103700370A (zh) * | 2013-12-04 | 2014-04-02 | 北京中科模识科技有限公司 | 一种广播电视语音识别系统方法及系统 |
CN107766571A (zh) * | 2017-11-08 | 2018-03-06 | 北京大学 | 一种多媒体资源的检索方法和装置 |
CN110012349A (zh) * | 2019-06-04 | 2019-07-12 | 成都索贝数码科技股份有限公司 | 一种端到端的新闻节目结构化方法及其结构化框架体系 |
CN110121033A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频编目方法及装置 |
CN110647878A (zh) * | 2019-08-05 | 2020-01-03 | 紫光西部数据(南京)有限公司 | 基于截屏图片的数据处理方法 |
CN111787412A (zh) * | 2020-07-22 | 2020-10-16 | 杭州当虹科技股份有限公司 | 一种支持多平台的数字新闻短视频快速制作的方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941294B2 (en) * | 2000-08-28 | 2005-09-06 | Emotion, Inc. | Method and apparatus for digital media management, retrieval, and collaboration |
US9020263B2 (en) * | 2008-02-15 | 2015-04-28 | Tivo Inc. | Systems and methods for semantically classifying and extracting shots in video |
US9436876B1 (en) * | 2014-12-19 | 2016-09-06 | Amazon Technologies, Inc. | Video segmentation techniques |
GB201703602D0 (en) * | 2017-03-07 | 2017-04-19 | Selerio Ltd | Multi-Modal image search |
US11698922B2 (en) * | 2018-11-02 | 2023-07-11 | Valve Corporation | Classification and moderation of text |
US10860860B1 (en) * | 2019-01-03 | 2020-12-08 | Amazon Technologies, Inc. | Matching videos to titles using artificial intelligence |
US11146862B2 (en) * | 2019-04-16 | 2021-10-12 | Adobe Inc. | Generating tags for a digital video |
US11342003B1 (en) * | 2019-12-12 | 2022-05-24 | Amazon Technologies, Inc. | Segmenting and classifying video content using sounds |
-
2021
- 2021-02-22 CN CN202110198428.1A patent/CN112818906B/zh active Active
-
2022
- 2022-02-17 US US17/674,321 patent/US11776267B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102075695A (zh) * | 2010-12-30 | 2011-05-25 | 中国科学院自动化研究所 | 面向海量广播电视节目的新一代智能编目系统和方法 |
CN102752540A (zh) * | 2011-12-30 | 2012-10-24 | 新奥特(北京)视频技术有限公司 | 一种基于人脸识别技术的自动编目方法 |
CN103700370A (zh) * | 2013-12-04 | 2014-04-02 | 北京中科模识科技有限公司 | 一种广播电视语音识别系统方法及系统 |
CN107766571A (zh) * | 2017-11-08 | 2018-03-06 | 北京大学 | 一种多媒体资源的检索方法和装置 |
CN110121033A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频编目方法及装置 |
CN110012349A (zh) * | 2019-06-04 | 2019-07-12 | 成都索贝数码科技股份有限公司 | 一种端到端的新闻节目结构化方法及其结构化框架体系 |
CN110647878A (zh) * | 2019-08-05 | 2020-01-03 | 紫光西部数据(南京)有限公司 | 基于截屏图片的数据处理方法 |
CN111787412A (zh) * | 2020-07-22 | 2020-10-16 | 杭州当虹科技股份有限公司 | 一种支持多平台的数字新闻短视频快速制作的方法 |
Non-Patent Citations (4)
Title |
---|
Deep Learning and Its Applications to Natural Language Processing;Haiqin Yang et al.;《Deep Learning: Fundamentals, Theory and Applications》;Deep Learning and Its Applications to Natural Language Processing * |
基于具有深度门的多模态长短期记忆网络的说话人识别;陈湟康等;《激光与光电子学进展》;第56卷(第3期);130-136 * |
基于多模态融合的全媒体新闻智能编目系统设计;张随雨等;《广播与电视技术》;第49卷(第02期);62-65 * |
多模态深度学习综述;孙影影等;《计算机工程与应用》;第56卷(第21期);1-10 * |
Also Published As
Publication number | Publication date |
---|---|
US11776267B2 (en) | 2023-10-03 |
US20220270369A1 (en) | 2022-08-25 |
CN112818906A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN110012349B (zh) | 一种端到端的新闻节目结构化方法 | |
CN106878632B (zh) | 一种视频数据的处理方法和装置 | |
CN112163122A (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN113613065B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
CN103761261A (zh) | 一种基于语音识别的媒体搜索方法及装置 | |
CN112819065B (zh) | 基于多重聚类信息的无监督行人难样本挖掘方法和系统 | |
CN110751224A (zh) | 视频分类模型的训练方法、视频分类方法、装置及设备 | |
US11120268B2 (en) | Automatically evaluating caption quality of rich media using context learning | |
CN112668559A (zh) | 一种多模态信息融合的短视频情感判定装置及方法 | |
CN114186069B (zh) | 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 | |
CN112784078A (zh) | 一种基于语义识别的视频自动剪辑方法 | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN111353055B (zh) | 基于智能标签扩展元数据的编目方法及系统 | |
CN114051154A (zh) | 一种新闻视频拆条方法和系统 | |
CN111324768A (zh) | 一种视频搜索系统和方法 | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
Sharma et al. | Index point detection for text summarization using cosine similarity in educational videos | |
CN114064968A (zh) | 一种新闻字幕摘要生成方法和系统 | |
Haloi et al. | Unsupervised story segmentation and indexing of broadcast news video | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN116229943B (zh) | 一种对话式数据集的生成方法和装置 | |
CN116320622B (zh) | 一种广播电视新闻视频转图文稿制作系统和制作方法 | |
CN111914777B (zh) | 一种跨模态识别机器人指令的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |