CN110012349B - 一种端到端的新闻节目结构化方法 - Google Patents
一种端到端的新闻节目结构化方法 Download PDFInfo
- Publication number
- CN110012349B CN110012349B CN201910483232.XA CN201910483232A CN110012349B CN 110012349 B CN110012349 B CN 110012349B CN 201910483232 A CN201910483232 A CN 201910483232A CN 110012349 B CN110012349 B CN 110012349B
- Authority
- CN
- China
- Prior art keywords
- scene
- theme
- news program
- information
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 210000001938 protoplast Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种端到端的新闻节目结构化方法及其结构化框架体系,涉及新闻节目处理技术领域,本发明的方法包括对输入的新闻节目进行预处理,获取新闻节目的音频资源和视频资源;利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;基于提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;利用CRF场景标记算法对得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,本发明重点关注具有明确语义含义的Story层和Scene层,便于新闻节目二次利用,提高了新闻节目的使用时效性。
Description
技术领域
本发明涉及新闻节目处理技术领域,更具体的是涉及一种端到端的新闻节目结构化方法及其结构化框架体系。
背景技术
随着时代的发展,技术的进步,视频的索引和检索是个重要的问题,并且具有重大意义。而电视新闻是视频中的一大部分,也是会被反复多次利用的视频。如电视新闻播出后的点播,需要将电视新闻流分段,然后再对每段电视新闻流进行元数据标注,从而快速进行索引和访问;电视新闻节目作为一种素材再次被利用,用作其他新闻节目的编辑材料,往往再次利用的是新闻的有价值片段,也需要将电视新闻流按照电视新闻结构进行分解,并对有利用价值的片段进行标注。
新闻视频是视频的一种重要分支,他们包含着大量的有用信息,基于内容的视频检索系统指通过文本、图片或视频的其他特征在视频集中搜索需要的信息。
一档新闻节目一般包括片头、主要内容介绍、新闻报道、天气预报及片尾,对于点播而言,需求则是对新闻报道(Story)这一层级进行索引和访问,对于作为素材再次利用即二次编辑而言,需求则是对Scene这一层级进行索引和访问;面对当前不断增加的海量新闻视频内容,使用原人工的方法进行新闻流分段和标注已经不可行,新闻节目的访问和二次编辑需要的实时性也得不到满足。
发明内容
本发明的目的在于:为了解决使用原人工的方法进行不断增加的海量新闻流的分段和标注,新闻节目的访问和二次编辑的实时性得不到满足的问题,本发明提供一种端到端的新闻节目结构化方法及其结构化框架体系,综合了新闻语法、视觉特征、音频特征、文本语义等跨模态信息,融合采用计算机视觉、机器学习、自然语言处理等多种人工智能技术,一次性实现了新闻节目的Scene层级和Story层级结构切分和核心元数据自动描述。
本发明为了实现上述目的具体采用以下技术方案:
一种端到端的新闻节目结构化方法,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和镜头检测技术提取音频资源和视频资源内的基础信息;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,同时进行跨模态场景检测,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题和输出Scene层级;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题。
进一步的,所述S2中对音频资源进行基础信息分析包括:
基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔,音频的停顿间隔时间点将用于后续场景检测;
通过ASR语音识别技术将音频资源的语音内容转化为文本内容,新闻节目中播音员的语音播报内容对于理解新闻节目语义含义、元数据提取都非常重要,因此语音识别技术的分析工作是基础分析工作。
进一步的,所述S2中对视频资源进行基础信息分析包括:
利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题;
利用镜头检测技术对视频资源的画面部分进行Shot检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键帧提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别,这些识别信息将用于后续场景检测、主题融合分析和元数据自动填写流程环节。
进一步的,所述S3具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息,这些语义主题信息可看作各模态对当前视频片段的内容理解的概要表达,但这些独立模态的表达可能是不准确的,有缺失的,甚至是错误的,所以,我们还需要通过一种新闻节目多模态融合算法将各模态的主题表达进行融合聚类,最终形成相对正确的主题概要表达;
S3.2:由于新闻节目视频画面是基础,同一个场景中不论镜头如何切换,其画面的背景是相同或接近的,因此,以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,进行场景分割,对各模态的语义主题信息进行切分,输出Scene层级;
S3.3:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题。
进一步的,通过前面步骤基本完成了新闻节目各场景的切分和主题,人物,关键词等核心元数据的自动提取,但是还需将这些场景准确的组合成具备完整故事的节目片段。所以,我们采用基于CRF算法通过对一定样本数据进行学习,将若干场景分割和聚合为不同的Story片段中。CRF算法输入是一组Scene序列的视觉类别特征和文本主题特征,输出是对各场景序列的位置标签。这些位置标签将可用于切分和组合Story片段,利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出相同语义的Story,构成Story层级和Story主题。
本发明的有益效果如下:
1、本发明对不同来源的新闻节目,通过多维度结合ASR语音识别技术、OCR文字识别技术等,进行跨模态的特征融合,主题融合提取,再基于CRF场景标记算法,提高了Story分割及Scene和Story主题提取的准确率,同时获取到的Story层级、Scene层级,方便新闻节目的点播和二次编辑直接取用,提高了使用时效性,端到端的整个过程系统自动完成,有效避免了人为干扰信息,减少出错,同时节省时间。
2、本发明对不同来源的新闻节目,充分利用其视频、文字、语音的特征信息,通过各智能识别分析技术分析出基础信息,采用跨模态的特征融合,对主题进行融合,形成Scene主题和层级,再基于CRF场景标记算法,实现Story分割,产生结构化体系中的具有完整故事描述的节目片段 Story层次及Story主题,既充分利用了各种来源视频、文字、语音的特征信息,又有效避免了干扰信息,确保提取结果的精准性。
附图说明
图1是本发明的新闻节目结构化方法流程示意图。
图2是本发明的新闻节目结构化框架体系示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图1和图2所示,本实施例提供一种端到端的新闻节目结构化方法,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和镜头检测技术提取音频资源和视频资源内的基础信息;
所述S2中对音频资源进行基础信息分析包括:
基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔,音频的停顿间隔时间点将用于后续场景检测;
通过ASR语音识别技术将音频资源的语音内容转化为文本内容,新闻节目中播音员的语音播报内容对于理解新闻节目语义含义、元数据提取都非常重要,因此语音识别技术的分析工作是基础分析工作;
所述S2中对视频资源进行基础信息分析包括:
利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题和与会者名字信息;
利用镜头检测技术对视频资源的画面部分进行Shot检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键帧提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再基于CNN、GAN、C3D等深度神经网络模型根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别,这些识别信息将用于后续场景检测、主题融合分析和元数据自动填写流程环节;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,同时进行跨模态场景检测,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题和输出Scene层级,具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息,这些语义主题信息可看作各模态对当前视频片段的内容理解的概要表达,但这些独立模态的表达可能是不准确的,有缺失的,甚至是错误的,所以,我们还需要通过一种新闻节目多模态融合算法将各模态的主题表达进行融合聚类,最终形成相对正确的主题概要表达;
S3.2:本实施例中新闻节目结构化最小单元是Scene(场景),因此场景的精准检测定位尤为重要,由于新闻节目视频画面是基础,同一个场景中不论镜头如何切换,其画面的背景是相同或接近的,因此,以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,进行场景分割,对各模态的语义主题信息进行切分,输出Scene层级,可忽略掉一些视觉场景错误切分的时间点;
S3.3:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,具体为:
通过前面步骤基本完成了新闻节目各场景的切分和主题、人物、关键词等核心元数据的自动提取,但是还需将这些场景准确的组合成具备完整故事的节目片段;所以,我们采用基于CRF算法通过对一定样本数据进行学习,将若干场景分割和聚合为不同的Story片段中。CRF算法的输入是一组Scene序列的视觉类别特征和文本主题特征,输出的是对各场景序列的位置标签。这些位置标签将可用于切分和组合Story片段,即利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出相同语义的Story,构成Story层级和Story主题。
如图2所示,本实施例在跨模态场景检测后输出Scene层级,主题融合提取后输出Scene主题,然后经过CRF场景标记算法进行Story分割后输出Story层级以及Story主题,由于Shot层级和Frame帧在新闻节目中的独立语义信息不够丰富,因此在本实施例中并不对其进行过多处理,本实施例重点关注具有明确语义含义的Story层和Scene层,通过OCR、ASR等技术初始化信息解析,找出Scene的主题、分类、人物、关键字等信息,经过提取主题、融合等复杂处理,输出Scene层、Scene主题、Story层及Story主题,多个Shot组成Scene,Scene作为素材被二次编辑使用;多个Scene构成Story,电视新闻的点播可直接使用Story层级,经过端到端的新闻节目结构化处理,避免了人工操作的繁琐和出错,提高了新闻节目使用时效性。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (1)
1.一种端到端的新闻节目结构化方法,其特征在于,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和镜头检测技术提取音频资源和视频资源内的基础信息;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,同时进行跨模态场景检测,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题和输出Scene层级;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题;
其中,所述S2中对音频资源进行基础信息分析包括:
基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔;
通过ASR语音识别技术将音频资源的语音内容转化为文本内容;
所述S2中对视频资源进行基础信息分析包括:
利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题;
利用镜头检测技术对视频资源的画面部分进行镜头检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键帧提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别;
所述S3具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息;
S3.2:以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,进行场景分割,对各模态的语义主题信息进行切分,输出Scene层级;
S3.3:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910483232.XA CN110012349B (zh) | 2019-06-04 | 2019-06-04 | 一种端到端的新闻节目结构化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910483232.XA CN110012349B (zh) | 2019-06-04 | 2019-06-04 | 一种端到端的新闻节目结构化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110012349A CN110012349A (zh) | 2019-07-12 |
CN110012349B true CN110012349B (zh) | 2019-09-20 |
Family
ID=67177962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910483232.XA Active CN110012349B (zh) | 2019-06-04 | 2019-06-04 | 一种端到端的新闻节目结构化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110012349B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765314A (zh) * | 2019-10-21 | 2020-02-07 | 长沙品先信息技术有限公司 | 一种视频语义结构化提取与标注的方法 |
CN111222499B (zh) * | 2020-04-22 | 2020-08-14 | 成都索贝数码科技股份有限公司 | 新闻自动拆条的条件随机场算法预测结果回流训练方法 |
CN111242110B (zh) * | 2020-04-28 | 2020-08-14 | 成都索贝数码科技股份有限公司 | 一种新闻自动拆条的自适应条件随机场算法的训练方法 |
CN111931775B (zh) * | 2020-09-28 | 2021-01-08 | 成都索贝数码科技股份有限公司 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
CN112468877B (zh) * | 2021-02-01 | 2021-05-04 | 北京中科大洋科技发展股份有限公司 | 一种基于ai内容分析和ocr识别的智能新闻编目方法 |
CN112818906B (zh) * | 2021-02-22 | 2023-07-11 | 浙江传媒学院 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
CN113159010B (zh) | 2021-03-05 | 2022-07-22 | 北京百度网讯科技有限公司 | 视频分类方法、装置、设备和存储介质 |
CN113096687B (zh) * | 2021-03-30 | 2024-04-26 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
US11947586B2 (en) | 2021-06-29 | 2024-04-02 | Oracle International Corporation | Video processing optimization and content searching |
CN114051154A (zh) * | 2021-11-05 | 2022-02-15 | 新华智云科技有限公司 | 一种新闻视频拆条方法和系统 |
CN115460462B (zh) * | 2022-09-17 | 2024-10-01 | 东南大学 | 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 |
CN116384382B (zh) * | 2023-01-04 | 2024-03-22 | 深圳擎盾信息科技有限公司 | 一种基于多轮交互的自动化长篇合同要素识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902723A (zh) * | 2014-04-10 | 2014-07-02 | 中央电视台 | 一种媒体文件编目元数据聚合方法及装置 |
CN105844292A (zh) * | 2016-03-18 | 2016-08-10 | 南京邮电大学 | 一种基于条件随机场和二次字典学习的图像场景标注方法 |
CN105868292A (zh) * | 2016-03-23 | 2016-08-17 | 中山大学 | 一种视频可视化处理方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100771244B1 (ko) * | 2006-06-12 | 2007-10-29 | 삼성전자주식회사 | 동영상 데이터 처리 방법 및 장치 |
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
CN101369281A (zh) * | 2008-10-09 | 2009-02-18 | 湖北科创高新网络视频股份有限公司 | 基于视频摘要元数据的检索方法 |
CN102075695B (zh) * | 2010-12-30 | 2012-10-10 | 中国科学院自动化研究所 | 面向海量广播电视节目的新一代智能编目系统和方法 |
EP2876890A1 (en) * | 2013-11-21 | 2015-05-27 | Thomson Licensing | Method and apparatus for frame accurate synchronization of video streams |
CN104394422B (zh) * | 2014-11-12 | 2017-11-17 | 华为软件技术有限公司 | 一种视频分割点获取方法及装置 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
US20180068330A1 (en) * | 2016-09-07 | 2018-03-08 | International Business Machines Corporation | Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions |
-
2019
- 2019-06-04 CN CN201910483232.XA patent/CN110012349B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902723A (zh) * | 2014-04-10 | 2014-07-02 | 中央电视台 | 一种媒体文件编目元数据聚合方法及装置 |
CN105844292A (zh) * | 2016-03-18 | 2016-08-10 | 南京邮电大学 | 一种基于条件随机场和二次字典学习的图像场景标注方法 |
CN105868292A (zh) * | 2016-03-23 | 2016-08-17 | 中山大学 | 一种视频可视化处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries;Pradip Panchal et al;《2012 NIRMA UNIVERSITY INTERNATIONAL CONFERENCE ON ENGINEERING》;20121208;全文 * |
视频结构化描述模型;符茂胜等;《计算机应用》;20120901;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110012349A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110012349B (zh) | 一种端到端的新闻节目结构化方法 | |
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
Chung et al. | Spot the conversation: speaker diarisation in the wild | |
Qi et al. | Integrating visual, audio and text analysis for news video | |
CN106878632B (zh) | 一种视频数据的处理方法和装置 | |
CN103761261B (zh) | 一种基于语音识别的媒体搜索方法及装置 | |
CN101616264B (zh) | 新闻视频编目方法及系统 | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN1851709A (zh) | 嵌入式多媒体基于内容的查询和检索的实现方法 | |
Stappen et al. | Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild | |
Xu et al. | Text-to-audio grounding: Building correspondence between captions and sound events | |
CN111681678B (zh) | 自动生成音效并匹配视频的方法、系统、装置及存储介质 | |
CN100365622C (zh) | 对压缩的视频进行分段的方法 | |
CN116361510A (zh) | 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置 | |
CN114996506B (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
WO2024193538A1 (zh) | 视频数据处理方法、装置、设备及可读存储介质 | |
KR20200098381A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
CN111680493A (zh) | 英语文本分析方法、装置、可读存储介质及计算机设备 | |
Haloi et al. | Unsupervised story segmentation and indexing of broadcast news video | |
Dufour et al. | Investigation of spontaneous speech characterization applied to speaker role recognition | |
WO2011039773A2 (en) | Tv news analysis system for multilingual broadcast channels | |
Stein et al. | From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow | |
Ma et al. | A detection-based approach to broadcast news video story segmentation | |
Darji et al. | A review of video classification techniques | |
CN113821675A (zh) | 视频识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |