CN110012349A - 一种端到端的新闻节目结构化方法及其结构化框架体系 - Google Patents

一种端到端的新闻节目结构化方法及其结构化框架体系 Download PDF

Info

Publication number
CN110012349A
CN110012349A CN201910483232.XA CN201910483232A CN110012349A CN 110012349 A CN110012349 A CN 110012349A CN 201910483232 A CN201910483232 A CN 201910483232A CN 110012349 A CN110012349 A CN 110012349A
Authority
CN
China
Prior art keywords
scene
news program
theme
story
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910483232.XA
Other languages
English (en)
Other versions
CN110012349B (zh
Inventor
王炜
温序铭
谢超平
李�杰
严照宇
孙翔
罗明利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN201910483232.XA priority Critical patent/CN110012349B/zh
Publication of CN110012349A publication Critical patent/CN110012349A/zh
Application granted granted Critical
Publication of CN110012349B publication Critical patent/CN110012349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally

Abstract

本发明公开了一种端到端的新闻节目结构化方法及其结构化框架体系,涉及新闻节目处理技术领域,本发明的方法包括对输入的新闻节目进行预处理,获取新闻节目的音频资源和视频资源;利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;基于提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;利用CRF场景标记算法对得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,本发明重点关注具有明确语义含义的Story层和Scene层,便于新闻节目二次利用,提高了新闻节目的使用时效性。

Description

一种端到端的新闻节目结构化方法及其结构化框架体系
技术领域
本发明涉及新闻节目处理技术领域,更具体的是涉及一种端到端的新闻节目结构化方法及其结构化框架体系。
背景技术
随着时代的发展,技术的进步,视频的索引和检索是个重要的问题,并且具有重大意义。而电视新闻是视频中的一大部分,也是会被反复多次利用的视频。如电视新闻播出后的点播,需要将电视新闻流分段,然后再对每段电视新闻流进行元数据标注,从而快速进行索引和访问;电视新闻节目作为一种素材再次被利用,用作其他新闻节目的编辑材料,往往再次利用的是新闻的有价值片段,也需要将电视新闻流按照电视新闻结构进行分解,并对有利用价值的片段进行标注。
新闻视频是视频的一种重要分支,他们包含着大量的有用信息,基于内容的视频检索系统指通过文本、图片或视频的其他特征在视频集中搜索需要的信息。
一档新闻节目一般包括片头、主要内容介绍、新闻报道、天气预报及片尾,对于点播而言,需求则是对新闻报道(Story)这一层级进行索引和访问,对于作为素材再次利用即二次编辑而言,需求则是对Scene这一层级进行索引和访问;面对当前不断增加的海量新闻视频内容,使用原人工的方法进行新闻流分段和标注已经不可行,新闻节目的访问和二次编辑需要的实时性也得不到满足。
发明内容
本发明的目的在于:为了解决使用原人工的方法进行不断增加的海量新闻流的分段和标注,新闻节目的访问和二次编辑的实时性得不到满足的问题,本发明提供一种端到端的新闻节目结构化方法及其结构化框架体系,综合了新闻语法、视觉特征、音频特征、文本语义等跨模态信息,融合采用计算机视觉、机器学习、自然语言处理等多种人工智能技术,一次性实现了新闻节目的Scene层级和Story层级结构切分和核心元数据自动描述。
本发明为了实现上述目的具体采用以下技术方案:
一种端到端的新闻节目结构化框架体系,包括从下往上的Shot层级、Scene层级和Story层级,所述Shot层级包括多个Shot,其中每一Shot为由多个连续Frame帧组成的具有相似视觉特征的镜头片段,Scene层级包括多个Scene,其中每一Scene为由多个Shot组成的具有相似语义特征的场景片段,Story层级包括多个Story,其中每一Story为由多个Scene组成的具有完整故事性描述的节目片段,一则新闻节目主要由一到多个Story构成;每一Scene的核心元数据包括主题Topic、分类Categorization、人物Person和关键字Keyword,每一Story的核心元数据包括主题Topic、人物Person和关键字Keyword。
一种端到端的新闻节目结构化方法,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题。
进一步的,所述S2中对音频资源进行基础信息分析有以下两种方法:
方法A:基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔,音频的停顿间隔时间点将用于后续场景检测;
方法B:通过ASR语音识别技术将音频资源的语音内容转化为文本内容,新闻节目中播音员的语音播报内容对于理解新闻节目语义含义、元数据提取都非常重要,因此语音识别技术的分析工作是基础分析工作。
进一步的,所述S2中对视频资源进行基础信息分析包括以下两种方式:
方法1:利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题和与会者名字信息;
方法2:利用Shot Detection技术对视频资源的画面部分进行shot检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别,这些识别信息将用于后续场景检测、主题融合分析和元数据自动填写流程环节。
进一步的,所述S3具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息,这些语义主题信息可看作各模态对当前视频片段的内容理解的概要表达,但这些独立模态的表达可能是不准确的,有缺失的,甚至是错误的,所以,我们还需要通过一种新闻节目多模态融合算法将各模态的主题表达进行融合聚类,最终形成相对正确的主题概要表达;
S3.2:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题;
S3.3:由于新闻节目视频画面是基础,同一个场景中不论镜头如何切换,其画面的背景是相同或接近的,因此,以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,对各模态的语义主题信息进行切分,输出Scene层级。
进一步的,通过前面步骤基本完成了新闻节目各场景的切分和主题,人物,关键词等核心元数据的自动提取,但是还需将这些场景准确的组合成具备完整故事的节目片段。所以,我们采用基于CRF算法通过对一定样本数据进行学习,将若干场景分割和聚合为不同的Story片段中。CRF算法输入是一组Scene序列的视觉类别特征和文本主题特征,输出是对各场景序列的位置标签。这些位置标签将可用于切分和组合Story片段,利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出相同语义的Story,构成Story层级和Story主题。
本发明的有益效果如下:
1、本发明对不同来源的新闻节目,通过多维度结合ASR语音识别技术、OCR文字识别技术等,进行跨模态的特征融合, 主题融合提取,再基于CRF场景标记算法,提高了Story分割及Scene和Story主题提取的准确率,同时获取到的Story层级、Scene层级,方便新闻节目的点播和二次编辑直接取用,提高了使用时效性,端到端的整个过程系统自动完成,有效避免了人为干扰信息,减少出错,同时节省时间。
2、本发明对不同来源的新闻节目,充分利用其视频、文字、语音的特征信息,通过各智能识别分析技术分析出基础信息,采用跨模态的特征融合,对主题进行融合,形成Scene主题和层级,再基于CRF场景标记算法,实现Story分割,产生结构化体系中的具有完整故事描述的节目片段 Story层次及Story主题,既充分利用了各种来源视频、文字、语音的特征信息,又有效避免了干扰信息,确保提取结果的精准性。
附图说明
图1是本发明的新闻节目结构化方法流程示意图。
图2是本发明的新闻节目结构化框架体系示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图1和图2所示,本实施例提供一种端到端的新闻节目结构化方法以及基于该方法的结构化框架体系,所述结构化框架体系包括从下往上的Shot层级、Scene层级和Story层级,所述Shot层级包括多个Shot,其中每一Shot为由多个连续Frame帧组成的具有相似视觉特征的镜头片段,Scene层级包括多个Scene,其中每一Scene为由多个Shot组成的具有相似语义特征的场景片段,Story层级包括多个Story,其中每一Story为由多个Scene组成的具有完整故事性描述的节目片段,一则新闻节目主要由一到多个Story构成,所述每一Scene的核心元数据包括主题Topic、分类Categorization、人物Person和关键字Keyword,所述每一Story的核心元数据包括主题Topic、人物Person和关键字Keyword。
所述一种端到端的新闻节目结构化方法,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;
所述S2中对音频资源进行基础信息分析有以下两种方法:
方法A:基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔,音频的停顿间隔时间点将用于后续场景检测;
方法B:通过ASR语音识别技术将音频资源的语音内容转化为文本内容,新闻节目中播音员的语音播报内容对于理解新闻节目语义含义、元数据提取都非常重要,因此语音识别技术的分析工作是基础分析工作;
所述S2中对视频资源进行基础信息分析包括以下两种方式:
方法1:利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题和与会者名字信息;
方法2:利用Shot Detection技术对视频资源的画面部分进行shot检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再基于CNN、GAN、C3D等深度神经网络模型根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别,这些识别信息将用于后续场景检测、主题融合分析和元数据自动填写流程环节;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级,具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息,这些语义主题信息可看作各模态对当前视频片段的内容理解的概要表达,但这些独立模态的表达可能是不准确的,有缺失的,甚至是错误的,所以,我们还需要通过一种新闻节目多模态融合算法将各模态的主题表达进行融合聚类,最终形成相对正确的主题概要表达;
S3.2:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题;
S3.3:本实施例中新闻节目结构化最小单元是Scene(场景),因此场景的精准检测定位尤为重要,由于新闻节目视频画面是基础,同一个场景中不论镜头如何切换,其画面的背景是相同或接近的,因此,以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,对各模态的语义主题信息进行切分,输出Scene层级,可忽略掉一些视觉场景错误切分的时间点;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题,具体为:
通过前面步骤基本完成了新闻节目各场景的切分和主题、人物、关键词等核心元数据的自动提取,但是还需将这些场景准确的组合成具备完整故事的节目片段;所以,我们采用基于CRF算法通过对一定样本数据进行学习,将若干场景分割和聚合为不同的Story片段中。CRF算法的输入是一组Scene序列的视觉类别特征和文本主题特征,输出的是对各场景序列的位置标签。这些位置标签将可用于切分和组合Story片段,即利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出相同语义的Story,构成Story层级和Story主题。
如图2所示,本实施例在跨模态场景检测后输出Scene层级,主题融合提取后输出Scene主题,然后经过CRF场景标记算法进行Story分割后输出Story层级以及Story主题,由于Shot层级和Frame帧在新闻节目中的独立语义信息不够丰富,因此在本实施例中并不对其进行过多处理,本实施例重点关注具有明确语义含义的Story层和Scene层,通过OCR、ASR等技术初始化信息解析,找出Scene的主题、分类、人物、关键字等信息,经过提取主题、融合等复杂处理,输出Scene层、Scene主题、Story层及Story主题,多个Shot组成Scene,Scene作为素材被二次编辑使用;多个Scene构成Story,电视新闻的点播可直接使用Story层级,经过端到端的新闻节目结构化处理,避免了人工操作的繁琐和出错,提高了新闻节目使用时效性。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.一种端到端的新闻节目结构化方法,其特征在于,包括如下步骤:
S1:对输入的新闻节目进行预处理,分别获取新闻节目的音频资源和视频资源;
S2:利用ASR语音识别技术、OCR文字识别技术和Shot Detection技术提取音频资源和视频资源内的基础信息;
S3:基于S2提取的基础信息,提取各模态的语义主题信息,并采用跨模态的主题融合提取算法,对各模态的语义主题信息进行融合聚类,输出Scene主题;同时进行跨模态场景检测,输出Scene层级;
S4:利用CRF场景标记算法对S3中得到的Scene层级和Scene主题进行场景聚合和分割,输出具有相同语义的Story层级和Story主题。
2.根据权利要求1所述的一种端到端的新闻节目结构化方法,其特征在于,所述S2中对音频资源进行基础信息分析有以下两种方法:
方法A:基于MFCCs音频特征的语音判定分析技术,识别音频资源的声音信息,通过音频特征分析判定语音播报的停顿间隔;
方法B:通过ASR语音识别技术将音频资源的语音内容转化为文本内容。
3.根据权利要求2所述的一种端到端的新闻节目结构化方法,其特征在于,所述S2中对视频资源进行基础信息分析包括以下两种方式:
方法1:利用OCR文字识别技术对视频资源的文字部分进行文字识别,分析出文本信息,提取新闻节目标题和与会者名字信息;
方法2:利用Shot Detection技术对视频资源的画面部分进行shot检测,将新闻节目自底向上切分为若干具有相似视觉特征的镜头,并通过关键提取技术提取出所述具有相似视觉特征的镜头的关键帧序列,再根据所提取的关键帧序列对视频资源的背景、特定物体、人脸和行为进行识别。
4.根据权利要求3所述的一种端到端的新闻节目结构化方法,其特征在于,所述S3具体包括如下步骤:
S3.1:基于ASR语音识别技术转化的文本内容和OCR文字识别技术提取的新闻节目标题,结合根据提取的关键帧序列得到的背景、特定物体、人脸和行为的识别信息,利用LDA无监督学习算法得到各模态的语义主题信息;
S3.2:采用跨模态的主题融合提取算法,对各场景的主题描述进行近似性计算,对主题相近的场景进行融合聚类,输出Scene主题;
S3.3:以背景识别的时间点和基于MFCCs音频特征的语音判定分析技术得到的停顿间隔时间点作为跨模态场景检测的基线时间点,对各模态的语义主题信息进行切分,输出Scene层级。
5.一种基于权利要求1-4任一项方法的结构化框架体系,其特征在于:包括从下往上的Shot层级、Scene层级和Story层级,所述Shot层级包括多个Shot,其中每一Shot为由多个连续Frame帧组成的具有相似视觉特征的镜头片段,Scene层级包括多个Scene,其中每一Scene为由多个Shot组成的具有相似语义特征的场景片段,Story层级包括多个Story,其中每一Story为由多个Scene组成的具有完整故事性描述的节目片段,一则新闻节目主要由一到多个Story构成;每一Scene的核心元数据包括主题、分类、人物和关键字,每一Story的核心元数据包括主题、人物和关键字。
CN201910483232.XA 2019-06-04 2019-06-04 一种端到端的新闻节目结构化方法 Active CN110012349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910483232.XA CN110012349B (zh) 2019-06-04 2019-06-04 一种端到端的新闻节目结构化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910483232.XA CN110012349B (zh) 2019-06-04 2019-06-04 一种端到端的新闻节目结构化方法

Publications (2)

Publication Number Publication Date
CN110012349A true CN110012349A (zh) 2019-07-12
CN110012349B CN110012349B (zh) 2019-09-20

Family

ID=67177962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910483232.XA Active CN110012349B (zh) 2019-06-04 2019-06-04 一种端到端的新闻节目结构化方法

Country Status (1)

Country Link
CN (1) CN110012349B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765314A (zh) * 2019-10-21 2020-02-07 长沙品先信息技术有限公司 一种视频语义结构化提取与标注的方法
CN111222499A (zh) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 新闻自动拆条的条件随机场算法预测结果回流训练方法
CN111242110A (zh) * 2020-04-28 2020-06-05 成都索贝数码科技股份有限公司 一种新闻自动拆条的自适应条件随机场算法的训练方法
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112468877A (zh) * 2021-02-01 2021-03-09 北京中科大洋科技发展股份有限公司 一种基于ai内容分析和ocr识别的智能新闻编目方法
CN112818906A (zh) * 2021-02-22 2021-05-18 浙江传媒学院 一种基于多模态信息融合理解的全媒体新闻智能编目方法
CN113096687A (zh) * 2021-03-30 2021-07-09 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质
CN113159010A (zh) * 2021-03-05 2021-07-23 北京百度网讯科技有限公司 视频分类方法、装置、设备和存储介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
CN116384382A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置
US11947586B2 (en) 2021-06-29 2024-04-02 Oracle International Corporation Video processing optimization and content searching

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US20070296863A1 (en) * 2006-06-12 2007-12-27 Samsung Electronics Co., Ltd. Method, medium, and system processing video data
CN101369281A (zh) * 2008-10-09 2009-02-18 湖北科创高新网络视频股份有限公司 基于视频摘要元数据的检索方法
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法
CN103902723A (zh) * 2014-04-10 2014-07-02 中央电视台 一种媒体文件编目元数据聚合方法及装置
CN104394422A (zh) * 2014-11-12 2015-03-04 华为软件技术有限公司 一种视频分割点获取方法及装置
EP2876891A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for matching of corresponding frames in multimedia streams
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105844292A (zh) * 2016-03-18 2016-08-10 南京邮电大学 一种基于条件随机场和二次字典学习的图像场景标注方法
CN105868292A (zh) * 2016-03-23 2016-08-17 中山大学 一种视频可视化处理方法及系统
US20180068330A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070296863A1 (en) * 2006-06-12 2007-12-27 Samsung Electronics Co., Ltd. Method, medium, and system processing video data
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101369281A (zh) * 2008-10-09 2009-02-18 湖北科创高新网络视频股份有限公司 基于视频摘要元数据的检索方法
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法
EP2876891A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for matching of corresponding frames in multimedia streams
CN103902723A (zh) * 2014-04-10 2014-07-02 中央电视台 一种媒体文件编目元数据聚合方法及装置
CN104394422A (zh) * 2014-11-12 2015-03-04 华为软件技术有限公司 一种视频分割点获取方法及装置
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105844292A (zh) * 2016-03-18 2016-08-10 南京邮电大学 一种基于条件随机场和二次字典学习的图像场景标注方法
CN105868292A (zh) * 2016-03-23 2016-08-17 中山大学 一种视频可视化处理方法及系统
US20180068330A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HANSUNG LEE ET AL: "A unified scheme of shot boundary detection and anchor shot detection in news video story parsing", 《MULTIMEDIA TOOL APPLICATIONS》 *
PRADIP PANCHAL ET AL: "Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries", 《2012 NIRMA UNIVERSITY INTERNATIONAL CONFERENCE ON ENGINEERING》 *
刘安安等: "新闻视频结构化浏览与标注系统", 《计算机工程》 *
符茂胜等: "视频结构化描述模型", 《计算机应用》 *
闫乐林: "基于视听信息的视频语义分析与检索技术研究", 《中国优秀博士学位论文全文数据库》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765314A (zh) * 2019-10-21 2020-02-07 长沙品先信息技术有限公司 一种视频语义结构化提取与标注的方法
CN111222499A (zh) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 新闻自动拆条的条件随机场算法预测结果回流训练方法
CN111242110A (zh) * 2020-04-28 2020-06-05 成都索贝数码科技股份有限公司 一种新闻自动拆条的自适应条件随机场算法的训练方法
CN111242110B (zh) * 2020-04-28 2020-08-14 成都索贝数码科技股份有限公司 一种新闻自动拆条的自适应条件随机场算法的训练方法
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN111931775B (zh) * 2020-09-28 2021-01-08 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112468877A (zh) * 2021-02-01 2021-03-09 北京中科大洋科技发展股份有限公司 一种基于ai内容分析和ocr识别的智能新闻编目方法
CN112818906B (zh) * 2021-02-22 2023-07-11 浙江传媒学院 一种基于多模态信息融合理解的全媒体新闻智能编目方法
CN112818906A (zh) * 2021-02-22 2021-05-18 浙江传媒学院 一种基于多模态信息融合理解的全媒体新闻智能编目方法
CN113159010A (zh) * 2021-03-05 2021-07-23 北京百度网讯科技有限公司 视频分类方法、装置、设备和存储介质
CN113096687A (zh) * 2021-03-30 2021-07-09 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质
CN113096687B (zh) * 2021-03-30 2024-04-26 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质
US11947586B2 (en) 2021-06-29 2024-04-02 Oracle International Corporation Video processing optimization and content searching
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
CN116384382A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置
CN116384382B (zh) * 2023-01-04 2024-03-22 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置

Also Published As

Publication number Publication date
CN110012349B (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110012349B (zh) 一种端到端的新闻节目结构化方法
CN112818906B (zh) 一种基于多模态信息融合理解的全媒体新闻智能编目方法
Chung et al. Spot the conversation: speaker diarisation in the wild
Qi et al. Integrating visual, audio and text analysis for news video
Chung et al. Out of time: automated lip sync in the wild
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
Baraldi et al. A deep siamese network for scene detection in broadcast videos
CN106878632B (zh) 一种视频数据的处理方法和装置
CN101616264B (zh) 新闻视频编目方法及系统
Bertini et al. Content-based indexing and retrieval of TV news
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN100365622C (zh) 对压缩的视频进行分段的方法
Xu et al. Text-to-audio grounding: Building correspondence between captions and sound events
US6813624B1 (en) Method and apparatus for archival and retrieval of multiple data streams
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
KR20200098381A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
Jindal et al. Efficient and language independent news story segmentation for telecast news videos
CN111680493B (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
Jo et al. Simultaneous Video Retrieval and Alignment
Feki et al. Automatic environmental sound concepts discovery for video retrieval
Bendris et al. Talking faces indexing in TV-content
Chaisorn et al. Story boundary detection in news video using global rule induction technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant