CN115497017A - 一种基于人工智能的广播电视新闻拆条方法及装置 - Google Patents
一种基于人工智能的广播电视新闻拆条方法及装置 Download PDFInfo
- Publication number
- CN115497017A CN115497017A CN202110680476.4A CN202110680476A CN115497017A CN 115497017 A CN115497017 A CN 115497017A CN 202110680476 A CN202110680476 A CN 202110680476A CN 115497017 A CN115497017 A CN 115497017A
- Authority
- CN
- China
- Prior art keywords
- initial
- video
- key frame
- information
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请提供一种基于人工智能的广播电视新闻拆条方法及装置。所述方法包括:从待拆条新闻视频中抽取关键帧图像,并提取各个关键帧图像中的人物信息后,将每个关键帧图像中的人物信息与获取的拆条模板图像中的目标人物信息作比对,将人物信息符合目标人物信息的关键帧图像对应的时间点确定为拆条时间点,最终按照所有拆条时间点对待拆条新闻视频进行拆分,得到拆分后的多个初始视频段落。如此,本申请中利用人物信息的变化来反映新闻事件的变化,按照预设的拆条模板图像对待拆条新闻视频进行自动拆条,拆条效率较高。
Description
技术领域
本申请涉及视频处理技术领域,特别涉及一种基于人工智能的广播电视新闻拆条方法及装置。
背景技术
广播电视新闻拆条是指为满足特定业务的需求,将广播电视中的一段完整的新闻视频拆分为多个独立的新闻视频段落的视频处理方式,其中,每个独立的新闻视频段落均应是一个完整的新闻事件。
目前,广播电视新闻拆条主要采用的方式是人工拆条。人工拆条主要是依靠人工对新闻视频进行浏览和分析,确定每个新闻事件的开始时间和结束时间,进而根据每个新闻事件的开始时间和结束时间对新闻视频进行拆条,由于此种拆条方式主要依赖人工进行,因此拆条效率较低。
发明内容
本申请提供了一种基于人工智能的广播电视新闻拆条方法及装置,可用于解决现有拆条方式拆条效率较低的技术问题。
第一方面,本申请实施例提供一种基于人工智能的广播电视新闻拆条方法,包括:
获取待拆条新闻视频;
从所述待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像;
提取各个关键帧图像中的人物信息,所述人物信息包括识别人物的人脸、所述识别人物的姿态以及所述识别人物在所述关键帧图像中的出现位置;
获取拆条模板图像,所述拆条模板图像用于提供目标人物信息,所述目标人物信息包括目标人物的人脸、所述目标人物的姿态以及所述目标人物在图像中的出现位置;
如果候选关键帧图像中的候选人物信息符合所述目标人物信息,则将所述候选关键帧图像对应的时间点确定为拆条时间点,所述候选关键帧图像为多个关键帧图像中任意一个关键帧图像;
按照所有拆条时间点将所述待拆条新闻视频进行拆分,得到多个初始视频段落。
结合第一方面,在第一方面的一种可实现方式中,所述方法还包括:
提取每个初始视频段落的标题,所述标题为所述初始视频段落中关键字符的集合;
对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
结合第一方面,在第一方面的一种可实现方式中,所述提取每个初始视频段落的标题,包括:
提取每个初始关键帧图像中的第一文字信息,所述初始关键帧图像为位于所述初始视频段落中的关键帧图像,所述第一文字信息包括多个第一字符;
从所有第一文字信息中提取所述初始视频段落的标题。
结合第一方面,在第一方面的一种可实现方式中,所述从所有第一文字信息中提取所述初始视频段落的标题,包括:
提取所有第一文字信息中的关键词;
获取第一单帧序列,所述第一单帧序列为包含所述关键词的连续多个初始单帧图像组成的序列,所述初始单帧图像为位于所述初始视频段落中的单帧图像;
获取所述第一单帧序列的第一持续时间;
如果所述第一持续时间大于第一预设阈值,则将所述关键词确定为所述初始视频段落的标题;
或者,如果所述第一持续时间小于或等于所述第一预设阈值,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
结合第一方面,在第一方面的一种可实现方式中,所述从所有第一文字信息中提取所述初始视频段落的标题,包括:
获取第二单帧序列,所述第二单帧序列为包含目标第一字符的连续多个初始单帧图像组成的序列,所述目标第一字符为多个第一字符中任一第一字符;
获取所述第二单帧序列的第二持续时间;
将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为所述初始视频段落的标题;
或者,如果不存在第二持续时间大于所述第二预设阈值的第二单帧序列,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
结合第一方面,在第一方面的一种可实现方式中,所述方法还包括:
如果确定从所有第一文字信息中无法提取所述初始视频段落的标题,则对所述待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息;
按照所有拆条时间点对所述音频采样信息进行划分,得到每个初始视频段落中的初始音频信息;
提取所述初始音频信息中的第二文字信息;
从所有第二文字信息中提取所述初始视频段落的标题。
结合第一方面,在第一方面的一种可实现方式中,所述提取所述初始音频信息中的第二文字信息,包括:
将所述初始音频信息输入预设的人工智能引擎进行语音特征提取和分析,得到所述初始音频信息中的第二文字信息。
结合第一方面,在第一方面的一种可实现方式中,所述对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落,包括:
确定目标初始视频段落的标题与候选初始视频段落的标题的语义相似度,所述目标初始视频段落为任一初始视频段落,所述候选初始视频段落为所述目标初始视频段落的前一个初始视频段落;
如果所述语义相似度大于预设的语义阈值,则将所述目标初始视频段落与所述候选初始视频段落进行合并处理;
将合并处理后的视频段落确定为视频拆条段落;
或者,如果所述语义相似度小于或等于所述语义阈值,则将所述目标初始视频段落确定为所述视频拆条段落。
结合第一方面,在第一方面的一种可实现方式中,所述提取各个关键帧图像中的人物信息,包括:
将各个关键帧图像输入所述人工智能引擎进行人物特征提取和分析,得到各个关键帧图像中的人物信息。
第二方面,本申请实施例提供一种基于人工智能的广播电视新闻拆条装置,包括:
视频获取模块,用于获取待拆条新闻视频;
图像抽取模块,用于从所述待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像;
人物信息提取模块,用于提取各个关键帧图像中的人物信息,所述人物信息包括识别人物的人脸、所述识别人物的姿态以及所述识别人物在所述关键帧图像中的出现位置;
拆条模板图像获取模块,用于获取拆条模板图像,所述拆条模板图像用于提供目标人物信息,所述目标人物信息包括目标人物的人脸、所述目标人物的姿态以及所述目标人物在图像中的出现位置;
拆条时间点确定模块,用于如果候选关键帧图像中的候选人物信息符合所述目标人物信息,则将所述候选关键帧图像对应的时间点确定为拆条时间点,所述候选关键帧图像为多个关键帧图像中任意一个关键帧图像;
拆条模块,用于按照所有拆条时间点将所述待拆条新闻视频进行拆分,得到多个初始视频段落。
结合第二方面,在第二方面的一种可实现方式中,所述装置还包括:
标题提取模块,用于提取每个初始视频段落的标题,所述标题为所述初始视频段落中关键字符的集合;
合并模块,用于对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
结合第二方面,在第二方面的一种可实现方式中,所述标题提取模块包括:
第一文字信息提取子模块,用于提取每个初始关键帧图像中的第一文字信息,所述初始关键帧图像为位于所述初始视频段落中的关键帧图像,所述第一文字信息包括多个第一字符;
第一标题提取子模块,用于从所有第一文字信息中提取所述初始视频段落的标题。
结合第二方面,在第二方面的一种可实现方式中,所述第一标题提取子模块包括:
关键词提取单元,用于提取所有第一文字信息中的关键词;
第一单帧序列获取单元,用于获取第一单帧序列,所述第一单帧序列为包含所述关键词的连续多个初始单帧图像组成的序列,所述初始单帧图像为位于所述初始视频段落中的单帧图像;
第一持续时间获取单元,用于获取所述第一单帧序列的第一持续时间;
第一标题确定单元,用于如果所述第一持续时间大于第一预设阈值,则将所述关键词确定为所述初始视频段落的标题;
或者,如果所述第一持续时间小于或等于所述第一预设阈值,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
结合第二方面,在第二方面的一种可实现方式中,所述第一标题提取子模块还包括:
第二单帧序列获取单元,用于获取第二单帧序列,所述第二单帧序列为包含目标第一字符的连续多个初始单帧图像组成的序列,所述目标第一字符为多个第一字符中任一第一字符;
第二持续时间获取单元,用于获取单元,用于获取所述第二单帧序列的第二持续时间;
第二标题确定单元,用于将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为所述初始视频段落的标题;
或者,如果不存在第二持续时间大于所述第二预设阈值的第二单帧序列,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
结合第二方面,在第二方面的一种可实现方式中,所述标题提取模块还包括:
音频采样子模块,用于如果确定从所有第一文字信息中无法提取所述初始视频段落的标题,则对所述待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息;
初始音频信息确定子模块,用于按照所有拆条时间点对所述音频采样信息进行划分,得到每个初始视频段落中的初始音频信息;
第二文字信息提取子模块,用于提取所述初始音频信息中的第二文字信息;
第二标题提取子模块,用于从所有第二文字信息中提取所述初始视频段落的标题。
结合第二方面,在第二方面的一种可实现方式中,所述第二文字信息提取子模块包括:
提取单元,用于将所述初始音频信息输入预设的人工智能引擎进行语音特征提取和分析,得到所述初始音频信息中的第二文字信息。
结合第二方面,在第二方面的一种可实现方式中,所述合并模块包括:
语义相似度确定子模块,用于确定目标初始视频段落的标题与候选初始视频段落的标题的语义相似度,所述目标初始视频段落为任一初始视频段落,所述候选初始视频段落为所述目标初始视频段落的前一个初始视频段落;
合并处理子模块,用于如果所述语义相似度大于预设的语义阈值,则将所述目标初始视频段落与所述候选初始视频段落进行合并处理;
视频拆条段落确定子模块,用于将合并处理后的视频段落确定为视频拆条段落;
或者,如果所述语义相似度小于或等于所述语义阈值,则将所述目标初始视频段落确定为所述视频拆条段落。
结合第二方面,在第二方面的一种可实现方式中,所述人物信息提取模块包括:
人物信息提取单元,用于将各个关键帧图像输入所述人工智能引擎进行人物特征提取和分析,得到各个关键帧图像中的人物信息。
本申请实施例公开了一种基于人工智能的广播电视新闻拆条方法及装置,该方法中,提取待拆条新闻视频中各个关键帧图像中的人物信息后,将每个关键帧图像中的人物信息与拆条模板图像中的目标人物信息作比对,将人物信息符合目标人物信息的关键帧图像对应的时间点确定为拆条时间点,最终按照所有拆条时间点对待拆条新闻视频进行拆分。如此,利用人物信息的变化来反映新闻事件的变化,按照预设的拆条模板图像对待拆条新闻视频进行自动拆条,拆条效率较高。
附图说明
图1为本申请实施例提供的一种基于人工智能的广播电视新闻拆条方法所对应的整体性流程示意图;
图2为本申请实施例提供的任务预处理流程示意图;
图3为本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法所对应的工作流程示意图;
图4为本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法所对应的具体工作流程示意图;
图5为本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法的应用示例效果图;
图6为本申请实施例提供的一种基于人工智能的广播电视新闻拆条装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了解决现有技术拆条效率较低的技术问题,本申请通过以下实施例公开了一种基于人工智能的广播电视新闻拆条方法。本申请实施例提供的基于人工智能的广播电视新闻拆条方法仅应用于对广播电视新闻视频进行拆条,其中,广播电视新闻视频主要是指广播电视中播报各类新闻事件的视频。
需要说明的是,对广播电视新闻视频进行拆条,可以实时在线进行拆条,也可以非实时拆条,具体不作限定。
基于上述应用场景,图1示例性示出了本申请实施例提供的一种基于人工智能的广播电视新闻拆条方法所对应的整体性流程示意图,如图1所示,具体包括以下步骤:
步骤S101,获取待拆条新闻视频。
其中,待拆条新闻视频包括多个单帧图像,以及音频信息。
步骤S102,从待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像。
其中,关键帧图像是指能够完整显示一幅画面的单帧图像。
进一步地,关键帧图像的抽取方式有多种,比如通过聚类把视频帧划分为若干个簇,这一过程结束后在每个簇中选取相应的帧作为关键帧,或者,在视频镜头中分析物体运动的光流量,每次选择视频镜头中光流移动次数最少的视频帧作为提取到的关键帧,具体不作限定。
具体地,从待拆条新闻视频中抽取多个关键帧图像,通常可以以任务的形式将待拆条新闻视频采集到素材池中,每个待拆条新闻视频作为一个任务,将关键帧图像抽取作为一个内容预处理的具体方式。
图2示例性示出了本申请实施例提供的任务预处理流程示意图,如图2所示,如果有多个待拆条新闻视频需要进行关键帧抽取,则每个待拆条新闻视频作为一个独立的任务,利用SVPP(素材预处理服务)接收平台对每个任务进行分布式部署后,对每个任务进行对应的内容预处理,在内容预处理的过程中,利用具体的内容预处理模块完成对应任务的管理以及内容预处理分析,其中,内容预处理分析可以设置为关键帧图像抽取,进而完成内容预处理分析后,输出该任务对应的待拆条新闻视频中抽取到的关键帧图像。需要说明的是,每个任务对应一个内容预处理模块。
步骤S103,提取各个关键帧图像中的人物信息。
其中,人物信息包括识别人物的人脸、识别人物的姿态以及识别人物在关键帧图像中的出现位置。
具体地,提取各个关键帧图像中的人物信息的方式有多种,一个示例中,可以通过以下方式提取各个关键帧图像中的人物信息:
将各个关键帧图像输入人工智能引擎进行人物特征提取和分析,得到各个关键帧图像中的人物信息。
其中,人工智能引擎可以为AI智慧引擎系统,该AI智慧引擎系统不仅具备对关键帧图像进行人物特征提取和分析的功能,还具备对关键帧图像进行涉黄分析、涉暴分析、对象提取、OCR(Optical Character Recognition,光学字符识别)字符提取,以及对音频信息进行字符转换等功能。
在其他可能的示例中,本领域技术人员可以根据经验和实际情况确定提取各个关键帧图像中的人物信息的方式,比如人工手动提取,具体不作限定。
步骤S104,获取拆条模板图像。
其中,拆条模板图像用于提供目标人物信息,目标人物信息包括目标人物的人脸、目标人物的姿态以及目标人物在图像中的出现位置。
优选地,目标人物为播音员或主持人。
需要说明的是,目标人物可以为一个,也可以为一个以上,可以根据待拆条新闻视频的情况具体确定。
还需要说明的是,拆条模板图像可以为多个,拆条模板图像是基于素材池中每个任务的内容预处理结果预设的,播放时间段不同或者播放内容不同的新闻视频节目应设置不同的拆条模板图像。
示例性地,拆条模板图像可以提供几个目标人物、各自出现的姿态、以及各自出现的点位等,比如其中一个拆条模板图像提供同时出现两个主持人,主持人A以坐姿的姿态位于图像左侧,主持人B以坐姿的姿态位于图像右侧,比如另一个拆条模板图像提供仅出现单个主持人A,以站姿的姿态位于图像左侧等。
采用上述方案,通过获取拆条模板图像,可以提供目标人物信息作为新闻视频拆条的标准,进而使得可以根据人物特征对新闻视频进行拆条,较为符合新闻视频的场景特点,也为后续准确拆条垫定了基础。
步骤S105,判断候选关键帧图像中的候选人物信息是否符合目标人物信息。如果候选关键帧图像中的候选人物信息符合目标人物信息,则执行步骤S106,否则,执行步骤S107。
其中,候选关键帧图像为多个关键帧图像中任意一个关键帧图像。也就是说,需要遍历每个关键帧图像中的人物信息是否符合目标人物信息。
步骤S106,将候选关键帧图像对应的时间点确定为拆条时间点。
其中,拆条时间点为在此时间点处,将待拆条新闻视频断开,拆条时间点可以作为前一个视频段落的结束时间点,也可以作为下一个视频段落的开始时间点,具体不作限定,但是需要预先统一,比如在同一个待拆条新闻视频中,每个拆条时间点均为前一个视频段落的结束时间点。
步骤S107,不对候选关键帧图像执行任何动作。
步骤S108,按照所有拆条时间点将待拆条新闻视频进行拆分,得到多个初始视频段落。
具体地,也就是说,按照由早到晚的顺序,在各个拆条时间点处将待拆条新闻视频断开为多个初始视频段落。
示例性地,待拆条新闻视频包含30个单帧图像,其中有10个关键帧图像,经过人物特征提取和模板比对后,有4个关键帧图像对应的时间点被确定为拆条时间点,则该待拆条新闻视频被拆分为5个初始视频段落。
如此,本申请实施例提供的一种基于人工智能的广播电视新闻拆条方法,提取待拆条新闻视频中各个关键帧图像中的人物信息后,将每个关键帧图像中的人物信息与拆条模板图像中的目标人物信息作比对,将人物信息符合目标人物信息的关键帧图像对应的时间点确定为拆条时间点,最终按照所有拆条时间点对待拆条新闻视频进行拆分。如此,利用人物信息的变化来反映新闻事件的变化,按照预设的拆条模板图像对待拆条新闻视频进行自动拆条,拆条效率较高。
此外,为了进一步校正拆条后的各个初始视频段落,并且直观地显示各个初始视频段落的主要内容,参见图3所示的工作流程示意图,为本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法,在执行步骤S101至步骤S108之后,具体还执行如下步骤:
步骤S301,提取每个初始视频段落的标题。
其中,标题为初始视频段落中关键字符的集合,用于反映该初始视频段落的关键内容。
具体地,标题的提取方式有多种。一个示例中,可以通过以下方式提取每个初始视频段落的标题:
首先,提取每个初始关键帧图像中的第一文字信息。
其中,初始关键帧图像为位于初始视频段落中的关键帧图像,第一文字信息包括多个第一字符。需要说明的是,初始视频段落中不仅包括初始关键帧图像,还包括其余非关键帧的初始单帧图像。
最后,从所有第一文字信息中提取初始视频段落的标题。
进一步地,从所有第一文字信息中提取初始视频段落的标题的方式有多种。一种实现方式中,可以通过以下方式从所有第一文字信息中提取所述初始视频段落的标题:
首先,提取所有第一文字信息中的关键词。
具体地,关键词包括多个字符,可以采用关键词算法进行关键词提取,比如TF-IDF(term frequency–inverse document frequency,词频逆文本频率指数)算法,具体不作限定。
其次,获取第一单帧序列。
其中,第一单帧序列为包含关键词的连续多个初始单帧图像组成的序列,初始单帧图像为位于初始视频段落中的单帧图像。
示例性地,假如某个初始视频段落中的第3、4、5个初始单帧图像均包含提取出的关键词,则第3、4、5个初始单帧图像共同构成一个第一单帧序列。
再次,获取第一单帧序列的第一持续时间。
具体地,第一持续时间是指第一单帧序列中最后一帧图像对应的时间点,与第一单帧序列中第一帧图像对应的时间点的时间差。
最后,判断第一持续时间是否大于第一预设阈值,如果第一持续时间大于第一预设阈值,则将关键词确定为初始视频段落的标题。如果第一持续时间小于或等于第一预设阈值,则确定从所有第一文字信息中无法提取初始视频段落的标题。
具体地,第一预设阈值可以由本领域技术人员根据需要和实际情况确定,具体不作限定。
另一种实现方式中,可以通过以下方式从所有第一文字信息中提取所述初始视频段落的标题:
首先,获取第二单帧序列。
其中,第二单帧序列为包含目标第一字符的连续多个初始单帧图像组成的序列,目标第一字符为多个第一字符中任一第一字符。
具体地,也就是说,需要以第一文字信息中每个第一字符作为目标第一字符,依次获取目标第一字符对应的第二单帧序列。
其次,获取第二单帧序列的第二持续时间。
具体地,第二持续时间是指第二单帧序列中最后一帧图像对应的时间点,与第二单帧序列中第一帧图像对应的时间点的时间差。
再次,判断每个第二单帧序列的第二持续时间是否大于第二预设阈值。
具体地,第二预设阈值可以由本领域技术人员根据需要和实际情况确定,具体不作限定。
最终,将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为初始视频段落的标题。或者,如果不存在第二持续时间大于第二预设阈值的第二单帧序列,则确定从所有第一文字信息中无法提取初始视频段落的标题。
具体地,也就是说,第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同组成了初始视频段落的标题。
在其他可能的实现方式中,还可以通过其他方式从所有第一文字信息中提取所述初始视频段落的标题,比如采取人工标注的形式,具体不作限定。
如果采用上述示例中的标题提取方式,最终确定从所有第一文字信息中无法提取初始视频段落的标题,则另一个示例中,还可以采用以下方式继续提取每个初始视频段落的标题:
首先,对待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息。
具体地,音频重采样方式不作具体限定,比如可以采用上采样。进一步地,可以采用前述图2所述的任务预处理流程进行音频重采样,即在内容预处理的过程中,利用具体的内容预处理模块完成对应任务的管理以及内容预处理分析,其中,内容预处理分析可以设置为音频重采样,进而完成内容预处理分析后,输出该任务对应的待拆条新闻视频中音频采样信息,具体此处不再赘述。
然后,按照所有拆条时间点对音频采样信息进行划分,得到每个初始视频段落中的初始音频信息。
具体地,在每个拆条时间点处,将音频采样信息断开,拆条时间点可以作为前一个视频段落的结束时间点,也可以作为下一个视频段落的开始时间点,具体不作限定,但是需要预先统一,比如在同一个待拆条新闻视频中,每个拆条时间点均为前一个视频段落的结束时间点。
接着,提取初始音频信息中的第二文字信息。
具体地,可以通过以下方式提取初始音频信息中的第二文字信息:
将初始音频信息输入预设的人工智能引擎进行语音特征提取和分析,得到初始音频信息中的第二文字信息。
需要说明的是,此处所述的人工智能引擎与前述步骤103中使用的人工智能引擎相同,此处不再赘述。
最后,从所有第二文字信息中提取初始视频段落的标题。
需要说明的是,此处所述从所有第二文字信息中提取初始视频段落的标题的方法,可以参考前述从所有第一文字信息中提取初始视频段落的标题的多种实现方式,此处不再赘述。
在其他可能的示例中,本领域技术人员可以根据经验和实际情况确定标题的提取方式,比如通过人工识别,具体不作限定。
步骤S302,对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
需要说明的是,本申请实施例将语义相同定义为语义相似度符合预设要求。
具体地,可以通过以下方式对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落:
首先,确定目标初始视频段落的标题与候选初始视频段落的标题的语义相似度。
其中,目标初始视频段落为任一初始视频段落,候选初始视频段落为目标初始视频段落的前一个初始视频段落。
然后,判断语义相似度是否大于预设的语义阈值。
具体地,语义阈值可以由本领域技术人员根据需要和实际情况确定,比如90%,具体不作限定。
最后,如果语义相似度大于预设的语义阈值,则将目标初始视频段落与候选初始视频段落进行合并处理,并将合并处理后的视频段落确定为视频拆条段落。如果语义相似度小于或等于语义阈值,则将目标初始视频段落确定为视频拆条段落。
需要说明的是,如果从初始视频段落中未提取出标题,则该初始视频段落保留并且不予合并即可。
如此,采用本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法,不仅拆条效率较高,并且通过将符合同一关键内容的拆条段落进行合并,实现了对广播电视新闻拆条结果的进一步校正,进一步提高了广播电视新闻拆条结果的准确性,同时还能够一目了然地显示拆条段落的关键内容,具有较高的实用性。
为了更加清楚地说明本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法,图4示例性示出了本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法所对应的具体工作流程示意图,如图4所示,提取待拆条新闻视频中各个关键帧图像中的人物信息,并获取拆条模板图像后,将人物信息与拆条模板图像进行比对,确定拆条时间点,按照所有拆条时间点将待拆条新闻视频拆分为多个初始视频段落后,开始取各个段落的标题,遍历初始视频段落后,提取每个初始关键帧图像中的第一文字信息,如果采用关键词算法,则提取所有第一文字信息中的关键词,并获取第一单帧序列以及第一单帧序列的第一持续时间,如果第一持续时间大于第一预设阈值,则将关键词确定为初始视频段落的标题。如果不采用关键词算法,则获取第二单帧序列以及第二单帧序列的第二持续时间,最终将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为初始视频段落的标题,如果两种方法都没有从第一文字信息中提取到标题,则对待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息,按照所有拆条时间点对音频采样信息进行划分,得到每个初始视频段落中的初始音频信息,提取初始音频信息中的第二文字信息后,按照上述从第一文字信息中提取标题的方法,从第二文字信息中提取标题。最终,对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
示例性地,图5示例性示出了本申请实施例提供的另一种基于人工智能的广播电视新闻拆条方法的应用示例效果图。如图5所示,本申请实施例提供的拆条方法将示例广播电视新闻视频拆条为七个视频拆条段落,每个视频拆条段落均有对应的标题。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6示例性示出了本申请实施例提供的一种基于人工智能的广播电视新闻拆条装置的结构示意图。如图6所示,该装置具有实现上述基于人工智能的广播电视新闻拆条方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:视频获取模块601、图像抽取模块602、人物信息提取模块603、拆条模板图像获取模块604、拆条时间点确定模块605和拆条模块606。
视频获取模块601,用于获取待拆条新闻视频。
图像抽取模块602,用于从待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像。
人物信息提取模块603,用于提取各个关键帧图像中的人物信息,人物信息包括识别人物的人脸、识别人物的姿态以及识别人物在关键帧图像中的出现位置。
拆条模板图像获取模块604,用于获取拆条模板图像,拆条模板图像用于提供目标人物信息,目标人物信息包括目标人物的人脸、目标人物的姿态以及目标人物在图像中的出现位置。
拆条时间点确定模块605,用于如果候选关键帧图像中的候选人物信息符合目标人物信息,则将候选关键帧图像对应的时间点确定为拆条时间点,候选关键帧图像为多个关键帧图像中任意一个关键帧图像。
拆条模块606,用于按照所有拆条时间点将待拆条新闻视频进行拆分,得到多个初始视频段落。
在一种可实现方式中,装置还包括:
标题提取模块607,用于提取每个初始视频段落的标题,标题为初始视频段落中关键字符的集合。
合并模块608,用于对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
在一种可实现方式中,标题提取模块607包括:
第一文字信息提取子模块,用于提取每个初始关键帧图像中的第一文字信息,初始关键帧图像为位于初始视频段落中的关键帧图像,第一文字信息包括多个第一字符。
第一标题提取子模块,用于从所有第一文字信息中提取初始视频段落的标题。
在一种可实现方式中,第一标题提取子模块包括:
关键词提取单元,用于提取所有第一文字信息中的关键词。
第一单帧序列获取单元,用于获取第一单帧序列,第一单帧序列为包含关键词的连续多个初始单帧图像组成的序列,初始单帧图像为位于初始视频段落中的单帧图像。
第一持续时间获取单元,用于获取第一单帧序列的第一持续时间。
第一标题确定单元,用于如果第一持续时间大于第一预设阈值,则将关键词确定为初始视频段落的标题。
或者,如果第一持续时间小于或等于第一预设阈值,则确定从所有第一文字信息中无法提取初始视频段落的标题。
在一种可实现方式中,第一标题提取子模块还包括:
第二单帧序列获取单元,用于获取第二单帧序列,第二单帧序列为包含目标第一字符的连续多个初始单帧图像组成的序列,目标第一字符为多个第一字符中任一第一字符。
第二持续时间获取单元,用于获取单元,用于获取第二单帧序列的第二持续时间。
第二标题确定单元,用于将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为初始视频段落的标题。
或者,如果不存在第二持续时间大于第二预设阈值的第二单帧序列,则确定从所有第一文字信息中无法提取初始视频段落的标题。
在一种可实现方式中,标题提取模块607还包括:
音频采样子模块,用于如果确定从所有第一文字信息中无法提取初始视频段落的标题,则对待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息。
初始音频信息确定子模块,用于按照所有拆条时间点对音频采样信息进行划分,得到每个初始视频段落中的初始音频信息。
第二文字信息提取子模块,用于提取初始音频信息中的第二文字信息。
第二标题提取子模块,用于从所有第二文字信息中提取初始视频段落的标题。
在一种可实现方式中,第二文字信息提取子模块包括:
提取单元,用于将初始音频信息输入预设的人工智能引擎进行语音特征提取和分析,得到初始音频信息中的第二文字信息。
在一种可实现方式中,合并模块608包括:
语义相似度确定子模块,用于确定目标初始视频段落的标题与候选初始视频段落的标题的语义相似度,目标初始视频段落为任一初始视频段落,候选初始视频段落为目标初始视频段落的前一个初始视频段落。
合并处理子模块,用于如果语义相似度大于预设的语义阈值,则将目标初始视频段落与候选初始视频段落进行合并处理。
视频拆条段落确定子模块,用于将合并处理后的视频段落确定为视频拆条段落。
或者,如果语义相似度小于或等于语义阈值,则将目标初始视频段落确定为视频拆条段落。
在一种可实现方式中,人物信息提取模块603包括:
人物信息提取单元,用于将各个关键帧图像输入人工智能引擎进行人物特征提取和分析,得到各个关键帧图像中的人物信息。
如此,本申请实施例提供一种基于人工智能的广播电视新闻拆条装置,该装置中,提取待拆条新闻视频中各个关键帧图像中的人物信息后,将每个关键帧图像中的人物信息与拆条模板图像中的目标人物信息作比对,将人物信息符合目标人物信息的关键帧图像对应的时间点确定为拆条时间点,最终按照所有拆条时间点对待拆条新闻视频进行拆分。如此,利用人物信息的变化来反映新闻事件的变化,按照预设的拆条模板图像对待拆条新闻视频进行自动拆条,拆条效率较高。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种基于人工智能的广播电视新闻拆条方法,其特征在于,包括:
获取待拆条新闻视频;
从所述待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像;
提取各个关键帧图像中的人物信息,所述人物信息包括识别人物的人脸、所述识别人物的姿态以及所述识别人物在所述关键帧图像中的出现位置;
获取拆条模板图像,所述拆条模板图像用于提供目标人物信息,所述目标人物信息包括目标人物的人脸、所述目标人物的姿态以及所述目标人物在图像中的出现位置;
如果候选关键帧图像中的候选人物信息符合所述目标人物信息,则将所述候选关键帧图像对应的时间点确定为拆条时间点,所述候选关键帧图像为多个关键帧图像中任意一个关键帧图像;
按照所有拆条时间点将所述待拆条新闻视频进行拆分,得到多个初始视频段落。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取每个初始视频段落的标题,所述标题为所述初始视频段落中关键字符的集合;
对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落。
3.根据权利要求2所述的方法,其特征在于,所述提取每个初始视频段落的标题,包括:
提取每个初始关键帧图像中的第一文字信息,所述初始关键帧图像为位于所述初始视频段落中的关键帧图像,所述第一文字信息包括多个第一字符;
从所有第一文字信息中提取所述初始视频段落的标题。
4.根据权利要求3所述的方法,其特征在于,所述从所有第一文字信息中提取所述初始视频段落的标题,包括:
提取所有第一文字信息中的关键词;
获取第一单帧序列,所述第一单帧序列为包含所述关键词的连续多个初始单帧图像组成的序列,所述初始单帧图像为位于所述初始视频段落中的单帧图像;
获取所述第一单帧序列的第一持续时间;
如果所述第一持续时间大于第一预设阈值,则将所述关键词确定为所述初始视频段落的标题;
或者,如果所述第一持续时间小于或等于所述第一预设阈值,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
5.根据权利要求3所述的方法,其特征在于,所述从所有第一文字信息中提取所述初始视频段落的标题,包括:
获取第二单帧序列,所述第二单帧序列为包含目标第一字符的连续多个初始单帧图像组成的序列,所述目标第一字符为多个第一字符中任一第一字符;
获取所述第二单帧序列的第二持续时间;
将第二持续时间大于第二预设阈值的所有第二单帧序列中所包含的第一字符,共同确定为所述初始视频段落的标题;
或者,如果不存在第二持续时间大于所述第二预设阈值的第二单帧序列,则确定从所有第一文字信息中无法提取所述初始视频段落的标题。
6.根据权利要求4或5中任一项所述的方法,其特征在于,所述方法还包括:
如果确定从所有第一文字信息中无法提取所述初始视频段落的标题,则对所述待拆条新闻视频中的音频信息进行音频重采样,得到音频采样信息;
按照所有拆条时间点对所述音频采样信息进行划分,得到每个初始视频段落中的初始音频信息;
提取所述初始音频信息中的第二文字信息;
从所有第二文字信息中提取所述初始视频段落的标题。
7.根据权利要求6所述的方法,其特征在于,所述提取所述初始音频信息中的第二文字信息,包括:
将所述初始音频信息输入预设的人工智能引擎进行语音特征提取和分析,得到所述初始音频信息中的第二文字信息。
8.根据权利要求2所述的方法,其特征在于,所述对标题语义相同的初始视频段落进行合并处理,得到多个视频拆条段落,包括:
确定目标初始视频段落的标题与候选初始视频段落的标题的语义相似度,所述目标初始视频段落为任一初始视频段落,所述候选初始视频段落为所述目标初始视频段落的前一个初始视频段落;
如果所述语义相似度大于预设的语义阈值,则将所述目标初始视频段落与所述候选初始视频段落进行合并处理;
将合并处理后的视频段落确定为视频拆条段落;
或者,如果所述语义相似度小于或等于所述语义阈值,则将所述目标初始视频段落确定为所述视频拆条段落。
9.根据权利要求1所述的方法,其特征在于,所述提取各个关键帧图像中的人物信息,包括:
将各个关键帧图像输入所述人工智能引擎进行人物特征提取和分析,得到各个关键帧图像中的人物信息。
10.一种基于人工智能的广播电视新闻拆条装置,其特征在于,包括:
视频获取模块,用于获取待拆条新闻视频;
图像抽取模块,用于从所述待拆条新闻视频中的所有单帧图像中抽取多个关键帧图像;
人物信息提取模块,用于提取各个关键帧图像中的人物信息,所述人物信息包括识别人物的人脸、所述识别人物的姿态以及所述识别人物在所述关键帧图像中的出现位置;
拆条模板图像获取模块,用于获取拆条模板图像,所述拆条模板图像用于提供目标人物信息,所述目标人物信息包括目标人物的人脸、所述目标人物的姿态以及所述目标人物在图像中的出现位置;
拆条时间点确定模块,用于如果候选关键帧图像中的候选人物信息符合所述目标人物信息,则将所述候选关键帧图像对应的时间点确定为拆条时间点,所述候选关键帧图像为多个关键帧图像中任意一个关键帧图像;
拆条模块,用于按照所有拆条时间点将所述待拆条新闻视频进行拆分,得到多个初始视频段落。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680476.4A CN115497017A (zh) | 2021-06-18 | 2021-06-18 | 一种基于人工智能的广播电视新闻拆条方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680476.4A CN115497017A (zh) | 2021-06-18 | 2021-06-18 | 一种基于人工智能的广播电视新闻拆条方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497017A true CN115497017A (zh) | 2022-12-20 |
Family
ID=84465075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680476.4A Pending CN115497017A (zh) | 2021-06-18 | 2021-06-18 | 一种基于人工智能的广播电视新闻拆条方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497017A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909174A (zh) * | 2023-01-06 | 2023-04-04 | 中译文娱科技(青岛)有限公司 | 一种视频提取方法及系统 |
CN116939291A (zh) * | 2023-09-13 | 2023-10-24 | 浙江新华移动传媒股份有限公司 | 一种视频快速拆条方法及相关装置 |
-
2021
- 2021-06-18 CN CN202110680476.4A patent/CN115497017A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909174A (zh) * | 2023-01-06 | 2023-04-04 | 中译文娱科技(青岛)有限公司 | 一种视频提取方法及系统 |
CN116939291A (zh) * | 2023-09-13 | 2023-10-24 | 浙江新华移动传媒股份有限公司 | 一种视频快速拆条方法及相关装置 |
CN116939291B (zh) * | 2023-09-13 | 2023-11-28 | 浙江新华移动传媒股份有限公司 | 一种视频快速拆条方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
CN101616264B (zh) | 新闻视频编目方法及系统 | |
KR102433393B1 (ko) | 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 | |
CN107087211B (zh) | 一种主持人镜头检测方法及装置 | |
CN110119711A (zh) | 一种获取视频数据人物片段的方法、装置及电子设备 | |
US20080043144A1 (en) | Multimodal identification and tracking of speakers in video | |
KR101516995B1 (ko) | 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법 | |
CN115497017A (zh) | 一种基于人工智能的广播电视新闻拆条方法及装置 | |
CN105323634A (zh) | 一种视频的缩略图生成方法及系统 | |
CN112733654B (zh) | 一种视频拆条的方法和装置 | |
CN110881115A (zh) | 会议视频的拆条方法及系统 | |
CN107066488B (zh) | 基于影视内容语义分析的影视桥段自动分割方法 | |
CN110781346A (zh) | 基于虚拟形象的新闻生产方法、系统、装置和存储介质 | |
CN114254158A (zh) | 视频生成方法及其装置、神经网络的训练方法及其装置 | |
CN110287376B (zh) | 一种基于剧本和字幕分析的抽取重要电影片段的方法 | |
CN113301382B (zh) | 视频处理方法、设备、介质及程序产品 | |
CN112738555B (zh) | 视频处理方法及装置 | |
JP2002157592A (ja) | 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体 | |
JP4270117B2 (ja) | 視聴者間コミュニケーション方法及び装置及びプログラム | |
Qiu et al. | Dual focus attention network for video emotion recognition | |
Jindal et al. | Efficient and language independent news story segmentation for telecast news videos | |
CN112261321B (zh) | 字幕处理方法、装置及电子设备 | |
CN112188116B (zh) | 基于对象的视频合成方法、客户端及系统 | |
CN111128190B (zh) | 一种表情匹配的方法及系统 | |
CN114339451A (zh) | 视频剪辑方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |