CN113255628B - 一种针对新闻场景的景别识别方法 - Google Patents
一种针对新闻场景的景别识别方法 Download PDFInfo
- Publication number
- CN113255628B CN113255628B CN202110799561.2A CN202110799561A CN113255628B CN 113255628 B CN113255628 B CN 113255628B CN 202110799561 A CN202110799561 A CN 202110799561A CN 113255628 B CN113255628 B CN 113255628B
- Authority
- CN
- China
- Prior art keywords
- scene
- data set
- target detection
- scene recognition
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012706 support-vector machine Methods 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种针对新闻场景的景别识别方法,包括步骤:S1,构建电视新闻场景的景别识别数据集、场景识别数据集和目标检测数据集;S2,选取场景识别训练网络和目标检测训练网络分别进行训练,得到训练后的场景识别模型和目标检测模型;S3,为目标检测数据集中每个类别增加一个反映其实际尺寸的先验信息;S4,对景别识别数据集中的图像进行编码,将景别识别数据集中的图像输入训练后的目标检测模型,得到图像中的景物信息,并将该景物信息编码为特征;S5,基于编码后的景别数据集训练支持向量机进行景别识别等。本发明有效地融合了图像中的目标和场景信息,适用于多种场景和主体目标,可有效地提升新闻视频的编辑效率,减少人工成本。
Description
技术领域
本发明涉及电视新闻制作领域,更为具体的,涉及一种针对新闻场景的景别识别方法。
背景技术
随着网络技术的发展,数字视频的普及,融媒体的兴起,视频数据的处理和分析技术变得越来越重要。
景别是指由于被摄物体与摄像机距离不同,而造成被摄物体在画面中所呈现出的范围大小不同。虽然景别的划分没有一个严格的标准,但通常被划分为远景、全景、中景、近景、特写。
在电视新闻制作过程中,一般来说既要有新闻事件的全景画面,也要有新闻细节的近景或特写画面,还应考虑到后期剪辑的方便而包含不同景别的画面。
通过交替地使用各种不同的景别,可以使得对事件的叙述、人物思想感情的表达、人物关系的处理更具有表现力。
由于电视新闻制作过程中有大量的原始素材,若通过人工的方式来对景别进行判断需要很高的人力成本。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对新闻场景的景别识别方法,有效地融合了图像中的目标和场景信息,适用于多种场景和主体目标,可有效地提升新闻视频的编辑效率,减少人工成本等。
本发明的目的是通过以下方案实现的:
一种针对新闻场景的景别识别方法,包括步骤:
S1,构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集;
S2,选取场景识别训练网络和目标检测训练网络分别进行训练,得到训练后的场景识别模型和目标检测模型;
S3,为目标检测数据集中每个目标类别增加一个反映其实际尺寸的先验信息;
S4,对景别识别数据集中的图像进行编码,将景别识别数据集中的图像同时输入训练后的场景识别和目标检测模型,从而得到图像中的景物信息,并将该景物信息编码为特征;
S5,基于编码后的景别识别数据集训练支持向量机进行景别识别。
进一步地,在步骤S1中,构建电视新闻场景的景别识别数据集、场景识别、目标检测数据集包括步骤:S11,收集新闻视频并从中提取图片,构成图片集合;S12,对步骤S11中每张图片的景别类别和场景进行标注,从而构成景别识别数据集和场景识别数据集;其中,构建目标检测数据集包括步骤:S1a,在COCO数据集的基础上,加入Open Image v4中与人体相关的数据,构成目标检测数据集。
进一步地,在步骤S2中,在步骤S12构成的场景识别数据集上训练得到场景识别模型,在步骤S1a构成的目标检测数据集上训练得到目标检测模型。
进一步地,在步骤S3中,包括如下步骤:
S31,从目标检测数据集中,针对每个目标类别各选择多张图像作为代表样本;
S32,根据步骤S31选出的代表样本,为每个类别分配一个能够反映其实际大小尺寸的变量S作为先验信息。
进一步地,在步骤S4中,包括如下步骤:
进一步地,在步骤S5中,包括如下子步骤:
S51,将经过目标编码和场景编码后的样本集合作为最终的景别识别数据集;
S52,将步骤S51中的景别识别数据集按照设定比例划分为训练集和测试集;
S53,在步骤S52划分的训练集上进行10折交叉验证法确定最优超参数;
S54,使用步骤S53中确定的最优超参数训练支持向量机,训练得到最终的支持向量机模型进行景别识别。
进一步地,在步骤S32中,所述变量S:
进一步地,在步骤S52中,所述设定比例为5:1。
本发明的有益效果包括:
本发明的方法针对新闻视频场景和主体多变的特性,提供了一种适用于多种场景和主体类别的景别识别解决方案。通过场景识别和目标检测,有效地融合了图像中的目标和场景信息,同时引入各目标物体的实际尺寸作为先验信息,从而使得本发明的方法适用于多种场景和主体目标,可有效地提升新闻视频的编辑效率,减少人工成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的整体流程图;
图2为本发明实施例中的构造景别识别数据集的流程图;
图3为本发明实施例中的对景别识别数据集进行编码的流程图;
图4为本发明实施例中的训练支持向量机并用于景别识别的流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1所示,一种针对新闻场景的景别识别方法,包括步骤:
S1,构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集;
S2,选取场景识别训练网络和目标检测训练网络分别进行训练,得到训练后的场景识别模型和目标检测模型;
S3,为目标检测数据集中每个目标类别增加一个反映其实际尺寸的先验信息;
S4,对景别识别数据集中的图像进行编码,将景别识别数据集中的图像输入训练后的场景识别和目标检测模型,从而得到图像中的景物信息,并将该景物信息编码为特征;
S5,基于编码后的景别识别数据集训练支持向量机进行景别识别。
实施例2
在实施例1的基础上,在步骤S1中,如图2所示,构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集包括步骤:
S11,收集新闻视频并从中提取图片,构成图片集合;
S12,对每张图片的景别类别和场景进行标注,从而构成景别识别数据集和场景识别数据集;其中,构建目标检测数据集包括步骤:S1a,在COCO数据集的基础上,加入OpenImage v4中与人体相关的数据,构成目标检测数据集。
在本实施例中,可以预先定义景别类别为:远景、中景、近景、特写;场景类别为:室内环境,城市风光,户外环境,演播室。然后从新闻视频中搜集图像形成一个图像集合,请4位专业人士对图像集合的每张图像的景别类别和场景类别进行标注,对4位专业人士的标注结果进行处理,筛选出标注结果一致的图像集合,作为景别识别和场景识别的数据集。
在本实施例中,在步骤S12构成的场景识别数据集上训练得到场景识别模型,在步骤S1a构成的目标检测数据集上训练得到目标检测模型。
实施例3
在实施例2的基础上,在步骤S3中,包括如下步骤:
S31,从目标检测数据集中,针对每个目标类别各选择多张图像作为代表样本;
S32,根据步骤S31选出的代表样本,为每个类别分配一个能够反映其实际大小尺寸的变量S作为先验信息。
实施例4
在实施例3的基础上,在步骤S4中,如图3所示,包括如下步骤:
实施例5
在实施例4的基础上,在步骤S5中,如图4所示,包括如下步骤:
S51,将经过目标编码和场景编码后的样本集合作为最终的景别识别数据集;
S52,将步骤S51中的景别识别数据集按照设定比例划分为训练集和测试集;
S53,在步骤S52划分的训练集上进行10折交叉验证法确定最优超参数;
S54,使用步骤S53中确定的最优超参数训练支持向量机,训练得到最终的支持向量机模型进行景别识别。
在步骤S32中,所述变量S:
实施例6
在实施例5的基础上,在步骤S52中,设定比例为5:1。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。
Claims (6)
1.一种针对新闻场景的景别识别方法,其特征在于,包括步骤:
S1,构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集;
S2,选取场景识别训练网络和目标检测训练网络分别进行训练,得到训练后的场景识别模型和目标检测模型;
S3,为目标检测数据集中每个目标类别增加一个反映其实际尺寸的先验信息;
在步骤S3中,包括如下步骤:
S31,从目标检测数据集中,针对每个目标类别各选择多张图像作为代表样本;
S32,根据步骤S31选出的代表样本,为每个类别分配一个能够反映其实际大小尺寸的变量S作为先验信息;
S4,对景别识别数据集中的图像进行编码,将景别识别数据集中的图像同时输入训练后的场景识别和目标检测模型,从而得到图像中的景物信息,并将该景物信息编码为特征;
在步骤S4中,包括如下步骤:
S5,基于编码后的景别识别数据集训练支持向量机进行景别识别。
2.根据权利要求1所述的一种针对新闻场景的景别识别方法,其特征在于,在步骤S1中,构建电视新闻场景的景别识别数据集、场景识别、目标检测数据集包括步骤:S11,收集新闻视频并从中提取图片,构成图片集合;S12,对步骤S11中每张图片的景别类别和场景进行标注,从而构成景别识别数据集和场景识别数据集;其中,构建目标检测数据集包括步骤:S1a,在COCO数据集的基础上,加入OpenImagev4中与人体相关的数据,构成目标检测数据集。
3.根据权利要求2所述的一种针对新闻场景的景别识别方法,其特征在于,在步骤S2中,在步骤S12构成的场景识别数据集上训练得到场景识别模型,在步骤S1a构成的目标检测数据集上训练得到目标检测模型。
4.根据权利要求1所述的一种针对新闻场景的景别识别方法,其特征在于,在步骤S5中,包括如下子步骤:
S51,将经过目标编码和场景编码后的样本集合作为最终的景别识别数据集;
S52,将步骤S51中的景别识别数据集按照设定比例划分为训练集和测试集;
S53,在步骤S52划分的训练集上进行10折交叉验证法确定最优超参数;
S54,使用步骤S53中确定的最优超参数训练支持向量机,训练得到最终的支持向量机模型进行景别识别。
6.根据权利要求1所述的一种针对新闻场景的景别识别方法,其特征在于,在步骤S52中,设定比例为5:1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799561.2A CN113255628B (zh) | 2021-07-15 | 2021-07-15 | 一种针对新闻场景的景别识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799561.2A CN113255628B (zh) | 2021-07-15 | 2021-07-15 | 一种针对新闻场景的景别识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255628A CN113255628A (zh) | 2021-08-13 |
CN113255628B true CN113255628B (zh) | 2021-10-15 |
Family
ID=77180453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110799561.2A Active CN113255628B (zh) | 2021-07-15 | 2021-07-15 | 一种针对新闻场景的景别识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255628B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723305A (zh) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | 图像和视频检测方法、装置、电子设备和介质 |
CN114529944B (zh) * | 2022-02-15 | 2022-11-15 | 中国科学院软件研究所 | 一种结合人体关键点热图特征的人像景别识别方法 |
CN116597470B (zh) * | 2023-04-27 | 2024-03-19 | 北京电子科技学院 | 一种基于图像理解的景别识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165557A (zh) * | 2018-07-25 | 2019-01-08 | 曹清 | 景别判断系统及景别判断方法 |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN111160134A (zh) * | 2019-12-12 | 2020-05-15 | 浙江大学 | 一种以人为主体的视频景别分析方法和装置 |
US10755128B2 (en) * | 2018-12-18 | 2020-08-25 | Slyce Acquisition Inc. | Scene and user-input context aided visual search |
CN111709296A (zh) * | 2020-05-18 | 2020-09-25 | 北京奇艺世纪科技有限公司 | 一种景别识别方法、装置、电子设备及可读存储介质 |
CN112035705A (zh) * | 2020-08-31 | 2020-12-04 | 北京市商汤科技开发有限公司 | 标签生成方法及装置、电子设备和存储介质 |
CN112040272A (zh) * | 2020-09-08 | 2020-12-04 | 海信电子科技(武汉)有限公司 | 体育赛事智能解说方法、服务器及显示设备 |
CN112468877A (zh) * | 2021-02-01 | 2021-03-09 | 北京中科大洋科技发展股份有限公司 | 一种基于ai内容分析和ocr识别的智能新闻编目方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111146B2 (en) * | 2008-02-15 | 2015-08-18 | Tivo Inc. | Systems and methods for semantically classifying and normalizing shots in video |
CN106326910A (zh) * | 2015-07-06 | 2017-01-11 | 无锡天脉聚源传媒科技有限公司 | 一种视频镜头的分类标注方法及装置 |
CN110457494A (zh) * | 2019-08-01 | 2019-11-15 | 新华智云科技有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN112507781B (zh) * | 2020-10-21 | 2023-11-21 | 天津中科智能识别产业技术研究院有限公司 | 一种多维度多模态群体生物特征识别系统以及方法 |
CN112036387B (zh) * | 2020-11-06 | 2021-02-09 | 成都索贝数码科技股份有限公司 | 基于门控卷积神经网络的新闻画面拍摄角度识别方法 |
CN112800982A (zh) * | 2021-02-01 | 2021-05-14 | 苏州喆鑫信息科技有限公司 | 一种基于遥感场景分类的目标检测方法 |
CN112883731B (zh) * | 2021-04-29 | 2021-08-20 | 腾讯科技(深圳)有限公司 | 内容分类方法和装置 |
-
2021
- 2021-07-15 CN CN202110799561.2A patent/CN113255628B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165557A (zh) * | 2018-07-25 | 2019-01-08 | 曹清 | 景别判断系统及景别判断方法 |
US10755128B2 (en) * | 2018-12-18 | 2020-08-25 | Slyce Acquisition Inc. | Scene and user-input context aided visual search |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN111160134A (zh) * | 2019-12-12 | 2020-05-15 | 浙江大学 | 一种以人为主体的视频景别分析方法和装置 |
CN111709296A (zh) * | 2020-05-18 | 2020-09-25 | 北京奇艺世纪科技有限公司 | 一种景别识别方法、装置、电子设备及可读存储介质 |
CN112035705A (zh) * | 2020-08-31 | 2020-12-04 | 北京市商汤科技开发有限公司 | 标签生成方法及装置、电子设备和存储介质 |
CN112040272A (zh) * | 2020-09-08 | 2020-12-04 | 海信电子科技(武汉)有限公司 | 体育赛事智能解说方法、服务器及显示设备 |
CN112468877A (zh) * | 2021-02-01 | 2021-03-09 | 北京中科大洋科技发展股份有限公司 | 一种基于ai内容分析和ocr识别的智能新闻编目方法 |
Non-Patent Citations (2)
Title |
---|
基于人工智能技术的影片内容分析方法研究;刘开南 等;《电影技术》;20180131(第02期);64-67 * |
基于人工智能的智慧媒资典型应用与实践;安永录;《广播与电视技术》;20200930;第47卷(第9期);46-50 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255628A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255628B (zh) | 一种针对新闻场景的景别识别方法 | |
JP7252362B2 (ja) | 動画を自動編集する方法及びポータブル型端末 | |
CN109479098B (zh) | 多视图场景分割和传播 | |
CN107707931B (zh) | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 | |
Ma et al. | Stage-wise salient object detection in 360 omnidirectional image via object-level semantical saliency ranking | |
US8659592B2 (en) | 2D to 3D video conversion | |
US6909806B2 (en) | Image background replacement method | |
US20080232687A1 (en) | Method and device for selection of key-frames for retrieving picture contents, and method and device for temporal segmentation of a sequence of successive video pictures or a shot | |
US11699464B2 (en) | Modification of objects in film | |
US20170048597A1 (en) | Modular content generation, modification, and delivery system | |
WO2002014982A2 (en) | Method of and system for generating and viewing multi-dimensional images | |
CN111654619A (zh) | 智能拍摄方法、装置、服务器及存储介质 | |
JP2012094144A (ja) | ビデオの3−d情報および他の情報用の一元管理データベース | |
CN110856039A (zh) | 视频处理方法及装置、存储介质 | |
CN115795096A (zh) | 一种影视素材的视频元数据标注方法 | |
TW201518847A (zh) | 拍攝立體影像之方法以及電子裝置以及儲存其之電腦可讀取記錄媒體 | |
CN111353965A (zh) | 图像修复方法、装置、终端及存储介质 | |
CN113014957B (zh) | 视频镜头切分方法和装置、介质和计算机设备 | |
CN113312949A (zh) | 视频数据处理方法、视频数据处理装置和电子设备 | |
US11715495B2 (en) | Modification of objects in film | |
CN113269854A (zh) | 一种智能生成访谈类综艺节目的方法 | |
CN106203244B (zh) | 一种镜头类型的确定方法及装置 | |
CN114554268A (zh) | 音视频数据的处理方法及装置、电子设备、存储介质 | |
CN102651801A (zh) | 图像处理装置 | |
Phillipson et al. | Old School’: An 8K Multicamera Shoot to Create a Dataset for Computational Cinematography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |