CN110287376A - 一种基于剧本和字幕分析的抽取重要电影片段的方法 - Google Patents

一种基于剧本和字幕分析的抽取重要电影片段的方法 Download PDF

Info

Publication number
CN110287376A
CN110287376A CN201910500116.4A CN201910500116A CN110287376A CN 110287376 A CN110287376 A CN 110287376A CN 201910500116 A CN201910500116 A CN 201910500116A CN 110287376 A CN110287376 A CN 110287376A
Authority
CN
China
Prior art keywords
keyword
vidclip
score
segment
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910500116.4A
Other languages
English (en)
Other versions
CN110287376B (zh
Inventor
李林峰
张怡
席德伟
艾泽发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910500116.4A priority Critical patent/CN110287376B/zh
Publication of CN110287376A publication Critical patent/CN110287376A/zh
Application granted granted Critical
Publication of CN110287376B publication Critical patent/CN110287376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于剧本和字幕分析的抽取重要电影片段的方法,步骤1:从电影剧本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;步骤2:从字幕中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;步骤3:实现将剧本的信息丰富以及获得每个场景的起始时间;步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;步骤5、6、7、8:分别计算关键词得分、主要人物得分、情感得分和动作得分,步骤9:计算每一个电影片段的重要程度值,取得分较高的作为重要的电影片段。本发明实现了在划分好电影片段的基础上对语义进行更深入的分析。

Description

一种基于剧本和字幕分析的抽取重要电影片段的方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种重要电影片段的抽取方法。
背景技术
电影剧本都是由多个场景组成,每个场景表示一个故事情节,连续的几个场景才可以表示一个有意义的故事片段。通常一个场景的时间比较短,内容比较少,不适合做语义分析,需要将连续的可以构成一个故事片段的几个场景进行合并,这样就将剧本的原始场景划分成了电影片段,再对划分好的电影片段进行分析。重要的电影片段在语义上更能概括整部电影的内容,也是整个电影中比较精彩的部分,用户可以通过观看重要的电影片段大致了解电影的内容。因此基于剧本和字幕分析抽取重要电影片段具有重要意义。
发明内容
本发明旨在提出一种基于剧本和字幕分析的抽取重要电影片段的方法,借助每一个电影片段的重要程度值,根据需要抽取重要程度值最大的前几个作为该电影的重要片段,为用户快速了解电影内容以及索引视频提供便利。
本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法,该方法包括如下步骤:
步骤1:从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;
步骤3:利用步骤1和步骤2得到的相关数据,计算剧本和字幕中人物对话的相似度,取最大值进行匹配,实现将剧本的信息丰富以及获得每个场景的起始时间;
步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;
步骤5:根据TF-IDF算法提取整个剧本的关键词,统计词频,计算关键词得分,关键词得分给出定义如下:
其中,k关键词表示关键词编号,n关键词表示关键词的个数,表示第k个关键词在全文的词频,表示第k关键词个关键词在一个片段i中的词频;
步骤6:分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量,计算主要人物得分,主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:提取每个片段的人物对话,计算情感得分,情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频,计算动作得分,动作得分的定义如下:
其中,V表示属于一个片段i的关键词中动词的词频,f表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值,取得分较高的作为重要的电影片段,计算电影片段的重要程度值,电影片段的重要程度值的定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示片段编号,r1,r2,r3,r4表示权重函数。
与现有技术相比,本发明所能达成的积极技术效果如下:
1)有助于用户更好的了解电影的主要内容。
2)可以在划分好电影片段的基础上对语义进行更深入的分析。
附图说明
图1为本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法整体流程示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案进行详细描述。
本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法,先对英文电影的剧本和字幕进行基本要素的抽取,通过人物对话进行信息融合,根据人物相关、场景相关和配角相关将原始的电影场景合并,划分出电影片段,再从关键词、主要人物、情感、动作这四个角度进行考虑,先得到每一部分的得分,再将四项进行加权,得到每一个电影片段的重要程度值,根据需要,取重要程度值最大的前几个作为该电影的重要片段。
具体包括以下步骤:
步骤1:抽取电影剧本的基本要素,即根据原始的txt剧本文本抽取出场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:抽取字幕中的基本要素,根据原始的txt字幕文本抽取出人物对话和人物对话的起始时间的相关数据;
步骤3:利用步骤1和步骤2得到的数据,使用gensim工具包中的Similarity函数分别计算剧本和字幕中人物对话的相似度,取最大值进行匹配,从而将剧本的信息丰富,获得每个场景的起始时间;
步骤4:利用步骤3处理好的数据格式,依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段。当相同的人物在相邻的场景出现时,在语义上这两个场景中讲述的是一件事情,属于一个故事片段,所以将这种情况下的相邻场景进行合并;场景分为内景(INT.)和外景(EXT.),从内景到外景,在剧本中场景就切换了,但这些场景都与同一个地点有关,基本上是围绕这个地点在讲述事件,它们都属于同一个故事片段,所以本文将发生地点相同且相邻的场景合并;在电影中有些配角只在少数场景出现,但在语义上都属于一个故事片段,当这些场景相邻时,把它们进行合并划分为一个电影片段;
步骤5:利用步骤4处理好的数据格式,从关键词这个角度去考虑,计算关键词得分。根据TF-IDF算法提取整个剧本的关键词,统计词频进行计算,对于关键词得分给出定义如下:
其中,k关键词表示关键词编号,n关键词表示关键词的个数,表示第k个关键词在全文的词频,表示第k关键词个关键词在一个片段i中的词频;
步骤6:利用步骤4处理好的数据格式,从主要人物这个角度去考虑,计算主要人物得分。根据人物在剧本中的台词数量来确定主要人物,取台词数量最多的前8个人为主要人物,分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量。对主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:利用步骤4处理好的数据格式,从情感这个角度去考虑,计算情感得分。提取每个片段的人物对话,对人物对话进行情感极性判断,得出积极和消极的情感值,情感值越接近1越表示积极,情感值越接近0越表示消极。对情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:利用步骤4处理好的数据格式,从动作这个角度去考虑,计算动作得分:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频。对动作得分的定义如下:
其中,V表示属于一个片段i的关键词中动词的词频,f表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果加权得到每一个电影片段的重要程度值,取得分较高的n个作为重要的电影片段。对于电影片段的重要程度值给出定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示电影片段编号,r1,r2,r3,r4表示权重函数,r1+r2+r3+r4=1。

Claims (1)

1.一种基于剧本和字幕分析的抽取重要电影片段的方法,其特征在于,该方法包括如下步骤:
步骤1:从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;
步骤3:利用步骤1和步骤2得到的相关数据,计算剧本和字幕中人物对话的相似度,取最大值进行匹配,实现将剧本的信息丰富以及获得每个场景的起始时间;
步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;
步骤5:根据TF-IDF算法提取整个剧本的关键词,统计词频,计算关键词得分,关键词得分给出定义如下:
其中,k关键词表示关键词编号,n关键词表示关键词的个数,表示第k个关键词在全文的词频,表示第k关键词个关键词在一个片段i中的词频;
步骤6:分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量,计算主要人物得分,主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:提取每个片段的人物对话,计算情感得分,情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频,计算动作得分,动作得分的定义如下:
其中,V表示属于一个片段i的关键词中动词的词频,f表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值,取得分较高的作为重要的电影片段,计算电影片段的重要程度值,电影片段的重要程度值的定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示片段编号,r1,r2,r3,r4表示权重函数。
CN201910500116.4A 2019-06-11 2019-06-11 一种基于剧本和字幕分析的抽取重要电影片段的方法 Active CN110287376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500116.4A CN110287376B (zh) 2019-06-11 2019-06-11 一种基于剧本和字幕分析的抽取重要电影片段的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500116.4A CN110287376B (zh) 2019-06-11 2019-06-11 一种基于剧本和字幕分析的抽取重要电影片段的方法

Publications (2)

Publication Number Publication Date
CN110287376A true CN110287376A (zh) 2019-09-27
CN110287376B CN110287376B (zh) 2021-08-20

Family

ID=68003596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500116.4A Active CN110287376B (zh) 2019-06-11 2019-06-11 一种基于剧本和字幕分析的抽取重要电影片段的方法

Country Status (1)

Country Link
CN (1) CN110287376B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050191A (zh) * 2019-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频生成方法、装置、计算机设备和存储介质
CN111223487A (zh) * 2019-12-31 2020-06-02 联想(北京)有限公司 一种信息处理方法及电子设备
CN111291535A (zh) * 2020-03-02 2020-06-16 北京奇艺世纪科技有限公司 剧本处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650958A (zh) * 2009-07-23 2010-02-17 中国科学院声学研究所 对电影类视频进行场景片段抽取方法及其建立索引的方法
WO2010050843A1 (ru) * 2008-10-29 2010-05-06 Kuznetsov Petr Mikhailovich Способ формирования статических, динамических или анимационных изображений на коммуникационных устройствах
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050843A1 (ru) * 2008-10-29 2010-05-06 Kuznetsov Petr Mikhailovich Способ формирования статических, динамических или анимационных изображений на коммуникационных устройствах
CN101650958A (zh) * 2009-07-23 2010-02-17 中国科学院声学研究所 对电影类视频进行场景片段抽取方法及其建立索引的方法
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李松斌等: "基于剧本及字幕信息的视频分割方法", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050191A (zh) * 2019-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频生成方法、装置、计算机设备和存储介质
CN111050191B (zh) * 2019-12-30 2021-02-02 腾讯科技(深圳)有限公司 一种视频生成方法、装置、计算机设备和存储介质
CN111223487A (zh) * 2019-12-31 2020-06-02 联想(北京)有限公司 一种信息处理方法及电子设备
CN111223487B (zh) * 2019-12-31 2023-06-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN111291535A (zh) * 2020-03-02 2020-06-16 北京奇艺世纪科技有限公司 剧本处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110287376B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
Rohrbach et al. Generating descriptions with grounded and co-referenced people
CN104199933B (zh) 一种多模态信息融合的足球视频事件检测与语义标注方法
Dhall et al. Emotion recognition in the wild challenge 2013
Tang et al. Decembert: Learning from noisy instructional videos via dense captions and entropy minimization
Albanie et al. Bbc-oxford british sign language dataset
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
US8077930B2 (en) Method for recognizing content in an image sequence
Xu et al. An HMM-based framework for video semantic analysis
CN104217008B (zh) 互联网人物视频交互式标注方法及系统
CN110287376A (zh) 一种基于剧本和字幕分析的抽取重要电影片段的方法
Tapaswi et al. Aligning plot synopses to videos for story-based retrieval
US20150019206A1 (en) Metadata extraction of non-transcribed video and audio streams
CN112733654B (zh) 一种视频拆条的方法和装置
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN106355446A (zh) 一种网络和手机游戏的广告推荐系统
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN106202200B (zh) 一种基于固定主题的文本情感倾向性分类方法
Lin et al. Gloss-free end-to-end sign language translation
CN113343029B (zh) 社交关系增强的复杂视频人物检索方法
Voigtlaender et al. Connecting vision and language with video localized narratives
Poignant et al. Naming multi-modal clusters to identify persons in TV broadcast
Yang et al. Boosting human-object interaction detection with text-to-image diffusion model
Chen et al. Saliency-based spatiotemporal attention for video captioning
Ma et al. Learning to Generate Grounded Visual Captions without Localization Supervision
Peng et al. Video captioning with global and local text attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant