CN110287376B - 一种基于剧本和字幕分析的抽取重要电影片段的方法 - Google Patents
一种基于剧本和字幕分析的抽取重要电影片段的方法 Download PDFInfo
- Publication number
- CN110287376B CN110287376B CN201910500116.4A CN201910500116A CN110287376B CN 110287376 B CN110287376 B CN 110287376B CN 201910500116 A CN201910500116 A CN 201910500116A CN 110287376 B CN110287376 B CN 110287376B
- Authority
- CN
- China
- Prior art keywords
- character
- score
- segment
- keyword
- movie
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 46
- 238000013515 script Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 10
- 230000008451 emotion Effects 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001936 parietal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于剧本和字幕分析的抽取重要电影片段的方法,步骤1:从电影剧本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;步骤2:从字幕中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;步骤3:实现将剧本的信息丰富以及获得每个场景的起始时间;步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;步骤5、6、7、8:分别计算关键词得分、主要人物得分、情感得分和动作得分,步骤9:计算每一个电影片段的重要程度值,取得分较高的作为重要的电影片段。本发明实现了在划分好电影片段的基础上对语义进行更深入的分析。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种重要电影片段的抽取方法。
背景技术
电影剧本都是由多个场景组成,每个场景表示一个故事情节,连续的几个场景才可以表示一个有意义的故事片段。通常一个场景的时间比较短,内容比较少,不适合做语义分析,需要将连续的可以构成一个故事片段的几个场景进行合并,这样就将剧本的原始场景划分成了电影片段,再对划分好的电影片段进行分析。重要的电影片段在语义上更能概括整部电影的内容,也是整个电影中比较精彩的部分,用户可以通过观看重要的电影片段大致了解电影的内容。因此基于剧本和字幕分析抽取重要电影片段具有重要意义。
发明内容
本发明旨在提出一种基于剧本和字幕分析的抽取重要电影片段的方法,借助每一个电影片段的重要程度值,根据需要抽取重要程度值最大的前几个作为该电影的重要片段,为用户快速了解电影内容以及索引视频提供便利。
本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法,该方法包括如下步骤:
步骤1:从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;
步骤3:利用步骤1和步骤2得到的相关数据,计算剧本和字幕中人物对话的相似度,取最大值进行匹配,实现将剧本的信息丰富以及获得每个场景的起始时间;
步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;
步骤5:根据TF-IDF算法提取整个剧本的关键词,统计词频,计算关键词得分,关键词得分给出定义如下:
步骤6:分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量,计算主要人物得分,主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:提取每个片段的人物对话,计算情感得分,情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频,计算动作得分,动作得分的定义如下:
其中,Vi表示属于一个片段i的关键词中动词的词频,fj表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值,取得分较高的作为重要的电影片段,计算电影片段的重要程度值,电影片段的重要程度值的定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示片段编号,r1,r2,r3,r4表示权重函数。
与现有技术相比,本发明所能达成的积极技术效果如下:
1)有助于用户更好的了解电影的主要内容。
2)可以在划分好电影片段的基础上对语义进行更深入的分析。
附图说明
图1为本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法整体流程示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案进行详细描述。
本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法,先对英文电影的剧本和字幕进行基本要素的抽取,通过人物对话进行信息融合,根据人物相关、场景相关和配角相关将原始的电影场景合并,划分出电影片段,再从关键词、主要人物、情感、动作这四个角度进行考虑,先得到每一部分的得分,再将四项进行加权,得到每一个电影片段的重要程度值,根据需要,取重要程度值最大的前几个作为该电影的重要片段。
具体包括以下步骤:
步骤1:抽取电影剧本的基本要素,即根据原始的txt剧本文本抽取出场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:抽取字幕中的基本要素,根据原始的txt字幕文本抽取出人物对话和人物对话的起始时间的相关数据;
步骤3:利用步骤1和步骤2得到的数据,使用gensim工具包中的Similarity函数分别计算剧本和字幕中人物对话的相似度,取最大值进行匹配,从而将剧本的信息丰富,获得每个场景的起始时间;
步骤4:利用步骤3处理好的数据格式,依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段。当相同的人物在相邻的场景出现时,在语义上这两个场景中讲述的是一件事情,属于一个故事片段,所以将这种情况下的相邻场景进行合并;场景分为内景(INT.)和外景(EXT.),从内景到外景,在剧本中场景就切换了,但这些场景都与同一个地点有关,基本上是围绕这个地点在讲述事件,它们都属于同一个故事片段,所以本文将发生地点相同且相邻的场景合并;在电影中有些配角只在少数场景出现,但在语义上都属于一个故事片段,当这些场景相邻时,把它们进行合并划分为一个电影片段;
步骤5:利用步骤4处理好的数据格式,从关键词这个角度去考虑,计算关键词得分。根据TF-IDF算法提取整个剧本的关键词,统计词频进行计算,对于关键词得分给出定义如下:
步骤6:利用步骤4处理好的数据格式,从主要人物这个角度去考虑,计算主要人物得分。根据人物在剧本中的台词数量来确定主要人物,取台词数量最多的前8个人为主要人物,分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量。对主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:利用步骤4处理好的数据格式,从情感这个角度去考虑,计算情感得分。提取每个片段的人物对话,对人物对话进行情感极性判断,得出积极和消极的情感值,情感值越接近1越表示积极,情感值越接近0越表示消极。对情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:利用步骤4处理好的数据格式,从动作这个角度去考虑,计算动作得分:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频。对动作得分的定义如下:
其中,Vi表示属于一个片段i的关键词中动词的词频,fj表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果加权得到每一个电影片段的重要程度值,取得分较高的n个作为重要的电影片段。对于电影片段的重要程度值给出定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示电影片段编号,r1,r2,r3,r4表示权重函数,r1+r2+r3+r4=1。
Claims (1)
1.一种基于剧本和字幕分析的抽取重要电影片段的方法,其特征在于,该方法包括如下步骤:
步骤1:从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;
步骤3:利用步骤1和步骤2得到的相关数据,计算剧本和字幕中人物对话的相似度,取最大值进行匹配,实现将剧本的信息丰富以及获得每个场景的起始时间;
步骤4:依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;
步骤5:根据TF-IDF算法提取整个剧本的关键词,统计词频,计算关键词得分,关键词得分给出定义如下:
步骤6:分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量,计算主要人物得分,主要人物得分的定义如下:
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:提取每个片段的人物对话,计算情感得分,情感得分的定义如下:
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频,计算动作得分,动作得分的定义如下:
其中,Vi表示属于一个片段i的关键词中动词的词频,fj表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值,取得分较高的作为重要的电影片段,计算电影片段的重要程度值,电影片段的重要程度值的定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示片段编号,r1,r2,r3,r4表示权重函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500116.4A CN110287376B (zh) | 2019-06-11 | 2019-06-11 | 一种基于剧本和字幕分析的抽取重要电影片段的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500116.4A CN110287376B (zh) | 2019-06-11 | 2019-06-11 | 一种基于剧本和字幕分析的抽取重要电影片段的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287376A CN110287376A (zh) | 2019-09-27 |
CN110287376B true CN110287376B (zh) | 2021-08-20 |
Family
ID=68003596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910500116.4A Active CN110287376B (zh) | 2019-06-11 | 2019-06-11 | 一种基于剧本和字幕分析的抽取重要电影片段的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287376B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111050191B (zh) * | 2019-12-30 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种视频生成方法、装置、计算机设备和存储介质 |
CN111223487B (zh) * | 2019-12-31 | 2023-06-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN111291535B (zh) * | 2020-03-02 | 2024-06-11 | 北京奇艺世纪科技有限公司 | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650958A (zh) * | 2009-07-23 | 2010-02-17 | 中国科学院声学研究所 | 对电影类视频进行场景片段抽取方法及其建立索引的方法 |
WO2010050843A1 (ru) * | 2008-10-29 | 2010-05-06 | Kuznetsov Petr Mikhailovich | Способ формирования статических, динамических или анимационных изображений на коммуникационных устройствах |
CN103593363A (zh) * | 2012-08-15 | 2014-02-19 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
-
2019
- 2019-06-11 CN CN201910500116.4A patent/CN110287376B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050843A1 (ru) * | 2008-10-29 | 2010-05-06 | Kuznetsov Petr Mikhailovich | Способ формирования статических, динамических или анимационных изображений на коммуникационных устройствах |
CN101650958A (zh) * | 2009-07-23 | 2010-02-17 | 中国科学院声学研究所 | 对电影类视频进行场景片段抽取方法及其建立索引的方法 |
CN103593363A (zh) * | 2012-08-15 | 2014-02-19 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于剧本及字幕信息的视频分割方法;李松斌等;《计算机工程》;20100831;第211-213页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110287376A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
US10497382B2 (en) | Associating faces with voices for speaker diarization within videos | |
CN110287376B (zh) | 一种基于剧本和字幕分析的抽取重要电影片段的方法 | |
CN104199933B (zh) | 一种多模态信息融合的足球视频事件检测与语义标注方法 | |
US8775174B2 (en) | Method for indexing multimedia information | |
CN106649713B (zh) | 一种基于内容的电影可视化处理方法及其系统 | |
US10652592B2 (en) | Named entity disambiguation for providing TV content enrichment | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112733654B (zh) | 一种视频拆条的方法和装置 | |
US20150019206A1 (en) | Metadata extraction of non-transcribed video and audio streams | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
CN113766314B (zh) | 视频切分方法、装置、设备、系统及存储介质 | |
CN111400513B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
JP4109185B2 (ja) | 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 | |
CN103167360A (zh) | 实现多语字幕翻译的方法 | |
CN116361510A (zh) | 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置 | |
CN110442867B (zh) | 图像处理方法、装置、终端及计算机存储介质 | |
CN113035199A (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN110198482A (zh) | 一种视频重点桥段标注方法、终端及存储介质 | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
Vaiani et al. | Leveraging multimodal content for podcast summarization | |
CN106446051A (zh) | Eagle媒资深度搜索方法 | |
Yousefi et al. | Examining multimodel emotion assessment and resonance with audience on youtube | |
Rouvier et al. | Audio-based video genre identification | |
Yang et al. | Predicting Humor by Learning from Time-Aligned Comments. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |