CN116361510A - 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置 - Google Patents

一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置 Download PDF

Info

Publication number
CN116361510A
CN116361510A CN202211305702.1A CN202211305702A CN116361510A CN 116361510 A CN116361510 A CN 116361510A CN 202211305702 A CN202211305702 A CN 202211305702A CN 116361510 A CN116361510 A CN 116361510A
Authority
CN
China
Prior art keywords
scene
scenario
video
film
television
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211305702.1A
Other languages
English (en)
Inventor
齐全
高鹏东
裘初
王博
李娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202211305702.1A priority Critical patent/CN116361510A/zh
Publication of CN116361510A publication Critical patent/CN116361510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,包括解析原始剧本、场景内容、影视作品,提取视频和音频部分,转化为文本,获取匹配音频对应的视频片段,将视频片段,场次格式化信息、影视作品信息整合后录入数据库;利用影视作品基本信息、场景描述、对话等内容检索视频场景,从而完成以影视作品场景为中心的影视作品资料库的构建;创建了面向影视作品场景片段的检索系统,降低了从完整视频中抽取场景片段的难度和时间,极大地节省了人工,为相关创作人员提供了更加有效的创作辅助工具,为使用人员提供了更加丰富和更接近人类使用习惯的查询手段,在场景抽取的准确度和查全率之间取得有效的平衡。

Description

一种利用影视类作品和剧本建立剧本场景片段视频自动提取 和检索的方法和装置
技术领域
本发明涉及文本和视频的分析和检索技术领域,尤其涉及一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,利用剧本和影视作品抽取视频场景片段,并结合场景的文本描述对片段进行索引。
背景技术
影视作品创作过程中,从剧本内容到最终呈现效果之间需要摄制组完成大量的工作,而剧本创作人员在汲取灵感编写剧本的过程中如果可以考虑到最终剧本在屏幕的呈现效果的话会更加有利于拍摄的推进。同时,导演等拍摄相关人员如果可以快速检索和剧本内容相关的以往影视作品片段也会为拍摄提供更多的参考和灵感,加快影片拍摄的速度。剧本的编写和拍摄都是以场景作为基本逻辑单元,包含场景信息、对话和描述三个部分。如何将剧本中的场景从已经拍摄完成的影视作品视频中检索并提取出来,和从场景文本内容中提取的结构化信息进行整合后存入影视作品场景库中,将其提供给创作人员和拍摄人员检索使用是本发明的核心目标;
传统的影视作品内容检索方法主要是利用基于视频属性文本数据库,通过给影视作品的名称、剧情简介、主演、导演等文本内容建立索引来进行保存,这种检索方法内容的编写和录入基本靠人工,无法检索和定位到视频内部的某一片段,如一个场景和镜头;
近些年基于内容的视频检索也有了一定的发展,通过对视频进行镜头分割、帧画面内容理解、相近帧合并等实现对视频片段的检索,但这种方法需要大量的计算资源,现在阶段很难实用;
现有技术公开专利CN201910500116.4一种基于剧本和字幕分析的抽取重要电影片段的方法,包括从电影剧本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据;从字幕中抽取出基本要素相关数据包括人物对话和人物对话的起始时间;实现将剧本的信息丰富以及获得每个场景的起始时间;依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段;分别计算关键词得分、主要人物得分、情感得分和动作得分,计算每一个电影片段的重要程度值,取得分较高的作为重要的电影片段。本发明实现了在划分好电影片段的基础上对语义进行更深入的分析;通过利用剧本和电影字幕的匹配关系来切分电影场景,从而实现对电影按照场景进行切分和检索,该公开专利仅能对有字幕的作品使用,存在适用范围较窄的问题;
因此,本领域的技术人员致力于开发一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,以解决上述现有技术的不足。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是目前现有技术只能通过人工的方式从长视频中查找并裁剪片段内容或仅能通过字幕部分进行检索的缺陷问题;
为实现上述目的,本发明第一方面提供了一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,具体包括以下步骤:
步骤1、解析影视剧本,对剧本进行预处理,提取出剧本中的场景片段,针对场景片段,分析识别场次信息内容、场景描述和对话内容;
步骤2、提取影视作品中的视频和音频内容,将音频内容转化为文本的形式,将音频文本内容按照出现的先后顺序进行保存,并打上时间戳;
步骤3、提取步骤1得到的剧本场景片段中对话内容部分的发言内容后,在步骤2所得音频文本中进行查找,将查找到的匹配度最高的音频文本片段作为目标片段,利用全局匹配结果进一步优化目标片段;
步骤4、通过步骤2的音频文本及其时间戳,获得步骤3所得的目标片段在完整视频中的起止时间,根据起止时间提取影视作品中的目标场景视频;
步骤5、利用网络爬虫抓取影视作品的基本信息;
步骤6、利用数据库保存视频场景片段及其对应的剧本片段、格式化后的剧本场景数据、影视作品基本信息等内容;同时,将对剧本中场景片段文本建立索引,支持利用关键词技术查找影视作品场景片段;
进一步地,所述步骤1中,所述提取出剧本中的场景片段方式为利用基于深度学习的自然语言处理技术解析影视剧本进行提取;
进一步地,所述步骤1中,所述基于深度学习的自然语言处理技术,具体任务包含文本分类、命名实体识别和序列标注;
进一步地,所述步骤1中,所述场次信息内容包括场次、时间、地点、内外景、人物、天气等;
进一步地,所述步骤1中,所述对话内容包括发言人、发言内容;
具体地,所述步骤1中,实际开发中要利用人工规则的方法对提取结果进行筛选和调整;
进一步地,所述步骤2中,所述提取影视作品中的视频和音频内容方式为采用语音识别技术进行提取;
进一步地,所述步骤2中,所述将音频内容转化为文本方式为利用语音识别技术进行转化;
进一步地,所述步骤3中,所述在音频文本中查找场景对话内容包括通过查找相似字符串查找到匹配度最高的音频文本片段;
进一步地,所述步骤5中,所述影视作品的基本信息包括简介、导演、监制、演员角色表、年代、拍摄时间、地区等;
进一步地,所述步骤5中,所述抓取影视作品的信息包括网络爬虫从电影相关网站(如豆瓣电影、百度百科、腾讯视频等)进行信息抓取;
进一步地,所述步骤6中,所述所建立的检索方法包括关键词搜索、高阶搜索和问答搜索;
本发明第二方面提供了一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索装置,包括解析单元、提取转化单元、匹配单元、整合单元、信息抓取入库单元、索引建立单元;所述解析单元连接提取转化单元;所述提取转化单元连接匹配单元;所述匹配单元连接整合单元;所述整合单元连接信息抓取入库单元;所述信息抓取入库单元连接索引建立单元;
进一步地,所述解析单元包括对剧本进行类别分析和实体标记;
进一步地,所述提取转化单元包括提取影视作品视频音频,将音频内容转化为文本的形式;
进一步地,所述匹配单元包括在音频文本中搜索剧本场景中的对话内容,查找匹配片段;
进一步地,所述整合单元包括查找匹配片段在音频文件中的起止时间戳,根据起止时间戳在完整视频中提取场景对应的视频片段;
进一步地,所述信息抓取入库单元包括利用网络爬虫从电影相关网站(如豆瓣电影、百度百科、腾讯视频等)抓取影视作品的信息;将剧本、视频片段、影视剧等基本信息录入库;
进一步地,所述索引建立单元包括对剧本中场景片段文本建立索引,方便用户检索视频场景片段;
采用以上方案,本发明公开的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,具有以下优点:
(1)本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,利用剧本文本内容和影视作品音频中的对话内容由机器自动的抽取视频场景片段,降低了从完整视频中抽取场景片段的难度和时间,极大地节省了人工;
(2)本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,通过设置抽取时使用的抽取准确度相关的阈值,可以在场景抽取的准确度和查全率之间取得有效的平衡,相对于现有技术,不仅局限于使用字幕进行片段提取,增大了检索完整度;
(3)本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,创建了面向影视作品场景片段的检索系统,为编剧、导演以及影视剧相关创作人员提供了更加有效的创作辅助工具,应用性好;
(4)本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,利用图数据库、关系数据库和文档索引相结合的方法检索影视作品场景片段为使用人员提供了更加丰富和更接近人类使用习惯的查询手段,实用性强;
综上所述,本发明公开的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,利用剧本文本内容和影视作品音频中的对话内容由机器自动的抽取视频场景片段,降低了从完整视频中抽取场景片段的难度和时间,极大地节省了人工,通过设置抽取时使用的抽取准确度相关的阈值,可以在场景抽取的准确度和查全率之间取得有效的平衡,相对于现有技术,不仅局限于使用字幕进行片段提取,增大了检索完整度,创建了面向影视作品场景片段的检索系统,为编剧、导演以及影视剧相关创作人员提供了更加有效的创作辅助工具,应用性好,利用图数据库、关系数据库和文档索引相结合的方法检索影视作品场景片段为使用人员提供了更加丰富和更接近人类使用习惯的查询手段,实用性强。
以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明的一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法流程图;
图2为本发明实施例1的场头分析模型图;
图3为本发明实施例1的语音识别流程图;
图4为本发明实施例1的“德胜公公其他公公哪儿去了”对应的倒排索引表(2-gram);
图5为本发明实施例1的查找相似字符串候选集合示意图;
图6为本发明实施例1的关系数据库关键表表头定义图;
图7为本发明实施例1的场景视频片段列表展示页面;
图8为本发明实施例1的场景视频片段详情展示页面;
具体实施方式
以下介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,这些实施例为示例性描述,本发明的保护范围并非仅限于文中提到的实施例。
如若有未注明具体条件的实验方法,通常按照常规条件,如相关说明书或者手册进行实施。
实施例1、采用本发明的一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置进行剧本场景片段视频自动提取和检索
步骤1、利用基于深度学习的自然语言处理技术解析影视剧本,具体任务包含文本分类、命名实体识别和序列标注,提取出剧本中的场景片段,针对场景片段,分析识别场次信息内容(场次、时间、地点、内外景、人物、天气等),场景描述和对话内容(发言人、发言内容);
解析影视作品剧本首先对剧本进行预处理,包括:
步骤1-1、采用工具对剧本进行数据清理,如去除空白符等非法字符;
步骤1-2、将剧本切分成句子;
步骤1-3、针对句子进行分词;
步骤1-4、利用词嵌入技术将分词结果转化为词向量;
步骤1-5、进行人工标记,将句子的人工标记结果(如表1)和对应的词向量作为解析模型的输入训练模型参数;
表1.剧本解析内容
Figure BDA0003905882170000061
所述深度学习解析模型采用双向长短期记忆网络(Bi-LSTM)+注意力机制(Attention)的多任务模型,用于标记文本序列的部分采用条件随机场(ConditionalRandom Field,CRF)提升序列标记的准确性;
解析模型结构如图2所示;
所述剧本解析模型用多任务输出:句子分类和序列标注;
所述序列标注的目标是识别实体和标记对话内容;
所述剧本经过模型解析后得到一个带有分类和序列标记信息的句子序列;
利用类别标记为场头的句子作为场景的起始句,根据场头将剧本切分为多个场景片段,每个场景片段内容按表1的结构格式化后保存;
另外的,由于采用模型具有一定的误差,需利用人工规则的方法对模型分析结果进行筛选和调整;
步骤2、采用语音识别技术提取影视作品中的视频和音频内容;利用语音识别技术将音频内容转化为文本的形式,将音频文本内容按照出现的先后顺序进行保存,并打上时间戳;
如图3所示;
具体地,包括
步骤2-1、利用开源工具(ffmpeg)提取影视作品的音频内容;
步骤2-2、对音频内容进行降噪和信息增强,从音频内容中提取音频特征形成特征序列;
步骤2-3、利用声学模型将语音特征序列转化为音节序列(中文转化为拼音序列,英文转化为英语音节序列);所述声学模型采用较为成熟的DNN-HMM声学模型;
步骤2-4、将得到的音节序列送入语言模型;通过语言模型分析音节序列,给出可能性最高的音节对应的文本作为最佳的识别结果,即最终识别的对话文本;所述语言模型采用连结时序分类(Connectionist Temporal Classification,CTC)的方法,即一种端到端语音识别技术,用神经网络就完成连续语音识别的整个流程,直接生成最终的文本序列;
步骤2-5、得到的影视对话文本需要文本中每个字在原视频中对应的时间戳,生成字符音频表,如表2所示;
表2.字符音频表示例
Figure BDA0003905882170000071
Figure BDA0003905882170000081
步骤3、提取步骤1得到的剧本场景片段中对话内容部分的发言内容后,在步骤2所得音频文本中进行查找,将查找到的匹配度最高的音频文本片段作为目标片段,利用全局匹配结果进一步优化目标片段;
具体地,采用查找相似字符串的方法,即场景中对话内容如果和音频文本中某一部分相似度最高,则称该音频文本部分对应的音频片段为和场景对话匹配音频片段;
字符串相似的度量方法采用编辑距离,编辑距离指把一个字符串转换为另一个字符串所需的最少编辑操作(插入、删除、替换)次数;
本实施例1用ED(r,s)表示字符串r和s间的编辑距离,例如r="袁春望望着魏璎珞",s="袁春望望着璎珞",r需要删除一个字符才能和s一致,因此ED(r,s)=1;
为了说明算法,引入以下定义:
定义q-gram:给定字符串s以及一个正整数q,则s的q-gram可定义为s的所有长度为q的子串集合,例如字符串s=“魏璎珞”的2-gram集合为{"魏璎","璎珞"},2-gram集合为{"魏璎珞"};
定义基于阈值的相似字符串查找:给定字符串集合S,查找串q以及阈值t,基于阈值的相似字符串查找即找到所有的字符串s∈S,使得ED(s,q)≤t。
定义top-k相似字符串查找:给定字符串集合S,查找串q,top-k相似字符串查找即返回结果集
Figure BDA0003905882170000091
其中|R|=k,并且对任意的r∈R和s∈S-R都有ED(r,q)≤ED(s,q);
针对剧本对话内容和音频文本的字符串匹配算法采用重新设计的q-gram算法。首先对音频文本字符串s,获取它的q-gram。
方法是:使用一个长度为q的窗口从字符串s的起始位置向后移动,每移动一个位置就截取窗口中的子串,该子串就成为一个签名。由签名组成的集合就成为字符串s的q-gram。
例如,字符串s=“德胜公公这是怎么回事”对应的2-gram集合为{"德胜","胜公","公公","公这","这是","是怎","怎么","么回","回事"}。为了更加准确的表示每一个签名的具体信息,一般将每一个签名用一个二元组(signature,position)表示,其中signature代表一个签名,position代表该签名在字符串中的位置。
因此,上述字符串s的带有位置信息的2-gram集合为{("德胜",0),("胜公",1),("公公",2),("公这",3),("这是",4),("是怎",5),("怎么",6),("么回",7),("回事",8)}。
图4为“德胜公公其他公公哪儿去了”对应的倒排索引;
基于q-gram倒排索引方法,在候选音频文本中查找剧本场景对话字符串的算法包括如下步骤:
步骤3-1、对于代表音频文本字符串s和代表场景对话的查找串q,过滤掉q中的标点符号;
步骤3-2、生成q对应的q-gram,只保存签名,不保存签名的位置;
步骤3-3、在s对应的倒排索引中查找所有在q对应的q-gram中的签名,若倒排索引表中找到对应的签名,将签名和位置信息放入集合t-set中;
步骤3-4、构造一个长度为s字符串长度减1的二值数组t-array,将t-set中元素的位置在t-array中对应的位置标记为1;
步骤3-5、构建一个宽度为字符串q的长度的滑动窗口,在t-array上从左到右移动,每次移动一个位置,记录每个位置上滑动窗口包含为1的标记的个数;
步骤3-6、根据每个位置包含标记1的个数对每个位置排序,获取包含最多1的前top-k个位置。top-k为筛选阈值,目标是设定候选的top-k个匹配字符串的起始位置;
步骤3-7、针对每个选中的位置,在音频文本中找到对应的起始位置,从该位置截取长度为待查字符串q的长度的字符串;得到的每个字符串和字符串q计算编辑距离,编辑距离最小的即为匹配字符串。
图5为在“德胜公公其他公公哪儿去了”查找“其他公公”获得候选字符串的示意图。top-k值为3,q-gram中签名长度为2,倒排顺序表如图3所示。得到的候选字符串为位置2“公公其他”、位置3“公其他公”、位置4“其他公公”。top-k个候选字符串再和“其他公公”计算编辑距离,位置5的候选字符串编辑距离最小,作为匹配字符串;
步骤4、通过步骤2的音频文本及其时间戳,获得步骤3所得的目标片段在完整视频中的起止时间,根据起止时间提取影视作品中的目标场景视频;
具体地,包括
步骤4-1、将所有场景的对话按照先后出现的顺序从前到后排序,构成对话序列dialog-sequence;
步骤4-2、将所有场景对话在音频文件中的匹配字符串按照其开始字符的时间戳从小到大排序,构成匹配音频字符串开始时间序列start-time-sequence;
步骤4-3、将所有场景对话在音频文件中的匹配字符串按照其结束字符的时间戳从小到大排序,构成匹配音频字符串结束时间序列end-time-sequence;
步骤4-4、找出在对话序列中找出所有连续出现对话,其匹配的音频字符串在音频字符串开始序列中连续出现且出现的先后次序与其在对话序列中的先后顺序完全一致,并且其匹配的音频字符串在音频字符串结束序列中也连续出现且出现的先后次序与其在对话序列中的先后顺序完全一致。得到的对话序列片段成为最佳匹配对话序列best-slice,所有最佳匹配对话序列包含的场景构成最佳匹配场景集合best-scene-set,所有最佳匹配对话序列形成最佳匹配对话序列集合best-slice-set;
步骤4-5、针对最佳匹配对话序列集合best-slice-set的元素按照序列长度从大到小排序,按如下步骤处理每个序列best-slice:
步骤4-5-1、查找best-slice在结束时间序列end-time-sequence对应的结束位置end-position;
步骤4-5-2、检查dialog-sequence中best-slice所处位置的开始位置的前一个场景对话bs-dialog(如果存在的话)作为候选对话;
步骤4-5-3、重新计算bs-dialog的候选音频文本匹配字符串集合,针对匹配字符串集合中的字符串,如果该字符串在end-time-sequence中对应的位置为end-position-1。则将bs-dialog加入best-scene-set,将bs-dialog与best-slice组合形成新的序列更新best-slice-set中的best-slice;如果不存在对应位置为end-position-1的候选字符串则调到步骤5;
步骤4-5-4、重复执行4-5-2、4-5-3两步;
步骤4-5-5、检查dialog-sequence中best-slice所处位置的结束位置的后一个场景对话ae-dialog(如果存在的话)作为候选对话;
步骤4-5-6、重新计算ae-dialog的候选音频文本匹配字符串集合,针对匹配字符串集合中的字符串,如果该字符串在end-time-sequence中对应的位置为end-position+1。则将ed-dialog加入best-scene-set,将ae-dialog与best-slice组合形成新的序列更新best-slice-set中的best-slice;如果不存在对应位置为end-position+1的候选字符串则该best-slice处理结束;
步骤4-5-7、重复执行4-5-5、4-5-6两步直到best-slice处理结束;
步骤4-6、所有不属于最佳匹配场景集合best-scene-set的场景对话对应的场景被认为是查找失败的场景,全部丢弃;
步骤4-7、best-scene-set集合包含的所有场景对话对应的作为最终匹配成功的场景;
对于成功匹配的场景,重新调整场景对话的开始结束时间戳;
针对成功匹配的场景,获取场景对话的开始和结束时间戳;
对于开始时间戳,在字符音频表中向前查找span-threshold秒钟内的所有时间戳(span-threshold是一个超参数,根据剧本题材做调整),计算所有相邻时间戳的时间间隔,选择间隔超过1秒的时间戳对的中值作为新的开始时间戳;若没有找到间隔超过1秒的时间戳对,则直接用开始时间戳-span-threshold/2更新开始时间戳;
对于结束时间戳,在字符音频表中向后查找span-threshold秒钟内的所有时间戳,计算所有相邻时间戳的时间间隔,选择间隔超过1秒的时间戳对的中值作为新的结束时间戳;若没有找到间隔超过1秒的时间戳对,则直接用结束时间戳+span-threshold/2更新结束时间戳。
从影视作品中截取开始时间戳和结束时间戳之间的视频作为匹配视频片段。
步骤5、利用网络爬虫从电影相关网站(如豆瓣电影、百度百科、腾讯视频等)抓取影视作品的信息。信息类目包含剧集简介、导演、编剧、主演、影片类型、制片国家\地区、首播时间、片长、集数、评分、演员表等等。将影视作品的剧本场景片段解析得到的结构化信息、剧本场景对应的视频片段以及抓取的影视作品信息整合存入图数据库(如Neo4j)以及关系型数据库(如MySQL)中构建电影片段知识图谱,同时对剧本中的原始场景文本建立文本索引,通过关键词检索剧本场景片段。主要关系数据库表表头定义如图6所示:
图数据库中的主要实体有场景、影视作品、视频片段、演员、角色、职务等,主要实体关系如表4,
表4:实体关系表
实体 实体 实体关系
场景 影视作品 属于
角色 场景 包含
人员 角色 饰演
人员 职务 担任
角色 影视作品 包含
场景 影视片段 对应
步骤6、利用数据库保存视频场景片段及其对应的剧本片段,格式化后的剧本场景数据,影视作品基本信息等内容;同时,将对剧本中场景片段文本建立索引,支持利用关键词技术查找影视作品场景片段;
所述影视场景库的检索方法分为关键词搜索、高阶搜索和问答搜索;
所述关键词搜索通过在倒排索引表中搜索用户输入关键词,找到最佳匹配的场景集合返回给用户;
所述高阶搜索中,用户指定搜索字段、搜索关系等直接从关系数据库和图数据库中查找满足条件的场景集合;
所述问答搜索采用知识图谱问答系统技术检索图数据库的内容,返回满足条件的场景集合;
影视片段搜索结果页面和影视片段详情页面如图7、图8所示:
结果:经实施例1的本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置进行剧本场景片段视频自动提取时,不仅可以做到通过自然语言处理技术和计算机音视频处理技术相结合的方法实现从影视作品中自动抽取场景片段,避免了通过人工的方式从长视频中查找并裁剪片段内容,且通过分析调整剧本的全部对话匹配结果来优化剧本场景匹配结果,不会令所提取的片段对操作者产生突兀的感觉,使用便捷、舒适度高;
对比例2、采用现有技术公开专利CN201910500116.4一种基于剧本和字幕分析的抽取重要电影片段的方法进行剧本场景片段视频自动提取
步骤1:抽取电影剧本的基本要素,即根据原始的txt剧本文本抽取出场景名、场景描述、人物、人物对话和人物动作的相关数据;
步骤2:抽取字幕中的基本要素,根据原始的txt字幕文本抽取出人物对话和人物对话的起始时间的相关数据;
步骤3:利用步骤1和步骤2得到的数据,使用gens im工具包中的Simi larity函数分别计算剧本和字幕中人物对话的相似度,取最大值进行匹配,从而将剧本的信息丰富,获得每个场景的起始时间;
步骤4:利用步骤3处理好的数据格式,依据人物相关、地点相关和配角相关将电影的相关场景合并,划分出电影片段。当相同的人物在相邻的场景出现时,在语义上这两个场景中讲述的是一件事情,属于一个故事片段,所以将这种情况下的相邻场景进行合并;场景分为内景(INT.)和外景(EXT.),从内景到外景,在剧本中场景就切换了,但这些场景都与同一个地点有关,基本上是围绕这个地点在讲述事件,它们都属于同一个故事片段,所以本文将发生地点相同且相邻的场景合并;在电影中有些配角只在少数场景出现,但在语义上都属于一个故事片段,当这些场景相邻时,把它们进行合并划分为一个电影片段;
步骤5:利用步骤4处理好的数据格式,从关键词这个角度去考虑,计算关键词得分。根据TF-IDF算法提取整个剧本的关键词,统计词频进行计算,对于关键词得分给出定义如下:
Figure BDA0003905882170000131
其中,
Figure BDA0003905882170000132
k关键词表示关键词编号,n关键词表示关键词的个数,/>
Figure BDA0003905882170000133
表示第k个关键词在全文的词频,/>
Figure BDA0003905882170000134
表示第k关键词个关键词在一个片段i中的词频;
步骤6:利用步骤4处理好的数据格式,从主要人物这个角度去考虑,计算主要人物得分。根据人物在剧本中的台词数量来确定主要人物,取台词数量最多的前8个人为主要人物,分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量。对主要人物得分的定义如下:
Figure BDA0003905882170000141
其中,|MC(i)|表示第i个片段中主要人物的数量|MCC(k人物)|表示第k人物个人物在一个电影片段中的台词数量;
步骤7:利用步骤4处理好的数据格式,从情感这个角度去考虑,计算情感得分。提取每个片段的人物对话,对人物对话进行情感极性判断,得出积极和消极的情感值,情感值越接近1越表示积极,情感值越接近0越表示消极。对情感得分的定义如下:
Figure BDA0003905882170000142
其中,X表示每句台词的情感值,n台词表示一个片段中的台词数量,k人物表示一个片段中的人物对话编号,i表示片段编号;
步骤8:利用步骤4处理好的数据格式,从动作这个角度去考虑,计算动作得分:在提取出的关键词中查找动词,统计这些动词的词频以及关键词的词频。对动作得分的定义如下:
Figure BDA0003905882170000143
其中,V表示属于一个片段i的关键词中动词的词频,f表示一个片段j中关键词的词频;i动作表示动作的个数;
步骤9:利用步骤5、6、7、8计算结果加权得到每一个电影片段的重要程度值,取得分较高的n个作为重要的电影片段。对于电影片段的重要程度值给出定义如下:
IMC(i)=r1·KS(i)+r2·MS(i)+r3·ES(i)+r4·AS(i)
其中,IMC表示每个电影片段的重要程度值,KS表示关键词得分,MS表示主要人物得分,ES表示情感得分,AS表示动作得分,i表示电影片段编号,r1,r2,r3,r4表示权重函数,r1+r2+r3+r4=1;
结果:经对比例2的方法进行处理后,仅实现了字幕、关键词等的剧本场景片段视频提取;根据定义得分标准,抽取重要片段;
试验例3:
将实施例1与对比例2对同一剧本的场景片段视频自动提取和检索结果进行对比;结果:对比例2采用是利用电影字幕和剧本进行片段抽取,适用范围是具有字幕的影视作品,而实施例1是采用了语音识别技术进行对话识别,相比对比例2从字幕中提取对话内容,可以从大量无字幕的影视作品中抽取片段,具有更加广泛的适用场景;实施例1相对于对比例2,不局限于通过字幕、关键词等部分进行片段抽取,不局限于只能提取重要场景片段,而是对整体进行目标片段的提取,提取的范围更广,效果更好;且建立索引,更贴近操作者的使用习惯,方便操作者进行使用;另外,对比例2在步骤1中并没有介绍抽取剧本要素的方法,而实施例1中则详细介绍了自动抽取方法,描述更加完整;最后,实施例1采用本发明的利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置建立了影视作品场景检索库,对比例2仅为片段提取,目标不一致,且对比例2无法达到检索库构建。
综上所述,本发明的一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置,利用剧本文本内容和影视作品音频中的对话内容由机器自动的抽取视频场景片段,降低了从完整视频中抽取场景片段的难度和时间,极大地节省了人工,通过设置抽取时使用的抽取准确度相关的阈值,可以在场景抽取的准确度和查全率之间取得有效的平衡,相对于现有技术,不仅局限于使用字幕进行片段提取,增大了检索完整度,创建了面向影视作品场景片段的检索系统,为编剧、导演以及影视剧相关创作人员提供了更加有效的创作辅助工具,应用性好,利用图数据库、关系数据库和文档索引相结合的方法检索影视作品场景片段为使用人员提供了更加丰富和更接近人类使用习惯的查询手段,实用性强。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,包括以下步骤,
步骤1、解析影视剧本,对剧本进行预处理,提取出剧本中的场景片段,针对场景片段,分析识别场次信息内容、场景描述和对话内容;
步骤2、提取影视作品中的视频和音频内容,将音频内容转化为文本的形式,将音频文本内容按照出现的先后顺序进行保存,并打上时间戳;
步骤3、提取步骤1得到的剧本场景片段中对话内容部分的发言内容后,在步骤2所得音频文本中进行查找,将查找到的匹配度最高的音频文本片段作为目标片段,利用全局匹配结果进一步优化目标片段;
步骤4、通过步骤2的音频文本及其时间戳,获得步骤3所得的目标片段在完整视频中的起止时间,根据起止时间提取影视作品中的目标场景视频;
步骤5、利用网络爬虫抓取影视作品的基本信息;
步骤6、利用数据库保存视频场景片段及其对应的剧本片段、格式化后的剧本场景数据、影视作品基本信息等内容;同时,将对剧本中场景片段文本建立索引,支持利用关键词技术查找影视作品场景片段。
2.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤1中,
所述提取出剧本中的场景片段方式为利用基于深度学习的自然语言处理技术解析影视剧本进行提取;
所述基于深度学习的自然语言处理技术,具体任务包含文本分类、命名实体识别和序列标注;
所述场次信息内容包括场次、时间、地点、内外景、人物、天气等;
所述对话内容包括发言人、发言内容。
3.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤1中,
实际开发中要利用人工规则的方法对提取结果进行筛选和调整。
4.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤2中,
所述提取影视作品中的视频和音频内容方式为采用语音识别技术进行提取;
所述将音频内容转化为文本方式为利用语音识别技术进行转化。
5.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤3中,
所述在音频文本中查找场景对话内容包括通过查找相似字符串查找到匹配度最高的音频文本片段。
6.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤5中,
所述影视作品的基本信息包括简介、导演、监制、演员角色表、年代、拍摄时间、地区等;
所述抓取影视作品的信息包括网络爬虫从电影相关网站(如豆瓣电影、百度百科、腾讯视频等)进行信息抓取。
7.如权利要求1所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法,其特征在于,所述步骤6中,
所述所建立的检索方法包括关键词搜索、高阶搜索和问答搜索。
8.一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的装置,其特征在于,
包括解析单元、提取转化单元、匹配单元、整合单元、信息抓取入库单元、索引建立单元;所述解析单元连接提取转化单元;所述提取转化单元连接匹配单元;所述匹配单元连接整合单元;所述整合单元连接信息抓取入库单元;所述信息抓取入库单元连接索引建立单元。
9.如权利要求8所述利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的装置,其特征在于,
所述解析单元包括对剧本进行类别分析和实体标记;
所述提取转化单元包括提取影视作品视频音频,将音频内容转化为文本的形式;
所述匹配单元包括在音频文本中搜索剧本场景中的对话内容,查找匹配片段;
所述整合单元包括查找匹配片段在音频文件中的起止时间戳,根据起止时间戳在完整视频中提取场景对应的视频片段;
所述信息抓取入库单元包括利用网络爬虫从电影相关网站(如豆瓣电影、百度百科、腾讯视频等)抓取影视作品的信息;将剧本、视频片段、影视剧等基本信息录入库;
所述索引建立单元包括对剧本中场景片段文本建立索引,方便用户检索视频场景片段。
CN202211305702.1A 2022-10-24 2022-10-24 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置 Pending CN116361510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211305702.1A CN116361510A (zh) 2022-10-24 2022-10-24 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211305702.1A CN116361510A (zh) 2022-10-24 2022-10-24 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置

Publications (1)

Publication Number Publication Date
CN116361510A true CN116361510A (zh) 2023-06-30

Family

ID=86909747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211305702.1A Pending CN116361510A (zh) 2022-10-24 2022-10-24 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置

Country Status (1)

Country Link
CN (1) CN116361510A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034953A (zh) * 2023-10-07 2023-11-10 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117240983A (zh) * 2023-11-16 2023-12-15 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034953A (zh) * 2023-10-07 2023-11-10 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117034953B (zh) * 2023-10-07 2023-12-19 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117240983A (zh) * 2023-11-16 2023-12-15 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置
CN117240983B (zh) * 2023-11-16 2024-01-26 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置

Similar Documents

Publication Publication Date Title
Yang et al. Content based lecture video retrieval using speech and video text information
US10277946B2 (en) Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
US8775174B2 (en) Method for indexing multimedia information
Albanie et al. Bbc-oxford british sign language dataset
US20180107636A1 (en) Method and apparatus for establishing sentence editing model, sentence editing method and apparatus
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN103761261A (zh) 一种基于语音识别的媒体搜索方法及装置
CN110442747A (zh) 一种基于关键词的视频摘要生成方法
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
Xu et al. Text-to-audio grounding: Building correspondence between captions and sound events
CN110287376B (zh) 一种基于剧本和字幕分析的抽取重要电影片段的方法
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
AlMousa et al. Nlp-enriched automatic video segmentation
Yang et al. Lecture video browsing using multimodal information resources
Poornima et al. Text preprocessing on extracted text from audio/video using R
CN110888896A (zh) 数据搜寻方法及其数据搜寻系统
CN112804580B (zh) 一种视频打点的方法和装置
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
AT&T AT&T Research at TRECVID 2010
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Khollam et al. A survey on content based lecture video retrieval using speech and video text information
WO2018115878A1 (en) A method and system for digital linear media retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination