CN102063481A - 一种影视剧分析专用知识库的建立方法及剧本分析方法 - Google Patents
一种影视剧分析专用知识库的建立方法及剧本分析方法 Download PDFInfo
- Publication number
- CN102063481A CN102063481A CN 201010605523 CN201010605523A CN102063481A CN 102063481 A CN102063481 A CN 102063481A CN 201010605523 CN201010605523 CN 201010605523 CN 201010605523 A CN201010605523 A CN 201010605523A CN 102063481 A CN102063481 A CN 102063481A
- Authority
- CN
- China
- Prior art keywords
- drama
- notion
- play
- movie
- special knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种影视剧分析专用知识库的建立方法及利用影视剧分析专用知识库对剧本进行分析的方法。它涉及将信息处理技术应用于影视剧制作过程。它能够对影视剧剧本进行自动分析,依据一个专用知识库从剧本文本中找出其中适合于进行商业产品宣传的道具、场景和角色(广告卖点),使用户了解剧本的潜在商业价值;此方法还能够自动抽取剧本中的场次以及每个场次涉及的角色、场景、道具,从而支持按照场次、道具、场景和角色进行单条件及多条件查询,本发明能够改变影视剧制作过程中传统的人工阅读和分析剧本的工作方式,方便影视剧制作人员了解剧本的剧情及其商业价值。
Description
技术领域
本发明涉及将计算机信息处理技术应用于影视剧剧本分析,分析剧本中具有商业宣传价值的道具和场景,使用户了解剧本的商业价值;本发明也可以实现对剧本各场次中出现的角色、道具和场景进行自动识别,实现对影视剧产品制作流程的智能管理。本发明使用了自然语言处理技术和本体论知识描述方法。
背景技术
影视剧植入式广告是一种新的广告宣传方式,已在国内外影视剧作品中广泛采用,进行影视剧植入广告制作需要认真分析剧本,目前只能采用人工阅读的方式,效率低,特备是阅读疲劳还经常会引起广告植入点的疏漏,在人工方式下,查找剧本中的道具、场景和人物等信息也很费时。另外,目前影视剧制作过程中,涉及角色、道具和场景的管理也是采用人工管理方式,缺少信息化的辅助手段。
发明内容
本发明公布的方法可以利用计算机实现对剧本的自动分析,改变影视剧制作者人工处理剧本的传统方式,提高他们分析影视剧剧本的效率和效果,提高其植入广告的制作水平。本发明具有运算速度快,性能稳定,适用面广等特点。本发明包括两部分,第一是影视剧分析专用知识库的建立方法;第二是利用影视剧分析专用知识库对剧本进行分析的方法。
一种影视剧分析专用知识库的建立方法,包括步骤:
①建立专用知识库的本体概念定义,专用知识库是由一个个概念组成的,每一个概念对应于一个商品名称,每一个概念由概念名称和属性组成,所述的属性包括概念级别、上层概念、下层概念、同义词、推荐广告方式和联想广告;
②搜集有商业价值的商品名称,每一个商品名称对应一个概念,针对每一个概念,按照本体概念的各个属性明确其属性值;
③编写软件程序,利用软件将搜集到概念逐个录入到数据库中,一个概念对应一条数据库记录,最终专用知识库存储在一个数据库中;
完成影视剧分析专用知识库的建立。
其中,专用知识库中的概念分为三个层级,第一层概念是顶层概念;第二层概念处于知识库体系的中间层;第三层概念是底层概念。
其中,概念级别指的是概念的层级;上层概念指的是当前概念的上层概念;下层概念指的是当前概念包含哪些下层概念;同义词指的是当前概念的其它称谓;推荐广告方式就当前概念提供一些在影视剧作品中进行广告植入的方式;联想广告指的是由当前概念所指的商品可以联想到的其它产品。
一种利用影视剧分析专用知识库对剧本进行分析的方法,包括步骤:
①剧本预处理,识别原始剧本中由于人为错误出现的场次序号缺号、重号、号码样式不统一的现象,提示用户修改;
②抽取剧本角色特征,剧本角色特征包括剧本中出现的角色;
③按场次分割剧本,在原始剧本中各个场次是连在一起的,为了随后抽取场次特征的需要,把剧本中出现的各个场次分割切分出来,切分出来的每一个场次由场次标题和内容组成;
④抽取场次特征,利用影视剧分析专用知识库以及自然语言处理技术挖掘出剧本各个场次中出现的人物、道具和场所,并统计其出现次数以及与主要角色的关系;
完成对剧本的分析。
本发明与现有技术相比有以下优点:影视剧分析专用知识库采用本体论概念描述方法,解决了知识的组织问题,另外,每个概念的联想广告属性可以扩展剧本的广告植入范围,充分挖掘剧本的商业价值。
按照剧本分析方法对剧本进行分析之后,就可以针对剧本的特征(场景、道具、角色、场次标题)开展查询,查询服务可以帮助用户快速定位他所关心的剧本场景。
附图说明
图1是影视剧分析专用知识库构成单元“概念”的属性特征集合。
图2是本发明的影视剧植入广告分析过程的流程图。
具体实施方式
影视剧分析专业数据库的建立方法由以下技术方案实现:
①建立专用知识库的本体概念定义,专用知识库是由一个个概念组成的,一个概念对应于一个商品名称,每一个概念由概念名称和若干相关属性组成,如图1所示,这些属性包括,概念级别,上层概念,下层概念,同义词,推荐广告方式,联想广告。
概念级别指的是概念的层级;
上层概念指的是当前概念的上层概念;
下层概念指的是当前概念包含哪些下层概念;
同义词指的是当前概念的其它称谓;
推荐广告方式就当前给出一些供参考的植入方式;
联想广告指的是由当前概念所指的商品可以联想到的其它产品。联想广告可以扩展剧本的广告植入种类。
专用知识库中的概念分为三个层级,上一层的概念包含若干个下层概念,专用知识库具有可扩展性,方便日后添加新的概念。
②搜集有商业价值的商品名称,每一个商品名称对应一个概念,针对每一个概念,按照本体概念的各个属性明确其属性值。
确定三个层次中各包含哪些概念,其中,第一层概念是顶层概念;第二层概念处于知识库体系的中间层;第三层概念是底层概念,属于叶子节点,每一个概念是一个具体的商品名称。
第一层包括23个概念,如,医药卫生、生活服务、体育运动等。
第二层包括56个概念,如,药品,医疗机构,生活用品,日常服务,运动服装,运动场所。
第三层包括1200个概念,如,肠虫清,丹参滴丸,北京三博医院,北京儿童医院,牙膏、洗发液,票务中心,酒店,运动服,运动鞋,体育馆,体育场。
下面是一个第三层概念—“桶装水”的例子,
概念:桶装水
概念级别:三级概念
上层概念:生活用品
下层概念:无
同义词:纯净水
联想广告:饮水机
推荐广告方式:作为背景道具使用。
联想广告属性可以充分挖掘剧本的商业价值,比如,剧本中出现了“桶装水”但没有“饮水机”,通过联想属性可以挖掘出“饮水机”作为广告卖点。
③编写软件程序,利用软件将搜集到概念逐个录入到数据库中,一个概念对应一条数据库记录,最终专用知识库存储在一个数据库中。
完成影视剧分析专用知识库的建立。
一种利用影视剧分析专用知识库对剧本进行分析的方法,包括步骤:
①剧本预处理;
原始剧本中经常出现场次缺号、重号导致序号不连贯的现象,这些错误会影响剧本场次的分割;常见的场次标题表达模式有以下几种,
“第一场 客厅”
“一场 客厅”
“1场 客厅”
“一 客厅”
“1 客厅”
“1、客厅”
根据剧本所采用的标题表达模式,基于正则表达式技术构建不同的表达式模式,如,“第”+中文数字+“客厅”
中文数字+“场 客厅”
阿拉伯数字+“场 客厅”
中文数字+“客厅”
阿拉伯数字+“客厅”
阿拉伯数字+“、客厅”
让上述阿拉伯数字或中文数字从1开始递增,每次增加1,生成一系列的表达式实例,让这些实例去匹配原始剧本中的内容,若发生匹配,则说明存在该场次标题;若未发生匹配,则说明可能存在缺号或号码样式不统一的情况,这时将该处的上下文提示给用户,用户可以根据上下文迅速在剧本中定位该处。
②抽取剧本角色特征,剧本角色特征包括剧本中出现的角色。利用自然语言处理技术发现剧本中的人物角色名称,人物角色名称会在文本中出现多次,并通常会出现在动词之前,中文常见姓氏较为固定,也可以作为识别角色名称的提示信息,基于上述认识实现了剧本特征抽取。首先,对剧本进行中文分词处理,然后找出所有“姓名”+“动词”的搭配,从这些搭配中抽取“姓名”部分,再对这些“姓名”进行筛选,只保留那些在剧本原文出现两次以上的“姓名”,这样做的目的是只保留最重要的角色,以及过滤掉那些由于分词错误产生的并非真正的姓名。
③按场次分割剧本,在原始剧本中各个场次是前后连在一起的,为了更好地理解剧本需要了解道具、场景和角色在各个场次的分布情况,一方面,这些分布信息方便用户定位道具、场景和角色,方便用户安排制定拍摄计划;另一方面,这些信息对评估各个场次的广告价值有帮助。
剧本中每一个场次都由场次标题和场次内容组成。每个场次都由场次标题开头,以场次内容结束。通过分析剧本场次标题表达模式,抽取其中潜在的模式构成搜索表达式,基于搜索表达式,找到剧本中的各个场次的开始位置和结束位置,根据开始位置和结束位置分割出各个场景。
对于下属
“第一场 客厅”
“一场 客厅”
“1场 客厅”
“一 客厅”
“1 客厅”
“1、客厅”
对应的搜索表达式分别是,
“第[一-十]+场.*”
“[一-十]+场.*”
“[0-9]+场.*”
“第[0-9]+场.*”
“[一-十]+.*”
“[一-十]+、.*”
其中“[一-十]+”表示一个由一个或多个中文数字(一、二、三、四、五、六、七、八、九、十)构成的数字;“[0-9]+”表示一个由一个或多个阿拉伯数字(0、1、2、3、4、5、6、7、8、9)构成的数字;“.*”表示任意字符,它对应场次标题中紧随场次序号之后出现的标题文字。
利用这些搜索表达式可以发现剧本中所有场次标题的位置,在两个相邻标题之间的文字就是场次内容。
④抽取场次特征,基于权力要求1中的专用知识库以及自然语言处理技术挖掘出剧本各个场次中出现的具有植入广告价值的道具和场所。统计它们的出现次数以及与主要角色的关系。
首先对剧本进行分词处理,然后让分词结果中的每一个名词与权力要求1中的专用知识库的每一个概念进行匹配,把匹配到的词提取出来作为广告卖点,然后统计各个广告卖点在整个剧本中出现的次数,以及在各个场次与哪些角色共现。
⑤剧本特征查询,基于先前挖掘出来的剧本特征和场次特征为用户提供查询服务。用户可以利用这一功能定位相关剧本场景,系统提供单条件简单检索以及多条件组合检索,多条件组合检索指的是一个以上条件的联合检索,比如,检索某一道具,某一角色在哪些场次中出现。
Claims (4)
1.一种影视剧分析专用知识库的建立方法,其特征在于:包括步骤:
①建立专用知识库的本体概念定义,专用知识库是由一个个概念组成的,每一个概念对应于一个商品名称,每一个概念由概念名称和属性组成,所述的属性包括概念级别、上层概念、下层概念、同义词、推荐广告方式和联想广告;
②搜集有商业价值的商品名称,每一个商品名称对应一个概念,针对每一个概念,按照本体概念的各个属性明确其属性值;
③编写软件程序,利用软件将搜集到概念逐个录入到数据库中,一个概念对应一条数据库记录,最终专用知识库存储在一个数据库中;
完成影视剧分析专用知识库的建立。
2.根据权利要求1所述的一种影视剧分析专用知识库的建立方法,其特征在于:专用知识库中的概念分为三个层级,第一层概念是顶层概念;第二层概念处于知识库体系的中间层;第三层概念是底层概念。
3.根据权利要求1所述的一种影视剧分析专用知识库的建立方法,其特征在于:概念级别指的是概念的层级;上层概念指的是当前概念的上层概念;下层概念指的是当前概念包含哪些下层概念;同义词指的是当前概念的其它称谓;推荐广告方式就当前概念提供一些在影视剧作品中进行广告植入的方式;联想广告指的是由当前概念所指的商品可以联想到的其它产品。
4.一种利用权利要求1所述的影视剧分析专用知识库对剧本进行分析的方法,包括步骤:
①剧本预处理,识别原始剧本中由于人为错误出现的场次序号缺号、重号、号码样式不统一的现象,提示用户修改;
②抽取剧本角色特征,剧本角色特征包括剧本中出现的角色;
③按场次分割剧本,在原始剧本中各个场次是连在一起的,为了随后抽取场次特征的需要,把剧本中出现的各个场次分割切分出来,切分出来的每一个场次由场次标题和内容组成;
④抽取场次特征,利用影视剧分析专用知识库以及自然语言处理技术挖掘出剧本各个场次中出现的人物、道具和场所,并统计其出现次数以及与主要角色的关系;
完成对剧本的分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010605523 CN102063481A (zh) | 2010-12-24 | 2010-12-24 | 一种影视剧分析专用知识库的建立方法及剧本分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010605523 CN102063481A (zh) | 2010-12-24 | 2010-12-24 | 一种影视剧分析专用知识库的建立方法及剧本分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102063481A true CN102063481A (zh) | 2011-05-18 |
Family
ID=43998757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010605523 Pending CN102063481A (zh) | 2010-12-24 | 2010-12-24 | 一种影视剧分析专用知识库的建立方法及剧本分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063481A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302906A (zh) * | 2015-10-29 | 2016-02-03 | 小米科技有限责任公司 | 信息标注方法及装置 |
CN106250379A (zh) * | 2015-06-08 | 2016-12-21 | 中外名人文化产业集团有限公司 | 中国电视剧剧本数据分析法 |
CN106503180A (zh) * | 2016-10-25 | 2017-03-15 | 上海电机学院 | 面向剧本的非语义式社交网络抽取方法 |
CN107169742A (zh) * | 2017-05-23 | 2017-09-15 | 首汇焦点(北京)科技有限公司 | 一种制片统筹的管理方法及系统 |
CN107241616A (zh) * | 2017-06-09 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN107766330A (zh) * | 2017-10-25 | 2018-03-06 | 西安影视数据评估中心有限公司 | 一种进行影视剧本质量分析的系统及方法 |
CN109885648A (zh) * | 2018-12-29 | 2019-06-14 | 清华大学 | 基于剧本的字幕场景和说话人信息自动标注方法和系统 |
CN110414835A (zh) * | 2019-07-26 | 2019-11-05 | 北京小土科技有限公司 | 一种电视剧剧本量化评估系统及方法 |
CN110443482A (zh) * | 2019-07-26 | 2019-11-12 | 北京小土科技有限公司 | 一种电影剧本完成度量化评估系统 |
CN110458428A (zh) * | 2019-07-26 | 2019-11-15 | 北京小土科技有限公司 | 一种电影剧本精彩度量化评估系统 |
CN110909528A (zh) * | 2019-11-29 | 2020-03-24 | 北京奇艺世纪科技有限公司 | 剧本解析方法、剧本展示方法、装置和电子设备 |
CN111160586A (zh) * | 2019-11-25 | 2020-05-15 | 北京小土科技有限公司 | 一种影视智能排期系统及方法 |
CN111291535A (zh) * | 2020-03-02 | 2020-06-16 | 北京奇艺世纪科技有限公司 | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
CN116484835A (zh) * | 2023-04-28 | 2023-07-25 | 北京优酷科技有限公司 | 剧本道具挖掘方法、装置及设备 |
CN111160586B (zh) * | 2019-11-25 | 2024-05-10 | 北京小土科技有限公司 | 一种影视智能排期系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101365094A (zh) * | 2007-08-08 | 2009-02-11 | 宋亚民 | 一种影视情境广告的发布、植入、制作方法及其系统 |
-
2010
- 2010-12-24 CN CN 201010605523 patent/CN102063481A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101365094A (zh) * | 2007-08-08 | 2009-02-11 | 宋亚民 | 一种影视情境广告的发布、植入、制作方法及其系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250379A (zh) * | 2015-06-08 | 2016-12-21 | 中外名人文化产业集团有限公司 | 中国电视剧剧本数据分析法 |
CN105302906A (zh) * | 2015-10-29 | 2016-02-03 | 小米科技有限责任公司 | 信息标注方法及装置 |
CN106503180B (zh) * | 2016-10-25 | 2019-10-22 | 上海电机学院 | 面向剧本的非语义式社交网络抽取方法 |
CN106503180A (zh) * | 2016-10-25 | 2017-03-15 | 上海电机学院 | 面向剧本的非语义式社交网络抽取方法 |
CN107169742A (zh) * | 2017-05-23 | 2017-09-15 | 首汇焦点(北京)科技有限公司 | 一种制片统筹的管理方法及系统 |
CN107241616A (zh) * | 2017-06-09 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN107241616B (zh) * | 2017-06-09 | 2018-10-26 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN107766330A (zh) * | 2017-10-25 | 2018-03-06 | 西安影视数据评估中心有限公司 | 一种进行影视剧本质量分析的系统及方法 |
CN109885648A (zh) * | 2018-12-29 | 2019-06-14 | 清华大学 | 基于剧本的字幕场景和说话人信息自动标注方法和系统 |
CN110414835A (zh) * | 2019-07-26 | 2019-11-05 | 北京小土科技有限公司 | 一种电视剧剧本量化评估系统及方法 |
CN110443482A (zh) * | 2019-07-26 | 2019-11-12 | 北京小土科技有限公司 | 一种电影剧本完成度量化评估系统 |
CN110458428A (zh) * | 2019-07-26 | 2019-11-15 | 北京小土科技有限公司 | 一种电影剧本精彩度量化评估系统 |
CN111160586A (zh) * | 2019-11-25 | 2020-05-15 | 北京小土科技有限公司 | 一种影视智能排期系统及方法 |
CN111160586B (zh) * | 2019-11-25 | 2024-05-10 | 北京小土科技有限公司 | 一种影视智能排期系统及方法 |
CN110909528A (zh) * | 2019-11-29 | 2020-03-24 | 北京奇艺世纪科技有限公司 | 剧本解析方法、剧本展示方法、装置和电子设备 |
CN111291535A (zh) * | 2020-03-02 | 2020-06-16 | 北京奇艺世纪科技有限公司 | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
CN116484835A (zh) * | 2023-04-28 | 2023-07-25 | 北京优酷科技有限公司 | 剧本道具挖掘方法、装置及设备 |
CN116484835B (zh) * | 2023-04-28 | 2023-11-28 | 北京优酷科技有限公司 | 剧本道具挖掘方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063481A (zh) | 一种影视剧分析专用知识库的建立方法及剧本分析方法 | |
Zhang et al. | Ad hoc table retrieval using semantic similarity | |
US10235421B2 (en) | Systems and methods for facilitating the gathering of open source intelligence | |
Liu et al. | Vide: A vision-based approach for deep web data extraction | |
CN103955529B (zh) | 一种互联网信息搜索聚合呈现方法 | |
WO2015176526A1 (zh) | 基于关系叠加组合的文档的标识、关联、搜索及展现的系统 | |
CN102298585B (zh) | 一种地址切分及级别标注方法和地址切分及级别标注装置 | |
CN104219575A (zh) | 相关视频推荐方法及系统 | |
JP2000172724A (ja) | 内容ベ―スで映像を検索する検索システム及び検索方法 | |
CN107679226B (zh) | 基于主题的旅游本体构建方法 | |
JP4737435B2 (ja) | ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム | |
CN105095319A (zh) | 基于时间序列化的文档的标识、关联、搜索及展现的系统 | |
CN105956206A (zh) | 一种基于关键词树的视频检索方法及系统 | |
CN107784125A (zh) | 一种实体关系抽取方法及装置 | |
CN104978314A (zh) | 媒体内容推荐方法及装置 | |
CN103186556A (zh) | 得到和搜索结构化语义知识的方法及对应装置 | |
Chaves et al. | Towards a multilingual ontology for ontology-driven content mining in social web sites | |
Woo et al. | Time series analysis of park use behavior utilizing big data-Targeting Olympic park | |
CN112015908A (zh) | 知识图谱的构建方法及系统、查询方法及系统 | |
Yoshinaga et al. | Open-domain attribute-value acquisition from semi-structured texts | |
Buscaldi et al. | Inferring Geographical Ontologies from Multiple Resources for Geographical Information Retrieval. | |
CN103136221B (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
Nielsen | Thesaurus construction: Key issues and selected readings | |
CN103761312B (zh) | 一种多记录网页的信息抽取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110518 |