CN111353314A

CN111353314A - 一种用于动漫生成的故事文本语义分析方法

Info

Publication number: CN111353314A
Application number: CN202010129200.2A
Authority: CN
Inventors: 高春鸣; 郭伟; 郭松睿
Original assignee: Changsha Qianbo Information Technology Co ltd
Current assignee: Changsha Qianbo Information Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-30

Abstract

本发明设计动漫生成技术领域，且公开了一种用于动漫生成的故事文本语义语义分析方法，包括以下步骤：1)对故事文本格式化，得到文本的树形结构，然后进行自然语言处理，得到文本的分词、词性、句法树、依赖关系、命名实体等信息；2)根据文本的自然语言处理结果，将文本中的元素映射为语义元素，得到粗略的语义信息，再通过故事上下文进一步挖掘深层语义信息；3)根据从故事中提取的语义信息，整理并完善后得出故事剧本中所需的时间、地点、人物、事件等要素，可供后续模块使用从而生成动漫视频。该用于动漫生成的故事文本语义语义分析方法，可自动的根据提供的故事文本提取其中的要素，整合得到结构化、语义明确的故事剧本，该剧本能够作为输入数据应用于动漫生成系统的后续渲染模块等场合。

Description

一种用于动漫生成的故事文本语义分析方法

技术领域

本发明涉及计算动画领域，具体为一种用于动漫生成的故事文本语义分析方法。

背景技术

动漫视频的人工制作成本很高，一种降低人工成本、提高生产效率的思路是向工业自动化发展，这也是许多领域的发展趋势。各类人工智能技术的发展给艺术创作提供了思路，已经有诸如自动写作，自动谱曲等方面的成果，然而动漫视频的自动生成是一个更为复杂的问题，其中需要解决的一个难题便是动漫剧本的获取。用于动漫生成的剧本，需要满足结构化且语义明确的要求，以往只能由人工来完成。自然语言处理、深度学习、知识图谱等技术的发展，带来了一种新的获得结构化动画剧本的可能，即通过对已有的自然语言形式的故事文本进行语义分析，从而得到结构化且语义明确的动漫剧本。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于动漫生成的故事文本语义分析方法，通过该方法，计算机可自动地对自然语言形式的故事文本进行语义分析，依次完成故事文本的格式化、自然语言处理、故事语义信息提取、语义信息加工、语义信息整合等处理流程，得到动漫生成所需的结构化且语义明确的动漫剧本。

(二)技术方案

为实现上述从故事文本获取结构化且语义明确的动漫剧本的目的，本发明提供如下技术方案：

一种用于动漫生成的故事文本语义分析方法，包括以下步骤：

1)故事文本格式化，即给定一个故事文本篇章，根据其内容中的换行符或者结构化标记将篇章划分为段落序列，根据段落内容中的标点符号进行句子切分，得到段落的句子序列。

2)针对每个句子，使用自然语言处理技术完成分词、词性标注、句法分析、依赖关系分析、命名实体识别。

3)根据故事文本自然语言处理的结果，完成故事内容的语义化，得到故事中的角色、工具、物品、地点、角色动作、事件等信息。

4)根据上下文内容以及相关规则，处理故事文本的初步语义化结果中可能存在的歧义和矛盾。

5)使用规则等方法，根据故事已提取信息推断隐含信息。

6)整合所有信息得到包含时间、地点、人物、事件等关键要素的结构化剧本。

优选的，所述故事文本格式化处理过程中，在对段落进行句子切分前，先对段落内容进行层次划分。

优选的，所述故事内容的语义化过程中，构建动漫领域知识图谱作为重要参考。

优选的，所述故事隐含信息推断过程过程中，构建通用知识图谱作为重要参考。

优选的，所述故事关键要素整合过程中，构建情节、场景模板作为重要参考。

(三)有益效果

与现有技术相比，本发明提供了一种用于动漫生成的故事文本语义分析方法，具备以下有益效果：

该用于动漫生成的故事文本语义分析方法，对自然语言形式的故事文本进行了格式化，使得故事文本中的各部分条理清晰、层次分明，便于后续步骤中进行上下文相关的分析。采用通用的自然语言处理技术对格式化的故事文本进行初步处理，现有自然语言处理技术的提升都能间接的提升本方法的效果。对故事文本的自然语言处理结果，本方法进一步将文本元素映射到语义空间，得到可以用于动漫生成的语义明确的信息。针对直接从故事中提取的语义信息仍存在歧义和矛盾的问题，本方法根据上下文内容进行推理而将已提取的语义信息中不够准确的部分去除。除了直接由文本内容映射得到的语义信息，本方法还考虑了已有信息中隐含信息的获取，使得最终得到的剧本更加符合故事原文的描述。针对自然语言形式故事文本特有的简洁、含蓄、突出重点的特征，本方法在整合从故事中所提取的语义信息的同时也考虑了对所得剧本的叙事完整性、场景完成度上的改善。本方法中所采用的知识库、规则库等运行时所需数据需要人工构建，而构建过程与此方法的执行是互相独立的，在具备所需数据的情况下，本方法可以无需人工干预自动运行，具有优于人工处理的效率。知识库、规则库等相关数据可改进，改进后能进一步提升本方法处理结果的质量。

附图说明

图1为本发明用于动漫生成的故事文本语义分析方法的步骤流程图；

图2为故事文本结构化示意图；

图3为词与语义元素之间的映射示意图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：一种用于动漫生成的故事文本语义分析方法，包括以下步骤：

1)给定一个故事文本篇章，根据其内容中的换行符或者结构化标记将篇章划分为段落序列，根据段落内容中的标点符号进行句子切分，得到段落的句子序列。

5)使用规则等方法，根据故事已提取信息推断隐含信息。

本实施例进一步优选地提供了一种用于动漫生成的故事文本语义分析方法，其中针对故事文本格式化处理过程，在对段落进行句子切分前，先对段落内容进行层次划分，一般划分为两层，引号、括号、书名号及其包含的内容等划为第二层次，其他的一般内容划分为第一层次，如果第二层次中依然存在多层次结构则继续划分。例如，对如下段落进行处理：

小明说：“我最喜欢的书是霍金的《时间简史》。”小王说：“好巧，我也是！”

则『小明说：引用0。小王说：引用1。』为第一层次，『我最喜欢的书是霍金的书名0。』为第二层次，『时间简史』为第三层次，注意到第二层次的内容在第一层次中被替换成了对应的元素标签(如引用0，书名0)，其他层次也是同样的替换操作。

实施例二：一种用于动漫生成的故事文本语义分析方法，包括以下步骤：

5)使用规则等方法，根据故事已提取信息推断隐含信息。

本实施例进一步优选地提供了一种用于动漫生成的故事文本语义分析方法，其中针对故事内容的语义化过程，构建动漫领域知识图谱从而得到动漫领域的语义网络，并采用深度学习等方式建立从故事文本中的元素到动漫领域知识图谱中元素的映射。此外，针对故事语义提取结果中歧义和矛盾的处理，以及隐含语义信息推断等过程，构建包含生活常识、地理、历史、人文、物理等各方面知识的通用知识图谱，并采用概率软逻辑等方式，完成相应的推理过程。

实施例三：一种用于动漫生成的故事文本语义分析方法，包括以下步骤：

5)使用规则等方法，根据故事已提取信息推断隐含信息。

本实施例进一步优选地提供了一种用于动漫生成的故事文本语义分析方法，其中针对故事语义信息整合过程，构建通用情节、场景模板，在完成整合时，通过算法选取最佳情节、场景模板实例，然后将模板中包含的内容添加到故事剧本中。这相当于故事的二次创作，对于故事剧本质量的提升有重要意义。自然语言形式的故事需要简洁而突出重点，因而只会包含故事的关键信息，动漫视频则是一种视觉的艺术，在一定程度上，细节越丰富则体验越好。因此，尽管采用模板会使故事剧本有种落入俗套的效果，但对于提高剧本的叙事完整性、场景完成度都有帮助。模板内容的质量、多样性越高，得到的经过补充的故事剧本越精彩而不会雷同。

本实施例步骤S1中，输入的故事文本可以是非结构化的，即纯文本内容，也可以是半结构化的，如带有“标题”、“段落”等标签的xml文档。经过类型判断之后，纯文本内容通过换行符分段，半结构化文档则根据其对应格式分段。段落根据断句标点(句号、问号、感叹号等)划分成句子序列，经过层次划分的段落在句子划分时准确率更高。输入的故事文本统一视为“一章”，则经过划分之后可以得到章、段、句的树形结构，同时，句子可以是多层次结构，如图2。

本实施例步骤S2中，以中文宾州树库(Chinese Tree Bank,CTB)标准，对格式化后的故事文本完成自然语言处理，得到各个句子的词序列、每个词对应的词性、词的句法成分以及词与词之间的依赖关系等信息。

本实施例步骤S3中，根据故事文本自然语言处理的结果，将每个词映射为动漫领域的语义元素。词与语义元素之间是多对多的映射关系，而每个词的词性、句法成分，以及上下文等信息则使其映射到唯一的语义元素，如图3。

本实施例步骤S4中，对上步中提取到的语义信息进行梳理可以找到其中歧义和矛盾等不准确的因素。对于这些不准确的内容，采取一定策略以全部已得语义信息为基础，规则或者概率软逻辑等方法作为推理手段，从歧义或矛盾的每一条陈述出发，为其计分，从而得到并选择可信度最高的陈述，这样就消除了歧义和矛盾。

本实施例步骤S5中，从已有语义信息出发，按照一定规则或策略，在通用知识图谱或其他相关知识库中进行搜索，得到一系列的候选陈述，并给定可信度阈值得到最终的陈述集合作为隐含语义信息。

本实施例步骤S6中，针对前面步骤所得的所有语义信息，提取其中的时间信息并按照先后排成序列。对于类型不是时间的其他语义信息，则判断其与时间信息元素的相关性，从而添加到时间轴中。默认的，在没有有效时间信息的情况下，将句子在文本中的先后先后顺序作为时间轴先后顺序。以时间轴上的关键事件为关键词，可以从情节模板库中搜索，得到匹配度最高的模板从而对现有时间轴内容进行补充。同样的，从所有语义信息中提取场景信息，并将所有实体根据故事内容划分到各个场景中，得到各个场景包含的内容。以场景类型以及其中的关键实体为关键词，可以从场景模板库中搜索，得到匹配度最高的模板从而对现有场景内容进行补充。最终得到的结果是结构化且语义明确的动漫剧本。

本发明的有益效果是：本方法对自然语言形式的故事文本进行了格式化，使得故事文本中的各部分条理清晰、层次分明，便于后续步骤中进行上下文相关的分析。采用通用的自然语言处理技术对格式化的故事文本进行初步处理，现有自然语言处理技术的提升都能间接的提升本方法的效果。对故事文本的自然语言处理结果，本方法进一步将文本元素映射到语义空间，得到可以用于动漫生成的语义明确的信息。针对直接从故事中提取的语义信息仍存在歧义和矛盾的问题，本方法根据上下文内容进行推理而消除已提取的语义信息中不够准确的部分。除了直接由文本内容映射得到的语义信息，本方法还考虑了已有信息中隐含信息的获取，使得最终得到的剧本更加符合故事原文的描述。针对自然语言形式故事文本特有的简洁、含蓄、突出重点的特征，本方法在整合从故事中所提取的语义信息的同时也考虑了对所得剧本的叙事完整性、场景完成度上的改善。本方法中所采用的知识库、规则库等运行时所需数据需要人工构建，而构建过程与此方法的执行是互相独立的，在具备所需数据的情况下，本方法可以无需人工干预自动运行，具有优于人工处理的效率。知识库、规则库等相关数据可改进，改进后能进一步提升本方法处理结果的质量。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于动漫生成的故事文本语义分析方法，其特征在于，包括以下步骤：

1)故事文本格式化，即给定一个故事文本篇章，根据其内容中的换行符或者结构化标记将篇章划分为段落序列，根据段落内容中的标点符号进行句子切分，得到段落的句子序列；

2)针对每个句子，使用自然语言处理技术完成分词、词性标注、句法分析、依赖关系分析、命名实体识别；

3)根据故事文本自然语言处理的结果，完成故事内容的语义化，得到故事中的角色、工具、物品、地点、角色动作、事件等信息；

4)根据上下文内容以及相关规则，处理故事文本的初步语义化结果中可能存在的歧义和矛盾；

5)使用规则等方法，根据故事已提取信息推断隐含信息；

2.根据权利要求1所述的一种用于动漫生成的故事文本语义分析方法，其特征在于，所述故事文本格式化处理过程中，在对段落进行句子切分前，先对段落内容进行层次划分。

3.根据权利要求1所述的一种用于动漫生成的故事文本语义分析方法，其特征在于，所述故事内容的语义化过程中，构建动漫领域知识图谱作为重要参考。

4.根据权利要求1所述的一种用于动漫生成的故事文本语义分析方法，其特征在于，所述故事隐含信息推断过程过程中，构建通用知识图谱作为重要参考。

5.根据权利要求1所述的一种用于动漫生成的故事文本语义分析方法，其特征在于，所述故事关键要素整合过程中，构建情节、场景模板作为重要参考。