CN109918509B

CN109918509B - 基于信息提取的场景生成方法及场景生成系统的存储介质

Info

Publication number: CN109918509B
Application number: CN201910186096.8A
Authority: CN
Inventors: 顾峰; 赵娜
Original assignee: Understanding Sida Hainan Special Economic Zone Technology Co ltd
Current assignee: Understanding Sida (Hainan Special Economic Zone) Technology Co.,Ltd.
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2021-07-23
Anticipated expiration: 2039-03-12
Also published as: CN109918509A

Abstract

基于信息提取的场景生成方法及场景生成系统的存储介质，涉及一种场景生成方法。为了解决现有技术针对于部分诗词进行配图存在的效率低、耗时长的问题问题。本发明首先对待测文本进行分词和词性标记，并确定题材典型词库，按照场景信息提取方法提取待测文本的分词单位对应的场景信息提取词；将场景信息提取词与不同的相关度词语对集合进行比对，并确定场景信息提取词的强相关度词集合和中相关度词集合；根据分词单位对应的体裁分类信息确定最终相关词集合；判断最终相关词集合与题材典型词库是否存在交集确定扩充场景词；根据场景信息提取词和扩充场景词与场景模型素材进行匹配，实现场景的生成。本发明适用于基于信息的场景生成。

Description

基于信息提取的场景生成方法及场景生成系统的存储介质

技术领域

本发明涉及一种场景生成方法。

背景技术

目前的场景生成都是基于设计时就有针对性的设计出来的，比如游戏中的场景，是提前设计好的。没有一个普遍通用的场景生成系统或方法，所以分别设计的情况下，针对不同的情况进行设计需要多花费设计时间和人力、物力(就像没有模块化生产的汽车一样)，同时现有技术中也没有一个针对于信息的场景生成方法，这样造成小说、诗词、散文等文字为主的体裁形式不能给与用户直观的呈现和体验。

以中文的古诗词为例，目前的教育或者赏析分析等，都是基于教材或者材料给出一对一匹配的插图以便于读者有视觉上的印象或者感受。这样存在以下问题：

第一，插图的配置完全取决于编辑或者附图提供者的赏析水平和绘图水平，一旦绘图不够精确则完全另诗词的赏析大打折扣，甚至导致读者不能体会诗词的意境，而古诗词的赏析中，意境的体会是非常重要的一个方面。

第二，现有的配图或插图方式都是提供一种平面感知方式，并不能为读者营造一种沉浸感知方式，不能提供一种身临其境的感知环境。

更为重要的是，现有的配图方式都是针对于汉语形式的古代诗词，而且配图多见于教科书等广为所知的唐诗宋词，并不能涵盖所有的诗词，如较少出现在常见书本的唐诗宋词等，以及赋、序等其他形式的古诗词和现代诗歌等，目前是没有配图的，甚至可能是目前无法配图的。如果针对以上诗词强行通过人工配图的方式进行配图，那么还需要人为的按照诗词内容进行理解体会并绘图，那么理解体会和绘制图片将花费大量的时间，效率十分低下，而且仅仅《全唐诗》就九百卷，共收录诗作四万二千八百六十三首，还不算宋词、现代诗等，所以这个工作可能是一个遥遥无期的任务，甚至是无法完成的任务。

针对于文化领域，以上问题不仅仅是古诗词所面临的问题，也是其他文学体裁面临的问题，现有的方式并没有一种针对小说和散文等形式的文学作品进行场景重建的技术，也没有针对小说和散文等形式的文学作品的配图技术，这是由于说和散文等文体场景的环境信息相对比较少，或者篇幅一个场景下的其他文字记载比较多，所以不能有效的进行场景重建或者配图，也就是说这是由于小说和散文等文体形式决定的。

发明内容

本发明的目的是为了解决现有技术针对于部分诗词进行配图存在的效率低、耗时长的问题，以及现有技术并没有针对于所有体裁形式的场景重建技术的问题。

1、基于信息提取的场景生成方法，包括以下步骤：

步骤一、对待测文本进行分段并进行字数检测，确定待测文本的分词单位和体裁分类信息；然后进行分词，之后进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；

所述体裁分类信息包括绝句、律诗、长篇诗、词和其他类，所述其他类包括除了绝句、律诗、长篇诗、词以外的所有形式的类型；

步骤二、将待测文本分词单位对应的分词单位特征词集输入一种题材细节信息提取模型的建立方法建立的题材细节信息提取模型，得到待测文本的分词单位的题材细节信息和对应的题材典型词库；

步骤三、按照一种场景信息提取方法提取待测文本的分词单位对应的场景信息提取词；

步骤四、将步骤二提取的场景信息提取词与一种场景信息相关度的确定方法确定的不同的相关度词语对集合的每个相关词语对中的每个词语进行比对，并确定场景信息提取词的强相关度词集合和中相关度词集合；

步骤五、如果分词单位对应的体裁分类信息为绝句或律诗，则将分词单位对应的强相关度词集合作为最终相关词集合；如果没有强相关度词集合，最终相关词集合为空集；

如果分词单位对应的体裁分类信息为长篇诗、词或其他类，则将分词单位对应的强相关度词集合和中相关度词集合作为最终相关词集合；如果没有强相关度词集合、中相关度词集合，最终相关词集合为空集；

判断分词单位的最终相关词集合与分词单位对应的题材典型词库是否存在交集；并提取交集对应的词为扩充场景词；

步骤六、根据分词单位对应的场景信息提取词和扩充场景词与场景模型素材库中的场景模型素材进行匹配，提取匹配成功的模型素材，并进行模型的加载和渲染，实现场景的生成；

场景模型素材库为构建场景模型所需要的素材所构成的数据库。

进一步地，步骤一中，在进行词性标记，构成分词单位特征词集的同时，判断词性标注为动词的词语后面的词是否为名词，如果为名词，则将该动词以及动词后面的名词构成的动宾短语一起存入动宾短语集合；如果并无动词，或者动词后并无名词，则动宾短语集合为空；

在步骤三中，提取场景信息提取词后，判断动宾短语集合中每个动宾短语中的名词是否为所述场景信息提取词中的词语；如果是，则提取该动宾短语，并将该动宾短语记为人物匹配短语；

在步骤六中，所述实现场景生成的具体过程包括以下步骤：

步骤六一、根据分词单位对应的场景信息提取词和扩充场景词与场景模型素材库中的场景模型素材进行匹配，提取匹配成功的模型素材；

所述场景模型素材库包括自然物体模型库、自然天气模型库、植物模型库、动物模型库、建筑交通器物模型库、生活器物模型库、人物模型库；

所述自然物体模型库是指对大自然界的自然物体模型素材组成的模型库；

所述自然天气模型库是指天气模型素材组成的模型库；

所述植物模型库是指植物模型素材组成的模型库；

所述动物模型库是指动物模型素材组成的模型库；

所述建筑交通器物模型库是指人类生活中的建筑和交通物品模型素材组成的模型库；

所述生活器物模型库是指人类日常生活用品模型素材组成的模型库；

所述人物模型库是指人物模型素材组成的模型库；

如果匹配成功的模型素材中存在人物模型库中的人物模型素材，则直接执行步骤六二；

如果匹配成功的模型素材中不存在人物模型库中的人物模型素材，且存在所述人物匹配短语时，则按照所述人物匹配短语中的动词动作提取人物模型库中的人物模型素材，如果人物模型库中的人物模型素材中并无该动作对应的人物模型素材，则直接提取人物模型素材并按照所述人物匹配短语中的动词对人物模型进行人物模型调整修正，并将调整修正后的人物模型素材存入人物模型库；执行步骤六二；

步骤六二、如果匹配成功的模型素材中不存在除了酒器以外的生活器物模型库中的人类日常生活用品模型素材，则按照以下模型加载顺序进行加载，然后进行模型渲染，实现场景的生成；

所述的模型加载顺序为：

(1)加载自然物体模型库中的自然物体模型素材；

(2)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(3)加载植物模型库中的植物模型素材；

(4)加载天气模型库中的天气模型；

(5)加载动物模型库中的动物模型素材；

(6)加载人物模型库中的人物模型素材；

(7)加载生活器物模型库中的酒器模型素材；

针对上述的模型加载顺序而言，如果匹配成功的模型素材中不存在对应的模型素材，直接跳过不存在的模型素材对应的加载步骤，直接进行下一加载步骤；

如果匹配成功的模型素材中只存在生活器物模型库中的人类日常生活用品模型素材，则直接加载生活器物模型库中的人类日常生活用品模型素材，然后进行模型渲染，实现场景的生成；

如果匹配成功的模型素材中存在除了酒器以外的生活器物模型库中的人类日常生活用品模型素材，还存在除了生活器物模型库以外的其他场景模型素材库中的模型素材，则按照以下模型加载顺序进行加载，然后进行模型渲染，实现场景的生成；

所述的模型加载顺序为：

(a)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(b)加载生活器物模型库中的人类日常生活用品模型素材；并判断是否存在窗模型素材；如果不存在直接加载窗模型素材，且窗模型素材为开窗模型素材；如果存在窗模型素材，则选择加载窗模型素材，且窗模型素材为开窗模型素材；

(c)加载人物模型库中的人物模型素材；

(d)加载动物模型库中的动物模型素材；

(e)在窗模型素材所对应的窗口范围内加载以下模型素材：

(e1)加载自然物体模型库中的自然物体模型素材；

(e2)加载植物模型库中的植物模型素材；

(e3)加载天气模型库中的天气模型；

针对上述的模型加载顺序而言，如果匹配成功的模型素材中不存在对应的模型素材，直接跳过不存在的模型素材对应的加载步骤，直接进行下一加载步骤。

进一步地，步骤四所述确定场景信息提取词的强相关度词集合和中相关度词集合的具体过程包括以下步骤：

步骤四一、将步骤二提取的场景信息提取词与强相关度词语对集合中的每个词进行比对，当场景信息提取词与强相关度词语对集合中的一个词相同时，将强相关度词语对集合中的一个词对应的相关词语对中的另一个词语作为场景信息提取词的强相关度词；

遍历强相关度词语对集合中所有的词语，找到场景信息提取词对应的所有强相关度词，对应强相关度词集合；如果没有比对相同的词，则认为场景信息提取词无强相关度词；

步骤四二、针对无强相关度词的场景信息提取词，与中相关度词语对集合中的每个词进行比对，当场景场景信息提取词与中相关度词语对集合中的一个词相同时，将中相关度词语对集合中的一个词对应的相关词语对中的另一个词语作为场景信息提取词的中相关度词；

遍历中相关度词语对集合中所有的词语，找到场景信息提取词对应的所有中相关度词，对应中相关度词集合；如果没有比对相同的词，则认为场景信息提取词无中相关度词。

进一步地，步骤二所述的一种题材细节信息提取模型的建立方法，包括以下步骤：

步骤1.1、将由若干已知文本构成的语料库中的每个文本划分成分词单位，利用分词工具对分词单位进行分词；

步骤1.2、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；

步骤1.3、将所有分词单位特征词集作为一组输入数据，将对应的分词单位的题材细节信息作为标签，整体构成体裁模型数据集；

所述分词单位的题材细节信息包括现代题材、边塞诗类古诗词、山水田园诗类古诗词、闺怨诗类古诗词、送别诗类古诗词以及其他类古诗词；所述其他类古诗词包括除边塞诗、山水田园诗、闺怨诗及送别诗以外的所有古诗词类型；

每类题材细节信息的类型分别对应有题材典型词库；

将体裁模型数据集分为训练集和测试集合；构建神经网络，利用训练集和测试集合训练测试神经网络，得到训练好的神经网络模型，即题材细节信息提取模型。

进一步地，步骤三所述的一种场景信息提取方法，包括以下步骤：

步骤2.1、对文本进行分段并进行字数检测，确定文本的分词单位；

所述确定文本的分词单位的过程包括以下步骤：

对文本进行分段并进行字数检测，判断文本的句数、段落和字数是否符合以下类型：

如果符合绝句的段落及字数要求，则将其整体作为一个分词单位；

如果符合律诗的段落及字数要求，则将其整体作为一个分词单位；

如果符合长篇诗的段落及字数要求，则将两句作为一段，构成一个分词单位；

如果符合词牌名的段落及字数要求，则将一段作为一个分词单位；

如果不符合以上类型的段落及字数要求，将每段作为一个分词单位。

步骤2.2、利用分词工具对分词单位进行分词；

步骤2.3、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；

步骤2.4、将每个分词单位特征词集中的特征词与场景字典库中的场景词进行比较，如果分词单位特征词集中的特征词并不在场景字典库中，则对应删除分词单位特征词集中的特征词；

将分词单位对应的分词单位特征词集中剩下的词作为分词单位对应的场景信息提取词。

进一步地，步骤四所述的一种场景信息相关度的确定方法，包括以下步骤：

步骤3.1、将由若干已知文本构成的语料库中的每个文本划分成分词单位，利用分词工具对分词单位进行分词；

步骤3.2、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；

步骤3.3、将每个分词单位特征词集中的特征词与场景字典库中的场景词进行比较，如果分词单位特征词集中的特征词并不在场景字典库中，则对应删除分词单位特征词集中的特征词；

步骤3.4、将所有分词单位特征词集中剩余的特征词进行去重处理，并将去重处理后的特征词构成特征词基础集合；

步骤3.5、将特征词基础集合中的每两个词作为相关词语对，统计每组相关词语对中两个词共同出现在同一分词单位中的概率，并将每组相关词语对中两个词按照统计概率进行排序，并按照统计概率排序确定相关词语对中两个词的相关度；并按照相关度，将对应的相关词语对分为不同的相关度词语对集合。具体实现过程包括以下步骤：

设定概数变量I，并初始化I＝0；

特征词基础集合中的词记为Xi，i＝1,2,……,M，M为特征词基础集合中的词的总数；将Xi与特征词基础集合中的词Xj作为相关词语对Dij，j＝1,2,……,M且j≠i；判断Xi和Xj是否同时出现在分词单位Yn中，n＝1,2,……,N，N为语料库中的文本对应的所有分词单位总数；

如果Xi和Xj同时出现在分词单位Yn中，则另I＝I+1；否则I不变；

直至所有的分词单位全部比对完毕；计算相关词语对Dij的统计概率Pij＝I/N；

针对特征词基础集合中的每两个词都按照上述过程进行统计，得到所有相关词语对Dij的统计概率Pij，并相关词语对Dij和统计概率Pij按照统计概率Pij的由大到小进行排序；

将统计概率Pij大于等于第一阈值Q1对应的相关词语对Dij作为强相关度，并将所有强相关度的词语存入强相关度词语对集合；

将统计概率Pij小于第一阈值Q1，且大于等于第二阈值Q2对应的相关词语对Dij作为中相关度词语对集合；

将小于第二阈值Q2对应的相关词语对Dij作为无相关度。

2、一种用于存储基于信息提取的场景生成系统的存储介质，所述存储介质存储有基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为基于信息提取的场景生成方法对应的程序。

3、一种用于运行基于信息提取的场景生成系统的计算机，所述计算机用于运行基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为基于信息提取的场景生成方法对应的程序；即所述计算机用于执行基于信息提取的场景生成方法。

本发明具有以下有益效果：

利用本发明不仅可以对有环境描述的诗、词进行场景生成，也能够针对有环境描述的赋、序等其他形式的古诗词，甚至现代诗歌、小说和散文等进行场景生成，本发明具有极强的通用性，几乎可以使用所有文学体裁；本发明对所有形式的带有环境描述的文学作品的场景生成率可达99％以上。

本发明采用先进行模型数据的记载，然后进行渲染，一定程度上减少了控制渲染指令的数量，同时保证了指令的高效性，能够提升整体的运行效率，缩短场景生成的时间。同时，由于是先加载，然后针对模型进行渲染，也就是通过分局部渲染实现整个场面的渲染，这样避免了模型记载同时渲染时存在的可能对某个局部区域进行反复覆盖渲染的可能性，一定程度上减少了渲染的工作量，提升渲染效率，从而能够进一步缩短场景生成的时间。尤其是针对VR设备的显示而言，上述过程能够有效的适用于VR显示技术，控制整体的场景生成时间。同时VR显示技术能够为用户提供一种沉浸式体验，使用户能够更加直接的感受材料所表现的环境，从而进一步体会材料所烘托的情感，对“寓情于景，情景交融”有更加深层的体会。

在模型素材库建立好的情况下，针对于一个分词单位利用本发明进行场景生成的时长不会超过30秒，而针对于一个涉及到20个左右场景词文本，而言利用本发明逐一进行进行场景生成的总时长也基本都不会超过10分钟。所以利用本发明进行场景生成的效率高、耗时少。相比现有的针对诗词进行人工绘图的插图方式，针对于一百个文本，本发明能够能够将耗时至少缩短为百万分之一。

附图说明

图1为基于信息提取的场景生成方法流程图。

具体实施方式

具体实施方式一：一种题材细节信息提取模型的建立方法，包括以下步骤：

步骤1.1、将由若干已知文本构成的语料库中的每个文本划分成分词单位，利用百度分词工具(也可以是其他分词工具)对分词单位进行分词；已知文本包括诗词、散文、小说中的一种或者多中，由于绝句、律诗的篇幅相对较短且场景比较固定，所以可以将绝句、律诗的整首诗词作为一个分词单位，直接进行分词。而词(指文学体裁“词”，即符合词牌名及要求的文学形式，“词”不仅包括“宋词”还包括现代诗人所做的符合词牌名及要求的“词”，所以这里没有用“宋词”表示，而是用“词”，后面涉及到文学体裁的“词”都为符合词牌名及要求的文学形式)的格式相对较多，词一般按字句多少分为小令、中调、长调三类，五十八字以内为小令；五十九字至九十字为中调；九十一字以上为长调。一首词只一段的叫单调，两段的叫双调，三段、四段的叫三叠、四叠。一段为一阕，所以可以将词的每段作为一个分词单位。长篇诗的篇幅相对较长，可能会涉及到几个场景，所以可以将长篇两句作为一段，构成一个分词单位。散文的篇幅一般比较上，也可能会涉及到几个场景，所以需要将散文的一个自然段落作为一段，构成一个分词单位，分别进行分词。针对于小说而言，篇幅有短有长，无论是短篇还是长篇，只有部分段落才会有场景信息，所以也需要将小说的一个自然段落作为一段，构成一个分词单位，分别进行分词。

步骤1.2、利用北京大学词性标注软件或哈工大的词性标注软件等词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；保留名词词性的词语能够保证构建场景所需的场景元素，排除与构建场景无关或者相关性较低的词语，所以针对关键词集合进行进一步处理能够去除对构建场景无用的相关词语，从而大大减少的数据处理量，能够极大地提升信息提取速度，进而提高场景重建的速度；同时减少数据处理量还能够降低处理硬件(处理器和存储器等)的硬件要求。

所述分词单位的题材细节信息包括现代题材(将散文、小说和现代诗歌构成一类，含散文、小说和现代诗歌的所有题材)、边塞诗类古诗词、山水田园诗类古诗词、闺怨诗类古诗词、送别诗类古诗词以及其他类古诗词；所述其他类古诗词包括除边塞诗、山水田园诗、闺怨诗及送别诗以外的所有古诗词类型，如叙事诗、抒情诗等类别的诗，以及词和赋等其他形式的古诗词；

每类题材细节信息的类型分别对应有题材典型词库；针对古诗词和现代题材，其题材不同，对应反映的内容是各有特点的；经过本发明的深入研究发现：一类题材包含着共同的场景特征和关联性，所以可以根据题材细节信息的类型分别建立题材典型词库；例如边塞诗类古诗词大多数涉及到塞外、隔壁、边疆环境、雪等场景元素，且这些场景元素关联度较高，就可以依据统计结果提取典型的场景元素对应的词语构成对应的题材典型词库，或者人工确定典型的场景元素对应的词语构成对应的题材典型词库；山水田园诗类古诗词大多数涉及到禾、田、菊、酒等场景元素，且这些场景元素关联度较高，就可以依据统计结果提取典型的场景元素对应的词语构成对应的题材典型词库，或者人工确定典型的场景元素对应的词语构成对应的题材典型词库；闺怨诗类古诗词大多数涉及到窗、床、珠帘、罗幔、烛等场景元素，且这些场景元素关联度较高，就可以依据统计结果提取典型的场景元素对应的词语构成对应的题材典型词库，或者人工确定典型的场景元素对应的词语构成对应的题材典型词库；而送别诗类古诗词大多数涉及路、船、柳、酒器等场景元素，且这些场景元素关联度较高，就可以依据统计结果提取典型的场景元素对应的词语构成对应的题材典型词库，或者人工确定典型的场景元素对应的词语构成对应的题材典型词库。

由于这四类古诗词数量非常多，所以可以分别作为一类建立题材典型词库；而除此之外的其他古诗词类型的场景元素相对不稳定，场景元素的复现度也不是很高，所以将这部分整体作为一类；将现代题材也作为一类。这样后期构建场景时更加具有针对性，场景生成的准确度也更高。

针对于对待测文本利用，可以通过题材细节信息提取模型提取待测文本的题材细节信息。

具体实施方式二：一种场景信息提取方法，包括以下步骤：

步骤2.1、通过计算机对文本进行分段并进行字数检测，确定文本的分词单位；

步骤2.2、利用分词工具对分词单位进行分词；

具体实施方式三：本实施方式为一种场景信息提取方法，本实施方式中步骤2.1所述确定文本的分词单位的过程包括以下步骤：

例如，文本为“静夜思”，其内容为“床前明月光，疑是地上霜。举头望明月，低头思故乡。”经过比对，其符合五言绝句的段落和字数标准，所以将其整体作为一个分词单位。如果是词，可以按照词牌的段落和字数标准进行。

其他步骤与具体实施方式二相同。

具体实施方式四：一种场景信息相关度的确定方法，包括以下步骤：

所述场景字典库为场景词构成的字典，每个场景词在场景模型素材库中都有对应的模型素材；这样能够保证场景重建时都能够找到对应的重建模型；

步骤3.5、将特征词基础集合中的每两个词作为相关词语对，统计每组相关词语对中两个词共同出现在同一分词单位中的概率，并将每组相关词语对中两个词按照统计概率进行排序，并按照统计概率排序确定相关词语对中两个词的相关度；并按照相关度，将对应的相关词语对分为不同的相关度词语对集合。

具体实施方式五：本实施方式为一种场景信息相关度的确定方法，本实施方式中的步骤3.5的具体实现过程包括以下步骤：

设定概数变量I，并初始化I＝0；

针对特征词基础集合中的每两个词都按照上述过程进行统计，得到所有相关词语对Dij的统计概率Pij，并相关词语对Dij和统计概率Pij按照统计概率Pij的由大到小进行排序(概率相同，相关词语对Dij排序任意，顺序先后并无影响)；

将小于第二阈值Q2对应的相关词语对Dij作为无相关度。

其他步骤与具体实施方式四相同。

具体实施方式六：结合图1说明本实施方式，

基于信息提取的场景生成方法，包括以下步骤：

步骤一、通过计算机对待测文本进行分段并进行字数检测，确定待测文本的分词单位和体裁分类信息；然后进行分词，之后进行词性标记，将词性标注为名词的词语作为特征词，并构成分词单位特征词集；

所述确定待测文本的分词单位和体裁分类信息的过程为：

对待测文本进行分段并进行字数检测，判断文本的句数、段落和字数是否符合以下类型：如果符合绝句的段落及字数要求，则将其整体作为一个分词单位；对应的体裁分类信息为绝句；如果符合律诗的段落及字数要求，则将其整体作为一个分词单位；对应的体裁分类信息为律诗；如果符合长篇诗的段落及字数要求，则将两句作为一段，构成一个分词单位；对应的体裁分类信息为长篇诗；如果符合词牌名的段落及字数要求，则将一段作为一个分词单位；对应的体裁分类信息为词；如果不符合以上类型的段落及字数要求，将每段作为一个分词单位；对应的体裁分类信息为其他类。

步骤二、将待测文本分词单位对应的分词单位特征词集输入具体实施方式一所述一种题材细节信息提取模型的建立方法建立的题材细节信息提取模型，得到待测文本的分词单位的题材细节信息和对应的题材典型词库；

步骤三、按照具体实施方式二或三所述一种场景信息提取方法提取待测文本的分词单位对应的场景信息提取词；

步骤四、将步骤二提取的场景信息提取词与具体实施方式五所述一种场景信息相关度的确定方法确定的不同的相关度词语对集合的每个相关词语对中的每个词语进行比对，并确定场景信息提取词的强相关度词集合和中相关度词集合；

判断分词单位的最终相关词集合与分词单位对应的题材典型词库是否存在交集，即最终相关词集合中的词与题材典型词库中的词是否存在相同的词；并提取交集对应的词为扩充场景词；

场景模型素材库为构建场景模型所需要的素材所构成的数据库。场景模型素材库中的模型素材与场景字典库中的场景词对应，即场景词与模型素材是对应关系。这样能够保证场景重建前是符合场景字典库中的场景词的，进而保证在场景模型素材库中能够找到素材，保证场景的生成成功。

具体实施方式七：本实施方式为基于信息提取的场景生成方法，

步骤一中，在进行词性标记，构成分词单位特征词集的同时，判断词性标注为动词的词语后面的词是否为名词，如果为名词，则将该动词以及动词后面的名词构成的动宾短语一起存入动宾短语集合；如果并无动词，或者动词后并无名词，则动宾短语集合为空；

在步骤六中，所述实现场景生成的具体过程包括以下步骤：

所述场景模型素材库包括自然物体模型库、自然天气模型库、植物模型库、动物模型库、建筑交通器物模型库、生活器物模型库、人物模型库，但不限于这些素材库(可以随着使用逐渐更新、补充素材库)：

所述自然物体模型库是指对大自然界的自然物体模型素材组成的模型库，包括：

自然物类：天空、太阳、月亮、云、霞等；自然物类中的每个称谓下包含多个模型，如“太阳”实际包括：朝阳模型、烈日模型、夕阳模型等；“月亮”实际包括：弦月模型、满月模型等；“云”包括：层云模型、乌云模型等；实际建模的数量可以根据开发需要和标准而定，如果要求的标准比较高，模型就需要相对多，但是实际上针对于诗词、小说、散文等建模主要是反映意境，并不需要很精细的模型，仅仅建立几个区别比较大的模型即可，并不需要很全，例如：针对于月亮的模型中，仅仅建立弦月模型、满月模型实际上就能够满足大部分诗词或散文的情况，并不需要建立“新月模型”、“上弦月模型”、“下弦月模型”等更多、更加具体的模型；同样，针对于云模型而言，层云模型、乌云模型实际上也能够满足大部分诗词或散文的情况，而无需建立高积云模型、层积云模型等更多、更加具体的模型；这样不仅能够满足几乎所有情况的模型生成需求，而且模型较少，则模型素材建立过程中节省了时间、人力、物力，同时也能够节省模型匹配的时间、提高效率，从而减少模型生成的时间。针对于后面的山、水，以及其他模型库中的模型，上述说明同样适用于其他模型的建立过程，就不再具体说明。

每个模型的名称可以为场景词，具体的建模数据内容为模型素材，如“朝阳模型”的“朝阳”为场景词，场景词也可以是其他场景词，然后与模型的编码或ID建立对应关系，如“朝阳”与模型sun 01对应。

山类：连山(远景的连绵起伏的山，自带山上附带的森林树木)、孤峰峭壁(自带峭壁树木)、戈壁丘陵(自带戈壁的砂石)等；

水类：江河、湖泊、海、瀑布等；

之所以要将山和水单独成类，是因为古诗词中有一部分有山、水元素，出现概率高，所以单独列出，并准备模型素材；

所述自然天气模型库是指天气模型素材组成的模型库，包括：

雨类(出现概率高，单独成类)：小雨、中雨、暴雨等；

雪类(出现概率高，单独成类)：小雪、大雪等；

非雨雪类；雾气、彩虹、闪电等；

所述植物模型库是指植物模型素材组成的模型库，包括：

花类(出现概率高，单独成类)：梅花、桃花、梨花、莲、菊、兰、牡丹等；

树类(出现概率高，单独成类)：松、柏、竹、柳、枫等；

其他植物类(主要指非树、花植物)：禾、稻、草、芦苇、水草等；

所述动物模型库是指动物模型素材组成的模型库，包括：

鸟类(出现概率高，单独成类)：燕子、大雁、乌鸦等；

其他动物类：蝴蝶、蜻蜓、马、牛、鸡、狗、鸭、鹅、猪等；

所述建筑交通器物模型库是指人类生活中的建筑和交通物品模型素材组成的模型库，包括：

建筑类：路(包括土路和现代公路等各种路的模型，土路一般出现在古诗词中，现代公路一定出现在现代诗歌中或散文、小说中)、桥(包括古式桥和现代桥等各种桥的模型，古式桥一般出现在古诗词中，现代桥一定出现在现代诗歌中或散文、小说中)、亭子、塔、篱笆、墙体、门、院子、酒肆、房屋(包括茅草房、古建筑砖房、现代平房、楼房等，茅草房、古建筑砖房一般出现在古诗词中，现代平房、楼房一定出现在现代诗歌中或散文、小说中；同时针对房屋有屋外视角的房屋模型，还有屋内视角的模型)等；

交通工具类：马车、民船、战船等；

所述生活器物模型库是指人类日常生活用品模型素材组成的模型库，包括：

酒器类：酒杯、酒壶等；

民用物品类：窗(包括开状态和关状态)、床、珠帘、罗幔、灯火、炉、烛、蓑衣等；

所述人物模型库是指人物模型素材组成的模型库，包括：

个体人物大类：

布衣人物小类：农民(农夫着装)、商人(商贾着装)、渔民(渔人着装)、文人(文人着装)、浣女等；

盔甲人物小类：将军(着盔甲、骑战马、佩兵器)、士兵(着盔甲、无战马、持兵器)等；

群体人物大类：行进队伍、歌舞群体、行市人群等；

建立上述素材库的过程中，每种素材可以有多种模型，包括古代素材体现的模型和现代素材的模型(带有古代或现代的年代属性信息)，然后针对分词单位对应的体裁，有针对性的根据特征词确定年代属性信息，并选取素材模型。实际上，由于场景模型素材一定是出现在古诗词中，比如酒肆、浣女等；有些场景模型素材一定是出现在现代诗歌中或散文、小说中，比如现代桥、楼房等；有些场景模型素材是可以通用的，比如海、雨、雪等。所以可以分别建立现代素材库、古代素材库以及通用素材库，每个库中在针对上述类别进行分类，在场景建模时对应选取对应素材库中的素材。

步骤六二、如果匹配成功的模型素材中不存在除了酒器以外的生活器物模型库中的人类日常生活用品模型素材，则利用VR显示技术按照以下模型加载顺序进行加载，然后进行模型渲染，实现场景的生成；

所述的模型加载顺序为：

(1)加载自然物体模型库中的自然物体模型素材；

(2)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(3)加载植物模型库中的植物模型素材；

(4)加载天气模型库中的天气模型；

(5)加载动物模型库中的动物模型素材；

(6)加载人物模型库中的人物模型素材；

(7)加载生活器物模型库中的酒器模型素材；

针对上述的模型加载顺序而言，如果匹配成功的模型素材中不存在对应的模型素材，直接跳过不存在的模型素材对应的加载步骤，直接进行下一加载步骤；例如：匹配成功的模型素材中不存在天气模型库中的天气模型和动物模型库中的动物模型素材，那么就直接跳过步骤(4)和步骤(5)，即加载顺序为(1)-(2)-(3)-(6)-(7)。

上述状况基本上都是针对单一的户外的场景，所以可以根据模型的加载比例按照加载顺序直接加载。

如果匹配成功的模型素材中只存在生活器物模型库中的人类日常生活用品模型素材，则利用VR显示技术直接加载生活器物模型库中的人类日常生活用品模型素材，然后进行模型渲染，实现场景的生成；

上述状况基本上都是针对单一的户内的场景，所以可以根据模型的加载比例直接加载。

如果匹配成功的模型素材中存在除了酒器以外的生活器物模型库中的人类日常生活用品模型素材，还存在除了生活器物模型库以外的其他场景模型素材库中的模型素材，则利用VR显示技术按照以下模型加载顺序进行加载，然后进行模型渲染，实现场景的生成；

所述的模型加载顺序为：

(a)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(c)加载人物模型库中的人物模型素材；

(d)加载动物模型库中的动物模型素材；

(e)在窗模型素材所对应的窗口范围内加载以下模型素材：

(e1)加载自然物体模型库中的自然物体模型素材；

(e2)加载植物模型库中的植物模型素材；

(e3)加载天气模型库中的天气模型；

上述状况基本上都是针对户内场景和户外场景，这种场景布局下，一般是户内场景为主要场景，户外场景为次要场景，主要场景和次要场景的连接纽带基本都是通过窗实现的，所以先加载主要场景，然后在窗模型素材所对应的窗口范围内加载次要场景。这样更加符合实际的场景情况和逻辑，生成的场景也更加准确。

本发明采用先进行模型数据的记载(主要是纹理加载)，当所有模型加载完毕后，针对于每个模型的属性进行渲染。相比加载和渲染同时进行的方式，本发明能够保证渲染的持续进行，避免了间歇渲染的情况，从而一定程度上减少了控制渲染指令的数量，同时保证了指令的高效性，能够提升整体的运行效率，缩短场景生成的时间。同时，由于是先加载，然后针对模型进行渲染，也就是通过分局部渲染实现整个场面的渲染，这样避免了模型记载同时渲染时存在的可能对某个局部区域进行反复覆盖渲染的可能性，一定程度上减少了渲染的工作量，提升渲染效率，从而能够进一步缩短场景生成的时间。尤其是针对VR设备的显示而言，上述过程能够有效的适用于VR显示技术，控制整体的场景生成时间。这里还要说明的是，本发明不仅能够通过VR显示技术在VR设备中进行场景生成，针对与其他显示设备，只要通过相应设备的显示技术，按照本发明的过程同样能够实现场景生成。

其他步骤的具体过程与具体实施方式六相同。

具体实施方式八：本实施方式为基于信息提取的场景生成方法，本实施方式中，步骤四所述确定场景信息提取词的强相关度词集合和中相关度词集合的具体过程包括以下步骤：

其他步骤的具体过程与具体实施方式六或七相同。

具体实施方式九：一种用于存储基于信息提取的场景生成系统的存储介质，所述存储介质存储有基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为具体实施方式六、七或八所述的基于信息提取的场景生成方法对应的程序。

具体实施方式十：一种用于运行基于信息提取的场景生成系统的计算机，所述计算机用于运行基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为具体实施方式六、七或八所述的基于信息提取的场景生成方法对应的程序；即所述计算机用于执行具体实施方式六、七或八所述的基于信息提取的场景生成方法。

Claims

1.基于信息提取的场景生成方法，其特征在于，包括以下步骤：

步骤二、将待测文本分词单位对应的分词单位特征词集输入题材细节信息提取模型，得到待测文本的分词单位的题材细节信息和对应的题材典型词库；

所述题材细节信息提取模型的建立过程包括以下步骤：

每类题材细节信息的类型分别对应有题材典型词库；

将体裁模型数据集分为训练集和测试集合；构建神经网络，利用训练集和测试集合训练测试神经网络，得到训练好的神经网络模型，即题材细节信息提取模型；

步骤三、提取待测文本的分词单位对应的场景信息提取词，包括以下步骤：

步骤2.2、利用分词工具对分词单位进行分词；

将分词单位对应的分词单位特征词集中剩下的词作为分词单位对应的场景信息提取词；

步骤四、将步骤二提取的场景信息提取词与不同的相关度词语对集合的每个相关词语对中的每个词语进行比对，并确定场景信息提取词的强相关度词集合和中相关度词集合；

不同的相关度词语对集合的确定过程包括以下步骤：

步骤3.5、将特征词基础集合中的每两个词作为相关词语对，统计每组相关词语对中两个词共同出现在同一分词单位中的概率，并将每组相关词语对中两个词按照统计概率进行排序，并按照统计概率排序确定相关词语对中两个词的相关度；并按照相关度，将对应的相关词语对分为不同的相关度词语对集合；所述步骤3.5的具体实现过程包括以下步骤：

设定概数变量I，并初始化I＝0；

将小于第二阈值Q2对应的相关词语对Dij作为无相关度；

2.根据权利要求1所述的基于信息提取的场景生成方法，其特征在于，

在步骤六中，所述实现场景生成的具体过程包括以下步骤：

所述自然天气模型库是指天气模型素材组成的模型库；

所述植物模型库是指植物模型素材组成的模型库；

所述动物模型库是指动物模型素材组成的模型库；

所述人物模型库是指人物模型素材组成的模型库；

所述的模型加载顺序为：

(1)加载自然物体模型库中的自然物体模型素材；

(2)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(3)加载植物模型库中的植物模型素材；

(4)加载天气模型库中的天气模型；

(5)加载动物模型库中的动物模型素材；

(6)加载人物模型库中的人物模型素材；

(7)加载生活器物模型库中的酒器模型素材；

所述的模型加载顺序为：

(a)加载建筑交通器物模型库中的建筑和交通物品模型素材；

(c)加载人物模型库中的人物模型素材；

(d)加载动物模型库中的动物模型素材；

(e)在窗模型素材所对应的窗口范围内加载以下模型素材：

(e1)加载自然物体模型库中的自然物体模型素材；

(e2)加载植物模型库中的植物模型素材；

(e3)加载天气模型库中的天气模型；

3.根据权利要求1或2所述的基于信息提取的场景生成方法，其特征在于，步骤四所述确定场景信息提取词的强相关度词集合和中相关度词集合的具体过程包括以下步骤：

步骤四二、针对无强相关度词的场景信息提取词，与中相关度词语对集合中的每个词进行比对，当场景信息提取词与中相关度词语对集合中的一个词相同时，将中相关度词语对集合中的一个词对应的相关词语对中的另一个词语作为场景信息提取词的中相关度词；

4.一种用于存储基于信息提取的场景生成系统的存储介质，其特征在于，所述存储介质存储有基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为权利要求1、2或3所述的基于信息提取的场景生成方法对应的程序。

5.一种用于运行基于信息提取的场景生成系统的计算机，其特征在于，所述计算机用于运行基于信息提取的场景生成系统，所述基于信息提取的场景生成系统为权利要求1、2或3所述的基于信息提取的场景生成方法对应的程序；即所述计算机用于执行权利要求1、2或3所述的基于信息提取的场景生成方法。