CN115408488A

CN115408488A - 用于小说场景文本的分割方法及系统

Info

Publication number: CN115408488A
Application number: CN202211020489.XA
Authority: CN
Inventors: 吴国华; 王冲; 王玉娟; 张祯; 袁理锋; 王秋华; 毛宗庆
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-29

Abstract

本发明属于自然语言处理技术领域，具体涉及用于小说场景文本的分割方法及系统。方法包括如下步骤S1，场景实体提取模型训练；S2，场景分割策略配置；S3，段落对象集合初始化；S4，场景实体提取；S5，场景边界确定；S6，场景抽取；S7，剧幕生成；S8，结束判定。本发明具有能够解决人工改编剧本耗时长、场景不一致的问题，且大幅降低进一步改编工作量的特点。

Description

用于小说场景文本的分割方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及用于小说场景文本的分割方法及系统。

背景技术

将小说改编成剧本时，需要对拟改编小说中的素材进行整理提炼，最后形成特定结构的剧本。剧本一般以场景为故事单元进行组织，场景是在一段相对联系的物理时间内，发生在同一空间范围内的情节，场景要素分散在小说内容中，主要包含地点、时间、人物、对白等信息。

在场景文本人工编辑方式下，由于编者对场景分割依据存在主观差异，分割结果难以保证一致性，耗时长且效率低，亟需以技术手段辅助进行场景分割。同时，现有场景信息提取技术是以词典匹配方式进行，严重依赖词典，无法识别出词典未定义的信息。

因此，设计一种能够解决人工改编剧本耗时长、场景不一致的问题，且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统，就显得十分重要。

例如，申请号为CN201911201695.9的中国专利文献描述的基于中文小说文本的阅读器信息抽取方法和系统。阅读器信息抽取方法将需要提取关键词的文本分割成以单词为粒度和以汉字为粒度的文本，并分别转换为词向量和字向量，采用向量训练神经网络，并结合注意力机制提取文本特征，根据文本特征的预测结果完成信息抽取。虽然采用字向量和词向量两种粒度的文本表示方法，将两种粒度的向量表示方法同时应用在注意力机制模型中，并结合二者的预测结果，提高相关任务的信息提取准确性，帮助读者理解文本内容，利用自然语言处理算法，满足读者需要回顾前面章节的需求，提升用户体验，但是其缺点在于，无法用于对小说场景文本进行分割，仍然难以解决人工改编剧本耗时长、场景不一致的问题。

发明内容

本发明是为了克服现有技术中，现有的场景文本人工编辑方式，存在人工改编剧本耗时长、场景不一致，且改编工作量大的问题，提供了一种能够解决人工改编剧本耗时长、场景不一致的问题，且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

用于小说场景文本的分割方法，包括如下步骤：

S1，场景实体提取模型训练：

获取不同类别小说文本，制作训练数据集，训练场景实体提取模型；

S2，场景分割策略配置：

配置场景分割策略，获取对应的分割依据特征值；

S3，段落对象集合初始化：

遍历小说文本，初始化段落对象集合；

S4，场景实体提取：

遍历小说文本，提取小说的场景实体集合，更新段落对象集合；

S5，场景边界确定：

根据段落对象集合确定场景的边界，得到边界点索引值；

S6，场景抽取：

根据边界点索引值以及段落对象集合，抽取对应的原始段落文本与全文段落索引，生成场景原文，并更新段落对象集合；

S7，剧幕生成：

将场景原文进行结构化，生成剧幕场景脚本；

S8，结束判定：

判断是否完成全部场景抽取，若是，则输出全部剧幕场景脚本，否则返回步骤S4。

作为优选，步骤S1包括如下步骤：

S11，获取不同类别小说文本，制作训练数据集，对小说中的对象进行BIO标注，其中B代表场景实体的开头字符，I代表场景实体的中间或结尾字符，O代表不属于场景实体的字符；

S12，根据训练数据集，训练基于机器学习的场景实体提取模型，用于自动识别输入文本中的场景实体。

作为优选，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为对白；

所述对白为小说文本中包含双引号或冒号的完整句子；

S22，设置分割依据特征值为双引号和冒号。

作为优选，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为人物；

S22，设置分割依据特征值为小说中人物，即检测文本段落中是否含有人物及关联特征信息。

作为优选，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为地点；

S22，设置分割依据特征值为小说中地点信息，即检测文本段落中是否含有地点及关联特征信息。

作为优选，步骤S3包括如下步骤：

S31，小说文本预处理：

所述预处理包括索引标注、符号处理、分词、去停用词、场次计数器初始化；

S32，段落对象初始化：

初始化段落对象集合，将预处理里后的文本段落及对应的全文段落索引值存储到段落对象；

S33，分割依据特征值检测：

判断小说文本中是否含有分割依据特征值，并更新段落对象中对应的分割特征标志；

所述分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。

作为优选，步骤S5包括如下步骤：

S51，场景相似度计算：

根据分割依据特征值选取段落对象，并依次计算各个段落对象的场景实体集合相似度；

S52，场景边界判定：

通过比较步骤S51中获得的相似度值与设定阈值的大小，判定是否为场景边界；若判断结果为是，记录边界点索引值。

作为优选，步骤S5中所述场景边界包括场景起点和场景终点。

作为优选，步骤S7中所述剧幕场景脚本包括场次、场景实体以及场景原文。

本发明还提供了用于小说场景文本的分割系统，包括：

场景实体提取模型训练模块，用于获取不同类别小说文本，制作训练数据集，训练场景实体提取模型；

策略配置模块，用于配置场景分割策略，获取对应的分割依据特征值；

段落对象初始化模块，用于遍历小说文本，初始化段落对象集合；

场景实体提取模块，用于遍历小说文本，提取小说的场景实体集合，更新段落对象集合；

场景边界确定模块，用于根据段落对象集合确定场景的边界，得到边界点索引值；

场景抽取模块，用于根据边界点索引值以及段落对象集合，抽取对应的原始段落文本与全文段落索引，生成场景原文，并更新段落对象集合；

剧幕生成模块，用于将场景原文进行结构化，生成剧幕场景脚本；

数据库模块，用于存储小说文本训练数据集和拟改编小说文本数据。

本发明与现有技术相比，有益效果是：(1)本发明提出一种以机器学习技术辅助进行小说场景分割的方法和系统，解决人工改编剧本耗时长、场景不一致的问题，大幅降低进一步改编的工作量；(2)本发明提取小说文本段落中的场景实体，并构建段落对象集合；配置场景分割策略；选取场景实体并计算其相似度；完成小说场景分割，输出场景原文；进行结构化，生成剧幕场景脚本；(3)本发明提出一种配置场景分割策略的方法，用以确定场景分割依据特征值，并根据场景分割依据特征值，采用不同的算法模型，对小说文本进行分割；本发明所述场景分割策略包括但不限于以对白、人物、地点，及关联特征信息作为分割策略的配置对象。

附图说明

图1为本发明实施例所提供的用于小说场景文本的分割方法的一种流程图；

图2为本发明实施例所提供的用于小说场景文本的分割系统的一种系统构架图；

图3为本发明实施例所提供的场景实体提取模型训练模块的一种构架示意图；

图4为本发明实施例所提供的段落对象初始化模块的一种构架示意图；

图5为本发明实施例所提供的场景实体提取模块的一种构架示意图；

图6为本发明实施例所提供的场景边界确定模块的一种构架示意图；

图7为本发明实施例所提供的场景抽取模块的一种构架示意图；

图8为本发明实施例所提供的用于小说场景文本的分割系统的一种硬件装置示意图；

图9为本发明实施例所提供的用于小说场景文本的分割方法中关键步骤的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

如图1所示，本发明提供了用于小说场景文本的分割方法，包括如下步骤：

步骤(1)，训练基于BERT-BiLSTM-CRF的场景实体提取模型M。

步骤(1)的具体方法是：

步骤(1.1)，获取不同类别小说文本，制作训练数据集。例如：获取玄幻类、奇幻类、武侠类、都市类、科幻类、爱情类、悬疑类小说各20部，并进行BIO标注。标注的对象为小说中的人名、地点、时间、动作；

步骤(1.2)，根据训练数据集，训练基于BERT-BiLSTM-CRF的场景实体提取模型；

步骤(1.2)具体方法是：

步骤(1.2.1)，将标注好的训练数据集经过BERT预训练语言模型获得相应的词向量；

步骤(1.2.2)，将获得的词向量输入到BiLSTM模块进行编码，获取得分矩阵；

步骤(1.2.3)，利用条件随机场CRF模块对得分矩阵进行解码，得到一个预测标注序列，然后对序列中的各个实体进行提取分类；最终获得场景实体提取模型M。

步骤(2)，场景分割策略配置。配置场景分割策略，获取对应的分割依据特征值。本发明实施例所述例子，以“对白”作为场景分割策略，但本发明所述方法不限于以“对白”作为分割依据，而是通过配置不同的场景分割策略规则确定不同分割依据特征值。本发明实施例所述“对白”为小说中包含双引号或冒号的完整句子；具体方法为：

步骤(2.1)，配置场景分隔策略规则为对白；

步骤(2.2)，设置分割依据特征值为双引号和冒号。

除对白外，如分割策略为人物，则分割依据特征值为小说中人物，即检测文本段落中是否含有人物及关联特征信息；如分割策略为地点，则分割依据特征值为小说中地点信息；即检测文本段落中是否含有地点及关联特征信息。

步骤(3)，构建小说中的段落对象集合。

步骤(3)的具体方法是：

步骤(3.1)，对拟改编小说文本进行预处理，所诉预处理包括索引标注、符号处理、分词、去停用词、初始化场次计数器count＝1；得到小说文本段落集合P＝{p₁,p₂,...,p_m}，集合中的元素p_i(1≤i≤m)为小说文本中的文本段落，表示小说文本中的第i段，m表示小说文本的总自然段数量。

步骤(3.2)初始化段落对象集合O＝{o₁,o₂,...,o_m},集合中的元素o_i(1≤i≤m)为小说文本第i段所对应的段落对象，该对象包含idx、text、flag、scenes属性，分别代表文本段落的全文段落索引、段落文本、分割特征标志以及场景实体集合；并将p_i赋值给text属性，i赋值给idx属性；

步骤(3.3)，分割依据特征值检测，遍历小说文本段落集合P，判断小说文本段落中是否含有分割依据特征值。在本实施例中，为检测小说文本段落是否含有双引号和冒号；如果是，则将句子所在段落的对应段落对象o_i中flag属性设为1，否则设为0；并将o_i存入段落对象子集

其中，分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。

步骤(4)，提取场景实体。

步骤(4)的具体方法是：

步骤(4.1)，依次将集合P中的段落元素p_i输入场景实体提取模型M，得到对应的场景实体集合，并更新段落对象，将该场景实体集合赋值给对应的段落对象o_i的scenes属性。

步骤(5)，确定一个场景的边界，场景边界包括场景起点与场景终点。本发明实施例以对白作为分割场景依据，确定场景边界，实际应用中还可以根据分割策略配置的规则，使用其他分割场景依据，并根据相应的特征，采用不同的算法模型。

步骤(5)的具体方法是：

步骤(5.1)，场景起点初始化。选取第一个对白所在段落作为场景起点，即从段落对象集合O中选取第一个flag属性值为1的段落对象，记为场景起点段落对象o_s，并记其对应的属性值为idx_s、text_s、flag_s、scenes_s；

步骤(5.2)，上文场景检索。根据o_s，反向检索段落对象集合O，获取段落对象o_(s-1)中的场景实体集合scenes_(s-1)；

步骤(5.3)，场景相似度计算。计算场景实体集合scenes_(s-1)与scenes_s的相似度值。具体方法如下：

步骤(5.3.1)，场景实体向量化。使用Wor2vec技术将场景实体集合scenes_(s-1)与scenes_s转化为特征向量；得到各自的d维元素特征向量V^′＝{v₁ ^′,v₂ ^′,...,v^′ _d}，V＝{v₁,v₂,...,v_d}；

步骤(5.3.2)，计算相似度值。计算场景实体集合scenes_(s-1)与scenes_s的相似度Sim(scenes_(s-1),scenes_s)，所述相似度值可以通过计算余弦距离得到；其中Sim(scenes_(s-1),scenes_s)的计算公式为：

其中，v_x和v_x ^′为特征向量V与V^′中第x个元素，d是特征向量V^′和V的维度。

步骤(5.4)，边界判定。比较相似度值Sim(scenes_(s-1),scenes_s)与阈值T的大小关系，若Sim(scenes_(s-1),scenes_s)>T，则o_s不是场景起点段落对象，更新场景起点段落对象，使o_s＝o_(s-1)，重复步骤(5.2)，直到s<0；否则o_s是场景起点段落对象；其中，阈值T的计算公式为：

其中u为段落对象子集D的长度，scenes₁为D中第一个段落对象的场景实体集合，scenes_p为D中对应的段落对象场景实体集合；

步骤(5.5)，场景起点确认。记录场景起点段落对象o_s中的idx属性值idx_s；

步骤(5.6)，场景终点初始化。选举第一个连续对白段落的最后一段为场景终点，记该段落对应的场景终点段落对象为o_e,并记其对应的属性值为idx_e、text_e、flag_e、scenes_e；

步骤(5.7)，下文场景检索，根据o_e，反向检索段落对象集合O，获取段落对象o_(e+1)中的场景实体集合scenes_(e+1)；

步骤(5.8)，计算相似度值。计算场景实体集合scenes_(e+1)与scenes_e的相似度值Sim(scenes_(e+1),scenes_e)。计算方法如步骤(5.3)所述。

步骤(5.9)，边界判定。比较相似度值Sim(scenes_(e+1),scenes_e)与阈值T的大小关系，若Sim(scenes_(e+1),scenes_e)>T，则o_e不是场景终点段落对象，更新场景终点段落对象，使o_e＝o_(e+1)，重复步骤(5.7)，直到e>m；否则o_e是场景终点段落对象；

步骤(5.10)，场景终点确认。记录场景终点段落对象o_e中的idx属性值idx_e；

步骤(6)场景抽取。根据上述步骤确认的边界点索引值idx_s与idx_e，抽取对应段落对象集合中的原始段落文本，即抽取出场景原文段落

保存为场景原文；同时，保存场次计数器count以及对应段落对象的场景实体

更新段落对象集合O以及段落对象子集D，删去抽取出的对应段落对象；最后更新场次计数器使count＝count+1；

步骤(7)，剧幕生成。将场景原文进行结构化，生成剧幕场景脚本；

步骤(8)，结束判定。判断是否对小说文本中的场景完成全部抽取，即段落对象集合O是否为空集，是则输出剧幕场景脚本集，否则返回步骤(4)；

步骤(9)，将剧幕场景脚本集发送回客户端。

如图2所示，本发明还提供了用于小说场景文本的分割系统，具体包括场景实体提取模型训练模块、策略配置模块、段落对象初始化模块、场景实体提取模块、场景边界确定模块、场景抽取模块、剧幕生成模块、数据库模块。

场景实体提取模型训练模块，如图3所示，用于训练场景实体提取模型；获取一定数量的不同类别小说，制作训练数据集，并进行BIO标注。再使用训练数据集进行训练；训练数据集经过BERT预训练语言模型获得相应的词向量；将词向量输入到BiLSTM模块进行编码，获取得分矩阵；再利用条件随机场CRF模块对得分矩阵进行解码，得到一个预测标注序列,然后对序列中的各个实体进行提取分类,最终获得场景实体提取模型M。

策略配置模块，用于配置场景分割策略，获取对应的分割依据。

段落对象初始化模块，如图4所示，用于获取小说中的段落对象；对拟改编小说文本进行预处理，生成预处理后的小说文本段落，然后初始化段落对象，保存文本段落及其对应的全文段落索引值，再经过分割依据特征值检测，更新段落对象中对应的分割特征标志；最后输出段落对象以及预处理后的小说文本段落；

场景实体提取模块，如图5所示，用于根据输入的文本段落，经由场景实体提取模型，进行场景实体提取，生成场景实体集合，并更新段落对象，更新段落对象集合并输出；

场景边界确定模块，如图6所示，根据输入的段落对象集合确定场景边界，场景边界包括场景起点与场景终点，经过边界点初始化、上下文场景检索，场景相似度计算、边界判定后，确定边界点，输出边界点索引值；

场景抽取模块，如图7所示，用于场景抽取；通过输入的边界点索引值与段落对象集合，抽取对应的原始段落文本与全文段落索引，生成场景原文；

数据库模块，用于存储小说文本训练数据集、拟改编小说文本等数据。

如图8所示，为本发明的硬件装置图，包括：公网、防火墙、核心交换机、用户端、服务端，其中：

公网：即互联网，用于实现用户端与服务端互联；

防火墙：在用户端与服务端之间构建安全屏障；

用户端：用户操作需要，与公网互联互通，用于与服务端通信；

服务端：用于运行系统、完成用户需求，与公网互通。

如图9所示，为本发明实施例的关键步骤示意图。其中：

小说原始文本经过索引标注后得到索引标注后的小说文本，经由场景提取模型进行场景提取后，得到场景实体集合，最后经过一些列处理得到最后的剧幕场景脚本集。

另外，本发明中所述场景边界包括场景起点和场景终点。所述剧幕场景脚本包括场次、场景实体以及场景原文。

本发明使用命名实体识别技术，构建小说文本训练数据集，训练场景实体提取模型；配置场景分割策略，并确定场景分割依据特征值；提取小说文本段落中的场景实体，并构建段落对象集合；选取场景实体并计算其相似度；完成小说场景分割，输出场景原文，结构化为剧幕场景脚本。所述场景实体为小说中出现的人名、地点、时间、动作；所述场景实体提取模型能自动识别输入文本中的场景实体；所述段落对象包含全文段落索引，原始段落文本，分割特征标志、场景实体集合；所述场景分割策略是确定场景分割依据特征值的方法和规则，如分割策略为对白，则分割依据特征值为双引号或冒号，即检测文本段落是否含有双引号或冒号；如分割策略为人物，则分割依据特征值为小说中人物，即检测文本段落中是否含有人物及关联特征信息；如分割策略为地点，则分割依据特征值为小说中地点信息；即检测文本段落中是否含有地点及关联特征信息；分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值；所述场景原文为小说中属于同一个场景的原始文本；所述剧幕场景脚本包含场次、场景实体以及场景原文。

本发明提出一种以机器学习技术辅助进行小说场景分割的方法和系统，解决人工改编剧本耗时长、场景不一致的问题，大幅降低进一步改编的工作量；本发明提取小说文本段落中的场景实体，并构建段落对象集合；配置场景分割策略；选取场景实体并计算其相似度；完成小说场景分割，输出场景原文；进行结构化，生成剧幕场景脚本；本发明提出一种配置场景分割策略的方法，用以确定场景分割依据特征值，并根据场景分割依据特征值，采用不同的算法模型，对小说文本进行分割；本发明所述场景分割策略包括但不限于以对白、人物、地点，及关联特征信息作为分割策略的配置对象。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.用于小说场景文本的分割方法，其特征在于，包括如下步骤：

S1，场景实体提取模型训练：

S2，场景分割策略配置：

配置场景分割策略，获取对应的分割依据特征值；

S3，段落对象集合初始化：

遍历小说文本，初始化段落对象集合；

S4，场景实体提取：

S5，场景边界确定：

根据段落对象集合确定场景的边界，得到边界点索引值；

S6，场景抽取：

S7，剧幕生成：

将场景原文进行结构化，生成剧幕场景脚本；

S8，结束判定：

2.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S1包括如下步骤：

3.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为对白；

所述对白为小说文本中包含双引号或冒号的完整句子；

S22，设置分割依据特征值为双引号和冒号。

4.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为人物；

5.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S2包括如下步骤：

S21，配置场景分隔策略规则为地点；

6.根据权利要求2所述的用于小说场景文本的分割方法，其特征在于，步骤S3包括如下步骤：

S31，小说文本预处理：

S32，段落对象初始化：

S33，分割依据特征值检测：

7.根据权利要求6所述的用于小说场景文本的分割方法，其特征在于，步骤S5包括如下步骤：

S51，场景相似度计算：

S52，场景边界判定：

8.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S5中所述场景边界包括场景起点和场景终点。

9.根据权利要求1所述的用于小说场景文本的分割方法，其特征在于，步骤S7中所述剧幕场景脚本包括场次、场景实体以及场景原文。

10.用于小说场景文本的分割系统，其特征在于，包括：