CN115408488A - 用于小说场景文本的分割方法及系统 - Google Patents

用于小说场景文本的分割方法及系统 Download PDF

Info

Publication number
CN115408488A
CN115408488A CN202211020489.XA CN202211020489A CN115408488A CN 115408488 A CN115408488 A CN 115408488A CN 202211020489 A CN202211020489 A CN 202211020489A CN 115408488 A CN115408488 A CN 115408488A
Authority
CN
China
Prior art keywords
scene
novel
text
paragraph
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211020489.XA
Other languages
English (en)
Inventor
吴国华
王冲
王玉娟
张祯
袁理锋
王秋华
毛宗庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211020489.XA priority Critical patent/CN115408488A/zh
Publication of CN115408488A publication Critical patent/CN115408488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及用于小说场景文本的分割方法及系统。方法包括如下步骤S1,场景实体提取模型训练;S2,场景分割策略配置;S3,段落对象集合初始化;S4,场景实体提取;S5,场景边界确定;S6,场景抽取;S7,剧幕生成;S8,结束判定。本发明具有能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的特点。

Description

用于小说场景文本的分割方法及系统
技术领域
本发明属于自然语言处理技术领域,具体涉及用于小说场景文本的分割方法及系统。
背景技术
将小说改编成剧本时,需要对拟改编小说中的素材进行整理提炼,最后形成特定结构的剧本。剧本一般以场景为故事单元进行组织,场景是在一段相对联系的物理时间内,发生在同一空间范围内的情节,场景要素分散在小说内容中,主要包含地点、时间、人物、对白等信息。
在场景文本人工编辑方式下,由于编者对场景分割依据存在主观差异,分割结果难以保证一致性,耗时长且效率低,亟需以技术手段辅助进行场景分割。同时,现有场景信息提取技术是以词典匹配方式进行,严重依赖词典,无法识别出词典未定义的信息。
因此,设计一种能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统,就显得十分重要。
例如,申请号为CN201911201695.9的中国专利文献描述的基于中文小说文本的阅读器信息抽取方法和系统。阅读器信息抽取方法将需要提取关键词的文本分割成以单词为粒度和以汉字为粒度的文本,并分别转换为词向量和字向量,采用向量训练神经网络,并结合注意力机制提取文本特征,根据文本特征的预测结果完成信息抽取。虽然采用字向量和词向量两种粒度的文本表示方法,将两种粒度的向量表示方法同时应用在注意力机制模型中,并结合二者的预测结果,提高相关任务的信息提取准确性,帮助读者理解文本内容,利用自然语言处理算法,满足读者需要回顾前面章节的需求,提升用户体验,但是其缺点在于,无法用于对小说场景文本进行分割,仍然难以解决人工改编剧本耗时长、场景不一致的问题。
发明内容
本发明是为了克服现有技术中,现有的场景文本人工编辑方式,存在人工改编剧本耗时长、场景不一致,且改编工作量大的问题,提供了一种能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
用于小说场景文本的分割方法,包括如下步骤:
S1,场景实体提取模型训练:
获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
S2,场景分割策略配置:
配置场景分割策略,获取对应的分割依据特征值;
S3,段落对象集合初始化:
遍历小说文本,初始化段落对象集合;
S4,场景实体提取:
遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
S5,场景边界确定:
根据段落对象集合确定场景的边界,得到边界点索引值;
S6,场景抽取:
根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
S7,剧幕生成:
将场景原文进行结构化,生成剧幕场景脚本;
S8,结束判定:
判断是否完成全部场景抽取,若是,则输出全部剧幕场景脚本,否则返回步骤S4。
作为优选,步骤S1包括如下步骤:
S11,获取不同类别小说文本,制作训练数据集,对小说中的对象进行BIO标注,其中B代表场景实体的开头字符,I代表场景实体的中间或结尾字符,O代表不属于场景实体的字符;
S12,根据训练数据集,训练基于机器学习的场景实体提取模型,用于自动识别输入文本中的场景实体。
作为优选,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为对白;
所述对白为小说文本中包含双引号或冒号的完整句子;
S22,设置分割依据特征值为双引号和冒号。
作为优选,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为人物;
S22,设置分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息。
作为优选,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为地点;
S22,设置分割依据特征值为小说中地点信息,即检测文本段落中是否含有地点及关联特征信息。
作为优选,步骤S3包括如下步骤:
S31,小说文本预处理:
所述预处理包括索引标注、符号处理、分词、去停用词、场次计数器初始化;
S32,段落对象初始化:
初始化段落对象集合,将预处理里后的文本段落及对应的全文段落索引值存储到段落对象;
S33,分割依据特征值检测:
判断小说文本中是否含有分割依据特征值,并更新段落对象中对应的分割特征标志;
所述分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。
作为优选,步骤S5包括如下步骤:
S51,场景相似度计算:
根据分割依据特征值选取段落对象,并依次计算各个段落对象的场景实体集合相似度;
S52,场景边界判定:
通过比较步骤S51中获得的相似度值与设定阈值的大小,判定是否为场景边界;若判断结果为是,记录边界点索引值。
作为优选,步骤S5中所述场景边界包括场景起点和场景终点。
作为优选,步骤S7中所述剧幕场景脚本包括场次、场景实体以及场景原文。
本发明还提供了用于小说场景文本的分割系统,包括:
场景实体提取模型训练模块,用于获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
策略配置模块,用于配置场景分割策略,获取对应的分割依据特征值;
段落对象初始化模块,用于遍历小说文本,初始化段落对象集合;
场景实体提取模块,用于遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
场景边界确定模块,用于根据段落对象集合确定场景的边界,得到边界点索引值;
场景抽取模块,用于根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
剧幕生成模块,用于将场景原文进行结构化,生成剧幕场景脚本;
数据库模块,用于存储小说文本训练数据集和拟改编小说文本数据。
本发明与现有技术相比,有益效果是:(1)本发明提出一种以机器学习技术辅助进行小说场景分割的方法和系统,解决人工改编剧本耗时长、场景不一致的问题,大幅降低进一步改编的工作量;(2)本发明提取小说文本段落中的场景实体,并构建段落对象集合;配置场景分割策略;选取场景实体并计算其相似度;完成小说场景分割,输出场景原文;进行结构化,生成剧幕场景脚本;(3)本发明提出一种配置场景分割策略的方法,用以确定场景分割依据特征值,并根据场景分割依据特征值,采用不同的算法模型,对小说文本进行分割;本发明所述场景分割策略包括但不限于以对白、人物、地点,及关联特征信息作为分割策略的配置对象。
附图说明
图1为本发明实施例所提供的用于小说场景文本的分割方法的一种流程图;
图2为本发明实施例所提供的用于小说场景文本的分割系统的一种系统构架图;
图3为本发明实施例所提供的场景实体提取模型训练模块的一种构架示意图;
图4为本发明实施例所提供的段落对象初始化模块的一种构架示意图;
图5为本发明实施例所提供的场景实体提取模块的一种构架示意图;
图6为本发明实施例所提供的场景边界确定模块的一种构架示意图;
图7为本发明实施例所提供的场景抽取模块的一种构架示意图;
图8为本发明实施例所提供的用于小说场景文本的分割系统的一种硬件装置示意图;
图9为本发明实施例所提供的用于小说场景文本的分割方法中关键步骤的一种示意图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:
如图1所示,本发明提供了用于小说场景文本的分割方法,包括如下步骤:
步骤(1),训练基于BERT-BiLSTM-CRF的场景实体提取模型M。
步骤(1)的具体方法是:
步骤(1.1),获取不同类别小说文本,制作训练数据集。例如:获取玄幻类、奇幻类、武侠类、都市类、科幻类、爱情类、悬疑类小说各20部,并进行BIO标注。标注的对象为小说中的人名、地点、时间、动作;
步骤(1.2),根据训练数据集,训练基于BERT-BiLSTM-CRF的场景实体提取模型;
步骤(1.2)具体方法是:
步骤(1.2.1),将标注好的训练数据集经过BERT预训练语言模型获得相应的词向量;
步骤(1.2.2),将获得的词向量输入到BiLSTM模块进行编码,获取得分矩阵;
步骤(1.2.3),利用条件随机场CRF模块对得分矩阵进行解码,得到一个预测标注序列,然后对序列中的各个实体进行提取分类;最终获得场景实体提取模型M。
步骤(2),场景分割策略配置。配置场景分割策略,获取对应的分割依据特征值。本发明实施例所述例子,以“对白”作为场景分割策略,但本发明所述方法不限于以“对白”作为分割依据,而是通过配置不同的场景分割策略规则确定不同分割依据特征值。本发明实施例所述“对白”为小说中包含双引号或冒号的完整句子;具体方法为:
步骤(2.1),配置场景分隔策略规则为对白;
步骤(2.2),设置分割依据特征值为双引号和冒号。
除对白外,如分割策略为人物,则分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息;如分割策略为地点,则分割依据特征值为小说中地点信息;即检测文本段落中是否含有地点及关联特征信息。
步骤(3),构建小说中的段落对象集合。
步骤(3)的具体方法是:
步骤(3.1),对拟改编小说文本进行预处理,所诉预处理包括索引标注、符号处理、分词、去停用词、初始化场次计数器count=1;得到小说文本段落集合P={p1,p2,...,pm},集合中的元素pi(1≤i≤m)为小说文本中的文本段落,表示小说文本中的第i段,m表示小说文本的总自然段数量。
步骤(3.2)初始化段落对象集合O={o1,o2,...,om},集合中的元素oi(1≤i≤m)为小说文本第i段所对应的段落对象,该对象包含idx、text、flag、scenes属性,分别代表文本段落的全文段落索引、段落文本、分割特征标志以及场景实体集合;并将pi赋值给text属性,i赋值给idx属性;
步骤(3.3),分割依据特征值检测,遍历小说文本段落集合P,判断小说文本段落中是否含有分割依据特征值。在本实施例中,为检测小说文本段落是否含有双引号和冒号;如果是,则将句子所在段落的对应段落对象oi中flag属性设为1,否则设为0;并将oi存入段落对象子集
Figure BDA0003813820990000071
其中,分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。
步骤(4),提取场景实体。
步骤(4)的具体方法是:
步骤(4.1),依次将集合P中的段落元素pi输入场景实体提取模型M,得到对应的场景实体集合,并更新段落对象,将该场景实体集合赋值给对应的段落对象oi的scenes属性。
步骤(5),确定一个场景的边界,场景边界包括场景起点与场景终点。本发明实施例以对白作为分割场景依据,确定场景边界,实际应用中还可以根据分割策略配置的规则,使用其他分割场景依据,并根据相应的特征,采用不同的算法模型。
步骤(5)的具体方法是:
步骤(5.1),场景起点初始化。选取第一个对白所在段落作为场景起点,即从段落对象集合O中选取第一个flag属性值为1的段落对象,记为场景起点段落对象os,并记其对应的属性值为idxs、texts、flags、sceness
步骤(5.2),上文场景检索。根据os,反向检索段落对象集合O,获取段落对象o(s-1)中的场景实体集合scenes(s-1)
步骤(5.3),场景相似度计算。计算场景实体集合scenes(s-1)与sceness的相似度值。具体方法如下:
步骤(5.3.1),场景实体向量化。使用Wor2vec技术将场景实体集合scenes(s-1)与sceness转化为特征向量;得到各自的d维元素特征向量V={v1 ,v2 ,...,v d},V={v1,v2,...,vd};
步骤(5.3.2),计算相似度值。计算场景实体集合scenes(s-1)与sceness的相似度Sim(scenes(s-1),sceness),所述相似度值可以通过计算余弦距离得到;其中Sim(scenes(s-1),sceness)的计算公式为:
Figure BDA0003813820990000081
其中,vx和vx 为特征向量V与V中第x个元素,d是特征向量V和V的维度。
步骤(5.4),边界判定。比较相似度值Sim(scenes(s-1),sceness)与阈值T的大小关系,若Sim(scenes(s-1),sceness)>T,则os不是场景起点段落对象,更新场景起点段落对象,使os=o(s-1),重复步骤(5.2),直到s<0;否则os是场景起点段落对象;其中,阈值T的计算公式为:
Figure BDA0003813820990000091
其中u为段落对象子集D的长度,scenes1为D中第一个段落对象的场景实体集合,scenesp为D中对应的段落对象场景实体集合;
步骤(5.5),场景起点确认。记录场景起点段落对象os中的idx属性值idxs
步骤(5.6),场景终点初始化。选举第一个连续对白段落的最后一段为场景终点,记该段落对应的场景终点段落对象为oe,并记其对应的属性值为idxe、texte、flage、scenese
步骤(5.7),下文场景检索,根据oe,反向检索段落对象集合O,获取段落对象o(e+1)中的场景实体集合scenes(e+1)
步骤(5.8),计算相似度值。计算场景实体集合scenes(e+1)与scenese的相似度值Sim(scenes(e+1),scenese)。计算方法如步骤(5.3)所述。
步骤(5.9),边界判定。比较相似度值Sim(scenes(e+1),scenese)与阈值T的大小关系,若Sim(scenes(e+1),scenese)>T,则oe不是场景终点段落对象,更新场景终点段落对象,使oe=o(e+1),重复步骤(5.7),直到e>m;否则oe是场景终点段落对象;
步骤(5.10),场景终点确认。记录场景终点段落对象oe中的idx属性值idxe
步骤(6)场景抽取。根据上述步骤确认的边界点索引值idxs与idxe,抽取对应段落对象集合中的原始段落文本,即抽取出场景原文段落
Figure BDA0003813820990000092
保存为场景原文;同时,保存场次计数器count以及对应段落对象的场景实体
Figure BDA0003813820990000093
更新段落对象集合O以及段落对象子集D,删去抽取出的对应段落对象;最后更新场次计数器使count=count+1;
步骤(7),剧幕生成。将场景原文进行结构化,生成剧幕场景脚本;
步骤(8),结束判定。判断是否对小说文本中的场景完成全部抽取,即段落对象集合O是否为空集,是则输出剧幕场景脚本集,否则返回步骤(4);
步骤(9),将剧幕场景脚本集发送回客户端。
如图2所示,本发明还提供了用于小说场景文本的分割系统,具体包括场景实体提取模型训练模块、策略配置模块、段落对象初始化模块、场景实体提取模块、场景边界确定模块、场景抽取模块、剧幕生成模块、数据库模块。
场景实体提取模型训练模块,如图3所示,用于训练场景实体提取模型;获取一定数量的不同类别小说,制作训练数据集,并进行BIO标注。再使用训练数据集进行训练;训练数据集经过BERT预训练语言模型获得相应的词向量;将词向量输入到BiLSTM模块进行编码,获取得分矩阵;再利用条件随机场CRF模块对得分矩阵进行解码,得到一个预测标注序列,然后对序列中的各个实体进行提取分类,最终获得场景实体提取模型M。
策略配置模块,用于配置场景分割策略,获取对应的分割依据。
段落对象初始化模块,如图4所示,用于获取小说中的段落对象;对拟改编小说文本进行预处理,生成预处理后的小说文本段落,然后初始化段落对象,保存文本段落及其对应的全文段落索引值,再经过分割依据特征值检测,更新段落对象中对应的分割特征标志;最后输出段落对象以及预处理后的小说文本段落;
场景实体提取模块,如图5所示,用于根据输入的文本段落,经由场景实体提取模型,进行场景实体提取,生成场景实体集合,并更新段落对象,更新段落对象集合并输出;
场景边界确定模块,如图6所示,根据输入的段落对象集合确定场景边界,场景边界包括场景起点与场景终点,经过边界点初始化、上下文场景检索,场景相似度计算、边界判定后,确定边界点,输出边界点索引值;
场景抽取模块,如图7所示,用于场景抽取;通过输入的边界点索引值与段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文;
剧幕生成模块,用于将场景原文进行结构化,生成剧幕场景脚本;
数据库模块,用于存储小说文本训练数据集、拟改编小说文本等数据。
如图8所示,为本发明的硬件装置图,包括:公网、防火墙、核心交换机、用户端、服务端,其中:
公网:即互联网,用于实现用户端与服务端互联;
防火墙:在用户端与服务端之间构建安全屏障;
用户端:用户操作需要,与公网互联互通,用于与服务端通信;
服务端:用于运行系统、完成用户需求,与公网互通。
如图9所示,为本发明实施例的关键步骤示意图。其中:
小说原始文本经过索引标注后得到索引标注后的小说文本,经由场景提取模型进行场景提取后,得到场景实体集合,最后经过一些列处理得到最后的剧幕场景脚本集。
另外,本发明中所述场景边界包括场景起点和场景终点。所述剧幕场景脚本包括场次、场景实体以及场景原文。
本发明使用命名实体识别技术,构建小说文本训练数据集,训练场景实体提取模型;配置场景分割策略,并确定场景分割依据特征值;提取小说文本段落中的场景实体,并构建段落对象集合;选取场景实体并计算其相似度;完成小说场景分割,输出场景原文,结构化为剧幕场景脚本。所述场景实体为小说中出现的人名、地点、时间、动作;所述场景实体提取模型能自动识别输入文本中的场景实体;所述段落对象包含全文段落索引,原始段落文本,分割特征标志、场景实体集合;所述场景分割策略是确定场景分割依据特征值的方法和规则,如分割策略为对白,则分割依据特征值为双引号或冒号,即检测文本段落是否含有双引号或冒号;如分割策略为人物,则分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息;如分割策略为地点,则分割依据特征值为小说中地点信息;即检测文本段落中是否含有地点及关联特征信息;分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值;所述场景原文为小说中属于同一个场景的原始文本;所述剧幕场景脚本包含场次、场景实体以及场景原文。
本发明提出一种以机器学习技术辅助进行小说场景分割的方法和系统,解决人工改编剧本耗时长、场景不一致的问题,大幅降低进一步改编的工作量;本发明提取小说文本段落中的场景实体,并构建段落对象集合;配置场景分割策略;选取场景实体并计算其相似度;完成小说场景分割,输出场景原文;进行结构化,生成剧幕场景脚本;本发明提出一种配置场景分割策略的方法,用以确定场景分割依据特征值,并根据场景分割依据特征值,采用不同的算法模型,对小说文本进行分割;本发明所述场景分割策略包括但不限于以对白、人物、地点,及关联特征信息作为分割策略的配置对象。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.用于小说场景文本的分割方法,其特征在于,包括如下步骤:
S1,场景实体提取模型训练:
获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
S2,场景分割策略配置:
配置场景分割策略,获取对应的分割依据特征值;
S3,段落对象集合初始化:
遍历小说文本,初始化段落对象集合;
S4,场景实体提取:
遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
S5,场景边界确定:
根据段落对象集合确定场景的边界,得到边界点索引值;
S6,场景抽取:
根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
S7,剧幕生成:
将场景原文进行结构化,生成剧幕场景脚本;
S8,结束判定:
判断是否完成全部场景抽取,若是,则输出全部剧幕场景脚本,否则返回步骤S4。
2.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S1包括如下步骤:
S11,获取不同类别小说文本,制作训练数据集,对小说中的对象进行BIO标注,其中B代表场景实体的开头字符,I代表场景实体的中间或结尾字符,O代表不属于场景实体的字符;
S12,根据训练数据集,训练基于机器学习的场景实体提取模型,用于自动识别输入文本中的场景实体。
3.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为对白;
所述对白为小说文本中包含双引号或冒号的完整句子;
S22,设置分割依据特征值为双引号和冒号。
4.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为人物;
S22,设置分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息。
5.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:
S21,配置场景分隔策略规则为地点;
S22,设置分割依据特征值为小说中地点信息,即检测文本段落中是否含有地点及关联特征信息。
6.根据权利要求2所述的用于小说场景文本的分割方法,其特征在于,步骤S3包括如下步骤:
S31,小说文本预处理:
所述预处理包括索引标注、符号处理、分词、去停用词、场次计数器初始化;
S32,段落对象初始化:
初始化段落对象集合,将预处理里后的文本段落及对应的全文段落索引值存储到段落对象;
S33,分割依据特征值检测:
判断小说文本中是否含有分割依据特征值,并更新段落对象中对应的分割特征标志;
所述分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。
7.根据权利要求6所述的用于小说场景文本的分割方法,其特征在于,步骤S5包括如下步骤:
S51,场景相似度计算:
根据分割依据特征值选取段落对象,并依次计算各个段落对象的场景实体集合相似度;
S52,场景边界判定:
通过比较步骤S51中获得的相似度值与设定阈值的大小,判定是否为场景边界;若判断结果为是,记录边界点索引值。
8.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S5中所述场景边界包括场景起点和场景终点。
9.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S7中所述剧幕场景脚本包括场次、场景实体以及场景原文。
10.用于小说场景文本的分割系统,其特征在于,包括:
场景实体提取模型训练模块,用于获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
策略配置模块,用于配置场景分割策略,获取对应的分割依据特征值;
段落对象初始化模块,用于遍历小说文本,初始化段落对象集合;
场景实体提取模块,用于遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
场景边界确定模块,用于根据段落对象集合确定场景的边界,得到边界点索引值;
场景抽取模块,用于根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
剧幕生成模块,用于将场景原文进行结构化,生成剧幕场景脚本;
数据库模块,用于存储小说文本训练数据集和拟改编小说文本数据。
CN202211020489.XA 2022-08-24 2022-08-24 用于小说场景文本的分割方法及系统 Pending CN115408488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020489.XA CN115408488A (zh) 2022-08-24 2022-08-24 用于小说场景文本的分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020489.XA CN115408488A (zh) 2022-08-24 2022-08-24 用于小说场景文本的分割方法及系统

Publications (1)

Publication Number Publication Date
CN115408488A true CN115408488A (zh) 2022-11-29

Family

ID=84161827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020489.XA Pending CN115408488A (zh) 2022-08-24 2022-08-24 用于小说场景文本的分割方法及系统

Country Status (1)

Country Link
CN (1) CN115408488A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521813A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于知识图谱的剧本生成方法、装置、设备及芯片
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521813A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于知识图谱的剧本生成方法、装置、设备及芯片
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片
CN117521628B (zh) * 2023-11-20 2024-05-28 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片
CN117521813B (zh) * 2023-11-20 2024-05-28 中诚华隆计算机技术有限公司 基于知识图谱的剧本生成方法、装置、设备及芯片

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114398480A (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN116702094B (zh) 一种群体应用偏好特征表示方法
CN111414439B (zh) 复杂尾实体拆分链接方法、装置、电子设备和存储介质
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination