CN117521813B - 基于知识图谱的剧本生成方法、装置、设备及芯片 - Google Patents

基于知识图谱的剧本生成方法、装置、设备及芯片 Download PDF

Info

Publication number
CN117521813B
CN117521813B CN202311553771.9A CN202311553771A CN117521813B CN 117521813 B CN117521813 B CN 117521813B CN 202311553771 A CN202311553771 A CN 202311553771A CN 117521813 B CN117521813 B CN 117521813B
Authority
CN
China
Prior art keywords
text
emotion
script
knowledge graph
emotion polarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311553771.9A
Other languages
English (en)
Other versions
CN117521813A (zh
Inventor
王嘉诚
赵雯
张少仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202311553771.9A priority Critical patent/CN117521813B/zh
Publication of CN117521813A publication Critical patent/CN117521813A/zh
Application granted granted Critical
Publication of CN117521813B publication Critical patent/CN117521813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的剧本生成方法、装置、设备及芯片,所述方法包括:首先利用知识图谱技术对已有非剧本作品进行识别,其次将实体、关系、事件句式和情感极性等特征应用到写作场景和逻辑模板中生成文本关联语段,之后利用深度学习算法进行再创作,最终聚合生成剧本作品。本发明可以有效规避剧本内容日益严重的同质化问题,减少短剧剧本创作产业带来的侵权、抄袭和盗版等法律风险,促进原创版权的良性发展,使海量、分散的原创剧本资源从源头得到更为有效的管理。同时,还可以帮助原创作者将自己呕心沥血创作的作品利用知识图谱技术转化为高质量剧本,除了使原著体现更好的经济价值,还能帮助原创群体拓展更佳的经济创收渠道。

Description

基于知识图谱的剧本生成方法、装置、设备及芯片
技术领域
本发明涉及计算机技术领域,特别涉及一种基于知识图谱的剧本生成方法、装置、设备及芯片。
背景技术
当前,短剧创作成为时下备受追捧的热门娱乐方式,短剧平台成为新的流量入口。然而,随着短剧创作产业的不断扩大,其侵权问题也逐渐凸显出来。短剧创作的核心竞争力归根结底就是剧本,目前大部分短剧创作都来自IP改编,而好的剧本很大程度上取决于作者的创意和文笔,因此剧本与原创版权息息相关。但是当前短剧创作产业受市场影响正无限制扩张,导致短剧剧本内容严重同质化,抄袭和盗版的问题日益严重。
为了有效规避侵权、抄袭等法律风险,促进原创版权的良性发展,现有的维护方式是建立一套行业标准,通过行业自律来约束短剧创作从业者的行为。然而,如何从创作源头规范剧本资源的原创性,使数量庞大、分散的原创作者得到更好的管理,目前尚未有良好的解决对策,这是当前急需解决的社会问题。
发明内容
本发明的主要目的在于提供一种基于知识图谱的剧本生成方法、装置、设备及芯片,利用知识图谱技术对已有非剧本作品进行识别,之后将实体、关系、事件句式和情感极性等特征应用到写作场景和逻辑模板中生成文本关联语段,并利用深度学习算法进行再创作,最终聚合生成剧本作品。
为实现上述目的,第一方面本发明提供一种基于知识图谱的剧本生成方法,该方法包括:
基于已有文本式剧本作品建立文本特征知识图谱;从文本特征知识图谱中提取情感极性因子并赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态;将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品。
为实现上述目的,第二方面本发明还提供一种基于知识图谱的剧本生成装置,该装置包括:
知识图谱构建模块:用于基于已有文本式剧本作品建立文本特征知识图谱。
文本情感状态分析模块:用于从文本特征知识图谱中提取情感极性因子并赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态。
剧本再创作和生成模块:用于将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品。
为实现上述目的,第三方面本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序以实现第一方面的方法。
为实现上述目的,第四方面本发明还提供了一种计算机芯片,计算机芯片运行程序指令以实现第一方面的方法。
本发明的技术效果为:
本发明利用知识图谱技术对已有非剧本作品进行识别,将实体、关系、事件句式和情感极性等特征应用到写作场景和逻辑模板中生成文本关联语段,并利用深度学习算法进行再创作,最终聚合生成剧本作品。可以有效规避剧本内容日益严重的同质化问题,减少短剧创作产业带来的侵权、抄袭和盗版等法律风险,促进原创版权的良性发展,使海量、分散的原创剧本资源从源头得到更为有效的管理。同时,还可以帮助原创作者将自己呕心沥血创作的作品利用知识图谱技术转化为高质量剧本,除了使原著体现更好的经济价值,还能帮助原创群体拓展更佳的经济创收渠道。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例1的一种基于知识图谱的剧本生成方法流程图。
图2示出了根据本发明实施例1的一种基于知识图谱的剧本生成方法生成的知识图谱。
图3示出了根据本发明实施例2的一种利用LSTM模型实现剧本再创作的方法流程图。
图4示出了根据本发明实施例3的一种基于知识图谱的剧本智能生成装置的结构示意图。
图5、6示出了根据本发明实施例4的一种基于知识图谱的剧本生成系统操作界面。
图7示出了根据本发明实施例5的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1
如图1、2所示,本发明实施例提供一种基于知识图谱的剧本生成方法生成方法流程图,该方法包括:
S100、导入已有文本式非剧本作品并识别出文本数据。
S200、对识别出的文本数据做查重处理并切割成文本片段。
其中,查重处理可以有效规避剧本内容日益严重的同质化问题,减少短剧创作产业带来的版权侵权、抄袭和盗版等法律风险,促进原创版权的良性发展。S200进一步包括:
S201、将识别出的文本数据对照作品库做查重处理得到总复制比,判断该文本式非剧本作品是否侵权,如果总复制比超过指定阈值,则该文本式非剧本作品被认定为抄袭并提示;如果总复制比低于指定阈值,会继续执行将该文本式非剧本作品生成文本式剧本作品的操作;
S202、按照作品类型、题材、体裁、内容的分类方式,将满足查重条件的文本数据切割为文本片段;其中,作品类型(话剧、小品、小说、影视、动画、短视频、微电影、微动漫、相声等)、题材(主旋律、喜剧、爱情、都市、农村、青春校园、儿童、谍战、悬疑、犯罪、家庭、动作、科幻奇幻、惊悚、历史、军事、剧情等)、体裁(起-开端、承-设置矛盾、转-解决矛盾、合-结局)、内容(矛盾冲突、人物语言、舞台说明、人物关系、情节高潮、主题思想等)。
S300、从满足查重条件并切割得到的文本片段中提取实体、关系和属性,根据预设的逻辑规则进行结构化整合,建立文本特征知识图谱。
其中,S300进一步包括:
提取非结构化或半结构化数据三元组知识并消除歧义,对数据进行结构化整合;其中,三元组知识包括实体、关系和属性,具体包括:
S301、提取实体(entity);具体地,输入请求实体参数(entity),返回字典格式的全部实体参数(knowledge),实体名一般为消歧后的实体(entity)。如表1、2所示。
表1表示请求实体参数:
参数 类型 是否必填 描述
entity string 请求的文本
表2表示返回实体参数:
S302、获取关系(relation);具体地,输入请求关系参数(relation),返回字典格式的全部关系参数(knowledge)和对应实体(entity)的列表。同时,实体名一般为消歧后的实体(entity)。如遇到共指问题,请求将会自动对关系(relation)进行共指消解处理。如表3、4所示。
表3表示请求关系参数:
参数 类型 是否必填 描述
Relation string 请求的关系名
表4表示返回关系参数:
S303、提取属性(attribute);具体地,输入请求实体属性参数(entity)、关系属性参数(relation),返回实体和参数分别对应的属性(attribute)和属性的值(value)列表。实体名一般为实体(entity),关系名一般为关系(relation),属性(attribute)一般为全部知识AVP列表中的属性,如果没有实体直接对应属性的entity与attribute请求,或者没有关系直接对应属性的relation与attribute请求,将会对entity与attribute或relation与attribute进行消歧、共指消解处理。如表5、6、7、8所示。
表5表示请求实体属性参数:
参数 类型 是否必填 描述
entity string 请求的实体名
attribute string 请求的属性名
表6表示请求关系属性参数:
参数 类型 是否必填 描述
relation string 请求的关系名
attribute string 请求的属性名
表7表示返回实体属性参数:
参数 类型 描述
message string success表示请求正确,error表示请求错误
data list 返回的数据
entity string 返回的实体名
attribute list 返回的属性名
value string 实体属性所对应的值
表8表示返回关系属性参数:
参数 类型 描述
message string success表示请求正确,error表示请求错误
data list 返回的数据
relation string 返回的关系名
attribute list 返回的属性名
value string 关系属性所对应的值
S304、根据预设的逻辑规则对知识进行扩展,建立文本特征知识图谱。
其中,S304进一步包括:
S3041、根据根据剧本的特征提取不同类型的扩展实体(entity);其中,知识扩展是对已有知识进行推理和质量评估;预设的逻辑规则是实体间建立关系的标准。
具体地,扩展实体分为角色实体、场景实体和剧情实体,具体如下:
角色实体是剧本中的人物,包括主要角色、次要角色和群演角色;
场景实体是剧本中事件的时间和地点;
剧情实体是剧本中事件的起因、经过、结果和高潮。如表9、10所示。
表9表示实体扩展:
表10表示实体参数说明:
S3042、根据剧本的特征和实体构建不同类型的扩展关系(relation),分为角色关系、场景关系和剧情关系。具体如下:
基于人物间特定关系将角色实体做关系拓展确定角色关系,一是通过人名、人称代词和称谓等专有名词来识别人物的姓名和特定关系,二是通过双引号来识别人物的语言,三是通过行为、心理和能愿动词来识别人物的动作和表情;
基于环境描述将场景实体做关系拓展确定场景关系,一是通过专用名词、指示代词来识别场景的地点,二是通过环境描述来识别场景的画面和道具,三是通过画面的切换来识别场景的旁白和分幕;
基于故事情节将剧情实体做关系拓展确定剧情关系,可通过体裁格式的起承转合来识别场景的起因、经过、结果和高潮。如表11、12所示。
表11表示关系扩展:
表12表示关系参数说明:
扩展的关系参数 参数说明
relation_name() 角色的姓名
relation_Specific-relation() 角色的特定关系
relation_language() 角色的语言
relation_action() 角色的动作
relation_expression() 角色的表情
relation_environment-description() 场景的环境描述
relation_frames() 场景的画面
relation_prop() 场景的道具
relation_aside() 场景的旁白
relation_split-screen() 场景的分幕
relation_start() 事件的开端
relation_contradiction() 事件的矛盾
relation_solve-contradiction() 事件的矛盾解决
relation_ending() 事件的结局
relation_conflict() 事件的冲突高潮
S3043、将实体和关系进行关联。如表13所示。
表13表示关联的实体和关系参数说明:
扩展实体和关系参数 参数说明
Entity_relation(role,role) 角色与角色
Entity_relation(role,scenario) 角色与场景
Entity_relation(role,plot) 角色与剧情
Entity_relation(scenario,scenario) 场景与场景
Entity_relation(scenario,plot) 场景与剧情
Entity_relation(plot,plot) 剧情与剧情
S305、计算实体间的关系距离对知识进行融合,构建文本特征知识图谱。
其中,S305进一步包括:
S3051、基于数据序列间的相似度(如TF-IDF),或者基于二维空间的位置关系(如欧氏距离)计算得到各实体、关系的属性所对应的值;其中,利用欧氏距离计算实体间的关系距离,且根据知识融合的实际应用需要,不限于该算法;公式如下:
公式中,Dis(x,y)为实体2(x2,y2)与实体1(x1,y1)之间的关系距离。
S3052、根据计算出的关系距离对知识进行融合,构建文本特征知识图谱。
S400、从文本特征知识图谱中提取情感极性因子并赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态。
其中,S400进一步包括:
S401、从文本特征知识图谱中提取情感极性特征因子;其中,情感极性特征因子是利用聚类算法(如K-means)计算得到的具有情感极性的各实体、关系的属性所对应的值的聚集趋势值(即K值),K值对应的实体、关系即为情感极性特征因子;还可构建训练数据矩阵,以提升准确度。如表14所示。
表14表示黄色框数据对应的实体或关系为情感极性特征因子:
同时,情感极性特征因子根据数据的活跃程度进行划分,分为基础项、辅助项、触发项,具体包括:
基础项表示评价情感极性程度的基本指标,是判断情感状态的主要指标,包括常规词语或标点符号,对应情感极性特征因子包括单词、词和词干、标点符号;词干用于保存其对应的词的主要语义,一般地,每个词对应有一个词干;
辅助项表示评价情感极性程度的补充指标,是判断情感状态的辅助指标,对应情感极性特征因子包括英语单词、网络俚语、文字表情、符号表情;
触发项表示评价情感极性程度的激发指标,只要符合条件就激发判断情感状态操作,对应情感极性特征因子包括增强语气的词语、减弱语气的词语。如表15所示。
表15表示情感极性特征因子说明:
S402、对情感极性特征因子赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态;其中,属性值是实体、关系的属性所对应的值,若涉及多个实体、关系,则取多个实体、关系的属性所对应的值的均值;情感极性程度中各个评价等级的权重之和为1,根据各情感极性特征因子的情感极性程度分配权重。如表16所示。
表16表示情感极性程度分析模型:
其中,S402进一步包括:
S4021、将从文本特征知识图谱中提取的情感极性因子对应的属性值与情感极性分析模型进行对照分析,得到对应的权重值。
S4022、将符合条件的情感极性因子对应的属性值与权重值进行二次平均值计算,得到文本情感状态指数,以识别文本情感状态,公式如下:
公式中,n表示符合条件的情感极性特征因子的总个数,m表示符合条件的情感极性特征因子对应的属性的值的总个数,Vij表示第i个情感极性特征因子的第j个属性的值,Wij表示第i个情感极性程度评价等级的第j个情感极性特征因子对应的权重值,f(v,w)表示根据符合条件的情感极性特征因子对应的属性的值与权重值分别经过算术平均和加权平均后得到的文本情感状态指数。
S500、将与文本情感状态结合紧密的文本特征知识图谱中的实体和关系,应用到剧本写作模板中生成文本关联语段。
其中,S500进一步包括:
S501、将文本特征知识图谱中的实体、关系和对应属性与情感极性特征因子结合,生成事件句式并识别事件高潮;其中,事件句式又称主题句,表示一个事件信息或文本主题信息的句子,能够代表文章主旨内容;情感极性特征因子代表事件发生的核心词语,多为带有情感色彩的主观动词或名词,一般以动词性词语为主。
其中,S501进一步包括:
S5011、将知识图谱中与文本情感状态结合紧密的实体、关系和对应属性与情感极性特征因子进行关联。
S5012、对实体和关系进行聚类生成文本类簇,通过计算语法树距离判断各文本类簇间的关联度和重要度,生成事件句式。
其中,S5012进一步包括:
S50121、建立一个语法树结构表作为句法结构模板,用于存放多个常见句式的句法结构;其中,句法结构模板反映了词语所在语句的句法结构信息。
S50122、将实体和关系进行聚类生成文本类簇,将文本类簇进一步聚合生成子树,遍历每棵子树的语法树结构信息并生成文本句式。
S50123、计算文本类簇对应的文本句式和句法结构模板中常见句式间的编辑距离;当编辑距离大于设定阈值时,视为文本类簇对应的文本句式和句法结构模板中常见句式的句法结构不相似,则将该遍历文本句式加入语法树结构表以更新句法结构模板;当编辑距离小于设定阈值时,视为文本类簇对应的文本句式和句法结构模板中常见句式的句法结构相似。
S50124、将具有相似句法结构的文本类簇进行关联,生成事件句式。
S5013、将事件句式带入情感极性分析模型分析文本情感状态,当文本情感状态指数满足指定条件时识别为事件高潮。
S502、将生成的事件句式结合实体、关系、情感极性特征因子以及事件高潮应用到剧本写作模板,生成文本关联语段。事件句式是指将读者代入角色所处特定场景中引发的逻辑关系事件的句法结构,由实体、实体关系以及由事件句式中识别的事件高潮组成。事件句式分为引发事件和关键事件,引发事件是指与其他事件产生勾连关系的具体事情或活动;关键事件是指故事线的中心,推动故事向前发展的动力,向读者揭示故事的核心要义。
其中,S502进一步包括:
将生成的事件句式结合实体、关系、情感极性特征因子以及事件高潮应用到剧本写作模板中,建立文本关联语段;其中,应用到剧本写作模板按照剧本种类可设计多种形式的写作模板,包括话剧、小品、小说、影视、动画、短视频、微电影、微动漫、相声。
同时,情感极性特征因子与事件句式、文本关联语段的关系是:情感极性特征因子{文本关联语段状态{事件句式}}(大括号表示引用包含)。如表17所示。
表17表示情感极性因子与事件句式、文本关联语段的关系:
S600、将文本关联语段带入预设的剧本生成模型进行内容的再创作,聚合生成文本式剧本作品。
其中,S600进一步包括:
S601、利用深度学习算法对作品库的海量资源进行解析,构建剧本训练库;其中,剧本训练库包括解析生成的各种写作场景、逻辑模板以及创作素材。
S602、参照剧本训练库建立剧本生成模型,通过机器训练对剧本生成模型进行迭代更新;其中,将剧本训练库解析生成的各种写作场景、逻辑模板以及创作素材按照剧本模型结构进行划分,逻辑模板包括实体模板、关系模板、事件句式模板和文本关联语段模板。
S603、将文本关联语段带入剧本生成模型生成再创作的文本关联语段,通过循环采样聚合生成文本式剧本作品。
其中,S603进一步包括:
S6031、将文本关联语段带入剧本生成模型,得到与之相似的文本数据集。
S6032、对文本数据集做加权计算,得到最优的文本数据。
S6033、将最优的文本数据添加到文本关联语段中,生成再创作的文本关联语段。
S6034、循环执行上述步骤,聚合生成文本式剧本作品。如表18所示。
表18表示剧本生成模型的结构:
逻辑规则说明:剧本模型由剧本元素构成,剧本元素包括实体、实体关系、事件触发词、事件句式以及文本关联语段。其中,事件触发词是由情感极性特征因子组成,表示事件发生的核心词,多为动词或名词。事件句式是指将读者代入角色所处特定场景中引发的逻辑关系事件的句法结构,由实体、实体关系以及由事件句式中识别的事件高潮组成。文本关联语段是由场景实体和场景关系(时间、地点、分幕、旁白)、角色实体和角色关系(人物、姓名、特定关系),以及剧情实体和剧情关系(事件体裁、事件高潮)组成。
实施例2
如图3所示,本实施例提供一种利用LSTM模型实现文本再创作的方法流程图,目的在于利用深度学习算法进行再创作,最终聚合生成剧本作品,该方法包括:
再创作是利用LSTM(长短时记忆神经网路)生成序列不断采样得到新字符串的过程,具体是:向LSTM模型中输入一个初始字符串,随后触发LSTM模型生成下一个字符,然后将生成的输出添加到输入的数据中,以此循环进行不断的输出和输入,最终生成新字符串。其计算过程是:
(1)处理序列数据时,LSTM模型将存储前一次迭代的输出,基本联结公式如下:
y=σ(Ax)
公式中,A为加权权重,x为输入数据,σ为激活函数,执行激活函数后返回输出层y1
(2)如果有序列输入x1、x2、x3…,将前一个输入加入到联结公式中,修改后联结公式如下:
yt=σ(Byt-1+Axt)
公式中,B为加权权重。
(3)在递归迭代的基础上获取下一个输入,通过softmax函数得到概率分布输出,概率输出公式如下:
St=softmax(Cyt)
公式中,C为加权权重,St为t时刻的输出,进而得到所有序列的输出{S1、S2、S3…},将所有序列的输出结果作为序列反馈给LSTM模型,生成多个输出结果。把最后一次输出的结果作为最终预测结果。
实施例3
如图4所示,本实施例提供一种基于知识图谱的剧本生成装置的结构示意图,所述装置1包括以下模块:
知识图谱构建模块101:用于基于已有文本式剧本作品建立文本特征知识图谱。
文本情感状态分析模块102:用于从文本特征知识图谱中提取情感极性因子并赋予对应权重,建立情感极性分析模型并识别文本情感状态。
剧本再创作和生成模块103:用于将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品。
其中,该剧本生成装置,进一步包括:
数据识别和查重模块104:用于对导入的已有文本式非剧本作品进行内容识别,将识别后的文本数据对照作品库进行查重处理,对满足查重条件的文本数据进行切割得到文本片段。
其中,文本式非剧本作品是指故事类作品,有景物、心理活动等描写,人物冲突不会大篇幅通过对白展现。
本实施例提供的一种基于知识图谱的剧本生成装置与实施例1提供的一种基于知识图谱的剧本生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
实施例4
如图5、6所示,本发明实施例提供一种基于知识图谱的剧本生成系统操作界面,该界面操作方法包括:
作者将原创小说导入系统后,系统对小说做识别和查重,根据剧本格式从识别后的文本中提取人物、场景、对话、旁白等内容,并对内容进行情感极性分析以识别事件高潮,并利用人工智能技术对内容进行完善,最后将小说转化为剧本进行导出。作者还可以将转化的剧本上传系统进行评分,以了解剧本的经济价值。
本申请实施方式还提供与前述实施方式所提供的一种基于知识图谱的剧本生成方法对应的电子设备,以执行基于知识图谱的剧本生成方法。本申请实施例不做限定。
实施例5
如图7所示,本实施例提供一种电子设备的结构示意图。所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的一种基于知识图谱的剧本生成方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述一种基于知识图谱的剧本生成方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的一种基于知识图谱的剧本生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
实施例6
本实施例提供与前述实施方式所提供的一种基于知识图谱的剧本生成方法对应的计算机智能芯片,可能是一种处理器200,所述处理器200在运行存储于存储器201上的计算机程序时,会执行前述任意实施方式所提供的一种基于知识图谱的剧本生成方法。
需要说明的是,所述计算机芯片的例子还可以包括,但不限于处理器芯片、DSP芯片、FPGA芯片、AD/DA芯片或者是其他可用于数据处理的芯片,也包括配合数据处理的存储器芯片或其他光学、智能芯片,在此不再一一赘述。
本申请的上述实施例提供的计算机芯片与本申请实施例提供的一种基于知识图谱的剧本生成方法出于相同的发明构思,具有与其运行应用程序所采用、运行或实现的方法相同的有益效果。

Claims (15)

1.一种基于知识图谱的剧本生成方法,其特征在于,包括:
基于已有文本式剧本作品建立文本特征知识图谱;
从文本特征知识图谱中提取情感极性因子并赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态,进一步包括:
将从文本特征知识图谱中提取的情感极性因子对应的属性的值与训练好的情感极性分析模型进行对照分析,得到与情感极性因子对应的权重值;
将符合条件的情感极性因子对应的属性的值与权重值进行二次平均值计算,得到文本情感状态指数,以识别文本情感状态,该文本情感状态指数的计算公式如下:
公式中,n表示符合条件的情感极性特征因子的总个数,m表示符合条件的情感极性特征因子对应的属性的值的总个数,Vij表示第i个情感极性特征因子的第j个属性的值,Wij表示第i个情感极性程度评价等级的第j个情感极性特征因子对应的权重值,f(v,w)表示根据符合条件的情感极性特征因子对应的属性的值与权重值分别经过算术平均和加权平均后得到的文本情感状态指数;
将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品。
2.根据权利要求1所述的方法,其特征在于,所述基于已有文本式剧本作品建立文本特征知识图谱,进一步包括:
导入已有文本式非剧本作品并识别出文本数据;
对识别出的文本数据做查重处理并切割为文本片段;
对满足查重条件并切割得到的文本片段中提取实体、关系和属性进行结构化整合,建立文本特征知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述对识别出的文本数据做查重处理并切割为文本片段,进一步包括:
将识别出的文本数据对照作品库做查重处理得到总复制比,判断该文本式非剧本作品是否侵权;
如果总复制比超过指定阈值,则该文本式非剧本作品被认定为抄袭并提示;如果总复制比低于指定阈值,会继续执行将该文本式非剧本作品生成文本式剧本作品的操作;
按照作品类型、题材、体裁、内容的分类方式,将满足查重条件的文本数据切割为文本片段。
4.根据权利要求2所述的方法,其特征在于,所述对满足查重条件并切割得到的文本片段中提取实体、关系和属性进行结构化整合,建立文本特征知识图谱,进一步包括:
从满足查重条件并切割得到的文本片段中提取实体、获取关系和属性;
根据预设的逻辑规则对知识进行扩展,建立文本特征知识图谱;其中,预设的逻辑规则是根据根据剧本的特征提取不同类型的扩展实体,分为角色实体、场景实体和剧情实体;根据剧本的特征和实体构建不同类型的扩展关系,分为角色关系、场景关系和剧情关系;将实体和关系进行关联,计算实体间的关系距离对知识进行融合,构建文本特征知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述从文本特征知识图谱中提取情感极性因子,进一步包括:
从文本特征知识图谱中提取情感极性因子,根据数据的活跃程度进行划分,分为基础项、辅助项、触发项;
基础项表示评价情感极性程度的基本指标,是判断情感状态的主要指标;
辅助项表示评价情感极性程度的补充指标,是判断情感状态的辅助指标;
触发项表示评价情感极性程度的激发指标,只要满足条件就激发判断情感状态操作。
6.根据权利要求1所述的方法,其特征在于,所述将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品,进一步包括:
将与文本情感状态结合紧密的文本特征知识图谱中的实体和关系,应用到剧本写作模板中生成文本关联语段;
将文本关联语段带入预设的剧本生成模型进行内容的再创作,聚合生成文本式剧本作品。
7.根据权利要求6所述的方法,其特征在于,所述将与文本情感状态结合紧密的文本特征知识图谱中的实体和关系,应用到剧本写作模板中生成文本关联语段,进一步包括:
将文本特征知识图谱中的实体、关系和对应属性与情感极性特征因子结合,生成事件句式并识别事件高潮;
将生成的事件句式结合事件高潮应用到剧本写作模板,生成文本关联语段。
8.根据权利要求7所述的方法,其特征在于,所述将文本特征知识图谱中的实体、关系和对应属性与情感极性特征因子结合,生成事件句式并识别事件高潮,进一步包括:
将知识图谱中与文本情感状态结合紧密的实体、关系和对应属性与情感极性特征因子进行关联;
对实体和关系进行聚类生成类簇,通过计算语法树距离判断各类簇间的关联度和重要度,生成事件句式;
将事件句式带入情感极性分析模型分析文本情感状态,当文本情感状态指数满足指定条件时识别为事件高潮。
9.根据权利要求7所述的方法,其特征在于,所述将生成的事件句式结合事件高潮应用到剧本写作模板,生成文本关联语段,进一步包括:
将生成的事件句式结合实体、关系、情感极性特征因子以及事件高潮应用到剧本写作模板中,建立文本关联语段;其中,剧本写作模板是按照剧本种类设计多种形式的写作模板,该形式包括话剧、小品、小说、影视、动画、短视频、微电影、微动漫、相声。
10.根据权利要求8所述的方法,其特征在于,所述对实体和关系进行聚类生成类簇,通过计算语法树距离判断各类簇间的关联度和重要度,生成事件句式,进一步包括:
建立一个语法树结构表作为句法结构模板,用于存放多个常见句式的句法结构;其中,句法结构模板反映了词语所在语句的句法结构信息;
将实体和关系进行聚类生成文本类簇,将文本类簇进一步聚合生成子树,遍历每棵子树的语法树结构信息并生成文本句式;
计算文本类簇对应的文本句式和句法结构模板中常见句式间的编辑距离;当编辑距离大于设定阈值时,视为文本类簇对应的文本句式和句法结构模板中常见句式的句法结构不相似,则将该文本句式加入语法树结构表以更新句法结构模板;当编辑距离小于设定阈值时,视为文本类簇对应的文本句式和句法结构模板中常见句式的句法结构相似;
将具有相似句法结构的文本类簇进行关联,生成事件句式。
11.根据权利要求6所述的方法,其特征在于,所述将文本关联语段带入预设的剧本生成模型进行内容的再创作,聚合生成文本式剧本作品,进一步包括:
利用深度学习算法对作品库的海量资源进行解析,构建剧本训练库;其中,剧本训练库包括解析生成的各种写作场景、逻辑模板以及创作素材;
参照剧本训练库建立剧本生成模型,通过机器训练对剧本生成模型进行迭代更新;其中,将剧本训练库解析生成的各种写作场景、逻辑模板以及创作素材按照剧本模型结构进行划分,逻辑模板包括实体模板、关系模板、事件句式模板和文本关联语段模板;
将文本关联语段带入剧本生成模型生成再创作的文本关联语段,通过循环采样聚合生成文本式剧本作品。
12.根据权利要求11所述的方法,其特征在于,所述将文本关联语段带入剧本生成模型生成再创作的文本关联语段,通过循环采样聚合生成文本式剧本作品,进一步包括:
将文本关联语段带入剧本生成模型,得到与之相似的文本数据集;
对文本数据集做加权计算,得到最优的文本数据;
将最优的文本数据添加到文本关联语段中,生成再创作的文本关联语段;
循环执行上述步骤,聚合生成文本式剧本作品。
13.一种基于知识图谱的剧本生成装置,其特征在于,包括:
知识图谱构建模块:用于基于已有文本式剧本作品建立文本特征知识图谱;
文本情感状态分析模块:用于从文本特征知识图谱中提取情感极性因子并赋予对应权重,带入训练好的情感极性分析模型得到文本情感状态指数,以识别文本情感状态,进一步包括:
将从文本特征知识图谱中提取的情感极性因子对应的属性的值与训练好的情感极性分析模型进行对照分析,得到与情感极性因子对应的权重值;将符合条件的情感极性因子对应的属性的值与权重值进行二次平均值计算,得到文本情感状态指数,以识别文本情感状态,该文本情感状态指数的计算公式如下:
公式中,n表示符合条件的情感极性特征因子的总个数,m表示符合条件的情感极性特征因子对应的属性的值的总个数,Vij表示第i个情感极性特征因子的第j个属性的值,Wij表示第i个情感极性程度评价等级的第j个情感极性特征因子对应的权重值,f(v,w)表示根据符合条件的情感极性特征因子对应的属性的值与权重值分别经过算术平均和加权平均后得到的文本情感状态指数;
剧本再创作和生成模块:用于将与文本情感状态结合紧密的文本特征知识图谱聚合生成文本式剧本作品。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求1~12任一项中所述的方法。
15.一种计算机芯片,其特征在于,所述计算机芯片运行程序指令时用于实现权利要求1~12任一项中所述的方法。
CN202311553771.9A 2023-11-20 2023-11-20 基于知识图谱的剧本生成方法、装置、设备及芯片 Active CN117521813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311553771.9A CN117521813B (zh) 2023-11-20 2023-11-20 基于知识图谱的剧本生成方法、装置、设备及芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311553771.9A CN117521813B (zh) 2023-11-20 2023-11-20 基于知识图谱的剧本生成方法、装置、设备及芯片

Publications (2)

Publication Number Publication Date
CN117521813A CN117521813A (zh) 2024-02-06
CN117521813B true CN117521813B (zh) 2024-05-28

Family

ID=89754717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311553771.9A Active CN117521813B (zh) 2023-11-20 2023-11-20 基于知识图谱的剧本生成方法、装置、设备及芯片

Country Status (1)

Country Link
CN (1) CN117521813B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992601B (zh) * 2024-04-03 2024-07-09 紫金诚征信有限公司 基于人工智能的公文生成方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893582A (zh) * 2016-04-01 2016-08-24 深圳市未来媒体技术研究院 一种社交网络用户情绪判别方法
CN106446147A (zh) * 2016-09-20 2017-02-22 天津大学 一种基于结构化特征的情感分析方法
CN108052527A (zh) * 2017-11-08 2018-05-18 中国传媒大学 基于标签体系的电影桥段分析推荐方法
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111686450A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 游戏的剧本生成及运行方法、装置、电子设备和存储介质
CN111767725A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 一种基于情感极性分析模型的数据处理方法及装置
CN114429198A (zh) * 2022-04-07 2022-05-03 南京众智维信息科技有限公司 一种网络安全应急处置剧本自适应编排方法
CN114788293A (zh) * 2019-06-11 2022-07-22 唯众挚美影视技术公司 制作电影、电视节目和多媒体内容的制作即服务系统
CN115408488A (zh) * 2022-08-24 2022-11-29 杭州电子科技大学 用于小说场景文本的分割方法及系统
CN116484024A (zh) * 2023-05-12 2023-07-25 中国人民解放军空军工程大学 一种基于知识图谱的多层次知识库构建方法
CN116521872A (zh) * 2023-04-27 2023-08-01 华中师范大学 一种认知和情感的联合识别方法、系统及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893582A (zh) * 2016-04-01 2016-08-24 深圳市未来媒体技术研究院 一种社交网络用户情绪判别方法
CN106446147A (zh) * 2016-09-20 2017-02-22 天津大学 一种基于结构化特征的情感分析方法
CN108052527A (zh) * 2017-11-08 2018-05-18 中国传媒大学 基于标签体系的电影桥段分析推荐方法
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统
CN114788293A (zh) * 2019-06-11 2022-07-22 唯众挚美影视技术公司 制作电影、电视节目和多媒体内容的制作即服务系统
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111686450A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 游戏的剧本生成及运行方法、装置、电子设备和存储介质
CN111767725A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 一种基于情感极性分析模型的数据处理方法及装置
CN114429198A (zh) * 2022-04-07 2022-05-03 南京众智维信息科技有限公司 一种网络安全应急处置剧本自适应编排方法
CN115408488A (zh) * 2022-08-24 2022-11-29 杭州电子科技大学 用于小说场景文本的分割方法及系统
CN116521872A (zh) * 2023-04-27 2023-08-01 华中师范大学 一种认知和情感的联合识别方法、系统及电子设备
CN116484024A (zh) * 2023-05-12 2023-07-25 中国人民解放军空军工程大学 一种基于知识图谱的多层次知识库构建方法

Also Published As

Publication number Publication date
CN117521813A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
US11823074B2 (en) Intelligent communication manager and summarizer
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
US10445428B2 (en) Information object extraction using combination of classifiers
Biemann Structure discovery in natural language
CN111967242A (zh) 一种文本信息的抽取方法、装置及设备
CN117521813B (zh) 基于知识图谱的剧本生成方法、装置、设备及芯片
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN110110218B (zh) 一种身份关联方法及终端
CN113554172A (zh) 基于案例文本的裁判规则知识抽取方法及系统
CN111914566A (zh) 一种评论自动生成方法
Ivanchyshyn et al. The Film Script Generation Analysis Based on the Fiction Book Text Using Machine Learning
Tsai et al. An intelligent recommendation system for animation scriptwriters’ education
Gatti et al. Valence without meaning: investigating form and semantic components in pseudowords valence
TWI592812B (zh) 文章之意見單元識別方法,及其相關裝置與電腦程式產品
CN117521628B (zh) 基于人工智能的剧本创作方法、装置、设备及芯片
Chen et al. XMQAs: Constructing Complex-Modified Question-Answering Dataset for Robust Question Understanding
Boonpa et al. Relationship extraction from Thai children's tales for generating illustration
Banerjee et al. Playscript classification and automatic wikipedia play articles generation
US11977853B2 (en) Aggregating and identifying new sign language signs
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
Swanson Enabling open domain interactive storytelling using a data-driven case-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant