CN114936289A - 文本分析方法及装置 - Google Patents

文本分析方法及装置 Download PDF

Info

Publication number
CN114936289A
CN114936289A CN202210517692.1A CN202210517692A CN114936289A CN 114936289 A CN114936289 A CN 114936289A CN 202210517692 A CN202210517692 A CN 202210517692A CN 114936289 A CN114936289 A CN 114936289A
Authority
CN
China
Prior art keywords
text
directed acyclic
acyclic graph
role
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210517692.1A
Other languages
English (en)
Inventor
陈辉
刘霄
罗元帅
周东谕
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210517692.1A priority Critical patent/CN114936289A/zh
Publication of CN114936289A publication Critical patent/CN114936289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分析方法及装置,涉及小说改剧本技术领域。该方法,包括:根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。上述方案,能够实现对第一文本的分析,达到对小说改编剧本的辅助支持的目的。

Description

文本分析方法及装置
技术领域
本申请属于小说改剧本技术领域,特别涉及一种文本分析方法及装置。
背景技术
现有技术为编剧提供针对剧本本身的分析研究,例如剧情节奏、冲突合理性、角色关系、角色成长性分析,为编剧创作剧本,提供灵感辅助,例如关联海量故事片段。但现有技术的实现方案并没有对希望将小说改编为剧本的编剧提供足够的辅助指导。
现有技术仅对人物成长性、命运走势进行合理性分析,缺乏对小说改编剧本的辅助支持。
发明内容
本申请实施例提供一种文本分析方法及装置,能够解决现有实现方式缺乏对小说改编剧本的辅助支持的问题。
为了解决上述技术问题,本申请实施例提供一种文本分析方法,包括:
根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
可选地,所述特征数据包括:阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
可选地,所述获取所述第一文本中的目标角色的成长轨迹的第一有向无环图,包括:
根据所述特征数据,获取所述第一文本中的目标文本块,所述目标文本块为段落或章节;
根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图。
可选地,所述根据所述特征数据,获取所述第一文本中的目标文本块,包括:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的权重大于或等于第二预设值。
可选地,所述根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图,包括:
根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
可选地,所述根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,包括:
获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
在所述第三有向无环图中选取K个第一角色状态,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后;
将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图;
其中,K为大于或等于1的整数。
可选地,所述根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果,包括:
获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果;
根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
可选地,所述根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果,包括:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
本申请实施例还提供一种文本分析装置,包括:
第一获取模块,用于根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
第二获取模块,用于根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
第三获取模块,用于根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
本申请实施例还提供一种文本分析装置,包括收发机和处理器;
所述处理器,用于:根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
本申请实施例还提供一种文本分析装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的文本分析方法的步骤。
本申请的有益效果是:
上述方案,通过根据第一文本的特征数据,获取第一文本中的目标角色的成长轨迹的第一有向无环图,并对所述第一有向无环图进行拓展,然后获取拓展后的有向无环图中成长轨迹的分析结果;以此实现对第一文本的分析,达到对小说改编剧本的辅助支持的目的。
附图说明
图1是本申请实施例的文本分析方法的流程示意图;
图2是每条轨迹的评价指标对应的得分以及轨迹的总得分展示示意图;
图3是本申请实施例具体应用情况下的详细流程示意图;
图4是角色成长轨迹的有向无环图的展示方式示意图;
图5是点击展开细节按钮后的有向无环图细节展示示意图;
图6是拓展后的角色成长轨迹的有向无环图的展示方式示意图;
图7是本申请实施例的文本分析装置的模块示意图;
图8表示本申请实施例的文本分析装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的文本分析方法及装置进行详细地说明。
如图1所示,本申请的至少一个实施例提供一种文本分析方法,应用于文本分析装置,包括:
步骤101,根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图。
需要说明的是,本申请实施例中所说的第一文本即用户想要分析的故事、小说,通常在实际分析时使用的是文本的形式,若用户输入的是语音或视频形式的内容,则需要将其转换为文本形式。
可选地,该成长轨迹指的是第一文本中目标角色在时间轴上的不同时期的状态,状态可以是角色的情感经历、工作经历、学习经历等。
步骤102,根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图。
需要说明的是,该第二文本与所述第一文本的相关度大于或等于第一预设值,可以理解为该第二文本为与第一文本的相似度比较高的文本;当然也可以选择第一文本的阅读用户阅读过的文本作为第二文本,即第二文本与第一文本均被同一用户阅读过。
步骤103,根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
需要说明的是,通常在得到分析结果后,需要将该分析结果进行展示,以便于用户更好的查看该分析结果。
本申请实施例中通过采用拓展后的有向无环图,对其中所包含的成长轨迹进行分析,辅助用户对文本进行了解以及对文本的使用,例如,可以使得用户能够根据分析结果筛选出较优的角色的成长轨迹,本申请实施例可以对编剧进行小说改编剧本提供辅助支持。
可选地,本申请的至少一个实施例中,所述步骤101的可选实现方式包括:
步骤1011,获取用户输入的第一文本的信息。
需要说明的是,该第一文本的信息可以为第一文本的名称、作者等,也可以是第一文本的检索关键词。
步骤1012,根据所述第一文本的信息,获取所述第一文本对应的特征数据。
通常情况下,该特征数据是存储于数据库中的,该特征数据包括阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
可选地,本申请的至少一个实施例中,所述阅读行为数据包括但不限于是以下至少一项:
A11、阅读用户对所述第一文本的文本块的阅读时长;
需要说明的是,所述文本块包括:段落和章节中的至少一项。
A12、所述第一文本的文本块的阅读特征;
需要说明的是,所述阅读特征包括但不限于:阅读人次。
可选地,本申请的至少一个实施例中,所述属性数据包括但不限于:段落信息、章节信息、作者信息。
例如,该段落信息可以包括但不限于:段落的总数,每个段落的字数,每个段落的阅读人次等;该章节信息可以包括但不限于:章节的总数,每个章节的字数,每个章节的阅读人次等;该作者信息包括但不限于:作者的姓名、年龄、生平履历等。
通常情况下,用户需要向分析客户端(也可以是服务器)输入希望分析的文本的标识,比如文本名称和作者,客户端基于用户的输入,判断数据库中是否存在该文本的特征数据(也可以理解为是文本的相关特征数据),若存在,则直接获取到这些特征数据,若不存在,则可以向用户返回无法获取数据的提示信息。
步骤1013,根据所述特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图。
需要说明的是,本申请至少一个实施例中所说的目标角色指的是文本中的主要角色,可选地,用户可以选择设置分析几个主要角色,例如,当用户设置只分析一个角色时,通常生成的是主角(即文本中出现频次最高的角色)的成长轨迹的有向无环图;而当用户设置分析多个角色时,在对文本的角色进行分析时,选择出现频次排名靠前的多个角色进行成长轨迹的有向无环图的生成,这里需要说明的是,本申请实施例中所提到的有向无环图是针对一个角色而言的,若第一文本中有多个角色,则会得到对应每一个角色的有向无环图。
可选地,本申请的至少一个实施例中,所述获取所述第一文本中的目标角色的成长轨迹的第一有向无环图的具体实现方式,包括:
步骤S11、根据所述特征数据,获取所述第一文本中的目标文本块;
其中,所述目标文本块为段落或章节。
可选地,本申请的至少一个实施例中,根据所述特征数据,获取所述第一文本中的目标文本块的具体实现方式为:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的特征数据的权重大于或等于第二预设值。
需要说明的是,本申请实施例中可以通过seq2seq模型、长短期记忆网络(LongShort-Term Memory,LSTM)模型、注意力机制模型等对特征数据进行分析,获取每一个目标文本块的权重,然后选取权重符合要求的目标文本块进行后续的有向无环图的生成。
步骤S12、根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
需要说明的是,本申请实施例中所提到的角色状态可以理解为角色标签,具体地,其可以包括但不限于是以下参数中的至少一项:
社会状态、性格、情感状态等。需要说明的是,该社会状态可以理解为角色所在的人生阶段,也可以理解为是社会角色。
通常情况下,每一个目标文本块能够提取出一个角色状态,也就是说,本申请的至少一个实施例中选取了多少个目标文本块,便会得到多少个角色状态,即目标文本块是与角色状态一一对应的。
步骤S13、根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图;
可选地,本申请的至少一个实施例中,根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图的具体实现方式为:
步骤S131、根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
此处需要说明的是,在生成角色状态1和角色状态2之间的事件时,是选用角色状态1所对应的目标文本块的内容实现的,通过对角色状态1所对应的目标文本块的内容进行分析整理,得到角色状态1和角色状态2之间的事件。
步骤S132、根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
需要说明的是,本申请实施例中,按照角色状态在对应的目标文本块中出现的先后顺序进行节点的排序,然后将节点之间通过事件进行关联以此便构成了第一有向无环图。
可选地,本申请的至少一个实施例,所述步骤102的进一步的实现方式包括:
步骤1021,获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
需要说明的是,该第一角色可以为第二文本中的一个或多个角色的,其选取方式与第一文本中的目标角色的选取方式类似。
步骤1022,将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
步骤1023,在所述第三有向无环图中选取K个第一角色状态;
其中,K为大于或等于1的整数。
其中,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
需要说明的是,本申请的至少一个实施例中的该步骤是为了获取第二文本对应的成长轨迹的角色状态中与第一文本中成长轨迹中角色状态比较相似的角色状态。该相似的角色状态的获取方式可以是通过比对角色状态下所包含的一项或多项参数实现的,例如,选取社会状态和性格与目标角色的角色状态的社会状态和性格相同(需要说明的是,此处的相同可以理解为相似度高于特定值)的角色状态作为第一角色状态。
步骤1024,将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹;
其中,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后。
例如,第一有向无环图中包括一条成长轨迹,该成长轨迹依次包括角色状态11、角色状态12、角色状态13和角色状态14;第三有向无环图中包括一条成长轨迹,该成长轨迹依次包括角色状态21、角色状态22、角色状态23和角色状态24;经过对比发现角色状态12和角色状态22相似,则可以组成的新的成长轨迹依次包括:角色状态11、角色状态12、角色状态23和角色状态14。
步骤1025,将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图。
可选地,本申请的至少一个实施例中,步骤103的实现方式包括:
步骤1031,获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果;
其中,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果。
需要说明的是,该评价指标例如可以为不同角色状态的评论次数、不同角色状态下对应的角色的相关内容的阅读人次。
针对每一个角色状态,均对应存在一个评价指标的得分,例如,该得分可以为通过对不同评价指标所对应的数值进行归一化处理得到。
步骤1032,根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
可选地,本申请的至少一个实施例中,步骤1032的实现方式为:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
需要说明的是,当得到每一个角色状态的评价指标后,可以针对评价指标对成长轨迹下的角色状态的所有评价指标进行加权求和得到成长轨迹的分析结果;当然,若存在多个评价指标,则可以先得到每一个评价指标下所有角色状态的分析结果,然后再将所有的评价指标的分析结果进行加权求和得到成长轨迹的分析结果。
在得到最终的分析结果后,需要进行分析结果的展示,以便于用户进行每条成长轨迹的分析。可选地,在进行展示时,评价指标对应的分析结果以及最终的分析结果可以通过数值的形式体现,即展示分析结果的得分;也可以通过文本的形式体现,即展示分析结果的分级,例如,以优、良、中、差进行分级,则分析结果展示的便是优、良、中、差这样的文本描述信息;还可以通过图标的形式进行展示,例如,该图标可以为对勾图标、差号图标,则分析结果展示的便是对勾图标、差号图标。
如图2所示,以通过数值的形式体现分析结果为例,对应每一条轨迹分别展示每一个评价指标的得分,以及最终的总得分。
下面以进行小说的分析为例,对本申请至少一个实施例的具体应用过程进行详细说如下。
如图3所示,小说分析的具体过程包括:
S10、用户向辅助小说改编剧本的客户端(也可以是服务器)输入希望改编为剧本的小说的标识;
比如,小说名称和作者。
S20、客户端基于用户的输入,判断数据库中是否存在该小说的特征数据,若存在,则客户端从数据库中读取对应的特征数据;
S30、基于特征数据,构建主角的成长轨迹的第一有向无环图;
此处以通过章节生成成长轨迹的有向无环图为例,例如,获取小说中的权重较高的几个章节,针对每一个章节,生成一个角色状态,然后相邻高权重章节之间使用前一个章节到后一个章节之间的小说内容(含前一个章节,不含后一个章节),通过包括但不限于基于深度学习的文本概括方法等技术,生成角色状态之间的事件描述。例如某小说有,章节1,章节2,章节3,章节4,其中章节2与章节4为高权重章节。那么将根据章节2与章节4,分别提取角色状态,且构建节点(节点具体为角色状态)A0与A1。根据章节2与章节3的小说内容,构建节点A0与A1之间的事件。
图4为角色成长轨迹的有向无环图示例,需要说明的是,图3中还设置有一个按钮31,用于用户展开成长轨迹的细节,图5则表示点击按钮31后的有向无环图细节示意图。需要说明的是,本申请中仅以1个事件数量为例,当然也不限于1个,可以为多于1个。
S40、根据待改编小说的相似小说,拓展主角成长轨迹的第一有向无环图,得到第二有向无环图;
需要说明的是,相似小说的获取方式:基于小说阅读大数据,通文本处理的计算方式,例如协同过滤等,得到阅读了待改编小说,同时也喜欢阅读的其他小说;再例如,通过待改编小说与其他小说在用户阅读收藏夹中同时出现的次数多少,确定待改编小说的相似小说。相似小说的确定方式包括但不限于以上2种。
再次利用S30中的方式,对相似小说,构建主角成长轨迹有向无环图。
S50、利用第二有向无环图,对第一有向无环图进行拓展;
需要说明的是,此过程是将相似小说对应的有向无环图中的不同角色的角色状态与待改编小说角色的某个角色状态比对,选取与待改编小说角色状态最相近的一个或多个角色状态,并拼接被选用的一个或多个角色状态的下一个角色状态。
例如,待改编小说的角色状态为:A0→A1→A2。
有一篇相似小说的角色状态为:B0→B1→B2→B3。
另一篇相似小说的角色状态为:C0→C1→C2。
通过前述角色状态比对方式,不同小说之间,两两比对角色状态,得到与A1最相近的角色状态为B2,与A0最相近的角色状态为C0。则进行待改编小说的角色的成长轨迹的拓展,具体地,301表示C0的下一个角色状态C1。因为C0与A0最相近,所以将C0的下一个角色状态C1,加入待改编小说的角色状态A0的下一个角色状态;302表示B2的下一个角色状态B3。因为B2与A1最相近,所以将B2的下一个角色状态B3,加入待改编小说的角色状态A1的下一个角色状态。
通过以上方式,完成角色成长轨迹拓展。如图6所示,成功添加3条角色成长轨迹,分别是新轨迹1,新轨迹2,新轨迹3。
S60、获取并展示第二有向无环图中各成长轨迹的评价指标的分析结果以及最终的分析结果。
例如,可选讨论热门程度指标,统计不同角色状态的评论次数,并将成长轨迹上所有角色状态的评论次数相加,得到成长轨迹的讨论热门程度指标的得分值;最后根据评价指标的得分值通过等权或不等权方式,线性或非线性加权方式得到最终的分析结果。
综上可知,本申请实施例中提出,构建角色成长轨迹的有向无环图,并根据大数据进一步拓展角色的成长轨迹的方法,是现有技术不具备的;因现有技术缺乏对小说改编剧本的辅助支持,缺乏对小说阅读大数据的应用;本申请实施例根据小说的特征数据,构建角色成长轨迹的有向无环图,且进一步结合小说阅读大数据,根据相似小说拓展主角成长轨迹有向无环图,并能提供每条成长轨迹的评价指标的分析结果,以达到对小说改编剧本的辅助支持的目的。
如图7所示,本申请的至少一个实施例还提供一种文本分析装置700,包括:
第一获取模块701,用于根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
第二获取模块702,用于根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
第三获取模块703,用于根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
可选地,所述特征数据包括:阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
可选地,所述第一获取模块701,包括:
第一获取单元,用于根据所述特征数据,获取所述第一文本中的目标文本块,所述目标文本块为段落或章节;
提取单元,用于根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
生成单元,用于根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图。
可选地,所述第一获取单元,用于:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的权重大于或等于第二预设值。
可选地,所述生成单元,用于:
根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
可选地,所述第二获取模块702,包括:
第二获取单元,用于获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
比对单元,用于将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
选取单元,用于在所述第三有向无环图中选取K个第一角色状态,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
第三获取单元,用于将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后;
将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图;
其中,K为大于或等于1的整数。
可选地,所述第三获取模块703,包括:
第四获取单元,用于获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果;
确定单元,用于根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
可选地,所述确定单元,用于:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
需要说明的是,本申请的至少一个实施例提供的装置是能够执行上述文本分析方法的装置,则上述文本分析方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本申请的至少一个实施例还提供一种文本分析装置,包括收发机和处理器;
所述处理器,用于:根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
可选地,所述特征数据包括:阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
可选地,所述处理器,用于:
根据所述特征数据,获取所述第一文本中的目标文本块,所述目标文本块为段落或章节;
根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图。
可选地,所述处理器,用于:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的权重大于或等于第二预设值。
可选地,所述处理器,用于:
根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
可选地,所述处理器,用于:
获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
在所述第三有向无环图中选取K个第一角色状态,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后;
将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图;
其中,K为大于或等于1的整数。
可选地,所述处理器,用于:
获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果;
根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
可选地,所述处理器,用于:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
如图8所示,本发明实施例还提供一种文本分析装置,包括处理器800、收发机810、存储器820及存储在所述存储器820上并可在所述处理器800上运行的程序;其中,收发机810通过总线接口与处理器800和存储器820连接,其中,所述处理器800用于读取存储器中的程序,执行下列过程:
根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
收发机810,用于在处理器800的控制下接收和发送数据。
其中,在图8中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器800代表的一个或多个处理器和存储器820代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机810可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元,这些传输介质包括,这些传输介质包括无线信道、有线信道、光缆等传输介质。
处理器800负责管理总线架构和通常的处理,存储器820可以存储处理器800在执行操作时所使用的数据。
可选的,处理器800可以是CPU(中央处理器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件),处理器也可以采用多核架构。
处理器通过调用存储器存储的计算机程序,用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器与存储器也可以物理上分开布置。
可选地,所述特征数据包括:阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
进一步地,所述处理器800执行所述程序时实现以下步骤:
根据所述特征数据,获取所述第一文本中的目标文本块,所述目标文本块为段落或章节;
根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图。
进一步地,所述处理器800执行所述程序时实现以下步骤:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的权重大于或等于第二预设值。
进一步地,所述处理器800执行所述程序时实现以下步骤:
根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
进一步地,所述处理器800执行所述程序时实现以下步骤:
获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
在所述第三有向无环图中选取K个第一角色状态,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后;
将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图;
其中,K为大于或等于1的整数。
进一步地,所述处理器800执行所述程序时实现以下步骤:
获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果;
根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
进一步地,所述处理器800执行所述程序时实现以下步骤:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
本申请的至少一个实施例还提供一种文本分析装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现文本分析方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可以理解上述的文本分析装置位于网络设备(例如,转发设备)中。
本申请的至少一个实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本分析方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种文本分析方法,其特征在于,包括:
根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述特征数据包括:阅读用户对所述第一文本的阅读行为数据和所述第一文本的属性数据中的至少一项。
3.根据权利要求1或2所述的方法,其特征在于,所述获取所述第一文本中的目标角色的成长轨迹的第一有向无环图,包括:
根据所述特征数据,获取所述第一文本中的目标文本块,所述目标文本块为段落或章节;
根据所述目标文本块,分别提取所述目标角色对应的角色状态作为第一有向无环图的节点;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述特征数据,获取所述第一文本中的目标文本块,包括:
获取所述第一文本对应的所有文本块的特征数据的权重;
根据所述权重,在所有文本块中选取多个目标文本块;
其中,所述目标文本块的权重大于或等于第二预设值。
5.根据权利要求3所述的方法,其特征在于,所述根据每个角色状态在对应的目标文本块中出现的先后顺序以及多个目标文本块之间的先后顺序,生成所述第一有向无环图,包括:
根据相邻的两个目标文本块中第一目标文本块的内容,确定所述相邻的两个目标文本块对应的节点之间的事件;
根据每个角色状态在对应的目标文本块中出现的先后顺序以及节点之间的事件,生成所述第一有向无环图;
其中,所述第一目标文本块为相邻的两个目标文本块中时间靠前的目标文本块。
6.根据权利要求1所述的方法,其特征在于,所述根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,包括:
获取所述第二文本的第一角色的成长轨迹的第三有向无环图;
将所述第三有向无环图中第一角色的不同角色状态分别与所述第一有向无环图中的目标角色的角色状态进行比对;
在所述第三有向无环图中选取K个第一角色状态,所述第一角色状态与所述第一有向无环图中的目标角色的角色状态的相似度大于或等于第三预设值;
将所述第一有向无环图中的目标角色的角色状态与第二角色状态进行拼接,获取目标角色的新增成长轨迹,所述第二角色状态在所述第三有向无环图中与所述第一角色状态相邻、且位于所述第一角色状态之后;
将所述新增成长轨迹添加到所述第一有向无环图,形成第二有向无环图;
其中,K为大于或等于1的整数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果,包括:
获取所述第二有向无环图中的所述目标角色的所述成长轨迹的第一分析结果,所述第一分析结果包括对所述成长轨迹所包含的角色状态的评价指标的分析结果;
根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一分析结果,确定所述目标角色的所述成长轨迹的分析结果,包括:
将所述成长轨迹所包含的角色状态的评价指标的分析结果进行加权求和,确定所述成长轨迹的分析结果。
9.一种文本分析装置,其特征在于,包括:
第一获取模块,用于根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
第二获取模块,用于根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
第三获取模块,用于根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
10.一种文本分析装置,其特征在于,包括收发机和处理器;
所述处理器,用于:根据第一文本的特征数据,获取所述第一文本中的目标角色的成长轨迹的第一有向无环图;
根据第二文本,对所述第一有向无环图进行拓展,获取第二有向无环图,所述第二文本与所述第一文本的相关度大于或等于第一预设值;
根据所述第二有向无环图,获取所述目标角色的所述成长轨迹的分析结果。
11.一种文本分析装置,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-8任一项所述的文本分析方法的步骤。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一项所述的方法中的步骤。
CN202210517692.1A 2022-05-12 2022-05-12 文本分析方法及装置 Pending CN114936289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210517692.1A CN114936289A (zh) 2022-05-12 2022-05-12 文本分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210517692.1A CN114936289A (zh) 2022-05-12 2022-05-12 文本分析方法及装置

Publications (1)

Publication Number Publication Date
CN114936289A true CN114936289A (zh) 2022-08-23

Family

ID=82865129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210517692.1A Pending CN114936289A (zh) 2022-05-12 2022-05-12 文本分析方法及装置

Country Status (1)

Country Link
CN (1) CN114936289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片
CN117521628B (zh) * 2023-11-20 2024-05-28 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片

Similar Documents

Publication Publication Date Title
CN106919655B (zh) 一种答案提供方法和装置
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
CN101283353B (zh) 通过分析标签找到相关文档的系统和方法
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
US20180239829A1 (en) Providing query explanations for automated sourcing
CN104836720A (zh) 交互式通信中进行信息推荐的方法及装置
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
CN111382228A (zh) 用于输出信息的方法和装置
CN112507139B (zh) 基于知识图谱的问答方法、系统、设备及存储介质
US20190122667A1 (en) Question Urgency in QA System with Visual Representation in Three Dimensional Space
CN111737608B (zh) 企业信息检索结果排序方法及装置
CN111369294B (zh) 软件造价估算方法及装置
CN110990627A (zh) 一种知识图谱构建的方法、装置、电子设备及介质
CN111666513A (zh) 页面处理方法、装置、电子设备及可读存储介质
CN111428093A (zh) 基于实体对齐的可视化图谱融合方法及系统
CN114936289A (zh) 文本分析方法及装置
US20170109411A1 (en) Assisted creation of a search query
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN109582846A (zh) 通过文章进行搜索的方法、装置、电子设备及存储介质
Kong et al. Hybrid recommendation of personalized MOOC resources: A user context-aware approach
CN113064982A (zh) 一种问答库生成方法及相关设备
Sun et al. CROA: A Content-Based Recommendation Optimization Algorithm for Personalized Knowledge Services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination