CN113128205B

CN113128205B - 一种剧本信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN113128205B
Application number: CN202110517561.9A
Authority: CN
Inventors: 喻想想
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2023-07-18
Anticipated expiration: 2041-05-12
Also published as: CN113128205A

Abstract

本发明涉及一种剧本信息处理方法、装置、电子设备及存储介质，其中，剧本信息处理方法包括：获取剧本文件，在剧本文件正文的语句中查找人物名称；确定人物名称所属的语句及人物名称在语句中的位置；确定语句中位置两侧的词语的词性，按照词性选取目标词语；将目标词语确定为与人物名称对应的身份关键词。本发明实施例能够通过在剧本文件正文中查找包含人物名称的语句，基于语句词语的词性，选取语句中人物名称两侧目标词语作为身份关键词，实现自动基于剧本文件的正文识别人物的身份，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物身份识别的效率。

Description

一种剧本信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种剧本信息处理方法、装置、电子设备及存储介质。

背景技术

剧本中一般会包含多个人物的对话和舞台提示(如：人物说话的语气、说话时的动作，或人物上下场、指出场景或其它效果变换等)等内容，而剧本中某些人物可能会有隐藏身份的情况，业务方需要了解剧本中人物的身份信息可能需要阅读整个剧本，耗时较长且效率低。

相关技术中，对剧本中人物的身份识别，大多融合在实体关系抽取任务中，任务类型庞大且复杂，需要人工标注大量的语料对模型进行训练，效率非常低，而且模型的训练和后续使用过程都会浪费系统大量的计算资源。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种剧本信息处理方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种剧本信息处理方法，包括：

获取剧本文件，在所述剧本文件正文的语句中查找人物名称；

确定所述人物名称所属的语句及所述人物名称在所述语句中的位置；

确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语；

将目标词语确定为与所述人物名称对应的身份关键词。

可选地，按照词性选取目标词语，包括：

获取所述语句中所述位置之后第一个出现的名词，若该词语位于预设身份词库中，将所述词语确定为目标词语；

或者，若所述语句中所述位置之前，由连续若干个词语构成的短语中各词语的词性均位于预设第一词性集合中，将所述短语确定为目标词语。

可选地，若在所述剧本文件中检测到与所述人物名称对应的人物小传的小传关键词，所述方法还包括：

在所述人物小传的语句中查找位于预设关键词集合内的关键词语；

若任一语句中包含关键词语，将所述语句中关键词语之后的词语确定为与所述人物名称对应的身份关键词；

或者，确定人物小传的每个语句中词语的词性；

若任一语句中各词语的词性均位于预设第二词性集合中，将所述语句确定为与所述人物名称对应的身份关键词。

可选地，还包括：

确定所述人物名称中是否包含具有性别属性的文字；

若所述人物名称中不包含具有性别属性的文字，确定所述人物名称中是否包含具有性别属性的指代词；

或者，若所述人物名称中不包含具有性别属性的指代词，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，所述身份-性别属性词典中不包含预设干扰字；

或者，若根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败，基于所述人物名称计算人物为男性性别或者女性性别的概率，按照最大的概率对应的性别确定与所述人物名称对应的人物的性别。

可选地，还包括：

若所述人物名称中包含具有性别属性的文字，确定所述具有性别属性的文字是否位于女性关键字集合或者男性关键字集合；

若所述具有性别属性的文字位于女性关键字集合中的文字，确定人物名称对应的性别为女性；

若所述具有性别属性的文字位于男性关键字集合中的文字，确定人物名称对应的性别为男性。

可选地，还包括：

若所述人物名称中包含具有性别属性的指代词，且该指代词在所述身份-性别属性词典中存在对应的性别，将该指代词在所述身份-性别属性词典中对应的性别确定为所述人物名称对应的性别。

可选地，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，包括：

获取与所述人物名称对应的身份关键词在剧本文件中的出现频次；

按照所述身份-性别属性词典，将与所述人物名称对应的身份关键词转化为对应的性别，并统计男性性别和女性性别对应的频次；

若男性性别和女性性别对应的频次不同，将频次最大的性别确定为所述人物名称对应的性别，并确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别成功；

若男性性别和女性性别对应的频次相同，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败。

可选地，基于所述人物名称计算人物为男性性别或者女性性别的概率，包括：

判断所述人物名称中的姓氏部分是否位于预设的姓氏词典中；

若所述姓氏部分位于所述姓氏词典中，计算所述人物名称对应的人物为男性性别或者女性性别的概率；

若所述姓氏部分不位于所述姓氏词典中，为所述人物名称添加姓氏，得到新的人物名称，计算所述新的人物名称对应的人物为男性性别或者女性性别的概率。

第二方面，本申请提供了一种剧本信息处理装置，包括：

第一获取模块，用于获取剧本文件，在所述剧本文件正文的语句中查找人物名称；

第一确定模块，用于确定所述人物名称所属的语句及所述人物名称在所述语句中的位置；

第二确定模块，用于确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语；

第三确定模块，用于将目标词语确定为与所述人物名称对应的身份关键词。

第三方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的剧本信息处理方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现第一方面任一所述的剧本信息处理方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例通过首先获取剧本文件，在所述剧本文件正文的语句中查找人物名称，然后确定所述人物名称所属的语句及所述人物名称在所述语句中的位置，确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语，最后可以将目标词语确定为与所述人物名称对应的身份关键词。

本发明实施例能够通过在剧本文件正文中查找包含人物名称的语句，基于这些语句中人物名称两侧的词语的词性，选取语句中人物名称两侧目标词语作为身份关键词，实现自动基于剧本文件的正文识别人物的身份，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物身份识别的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种剧本信息处理方法的流程图；

图2为本申请实施例提供的一种剧本信息处理装置的结构图；

图3为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，对剧本中人物的身份识别，大多融合在实体关系抽取任务中，任务类型庞大且复杂，需要人工标注大量的语料对模型进行训练，效率非常低，而且模型的训练和后续使用过程都会浪费系统大量的计算资源。为此，本申请实施例提供的一种剧本信息处理方法、装置、电子设备及存储介质，其中，剧本信息处理方法可以应用于计算机中。

如图1所示，剧本信息处理方法可以包括以下步骤：

步骤S101，获取剧本文件，在所述剧本文件正文的语句中查找人物名称；

本发明实施例中，剧本文件指待对剧本人物进行身份识别的文件，剧本文件的正文中包括多个语句；有的剧本文件中除正文外还包括人物小传，人物小传是简略记载人物生平事迹的文章。

可以预先建立一个人物属性词典，用以存放提取到的人物关键词，人物属性词典中包含以下信息：{人物1：{关键词1：频次，关键词2：频次}，人物2：{……}}。

在该步骤中，可以将剧本文件的正文按照用于分隔语句的标点进行分割，示例性的，可以按照如下标点进行分割：[，！。…：；？]。在分割得到的每个语句中，按照预设的与剧本文件对应的剧本人物集合中的人物关键词查找剧本文件正文的人物名称。

步骤S102，确定所述人物名称所属的语句及所述人物名称在所述语句中的位置；

在该步骤中，可以针对每个包含人物名称的语句，定位人物名称在该语句中的位置，示例性的，位置可以指在整个语句中的第几个字符等等。

步骤S103，确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语；

在本发明实施例中，预设词性条件可以指词性为名词或者名词性短语等。

在该步骤中，将语句中人物名称所在位置左右两侧的文本进行分词，并识别分词得到的每个词语的词性，按照词性选择目标一个或多个词语。

步骤S104，将目标词语确定为与所述人物名称对应的身份关键词。

在该步骤中，可以将人物名称对应的身份关键词存入人物属性词典中，并累加该身份关键词在剧本文件中的出现频次，以便后续使用。

在本发明的又一实施例中，按照词性选取目标词语，包括：

步骤201，获取所述语句中所述位置之后第一个出现的名词，若该名词位于预设身份词库中，将所述词语确定为目标词语；

在本发明实施例中，可以预先构建身份词库，以用于存储多个形容人物身份的词语，如：领导、首长、长辈、总经理、总裁、董事长、商人、大款、老板、处长、科长、爷爷、奶奶、外公、外婆、叔叔、婶婶等等。

在该步骤中，在所述语句中所述位置之后的若干个词语中，获取第一个出现的名词，若该名词位于身份词库中，将该词语确定为目标词语，可以作为与该语句中的人物名称对应的身份关键词。

或者，步骤202，若所述语句中所述位置之前，由连续若干个词语构成的短语中各词语的词性均位于预设第一词性集合中，将所述短语确定为目标词语。

在本发明实施例中，可以预先构建第一词性集合，第一词性集合中包含以下词性[名词(n)，数词(m)，形容词(a)，人名(nr)，地名(ns)，机构团体(nt),其他专名(nz)，新词(nw)，名动词(vn)位置(LOC),人名(PER)，组织(ORG)]等。

在该步骤中，在所述语句中所述位置之前的词语中，获取由连续出现的若干个词语构成的短语，若该连续出现的若干个词语的词性均位于预设第一词性集合中，可以将该短语中的词语作为与该语句中的人物名称对应的身份关键词。

本发明实施例中，能够自动根据词语的词性，在人物名称所在的语句中自动查找目标词语，便于将查找到的词语作为身份关键词，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物身份识别的效率。

在本发明的又一实施例中，若在所述剧本文件中检测到与所述人物名称对应的人物小传的小传关键词，可以确定剧本文件中有该人物名称对应的人物小传，可以将人物小传解析为如下格式：{人物：人物描述，人物：人物描述}，所述剧本信息处理方法还包括：

步骤301，在所述人物小传的语句中查找位于预设关键词集合内的关键词语；

在本发明实施例中，可以预先构建预设关键词集合，用以存储预先定义的关键词语，关键词语一般用于引出人物身份，预设关键词集合中可以包括：[前任，后任，作为，身为，现为，也是，本是，是一个，是个，是，身兼，称为，人称，一个]等。

在该步骤中，可以将人物小传按照用于分隔语句的标点进行分割，示例性的，可以按照如下标点进行分割：[，！。…：；？]。在分割得到的每个语句中查找位于预设关键词集合内的关键词。

步骤302，若任一语句中包含关键词语，将所述语句中关键词语之后的词语确定为与所述人物名称对应的身份关键词；

例如：人物小传中的语句为“作为江浙第一侠义大寇，”语句中关键词语之后的文本为“江浙第一侠义大寇”，该文本中包括一个或多个词语，将文本中包括的这些词语确定为与人物名称对应的身份关键词。

例如：人物小传中的语句为“同时也是朱朝阳同学叶驰敏的爸爸，”语句中关键词语之后的文本为“朱朝阳同学叶驰敏的爸爸”，该文本中包括一个或多个词语，将文本中包括的这些词语确定为与人物名称对应的身份关键词。

或者，步骤303，确定人物小传的每个语句中词语的词性；

在该步骤中，可以针对人物小传中的每个语句，利用分词工具分词，得到语句中的词语及词语的词性。

步骤304，若任一语句中各词语的词性均位于预设第二词性集合中，将所述语句确定为与所述人物名称对应的身份关键词。

本发明实施例中，可以预先构建第二词性集合，第二词性集合中包含以下词性[名词(n)，数词(m)，形容词(a)，标点符号(w)，方位词(f)，处所词(s)，副词(d)，时间词(t)，人名(nr)，地名(ns)，机构团体(nt),其他专名(nz)，新词(nw)，名动词(vn)位置(LOC)，人名(PER)，组织(ORG)]等。

在该步骤中，若所述语句中的词语的词性均位于预设第二词性集合中，可以将该语句中的词语作为与人物名称对应的身份关键词，将人物名称对应的身份关键词存入人物属性词典中，并累加该身份关键词在剧本文件中的出现频次，以便后续使用。

本发明实施例能够自动根据词语的词性，在人物小传的各语句中自动查找能够作为身份关键词的词语，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物身份识别的效率。

基于前述实施例，在本发明的又一实施例中，所述方法还包括：

步骤401，获取每个身份关键词在剧本文件中的出现频次；

在该步骤中，可以在人物属性词典中针对每个人物，获取各身份关键词的出现频次。

步骤402，在与每个人物名称对应的身份关键词中，若任一身份关键词包含另一身份关键词，删除被包含的身份关键词，保留字数最多的身份关键词，并累加频次；

在该步骤中，可以在与每个人物名称对应的身份关键词中，比较任意两个身份关键词，如果一个身份关键词包含另一个身份关键词，则进行合并，取字数多的身份关键词作为结果，并累加频次。

例如，某个角色对应的身份关键词包括：{大将军：2，楚国大将军：3}，将被合并为{楚国大将军：5}。

步骤403，过滤各身份关键词中的关系词、与人物性别矛盾的身份关键词及不属于预设身份-职业-关系词表中的短句或语句，保留具有人物描述和人物排行关系关联的关系词；

前述实施例得到的人物属性词典中可能有很多不属于身份-职业-关系表的短语，因此本发明实施例中需对其进行过滤操作，过滤规则如下：

1)单独的关系词过滤，如：女儿、丈夫、哥哥，但保留具有人物描述和排行相关的关系词，如：沈天君的二女儿，穆婉秋的姐姐；

2)性别过滤，如：妈妈，若人物为男性，则过滤该关键词；

3)非关系-身份-职位后缀过滤，若关键词后缀不属于“身份-性别”属性中所收集的关系-身份-职位词表，则过滤该关键词。

本发明实施例能够自动对每个人物对应的身份关键词中，重复的身份关键词进行合并，并且过滤掉不能够修饰人物身份的身份关键词，以使每个人物对应的身份关键词更加准确。

为了能够对剧本文件中的人物进行性别识别，在本发明的又一实施例中，所述方法还包括：

步骤501，确定所述人物名称中是否包含具有性别属性的文字；

在一些应用场景中，剧本文件的人物名称中可能会自带性别属性，如：张大妈，猪皮哥，孙三娘，女骷髅等，为了确定所述人物名称中是否包含具有性别属性的文字，本发明实施例可以预先构建女性关键字集合，女性关键字集合中包含用于将人物确定为女性性别的关键字，示例性的，女性关键字集合包括：女母妈娘姐妹婶嫂姑姨婆妇嫔妃等。

还可以预先构建男性关键字集合，男性关键字集合中包含用于将人物确定为男性性别的关键字，示例性的，男性关键字集合包括：男哥叔伯郎爷。

在该步骤中，可以将人物名称中首个文字或者末尾的文字与女性关键字集合和男性关键字集合中的文字对比，若人物名称的首个文字或者末尾的文字位于女性关键字集合或者男性关键字集合，可以确定人物名称中包含具有性别属性的文字，否则，确定人物名称中包含具有性别属性的文字。

步骤502，若所述人物名称中不包含具有性别属性的文字，确定所述人物名称中是否包含具有性别属性的指代词；

在一些应用场景中，剧本文件的人物名称中可能会包含指代属性的词语，如：米高父亲，柯腾妈妈，戚少爷，朴太太等，为了能够对剧本文件中的人物进行性别识别，本发明实施例可以预先构建身份-性别属性词典，身份-性别属性词典的格式为：{词语：性别，词语：性别}，身份-性别属性词典中每个词语为身份对应的词语，性别为预先为该词语定义的性别，示例性的，身份-性别属性词典的部分内容包括：{父亲：男，母亲：女，妹妹：女，哥哥：男……}，身份-性别属性词典可以预先人为配置，为了避免一些人物名称被直接判定为男性，如：赵灵儿，萧慧子，可以去掉身份-性别属性词典中的预设干扰字，如：“子”和“儿”。

在该步骤中，可以将人物名称的末尾词与身份-性别属性词典中的词语对比，若该末尾词与身份-性别属性词典中的任一词语相同，则可以确定人物名称中包含具有性别属性的指代词；若该末尾词与身份-性别属性词典中的任一词语均不相同，则可以确定人物名称中不包含具有性别属性的指代词。

或者，步骤503，若所述人物名称中不包含具有性别属性的指代词，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，所述身份-性别属性词典中不包含预设干扰字；

在该步骤中，可以将人物名称对应的身份关键词按照身份-性别属性词典转化为性别，若基于转化后的性别确定人物为男性性别和女性性别的频次不同，则可以确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功；若基于转化后的性别确定人物为男性性别和女性性别的频次相同，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别失败。

或者，步骤504，若根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败，基于所述人物名称计算人物为男性性别或者女性性别的概率，按照最大的概率对应的性别确定与所述人物名称对应的人物的性别。

在该步骤中，可以利用男女姓名用字概率判别工具计算人物为男性性别或者女性性别的概率，并按照最大的概率对应的性别确定与所述人物名称对应的人物的性别。

本发明实施例能够自动使用多种方式识别剧本文件中人物的性别，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物性别识别的效率。

在本发明的又一实施例中，所述方法还包括：

步骤601，若所述人物名称中包含具有性别属性的文字，确定所述具有性别属性的文字是否位于女性关键字集合或者男性关键字集合；

步骤602，若所述具有性别属性的文字位于女性关键字集合中的文字，确定人物名称对应的性别为女性；

步骤603，若所述具有性别属性的文字位于男性关键字集合中的文字，确定人物名称对应的性别为男性。

本发明实施例能够自动根据人物名称中自带的属性确定人物的性别，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物性别识别的效率。

在本发明的又一实施例中，所述方法还包括：

步骤701，若所述人物名称中包含具有性别属性的指代词，且该指代词在所述身份-性别属性词典中存在对应的性别，将该指代词在所述身份-性别属性词典中对应的性别确定为所述人物名称对应的性别。

本发明实施例能够自动根据人物名称中具有性别属性的指代词自动确定人物的性别，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物性别识别的效率。

在本发明的又一实施例中，所述确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，包括：

步骤801，获取与所述人物名称对应的身份关键词在剧本文件中的出现频次；

由于前述实施例针对剧本文件中每个人物对应的身份关键词均统计了出现频次，所以本发明实施例可以获取每个身份关键词的出现频次。

步骤802，按照所述身份-性别属性词典，将与所述人物名称对应的身份关键词转化为对应的性别，并统计男性性别和女性性别对应的频次；

由于每个身份关键词均有对应的出现频次，所以可以在将身份关键词转化为性别时，累加转化为同一性别的频次，例如：人物甲的身份关键词大伯：3次，大舅2次，则将大伯转化为男性性别时，累加得到男性性别对应的频次为3次，将大舅转化为男性性别时，累加得到男性性别对应的频次为5次。

步骤803，若男性性别和女性性别对应的频次不同，将频次最大的性别确定为所述人物名称对应的性别，并确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别成功；

若人物乙为男性性别对应的频次为3次，为女性性别对应的频次为12次，3<12，则可以确定人物乙为女性。

步骤804，若男性性别和女性性别对应的频次相同，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败。

若人物丙为男性性别对应的频次为5次，为女性性别对应的频次为5次，5＝5，则可以确定人物丙的性别失败。

本发明实施例能够自动根据人物名称对应的身份关键词自动确定人物的性别，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物性别识别的效率。

在本发明的又一实施例中，基于所述人物名称计算人物为男性性别或者女性性别的概率，包括：

步骤901，判断所述人物名称中的姓氏部分是否位于预设的姓氏词典中；

由于实际应用中，男女姓名用字概率判别工具默认人物名称中第一个字为姓氏，某些名字有姓氏和没有姓氏时，会判定成不同的性别，如：玉墨在没有姓氏时，可能被判定为男性，赵玉墨在有姓氏时，可能被判定为女性，为了避免这种误判的情况，本发明实施例需要首先判断人物名称中是否包含姓氏。本发明实施例中的姓氏词典可以指百家姓词典等。

在该步骤中，可以判断人物名称的首个文字是否位于姓氏词典中，如果不在，判断人物名称的前两个文字是否位于姓氏词典中，若还不在，则确定该人物名称不包含姓氏部分。

步骤902，若所述姓氏部分位于所述姓氏词典中，计算所述人物名称对应的人物为男性性别或者女性性别的概率；

在该步骤中，将人物名称输入男女姓名用字概率判别工具中，男女姓名用字概率判别工具即可输出人物为男性性别或者女性性别的概率。

步骤903，若所述姓氏部分不位于所述姓氏词典中，为所述人物名称添加姓氏，得到新的人物名称，计算所述新的人物名称对应的人物为男性性别或者女性性别的概率。

在该步骤中，可以在姓氏词典中随机选择一个姓氏，添加至人物名称前面，即可得到新的人物名称，或者，可以在姓氏词典中排名靠前的若干个姓氏中随机选择一个姓氏，添加至人物名称前面，即可得到新的人物名称。

本发明实施例可以将新的人物名称输入男女姓名用字概率判别工具中，男女姓名用字概率判别工具即可输出人物为男性性别或者女性性别的概率。

本发明实施例能够自动根据人物名称中的每个文字自动确定人物的性别，无需人工标注大量的训练样本，也无需大量的模型训练，节省系统资源，节省人物身份识别的时间，提高人物性别识别的效率。

在本发明的又一实施例中，如图2所示，还提供一种剧本信息处理装置，包括：

第一获取模块11，用于获取剧本文件，在所述剧本文件正文的语句中查找人物名称；

第一确定模块12，用于确定所述人物名称所属的语句及所述人物名称在所述语句中的位置；

第二确定模块13，用于确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语；

第三确定模块14，用于将目标词语确定为与所述人物名称对应的身份关键词。

可选地，第二确定模块13，包括：

第一确定单元，用于获取所述语句中所述位置之后第一个出现的名词，若该词语位于预设身份词库中，将所述词语确定为目标词语；

或者，第二确定单元，用于若所述语句中所述位置之前，由连续若干个词语构成的短语中各词语的词性均位于预设第一词性集合中，将所述短语确定为目标词语。

可选地，若在所述剧本文件中检测到与所述人物名称对应的人物小传的小传关键词，所述装置还包括：

查找模块，用于在所述人物小传的语句中查找位于预设关键词集合内的关键词语；

第四确定模块，用于若任一语句中包含关键词语，将所述语句中关键词语之后的词语确定为与所述人物名称对应的身份关键词；

或者，第五确定模块，用于确定人物小传的每个语句中词语的词性；

第六确定模块，用于若任一语句中各词语的词性均位于预设第二词性集合中，将所述语句确定为与所述人物名称对应的身份关键词。

可选地，所述装置还包括：

第七确定模块，用于确定所述人物名称中是否包含具有性别属性的文字；

第八确定模块，用于若所述人物名称中不包含具有性别属性的文字，确定所述人物名称中是否包含具有性别属性的指代词；

或者，第九确定模块，用于若所述人物名称中不包含具有性别属性的指代词，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，所述身份-性别属性词典中不包含预设干扰字；

或者，第十确定模块，用于若根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败，基于所述人物名称计算人物为男性性别或者女性性别的概率，按照最大的概率对应的性别确定与所述人物名称对应的人物的性别。

可选地，所述装置还包括：

第十一确定模块，用于若所述人物名称中包含具有性别属性的文字，确定所述具有性别属性的文字是否位于女性关键字集合或者男性关键字集合；

第十二确定模块，用于若所述具有性别属性的文字位于女性关键字集合中的文字，确定人物名称对应的性别为女性；

第十三确定模块，用于若所述具有性别属性的文字位于男性关键字集合中的文字，确定人物名称对应的性别为男性。

可选地，所述装置还包括：

第十四确定模块，用于若所述人物名称中包含具有性别属性的指代词，且该指代词在所述身份-性别属性词典中存在对应的性别，将该指代词在所述身份-性别属性词典中对应的性别确定为所述人物名称对应的性别。

可选地，第九确定模块，包括：

获取单元，用于获取与所述人物名称对应的身份关键词在剧本文件中的出现频次；

转换统计单元，用于按照所述身份-性别属性词典，将与所述人物名称对应的身份关键词转化为对应的性别，并统计男性性别和女性性别对应的频次；

第三确定单元，用于若男性性别和女性性别对应的频次不同，将频次最大的性别确定为所述人物名称对应的性别，并确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别成功；

第四确定单元，用于若男性性别和女性性别对应的频次相同，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败。

可选地，第十确定模块，包括：

判断单元，用于判断所述人物名称中的姓氏部分是否位于预设的姓氏词典中；

第一计算单元，用于若所述姓氏部分位于所述姓氏词典中，计算所述人物名称对应的人物为男性性别或者女性性别的概率；

第二计算单元，用于若所述姓氏部分不位于所述姓氏词典中，为所述人物名称添加姓氏，得到新的人物名称，计算所述新的人物名称对应的人物为男性性别或者女性性别的概率。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述任一方法实施例所述的剧本信息处理方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了首先获取剧本文件，在所述剧本文件正文的语句中查找人物名称，然后确定所述人物名称所属的语句及所述人物名称在所述语句中的位置，确定所述语句中所述位置两侧的词语的词性，按照词性选取目标词语，最后可以将目标词语确定为与所述人物名称对应的身份关键词。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现前述任一方法实施例所述的剧本信息处理方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种剧本信息处理方法，其特征在于，包括：

将所述目标词语确定为与所述人物名称对应的身份关键词；

所述方法还包括：

确定所述人物名称中是否包含具有性别属性的文字；

若所述人物名称中不包含具有性别属性的指代词，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，所述身份-性别属性词典中不包含预设干扰字；

若根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词确定人物的性别失败，基于所述人物名称计算人物为男性性别或者女性性别的概率，按照最大的概率对应的性别确定与所述人物名称对应的人物的性别；

其中，确定根据预设的身份-性别属性词典及与所述人物名称对应的身份关键词是否确定人物的性别成功，包括：

2.根据权利要求1所述的剧本信息处理方法，其特征在于，按照词性选取目标词语，包括：

获取所述语句中所述位置之后第一个出现的名词，若该名词位于预设身份词库中，将所述词语确定为目标词语；

3.根据权利要求1所述的剧本信息处理方法，其特征在于，若在所述剧本文件中检测到与所述人物名称对应的人物小传的小传关键词，所述方法还包括：

或者，确定人物小传的每个语句中词语的词性；

4.根据权利要求1所述的剧本信息处理方法，其特征在于，还包括：

5.根据权利要求1所述的剧本信息处理方法，其特征在于，还包括：

6.根据权利要求1所述的剧本信息处理方法，其特征在于，基于所述人物名称计算人物为男性性别或者女性性别的概率，包括：

7.一种剧本信息处理装置，其特征在于，包括：

第三确定模块，用于将所述目标词语确定为与所述人物名称对应的身份关键词；

所述装置还用于：

确定所述人物名称中是否包含具有性别属性的文字；

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1~6任一所述的剧本信息处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现权利要求1-6任一所述的剧本信息处理方法的步骤。