CN112270198A

CN112270198A - 角色确定方法、装置、电子设备及存储介质

Info

Publication number: CN112270198A
Application number: CN202011163041.4A
Authority: CN
Inventors: 王毅; 白洁; 潘政林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-26
Anticipated expiration: 2040-10-27
Also published as: CN112270198B

Abstract

本申请公开了一种角色确定方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为深度学习和自然语言处理技术领域。具体实现方案为：基于指定文本中的目标对白文本，构建相应的目标样本；用预先训练的角色预测模型，基于所述目标样本，预测所述目标对白文本对应的角色的位置信息；基于所述角色的位置信息和所述目标样本，确定相应的角色。本申请的技术方案，可以实现对文本中的对白文本的角色进行确定，进而可以实现对白文本的角色的标注，为AI的多角色有声朗读提供了有效地基础，能够有助于AI的多角色有声朗读的大规模运营。

Description

角色确定方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习和自然语言处理技术领域，具体涉及一种角色确定方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

近年来，围绕AI出现了越来越多的应用。例如，基于AI所实现的朗读在市场上变得越来越受关注。理论上而言，基于AI的有声或语音朗读可以用于朗读多角色有声小说，实现基于AI技术，对小说中的角色进行标注，并提取各角色的特性；然后分别参考各角色的特性，对相应角色的对白文本进行有声朗读。

但是，现有的AI多角色朗读在大规模运用中，还需要解决对白文本的角色标注等问题。

发明内容

本申请提供了一种角色确定方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种角色确定方法，其中，所述方法包括：

基于指定文本中的目标对白文本，构建相应的目标样本；

采用预先训练的角色预测模型，基于所述目标样本，预测所述目标对白文本对应的角色的位置信息；

基于所述角色的位置信息和所述目标样本，确定相应的角色。

根据本申请的另一方面，提供了一种角色确定装置，其中，所述装置包括：

构建模块，用于基于指定文本中的目标对白文本，构建相应的目标样本；

预测模块，用于采用预先训练的角色预测模型，基于所述目标样本，预测所述目标对白文本对应的角色的位置信息；

确定模块，用于基于所述角色的位置信息和所述目标样本，确定相应的角色。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术，可以实现对文本中的对白文本的角色进行确定，进而可以实现对白文本的角色的标注，为AI的多角色有声朗读提供了有效地基础，能够有助于AI的多角色有声朗读的大规模运营。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是本实施例中的角色预测模型的结构示意图。

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是用来实现本申请实施例的角色确定方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种角色确定方法，具体可以包括如下步骤：

S101、基于指定文本中的目标对白文本，构建相应的目标样本；

S102、采用预先训练的角色预测模型，基于目标样本，预测目标对白文本对应的角色的位置信息；

S103、基于角色的位置信息和目标样本，确定相应的角色。

本实施例的角色确定方法的执行主体为角色确定装置，该装置可以为一实体的电子装置，或者也可以为采用软件集成的应用。使用时，可以向其输入一篇指定文本，由该角色确定装置，以指定文本中的每一句对白文本作为目标对白文本，确定目标对白文本对应的角色，进而可以基于确定的目标对白文本的角色，对该目标对白文本进行角色标注，为多角色有声朗读的应用提供了有效地的基础。

本实施例中的指定文本的文本长度不受限定。可以为一篇短片文章，或者也可以为一本中长篇小说。

本实施例中，指定文本中的目标对白文本仅包括某个角色的对白信息，如指定文本中的“A说：……”中的冒号之后的内容，或者也可以为其他形式的标识某个角色说话内容的信息。而目标样本的内容多于目标对白文本的内容，进而可以从目标样本中挖掘并确定目标对白文本对应的角色。

本实施例中，可以认为目标对白文本对应的角色必然隐藏在该指定文本中的某一个部分，基于该思想，先构建了目标对白文本对应的目标样本。即本实施例构建的目标样本中必然隐藏有对应的目标对白文本的角色。接下来，可以先采用预先训练的角色预测模型，基于目标样本，预测目标对白文本对应的角色的位置信息，即预测目标对白文本的角色在目标样本中的位置信息。最后可以基于目标对白文本的角色在目标样本中的位置信息，并结合目标样本，可以确定该目标对白文本对应的角色。

本实施例的角色确定方法，基于指定文本中的目标对白文本，构建相应的目标样本；采用预先训练的角色预测模型，基于目标样本，预测目标对白文本对应的角色的位置信息；基于角色的位置信息和文章，确定相应的角色。本实施例的技术方案，可以实现对文本中的对白文本的角色进行确定，进而可以实现对白文本的角色的标注，为AI的多角色有声朗读提供了有效地基础，能够有助于AI的多角色有声朗读的大规模运营。

图2是根据本申请第二实施例的示意图；如图2所示，本实施例的角色确定方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图2所示，本实施例的角色确定方法，具体可以包括如下步骤：

S201、从指定文本中，获取目标对白文本；

S202、从指定文本中，获取目标对白文本的N句上下文文本；

S203、将目标对白文本和对应的N句上下文文本，一起构成目标样本；

例如，可以根据对白文本在指定文本中以特殊的格式的存在，如在冒号之后，或者还可以采用引号来标识等方式，从指定文本中获取任一对白文本，作为目标对白文本。并进一步获取目标对白文本的N句上下文文本。N可以根据实际经验来设置，例如可以为10、8或者其他正整数。其中N句上下文文本可以仅包括目标对白文本的下文文本，如目标对白文本为指定文本开头的句子。或者N句上下文文本也可以仅包括目标对白文本的上文文本，如目标对白文本为文章结尾的句子。在目标对白文本为指定文本中间的句子时，N句上下文文本可以同时包括目标对白文本的上文文本和目标对白文本的下文文本。优选地，N句上下文文本中，目标对白文本的上文文本和目标对白文本的下文文本的数量相同。在客观条件下，例如，存在的目标对白文本的上文文本和目标对白文本的下文文本的数量不可能相同时，也可以不相同。例如，若N＝10，但是目标对白文本为指定文本中的第二个句子时，此时上文文本仅为1，下文文本可以取9，其他情况同理。对于每一个目标对白文本，可以按照上述方式，获取到相应的目标样本。例如目标样本的表示方式可以表示为(pre_t，t，post_t)，其中t为目标对白文本，pre_t为目标对白文本t的上文文本，post_t目标对白文本t的下文文本，且pre_t的数量加上post_t的数量等于N。

该步骤S201-S203为上述图1所示实施例的步骤S101的一种具体实现方式。通过上述方式构建的目标样本非常准确。实际应用中，还可以采用其他方式来构成目标对白文本对应的目标样本。

S204、采用角色预测模型中的语义编码模块，基于目标样本，获取目标样本对应的上下文感知的文本语义编码信息；

图3是本实施例中的角色预测模型的结构示意图。如图3所示，以角色预测模型中包括语义编码模块、高阶语义编码模块、旁白预测模块和角色预测模块为例。

其中，该语义编码模块可以基于目标样本，获取目标样本对应的上下文感知的文本语义编码信息。例如，可以先获取目标样本的嵌入表达信息；然后将目标样本的嵌入表达信息输入至语义编码模块中，并获取语义编码模块基于目标样本的嵌入表达信息，输出的目标样本对应的上下文感知的文本语义编码信息。

具体地，获取目标样本的嵌入表达信息的过程中，可以参照嵌入(embedding)表对目标样本中的每个上下文文本和目标对白文本中的所有字符进行编码。编码过程中，以pre_t、t和post_t为单位，分别将每段本中的每个字符在embedding表找到对应的向量，并拼接，作为该段文本对应的向量。再将pre_t、t和post_t分别对应的向量拼接为一个矩阵，作为目标样本对应的行数为N+1的矩阵，作为目标样本的特征，即目标样本的嵌入表达信息。例如，在指定文本为中文时，编码过程中，以文本中的字为粒度在embedding表找到对应的向量。

本实施例的语义编码模块可以包括多层Transformer编码器，将目标样本的嵌入表达信息输入语义编码模块中，该语义编码模块可以采用多层编码器进行编码处理，最终输出目标样本对应的上下文感知的文本语义编码信息，使得得到的目标样本的文本语义编码信息中携带上下文感知信息，使得目标样本的特征表达更加准确。

S205、采用角色预测模型中的高阶语义编码模块，基于上下文感知的文本语义编码信息以及上下文感知的文本语义编码信息中目标对白文本对应的文本语义编码信息，获取目标样本对应的高阶语义编码信息；

例如，本实施例的高阶语义编码模块中可以包括多层Transformer编码器层或者多层Dense编码器层。

语义编码模块编码处理后输出为矩阵形式的上下文感知的文本语义编码信息。其中pre_t、t和post_t的对应的位置不会发生变化。可以将从中获取到目标对白文本对应的文本语义编码信息，并进行池化处理，得到的特征向量，作为目标对白文本对应的文本语义编码信息。

可选地，该步骤中，可以将上下文感知的文本语义编码信息以及目标对白文本对应的文本语义编码信息输入至高阶语义编码模块中，获取高阶语义编码模块对上下文感知的文本语义编码信息以及目标对白文本对应的文本语义编码信息进行融合，并编码后输出的目标样本对应的高阶语义编码信息。

本实施例的融合方式，可以基于文本语义编码信息中各字符对应的特征信息和目标对白文本的文本语义编码信息进行融合，即基于字符粒度的融合，将各字符的特征信息融合入目标对白文本的特征信息，以便于更加准确地预测目标文本的特征信息。融合方式可以是加法融合、门机制融合等等，在此不做限定。

高阶语义编码模块基于融合后的文本语义编码信息，经过多层编码器处理，可以输出目标样本对应的高阶语义编码信息。

S206、采用角色预测模型中的旁白预测模块，基于高阶语义编码信息，预测目标对白文本属于旁白的概率；

S207、判断属于旁白的概率是否大于预设旁白概率阈值，若是，执行步骤S208；否则，执行步骤S209；

S208、确定目标对白文本属于旁白，结束。

S209、确定目标对白文本不属于旁白，即属于某个角色；进一步执行步骤S210；

S210、采用角色预测模型中的角色预测模块，基于预先获取的属于旁白的概率和高阶语义编码信息，解码目标样本中、目标对白文本对应的角色的位置信息；

本实施例中，可以将目标对白文本t的角色预测问题，分解为两个子问题：一个是判断目标对白文本t是否应该由旁白说的二分类问题；另一个是，若目标对白文本t是角色说的，那么需要预测出具体角色。本实施例中，可以将该第二问题转化为信息抽取问题：即从输入的目标样本中抽取一个合适的文本片段作为预测的具体角色。经过上述的问题拆解和转换，便可用机器学习方法分别对旁白和角色进行概率建模。在旁白预测模块中，可以对高阶语义编码信息进行池化(pooling)操作，这里的池化可以包括max-pooling、avg-pooling、self-attention-pooling等，然后基于池化后的特征通过二分类层预测属于旁白的概率prob_p，能够准确地预测目标对白文本是否属于旁白。本实施例中的预设旁白概率阈值可以根据实际需求来设置，例如可以为0.5，0.6等其他0-1之间的数值。

本实施例中，在角色预测模块中，通过门控机制融合旁白预测结果prob_p和高阶语义编码信息得到(1-prob_p)*高阶语义编码信息，然后再基于(1-prob_p)*高阶语义编码信息，预测角色在目标样本的时序上的开始和结束位置，具体地可通过序列标注或指针网络进行角色预测模块的建模。

具体地，也就是说，将旁白的概率和样本的高阶语义编码特征信息，输入至角色预测模块中，由角色预测模块基于旁白的概率和样本的高阶语义编码特征信息构建解码矩阵，例如，解码矩阵可以为(1-旁白的概率)乘以目标样本的高阶语义编码信息。并基于解码矩阵，解码样目标样本中概率最大的角色起始位置和结束位置。解码过程中，可以将目标样本中每一个位置作为角色起始位置，也可以作为角色结束位置。例如，若目标样本中，共包括m个字符，那么【1，1】、【1，2】、……【1，m】、【2，2】、【2，3】、……【2，m】、……、【m-1，m】、……【m，m】中的每一个组合，均可以作为解码过程的一个候选的角色起始位置和角色结束位置的组合，解码过程中，便是寻找所有候选中的概率最大的角色起始位置和结束位置的组合。通过该轮询的解码方式，可以实现准确解码到目标样本中概率最大的角色起始位置和结束位置。

由于旁白和角色是互斥存在，即某目标对白文本要么是旁白说的，要么是角色说的。因此首先根据旁白概率prob_p，判断是否旁白；若prob_b<预设旁白概率阈值，再对角色起始位置的概率序列进行解码，即搜索一个概率最大的角色起始&结束位置组合，令其概率为prob_r。

进一步可选地，为了保证角色预测的高精度，本实施例中，还可以设定一个角色最小概率阈值theta，当prob_r<theta时，也设定预测结果为旁白。也就是说，当概率最大的角色起始位置和结束位置对应的概率小于预设的角色最小概率阈值，仍然认为该目标对白文本为旁白，而不属于角色。

上述步骤S204-S207以及S209-S210上述图1所示实施例的步骤S102的一种具体实现方式。

S211、基于角色的位置信息和目标样本，确定相应的角色。

例如角色的位置信息可以清楚标识角色对应的字段在目标样本中的位置，基于该角色对应的字段在目标样本中的位置，可以从目标样本中获取角色对应的字段，进而确定相应的角色。

本实施例的角色预测模型可以预先采用数条训练样本进行训练。各条训练样本中包括训练对白文本以及对应的N句上下文训练文本；同时在训练样本中标注对应的训练角色的位置或者训练对白文本为旁白的情况，以丰富训练数据，增强训练效果。具体可以采用有监督的训练方式，对角色预测模型进行训练，在训练中预测的结果与标注的结果不一致时，对角色预测模型的参数进行调整，例如可以同时对图3中的语义编码模块、高阶语义编码模块、旁白预测模块和角色预测模块的参数均进行调整，使得预测结果与标注的结果趋于一致。采用数条训练样本，按照上述训练过程不断地对角色预测模型的参数进行调整，直至预测结果与标注的结果始终一致，训练结束。其训练的详细过程与本实施例的角色确定过程的实现原理相同，详细亦可以参考上述实施例的记载，在此不再赘述。

本实施例的角色确定方法，通过采用上述技术方案，可以非常准确度地对文本中的对白文本的角色进行确定，进而可以实现对白文本的角色的标注，为AI的多角色有声朗读提供了有效地基础，能够有助于AI的多角色有声朗读的大规模运营。而且本实施例的方法，可以非常快速高效进行对白文本的角色的确定，通常只需要几分钟即可完成包括上千章的指定文本中的对白文本的角色预测，且准确性也非常高。

图4是根据本申请第三实施例的示意图；如图4所示，本实施例提供一种角色确定装置400，包括：

构建模块401，用于基于指定文本中的目标对白文本，构建相应的目标样本；

预测模块402，用于采用预先训练的角色预测模型，基于目标样本，预测目标对白文本对应的角色的位置信息；

确定模块403，用于基于角色的位置信息和目标样本，确定相应的角色。

本实施例的角色确定装置400，通过采用上述模块实现角色确定的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5是根据本申请第四实施例的示意图；如图5所示，本实施例的角色确定装置500，在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。

本实施例的角色确定装置500中，包括:构建模块501、预测模块502和确定模块503，分别对应上述图4所示实施例中的构建模块401、预测模块402和确定模块403，详细参考上述图4所示实施例的记载。进一步地，构建模块501，用于：

从指定文本中，获取目标对白文本；

从指定文本中，获取目标对白文本的N句上下文文本；

将目标对白文本和对应的N句上下文文本，一起构成目标样本。

进一步可选地，如图5所示，本实施例的角色确定装置500中，预测模块502，包括：

第一编码处理单元5021，用于采用角色预测模型中的语义编码模块，基于目标样本，获取目标样本对应的上下文感知的文本语义编码信息；

第二编码处理单元5022，用于采用角色预测模型中的高阶语义编码模块，基于上下文感知的文本语义编码信息以及上下文感知的文本语义编码信息中目标对白文本对应的文本语义编码信息，获取目标样本对应的高阶语义编码信息；

角色预测单元5023，用于在确定目标对白文本不属于旁白的情况下，采用角色预测模型中的角色预测模块，基于预先获取的属于旁白的概率和高阶语义编码信息，解码目标样本中、目标对白文本对应的角色的位置信息。

进一步可选地，第一编码处理单元5021，用于：

获取目标样本的嵌入表达信息；

将目标样本的嵌入表达信息输入至语义编码模块中，并获取语义编码模块基于目标样本的嵌入表达信息，输出的目标样本对应的上下文感知的文本语义编码信息。

进一步可选地，第二编码处理单元5022，用于：

将上下文感知的文本语义编码信息以及目标对白文本对应的文本语义编码信息输入至高阶语义编码模块中，获取高阶语义编码模块对上下文感知的文本语义编码信息以及目标对白文本对应的文本语义编码信息进行融合，并编码后输出的目标样本对应的高阶语义编码信息。

进一步可选地，如图5所示，预测模块502还包括旁白预测单元5024，用于：

采用角色预测模型中的旁白预测模块，基于高阶语义编码信息，预测目标对白文本属于旁白的概率；

若属于旁白的概率小于预设旁白概率阈值，则确定目标对白文本不属于旁白。

进一步可选地，旁白预测单元5024，还用于：

若属于旁白的概率大于或者等于预设旁白概率阈值，则确定目标对白文本属于旁白。

进一步可选地，角色预测单元5023，用于：

将旁白的概率和高阶语义编码信息，输入至角色预测模型的角色预测模块中，由角色预测模块基于旁白的概率和高阶语义编码信息构建解码矩阵，并基于解码矩阵，解码目标样本中概率最大的角色起始位置和结束位置。

进一步可选地，角色预测单元5023，还用于：

判断目标样本中概率最大的角色起始位置和结束位置对应的概率是否小于预设的角色最小概率阈值；

若是，确定目标对白文本为旁白，不属于角色。

本实施例的角色确定装置500，通过采用上述模块实现角色确定的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是本申请实施例的实现角色确定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的角色确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的角色确定方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的角色确定方法对应的程序指令/模块(例如，附图4和附图5所示的相关模块)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的角色确定方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现角色确定方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现角色确定方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现角色确定方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现XXX方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，基于指定文本中的目标对白文本，构建相应的目标样本；采用预先训练的角色预测模型，基于目标样本，预测目标对白文本对应的角色的位置信息；基于角色的位置信息和文章，确定相应的角色。本实施例的技术方案，可以实现对文本中的角色进行确定，进而可以实现角色的标注，为AI的多角色有声朗读提供了有效地基础，能够有助于AI的多角色有声朗读的大规模运营。

根据本申请实施例的技术方案，可以非常快速高效进行角色的确定，通常只需要几分钟即可完成包括上千章的指定文本中的角色预测，且准确性也非常高。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种角色确定方法，其中，所述方法包括：

基于指定文本中的目标对白文本，构建相应的目标样本；

2.根据权利要求1所述的方法，其中，所述基于指定文本中的目标对白文本，构建相应的目标样本，包括：

从所述指定文本中，获取所述目标对白文本；

从所述指定文本中，获取所述目标对白文本的N句上下文文本；

将所述目标对白文本和对应的所述N句上下文文本，一起构成所述目标样本。

3.根据权利要求1所述的方法，其中，所述采用预先训练的角色预测模型，基于所述目标样本，预测所述目标对白文本对应的角色的位置信息，包括：

采用所述角色预测模型中的语义编码模块，基于所述目标样本，获取所述目标样本对应的上下文感知的文本语义编码信息；

采用所述角色预测模型中的高阶语义编码模块，基于所述上下文感知的文本语义编码信息以及所述上下文感知的文本语义编码信息中所述目标对白文本对应的文本语义编码信息，获取所述目标样本对应的高阶语义编码信息；

在确定所述目标对白文本不属于旁白的情况下，采用所述角色预测模型中的角色预测模块，基于预先获取的属于旁白的概率和所述高阶语义编码信息，解码所述目标样本中、所述目标对白文本对应的角色的位置信息。

4.根据权利要求3所述的方法，其中，所述采用所述角色预测模型中的语义编码模块，基于所述目标样本，获取所述目标样本对应的上下文感知的文本语义编码信息，包括：

获取所述目标样本的嵌入表达信息；

将所述目标样本的嵌入表达信息输入至所述语义编码模块中，并获取所述语义编码模块基于所述目标样本的嵌入表达信息，输出的所述目标样本对应的所述上下文感知的文本语义编码信息。

5.根据权利要求3所述的方法，其中，所述采用所述角色预测模型中的高阶语义编码模块，基于所述上下文感知的文本语义编码信息以及所述上下文感知的文本语义编码信息中所述目标对白文本对应的文本语义编码信息，获取所述目标样本对应的高阶语义编码信息，包括：

将所述上下文感知的文本语义编码信息以及所述目标对白文本对应的文本语义编码信息输入至所述高阶语义编码模块中，获取所述高阶语义编码模块对所述上下文感知的文本语义编码信息以及所述目标对白文本对应的文本语义编码信息进行融合，并编码后输出的所述目标样本对应的高阶语义编码信息。

6.根据权利要求3-5任一所述的方法，其中，采用所述角色预测模型中的角色预测模块，基于预先获取的旁白的概率和所述高阶语义编码信息，解码所述目标样本中、所述目标对白文本对应的角色的位置信息之前，所述方法还包括：

采用所述角色预测模型中的旁白预测模块，基于所述高阶语义编码信息，预测所述目标对白文本属于旁白的概率；

若所述属于旁白的概率小于预设旁白概率阈值，则确定所述目标对白文本不属于旁白。

7.根据权利要求6所述的方法，其中，所述方法还包括：

若所述属于旁白的概率大于或者等于所述预设旁白概率阈值，则确定所述目标对白文本属于旁白。

8.根据权利要求3-5任一所述的方法，其中，所述采用所述角色预测模型中的角色预测模块，基于预先获取的属于旁白的概率和所述高阶语义编码信息，解码所述目标样本中、所述目标对白文本对应的角色的位置信息，包括：

将所述旁白的概率和所述高阶语义编码信息，输入至所述角色预测模型的角色预测模块中，由所述角色预测模块基于所述旁白的概率和所述高阶语义编码信息构建解码矩阵，并基于所述解码矩阵，解码所述目标样本中概率最大的角色起始位置和结束位置。

9.根据权利要求8所述的方法，其中，所述方法还包括：

判断所述目标样本中概率最大的角色起始位置和结束位置对应的概率是否小于预设的角色最小概率阈值；

若是，确定所述目标对白文本为旁白，不属于角色。

10.一种角色确定装置，其中，所述装置包括：

11.根据权利要求10所述的装置，其中，所述构建模块，用于：

从所述指定文本中，获取所述目标对白文本；

12.根据权利要求10所述的装置，其中，所述预测模块，包括：

第一编码处理单元，用于采用所述角色预测模型中的语义编码模块，基于所述目标样本，获取所述目标样本对应的上下文感知的文本语义编码信息；

第二编码处理单元，用于采用所述角色预测模型中的高阶语义编码模块，基于所述上下文感知的文本语义编码信息以及所述上下文感知的文本语义编码信息中所述目标对白文本对应的文本语义编码信息，获取所述目标样本对应的高阶语义编码信息；

角色预测单元，用于在确定所述目标对白文本不属于旁白的情况下，采用所述角色预测模型中的角色预测模块，基于预先获取的属于旁白的概率和所述高阶语义编码信息，解码所述目标样本中、所述目标对白文本对应的角色的位置信息。

13.根据权利要求12所述的装置，其中，所述第一编码处理单元，用于：

获取所述目标样本的嵌入表达信息；

14.根据权利要求12所述的装置，其中，所述第二编码处理单元，用于：

15.根据权利要求12-14任一所述的装置，其中，所述预测模块，还包括旁白预测单元，用于：

16.根据权利要求15所述的装置，其中，所述旁白预测单元，还用于：

17.根据权利要求12-14任一所述的装置，其中，所述角色预测单元，用于：

18.根据权利要求17所述的装置，其中，所述角色预测单元，还用于：

若是，确定所述目标对白文本为旁白，不属于角色。

19.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。