CN112837401A

CN112837401A - 一种信息处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112837401A
Application number: CN202110113695.4A
Authority: CN
Inventors: 谌国风; 卢德辉
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-25
Anticipated expiration: 2041-01-27
Also published as: CN112837401B

Abstract

本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质。该方法包括：获取配音文本对应的候选音素，得到候选音素集合；获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果；基于对齐结果从候选音素集合中确定目标音素；根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列。本申请实施例通过将配音文本与配音音频进行对齐处理，得到配音音频中的时间点对应的发音音素，然后获取发音音素对应的口型图像，生成口型图像序列，可以提高配音音频与口型图像序列播放时的匹配率。

Description

一种信息处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种信息处理方法、装置、计算机设备及存储介质。

背景技术

目前在游戏中会有剧情对话的表现需求，以便向用户介绍游戏剧情发展等。为了提高表现力，增强用户的观看体验，剧情对话通常不是简单的旁白字幕，而是采用类似电影的表现手法。通过各种技术手段表现出游戏中角色样貌、表情、动作，以及多个角色间的对话，并辅以字幕和文本的配音语音。

相关技术中，在设计对话表现时通常采用2D(2Dimensions，二维)立绘的方案，即以图片的形式绘制出角色样貌、表情、动作，作为游戏角色的形象表示。为了增强表现力，添加一定的动态元素，常常会对角色的眼部区域制作出眨眼帧，口部区域制作出张闭帧，通过缩放和叠加覆盖在2D立绘上，通过2D图片序列帧的方式播放，表现出角色眨眼、说话的效果。

在对相关技术的研究和实践中，本申请的发明人发现，现有技术中，由于立绘的口部图片只能制作出张闭帧，表现出固定的张口闭口效果，导致游戏对话场景存在2D图片序列帧与角色语音在播放过程中匹配出错，影响用户观看体验。

发明内容

本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质，可以提高配音音频与口型图像序列播放时的匹配率。

本申请实施例提供了一种信息处理方法，包括：

获取配音文本对应的候选音素，得到候选音素集合；

获取与所述配音文本关联的配音音频，并将所述候选音素集合中的候选音素与所述配音音频进行对齐，得到对齐结果；

基于所述对齐结果从所述候选音素集合中确定目标音素；

根据所述目标音素和所述配音音频的播放时间戳，生成所述配音文本的口型图像序列。

相应的，本申请实施例还提供了一种信息处理装置，包括：

获取单元，用于获取配音文本对应的候选音素，得到候选音素集合；

对齐单元，用于获取与所述配音文本关联的配音音频，并将所述候选音素集合中的候选音素与所述配音音频进行对齐，得到对齐结果；

确定单元，用于基于所述对齐结果从所述候选音素集合中确定目标音素；

第一生成单元，用于根据所述目标音素和所述配音音频的播放时间戳，生成所述配音文本的口型图像序列。

在一些实施例中，对齐单元包括：

第一获取子单元，用于获取所述配音音频的音素序列；

选取子单元，用于从所述候选音素集合中选取对应的候选音素，构建候选音素序列；

第一确定子单元，用于确定所述音素序列与所述候选音素序列的对齐率。

在一些实施例中，第一确定子单元用于：

获取所述配音音频的播放时间戳中时间点个数，得到第一数量；

将所述音素序列与所述候选音素序列进行匹配；

确定所述候选音素序列中与所述音素序列匹配成功的音素个数，得到第二数量；

计算所述第二数量与所述第一数量的比值，得到所述对齐率。

在一些实施例中，选取子单元用于：

对所述配音文本进行分词处理，得到所述配音文本中的单词；

确定所述单词对应的音素组合；

获取所述单词在所述配音文本中的位置；

根据所述位置对所述音素组合进行排序，得到所述候选音素序列。

在一些实施例中，选取子单元具体用于：

从词表数据库中获取所述单词对应的发音标识，所述词表数据库包括多个样本单词和多个发音标识；对所述发音标识进行转换处理，得到所述单词对应的音素组合；

获取所述单词在所述配音文本中的位置；

在一些实施例中，第一生成单元包括：

第二获取子单元，用于从所述播放时间戳中获取所述音素序列中每一音素的播放时间点；

第二确定子单元，用于基于所述音素的播放时间点确定所述目标音素的播放时间点；

第三获取子单元，用于从预设口型图像帧集合中，获取所述目标音素对应的口型图像帧；

排列子单元，用于根据所述目标音素的播放时间点对所述目标音素对应的口型图像帧进行排列，得到所述口型图像序列。

在一些实施例中，信息处理装置还包括：

检测单元，用于检测所述口型图像序列中最后一帧口型图像帧是否为预设类型的口型图像帧；

第二生成单元，用于若否，则则基于所述口型图像序列生成第一目标口型图像帧，所述第一目标口型图像帧的口型类型为所述预设类型；

第一添加单元，用于将所述第一目标口型图像帧添加至所述最后一帧口型图像帧之后。

在一些实施例中，信息处理装置还包括：

第四获取子单元，用于获取所述口型图像序列中每一口型图像帧的口型参数；

计算子单元，用于计算相邻两帧口型图像帧的口型参数变化值；

第三生成单元，用于若存在相邻两帧口型图像帧的口型参数变化值大于预设阈值，则根据所述相邻两帧口型图像帧生成第二目标口型图像帧；

第二添加单元，用于将所述第二目标口型图像帧添加至所述相邻两帧口型图像帧之间。

相应的，本申请实施例还提供了一种计算机设备，包括存储器，处理器及存储在储存器上并可在处理器上运行的计算机程序，其中，处理器执行本申请实施例任一提供的信息处理方法。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有多条指令，指令适于处理器进行加载，以执行如上的信息处理方法。

本申请实施例通过将配音文本与配音音频进行对齐处理，得到配音音频中的时间点对应的发音音素，然后获取发音音素对应的口型图像，生成口型图像序列，可以提高配音音频与口型图像序列播放时的匹配率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息处理方法的流程示意图。

图2为本申请实施例提供的一种声音波形示意图。

图3为本申请实施例提供的一种声音波形切分示意图。

图4为本申请实施例提供的一种音素序列对齐示意图。

图5为本申请实施例提供的一种口型图像帧与音素对应关系示意图。

图6为本申请实施例提供的一种口型图像序列示意图。

图7为本申请实施例提供的另一种信息处理方法的流程示意图。

图8为本申请实施例提供的一种信息处理装置的结构框图。

图9为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种信息处理方法、装置、存储介质及计算机设备。具体地，本申请实施例的信息处理方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，该计算机设备可以是服务器，该服务器可以获取配音文本对应的候选音素，得到候选音素集合；获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果；基于对齐结果从候选音素集合中确定目标音素；根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列。

基于上述问题，本申请实施例提供第一种信息处理方法、装置、计算机设备及存储介质，可以提高配音音频与口型图像序列播放时的匹配率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供一种信息处理方法，该方法可以由终端或服务器执行，本申请实施例以信息处理方法由服务器执行为例来进行说明。

如图1所示，图1为本申请实施例提供的一种信息处理方法的流程示意图。该信息处理方法的具体流程可以如下：

101、获取配音文本对应的候选音素，得到候选音素集合。

其中，文本是指书面语言的表现形式，通常是具有完整、系统含义的一个句子或多个句子的组合。比如，一个文本可以是一个句子、一个段落或者一个篇章。

在本申请实施例中，配音文本指的是与视频中包括的文本，配音文本可以包括多种。例如，配音文本可以为视频播放时的人物的对话，或者视频播放时的旁白(旁白也即解说词，说话者不出现在视频画面上，但直接以语言来介绍视频内容、交待剧情或发表议论，包括对白的使用)等。

其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”“a”两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如“ma”和”mi”中，两个“m”发音动作相同，是相同音素，“a”“i”发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如“m”的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。

具体的，候选音素指的是配音文本对应的每一个发音动作，候选因素集合则指的是配音文本对应的所有发音动作。

比如，配音文本可以为“你好”，则候选音素为“n”，“i”，“h”，“a”或“o”，那么，候选因素集合包括：“n”、“i”、“h”、“a”和“o”。

102、获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果。

其中，音频指的是存储声音内容的文件。在本申请实施例中，配音音频指的是根据配音文本进行语音配音，得到的音频。比如，配音文本可以为“你好”，则配音音频为“你好”的语音。

在一些实施例中，为了提高视频播放画面的配音文本与配音音频的一致性，步骤“将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果”，可以包括以下操作：

获取配音音频的音素序列；

从候选音素集合中选取对应的候选音素，构建候选音素序列；

确定音素序列与候选音素序列的对齐率。

其中，音素序列指的是根据配音音频识别出的有序音素集合。

例如，配音音频可以为“我和你”的语音，则音素序列为：“w”、“o”、“h”、“e”、“n”、“i”。

但是，由于不同的人说话时的语速不同，说话时的清晰程度也不同，可能导致在对配音音频进行识别时，得到不同的音素序列。为了提高对配音音频识别的准确性，本申请实施例可以对配音音频进行预处理和前端处理，以消除对配音音频识别时的上述问题。

其中，预处理，指的是对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响。此外，还会考虑到语音识别基本单元的选取和端点检测问题。

前端处理，指的是先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。

其中，对配音音频进行识别可以采用语音识别技术。语音识别技术就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分。特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

在本申请实施例中，首先将配音音频转换成声音波形。例如，请参阅图2，图2为本申请实施例提供的一种声音波形示意图。图2中示出了对配音音频进行转换，得到的声音波形Y。在对配音音频进行语音识别之前，可以将声音波形Y的首尾段的静音切除，降低对后续识别过程中的干扰。然后，对配音音频的声音波形Y进行分帧处理，也即把声音切开成多个小段，每一小段称为一帧。

请参阅图3，图3为本申请实施例提供的一种声音波形切分示意图。在图3中，对配音音频的声音波形Y进行分帧处理，可以得到多帧音频帧，包括：音频帧Y1、音频帧Y2、音频帧Y3、音频帧Y4、音频帧Y5以及音频帧Y6。

其中，可以按照预设帧长度对配音音频进行分帧。比如，预设帧长度可以为25毫秒等，在此不作限定，可根据实际情况进行设定，配音音频总长度可以为1秒，则可以将配音音频切开成40帧。

在对配音音频分帧处理后，语音就变成了很多小段。然后将声音波形作变换，也即提取声学特征。根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。比如，在本申请实施例中可以通过提取MFCC(MelFrequency Cepstral Coefficents，梅尔频率倒谱系数)特征的方式来提取声学特征。，其中，MFCC指的是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。

通过提取MFCC特征处理，可以将声音转换为一个M行，N列的矩阵向量。其中，M指的是声学特征的维度，N为配音音频的总帧数。然后根据每一帧对应的特征向量将该帧识别为状态，状态指的是比音素更细致的语音单位，通常把1个音素划分成3个状态。将所有帧识别为状态之后，则可以将每三个相邻状态组合成一个音素，最后即可以得到配音音频对应的音素序。

其中，在确定每一帧对应的状态时，可以从声学模型中获取该帧对应的各个状态的概率，然后选择与该帧对应的概率值最大的状态，得到该帧对应的状态。

例如，配音音频可以包括：第一帧等，从声学模型中获取到第一帧与第一状态对应的概率为20％，第一帧与第二状态对应的概率为90％，第一帧与第三状态对应的概率为60％，则可以确定第一帧对应的状态可以为第二状态。

其中，候选音素音素序列指的是由候选音素集合中的候选音素组成的不同的有序候选音素子集合。

在一些实施例中，为了提高候选音素序列的构建效率。步骤“从候选音素集合中选取对应的候选音素，构建候选音素序列”，可以包括以下流程：

对配音文本进行分词处理，得到配音文本中的单词；

确定单词对应的音素组合；

获取单词在配音文本中的位置；

根据位置对音素组合进行排序，得到候选音素序列。

在本申请实施例中，配音文本可以是中文文本，则分词处理可以是对中文进行分词。其中，中文分词指的是将一个汉字序列切分成一个一个单独的词。也即，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

其中，基于字符串匹配的分词方法又称机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词方法渐渐成为了主流方法。主要的统计模型有：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等。

在本申请实施例中，可以将字符串频率统计和字符串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

例如，配音文本可以为“你今天有什么安排”，通过以上分词方式对该配音文本进行处理，可以得到配音文本中的单词包括：“你”、“今天”、“有”、“什么”、“安排”。

其中，音素组合指的是每个单词对应的发音。发音在表示上，可能是发音的标注。

例如，对于中文单词，发音的表示可以是汉语拼音；对于英文单词，发音的表示可以是音标。单词到发音的映射关系不限于一对一，可能是一对多的。比如，对于“音乐”这个单词，会有“yinyue”、“yinle”等发音。

在一些实施例中，为了保证单词与音素组合的匹配性，步骤“确定单词对应的音素组合”，可以包括以下操作：

从词表数据库中获取单词对应的发音标识；

对发音标识进行转换处理，得到单词对应的音素组合

其中，发音标识也即发音的表示。词表数据库中包括多个样本单词和多个发音标识，每一样本单词可以对应一个发音标识或者多个发音标识。

例如，配音文本中的单词包括：“你”、“今天”、“有”、“什么”、“安排”，则从词表数据库中获取每一单词对应的发音标识，也即音素组合分别为：“ni”、“jintian”、“you”、“shenme”、“anpai”。

其中，位置指的是排列位置，比如，配音文本为“你今天有什么安排”，配音文本包括的单词有：“你”、“今天”、“有”、“什么”、“安排”，则“你”位于第一位置、“今天”位于第二位置、“有”位于第三位置、“什么”位于第四位置、“安排”位于第五位置。

在确定每一单词在配音文本中的位置之后，可以根据每一单词的位置对该单词对应的音素组合进行排序，即可以得到候选音素序列。

例如，配音文本包括的单词有：“你”、“今天”、“有”、“什么”、“安排”。“你”位于第一位置、“今天”位于第二位置、“有”位于第三位置、“什么”位于第四位置、“安排”位于第五位置，按照单词的排列位置对单词对应的音素组合进行排序，可以得到候选音素序列为：“n”、“i”、“j”、“i”、“n”、“t”、“i”、“a”、“n”、“y”、“o”、“u”、“s”、“h”、“e”、“n”、“m”、“e”、“a”、“n”、“p”、“a”、“i”。

在一些实施例中，为了提高配音文本与配音音频的匹配效率，步骤“确定音素序列与候选音素序列的对齐率”，可以包括以下流程：

获取配音音频的播放时间戳中时间点个数，得到第一数量；

将音素序列与候选音素序列进行匹配；

确定候选音素序列中与音素序列匹配成功的音素个数，得到第二数量；

计算第二数量与第一数量的比值，得到对齐率。

其中，播放时间戳指的是配音音频的播放时间进度条，也即配音音频的播放时长，比如，配音音频的播放时间戳可以为10秒等。

其中，播放时间戳中的时间点指的是配音音频中每一音频帧对应的时间点，则可以根据每一音频帧的长度对播放时间戳进行划分，得到多个时间点。

例如，播放时间戳的时长可以为10秒，配音音频中每一音频帧对应的长度可以为1秒，则可以根据音频帧的长度1秒对播放时间戳的时长10秒进行划分，得到的时间点包括：第一秒、第二秒、第三秒、第四秒、第五秒、第六秒、第七秒、第八秒、第九秒和第十秒，则可以确定时间戳中的时间点个数为10，那么，第一数量为：10。

具体的，将音素序列与候选音素序列进行匹配可以根据播放时间戳中的时间点对于的音素，将音素序列与候选音素序列进行比较。

例如，请参阅图4，图4为本申请实施例提供的一种音素序列对齐示意图。在图4中，播放时间戳A的总时长可以为10秒，基于每一音频帧的长度1秒可以将播放时间戳划分为10个时间段。音素序列B中包括10个发音状态：“w”、“o”、“o”、“h”、“h”、“e”、“n”、“n”、“/”和“i”，对应播放时间戳的每个时间段。其中，“/”表示未发音。候选音素序列C中也包括10个发音状态：“w”、“/”、“/”、“o”、“h”、“e”、“/”、“n”、“/”和“i”，对应播放时间戳的每个时间段。

其中，将播放时间戳每一时间段对应的音素序列中的发音状态和候选音素序列中的发音状态进行比较，也即将音素序列中：“w”、“o”、“o”、“h”、“h”、“e”、“n”、“n”、“/”和“i”，分别与候选音素序列中：“w”、“o”、“o”、“h”、“h”、“e”、“n”、“n”、“/”和“i”进行比较，可以确定音素序列中与候选音素序列中相同的发音状态为：第一秒对应的“w”、第五秒对应的“h”、第六秒对应的“e”、第八秒对应的“n”、第九秒对应的“/”以及第十秒对应的“i”。则可以确定候选音素序列中与音素序列匹配成功的音素个数为6，也即第二数量为：6。

例如，第一数量为：9，第二数量为：6，计算第二数量与第一数量的比值，得到比值可以为0.67，那么，可以确定音素序列与候选音素序列的对齐率为0.67。

103、基于对齐结果从候选音素集合中确定目标音素。

其中，目标音素指的是多个候选音素序列中与音素序列最相似的候选音素序列包括的候选音素。

在一些实施例中，基于配音文本生成候选音素序列过程中，由于配音文本中的字存在多种发音，可能生成多个候选音素序列。上述计算候选音素序列与音素序列的对齐率的目的是为了从多个候选音素序列中寻找出与音素序列最相似的音素序列。

例如，候选音素序列可以包括：第一候选音素序列，第二候选音素序列以及第三候选音素序列。计算第一候选音素序列与音素序列的对齐率可以为10％，第二候选音素序列与音素序列的对齐率可以为80％，计算第三候选音素序列与音素序列的对齐率可以为50％，则可以确定与音素序列最相似的候选音素序列为第二候选音素序列。

当确定与音素序列最相似的候选音素序列之后，可以确定该候选音素序列中的所有候选音素为目标音素。

例如，与音素序列最相似的候选音素序列可以为：“w”、“o”、“h”、“e”、“n”、“i”，则可以确定目标音素为：“w”、“o”、“h”、“e”、“n”、“i”。

104、根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列。

其中，口型图像序列指的是有序排列的口型图像集合。

在一些实施例中，为了保证口型图像序列与配音文本以及配音音频的对齐率，步骤“根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列”，可以包括以下操作：

从播放时间戳中获取音素序列中每一音素的播放时间点；

基于音素的播放时间点确定目标音素的播放时间点；

从预设口型图像帧集合中，获取目标音素对应的口型图像帧；

根据目标音素的播放时间点对目标音素对应的口型图像帧进行排列，得到口型图像序列。

其中，音素序列中每一音素的播放时间点指的是该音素对应的播放时间戳中的时间段的结尾时间点。

比如，播放时间戳的总时长为10秒，该时间戳每一时间段的时长为1秒，则音素序列中第一个音素对应的时间点为播放时间戳第一个时间段的结尾时间点，也即第一秒。

例如，音素序列可以为：“w”、“o”、“h”、“e”、“w”、“o”，音素序列中的音素分别对应的播放时间戳的时间点可以为：第一秒、第三秒、第四秒、第六秒、第七秒、第九秒。则可以确定目标音素在播放时间戳对应的时间点可以为：第一秒、第三秒、第四秒、第六秒、第七秒、第九秒。

其中，预设口型图像帧集合中包括多个样本口型图像帧，样本口型图像帧是根据不同的音素预先设计好的不同口型图像帧。例如，音素“o”与音素“b”可以分别对应不同的口型图像帧。

请参阅图5，图5为本申请实施例提供的一种口型图像帧与音素对应关系示意图。图5中，口型图像帧P1对应的音素分别可以为：“b”、“p”、“m”、“f”、“v”、“k”或者“g”；口型图像帧P2对应的音素分别可以为：“a”、“ai”、“ao”、“an”或者“ang”；口型图像帧P3对应的音素分别可以为：“e”、“er”、“en”、“eng”或者“ei”；口型图像帧P4对应的音素分别可以为：“i”、“ia”、“io”、“ie”或者“in”；口型图像帧P5对应的音素分别可以为：“r”、“zh”、“ch”、“sh”、“j”、“q”或者“x”；口型图像帧P6对应的音素分别可以为：“o”、“ong”或者“ou”；口型图像帧P7对应的音素分别可以为：“u”、“ua”或者“uo”。

例如，目标音素可以包括：“w”、“o”、“h”、“e”、“w”、“o”，则可以从预设口型图像帧集合中，分别获取“w”、“o”、“h”、“e”对应的口型图像帧，得到目标音素对应的口型图像帧。然后，根据每一目标音素在播放时间戳上对应的时间点，对目标音素对应的口型图像帧进行排序，即可以得到口型图像序列。在配音音频播放过程中，基于目标音素对应的时间点，在视频画面相应播放口型图像序列，使得视频播放画面人物口型与配音音频吻合，提高用户观看体验。

请参阅图6，图6为本申请实施例提供的一种口型图像序列示意图。在图6中，配音文本可以为：“这是空格”，基于该配音文本生成的目标音素为：“zh”、“e”、“sh”、“i”、“k”、“ong”、“g”、“e”。其中，“zh”可以对应配音音频的播放时间戳中的第1秒、“e”可以对应配音音频的播放时间戳中的第3秒、“sh”可以对应配音音频的播放时间戳中的第4秒、“i”可以对应配音音频的播放时间戳中的第6秒、“k”可以对应配音音频的播放时间戳中的第7秒、“ong”可以对应配音音频的播放时间戳中的第8秒、“g”可以对应配音音频的播放时间戳中的第9秒、“e”可以对应配音音频的播放时间戳中的第10秒，然后从预设口型图像帧集合中获取每一目标音素对应的口型图像帧分别为：P5、P3、P5、P4、P1、P6、P1、P3，最后将口型图像帧P5对应到播放时间戳的第1秒、将口型图像帧P3对应到播放时间戳中的第3秒、将口型图像帧P5对应到播放时间戳中的第4秒、将口型图像帧P4对应到播放时间戳中的第6秒、将口型图像帧P1对应到播放时间戳中的第7秒、将口型图像帧P6对应到播放时间戳中的第8秒、将口型图像帧P1对应到播放时间戳中的第9秒、将口型图像帧P3对应到播放时间戳中的第10秒。

在一些实施例中，为了保证视频播放过程中口型图像序列的逼真效果。在步骤“生成配音文本的口型图像序列”之后，还可以包括以下步骤：

检测口型图像序列中最后一帧口型图像帧是否为预设类型的口型图像帧；

若否，则基于口型图像序列生成第一目标口型图像帧，第一目标口型图像帧的口型类型为所述预设类型；

将第一目标口型图像帧添加至最后一帧口型图像帧之后。

其中，预设类型指的是人物口型的闭合类型，那么对口型图像序列中最后一帧口型图像帧进行检测，可以是判断该最后一帧口型图像帧中的人物口型是否为闭合口型。

当口型图像序列中最后一帧口型图像帧中的人物口型为闭合口型时，则说明口型图像序列无误，无需进行修正。

当口型图像序列中最后一帧口型图像帧中的人物口型为闭合口型时，则说明口型图像序列错误，因为配音音频结束后，视频画面中的人物结束说话，此时，人物口型应该为闭合口型。则需要对口型图像序列进行修正。

具体的，可以根据口型图像序列中的人物，生成该人物的口型闭合图像帧，得到第一目标口型图像帧，然后将该第一目标口型图像帧添加至口型图像序列的最后一帧口型图像帧之后，以保证视频画面中的人物结束说话时，人物口型为闭合口型，提高用户观看体验。

获取所述口型图像序列中每一口型图像帧的口型参数；

计算相邻两帧口型图像帧的口型参数变化值；

若存在相邻两帧口型图像帧的口型参数变化值大于预设阈值，则根据所述相邻两帧口型图像帧生成第二目标口型图像帧；

将所述第二目标口型图像帧添加至所述相邻两帧口型图像帧之间。

其中，口型参数指的是人物口型张合程度，口型参数值越大，则表示人物口型张开程度越大。比如，口型参数的参数值为0时，表示人物口型为闭合，口型参数的参数值为3时，表示人物口型为微张，当口型参数的参数值为10时，表示人物口型为最大张开程度。

为了避免口型图像序列中相邻两帧口型图像帧的口型参数的参数参数差值较大，导致口型图像序列衔接不流畅。可以设定预设阈值来检测口型图像序列中相邻两帧图像帧的口型参数的参数值变化。比如，预设阈值可以为5等，在本申请实施例中不做限定。

例如，口型图像序列中包括：第一口型图像帧、第二口型图像帧、第三口型图像帧以及第四口型图像帧。检测到第一口型图像帧的口型参数值为3，第二口型图像帧的口型参数值为8，第三口型图像帧的口型参数值为2，第四口型图像帧的口型参数值为5。预设阈值可以为5，则可以确定第二口型图像帧的口型参数值与第三口型图像帧的口型参数值的变化值大于预设阈值。

当口型图像序列中存在相邻两帧口型图像帧的口型参数的变化值大于预设阈值时，可以根据该相邻两帧口型图像帧的口型参数确定目标口型参数。可以包括多种方式，比如，可以计算该相邻两帧口型图像帧的口型参数值的平均值，根据该平均值得到目标口型参数。

例如，口型图像序列中，第二口型图像帧与第三口型图像帧的口型参数的变化值大于预设阈值，其中，第二口型图像帧的口型参数值为8，第三口型图像帧的口型参数值为2，则可以计算目标口型参数为5。

进一步的，根据目标口型参数生成口型图像序列中的人物对于的口型图像帧，即可以得到第二目标口型图像帧。比如，目标口型参数可以为5，则可以生成口型参数为5的口型图像中的人物对应的口型图像帧，也即第二目标口型图像帧，然后将该第二目标口型图像帧添加至第二口型图像帧与第三口型图像帧之间，可以使得口型图像序列中的各个口型图像帧连接流畅，视频画面的表现效果更好。

本申请实施例公开了一种信息处理方法，该方法包括：获取配音文本对应的候选音素，得到候选音素集合；获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果；基于对齐结果从候选音素集合中确定目标音素；根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列。本申请实施例通过将配音文本与配音音频进行对齐处理，得到配音音频中的时间点对应的发音音素，然后获取发音音素对应的口型图像，生成口型图像序列，可以提高配音音频与口型图像序列播放时的匹配率。

根据上述介绍的内容，下面将举例来进一步说明本申请的信息处理方法。请参阅图7，图7为本申请实施例提供的另一种信息处理方法的流程示意图。以该信息处理方法应用于游戏中的剧情对话场景为例，具体流程可以如下：

201、获取对话文本，并对对话文本进行分词处理，得到单词序列。

在本申请实施例中，游戏形式可以包括多种。比如，可以包括网页游戏，终端游戏等，其中，网页游戏是基于网页浏览器的网络在线多人互动游戏，无需下载客户端；终端游戏指的是依靠下载游戏客户端，在终端上进行游戏的网络游戏。

在游戏设计中，会涉及到剧情对话场景的需求，以便于向游戏玩家介绍游戏或者游戏剧情发展等。然而为了提高表现力，增强游戏玩家的观看体验，在游戏中的剧情对话场景不是简单的旁白字幕，而是在剧情对话场景通过将字幕、语音，以及在游戏画面辅以人物动画表现。

其中，对话文本指的是剧情对话场景的文本，比如，在剧情对话场景中，可以设计游戏人物的对话为“让我们开启探索之旅”等，则文本“让我们开启探索之旅”即为对话文本。

其中，分词处理在上一实施例中以作详细说明，在此不多做赘述。通过将对话文本进行分词处理，可以得到该对话文本中的多个单词，然后将这多个单词按照每一单词在对话文本中的位置进行排序，就可以得到这多个单词的排序，也即该对话文本对应的单词序列。

例如，对话文本为“让我们开启探索之旅”，对该对话文本进行分词处理，可以得到多个单词：“让”、“我们”、“开启”、“探索”、“之”和“旅”，然后根据每一单词在对话文本中的位置，可以得到单词序列：“让”、“我们”、“开启”、“探索”、“之”、“旅”。

202、确定单词序列中每一单词对应的发音标识。

其中，发音标识表示单词的发音。可以从词表中获取单词序列中每一单词对应的发音标识，词表是一个类似字典的数据结构，能够将单词映射到发音上。在词表中，单词到发音的映射关系不限于一对一，可能是一对多等。比如，对于“我和你”这个单词，会有“woheni”“wohuoni”等发音标识。

例如，单词序列：“让”、“我们”、“开启”、“探索”、“之”、“旅”，从词表中获取每一单词对应的发音标识，“让”对应“rang”，“我们”对应“women”、“wumen”，“开启”对应“kaiqi”，“探索”对应“tansuo”，“之”对应“zhi”，“旅”对应“lv”。

203、基于发音标识确定候选音素，得到对话文本对应的候选音素集合。

其中，音素是根据语音的自然属性划分出来的最小语音单位，依据发音标识里的发音动作来分析，一个动作构成一个音素。单词的发音标识通常是可以拆分和对应到音素上的，一般一个单词由若干个音素组成。那么候选音素也即单词的发音标识对应的音素。

例如，单词序列中，单词的发音标识包括：“rang”、“women”、“wumen”、“kaiqi”、“tansuo”、“zhi”和“lv”，可以得道候选音素集合为“r、a、n、g、w、o、m、e、n、w、u、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”。

204、根据候选音素集合生成多个候选音素序列。

其中，根据候选音素集合生成候选音素序列也即根据每一单词的不同发音标识生成不同的候选音素序列。

例如，单词序列中，“让”对应“rang”，“我们”对应“women”、“wumen”，“开启”对应“kaiqi”，“探索”对应“tansuo”，“之”对应“zhi”，“旅”对应“lv”，候选音素集合为“r、a、n、g、w、o、m、e、n、w、u、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”，则可以生成第一候选音素序列：“r、a、n、g、w、o、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”和第二候选音素序列：“r、a、n、g、w、u、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”。

205、识别对话文本对应的对话音频，得到对话音频对应的音素序列。

其中，对话音频指的是游戏中剧情对话场景与对话文本对应的对话音频，比如，在游戏设计时，当设计好对话文本之后，可以根据对话文本预先进行配音，得到对话音频。

在本申请实施例中，对对话音频进行识别是为了提高对话音频与对话文本的匹配率，因为在根据对话文本对对话音频配音过程中，不同人的发音存在不同，通过识别对话音频，得到对话音频的音素序列，可以基于对话音频的音素序列来确定对话文本的音素序列，提高匹配准确性。

具体的，在确定对话音频之后，可以根据语音识别技术对对话音频进行识别。其中，对对话音频进行语音识别可以参见上述实施例，已做详细说明。

例如，通过对对话音频进行语音识别，得到的音素序列可以为：“r、a、n、g、w、o、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”。

206、计算每一候选音素序列与音素序列的对齐率，并确定与音素序列的对齐率最大的候选音素序列，得到目标音素序列。

其中，在计算候选音素序列与音素序列的对齐率时，需要确定候选音素序列中每一候选音素在对话音频的播放时间轴上对应的时间点，以及音素序列中每一音素在对话音频的播放时间轴上对应的时间点。

具体的，音素序列是通过对对话音频进行语音识别得到的，在语音识别过程中，由于需要对对话音频进行分帧处理，得到多帧音频帧，每一帧音频帧对应对话音频的不同时间点，然后音素序列中的音素是根据音频帧得到，所以音素序列中的每一音素在对话音频的播放时间轴上对应的时间点在语音识别过程中可以确定。

例如，音素序列可以为：“r、a、n、g、w、o、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”，音素序列中每一音素在播放时间轴上对应的时间点分别为：1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒、11秒、12秒、13秒、14秒、15秒、16秒、17秒、18秒、19秒、20秒、21秒、22秒、23秒、24秒、25秒。

具体的，确定候选音素序列在对话音频的播放时间轴上对应的播放时间点可以通过强制对齐模型来提取。

其中，强制对齐是一种自动语音识别方法，它与传统的语音识别技术有很大的不同。识别引擎不是给出一组可能的单词来识别，而是给出语音数据中所说内容的精确转录。然后，系统将所述转录数据与所述语音数据对齐，确定语音数据中的哪些时段与转录数据中的特定词最佳对应。

在本申请实施例中，通过语音识别技术以及强制对齐模型，首先对对话音频进行识别，得到对话音频的播放时间轴，将该播放时间轴基于每一帧音频帧切分为多个时间段，然后将与对话音频对应对话文本生成的音素，根据音素特征信息(音素对应的发音动作等)分别对齐至播放时间轴上的各个时间段，即可以得到候选音素序列中各个候选音素对应的时间点。

例如，第一候选音素序列可以为：“r、a、n、g、w、o、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”，第一候选音素序列中每一候选音素在播放时间轴上对应的时间点分别为：1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒、11秒、12秒、13秒、14秒、15秒、16秒、17秒、18秒、19秒、20秒、21秒、22秒、23秒、24秒、25秒。第二候选音素序列可以为：“r、a、n、g、w、u、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”，第二候选音素序列中每一候选音素在播放时间轴上对应的时间点分别为：1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒、11秒、12秒、13秒、14秒、15秒、16秒、17秒、18秒、19秒、20秒、21秒、22秒、23秒、24秒、25秒。

在确定候选音素序列中每一候选音素在对话音频的播放时间轴上对应的时间点，以及音素序列中每一音素在对话音频的播放时间轴上对应的时间点，可以通过播放时间轴上每一时间点对应的音素与候选音素进行匹配，根据匹配结果计算候选音素序列与音素序列的对齐率，具体计算方式已在上一实施例中做详细说明。

例如，播放时间轴的总时长可以为：25秒，第一候选音素序列与音素序列中音素匹配成功的数量可以为25个，第二候选音素序列与音素序列中音素匹配成功的数量可以为24个，则计算第一候选音素序列与音素序列的对齐率25/25，为100％，计算第二候选音素序列与音素序列的对齐率24/25，为96％，可以确定第一候选音素序列与音素序列的对齐率最大，则第一候选音素序列为目标音素序列。

207、获取目标音素序列中每一目标音素对应的口型图像帧。

在本申请实施例中，可以预先建立一个口型图像库，该口型图像库中存储有多个口型图像帧，每一口型图像帧可以是根据不同的音素进行绘制得到，那么每一口型图像帧可以对应一个音素，也可以对应多个音素。借助该口型图像库，获取目标音素序列中的每个目标音素对应的口型图像帧。

例如，目标音素中可以包括：“r、a、n、g、w、o、m、e、n、k、a、i、q、i、t、a、n、s、u、o、z、h、i、l、v”，从口型图像库中获取每一目标音素对应的口型图像帧，可以得到：图像帧r、图像帧a、图像帧n、图像帧g、图像帧w、图像帧o、图像帧m、图像帧e、图像帧n、图像帧k、图像帧a、图像帧i、图像帧q、图像帧i、图像帧t、图像帧a、图像帧n、图像帧s、图像帧u、图像帧o、图像帧z、图像帧h、图像帧i、图像帧l、图像帧v。

208、确定目标音素序列中每一目标音素在对话音频的播放时间轴中对应的目标时间点。

在步骤206中，确定了候选音素序列中每个候选音素对应的时间点，由于目标音素序列是从候选音素序列中选择得到，那么可以根据该目标音素序列对应的候选音素序列中每一候选音素对应的播放时间点得到目标音素序列中每一目标音素对应的目标时间点。

例如，候选音素序列包括第一候选音素序列和第二候选音素序列，目标音素序列对应第一候选音素序列，获取第一候选音素序列中每一候选音素在播放时间轴上对应的时间点，可以得到：1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒、11秒、12秒、13秒、14秒、15秒、16秒、17秒、18秒、19秒、20秒、21秒、22秒、23秒、24秒、25秒，也即确定目标因素序列中每一目标因素对应的时间点。

209、基于口型图像帧与目标时间点生成口型图像序列。

在确定目标音素序列中每一目标音素对应的口型图像帧以及目标时间点之后，则可以按照目标时间点对口型图像帧进行排列，得到口型图像序列。

例如，目标音素对应的口型图像帧包括：图像帧r、图像帧a、图像帧n、图像帧g、图像帧w、图像帧o、图像帧m、图像帧e、图像帧n、图像帧k、图像帧a、图像帧i、图像帧q、图像帧i、图像帧t、图像帧a、图像帧n、图像帧s、图像帧u、图像帧o、图像帧z、图像帧h、图像帧i、图像帧l、图像帧v，目标音素对应的目标时间点为：1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒、11秒、12秒、13秒、14秒、15秒、16秒、17秒、18秒、19秒、20秒、21秒、22秒、23秒、24秒、25秒，根据目标音素对应的目标时间点对口型图形帧进行排列，得到口型图像序列为：“图像帧r、图像帧a、图像帧n、图像帧g、图像帧w、图像帧o、图像帧m、图像帧e、图像帧n、图像帧k、图像帧a、图像帧i、图像帧q、图像帧i、图像帧t、图像帧a、图像帧n、图像帧s、图像帧u、图像帧o、图像帧z、图像帧h、图像帧i、图像帧l、图像帧v”。

本申请实施例公开了一种信息处理方法，该方法包括：获取对话文本，并对对话文本进行分词处理，得到单词序列，确定单词序列中每一单词对应的发音标识，基于发音标识确定候选音素，得到对话文本对应的候选音素集合，根据候选音素集合生成多个候选音素序列，识别对话文本对应的对话音频，得到对话音频对应的音素序列，计算每一候选音素序列与音素序列的对齐率，并确定与音素序列的对齐率最大的候选音素序列，得到目标音素序列，获取目标音素序列中每一目标音素对应的口型图像帧，确定目标音素序列中每一目标音素在对话音频的播放时间轴中对应的目标时间点，基于口型图像帧与目标时间点生成口型图像序列。以此，有效提升了匹配的准确性。将需要识别的文字匹配到对话音频的时间戳上，就确定了口型图像帧需要显示的时间点，让口型与语音的时间一一对应，极大增强了两者的贴合程度，提升了表现力。

为便于更好的实施本申请实施例提供的信息处理方法，本申请实施例还提供一种基于上述信息处理方法的信息处理装置。其中名词的含义与上述信息处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图8，图8为本申请实施例提供的一种信息处理装置的结构框图，该装置包括：

获取单元301，用于获取配音文本对应的候选音素，得到候选音素集合；

对齐单元302，用于获取与所述配音文本关联的配音音频，并将所述候选音素集合中的候选音素与所述配音音频进行对齐，得到对齐结果；

确定单元303，用于基于所述对齐结果从所述候选音素集合中确定目标音素；

第一生成单元304，用于根据所述目标音素和所述配音音频的播放时间戳，生成所述配音文本的口型图像序列。

在一些实施例中，对齐单元302可以包括：

第一获取子单元，用于获取所述配音音频的音素序列；

在一些实施例中，第一确定子单元可以用于：

将所述音素序列与所述候选音素序列进行匹配；

在一些实施例中，选取子单元可以用于：

确定所述单词对应的音素组合；

获取所述单词在所述配音文本中的位置；

在一些实施例中，选取子单元具体可以用于：

获取所述单词在所述配音文本中的位置；

在一些实施例中，第一生成单元304可以包括：

在一些实施例中，该信息处理装置还可以包括：

第二生成单元，用于若否，则生成所述口型图像序列对应的预设类型的第一目标口型图像帧；

第一添加单元，用于在所述口型图像序列中最后一帧口型图像帧之后，添加所述第一目标口型图像帧添。

在一些实施例中，该信息处理装置还可以包括：

第二检测单元，用于检测所述口型图像序列中是否存在相邻两帧口型图像帧的口型参数变化值大于预设阈值；

第三生成单元，用于若是，则根据所述相邻两帧口型图像帧生成第二目标口型图像帧；

第二添加单元，用于在所述口型图像序列中所述相邻两帧口型图像帧之间，添加所述第二目标口型图像帧。

本申请实施例公开了一种信息处理装置，通过获取单元301获取配音文本对应的候选音素，得到候选音素集合，对齐单元302获取与所述配音文本关联的配音音频，并将所述候选音素集合中的候选音素与所述配音音频进行对齐，得到对齐结果，确定单元303基于所述对齐结果从所述候选音素集合中确定目标音素，第一生成单元304根据所述目标音素和所述配音音频的播放时间戳，生成所述配音文本的口型图像序列。以此，通过将配音文本与配音音频进行对齐处理，得到配音音频中的时间点对应的发音音素，然后获取发音音素对应的口型图像，生成口型图像序列，可以提高配音音频与口型图像序列播放时的匹配率。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图9所示，图9为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是计算机设备400的控制中心，利用各种接口和线路连接整个计算机设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备400的各种功能和处理数据，从而对计算机设备400进行整体监控。

在本申请实施例中，计算机设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

获取配音文本对应的候选音素，得到候选音素集合；获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果；基于对齐结果从候选音素集合中确定目标音素；根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图9所示，计算机设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图9中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行游戏应用程序在触控显示屏403上生成图形用户界面，图形用户界面上的虚拟场景中包含至少一个技能控制区域，技能控制区域中包含至少一个技能控件。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一计算机设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给计算机设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图9中未示出，计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，通过获取配音文本对应的候选音素，得到候选音素集合；获取与配音文本关联的配音音频，并将候选音素集合中的候选音素与配音音频进行对齐，得到对齐结果；基于对齐结果从候选音素集合中确定目标音素；根据目标音素和配音音频的播放时间戳，生成配音文本的口型图像序列，提高配音音频与口型图像序列播放时的匹配率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种信息处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种信息处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取配音文本对应的候选音素，得到候选音素集合；

基于所述对齐结果从所述候选音素集合中确定目标音素；

2.根据权利要求1所述的方法，其特征在于，所述将所述候选音素集合中的候选音素与所述配音音频进行对齐，得到对齐结果，包括：

获取所述配音音频的音素序列；

从所述候选音素集合中选取对应的候选音素，构建候选音素序列；

确定所述音素序列与所述候选音素序列的对齐率。

3.根据权利要求2所述的方法，其特征在于，所述确定所述音素序列与所述候选音素序列的对齐率，包括：

将所述音素序列与所述候选音素序列进行匹配；

4.根据权利要求2所述的方法，其特征在于，所述从所述候选音素集合中选取对应的候选音素，构建候选音素序列，包括：

确定所述单词对应的音素组合；

获取所述单词在所述配音文本中的位置；

5.根据权利要求4所述的方法，其特征在于，所述确定所述单词对应的音素组合，包括：

从词表数据库中获取所述单词对应的发音标识，所述词表数据库包括多个样本单词和多个发音标识；

对所述发音标识进行转换处理，得到所述单词对应的音素组合。

6.根据权利要求2所述的方法，其特征在于，所述根据所述目标音素和所述配音音频的播放时间戳，生成所述配音文本的口型图像序列，包括：

从所述播放时间戳中获取所述音素序列中每一音素的播放时间点；

基于所述音素的播放时间点确定所述目标音素的播放时间点；

从预设口型图像帧集合中，获取所述目标音素对应的口型图像帧；

根据所述目标音素的播放时间点对所述目标音素对应的口型图像帧进行排列，得到所述口型图像序列。

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述生成所述配音文本的口型图像序列之后，还包括：

检测所述口型图像序列中最后一帧口型图像帧是否为预设类型的口型图像帧；

若否，则基于所述口型图像序列生成第一目标口型图像帧，所述第一目标口型图像帧的口型类型为所述预设类型；

将所述第一目标口型图像帧添加至所述最后一帧口型图像帧之后。

8.根据权利要求1至6任一项所述的方法，其特征在于，在所述生成所述配音文本的口型图像序列之后，还包括：

获取所述口型图像序列中每一口型图像帧的口型参数；

计算相邻两帧口型图像帧的口型参数变化值；

9.一种信息处理装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至8任一项所述的信息处理方法。

11.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的信息处理方法。