CN112633136B

CN112633136B - 视频分析方法、装置、电子设备及存储介质

Info

Publication number: CN112633136B
Application number: CN202011511307.XA
Authority: CN
Inventors: 王鑫宇; 杨国基; 刘炫鹏; 陈泷翔; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-03-22
Anticipated expiration: 2040-12-18
Also published as: CN112633136A

Abstract

本申请公开了一种视频分析方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像；确定唇部在每个所述第一图像中的第一位置信息；根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音；获取所述第一语音与所述第二语音之间的第一距离，并根据所述第一距离确定所述第一视频是否符合预设条件；若符合预设条件，则确定所述第一视频为第一等级视频，所述第一等级视频为用户非常满意的视频。本申请通过利用第一语音和第二语音之间的距离来对生成的第一视频进行准确有效的评价。

Description

视频分析方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种视频分析方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，很多智能机器学习、深度学习的不同算法被应用于数字人生成上。现有技术在生成数字人时，通常是将语音或者文本等输入至机器学习或者深度学习模型中，以生成与数字人相关的视频，但是现有技术却没有对数字人进行评价的具体方案。因此，如何对生成的第一视频进行评价是亟待解决的问题。

发明内容

鉴于上述问题，本申请提出了一种视频分析方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种视频分析方法，该方法包括：获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频；若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像；确定唇部在每个所述第一图像中的第一位置信息；根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音；将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征；将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征；获取所述第一语音特征和所述第二语音特征的差值，作为第一语音与第二语音之间的第一距离；根据所述第一距离确定所述第一视频是否符合预设条件；若符合预设条件，则确定所述第一视频为第一等级视频。

进一步地，获取第一语音，包括：获取第一文本，并基于所述第一文本生成所述第一语音。

进一步地，根据所述第一距离确定所述第一视频是否符合预设条件，包括：获取用户输入的第三语音，并将所述第三语音输入至所述视频生成模型，得到第二视频，所述第二视频包括多个第二图像；确定唇部在每个所述第二图像中的第二位置信息；根据所述第二位置信息获取多个第二唇部图像，并将所述多个第二唇部图像输入至唇语识别模型，得到第四语音；获取所述第三语音与所述第四语音之间的第二距离；根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件。

进一步地，根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件，包括：确定所述第一距离与所述第二距离的比值，并将该比值作为目标参数；根据所述目标参数确定所述第一视频是否符合预设条件。

进一步地，根据所述目标参数确定所述第一视频是否符合预设条件，包括：确定所述目标参数是否小于第一预设阈值；若所述目标参数小于所述第一预设阈值，则确定所述第一视频符合预设条件。

进一步地，若所述目标参数大于或者等于所述第一预设阈值，则确定所述目标参数是否小于第二预设阈值；若所述目标参数小于所述第二预设阈值，则确定所述第一视频为第二等级视频，所述第二等级视频的用户满意度低于所述第一等级视频的用户满意度。

进一步地，若所述目标参数大于或者等于第二预设阈值，则确定所述第一视频为第三等级视频，所述第三等级视频的用户满意度低于所述第二等级视频的用户满意度。

进一步地，第一预设阈值为0.01，所述第二预设阈值为0.05。

进一步地，获取所述第一语音特征和所述第二语音特征的差值，包括：利用欧式距离获取所述第一语音特征和所述第二语音特征的差值。

进一步地，若所述候选视频中未包含人脸图像，则确定第一视频生成失败。

第二方面，本申请实施例提供了一种视频分析装置，该装置包括：第一获取模块、位置确定模块、第二获取模块、距离获取模块以及视频确定模块。其中，第一获取模块，用于获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频；若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像。位置确定模块，用于确定唇部在每个所述第一图像中的第一位置信息。第二获取模块，用于根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。距离获取模块，用于将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征；将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征；获取所述第一语音特征和所述第二语音特征的差值，作为第一语音与第二语音之间的第一距离；根据所述第一距离确定所述第一视频是否符合预设条件。视频确定模块，用于若符合预设条件，则确定所述第一视频为第一等级视频。

第三方面，本申请实施例提供了一种电子设备，其包括：存储器、一个或多个处理器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个处理器执行所述一个或多个程序，用于实现如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供的视频分析方法、装置、电子设备及存储介质，该方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请第一实施例提供的视频分析方法的流程示意图。

图2示出了本申请第一实施例提供的视频分析方法中脸部关键点示意图。

图3示出了本申请第一实施例提供的视频分析方法中唇形与发音对照示意图。

图4示出了本申请第一实施例提供的视频分析方法中第一位置信息示意图。

图5示出了本申请第二实施例提供的视频分析方法的流程示意图。

图6示出了本申请第三实施例提供的视频分析方法的流程示意图。

图7示出了本申请第四实施例提供的视频分析方法的流程示意图。

图8示出了本申请第五实施例提供的视频分析方法的流程示意图。

图9示出了本申请第六实施例提供的视频分析方法的流程示意图。

图10示出了本申请第七实施例提供的视频分析方法的流程示意图。

图11示出了本申请第八实施例提供的视频分析装置的模块框图。

图12是本申请第九实施例的用于执行根据本申请实施例的视频分析方法的电子设备的框图。

图13是本申请第十实施例的用于保存或者携带实现根据本申请实施例的视频分析方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前生成数字人的方案越来越多，但是却没有一个很好的评价方案来判断生成数字人的好坏，尤其是在线语音合成没有对应的关键点，如此也导致没有一个很好的方案来对生成数字人的好坏进行评价，只能通过用户的主观感受俩进行评判。换句话说，现有技术在对生成数字人进行评价时，主要是通过人的肉眼来进行评价的，其没有一个标准化的评价方式，并且不同人对生成的数字人的看法可能不同，不能保证评价的准确性和一致性，尤其是对于非专业人员来说，因不具有专业知识，其无法保证评价的准确性，同时其评价结果的信服力也较弱。

为了改善上述问题，发明人提出了本申请实施例中的视频分析方法、装置、电子设备及存储介质本申请实施例，该方法通过利用第一语音与第二语音之间的距离可以对生成的第一视频进行准确有效的评价。

下面将通过具体实施例对本申请实施例提供的视频分析方法、装置、电子设备及存储介质进行详细说明。

第一实施例

请参阅图1，图1示出了本申请实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S110至步骤S150。

步骤S110：获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频，若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像。

本申请实施例可以应用于电子设备，该电子设备可以是智能手机、平板电脑等能够运行应用程序的电子设备。电子设备可以获取第一语音，其中，所述第一语音可以是经过文本自动转换而成的语音。

在一些实施方式中，电子设备在获取到第一语音之后，其可以将所述第一语音输入至视频生成模型，得到第一视频，其中，视频生成模型主要作用基于语音生成视频，且视频生成模型可以是经过语音数据和视频数据训练得到，所述语音数据和视频数据可以称为训练数据集，且视频数据也可以称为载体视频，所述载体视频的主要作用是指导数字人点头、眨眼、表情以及光照等，所述光照可以包括亮度以及饱和度等。

作为一种方式，视频数据可以包括多个载体视频，在获取到载体视频时电子设备也可以先确定所述载体视频对应的亮度和饱和度，而后判断所述载体视频对应的亮度是否大于亮度阈值，若大于亮度阈值，则确定饱和度是否大于饱和度阈值，如果饱和度也大于饱和度阈值，则将载体视频作为视频数据来训练视频生成模型。如此，可以使最终获取的第一视频更符合用户的实际需求，因为在实际情况中，亮度以及饱和度比较高的视频可以使用户的心情能够得到提升。

作为另一种方式，获取到载体视频时，电子设备也可以确定其获取的载体视频中是否包含人脸图像，如果载体视频中未包含人脸图像，则不能将其作为训练数据来训练视频生成模型。另外，在确定载体视频中包含有人脸图像时，电子设备也可以确定该载体视频中是否包含有有效动作，因为在某些情况下，虽然视频中包含有人脸，但是该人脸没有任何动作，保持静止不动，此时该视频则不利于视频生成模型的训练。因此，电子设备只有在确定载体视频中包含有有效动作时，才将该视频作为训练视频来训练视频生成模型。

作为另一种方式，在确定载体视频中包含有有效动作时，电子设备也可以对所述有效动作进行统计，以此获取有效动作的数量，并确定该有效动作的数量是否大于数量阈值，如果确定有效动作的数量大于数量阈值，则将该载体视频作为训练视频来对视频生成模型进行训练。其中，有效动作可以是相同的动作，也可以是不同的动作，其中，相同的动作指的是视频中的人物在不同时刻发生同样的动作，如载体视频中的人物在第一时刻发生点头动作，且在第二时刻又发生了点头动作。不同的动作则指的是视频中的人物在不同时刻发生的动作不相同。例如，载体视频中的人物在第三时刻的动作是点头，而在第四时刻的动作则是摇头。另外，视频中的人物在同一时刻也可以同时发生不同的动作，如在同一时刻载体视频中的人物不仅产生了点头动作，而且产生了眨眼动作，即载体视频中的人物在点头的同时眨眼了，或者载体视频中的人物也可以在说话的同时眨眼并且点头等。因此，有效动作的数量可以是在预设时间段内发生的所有动作的总和。

在另一些实施方式中，为了使获取的视频生成模型更加准确，电子设备在获取到载体视频时，其也可以对获取的载体视频进行质量评估，具体的，可以获取载体视频的噪音，并确定其噪音是否大于噪音阈值，或者也可以获取载体视频的清晰度，并确定该清晰度是否大于清晰度阈值等。具体如何对载体视频进行质量评估，这里不进行明确限制，可以根据实际情况进行选择。如要求获取的第一视频的清晰度较高，那么在进行质量评估时，应先确定载体视频的清晰度是否符合预设条件，又如，要求获取的第一视频的噪音较小，那么在进行质量评估时，电子设备应先确定载体视频的噪音是否小于噪音阈值等。

需要说明的是，在确定是否利用获取的载体视频对视频生成模型进行训练时，电子设备可以仅利用上述任意条件进行判断，或者也可以结合上述至少一个判断条件来确定是否将载体视频用于视频生成模型的训练，具体如何选择载体视频，这里就不进行一一赘述，可以根据实际情况进行选择。

本发明实施例中，第一视频可以称为数字人视频，第一视频可以包括多个第一图像，而每个第一图像可以包括多个像素关键点，这些像素关键点共同构成第一图像，第一图像不相同则其对应的像素点也可能不相同。在一些实施方式中，第一视频包括的多个第一图像中可以包括多个人脸图像，这些人脸图像可以构成不同的点头、眨眼、摇头或者说话等动作，第一语音内容与所述点头、眨眼、摇头或者张嘴等动作相互对应。

在一些实施方式中，第一图像可以包括多个第一关键点，其中，第一关键点的数量可以是68个，本发明实施例可以将所述多个第一关键点分为内部关键点和轮廓关键点，其中，内部关键点可以包括眼睛、鼻子和嘴巴共计51个关键点，轮廓关键点包括17个关键点。为了更清楚的理解关键点的分布，本发明给出了如图2所示的示图，从图2可以看出，单边眉毛可以包括5个关键点，从左边界到右边界均匀采样，共5×2＝10个；眼睛分为6个关键点，分别是左右边界，上下眼睑均匀采样，6×2＝12个；嘴唇分为20个关键点，除了嘴角的2个，分为上下嘴唇，上下嘴唇的外边界，各自均匀采样5个点，上下嘴唇的内边界，各自均匀采样3个点，共20个；鼻子对应的鼻梁部分包括4个关键点，而鼻尖部分则均匀采集5个，即鼻子共9个关键点；脸部轮廓均匀采用17个关键点。综上，本发明实施例中的第一图像中包含的关键点的数量为68个。

在一些实施方式中，将第一语音输入至视频生成模型，得到第一视频之后，电子设备可以确定唇部在每个第一图像中的第一位置信息，即进入步骤S120。另外，电子设备在获取到第一语音时，其也可以将载体视频和所述第一语音同时输入至视频生成模型，得到第一视频。

步骤S120：确定唇部在每个所述第一图像中的第一位置信息。

通过上述介绍可以知道，本发明实施例中的人脸关键点可以包括68个关键点，而这68个关键点不仅可以包括轮廓关键点，而且可以包括眼睛、眉毛、鼻子以及嘴巴等内部关键点。人们在说话时发音不同，则其对应的唇形也是不相同，如图3所示，发音不同则对应的唇部形状也是不相同。例如，在发B、M、P语音时，对应的唇形是闭合的，而在发A、E以及I时，对应的唇形则是张开的，并且即使张开的对应的唇形也是不相同的。因此，为了更加准确快速的实现对生成的第一视频的评价与分析，本发明实施例引入了对唇部特征的分析。

通过结合图2可以知道，唇部对应的关键点可以包括左右嘴角关键点4个、上下嘴唇的外边界关键点10个、上下嘴唇的内边界关键点6个。如图2中序号49、55、61和65即为4个左右嘴角关键点，而序号50、51、52、53、54、56、57、58、59和60即为10个外边界关键点，同时序号62、63、64、66、67和68则为6个上下嘴唇的内边界关键点。只要图像中是嘴唇，就可以对应获取到这些关键点的位置。

在一些实施方式中，在利用视频生成模型，得到第一视频之后，电子设备可以确定唇部在每个第一图像中的第一位置信息，第一位置信息可以是包含所有唇部关键点的坐标位置信息，本发明实施例中第一位置信息可以包括两个坐标位置信息，所述两个坐标位置信息可以是包含所有唇部关键点对应的矩形的坐标位置信息，即这两个坐标位置信息可以是左上角坐标和右下角坐标。本发明实施例中，左上角坐标可以是[3[x]，34[y]]，而右下角坐标则可以是[15[x]，9[y]]，为了更清楚的理解第一位置信息，本发明实施例给出了如图4所示的示图，从图4可以看出第一位置信息可以是矩形框的坐标位置信息，其可以由左上角坐标和右下角坐标组成，也可以由左下角坐标和右上角坐标组成，或者也可以是由中心坐标和中心坐标与两边的距离构成，第一位置信息具体又哪些部分构成，这里不进行明确限制，可以根据实际情况进行选择。从图4可以看出矩形框中包含有唇部的图像，通过对所述唇部图像的分析即可确定出第二语音。

在另一些实施方式中，为了使获取的唇部图像更加准确，电子设备也可以直接获取第一图像中唇部的左右嘴角关键点(49和55)坐标，以及获取上唇最高关键点(51或者53)坐标，同时获取下唇最低关键点(58)坐标，然后左嘴角关键点的x坐标减去第一预设长度，下唇最低关键点的y坐标减去第二预设长度，右嘴角关键点x坐标加上第三预设长度，上唇最高关键点的y坐标加上第四预设长度，第一预设长度、第二预设长度、第三预设长度以及第四预设长度可以相同也可以不相同，且第一预设长度小于左嘴角到3[x]的距离；第二预设长度小于下唇最低关键点到9[y]的距离；第三预设长度小于右嘴角到15[x]的距离，以及第四预设长度小于上唇最高关键点到34[y]的距离。

通过上述介绍可以知道，第一视频可以包括多个第一图像，故本发明实施例可以获取到多个第一位置信息，在获取到所述多个第一位置信息后，电子设备可以根据所述多个第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音，即进入步骤S130。

步骤S130：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

作为一种方式，电子设备在获取到多个第一位置信息后可以获取每个第一位置信息对应的第一唇部图像，即每个第一位置信息可以对应一个第一唇部图像，唇部图像如图4所示，其可以包括所有唇部关键点，所述唇部关键点的数量可以是20个。第一视频可以包括多个第一图像，每个第一图像可以对应包括一个唇部图像，电子设备在获取到第一位置信息后可以直接根据第一位置信息将唇部图像从第一图像中切分出来。作为另一种方式，电子设备也可以利用深度学习对每个第一图像中的唇部进行定位以及分割，以此获取到多个第一唇部图像。

在另一些实施方式中，电子设备在获取到多个第一唇部图像之后，其可以将所述多个第一唇部图像输入至唇语识别模型中，以此得到第二语音。本发明实施例中，唇语识别模型主要作用是将图像转换为语音，即通过对唇部图像的识别来对应获取到语音，唇语识别模型可以是通过大量的唇部视频和语音数据训练获取的，即每个唇部视频可以对应一个语音数据，通过利用这些唇部视频和语音数据对唇部识别模型进行训练，可以使唇部识别模型的识别效果更准确。

步骤S140：获取所述第一语音与所述第二语音之间的第一距离，并根据所述第一距离确定所述第一视频是否符合预设条件。

在一些实施方式中，电子设备在获取到第二语音之后，其可以获取第一语音与第二语音之间的第一距离。其中，第一语音和第二语音对应的唇部图像是相同的，且第一语音和第二语音对应的语音内容可能相同，主要原因是第二语音是在第一语音的基础上生成的。通过上述介绍可以知道，第二语音是通过第一语音生成的第一视频获取的，故第一语音和第二语音所包含的内容可能是相同的。第一语音和第二语音不同之处在于，第一语音是原始语音，而第二语音则是通过视频生成模型和唇语识别模型获取的，通过获取这二者的差值，本发明实施了可以更准确的对生成的第一视频进行评价。

作为一种方式，第一语音与第二语音之间的第一距离可以通过用欧式距离、曼哈顿距离、切比雪夫距离等获取，在此过程中，为了更准确的获取第一语音与第二语音之间距离，电子设备也可以先对第一语音和第二语音进行语音处理，如将第一语音和第二语音转换为梅尔频率倒谱系数，而后基于转换后的结果获取第一语音与第二语音之间的距离。

作为另一种方式，第一语音可以包括多个第一子语音，而第二语音则可以包括多个第二子语音，然后获取每个第一子语音与每个第二子语音之间的第一子距离，所述第一子语音和所述第二子语音相互对应，最后电子设备对所述多个第一子距离进行求平均，并将该平均距离作为第一距离。另外，电子设备也可以对所述多个第一子距离进行加权求平均，并将最后获取的值作为第一距离，第一距离具体如何获取这里不进行明确限制，可以根据实际情况进行选择。

作为一种方式，获取到第一语音与第二语音之间的第一距离之后，本发明实施例可以根据所述第一距离确定第一视频是否符合预设条件。具体的，电子设备可以确定所述第一距离是否小于第一距离阈值，如果第一距离小于第一距离阈值，则确定第一视频符合预设条件。作为另一种方式，电子设备也可以结合第一距离和其他距离共同确定第一视频是否符合预设条件。当第一视频符合预设条件时，确定第一视频为第一等级视频，即进入步骤S150。如果第一视频不符合预设条件，则表示生成的第一视频的效果不是很好，即第一视频可能是第二等级视频，所述第二等级视频为用户可接受视频，即第二等级视频的用户满意度低于所述第一等级视频的用户满意度，或者也可能是第三等级视频，所述第三等级视频为用户不可接受的视频，即第三等级视频的用户满意度低于所述第二等级视频的用户满意。具体如何判断第一视频为第二等级视频或者第三等级视频，后面实施例将会进行详细介绍，这里就不进行赘述。

步骤S150：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请实施例中，当电子设备根据第一距离确定第一视频符合预设条件时，其可以确定第一视频为第一等级视频，其中，第一等级视频为用户非常满意的视频。例如，第一距离小于第一距离阈值，则表明生成的第二语音和原始的第一语音之间的差距不是很大，即表明利用视频生成模型生成的第一视频的效果比较好，此时可以确定生成的第一视频更符合用户的实际需求。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。

第二实施例

请参阅图5，图5示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S210至步骤S260。

步骤S210：获取第一文本，并基于所述第一文本生成所述第一语音。

在一些实施方式中，电子设备可以接收用户输入的第一文本，然后基于其获取的第一文本生成第一语音。另外，所述用户输入的第一文本可以是文本形式，也可以是图像或者语音等形式，当获取的第一文本的形式是文本形式时，则可以直接基于该第一文本生成第一语音；当获取的第一文本的形式是图像时，电子设备可以先对所述第一文本进行自然语言处理，对图像形式的文本进行识别，将图像形式的文本转换为文本形式，而后基于转换后的第一文本生成第一语音；当获取的第一文本的形式是语音时，电子设备可以先对所述第一文本进行语音处理，对语音形式的文本进行语音识别，将语音形式的文本转换为文本形式，而后基于转换后的第一文本生成第一语音。或者是，当确定用户输入的文本的形式是语音是，电子设备也可以直接将该语音作为第一语音，而不需进行语音转换。

在另一些实施方式中，获取到第一文本之后，电子设备可以利用tts(TexttoSpEEch，文本到语音)技术，将其获取到的第一文本转换成为第一语音，所述tts技术则以包括中文语音处理和语音合成，电子设备可以利用中文韵律等相关知识对中文语句进行分词、词性判断、注音、数字符号转换，语音合成通过查询中文语音库得到语音。电子设备在获取到第一语音后，其可以将所述第一语音输入至视频生成模型，以得到第一视频，即进入步骤S220。

步骤S220：将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像。

步骤S230：确定唇部在每个所述第一图像中的第一位置信息。

步骤S240：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

本发明实施例中，电子设备可以将第一语音输入至视频生成模型，得到第二视频，也可以将第一语音和第二语音同时输入至视频生成模型，通过结合第一语音和第二语音可以使得最终获取的第一视频更加准确。

步骤S250：获取所述第一语音与所述第二语音之间的第一距离，并根据所述第一距离确定所述第一视频是否符合预设条件。

步骤S260：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，电子设备可以通过tts将其获取的第一文本转换为第一语音，转换方式简单且易于实现。

第三实施例

请参阅图6，图6示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S301至步骤S310。

步骤S301：获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像。

步骤S302：确定唇部在每个所述第一图像中的第一位置信息。

步骤S303：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

步骤S304：获取所述第一语音与所述第二语音之间的第一距离。

在一些实施方式中，为了更准确的对生成的第一视频(数字人视频)进行评价，电子设备也可以获取第二距离，并结合第一距离和第二距离来确定生成的第一视频是否符合预设条件，具体如下所述。

步骤S305：获取用户输入的第三语音，并将所述第三语音输入至所述视频生成模型，得到第二视频。

在一些实施方式中，第三语音可以是用户输入的语音，所述第三语音和第一语音所涉及的语音内容可以是相同的。例如，第三语音是“请输入密码”，第一语音也可以是“请输入密码”，二者的不同之处在于第三语音是用户输入的语音，而第一语音则是用户输入文本之后，电子设备自动生成的语音。而第二语音则是根据第一语音生成的第一视频获取的，故第一语音、第二语音以及第三语音所涉及的语音内容可能是相同的，第一语音是通过文本生成的，第二语音是基于第一语音生成的第一视频生成的，而第三语音则是用户实际输入的语音。为了更准确的实现对第一视频的评价，电子设备可以获取用户输入的第三语音，而后将所述第三语音输入至视频生成模型，得到第二视频，所述第二视频可以包括多个第二图像。

步骤S306：确定唇部在每个所述第二图像中的第二位置信息。

在一些实施方式中，在利用视频生成模型，得到第二视频之后，电子设备可以确定唇部在每个第二图像中的第二位置信息，第二位置信息可以是包含所有唇部关键点的坐标位置信息，本发明实施例中第二位置信息可以包括两个坐标位置信息，所述两个坐标位置信息可以是包含所有唇部关键点对应的矩形的坐标位置信息，即这两个坐标位置信息可以是左上角坐标和右下角坐标。本发明实施例中，左上角坐标可以是[3[x]，34[y]]，而右下角坐标则可以是[15[x]，9[y]]，从图4可以看出，第二位置信息可以是矩形框的坐标位置信息，其可以由左上角坐标和右下角坐标组成，也可以由左下角坐标和右上角坐标组成，或者也可以是由中心坐标和中心坐标与两边的距离构成，第二位置信息具体又哪些部分构成，这里不进行明确限制，可以根据实际情况进行选择。从图4可以看出矩形框中包含有唇部的图像，通过对所述唇部图像的分析即可确定出第四语音。

在另一些实施方式中，为了使获取的唇部图像更加准确，电子设备也可以直接获取第二图像中唇部的左右嘴角关键点(49和55)的坐标，以及获取上唇最高关键点(51或者53)坐标，同时获取下唇最低关键点(58)坐标，然后左嘴角关键点的x坐标减去第二预设长度，下唇最低关键点的y坐标减去第二预设长度，右嘴角关键点加x坐标上第三预设长度，上唇最高关键点的y坐标加上第四预设长度，第二预设长度、第二预设长度、第三预设长度以及第四预设长度可以相同也可以不相同，且第一预设长度小于左嘴角到3[x]的距离；第二预设长度小于下唇最低关键点到9[y]的距离；第三预设长度小于右嘴角到15[x]的距离，以及第四预设长度小于上唇最高关键点到34[y]的距离。

通过上述介绍可以知道，第二视频可以包括多个第二图像，故本发明实施例可以获取到多个第二位置信息，在获取到所述多个第二位置信息后，电子设备可以根据所述多个第二位置信息获取多个第二唇部图像，并将所述多个第二唇部图像输入至唇语识别模型，得到第四语音，即进入步骤S307。

步骤S307：根据所述第二位置信息获取多个第二唇部图像，并将所述多个第二唇部图像输入至唇语识别模型，得到第四语音。

作为一种方式，电子设备在获取到多个第二位置信息后可以获取每个第二位置信息对应的第二唇部图像，即每个第二位置信息可以对应一个第二唇部图像，唇部图像如图4所示，其可以包括所有唇部关键点，所述唇部关键点的数量可以是20个。第二视频可以包括多个第二图像，每个第二图像可以对应包括一个唇部图像，电子设备在获取到第二位置信息后可以直接根据第二位置信息将唇部图像从第二图像中切分出来。作为另一种方式，电子设备也可以利用深度学习对每个第二图像中的唇部进行定位以及分割，以此获取到多个第二唇部图像。

在另一些实施方式中，电子设备在获取到多个第二唇部图像之后，其可以将所述多个第二唇部图像输入至唇语识别模型中，以此得到第四语音。本发明实施例中，唇语识别模型主要作用是将图像转换为语音，即通过对唇部图像的识别来对应获取到语音，唇语识别模型可以是通过大量的唇部视频和语音数据训练获取的，即每个唇部视频可以对应一个语音数据，通过利用这些唇部视频和语音数据对唇部识别模型进行训练，可以使唇部识别模型的识别效果更准确。

步骤S308：获取所述第三语音与所述第四语音之间的第二距离。

在一些实施方式中，电子设备在获取到第四语音之后，其可以获取第三语音与第四语音之间的第二距离。其中，第三语音和第四语音对应的唇部图像是相同的，且第三语音和第四语音对应的语音内容可能相同，主要原因是第四语音是在第三语音的基础上生成的。通过上述介绍可以知道，第四语音是通过第三语音生成的第二视频获取的，故第三语音和第四语音所包含的内容可能是相同的。第三语音和第四语音不同之处在于，第三语音是原始语音，其是用户输入的语音，而第四语音则是通过视频生成模型和唇语识别模型获取的，通过获取这二者的差值，本发明实施了可以更准确的对生成的第一视频进行评价。

作为一种方式，第三语音与第四语音之间的第二距离可以通过用欧式距离、曼哈顿距离、切比雪夫距离等获取，在此过程中，为了更准确的获取第三语音与第四语音之间距离，电子设备也可以先对第三语音和第四语音进行语音处理，如将第三语音和第四语音转换为梅尔频率倒谱系数，而后基于转换后的结果获取第三语音与第四语音之间的距离。

作为另一种方式，第三语音可以包括多个第三子语音，而第四语音则可以包括多个第四子语音，然后获取每个第三子语音与每个第四子语音之间的第二子距离，所述第三子语音和所述第四子语音相互对应，最后电子设备对所述多个第二子距离进行求平均，并将该平均距离作为第二距离。另外，电子设备也可以对所述多个第二子距离进行加权求平均，并将最后获取的值作为第二距离，第二距离具体如何获取这里不进行明确限制，可以根据实际情况进行选择。

步骤S309：根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件。

本发明实施例中，电子设备可以结合第一距离和第二距离综合确定第一视频是否符合预设条件，如获取第一距离和第二距离的比值，并确定该比值是否小于预设比值，如果第一距离和第二距离的比值小于阈值比值，则确定第一视频符合预设条件，即确定第一视频为第一等级视频，即进入步骤S310。

步骤S310：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，本发明实施例通过结合第一距离和第二距离可以更准确的实现对第一视频的分析，且通过电子设备便可以实现对第一视频的评价，其在一定程度上增加了视频评价的可靠性。

第四实施例

请参阅图7，图7示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S410至步骤S470。

步骤S410：获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像。

步骤S420：确定唇部在每个所述第一图像中的第一位置信息。

步骤S430：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

步骤S440：获取所述第一语音与所述第二语音之间的第一距离。

步骤S450：确定所述第一距离与所述第二距离的比值，并将该比值作为目标参数。

在一些实施方式中，电子设备在获取到第一距离和第二距离之后，其可以确定所述第一距离和所述第二距离的比值，并将该比值作为目标参数，而后电子设备可以根据该目标参数确定第一视频是否符合预设条件。

步骤S460：根据所述目标参数确定所述第一视频是否符合预设条件。

步骤S470：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，电子设备通过第一距离和第二距离的比值综合确定第一视频是否符合预设条件，其可以使第一视频的评价更加精确，且不需专业人员参与，说服力较高。

请参阅图8，图8示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S510至步骤S580。

步骤S510：获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像。

步骤S520：确定唇部在每个所述第一图像中的第一位置信息。

步骤S530：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

步骤S540：获取所述第一语音与所述第二语音之间的第一距离。

步骤S550：确定所述第一距离与所述第二距离的比值，并将该比值作为目标参数。

步骤S560：确定所述目标参数是否小于第一预设阈值。

在一些实施方式中，电子设备根据第一距离和第二距离获取到目标参数之后，其可以确定所述目标参数是否小于第一预设阈值，所述第一预设阈值可以根据经验值设置的，也可以根据第一视频生成过程确定，或者也可以根据视频生成模型的更新次数等来进行确定。在一个具体的实施方式中，视频生成模型更新一次，则对应第一预设阈值则可以对应更新一次，即第一预设阈值可以根据视频生成模型的权值参数比值来对应进行更新，其中，视频生成模型的权值参数比值可以是最新模型的权值参数与前一模型的权值参数之间的比值，在获取到权值参数比值之后，电子设备可以利用第一预设阈值乘以该权值参数比值，以此得到新的第一预设阈值。

在一些实施方式中，当确定目标参数小于第一预设阈值时，表明第一视频符合预设条件，即利用第一语音生成的第一视频为第一等级视频，所述第一等级视频为用户满意的视频。

在另一些实施方式中，如果目标参数大于或者等于第一预设阈值，则电子设备可以继续确定目标参数是否小于第二预设阈值，如果目标参数小于第二预设阈值，则确定第一视频为第二等级视频，其中，第二等级视频的用户满意度低于所述第一等级视频的用户满意度，其为用户可接受视频。

在另一些实施方式中，如果目标参数大于或者等于第二预设阈值，则确定第一视频为第三等级视频，其中，第三等级视频的用户满意度低于所述第二等级视频的用户满意度，该第三等级视频为用户不可接受的视频。本发明实施例中，第二预设阈值和第一预设阈值类似，其可以根据经验值设置，也可以根据视频生成的实际情况进行设置，具体如何设置这里不进行明确限制。另外，第一预设阈值可以设置为0.01，而第二预设阈值则可以设置为0.05。

步骤S570：若所述目标参数小于所述第一预设阈值，则确定所述第一视频符合预设条件。

步骤S580：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，本发明实施例通过引入第一预设阈值和第二预设阈值来确定第一视频为哪一等级的视频，判断方法简单且易于实现。

第六实施例

请参阅图9，图9示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S610至步骤S680。

步骤S610：获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，所述第一视频包括多个第一图像。

步骤S620：确定唇部在每个所述第一图像中的第一位置信息。

步骤S630：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

步骤S640：将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征。

在一些实施方式中MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数是在Mel标度频率域提取出来的倒普参数，是一种在自动语音和说话人识别中广泛使用的特征，其主要用于描述声道的形状，梅尔频率倒谱系数考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。作为一种方式，第一语音可以通过预加重、分帧、加窗、快速傅里叶变换等处理，得到第一语音特征。

步骤S650：将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征。

作为一种方式，第二语音特征和第一语音特征的获取方式相同，这里就不再详细进行赘述了。

步骤S660：获取所述第一语音特征和所述第二语音特征的差值，并将该差值作为所述第一距离。

在一些实施方式中，电子设备可以利用欧式距离获取所述第一语音特征和第二语音特征的差值，并将该差值作为第一距离。同理，将所述第三语音转换为梅尔频率倒谱系数，得到第三语音特征，以及将所述第四语音转换为梅尔频率倒谱系数，得到第四语音特征，而后利用欧式距离获取所述第三语音特征和第四语音特征的差值，并将该差值作为第二距离。

步骤S670：根据所述第一距离确定所述第一视频是否符合预设条件。

步骤S680：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，本发明实施例通过利用梅尔频率倒谱系数将语音转换为语音特征，以方便对距离的获取，且该实施例在对第一视频进行评价时，人工参与较少，用户使用体验比较高。

第七实施例

请参阅图10，图10示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S710至步骤S770。

步骤S710：将所述第一语音输入至视频生成模型，得到候选视频。

在一些实施方式中，为了使获取的第一视频更加准确，电子设备在将第一语音和载体视频输入至视频生成模型，得到候选视频之后，其可以确定候选视频中是否包含人脸图像，即进入步骤S720。

步骤S720：确定所述候选视频中是否包含人脸图像。

作为一种方式，电子设备在获取到候选视频之后，可以确定该候选视频中是否包含人脸图像，若候选视频中包含人脸图像，则将该候选视频作为第一视频，即进入步骤S730。

作为另一种方式，本申请实施例可以先对该候选视频进行采样处理，而后确定采样获取的候选帧图像中是否包含人脸图像，若候选帧图像中包含人脸图像，则获取包含人脸图像的候选帧图像的数量，并确定该候选帧图像的数量是否大于数量阈值，若大于数量阈值，则确定该候选视频中包含人脸图像。

在另一些实施方式中，在确定候选视频中包含人脸图像时，电子设备也可以根据该候选视频中的人脸图像确定候选视频中的人脸的性别，并确定该性别与预设性别是否相同，如果相同，则将该候选视频为第一视频。或者电子设备也可以确定候选视频中的人脸的性别与第一语音所对应的性别是否相同。

在另一些实施方式中，当候选视频中的人脸的性别与预设性别相同时，电子设备也可以根据候选视频中的人脸图像确定候选视频中人脸的年龄阶段、国籍等与第一语音包含的年龄阶段、国籍等是否相同。若相同，则将所述候选视频作为第一视频。

步骤S730：若所述候选视频中包含人脸图像，则将所述候选视频作为第一视频，所述第一视频包括多个第一图像。

步骤S740：确定唇部在每个所述第一图像中的第一位置信息。

步骤S750：根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

步骤S760：获取所述第一语音与所述第二语音之间的第一距离，并根据所述第一距离确定所述第一视频是否符合预设条件。

步骤S770：若符合预设条件，则确定所述第一视频为第一等级视频。

本申请一个实施例提供的视频分析方法通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。另外，本发明实施了通过对候选视频中人脸图像的判断可以使生成的第一视频更加准确。

第八实施例

请参阅图11，图11示出了本申请实施例提供的视频分析装置的模块框图。下面将针对图11所示的模块框图进行阐述，该视频分析装置800包括：第一获取模块810、位置确定模块820、第二获取模块830、距离获取模块840以及视频确定模块850。

第一获取模块810，用于获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频；若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像。

进一步地，第一获取模块810还用于获取第一文本，并基于所述第一文本生成所述第一语音。

进一步地，第一获取模块810还用于若所述候选视频中未包含人脸图像，则确定第一视频生成失败。

位置确定模块820，用于确定唇部在每个所述第一图像中的第一位置信息。

第二获取模块830，用于根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音。

距离获取模块840，用于将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征；将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征；获取所述第一语音特征和所述第二语音特征的差值，作为第一语音与第二语音之间的第一距离，并根据所述第一距离确定所述第一视频是否符合预设条件。

进一步地，距离获取模块840还用于利用欧式距离获取第一语音特征和第二语音特征的差值。

视频确定模块850，用于若符合预设条件，则确定所述第一视频为第一等级视频。

进一步地，视频确定模块850还用于获取用户输入的第三语音，并将所述第三语音输入至所述视频生成模型，得到第二视频，所述第二视频包括多个第二图像；确定唇部在每个所述第二图像中的第二位置信息；根据所述第二位置信息获取多个第二唇部图像，并将所述多个第二唇部图像输入至唇语识别模型，得到第四语音；获取所述第三语音与所述第四语音之间的第二距离；根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件。

进一步地，视频确定模块850还用于确定所述第一距离与所述第二距离的比值，并将该比值作为目标参数；根据所述目标参数确定所述第一视频是否符合预设条件。

进一步地，视频确定模块850还用于确定所述目标参数是否小于第一预设阈值；若所述目标参数小于所述第一预设阈值，则确定所述第一视频符合预设条件。

进一步地，视频确定模块850还用于若所述目标参数大于或者等于所述第一预设阈值，则确定所述目标参数是否小于第二预设阈值；若所述目标参数小于所述第二预设阈值，则确定所述第一视频为第二等级视频，所述第二等级视频的用户满意度低于所述第一等级视频的用户满意度。

进一步地，视频确定模块850还用于若所述目标参数大于或者等于第二预设阈值，则确定所述第一视频为第三等级视频，所述第三等级视频的用户满意度低于所述第二等级视频的用户满意度。另外，第一预设阈值可以为0.01，第二预设阈值则可以为0.05。

本申请实施例提供的视频分析装置800通过结合第一语音与第二语音之间的距离，来确定用户对生成的视频是否满意，评价方式简单有效，首先获取第一语音，并将所述第一语音输入至视频生成模型，得到第一视频，其中，第一视频包括多个第一图像，然后确定唇部在每个第一图像中的第一位置信息，并根据第一位置信息获取多个第一唇部图像，接着将多个第一唇部图像输入至唇语识别模型，得到第二语音，最后获取第一语音和第二语音之间的第一距离，并根据第一距离确定第一视频是否符合预设条件，如果符合预设条件，则确定第一视频为第一等级视频。本申请实施例通过获取第一语音和第二语音之间的距离来准确有效的对生成的第一视频进行评价。

本申请实施例提供的视频分析装置800用于实现前述方法实施例中相应的视频分析方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频分析装置800能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置800和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置800或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

第九实施例

请参阅图12，其示出了本申请实施例提供的一种电子设备1000的结构框图。该电子设备1000可以是智能手机、平板电脑等能够运行应用程序的电子设备。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中，一个或多个应用程序可以被存储在存储器1020中，一个或多个处理器执行所述一个或多个程序，用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－PrograMMable Gate Array，FPGA)、可编程逻辑阵列(PrograMMable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器(Random ACCess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

第十实施例

请参阅图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1100中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频分析方法，其特征在于，所述方法包括：

获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频；

若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像；

确定唇部在每个所述第一图像中的第一位置信息；

根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音；

将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征；

将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征；

获取所述第一语音特征和所述第二语音特征的差值，作为第一语音与第二语音之间的第一距离；

根据所述第一距离确定所述第一视频是否符合预设条件；

若符合预设条件，则确定所述第一视频为第一等级视频。

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音，包括：

获取第一文本，并基于所述第一文本生成所述第一语音。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一距离确定所述第一视频是否符合预设条件，包括：

获取用户输入的第三语音，并将所述第三语音输入至所述视频生成模型，得到第二视频，所述第二视频包括多个第二图像；

确定唇部在每个所述第二图像中的第二位置信息；

根据所述第二位置信息获取多个第二唇部图像，并将所述多个第二唇部图像输入至唇语识别模型，得到第四语音；

获取所述第三语音与所述第四语音之间的第二距离；

根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一距离和所述第二距离确定所述第一视频是否符合预设条件，包括：

确定所述第一距离与所述第二距离的比值，并将该比值作为目标参数；

根据所述目标参数确定所述第一视频是否符合预设条件。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标参数确定所述第一视频是否符合预设条件，包括：

确定所述目标参数是否小于第一预设阈值；

若所述目标参数小于所述第一预设阈值，则确定所述第一视频符合预设条件。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述目标参数大于或者等于所述第一预设阈值，则确定所述目标参数是否小于第二预设阈值；

若所述目标参数小于所述第二预设阈值，则确定所述第一视频为第二等级视频，所述第二等级视频的用户满意度低于所述第一等级视频的用户满意度。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述目标参数大于或者等于第二预设阈值，则确定所述第一视频为第三等级视频，所述第三等级视频的用户满意度低于所述第二等级视频的用户满意度。

8.根据权利要求6或7任一所述的方法，其特征在于，所述第一预设阈值为0.01，所述第二预设阈值为0.05。

9.根据权利要求1所述的方法，其特征在于，所述获取所述第一语音特征和所述第二语音特征的差值，包括：

利用欧式距离获取所述第一语音特征和所述第二语音特征的差值。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述候选视频中未包含人脸图像，则确定第一视频生成失败。

11.一种视频分析装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一语音，并将所述第一语音输入至视频生成模型，得到候选视频；若候选视频中包含人脸图像，将候选视频确定为第一视频，所述第一视频包括多个第一图像；

位置确定模块，用于确定唇部在每个所述第一图像中的第一位置信息；

第二获取模块，用于根据所述第一位置信息获取多个第一唇部图像，并将所述多个第一唇部图像输入至唇语识别模型，得到第二语音；

距离获取模块，用于将所述第一语音转换为梅尔频率倒谱系数，得到第一语音特征；将所述第二语音转换为梅尔频率倒谱系数，得到第二语音特征；获取所述第一语音特征和所述第二语音特征的差值，作为第一语音与第二语音之间的第一距离；根据所述第一距离确定所述第一视频是否符合预设条件；

视频确定模块，用于若符合预设条件，则确定所述第一视频为第一等级视频。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个处理器执行所述一个或多个程序，用于实现如权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10中任意一项所述的方法。