CN115065654B

CN115065654B - 一种视频彩铃生成方法、装置、设备及存储介质

Info

Publication number: CN115065654B
Application number: CN202210575739.XA
Authority: CN
Inventors: 魏颖鹏
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-07-18
Anticipated expiration: 2042-05-25
Also published as: CN115065654A

Abstract

本发明公开了一种视频彩铃生成方法、装置、设备及存储介质，本发明通过获取用户信息，用户信息包括用户图像、职业信息以及宣传文本，获取的用户信息多样化；对用户图像进行第一识别处理，得到性别标签，并对用户图像进行第二识别处理，得到年龄标签，根据性别标签、年龄标签、职业信息以及宣传文本进行匹配处理，得到目标对象如目标语音风格以及目标视频模板，能够自动适配不同年龄、性别、职业的用户的差异化、个性化需求，根据目标语音风格将宣传文本转换为音频，根据目标视频模板、用户信息以及音频，生成用户的视频彩铃,使得最终生成的视频彩铃展现效果更丰富，且更加个性化，有利于满足用户的视频彩铃需求，本发明可广泛应用于彩铃领域。

Description

一种视频彩铃生成方法、装置、设备及存储介质

技术领域

本发明涉及彩铃领域，尤其是一种视频彩铃生成方法、装置、设备及存储介质。

背景技术

视频彩铃是面向用户的彩铃业务,包括面向企业的彩铃业务以及面向个人的彩铃业务(简称个人商彩)。现有的个人商彩中，系统可以根据用户所提供的相关信息例如二维码、介绍内容等合成视频彩铃，而该视频彩铃简单、粗略、单一，任何用户都是通过单一的视频模板进行视频彩铃的合成，无法实现差异化、个性化的视频彩铃合成，无法满足个性化的用户需求。

发明内容

有鉴于此，为了解决上述技术问题，本发明的目的是提供一种视频彩铃生成方法、装置、设备及存储介质，有利于满足用户的视频彩铃需求。

本发明实施例采用的技术方案是：

一种视频彩铃生成方法，包括：

获取用户信息；所述用户信息包括用户图像、职业信息以及宣传文本；

对所述用户图像进行第一识别处理，得到性别标签，并对所述用户图像进行第二识别处理，得到年龄标签；

根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本进行匹配处理，得到目标对象；所述目标对象包括目标语音风格以及目标视频模板；

根据所述目标语音风格将所述宣传文本转换为音频；

根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃。

进一步，所述对所述用户图像进行第一识别处理，得到性别标签，包括：

对所述用户图像进行预处理、Gabor滤波并提取Gabor滤波的小波特征；

通过Adaboost分类器对所述小波特征进行特征降维；

将特征降维结果输入至SVM分类器，得到性别标签。

进一步，所述对所述用户图像进行第二识别处理，得到年龄标签，包括：

提取所述用户图像的人脸肌肤纹理特征，并对所述人脸肌肤纹理特征进行估算，得到年龄段；

根据所述年龄段从预设模型分类器中确定目标模型分类器；

将所述用户图像输入至所述目标模型分类器，通过所述目标模型分类器计算所述用户图像的LBP特征描述子以及HOG特征描述子，对所述LBP特征描述子进行PCA降维以及特征提取，得到第一结果，以及对所述HOG特征描述子进行PCA降维以及特征提取，得到第二结果，根据所述第一结果和所述第二结果进行典型关联分析，对典型关联分析结果进行年龄回归，得到年龄标签。

进一步，所述根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本所述进行匹配处理，得到目标对象，包括：

根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本生成用户向量集合；数据库中存储有若干个语音风格候选对象以及若干个视频模板候选对象，每一语音风格候选对象以及视频模板候选对象具有候选向量集合，所述候选向量集合由性别因子、年龄因子、职业因子以及文本风格因子构成；

当所述性别标签与所述性别因子相同，确定第一参数为1，否则第一参数为0；

计算所述年龄标签与所述年龄因子的年龄差绝对值，当所述年龄差绝对值小于第一阈值确定第二参数为1，当所述年龄差绝对值大于第二阈值确定第二参数为0，当所述年龄差绝对值大于等于第一阈值且小于等于第二阈值，根据余弦函数、所述年龄标签以及所述年龄因子，确定第二参数；

将所述职业信息与所述职业因子进行匹配，匹配成功，确定第三参数为1，否则确定第三参数为0；

通过Word2Vec模型分别生成所述宣传文本的第一词向量和所述文本风格因子的第二词向量，计算所述第一词向量和所述第二词向量的相似度作为第四参数；

根据所述第一参数、所述第二参数、所述第三参数和所述第四参数和预设权重参数进行加权求和；

将语音风格候选对象中加权求和结果最大的候选向量集合作为第一目标集合，将视频模板候选对象中加权求和结果最大的候选向量集合作为第二目标集合，将所述第一目标集合对应的语音风格候选对象作为目标语音风格，将所述第二目标集合对应的视频模板候选对象作为目标视频模板。

进一步，所述预设权重参数包括第一权重因子、第二权重因子、第三权重因子以及第四权重因子；所述根据所述第一参数、所述第二参数、所述第三参数和所述第四参数和预设权重参数进行加权求和，包括：

计算所述第一参数与所述第一权重因子的第一乘积，计算所述第二参数与所述第二权重因子的第二乘积，计算所述第三参数与所述第三权重因子的第三乘积，计算所述第四参数与所述第四权重因子的第四乘积；

计算所述第一乘积、第二乘积、第三乘积以及所述第四乘积的和；

其中，计算语音风格候选对象的加权求和结果时，所述第一权重因子均大于所述第二权重因子、所述第三权重因子以及所述第四权重因子。

进一步，所述根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃，包括：

根据所述用户图像以及所述音频生成动画；所述动画中所述用户图像的口型与所述音频同步；

将所述动画、所述职业信息以及所述宣传文本代入至所述目标视频模板，生成用户的视频彩铃。

进一步，所述根据所述用户图像以及所述音频生成动画，包括：

通过Wav2lip模型根据所述用户图像以及所述音频生成动画。

本发明实施例还提供一种视频彩铃生成装置，包括：

获取模块，用于获取用户信息；所述用户信息包括用户图像、职业信息以及宣传文本；

处理模块，用于对所述用户图像进行第一识别处理，得到性别标签，并对所述用户图像进行第二识别处理，得到年龄标签；

匹配模块，用于根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本进行匹配处理，得到目标对象；所述目标对象包括目标语音风格以及目标视频模板；

转换模块，用于根据所述目标语音风格将所述宣传文本转换为音频；

生成模块，用于根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃。

本发明实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。

本发明的有益效果是：通过获取用户信息，所述用户信息包括用户图像、职业信息以及宣传文本，获取的用户信息多样化；对所述用户图像进行第一识别处理，得到性别标签，并对所述用户图像进行第二识别处理，得到年龄标签，根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本进行匹配处理，得到目标对象如目标语音风格以及目标视频模板，能够自动适配不同年龄、性别、职业的用户的差异化、个性化需求，根据所述目标语音风格将所述宣传文本转换为音频，根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃,使得最终生成的视频彩铃展现效果更丰富，且更加个性化，有利于满足用户的视频彩铃需求。

附图说明

图1为本发明视频彩铃生成方法的步骤流程示意图；

图2为本发明具体实施例视频彩铃生成方法的流程图；

图3为本发明具体实施例生成性别标签的示意图；

图4为本发明具体实施例生成年龄标签的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1和图2所示，本发明实施例提供一种视频彩铃生成方法，包括步骤S100-S500：

S100、获取用户信息。

本发明实施例中，用户信息包括用户图像(即包含用户本人的图片)、职业信息以及宣传文本。例如，系统可以提供页面，用户可以在页面中录入职业信息、宣传文本(如宣传语)并上存或者拍摄用户图像，系统将获取到的用户信息进行保存至数据库。需要说明的是，职业信息可以包括姓名、昵称以及职业，用户为个人用户，具体为个人商业彩铃(商彩)用户。

S200、对用户图像进行第一识别处理，得到性别标签，并对用户图像进行第二识别处理，得到年龄标签。

可选地，对用户图像进行AI识别性别以及AI估年龄，从而得到用户标签信息，用户标签信息包括性别标签以及年龄标签。

本发明实施例中，采用基于AdaBoost+SVM的人脸性别识别算法对用户图像进行第一识别处理，得到性别标签，具体包括步骤S211-S213：

S211、对用户图像进行预处理、Gabor滤波并提取Gabor滤波的小波特征。

如图3所示，具体地，对用户图像进行预处理、Gabor滤波并对提取Gabor滤波结果进行特征提取，得到Gabor滤波的小波特征。

S212、通过Adaboost分类器对小波特征进行特征降维。

S213、将特征降维结果输入至SVM分类器，得到识别结果即性别标签。

需要说明的是，该SVM分类器为训练后的SVM分类器，其中SVM分类器的训练过程可以为：获取由若干张包含人脸的图片构成的训练集，对训练集中的各个图片进行预处理，Gabor滤波并进行Adaboost学习，然后将Adaboost学习结果输入至SVM分类器进行SVM训练，当达到目标准确度或者目标迭代次数后，得到训练后的SVM分类器。

需要说明的是，当无法识别到人脸时，说明上存的图像有误，可以提醒用户重新上存，减少了人工审核人物照片的工作成本。

本发明实施例中，采用融合LBP和HOG特征的人脸年龄估计算法对用户图像进行第二识别处理，得到年龄标签，具体包括步骤S221-S212：

S221、提取用户图像的人脸肌肤纹理特征，并对人脸肌肤纹理特征进行估算，得到年龄段。

本发明实施例的年龄标签计算过程包括两个阶段，预估阶段以及详细评估阶段，在预估阶段提取用户图像的人脸肌肤纹理特征，并对人脸肌肤纹理特征进行估算，例如通过AI或者估算软件、模型得到年龄段。

S222、根据年龄段从预设模型分类器中确定目标模型分类器。

本发明实施例中，系统的数据库中存储有若干个训练好的预设模型分类器，每一个年龄段具有一个对应的预设模型分类器，因此在详细评估阶段根据年龄段可以从预设模型分类器中确定一个预估阶段确定的年龄段所对应的预设模型分类器作为目标模型分类器。

S223、将用户图像输入至目标模型分类器，通过目标模型分类器计算用户图像的LBP特征描述子以及HOG特征描述子，对LBP特征描述子进行PCA降维以及特征提取，得到第一结果，以及对HOG特征描述子进行PCA降维以及特征提取，得到第二结果，根据第一结果和第二结果进行典型关联分析，对典型关联分析结果进行年龄回归，得到年龄标签。

如图4所示，详细评估阶段将用户图像(照片)输入至目标模型分类器，然后通过目标模型分类器分别计算用户图像的LBP特征描述子以及HOG特征描述子，对LBP特征描述子进行PCA降维以及特征提取，得到第一结果，以及对HOG特征描述子进行PCA降维以及特征提取，得到第二结果，根据第一结果和第二结果进行典型关联分析(Canonical CorrelationAnalysis，CCA)，在得到典型关联分析结果后进行年龄回归，得到估计年龄，即年龄标签。

如图4所示，需要说明的是，在训练预设模型分类器时，可以将包含人像的若干张图片构成的训练样本集输入至预设模型分类器，预设模型分类器对训练样本集中的照片进行LBP特征描述子以及HOG特征描述子的计算，然后分别对LBP特征描述子以及HOG特征描述子进行PCA降维以及特征提取，然后进行典型关联分析、年龄回归，根据年龄回归结果训练预设模型分类器并调整模型参数，当达到目标准确度或者目标迭代次数后，得到训练后的预设模型分类器。

S300、根据性别标签、年龄标签、职业信息以及宣传文本进行匹配处理，得到目标对象。可选地，目标对象包括目标语音风格以及目标视频模板。步骤S300包括步骤S311-S317：

S311、根据性别标签、年龄标签、职业信息以及宣传文本生成用户向量集合。

本发明实施例中，系统的数据库中存储有若干个语音风格候选对象以及若干个视频模板候选对象，每一语音风格候选对象以及视频模板候选对象具有候选向量集合，候选向量集合由性别因子、年龄因子、职业因子以及文本风格因子(风格描述因子)构成，分别与性别标签、年龄标签、职业信息以及宣传文本对应。例如，语音风格候选对象包括但不限于活力、甜美、沉稳、激情等。需要说明的是，语音风格候选对象为TTS语音风格，在确定目标语音风格以及目标视频模板时，可以分别进行计算，先确定目标语音风格(合适的TTS风格)再确定目标视频模板(合适的模板风格)，或者先确定目标视频模板再确定目标语音风格，不作具体限定。其中，例如用户向量集合为：V_user＝(V_u1 V_u2V _u3 V_u4)，语音风格候选对象的候选向量集合为V_tts＝(V_t1 V_t2 V_t3 V_t4)，其中V_u1为性别标签，V_u2为年龄标签，V_u3为职业信息，V_u4为宣传文本，V_t1为性别因子，V_t2为年龄因子，V_t3为职业因子，V_t4为文本风格因子。其中，视频模板候选对象的候选向量集合类似不再赘述，以语音风格候选对象的候选向量集合为例进行说明。

S312、当性别标签与性别因子相同，确定第一参数为1，否则第一参数为0。

S313、计算年龄标签与年龄因子的年龄差绝对值，当年龄差绝对值小于第一阈值确定第二参数为1，当年龄差绝对值大于第二阈值确定第二参数为0，当年龄差绝对值大于等于第一阈值且小于等于第二阈值，根据余弦函数、年龄标签以及年龄因子，确定第二参数。

S314、将职业信息与职业因子进行匹配，匹配成功，确定第三参数为1，否则确定第三参数为0。

S315、通过Word2Vec模型分别生成宣传文本的第一词向量和文本风格因子的第二词向量，计算第一词向量和第二词向量的相似度作为第四参数。

S316、根据第一参数、第二参数、第三参数和第四参数和预设权重参数进行加权求和。

可选地，预设权重参数包括第一权重因子、第二权重因子、第三权重因子以及第四权重因子，加权求和的过程具体为：计算第一参数d₁(V_u1,V_t1)与第一权重因子w₁的第一乘积，计算第二参数d₂(V_u2,V_t2)与第二权重因子w₂的第二乘积，计算第三参数d₃(V_u3,V_t3)与第三权重因子w₃的第三乘积，计算第四参数d₄(V_u4,V_t4)与第四权重因子w₄的第四乘积，计算第一乘积、第二乘积、第三乘积以及第四乘积的和，加权求和结果d(V_user,V_tts)表征用户向量集合与候选向量集合之间的距离，公式为：

d(V_user,V_tts)＝d₁(V_u1,V_t1)w₁+d₂(V_u2,V_t2)w₂+d₃(V_u3,Vt₃)w₃+e₄(V_u4,V_t4)w₄

其中：1)、函数d₁：定义为同或操作，当年龄标签与性别因子相同，确定第一参数d₁(V_u1,V_t1)为1，否则第一参数d₁(V_u1,V_t1)为0。

2)、函数d₂：年龄差越大数值越小，计算年龄标签与年龄因子的年龄差绝对值后，当年龄差绝对值小于第一阈值确定第二参数d₂(V_u2,V_t2)为1，当年龄差绝对值大于第二阈值确定第二参数d₂(V_u2,V_t2)为0，当年龄差绝对值大于等于第一阈值且小于等于第二阈值，根据余弦函数、年龄标签以及年龄因子确定余弦函数曲线，根据余弦函数曲线确定第二参数d₂(V_u2,V_t2)。

3)、函数d₃：将职业信息与职业因子进行匹配，匹配成功，即职业信息与职业因子表示相同职业或者类似的职业(模糊判断)，此时确定第三参数d₃(V_u3,V_t3)为1，否则确定第三参数d₃(V_u3,V_t3)为0。

4)、函数d₄：通过Word2Vec模型分别生成宣传文本的各个分词的第一词向量vector1和文本风格因子的各个分词的第二词向量vector2，计算第一词向量和第二词向量的相似度作为第四参数d₄(V_u4,V_t4)。

需要说明的是，w₁、w₂、w₃、w₄可以根据需要设定，而在计算语音风格候选对象的加权求和结果时，由于TTS风格与性别强相关，因此第一权重因子w₁均大于第二权重因子w₂、第三权重因子w₃以及第四权重因子w₄；而在计算视频模板候选对象时，可以不进行上述设置，并且函数d₁可以定义为在性别标签与性别因子内即为1。

S317、将语音风格候选对象中加权求和结果最大的候选向量集合作为第一目标集合，将视频模板候选对象中加权求和结果最大的候选向量集合作为第二目标集合，将第一目标集合对应的语音风格候选对象作为目标语音风格，将第二目标集合对应的视频模板候选对象作为目标视频模板。

具体地，由于在计算语音风格候选对象的加权求和结果时会有一个最大的加权求和结果，而计算视频模板候选对象的加权求和结果时也会有一个最大的加权求和结果，因此将语音风格候选对象中加权求和结果最大的候选向量集合作为第一目标集合，第一目标集合对应的语音风格候选对象即为目标语音风格(特定TTS)；将视频模板候选对象中加权求和结果最大的候选向量集合作为第二目标集合，第二目标集合对应的视频模板候选对象即为目标视频模板(特定模板)。

S400、根据目标语音风格将宣传文本转换为音频。

具体地，通过TTS语音合成技术根据目标语音风格将宣传文本转换为音频。

S500、根据目标视频模板、用户信息以及音频，生成用户的视频彩铃。

可选地，步骤S500包括步骤S511-S512：

S511、根据用户图像以及音频生成动画。

本发明实施例中，根据AI说话技术根据用户图像以及音频生成动画，具体地通过Wav2lip模型根据用户图像以及音频生成动画，该动画中用户图像的口型与音频同步，即对用户图像实现了口型与语音同步(“对口型”)，让静态的照片变成随着语音动嘴的动态动画，展现效果更丰富。需要说明的是，Wav2lip模型实现唇形与语音精准同步突破的关键在于，采用了唇形同步判别器，以强制生成器持续产生准确而逼真的唇部运动；Wav2lip模型通过在鉴别器中，使用多个连续帧而不是单个帧，并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性，从而改善了视觉质量。

一些实施例中，用户信息可以包括用户录制的小视频，当用户需要调整说话内容时，用户无需重新录制短视频，仅需要重新上传语音或者文字(文字做TTS转换)，然后把旧视频的口型对上新语音即可。

S512、将动画、职业信息以及宣传文本代入至目标视频模板，生成用户的视频彩铃。

具体地，将动画、职业信息、宣传文本代入至目标视频模板中，合成视频彩铃，从而得到最终个性化的用户的视频彩铃，该视频彩铃更加生动有趣、彰显个性，符合个人商彩业务的定位。

需要说明的是，由于只需要获取用户图像、职业信息以及宣传文本，可以减少用户敏感信息如实际年龄、实际性别、实际声音、其他身份信息)收集，仅收集必要信息，压降敏感信息泄露的风险。

另外，本发明实施例的用户图像支持卡通人像，Wav2lip也适用于转换动卡通人物说话动画，根据安全要求也可以系统也可以自动将真人的用户图像用卡通人物代替作为后续处理时用到的用户图像，适应范围广。

以下一个具体应用场景说明本发明实施例的视频彩铃生成方法：

当用户或者代理商通过CRM发起办理个人商彩业务，用户或代理商通过视频彩铃平台的门户、小程序或者外部接口服务器接入)进行个人商彩相关用户信息的录入，例如数据库包括第一数据库和存储仓库，用户信息保存到第一数据库中，图片保存到存储仓库中；

用户提交“生成名片”的需求后，商彩业务统一后台集群中的服务器将实时进行制作视频彩铃的处理：

使用AI能力服务器，进行照片性别识别和年龄估计，即步骤S200；

服务器使用自有算法，通过用户标签匹配TTS语音风格和视频模板，即步骤S300；

调用TTS语音合成接口，合成TTS语音，即步骤S400；

使用AI能力服务器，产生让照片说话的动画，调用视频模板制作接口，最终输出用户的视频彩铃，即步骤S500；

然后把新生成的视频彩铃保存到存储仓库中，并把铃音标识为“待审核”的状态，业务支撑人员在商彩管理平台上，对铃音进行人工审核+机器审核。审核通过后，铃音标识为“审核通过”的状态，统一后台的服务器，为个人商彩用户设置审核通过的视频彩铃。

本发明实施例还提供一种视频彩铃生成装置，包括：

获取模块，用于获取用户信息；用户信息包括用户图像、职业信息以及宣传文本；

处理模块，用于对用户图像进行第一识别处理，得到性别标签，并对用户图像进行第二识别处理，得到年龄标签；

匹配模块，用于根据性别标签、年龄标签、职业信息以及宣传文本进行匹配处理，得到目标对象；目标对象包括目标语音风格以及目标视频模板；

转换模块，用于根据目标语音风格将宣传文本转换为音频；

生成模块，用于根据目标视频模板、用户信息以及音频，生成用户的视频彩铃。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的视频彩铃生成方法。本发明实施例的电子设备包括但不限于手机、平板电脑、电脑及车载电脑等任意智能终端。

上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的视频彩铃生成方法。

本发明实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述实施例的视频彩铃生成方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频彩铃生成方法，其特征在于，包括：

根据所述目标语音风格将所述宣传文本转换为音频；

根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃；所述对所述用户图像进行第一识别处理，得到性别标签，包括：

通过Adaboost分类器对所述小波特征进行特征降维；

将特征降维结果输入至SVM分类器，得到性别标签；

所述根据所述性别标签、所述年龄标签、所述职业信息以及所述宣传文本所述进行匹配处理，得到目标对象，包括：

2.根据权利要求1所述视频彩铃生成方法，其特征在于：所述对所述用户图像进行第二识别处理，得到年龄标签，包括：

根据所述年龄段从预设模型分类器中确定目标模型分类器；

3.根据权利要求1所述视频彩铃生成方法，其特征在于：所述预设权重参数包括第一权重因子、第二权重因子、第三权重因子以及第四权重因子；所述根据所述第一参数、所述第二参数、所述第三参数和所述第四参数和预设权重参数进行加权求和，包括：

4.根据权利要求1所述视频彩铃生成方法，其特征在于：所述根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃，包括：

5.根据权利要求4所述视频彩铃生成方法，其特征在于：所述根据所述用户图像以及所述音频生成动画，包括：

通过Wav2lip模型根据所述用户图像以及所述音频生成动画。

6.一种视频彩铃生成装置，其特征在于，包括：

生成模块，用于根据所述目标视频模板、所述用户信息以及所述音频，生成用户的视频彩铃；

所述处理模块，具体用于：

通过Adaboost分类器对所述小波特征进行特征降维；

将特征降维结果输入至SVM分类器，得到性别标签；

所述匹配模块，具体用于：

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-5中任一项所述方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-5中任一项所述方法。