CN116992844A

CN116992844A - 基于人工智能的金融知识课程生成方法及装置

Info

Publication number: CN116992844A
Application number: CN202310559280.9A
Authority: CN
Inventors: 赵鑫; 邵学军; 赵佳怡
Original assignee: Beijing Vision Future Information Technology Co ltd
Current assignee: Beijing Vision Future Information Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-11-03

Abstract

本申请公开了一种基于人工智能的金融知识课程生成方法及装置，涉及人工智能技术领域，包括：获取金融课程设计人员预先制作好的金融知识课程讲稿文字和背景素材；通过时间轴匹配算法将金融知识课程讲稿文字和背景素材进行匹配，生成课程模板；创建金融服务人员专属数字人；选择课程模板；通过虚拟场景切换技术将金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。本申请提供的基于人工智能的金融知识课程生成方法及装置，提高了金融知识系列课程的生产效率，降低了课程体系生产成本，并能够大幅提升金融合规专业人员对客户服务的效率和品质。

Description

基于人工智能的金融知识课程生成方法及装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种基于人工智能的金融知识课程生成方法及装置。

背景技术

目前，金融消费者及投资者教育课件和讲师大多数采用的是多机位视频录制、制作课程视频模板，通过非线性编辑的方式，制作金融知识、财商课程的系列课件，制作周期长，成本高。由于效率和成本原因，证券投顾人员、理财经理和基金销售人员无法形成系统的金融知识课程体系，视频课件无法做到一对一有针对性的传播，也无法做到精准的一对一服务，用户体验差。

发明内容

为此，本申请提供一种基于人工智能的金融知识课程生成方法及装置，以解决现有技术存在的金融服务人员无法形成系统的金融知识课程体系，视频课件无法做到一对一有针对性的传播和服务，用户体验差的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于人工智能的金融知识课程生成方法，包括：

获取金融课程设计人员预先制作好的金融知识课程讲稿文字和背景素材；

通过时间轴匹配算法将所述金融知识课程讲稿文字和所述背景素材进行匹配，生成课程模板；

创建金融服务人员专属数字人；

选择课程模板；

通过虚拟场景切换技术将所述金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。

作为优选，所述创建金融服务人员专属数字人具体包括：

获取金融课程文本样本和金融服务人员录制的音频样本；

将所述课程文本样本和所述音频样本通过语音合成技术和语音克隆技术生成金融服务人员的声音；

获取金融服务人员的视频样本；

将金融服务人员的声音和金融服务人员的视频样本输入到预先训练好的数字人生成模型中，得到金融服务人员专属数字人；

通过人脸数据增强技术增强金融服务人员专属数字人的脸部细节。

作为优选，所述数字人生成模型为Wav2lip模型。

作为优选，所述人脸数据增强技术为基于GFP-GAN的人脸增强技术。

作为优选，所述背景素材包括知识点幻灯片、数据图表、动画和资料影音视频。

作为优选，所述通过时间轴匹配算法将所述金融知识课程讲稿文字和所述背景素材进行匹配，生成课程模板，具体包括：

通过标点符号将所述金融知识课程讲稿文字分成多语句；

将所述背景素材与每个语句进行对应。

作为优选，所述虚拟场景切换技术采用U2Net技术。

第二方面，一种基于人工智能的金融知识课程生成装置，包括：

素材获取模块，用于获取金融课程设计人员预先制作好的金融知识课程讲稿文字和背景素材；

课程模板生成模块，用于通过时间轴匹配算法将所述金融知识课程讲稿文字和所述背景素材进行匹配，生成课程模板；

数字人生成模块，用于创建金融服务人员专属数字人；

课程模板选择模块，用于选择课程模板；

场景切换模块，用于通过虚拟场景切换技术将所述金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于人工智能的金融知识课程生成方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于人工智能的金融知识课程生成方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于人工智能的金融知识课程生成方法及装置，包括：获取金融课程设计人员预先制作好的金融知识课程讲稿文字和背景素材；通过时间轴匹配算法将金融知识课程讲稿文字和背景素材进行匹配，生成课程模板；创建金融服务人员专属数字人；选择课程模板；通过虚拟场景切换技术将金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。本申请提供的基于人工智能的金融知识课程生成方法及装置，提高了金融知识系列课程的生产效率，降低了课程体系生产成本，并能够大幅提升金融合规专业人员对客户服务的效率和品质。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种基于人工智能的金融知识课程生成方法流程图；

图2为本申请实施例一提供的一种基于人工智能的金融知识课程生成方法结构示意图；

图3为本申请实施例一提供的课程模板生成流程图；

图4为本申请实施例一提供的课程模板生成结构示意图；

图5为本申请实施例一提供的金融服务人员专属数字人结构示意图；

图6为本申请实施例一提供的金融服务人员声音合成结构示意图；

图7为本申请实施例一提供的FastPitch网络结构示意图；

图8为本申请实施例一提供的语谱图结构示意图；

图9为本申请实施例一提供的HiFiGAN生成器结构示意图；

图10为本申请实施例一提供的MPD和MSD的结构示意图；

图11为本申请实施例一提供的Wav2lip唇形转换效果示意图；

图12为本申请实施例一提供的Wav2lip训练结构示意图；

图13为本申请实施例一提供的Wav2Lip生成唇形同步视频方法结构示意图；

图14为本申请实施例一提供的人脸数据增强技术增强效果示意图；

图15为本申请实施例一提供的GFP-GAN网络结构示意图；

图16为本申请实施例一提供的U2Net网络结构示意图；

图17为本申请实施例一提供的数字人与背景素材合成示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

请参阅图1和图2，本实施例提供了一种基于人工智能的金融知识课程生成方法，包括：

S1：获取金融课程设计人员预先制作好的金融知识课程讲稿文字和背景素材；

请参阅图3，金融课程设计人员预先设计课程体系，撰写金融知识课程讲稿文字，制作知识点幻灯片、数据图表、动画和资料影音视频等背景素材，然后通过课程体系录入功能，将金融知识课程讲稿文字与背景素材录入。

S2：通过时间轴匹配算法将金融知识课程讲稿文字和背景素材进行匹配，生成课程模板；

请参阅图4，将金融知识课程讲稿文字和背景素材通过时间轴匹配算法进行匹配时，通过标点符号将金融知识课程讲稿文字分成多语句，每个语句是一个基本时间单位，背景素材与语句对应，一个背景素材可以对应1个或者多个时间单位。

本实施例中，时间轴匹配算法把语句作为时间度量的基本单位，解决了TTS生产课程语音和课程内容的对应关系。

S3：创建金融服务人员专属数字人；

请参阅图5，创建金融服务人员专属数字人时具体包括：

S301：获取金融课程文本样本和金融服务人员录制的音频样本；

具体的，金融服务人员录制一段或者几段1分钟到2分钟的音频作为生成专属形象时提取音色向量(Speaker Encoder)的素材。

S302：将课程文本样本和音频样本通过语音合成技术和语音克隆技术生成金融服务人员的声音；

具体的，请参阅图6，金融服务人员的声音生成主要依托于语音合成技术(TTS)和语音克隆技术，主要包括Speaker Encoder、Synthesizer和Vocoder三个部分；即先提取音频数据样本的音色向量(即Speaker Encoder部分)，然后用文本数据结合音色向量，产生将音频数据样本中说话人特征融入文本数据样本对应的语音频谱(即Synthesizer部分)，最后用语音频谱生成金融服务人员的声音(即Vocoder部分)。

本实施例使用之前上传的音频，通过TTS引擎将选择模板的金融知识课程讲稿文字中的每一个语句转换成一个独立的语音，然后通过Synthesizer和Vocoder将服务人员的音色和TTS语音一起合成服务人员声音的多个音频文件。

本实施例中，Synthesizer使用FastPitch作为主干网络，FastPitch为带音高预测的并行TTS，其网络结构如图7所示。FastPitch中主要涉及Feed-Forward、Transformer两个模块，Feed-Forward模块主要负责对输入文本的Token进行编码然后预测音高和时长；Transformer主要负责输出一帧一帧的语谱图，最终基于数智董秘输入的文本数据将迭代输出该文本数据的语谱图，如图8所示。

有了生成的语谱图后，通过声码器可以生成最终的数智董秘的声音；本实施例中声码器采用HiFiGAN，其生成器结构如图9所示。

由图9最左边的子图可知，HiFiGAN的生成器由|ku|个类似的模块组成，即反卷积+MRF(multi-receptive field fusion)，这里反卷积主要用于上采样，MRF的具体架构可以参考图9剩余的两个子图，它包含多个CNN，每个CNN都有不同的kernel size和dilationrate，其目的是为了提取不同长度数据中包含的模式。

HiFiGAN的判别器：语音中的判别器和CV或者NLP中的判别器最大的不同在于数据的长度，语音的长度通常是上万的，因此如何判别这么长的数据是真是假就成了一个问题。现有技术中虽然通过增加discriminator的receptive field的方法在一定程度上解决了这个问题，但是信号中不同周期的正弦信号也需要进行识别。因此，本实施例使用了两个判别器，一个是multi-period discriminator(MPD)，用来识别语音中不同周期的信号，另一个是MelGAN中的multi-scale discriminator，用来应对超长数据。MPD和MSD的架构如图10所示。

S303：获取金融服务人员的视频样本；

具体的，金融服务人员录制一段或者几段30秒到1分钟自己的视频，作为生成专属形象时提取面部特征信息(Face encode)的素材。

S304：将金融服务人员的声音和金融服务人员的视频样本输入到预先训练好的数字人生成模型中，得到金融服务人员专属数字人；

请参阅图11，本步骤中，数字人生成模型选用Wav2lip模型，Wav2lip是一个基于GAN的唇形动作迁移算法，其能够实现生成的视频人物与输入语音的同步。Wav2lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频。

请参阅图12，在训练阶段，数字人生成模型的输入包括视频帧序列和音频两部分，分别通过Face encoder和Audio encoder得到特征信息，并进行融合；再通过Face decoder获得唇形和音频同步的图像帧，把原始视频帧和生成图像帧输入到视觉质量判别器中，二分类的结果表示是真实的图像、还是生成的图片，进而提高图像质量。把生成图像帧和音频输入到预先训练好的唇形同步判别器中，判断唇形是否生成的精准，在训练过程中，唇形同步判别器参数会一直被冻结，不参与训练和更新。

在推理阶段，提供一段音频和视频(或图像、动画)即可合成唇形同步视频。

请参阅图13，Wav2Lip生成唇形同步视频时主要包括以下步骤：

步骤一：数据处理：根据网络接收的数据格式，完成相应的预处理操作，从而保证模型能够正常读取；

步骤二：模型构建：设计Wav2Lip网络结构；

步骤三：模型配置：实例化模型，指定学习率和优化器；

步骤四：模型训练：执行多轮训练不断调整参数，以达到较好的效果；

步骤五：模型保存：将模型参数保存到指定位置，便于后续推理使用；

步骤六：模型推理及可视化：使用训练好的模型将视频人物的唇形和输入语音同步，并可视化推理结果。

课程讲稿的每一句音频文件调用上面的过程一次，合成这一句的数字人视频，重复上面过程，直至合成全部语句的数字人视频。

S305：通过人脸数据增强技术增强金融服务人员专属数字人的脸部细节。

通过人脸数据增强技术能够使得数字人脸部增强，生成的数字人更加逼真，其增强效果如图14所示。

通过图14可得，基于GFP-GAN的人脸数据增强技术，可以细化人的眼部和嘴部细节从而达到图像的高清晰化，并不丢失脸部整体特征。其实现的网络细节如图15所示。

步骤一：退化去除；基于Unet网络，用于提取清晰潜在特征F_latent和不同分辨率空间特征F_spatial；

F_latent，F_spatial＝U-Net(x).

步骤二：生成式人脸先验和潜在特征匹配；将潜在特征F_latent匹配到中间潜在编码W，该编码W用于从可学习的人脸GAN分布中检索最相近的人脸特征F_GAN；然后，能够用GAN特征获得生成式人脸先验F_prior；

步骤三：通道分割的空间特征转换；利用步骤二的先验特征F_prior和步骤一的不同分辨率空间特征F_spatial生成高清图像；

α，β＝Conv(F_sputial)，

F_output＝SFT(F_GAN|α,β)＝α⊙F_GAN+β.

但是这种方法难以在真实性和保真度之间达到好的平衡，因此本实施例将先验特征分解为身份特征部分(用于保留)以及变换特征部分(用于特征调制)，采用以下的形式进行求解：

S4：选择课程模板；

S5：通过虚拟场景切换技术将金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。

具体的，虚拟场景切换采用U2Net技术，其网络结构如图16，整体是一个编码-解码(Encoder-Decoder)结构的U-Net，其中，每个stage由新提出的RSU模块(residual U-block)组成，即一个两层嵌套的U结构网络。其优势在于：

1.RSU模块，融合了不同尺度感受野的特征，能够捕获更多不同尺度的上下文信息(contextual information)。

2.RSU模块的池化(pooling)操作，可以在不显著增加计算成本的情况下，加深网络结构的深度。

请参阅图17，去除背景的数字人课程语句视频与课程模板中对应时间点的背景叠加到一起，就输出完整版的课程视频，即数字人轨道的数字人覆盖到背景素材模板中指定的区域，得到每一帧视频，使用视频压缩算法合成金融服务人员专属的视频课程。

本实施例提供的基于人工智能的金融知识课程生成方法是基于元宇宙的数字人技术，通过录制数段金融服务人员视频，通过人工智能学习的方式以及数字分身技术、声音复刻技术，复制出金融机构合规专业人员的形象与声音，再通过生成式AI对金融知识的课程、数据、历史资料、财报、影音视频等学习，后台通过调用金融知识课程体系文本文件，或者通过课程体系录入，以及专属模板的视频自动生成，就可以生成具有金融服务人员形象的系列课程视频课件。该方法大大提高了金融知识系列课程的生产效率，降低课程体系生产成本。

本实施例提供的基于人工智能的金融知识课程生成方法，通过专业的金融课程设计人员设计金融课程，然后提供给金融机构的服务人员(投顾或者基金经理)使用，通过数字人技术将金融服务人员的形象加入到课程中，增加了金融服务人员与客户的黏度，大幅提升了金融合规专业人员对客户服务的效率和品质。

实施例二

本实施例提供了一种基于人工智能的金融知识课程生成装置，包括：

课程模板生成模块，用于通过时间轴匹配算法将金融知识课程讲稿文字和背景素材进行匹配，生成课程模板；

数字人生成模块，用于创建金融服务人员专属数字人；

课程模板选择模块，用于选择课程模板；

场景切换模块，用于通过虚拟场景切换技术将金融服务人员专属数字人与选择的课程模板进行叠加，生成金融服务人员专属课程视频。

关于一种基于人工智能的金融知识课程生成装置的具体限定可以参见上文中对于一种基于人工智能的金融知识课程生成方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现一种基于人工智能的金融知识课程生成方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于人工智能的金融知识课程生成方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于人工智能的金融知识课程生成方法，其特征在于，包括：

创建金融服务人员专属数字人；

选择课程模板；

2.根据权利要求1所述的基于人工智能的金融知识课程生成方法，其特征在于，所述创建金融服务人员专属数字人具体包括：

获取金融课程文本样本和金融服务人员录制的音频样本；

获取金融服务人员的视频样本；

3.根据权利要求2所述的基于人工智能的金融知识课程生成方法，其特征在于，所述数字人生成模型为Wav2lip模型。

4.根据权利要求2所述的基于人工智能的金融知识课程生成方法，其特征在于，所述人脸数据增强技术为基于GFP-GAN的人脸增强技术。

5.根据权利要求1所述的基于人工智能的金融知识课程生成方法，其特征在于，所述背景素材包括知识点幻灯片、数据图表、动画和资料影音视频。

6.根据权利要求1所述的基于人工智能的金融知识课程生成方法，其特征在于，所述通过时间轴匹配算法将所述金融知识课程讲稿文字和所述背景素材进行匹配，生成课程模板，具体包括：

通过标点符号将所述金融知识课程讲稿文字分成多语句；

将所述背景素材与每个语句进行对应。

7.根据权利要求1所述的基于人工智能的金融知识课程生成方法，其特征在于，所述虚拟场景切换技术采用U2Net技术。

8.一种基于人工智能的金融知识课程生成装置，其特征在于，包括：

数字人生成模块，用于创建金融服务人员专属数字人；

课程模板选择模块，用于选择课程模板；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。