CN117111750A

CN117111750A - 一种基于ai的真人数字模型驱动方法及系统

Info

Publication number: CN117111750A
Application number: CN202311345436.XA
Authority: CN
Inventors: 杜鹃; 王大伟; 王梦成; 李宁; 徐利忠; 苏龙; 薛源
Original assignee: Beijing Black Oil Digital Exhibition Co ltd
Current assignee: Beijing Black Oil Digital Exhibition Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-24

Abstract

本发明适用于真人数字模型技术领域，提供了一种基于AI的真人数字模型驱动方法及系统，所述方法包括以下步骤：接收用户输入的关键词信息，所述关键词信息与真人数字模型需要介绍的内容相关联；根据关键词信息进行检索得到文本信息；通过AI技术对文本信息进行深度学习得到多个台词介绍信息；将多个台词介绍信息整合发送至终端设备，使得真人数字模型播报用户指定的台词文本内容。本发明无需用户再输入完整的台词文本，只需要输入与介绍内容相关的几个关键词，利用AI技术便可以得到与之相关的台词文本。

Description

一种基于AI的真人数字模型驱动方法及系统

技术领域

本发明涉及真人数字模型技术领域，具体是涉及一种基于AI的真人数字模型驱动方法及系统。

背景技术

真人数字模型是由计算机程序所构建的具有人类特征的虚拟实体。

真人数字模型已经经过几代更迭，主要是按照其驱动方式来分别的，最初是用动画或者CG来驱动真人数字模型，随后真人驱动方式出现，通过对实际的人的动作捕捉，来制作出逼真虚拟数字人效果的动画动漫影片，现如今随着AI技术的发展，可以通过AI技术来驱动真人数字模型，只需要输入编排好的台词话本，数字真人就能自动进行播报表演，可代替重复量高的服务型工作。

即使是AI技术来驱动真人数字模型，也需要预先输入真人数字模型需要播报演示的信息，对于服务介绍类的工作，介绍的内容其实是比较固定的，还需要人为预先编排台词，无疑是比较繁琐的，因此，提出了一种基于AI的真人数字模型驱动方法及系统，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于AI的真人数字模型驱动方法及系统，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种基于AI的真人数字模型驱动方法，所述方法包括以下步骤：

接收用户输入的关键词信息，所述关键词信息与真人数字模型需要介绍的内容相关联；

根据关键词信息进行检索得到文本信息；

通过AI技术对文本信息进行深度学习得到多个台词介绍信息；

将多个台词介绍信息整合发送至终端设备，使得真人数字模型播报用户指定的台词文本内容。

作为本发明进一步的方案：所述根据关键词信息进行检索得到文本信息的步骤，具体包括：

根据关键词信息进行检索得到检索结果，所述关键词信息中包含多个单体关键词，所述检索结果为与关键词相关联的网页链接；

追溯检索结果中的网页链接得到网页信息；

对网页信息进行识别得到文本信息。

作为本发明进一步的方案：所述对网页信息进行识别得到文本信息的步骤，具体包括：

根据网页信息得到截图信息；

通过AI技术对截图信息进行内容特征识别得到网页内容信息，所述网页内容信息中包含文本信息和广告信息；

对网页内容信息进行筛选得到文本信息。

作为本发明进一步的方案：所述对网页界面信息进行识别得到文本信息的步骤，还包括：

通过AI技术对网页信息进行识别，当网页中包含有视频介绍的内容时，得到音频信息；

根据音频信息生成文本信息。

作为本发明进一步的方案：所述通过AI技术对文本信息进行深度学习得到多个台词介绍信息的步骤，具体包括：

对文本信息进行内容筛选得到参考文本库，所述参考文本库中均为与关键词信息相关的文字内容；

利用AI技术建立深度学习模型应用至参考文本库得到参考台词信息；

对参考台词信息进行语义变换得到多个台词介绍信息。

作为本发明进一步的方案：所述将多个台词介绍信息发送至终端设备的步骤，具体包括：

整合多个台词介绍信息生成台词列表信息；

生成语音选项信息，整合语音选项信息和台词列表信息并发送至终端设备，使得真人数字模型能够发出由用户指定的声音类型。

本发明的另一目的在于提供一种基于AI的真人数字模型驱动系统，所述系统包括：

信息接收模块，接收用户输入的关键词信息，所述关键词信息与真人数字模型需要介绍的内容相关联；

信息检索模块，根据关键词信息进行检索得到文本信息；

台词信息生成模块，通过AI技术对文本信息进行深度学习得到多个台词介绍信息；

台词信息发送模块，将多个台词介绍信息整合发送至终端设备，使得真人数字模型播报用户指定的台词文本内容。

作为本发明进一步的方案：所述信息检索模块包括：

检索结果生成单元，根据关键词信息进行检索得到检索结果，所述关键词信息中包含多个单体关键词，所述检索结果为与关键词相关联的网页链接；

信息追溯单元，追溯检索结果中的网页链接得到网页信息；

信息识别单元，对网页信息进行识别得到文本信息。

作为本发明进一步的方案：所述台词信息生成模块还包括：

内容筛选单元，对文本信息进行内容筛选得到参考文本库，所述参考文本库中均为与关键词信息相关的文字内容；

参考台词信息生成单元，利用AI技术建立深度学习模型应用至参考文本库得到参考台词信息；

台词介绍信息生成单元，对参考台词信息进行语义变换得到多个台词介绍信息。

作为本发明进一步的方案：所述台词信息发送模块包括：

台词信息整合单元，整合多个台词介绍信息生成台词列表信息；

综合信息整理单元，生成语音选项信息，整合语音选项信息和台词列表信息并发送至终端设备，使得真人数字模型能够发出由用户指定的声音类型。

与现有技术相比，本发明的有益效果是：

本发明通过用户输入的关键词信息进行检索，能够搜索互联网中与关键词信息相关的文字介绍，从而得到文本信息，利用AI技术构建深度学习模型对文本信息进行训练，从而能够得到与关键词信息相关的台词介绍信息，随后真人数字模型在进行介绍时便可以采用所述台词介绍信息，综上所述，本发明无需用户再输入完整的台词文本，只需要输入与介绍内容相关的几个关键词，利用AI技术便可以得到与之相关的台词文本，真人数字模型便可以利用，能够有效减少人力的干预，提高智能化、自动化的程度。

附图说明

图1为一种基于AI的真人数字模型驱动方法的流程图。

图2为一种基于AI的真人数字模型驱动方法中根据关键词信息进行检索得到文本信息的流程图。

图3为一种基于AI的真人数字模型驱动方法中对网页信息进行识别得到文本信息的流程图。

图4为一种基于AI的真人数字模型驱动方法中对网页信息进行识别得到文本信息的拓展流程图。

图5为一种基于AI的真人数字模型驱动方法中通过AI技术对文本信息进行深度学习得到多个台词介绍信息的流程图。

图6为一种基于AI的真人数字模型驱动方法中将多个台词介绍信息发送至终端设备的流程图。

图7为一种基于AI的真人数字模型驱动系统的结构示意图。

图8为一种基于AI的真人数字模型驱动系统中信息检索模块的结构示意图。

图9为一种基于AI的真人数字模型驱动系统中台词信息生成模块的结构示意图。

图10为一种基于AI的真人数字模型驱动系统中台词信息发送模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种基于AI的真人数字模型驱动方法，所述方法包括以下步骤：

S100，接收用户输入的关键词信息，所述关键词信息与真人数字模型需要介绍的内容相关联；

S200，根据关键词信息进行检索得到文本信息；

S300，通过AI技术对文本信息进行深度学习得到多个台词介绍信息；

S400，将多个台词介绍信息整合发送至终端设备，使得真人数字模型播报用户指定的台词文本内容。

需要说明的是，对于服务介绍类的工作，介绍的内容其实是比较固定的，还需要人为预先编排台词，无疑是比较繁琐的，所述关键词信息中包括多个关键词，根据用户列举的关键词来进行搜索，而文本信息是包含这些关键词或者包含于关键词相似的词语的语句。

本发明实施例中，本发明通过用户输入的关键词信息进行检索，能够搜索互联网中与关键词信息相关的文字介绍，从而得到文本信息，利用AI技术构建深度学习模型对文本信息进行训练，从而能够得到与关键词信息相关的台词介绍信息，随后真人数字模型在进行介绍时便可以采用所述台词介绍信息，综上所述，本发明无需用户在输入完整的台词文本，只需要输入与介绍内容相关的几个关键词，利用AI技术便可以得到与之相关的台词文本，真人数字模型便可以利用，能够有效减少人力的干预，提高智能化、自动化的程度。

如图2所示，作为本发明一个优选的实施例，所述根据关键词信息进行检索得到文本信息的步骤，具体包括：

S201，根据关键词信息进行检索得到检索结果，所述关键词信息中包含多个单体关键词，所述检索结果为与关键词相关联的网页链接；

S202，追溯检索结果中的网页链接得到网页信息；

S203，对网页信息进行识别得到文本信息。

本发明实施例中，所述检索结果为与关键词相关联的网页链接，通过这些网页链接可以进入对应的网页中，这些网页中包含有文字描述部分，对文字描述部分进行扫描便可以得到相应的文本信息。

如图3所示，作为本发明一个优选的实施例，所述对网页信息进行识别得到文本信息的步骤，具体包括：

S2031，根据网页信息得到截图信息；

S2032，通过AI技术对截图信息进行内容特征识别得到网页内容信息，所述网页内容信息中包含文本信息和广告信息；

S2033，对网页内容信息进行筛选得到文本信息。

本发明实施例中，解释了如何获取文本信息，对网页的界面进行截图得到截图信息，截图信息中必然包含一些图片和文字，随后进行特征识别，根据信息在网页截图中的布局判断是否为广告，删除对应的广告信息，剩下来的便可以作为文本信息，本实施例可以有效排出检索的干扰因素。

如图4所示，作为本发明一个优选的实施例，所述对网页界面信息进行识别得到文本信息的步骤，还包括：

S213，通过AI技术对网页信息进行识别，当网页中包含有视频介绍的内容时，得到音频信息；

S223，根据音频信息生成文本信息。

本发明实施例中，在实际情况下，网页中不完全是文字介绍，有的只是视频，通过对视频进行播放便可以获取到音频信息，在将音频信息转化成文字信息便可以得到相应的文本信息。

如图5所示，作为本发明一个优选的实施例，所述通过AI技术对文本信息进行深度学习得到多个台词介绍信息的步骤，具体包括：

S301，对文本信息进行内容筛选得到参考文本库，所述参考文本库中均为与关键词信息相关的文字内容；

S302，利用AI技术建立深度学习模型应用至参考文本库得到参考台词信息；

S303，对参考台词信息进行语义变换得到多个台词介绍信息。

本发明实施例中，对所述文本信息进行筛选能够去除其中的干扰因素，利用AI技术建立深度学习模型应用至参考文本库模拟真人对文字描述进行精简，从而能够参考台词信息，在将参考台词信息进行语义相近的变换便可以得到多个台词介绍信息，通过这种方式能够避免真人数字模型在播报时出现重复的情况。

如图6所示，作为本发明一个优选的实施例，所述将多个台词介绍信息发送至终端设备的步骤，具体包括：

S401，整合多个台词介绍信息生成台词列表信息；

S402，生成语音选项信息，整合语音选项信息和台词列表信息并发送至终端设备，使得真人数字模型能够发出由用户指定的声音类型。

本发明实施例中，整合多个台词介绍信息生成台词列表信息可以供用户进行选择，每个台词介绍信息都存在文字描述的差别，避免出现雷同的情况，而语音选项信息能够使真人数字模型发出不同类型的声音，能够有效增加趣味性。

如图7所示，本发明实施例还提供了一种基于AI的真人数字模型驱动系统，所述系统包括：

信息接收模块100，接收用户输入的关键词信息，所述关键词信息与真人数字模型需要介绍的内容相关联；

信息检索模块200，根据关键词信息进行检索得到文本信息；

台词信息生成模块300，通过AI技术对文本信息进行深度学习得到多个台词介绍信息；

台词信息发送模块400，将多个台词介绍信息整合发送至终端设备，使得真人数字模型播报用户指定的台词文本内容。

如图8所示，作为本发明一个优选的实施例，所述信息检索模块200包括：

检索结果生成单元201，根据关键词信息进行检索得到检索结果，所述关键词信息中包含多个单体关键词，所述检索结果为与关键词相关联的网页链接；

信息追溯单元202，追溯检索结果中的网页链接得到网页信息；

信息识别单元203，对网页信息进行识别得到文本信息。

如图9所示，作为本发明一个优选的实施例，所述台词信息生成模块300还包括：

内容筛选单元301，对文本信息进行内容筛选得到参考文本库，所述参考文本库中均为与关键词信息相关的文字内容；

参考台词信息生成单元302，利用AI技术建立深度学习模型应用至参考文本库得到参考台词信息；

台词介绍信息生成单元303，对参考台词信息进行语义变换得到多个台词介绍信息。

如图10所示，作为本发明一个优选的实施例所述台词信息发送模块400包括：

台词信息整合单元401，整合多个台词介绍信息生成台词列表信息；

综合信息整理单元402，生成语音选项信息，整合语音选项信息和台词列表信息并发送至终端设备，使得真人数字模型能够发出由用户指定的声音类型。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种基于AI的真人数字模型驱动方法，其特征在于，所述方法包括以下步骤：

根据关键词信息进行检索得到文本信息；

2.根据权利要求1所述的基于AI的真人数字模型驱动方法，其特征在于，所述根据关键词信息进行检索得到文本信息的步骤，具体包括：

追溯检索结果中的网页链接得到网页信息；

对网页信息进行识别得到文本信息。

3.根据权利要求2所述的基于AI的真人数字模型驱动方法，其特征在于，所述对网页信息进行识别得到文本信息的步骤，具体包括：

根据网页信息得到截图信息；

对网页内容信息进行筛选得到文本信息。

4.根据权利要求3所述的基于AI的真人数字模型驱动方法，其特征在于，所述对网页界面信息进行识别得到文本信息的步骤，还包括：

根据音频信息生成文本信息。

5.根据权利要求1所述的基于AI的真人数字模型驱动方法，其特征在于，所述通过AI技术对文本信息进行深度学习得到多个台词介绍信息的步骤，具体包括：

对参考台词信息进行语义变换得到多个台词介绍信息。

6.根据权利要求1所述的基于AI的真人数字模型驱动方法，其特征在于，所述将多个台词介绍信息发送至终端设备的步骤，具体包括：

整合多个台词介绍信息生成台词列表信息；

7.一种基于AI的真人数字模型驱动系统，其特征在于，所述系统包括：

信息检索模块，根据关键词信息进行检索得到文本信息；

8.根据权利要求7所述的基于AI的真人数字模型驱动系统，其特征在于，所述信息检索模块包括：

信息追溯单元，追溯检索结果中的网页链接得到网页信息；

信息识别单元，对网页信息进行识别得到文本信息。

9.根据权利要求7所述的基于AI的真人数字模型驱动系统，其特征在于，所述台词信息生成模块还包括：

10.根据权利要求7所述的基于AI的真人数字模型驱动系统，其特征在于，所述台词信息发送模块包括：