CN114189740A

CN114189740A - 视频合成对话构建方法、装置、计算机设备及存储介质

Info

Publication number: CN114189740A
Application number: CN202111257193.5A
Authority: CN
Inventors: 高鹏; 康维鹏; 袁兰; 吴飞; 周伟华; 高峰; 潘晶
Original assignee: Hangzhou Mjoys Big Data Technology Co ltd
Current assignee: Hangzhou Mjoys Big Data Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-03-15
Anticipated expiration: 2041-10-27
Also published as: CN114189740B

Abstract

本发明实施例公开了视频合成对话构建方法、装置、计算机设备及存储介质。所述方法包括：获取对话过程中的用户问句；对所述用户问句进行语义理解，以得到问答意图；对所述问答意图规划视图内容；根据所述问答意图以及所述视图内容生成视频解说音频；根据所述视图内容以及所述视频解说音频生成动态合成视频；将所述动态合成视频反馈至用户终端。通过实施本发明实施例的方法可实现将对话内容视频化，提高人机交互智能化程度，交互形式更为丰富化。

Description

视频合成对话构建方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能问答方法，更具体地说是指视频合成对话构建方法、装置、计算机设备及存储介质。

背景技术

随着5G等通信技术的发展，短视频由于同时具备图文声影，能充分调动人的视觉、听觉感官，在社交、营销、新媒体等场景业务中成为越来越重要，同时也愈加友好的社交方式，并成为了确保流量和留量的重要因素。但目前在智能问答和智能营销等场景中，基本上都还是采用文本或图片的方式，干瘪简单的交流方式，与真实场景中的人机交互相差甚远，不能提高用户的体验感，而且，对于一些需要采用视频呈现的对话内容，当前的对话构建技术并不能做到。

因此，有必要设计一种新的对话构建方法，实现将对话内容视频化，提高人机交互智能化程度，交互形式更为丰富化。

发明内容

本发明的目的在于克服现有技术的缺陷，提供视频合成对话构建方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：视频合成对话构建方法，包括：

获取对话过程中的用户问句；

对所述用户问句进行语义理解，以得到问答意图；

对所述问答意图规划视图内容；

根据所述问答意图以及所述视图内容生成视频解说音频；

根据所述视图内容以及所述视频解说音频生成动态合成视频；

将所述动态合成视频反馈至用户终端。

其进一步技术方案为：所述对所述用户问句进行语义理解，以得到问答意图，包括：

对所述用户问句采用Trie树进行最大前缀匹配，并利用正则表达式进行时间数字识别，以得到实体部分；

对所述问句内的非实体部分采用分词工具进行分词识别，以得到分词结果；

对所述实体部分以及所述分词结果进行上下文改写，以得到改写结果；

采用基于深度学习的TextCNN分类模型对所述改写结果进行意图的分类，以得到问答意图。

其进一步技术方案为：所述对所述问答意图规划视图内容，包括：

根据所述问答意图配置原始取数接口及结构化数据样式；

根据所述问答意图配置视图样式；

根据所述问答意图配置视频合成模板。

其进一步技术方案为：所述根据所述问答意图以及所述视图内容生成视频解说音频，包括：

利用所述原始取数接口及结构化数据样式拉取SQL库表及API接口的数据，以获取结构化数据信息；

根据所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词；

将所述解说词转换为语音信息，以得到视频解说音频。

其进一步技术方案为：所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词，包括：

根据所述视图样式以及具体需要待填补的变量信息，确定解说词模板；

根据所述问答意图、所述结构化数据信息以及所述视图样式采用模板规则以及解说词模板，将变动的数值采用变量形式进行文本模板书写及替换，以生成每个可视化动态图表的解说词。

其进一步技术方案为：所述将所述解说词转换为语音信息，以得到视频解说音频，包括：

将所述解说词通过TTS语音合成技术转换为语音信息，以得到视频解说音频。

其进一步技术方案为：所述根据所述视图内容以及所述视频解说音频生成动态合成视频，包括：

将结构化数据信息填充到Echarts可视化图表中，并根据所述视图样式渲染形成动态图像；

将所述解说词以及所述视频解说音频通过FFmpeg封装，以得到单元视频文件；

将所有单元视频文件按照视频合成模板进行拼接，以得到动态合成视频。

本发明还提供了视频合成对话构建装置，包括：

问句获取单元，用于获取对话过程中的用户问句；

语义理解单元，用于对所述用户问句进行语义理解，以得到问答意图；

视图内容规划单元，用于对所述问答意图规划视图内容；

音频生成单元，用于根据所述问答意图以及所述视图内容生成视频解说音频；

视频合成单元，用于根据所述视图内容以及所述视频解说音频生成动态合成视频；

反馈单元，用于将所述动态合成视频反馈至用户终端。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过对用户问句进行语义理解，并结合得到的问答意图确定视图内容，根据获取的数据、问答意图以及视图内容生成解说音频，并生成视频，能够使得人们能够通过一句自然语言问句，正确查取数据进行视图动态渲染，并最终转化为视频信息，实现将对话内容视频化，提高人机交互智能化程度，交互形式更为丰富化。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频合成对话构建方法的应用场景示意图；

图2为本发明实施例提供的视频合成对话构建方法的流程示意图；

图3为本发明实施例提供的视频合成对话构建方法的子流程示意图；

图4为本发明实施例提供的视频合成对话构建方法的子流程示意图；

图5为本发明实施例提供的视频合成对话构建方法的子流程示意图；

图6为本发明实施例提供的视频合成对话构建方法的子流程示意图；

图7为本发明实施例提供的视频合成对话构建方法的子流程示意图；

图8为本发明实施例提供的TextCNN分类模型的结构示意图；

图9为本发明实施例提供的关于雷达图的动态化视觉效果展现示意图；

图10为本发明实施例提供的视频模板的示意图；

图11为本发明实施例提供的视频合成对话构建装置的示意性框图；

图12为本发明实施例提供的视频合成对话构建装置的语义理解单元的示意性框图；

图13为本发明实施例提供的视频合成对话构建装置的视图内容规划单元的示意性框图；

图14为本发明实施例提供的视频合成对话构建装置的音频生成单元的示意性框图；

图15为本发明实施例提供的视频合成对话构建装置的解说词生成子单元的示意性框图；

图16为本发明实施例提供的视频合成对话构建装置的视频合成单元的示意性框图；

图17为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的视频合成对话构建方法的应用场景示意图。图2为本发明实施例提供的视频合成对话构建方法的示意性流程图。该视频合成对话构建方法应用于服务器中。该服务器与用户终端进行数据交互，通过用户终端获取用户问句，并由服务器对用户问句进行意图分析，根据问答意图确定视图内容，生成视频解说音频以及合成视频，并将视频反馈至用户终端。

图2是本发明实施例提供的视频合成对话构建方法的流程示意图。如图2所示，该方法包括以下步骤S110至S160。

S110、获取对话过程中的用户问句。

在本实施例中，用户问句是指在人机交互过程中用户所提出的问题。

S120、对所述用户问句进行语义理解，以得到问答意图。

在本实施例中，问答意图是指用户问句所对应的意图。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S124。

S121、对所述用户问句采用Trie树进行最大前缀匹配，并利用正则表达式进行时间数字识别，以得到实体部分。

在本实施例中，实体部分是指用户问句的实体内容。

S122、对所述问句内的非实体部分采用分词工具进行分词识别，以得到分词结果。

在本实施例中，分词结果是指对非实体部分进行分词后形成的结果。

分词与实体识别都属于词法分析，是语义理解的基础，我们采用模型识别与语义词典相结合的方式进行。对于实体识别，首先要需根据领域业务特性，梳理确定语义实体类别。例如对于银行金融业务，主要梳理确定银行名称、网点分支机构、理财品种、营销活动等业务化实体，以及地点、人物、数字、时间等通用化实体。由于不同语义类别具有不同属性，例如：理财产品具有产品名称、产品发行时间、产品介绍、适用人群、历史收益走势等信息。一个实体具有多个同义表述，按照类别、归一词、同义词、语义属性的方式整理构建语义实体，如表1所示。

表1.银行机构-实体列表

除了上述梳理规整的语义实体之外，还需要进行数字、时间等识别，一般采用正则表达式进行规则识别，比如：

("DATE_YMD","(\\d{2}|\\d{4})[年\\-]([01]？\\d)[月\\-]？([0123]？\\d)(日|号)？"))；

("DATE_YMD","(前年|去年|昨年|今年|明年|后年)(\\d{1,2})[月\\-]？([0123]？\\d)(日|号)？")；

("DATE_YM","(\\d{2}|\\d{4})年([01]？\\d)月"))；

("DATE_YM","(前年|去年|昨年|今年|明年|后年)([01]？\\d)月"))；

("DATE_YM","(\\d{2}|\\d{4})年([01]？\\d)月"))；

("DATE_MD","([01]？\\d)[月\\-](\\d{1,2})(日|号)？"))；

("DATE_REL","(最近|近)([一二三四五六七八九十\\d]{1,3})([年|月|日|天|周])")))；

("DATE_OY","(\\d{2}|\\d{4})年")))；

("DATE_OM","([01]？\\d)月")))。

经过上面方式构建好了实体词典及抽取规则之后，采用Trie树进行最大前缀匹配，并利用正则表达式进行时间数字识别，从而完成对用户问句的实体识别。而对于问句中非实体部分，则采用Jieba、LTP等开源分词工具进行分词识别，并结合实体识别结果完成对问句的词法分析。

S123、对所述实体部分以及所述分词结果进行上下文改写，以得到改写结果。

在本实施例中，改写结果是指对实体部分和分词结果进行上下文补全后得到结果。

在智能对话系统中，经常会出现上下文拼写省略的情况。就银行金融领域的问答而言，重点解决银行品种、时间等实体的拼写补全问题。主要根据上文N条问句与当前问句的分词、实体识别以及句式模板规则信息，N一般取3，采用语义规则的方式进行上下文补全，步骤如下：

对当前问句进行分词与实体识别，并确定是否满足特定的句式规则，例如是满足：(那|那嚒|那么...)($DATE|$NUM|$PRODUCT|$LOCAL|$PERSON...)(呢|的呢|的呐|？...)；

依次遍历上文N条(N一般取3)问句，并根据分词与实体进行对齐匹配，进一步判断上下文之间是否存在实体替换或省略关系；

如果上文问句与当前问句存在语义省略关系，则将上文问句中的词语与实体按照实体对齐匹配关系补全到当前问句中，从而达到问句改写的目的；比如：问句1：原油宝是个什么产品？问句2：那近5年收益如何？如上述示例问句，可以得到“那近5年收益如何”补全改写后为“原油宝近5年收益如何？”。如果当前问句进行了上下文改写，需对改写后的问句再次进行分词与实体识别。

S124、采用基于深度学习的TextCNN分类模型对所述改写结果进行意图的分类，以得到问答意图。

具体地，意图识别主要是采用分类或则规则识别的方式识别出用户真实意图，一般采用从大类到小类逐级细分的方式进行。根据银行金融业务，把问题划分成：信用卡业务、理财产品业务、车主卡业务、账户密码业务等业务大类，并按业务大类梳理规范业务小类，例如：账户密码业务又可以分为：密码修改、密码忘记、账户挂失、账户查询等。本文中对于意图识别，采用了基于深度学习的TextCNN分类模型进行问句类别逐级识别，具体如下。

训练构建银行金融业务词典，主要是根据银行金融资讯、银行理财产品、银行网点机构层级、用户数据信息等为数据来源，进行分词识别，构建银行金融领域词表；

采用google提供的word2vec训练工具训练词向量，将问句转化为向量表示；

对句子进行补0操作，变成等长向量化表示；

构建TextCNN模型并迭代训练，用验证集进行准确率测试以得到最佳模型。

TextCNN深度模型结构如图8所示；经过上述处理操作之后，可以对问句进行【大类-小类-意图】的逐渐类别识别，判断识别出大类意图、小类意图、具体标准意图等，并对其中不明确的进行对话询问。例如，上述补全问句“原油宝近5年收益如何？”其意图按照类别层级展开就是：“理财产品–原油宝–原油宝收益”。

S130、对所述问答意图规划视图内容。

传统问答系统，在内容规划上一般直配置用户直接返回的富文本信息，而对于以自动合成视频进行交互反馈的系统，则主要配置用于视频自动合成的模板配置信息。视频模板配置主要配置：结构化数据内容、视图样式、视频合成模板等三大方面的配置信息。本实施例中的可视化视频问答，主要是先根据意图，准备原始数据并转化为Echarts等图表形式，再进一步根据图表渲染组合成视频。ECharts一个基于JavaScript的开源可视化图表库，提供了大量直观，交互丰富，可高度个性化定制的数据可视化图表，诸如常规折线图、柱状图、散点图、饼图、K线图等等。

在本实施例中，视图内容是指原始取数接口及结构化数据样式、视图样式以及视频合成模板。

在一实施例中，请参阅图4，上述的步骤S130可包括步骤S131～S133。

S131、根据所述问答意图配置原始取数接口及结构化数据样式。

在本实施例中，原始取数接口是指用于拉取原始数据的接口；结构化数据样式是指获取的原始数据的样式。

具体地，意图的结构化数据内容配置，主要根据当前意图配置原始取数接口及结构化数据样式，其中，原始数据结构一般采用SQL库表或API接口，而结构化数据样式一般为JSON形式等。

原始数据与意图是存在n对n的关系的，即一个用户意图可能需要查询多个数据，例如对于“原油宝产品收益”可以包含原油宝产品发展阶段信息介绍，例如首发时间、产品资金规模、安全性等，然后再是最近N年的产品收益走势，最后再是产品购买建议等；数据内容就是需要将每个阶段的原始数据获取信息等详尽配置表示出来，包括几个阶段的内容数据、数据获取方式、数据接口参数、数据适配化结构信息等。

S132、根据所述问答意图配置视图样式。

在本实施例中，视图样式是指呈现的图表样式。

具体地，图表样式主要是对各类常见图表样式有：饼图、柱状图、决策树分析树、仪表盘、流程图、折线图、雷达图、面积图、闪点图等。不同的图表样式合适的场景不完全相同，例如：决策树分析适合做假设分析，其可以自定义变量，并建立变量之间的相互关系，并拖动改变数值，牵一发而动全身，观察他对最终结果的影响，其比较适合关于财务收益和投资建议等用户意图的数据样式展现。因此可根据具体业务场景制作不同的视频模板。

由于Echarts需要按视图可视化展现，需根据各类不同的图表样式设计专门的数据动态展现模式，使得最终可以形成动态视觉效果。一般地，可视化图表组件配置包括起始位置、宽高、样式，通过支持设定组件生命周期，即组件在整个视频时间轴中的出现时间和持续时长，支持视频模板镜头设计。如图9所示，是关于雷达图的动态化视觉效果展现。

S133、根据所述问答意图配置视频合成模板。

在本实施例中，视频合成模板是指合成的视频的模板。

一个意图可能具有多个不同的视觉片段内容，每个视觉片段内容主要以Echarts动态视图为承载单元。视频合成模板的配置则提供图形化编辑工具，并基于图形化编辑工具将多个图表可视化样式进行拼接组合，并将模板管理中心提供的数据导入视频模板内部的可视化组件，即可合成视频，从而实现视频模板效果的在线预览，并基于预览效果调试所述视频模板。

视频合成模板限定了视频的格式、帧率、时长等各种视频合成参数，以及可视化组件配置信息。视频模板由多个可视化组件组合而成。每个模板有唯一确定的标识，供任务中心调用，任务中心根据业务需求选择所需模板，将业务数据与模板一同交给视频合成引擎，引擎内部会将业务数据导入到模板的可视化组件中，完成视频的录制。可视化组件是指某类图表形式的通用化表示，输入为特定类型格式的数据，输出为页面显示的动态图表效果，包括且不限于折线图、柱状图、地图、关系网络图、文字卡片等各类表现形式。通过解析时序数据的时间信息或显式规定数据顺序，设定组件动画顺序，从而依序绘制可视化图表的每一帧，图形帧之间通过插值函数进行平滑动画过渡，例如可视化组件库D3.js的插值函数，最终生成动态可视化图表效果。如图10所示，将各个图表进行串联，组合形成一个视频模板。

S140、根据所述问答意图以及所述视图内容生成视频解说音频。

在本实施例中，视频解说音频是指视频对应的音频内容。

在一实施例中，请参阅图5，上述的步骤S140可包括步骤S141～S143。

S141、利用所述原始取数接口及结构化数据样式拉取SQL库表及API接口的数据，以获取结构化数据信息。

在本实施例中，结构化数据信息是指原始数据，用于转换为视频输出的数据。在解析问答意图、并根据该问答意图的视频合成模板信息，获取确定了视频图表数据内容之后，需进一步根据结构化数据信息及视频合成模板信息，生成每个可视化动态图表的解说词，并最终根据TTS合成技术产生语音信息，与视图信息一起最终合成解析音频。

S142、根据所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词。

在本实施例中，解说词是指与数据信息和图表匹配的解说词句。

在一实施例中，请参阅图6，上述的步骤S142可包括步骤S1421～S1422。

S1421、根据所述视图样式以及具体需要待填补的变量信息，确定解说词模板；

S1422、根据所述问答意图、所述结构化数据信息以及所述视图样式采用模板规则以及解说词模板，将变动的数值采用变量形式进行文本模板书写及替换，以生成每个可视化动态图表的解说词。

先通过语义解析确定用户意图，然后再根据用户意图拉取SQL库表及API接口的数据。为了生成精准解说词，根据当前意图、原始数据及当前图表样式，一般采用模板规则生成解说文本，将变动数值采用变量形式进行文本模板书写及替换。例如，对于“原油宝历史产品收益”，根据展现的视图内容，以及具体需要留待填补的变量信息，确定解说词模板。一个解说词生成示例：${理财产品}是${银行名称}最早发行于${发行时间}，资金规模达到${资金规模}，自从发行以来其年平均收益为${年平均收益}....

由于每个动态视图其长度有限，在进行解说词生成适时候，需要根据视频时间长度、播音音速进行确定文本字符长度，因此生成解说词的模板，需经过反复测试，确保文本和动态视图在时间层面是吻合的。

S143、将所述解说词转换为语音信息，以得到视频解说音频。

在本实施例中，将所述解说词通过TTS(从文本到语音，Text To Speech)语音合成技术转换为语音信息，以得到视频解说音频。

具体地，生成完毕解说词之后，需要将解说词文本通过TTS语音合成技术转化为音频信息文件，一般而言，在将文本转化为音频信息，需充分考虑音色、音量和播音速度等信息，其中音色一般包括男音、女音、童声等，具体合成参数需根据视频解说业务情况而定。

S150、根据所述视图内容以及所述视频解说音频生成动态合成视频。

在本实施例中，动态合成视频是指依据上述的视图内容、视频解说音频以及结构化数据信息等合成的视频。

用户提问经过语义分析识别出真实用户意图，并经过视频内容规划配置信息，确定了响应的结构化数据、图表视图等信息，并进一步根据解说词生成模板和TTS语音合成配置信息生成解说字母和语音信息，从而整体视频元素信息等准备齐全了，接下来就是要将这些元素信息，经过视频合成引擎转化为视频文件，视频文件本身其实是一个容器，里面包括了视频和音频，也可能有字幕等其他内容，常见视频容器格式有MP4、MKV、WebM、AVI等几种。

在一实施例中，请参阅图7，上述的步骤S150可包括步骤S151～S153。

S151、将结构化数据信息填充到Echarts可视化图表中，并根据所述视图样式渲染形成动态图像；

S152、将所述解说词以及所述视频解说音频通过FFmpeg封装，以得到单元视频文件。

在本实施例中，单元视频文件是指单个数据构成的视频文件。

具体地，整个视频信息Echarts动态图表是组成视频信息基本单元，主要通过Node.js及FFmpeg将Echarts动态图表合成转化为视频。其中，Node.js是一个事件驱动I/O服务端JavaScript环境，其基于Google的V8引擎执行Javascript，速度和性能都非常可观；FFmpeg是数字音频视频转换处理的最常用开源软件，提供了录制、转换以及流化音视频的完整解决方案，是许多音频和视频格式的标准编码/解码实现。

视频单元合成主要是将结构化数据填充到Echarts可视化图表中，并根据视图动态渐变样式、动态时间等设置信息渲染形成动态图像，并进一步将前文步骤产生的解说词及解说音频通过FFmpeg一起封装形成单元视频文件。

S153、将所有单元视频文件按照视频合成模板进行拼接，以得到动态合成视频。

合成引擎完成将多段音视频进行叠加、拼接等合成处理工作。系统将前文通过视图内容单元转换单元视频文件，按照视频模板配置信息进行拼接，最终形成一个视频文件，并将该视频文件放置于视频播放路径中，最终采用视频流式方式反馈给用户。

S160、将所述动态合成视频反馈至用户终端。

以视频的形式动态呈现对话内容以及问答的内容在用户终端，提高用户体验感。

上述的视频合成对话构建方法，通过对用户问句进行语义理解，并结合得到的问答意图确定视图内容，根据获取的数据、问答意图以及视图内容生成解说音频，并生成视频，能够使得人们能够通过一句自然语言问句，正确查取数据进行视图动态渲染，并最终转化为视频信息，实现将对话内容视频化，提高人机交互智能化程度，交互形式更为丰富化。

图11是本发明实施例提供的一种视频合成对话构建装置300的示意性框图。如图11所示，对应于以上视频合成对话构建方法，本发明还提供一种视频合成对话构建装置300。该视频合成对话构建装置300包括用于执行上述视频合成对话构建方法的单元，该装置可以被配置于服务器中。具体地，请参阅图11，该视频合成对话构建装置300包括问句获取单元301、语义理解单元302、视图内容规划单元303、音频生成单元304、视频合成单元305以及反馈单元306。

问句获取单元301，用于获取对话过程中的用户问句；语义理解单元302，用于对所述用户问句进行语义理解，以得到问答意图；视图内容规划单元303，用于对所述问答意图规划视图内容；音频生成单元304，用于根据所述问答意图以及所述视图内容生成视频解说音频；视频合成单元305，用于根据所述视图内容以及所述视频解说音频生成动态合成视频；反馈单元306，用于将所述动态合成视频反馈至用户终端。

在一实施例中，如图12所示，所述语义理解单元302包括实体识别子单元3021、分词子单元3022、上下文改写子单元3023以及分类子单元3024。

实体识别子单元3021，用于对所述用户问句采用Trie树进行最大前缀匹配，并利用正则表达式进行时间数字识别，以得到实体部分；分词子单元3022，用于对所述问句内的非实体部分采用分词工具进行分词识别，以得到分词结果；上下文改写子单元3023，用于对所述实体部分以及所述分词结果进行上下文改写，以得到改写结果；分类子单元3024，用于采用基于深度学习的TextCNN分类模型对所述改写结果进行意图的分类，以得到问答意图。

在一实施例中，如图13所示，所述视图内容规划单元303包括接口配置子单元3031、视图样式配置子单元3032以及模板配置子单元3033。

接口配置子单元3031，用于根据所述问答意图配置原始取数接口及结构化数据样式；视图样式配置子单元3032，用于根据所述问答意图配置视图样式；模板配置子单元3033，用于根据所述问答意图配置视频合成模板。

在一实施例中，如图14所示，所述音频生成单元304包括数据获取子单元3041、解说词生成子单元3042以及转换子单元3043。

数据获取子单元3041，用于利用所述原始取数接口及结构化数据样式拉取SQL库表及API接口的数据，以获取结构化数据信息；解说词生成子单元3042，用于根据所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词；转换子单元3043，用于将所述解说词转换为语音信息，以得到视频解说音频。

在一实施例中，如图15所示，所述解说词生成子单元3042包括模板确定模块30421以及替换模块30422。

模板确定模块30421，用于根据所述视图样式以及具体需要待填补的变量信息，确定解说词模板；替换模块30422，用于根据所述问答意图、所述结构化数据信息以及所述视图样式采用模板规则以及解说词模板，将变动的数值采用变量形式进行文本模板书写及替换，以生成每个可视化动态图表的解说词。

在一实施例中，所述转换子单元3043，用于将所述解说词通过TTS语音合成技术转换为语音信息，以得到视频解说音频。

在一实施例中，如图16所示，所述视频合成单元305包括填充子单元3051、封装子单元3052以及拼接子单元3053。

填充子单元3051，用于将结构化数据信息填充到Echarts可视化图表中，并根据所述视图样式渲染形成动态图像；封装子单元3052，用于将所述解说词以及所述视频解说音频通过FFmpeg封装，以得到单元视频文件；拼接子单元3053，用于将所有单元视频文件按照视频合成模板进行拼接，以得到动态合成视频。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述视频合成对话构建装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述视频合成对话构建装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图17所示的计算机设备上运行。

请参阅图17，图17是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图17，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种视频合成对话构建方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种视频合成对话构建方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取对话过程中的用户问句；对所述用户问句进行语义理解，以得到问答意图；对所述问答意图规划视图内容；根据所述问答意图以及所述视图内容生成视频解说音频；根据所述视图内容以及所述视频解说音频生成动态合成视频；将所述动态合成视频反馈至用户终端。

在一实施例中，处理器502在实现所述对所述用户问句进行语义理解，以得到问答意图步骤时，具体实现如下步骤：

对所述用户问句采用Trie树进行最大前缀匹配，并利用正则表达式进行时间数字识别，以得到实体部分；对所述问句内的非实体部分采用分词工具进行分词识别，以得到分词结果；对所述实体部分以及所述分词结果进行上下文改写，以得到改写结果；采用基于深度学习的TextCNN分类模型对所述改写结果进行意图的分类，以得到问答意图。

在一实施例中，处理器502在实现所述对所述问答意图规划视图内容步骤时，具体实现如下步骤：

根据所述问答意图配置原始取数接口及结构化数据样式；根据所述问答意图配置视图样式；根据所述问答意图配置视频合成模板。

在一实施例中，处理器502在实现所述根据所述问答意图以及所述视图内容生成视频解说音频步骤时，具体实现如下步骤：

利用所述原始取数接口及结构化数据样式拉取SQL库表及API接口的数据，以获取结构化数据信息；根据所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词；将所述解说词转换为语音信息，以得到视频解说音频。

在一实施例中，处理器502在实现所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词步骤时，具体实现如下步骤：

根据所述视图样式以及具体需要待填补的变量信息，确定解说词模板；根据所述问答意图、所述结构化数据信息以及所述视图样式采用模板规则以及解说词模板，将变动的数值采用变量形式进行文本模板书写及替换，以生成每个可视化动态图表的解说词。

在一实施例中，处理器502在实现所述将所述解说词转换为语音信息，以得到视频解说音频步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述根据所述视图内容以及所述视频解说音频生成动态合成视频步骤时，具体实现如下步骤：

将结构化数据信息填充到Echarts可视化图表中，并根据所述视图样式渲染形成动态图像；将所述解说词以及所述视频解说音频通过FFmpeg封装，以得到单元视频文件；将所有单元视频文件按照视频合成模板进行拼接，以得到动态合成视频。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述用户问句进行语义理解，以得到问答意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述问答意图规划视图内容步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述问答意图以及所述视图内容生成视频解说音频步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述将所述解说词转换为语音信息，以得到视频解说音频步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述视图内容以及所述视频解说音频生成动态合成视频步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.视频合成对话构建方法，其特征在于，包括：

获取对话过程中的用户问句；

对所述用户问句进行语义理解，以得到问答意图；

对所述问答意图规划视图内容；

根据所述问答意图以及所述视图内容生成视频解说音频；

将所述动态合成视频反馈至用户终端。

2.根据权利要求1所述的视频合成对话构建方法，其特征在于，所述对所述用户问句进行语义理解，以得到问答意图，包括：

3.根据权利要求1所述的视频合成对话构建方法，其特征在于，所述对所述问答意图规划视图内容，包括：

根据所述问答意图配置原始取数接口及结构化数据样式；

根据所述问答意图配置视图样式；

根据所述问答意图配置视频合成模板。

4.根据权利要求3所述的视频合成对话构建方法，其特征在于，所述根据所述问答意图以及所述视图内容生成视频解说音频，包括：

将所述解说词转换为语音信息，以得到视频解说音频。

5.根据权利要求4所述的视频合成对话构建方法，其特征在于，所述根据结构化数据信息以及视图样式，生成每个可视化动态图表的解说词，包括：

6.根据权利要求4所述的视频合成对话构建方法，其特征在于，所述将所述解说词转换为语音信息，以得到视频解说音频，包括：

7.根据权利要求3所述的视频合成对话构建方法，其特征在于，所述根据所述视图内容以及所述视频解说音频生成动态合成视频，包括：

8.视频合成对话构建装置，其特征在于，包括：

问句获取单元，用于获取对话过程中的用户问句；

视图内容规划单元，用于对所述问答意图规划视图内容；

反馈单元，用于将所述动态合成视频反馈至用户终端。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。