CN110730389B

CN110730389B - 一种视频节目自动生成互动问答的方法及装置

Info

Publication number: CN110730389B
Application number: CN201911314577.9A
Authority: CN
Inventors: 李小波; 贾凡
Original assignee: Hengxin Oriental Culture Ltd By Share Ltd
Current assignee: Hengxin Oriental Culture Ltd By Share Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-03-31
Anticipated expiration: 2039-12-19
Also published as: CN110730389A

Abstract

本申请公开一种视频节目自动生成互动问答的方法及装置。所述方法包括从播放的视频节目中提取视频台词文字，对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案；将选择的疑问句转化为引导语音；检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案画面帧和非答案画面帧进行图像预处理，得到答案图片和非答案图片；根据答案图片和非答案图片制作通用引导动画，视频节目结束后，播放通用引导动画和引导语音。采用本申请的视频节目自动生成互动问答的方法，能够实现在高数量视频节目时为每个视频提炼问答，自动嵌套入动画模板中，形成在每个视频后都有互动问答环节，节省了大量的人工操作，大大提高视频识别率。

Description

一种视频节目自动生成互动问答的方法及装置

技术领域

本申请涉及视频互动问答领域，尤其涉及一种视频节目自动生成互动问答的方法及装置。

背景技术

目前，在计算机视觉和多媒体分析领域中，视频分析是一项非常重要且极具挑战性的任务。视频问答作为视频分析的一部分，近年来引起了大量的关注。随着视频数据的急速增长，理解视频内容并根据视频内容提出与视频相关的问题，对视频问答方法的研究非常必要。

视频问答是指对给定的视频以及针对该视频提出的问题。现如今大多的视频问答都是通过出题者根据视频内容人工制作视频形式的知识点总结、问答环节，每个视频节目都需要单独制作并上传，制作和维护成本非常高，而且互动效果很差。

发明内容

本申请提供了一种视频节目自动生成互动问答的方法，包括如下步骤：

从播放的视频节目中提取视频台词文字，对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案；

将选择的疑问句转化为引导语音并存储；

检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案画面帧和非答案画面帧进行图像预处理，得到答案图片和非答案图片并存储；

根据答案图片和非答案图片制作通用引导动画，视频节目结束后，播放通用引导动画和存储的引导语音。

如上所述的视频节目自动生成互动问答的方法，其中从视频节目中提取视频台词文字，具体包括如下子步骤：

从视频节目中截取每帧视频彩色图像，对每帧视频彩色图像均执行如下处理：

将视频彩色图像转换为灰色图像，并对灰色图像进行降维处理；

对降维后的灰色图像进行小波分解和角点检测，得到小波图像和角点特征图像，结合小波图像和角点特征图像的特征统计，筛选文字区域；

从文字区域中提取视频台词文字，整合成txt文本。

如上所述的视频节目自动生成互动问答的方法，其中从文字区域中提取视频台词文字，具体为：对文字区域运用OTSU算法获得阈值并作二值化处理，再合并二值图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

如上所述的视频节目自动生成互动问答的方法，其中对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案，具体包括：将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择一句陈述句，将其转化为疑问句，并为其匹配答案。

如上所述的视频节目自动生成互动问答的方法，其中将选择的疑问句转化为引导语音，具体包括如下子步骤：

从大量预选汉字语句中获取汉字向量，分别将汉字向量输入语音合成模型中进行训练；

对汉字向量进行编码，得到语言编码特征，利用语言编码特征解码技术对语言编码特征进行解码，获得语言学解码特征；

根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学特征满足语言学特征损失阈值，得到语音合成模块训练后的编码模块；

将选择好的疑问句输入训练好的语音合成模型中，利用其中的编码模块将疑问句转换为引导语音。

本申请还提供一种视频节目自动生成互动问答的装置，包括：

视频台词文字提取模块，用于从播放的视频节目中提取视频台词文字，

互动问答题目提取模块，用于对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案；

语音转换模块，用于将选择的疑问句转化为引导语音并存储；

答案画面帧选定模块，用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案画面帧和非答案画面帧进行图像预处理，得到答案图片和非答案图片并存储；

互动问答画面制作模块，用于根据答案图片和非答案图片制作通用引导动画；

互动问答环节播放模块，用于在视频节目结束后，播放通用引导动画和存储的引导语音。

如上所述的视频节目自动生成互动问答的装置，其中所述视频台词文字提取模块，具体用于从视频节目中截取每帧视频彩色图像，将视频彩色图像转换为灰色图像，并对灰色图像进行降维处理；对降维后的灰色图像进行小波分解和角点检测，得到小波图像和角点特征图像，结合小波图像和角点特征图像的特征统计，筛选文字区域；从文字区域中提取视频台词文字，整合成txt文本。

如上所述的视频节目自动生成互动问答的装置，其中所述视频台词文字提取模块，具体用于对文字区域运用OTSU算法获得阈值并作二值化处理，再合并二值图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

如上所述的视频节目自动生成互动问答的装置，其中所述互动问答题目提取模块，具体用于将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择一句陈述句，将其转化为疑问句，并为其匹配答案。

如上所述的视频节目自动生成互动问答的装置，其中所述语音转换模块，具体用于训练一个语音合成模型：从大量预选汉字语句中获取汉字向量，分别将汉字向量输入语音合成模型中进行训练，对汉字向量进行编码，得到语言编码特征，利用语言编码特征解码技术对语言编码特征进行解码，获得语言学解码特征，根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学特征满足语言学特征损失阈值，得到语音合成模块训练后的编码模块；运用语音合成技术输出语音：将选择好的疑问句输入训练好的语音合成模型中，利用其中的编码模块将疑问句转换为引导语音。

本申请实现的有益效果如下：采用本申请的视频节目自动生成互动问答的方法，能够实现在高数量视频节目时为每个视频提炼问答，自动嵌套入动画模板中，形成在每个视频后都有互动问答环节，节省了大量的人工操作，大大提高视频识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的视频节目自动生成互动问答的方法流程图；

图2是本申请实施例一提供的从视频节目中提取疑问句的具体方法流程图；

图3是本申请实施例二提供的视频节目自动生成互动问答的装置图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本申请实施例一提供一种视频节目自动生成互动问答的方法，如图1所示，具体包括如下步骤：

步骤110、从播放的视频节目中提取视频台词文字，对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案；

本申请实施例中，从播放的视频节目（一般视频设置为5分钟左右）中提取视频台词文字，将视频台词文字整合成txt文本，对txt文本进行自然语言处理，如图2所示，具体包括如下子步骤：

步骤210、从视频节目中截取多帧视频彩色图像；

其中，从视频节目中截取每帧视频图像时，还包括存储视频图像画面帧与其中文字的对应关系。

步骤220、将视频彩色图像转换为灰色图像，并对灰色图像进行降维处理；

可选地，设定图像宽度的阈值，若图像宽度大于阈值宽度，则作降维处理，若图像宽度不大于阈值宽度，则不作处理，对图像根据宽度进行降维处理，使得图像分辨率调节到预设范围内，以获得更高的鲁棒性。

步骤230、对降维后的灰色图像进行小波分解和角点检测，得到小波图像和角点特征图像，结合小波图像和角点特征图像的特征统计，筛选文字区域；

本申请实施例中，结合角点特征图像和小波图像的统计特征作为区分文字和非文字区域的特性，具体地，对降维后的图像应用二维小波一级变换，分解结果为低频子带、水平方向高频子带、垂直方向高频子带和对角线方向高频子带，综合小波图像的三个高频子带得到小波图像，确定小波图像的具体公式如下：

式（1）

其中，L（x，y）为小波图像，sp为水平方向高频子带，cz为垂直方向高频子带，dj为对角线方向高频子带；

然后，使用下述公式进行角点检测，得到角点特征图像：

式（2）

其中，

I_X，I_Y分别为降维后的灰色图像在x和y方向的边缘幅值；

具体地，采用如下公式结合小波图像和角点特征图像的特征统计，筛选文字区域：

式（3）

其中，

为筛选出的文字区域，

为每幅视频帧得到的小波图像，

为每幅视频帧得到的交点特征图像，n为截取的视频帧的数量。

步骤240、从文字区域中提取视频台词文字，整合成txt文本；

对文字区域运用OTSU算法获得阈值并作二值化处理，再合并二值图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

步骤250、利用自然语言处理技术对txt文本进行词性分析、词性标注，从中提取疑问句和对应的答案；

自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，先将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案；

具体地，从非结构化文本中获取非结构化数据，然后对非结构化数据进行序列化（如采用Base编码方法进行序列化），得到序列化数据，将序列化数据和非结构化数据的多音信息进行拼接，得到目标数据，将多个目标数据存储至目标结构化数据文件中，得到结构化数据；

优选地，从结构化数据中获取的是有答案的疑问句，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择依据陈述句，将其转化为疑问句，并为其匹配答案。

返回参见图1，步骤120、将选择的疑问句转化为引导语音并存储；

本申请实施例中，运用语音合成技术将计算机产生的或外部输入的文字信息转换为人类可以听懂的语言输出，具体包括：

步骤120-1、从大量预选汉字语句中获取汉字向量，分别将汉字向量输入语音合成模型中进行训练；

步骤120-2、对汉字向量进行编码，得到语言编码特征，利用语言编码特征解码技术对语言编码特征进行解码，获得语言学解码特征；

步骤120-3、根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学特征满足语言学特征损失阈值，得到语音合成模块训练后的编码模块；

步骤120-4、将选择好的疑问句输入训练好的语音合成模型中，利用其中的编码模块将疑问句转换为引导语音；

优选地，将疑问句转换为mp3格式的语音。

步骤130、检索答案文字所在的画面帧和非答案文字所在的随机画面帧，采用预设图像处理技术得到答案图片和非答案图片并存储；

本申请实施例中，检索答案文字画面帧和非答案文字画面帧，并对图像进行处理，具体包括如下子步骤：

步骤130-1、在选择好疑问句对应的答案之后，运用文字定位追溯技术从该对应关系中检索到该答案文字所在的画面帧；

步骤130-2、随机检索非答案文字所在的画面帧；

步骤130-3、截取答案文字画面帧和非答案文字画面帧，并裁剪到预设图像尺寸，得到对应的答案图片和非答案图片；

可选地，根据实际设定选择预设数量的非答案画面帧，例如，检索一个答案文字画面帧以及随机选取一个非答案文字画面帧，对画面进行图像预处理之后保存为两张jpg格式的图片。

步骤140、根据答案图片和非答案图片制作通用引导动画，视频节目结束后，播放通用引导动画和引导语音，智能生成互动问答环节。

本申请实施例中，生成互动问答环节具体包括如下子步骤：

步骤140-1、将答案图片和非答案图片自动嵌套入预设动画模板中，生成通用引导动画；

步骤140-2、在视频节目结束之后，播放通用引导动画及其引导语音；

步骤140-3、采集参与者的答案语音，运用语音识别技术确定参与者回答的答案是否正确，如果是，则播放回答正确的预选语音提示，并剔除不匹配的问答项显示正确答案图片，否则播放回答错误的预选语音提示。

实施例二

本申请实施例二提供一种视频节目自动生成互动问答的装置，如图3所示，包括视频台词文字提取模块310、互动问答题目提取模块320、语音转换模块330、答案画面帧选定模块340、互动问答画面制作模块350和互动问答环节播放模块360；

视频台词文字提取模块310，用于从播放的视频节目中提取视频台词文字，

互动问答题目提取模块320，用于对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案；

语音转换模块330，用于将选择的疑问句转化为引导语音并存储；

答案画面帧选定模块340，用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案画面帧和非答案画面帧进行图像预处理，得到答案图片和非答案图片并存储；

互动问答画面制作模块350，用于根据答案图片和非答案图片制作通用引导动画；

互动问答环节播放模块360，用于在视频节目结束后，播放通用引导动画和存储的引导语音。

作为一个可选实施例，视频台词文字提取模块310，具体用于从视频节目中截取每帧视频彩色图像，将视频彩色图像转换为灰色图像，并对灰色图像进行降维处理；对降维后的灰色图像进行小波分解和角点检测，得到小波图像和角点特征图像，结合小波图像和角点特征图像的特征统计，筛选文字区域；从文字区域中提取视频台词文字，整合成txt文本。

另外，视频台词文字提取模块310中从文字区域中提取视频台词文字，具体用于对文字区域运用OTSU算法获得阈值并作二值化处理，再合并二值图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

作为另一个可选实施例，互动问答题目提取模块320，具体用于将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择依据陈述句，将其转化为疑问句，并为其匹配答案。

本申请实施例中，语音转换模块330，具体用于训练一个语音合成模型：从大量预选汉字语句中获取汉字向量，分别将汉字向量输入语音合成模型中进行训练，对汉字向量进行编码，得到语言编码特征，利用语言编码特征解码技术对语言编码特征进行解码，获得语言学解码特征，根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学特征满足语言学特征损失阈值，得到语音合成模块训练后的编码模块；运用语音合成技术输出语音：将选择好的疑问句输入训练好的语音合成模型中，利用其中的编码模块将疑问句转换为引导语音。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频节目自动生成互动问答的方法，其特征在于，包括如下步骤：

将选择的疑问句转化为引导语音；

检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案文字所在的画面帧和非答案文字所在的随机画面帧进行图像预处理，得到答案图片和非答案图片；

根据答案图片和非答案图片制作通用引导动画，视频节目结束后，播放通用引导动画和引导语音。

2.如权利要求1所述的视频节目自动生成互动问答的方法，其特征在于，从视频节目中提取视频台词文字，具体包括如下子步骤：

从文字区域中提取视频台词文字，整合成txt文本。

3.如权利要求2所述的视频节目自动生成互动问答的方法，其特征在于，从文字区域中提取视频台词文字，具体为：对文字区域运用OTSU算法获得阈值并作二值化处理，再合并经二值化处理后得到的图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

4.如权利要求1所述的视频节目自动生成互动问答的方法，其特征在于，对视频台词文字进行自然语言处理，从中提取疑问句及其对应的答案，具体包括：将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择一句陈述句，将其转化为疑问句，并为其匹配答案。

5.如权利要求1所述的视频节目自动生成互动问答的方法，其特征在于，将选择的疑问句转化为引导语音，具体包括如下子步骤：

根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学解码特征满足语言学解码特征损失阈值，得到语音合成模块训练后的编码模块；

6.一种视频节目自动生成互动问答的装置，其特征在于，包括：

答案画面帧选定模块，用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧，对选定的答案文字所在的画面帧和非答案文字所在的随机画面帧进行图像预处理，得到答案图片和非答案图片并存储；

7.如权利要求6所述的视频节目自动生成互动问答的装置，其特征在于，所述视频台词文字提取模块，具体用于从视频节目中截取每帧视频彩色图像，将视频彩色图像转换为灰色图像，并对灰色图像进行降维处理；对降维后的灰色图像进行小波分解和角点检测，得到小波图像和角点特征图像，结合小波图像和角点特征图像的特征统计，筛选文字区域；从文字区域中提取视频台词文字，整合成txt文本。

8.如权利要求7所述的视频节目自动生成互动问答的装置，其特征在于，所述视频台词文字提取模块，具体用于对文字区域运用OTSU算法获得阈值并作二值化处理，再合并经二值化处理后得到的图像，仅保留文字像素的交集，即候选文字像素区域，将候选文字像素区域的灰度值利用聚类算法进行分类，按照文字像素为1，边缘及干扰像素为0，得到最终提取的视频台词文字。

9.如权利要求6所述的视频节目自动生成互动问答的装置，其特征在于，所述互动问答题目提取模块，具体用于将非结构化文本转换为结构化数据，然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案，若包括多个疑问句且都有答案，则选择频率最高的疑问句，若频率相等，则随机选取一个疑问句，若结构化数据中没有疑问句，则随机选择一句陈述句，将其转化为疑问句，并为其匹配答案。

10.如权利要求6所述的视频节目自动生成互动问答的装置，其特征在于，所述语音转换模块，具体用于训练一个语音合成模型：从大量预选汉字语句中获取汉字向量，分别将汉字向量输入语音合成模型中进行训练，对汉字向量进行编码，得到语言编码特征，利用语言编码特征解码技术对语言编码特征进行解码，获得语言学解码特征，根据预设的参照语音学解码特征调整语音合成模型中的模型参数，直至语言学解码特征满足语言学解码特征损失阈值，得到语音合成模块训练后的编码模块；运用语音合成技术输出语音：将选择好的疑问句输入训练好的语音合成模型中，利用其中的编码模块将疑问句转换为引导语音。