CN110730389B - 一种视频节目自动生成互动问答的方法及装置 - Google Patents

一种视频节目自动生成互动问答的方法及装置 Download PDF

Info

Publication number
CN110730389B
CN110730389B CN201911314577.9A CN201911314577A CN110730389B CN 110730389 B CN110730389 B CN 110730389B CN 201911314577 A CN201911314577 A CN 201911314577A CN 110730389 B CN110730389 B CN 110730389B
Authority
CN
China
Prior art keywords
video
answer
question
answers
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911314577.9A
Other languages
English (en)
Other versions
CN110730389A (zh
Inventor
李小波
贾凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengxin Oriental Culture Ltd By Share Ltd
Original Assignee
Hengxin Oriental Culture Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengxin Oriental Culture Ltd By Share Ltd filed Critical Hengxin Oriental Culture Ltd By Share Ltd
Priority to CN201911314577.9A priority Critical patent/CN110730389B/zh
Publication of CN110730389A publication Critical patent/CN110730389A/zh
Application granted granted Critical
Publication of CN110730389B publication Critical patent/CN110730389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4758End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for providing answers, e.g. voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开一种视频节目自动生成互动问答的方法及装置。所述方法包括从播放的视频节目中提取视频台词文字,对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;将选择的疑问句转化为引导语音;检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案画面帧和非答案画面帧进行图像预处理,得到答案图片和非答案图片;根据答案图片和非答案图片制作通用引导动画,视频节目结束后,播放通用引导动画和引导语音。采用本申请的视频节目自动生成互动问答的方法,能够实现在高数量视频节目时为每个视频提炼问答,自动嵌套入动画模板中,形成在每个视频后都有互动问答环节,节省了大量的人工操作,大大提高视频识别率。

Description

一种视频节目自动生成互动问答的方法及装置
技术领域
本申请涉及视频互动问答领域,尤其涉及一种视频节目自动生成互动问答的方法及装置。
背景技术
目前,在计算机视觉和多媒体分析领域中,视频分析是一项非常重要且极具挑战性的任务。视频问答作为视频分析的一部分,近年来引起了大量的关注。随着视频数据的急速增长,理解视频内容并根据视频内容提出与视频相关的问题,对视频问答方法的研究非常必要。
视频问答是指对给定的视频以及针对该视频提出的问题。现如今大多的视频问答都是通过出题者根据视频内容人工制作视频形式的知识点总结、问答环节,每个视频节目都需要单独制作并上传,制作和维护成本非常高,而且互动效果很差。
发明内容
本申请提供了一种视频节目自动生成互动问答的方法,包括如下步骤:
从播放的视频节目中提取视频台词文字,对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
将选择的疑问句转化为引导语音并存储;
检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案画面帧和非答案画面帧进行图像预处理,得到答案图片和非答案图片并存储;
根据答案图片和非答案图片制作通用引导动画,视频节目结束后,播放通用引导动画和存储的引导语音。
如上所述的视频节目自动生成互动问答的方法,其中从视频节目中提取视频台词文字,具体包括如下子步骤:
从视频节目中截取每帧视频彩色图像,对每帧视频彩色图像均执行如下处理:
将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;
对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;
从文字区域中提取视频台词文字,整合成txt文本。
如上所述的视频节目自动生成互动问答的方法,其中从文字区域中提取视频台词文字,具体为:对文字区域运用OTSU算法获得阈值并作二值化处理,再合并二值图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
如上所述的视频节目自动生成互动问答的方法,其中对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案,具体包括:将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择一句陈述句,将其转化为疑问句,并为其匹配答案。
如上所述的视频节目自动生成互动问答的方法,其中将选择的疑问句转化为引导语音,具体包括如下子步骤:
从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练;
对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征;
根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学特征满足语言学特征损失阈值,得到语音合成模块训练后的编码模块;
将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音。
本申请还提供一种视频节目自动生成互动问答的装置,包括:
视频台词文字提取模块,用于从播放的视频节目中提取视频台词文字,
互动问答题目提取模块,用于对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
语音转换模块,用于将选择的疑问句转化为引导语音并存储;
答案画面帧选定模块,用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案画面帧和非答案画面帧进行图像预处理,得到答案图片和非答案图片并存储;
互动问答画面制作模块,用于根据答案图片和非答案图片制作通用引导动画;
互动问答环节播放模块,用于在视频节目结束后,播放通用引导动画和存储的引导语音。
如上所述的视频节目自动生成互动问答的装置,其中所述视频台词文字提取模块,具体用于从视频节目中截取每帧视频彩色图像,将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;从文字区域中提取视频台词文字,整合成txt文本。
如上所述的视频节目自动生成互动问答的装置,其中所述视频台词文字提取模块,具体用于对文字区域运用OTSU算法获得阈值并作二值化处理,再合并二值图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
如上所述的视频节目自动生成互动问答的装置,其中所述互动问答题目提取模块,具体用于将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择一句陈述句,将其转化为疑问句,并为其匹配答案。
如上所述的视频节目自动生成互动问答的装置,其中所述语音转换模块,具体用于训练一个语音合成模型:从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练,对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征,根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学特征满足语言学特征损失阈值,得到语音合成模块训练后的编码模块;运用语音合成技术输出语音:将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音。
本申请实现的有益效果如下:采用本申请的视频节目自动生成互动问答的方法,能够实现在高数量视频节目时为每个视频提炼问答,自动嵌套入动画模板中,形成在每个视频后都有互动问答环节,节省了大量的人工操作,大大提高视频识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的视频节目自动生成互动问答的方法流程图;
图2是本申请实施例一提供的从视频节目中提取疑问句的具体方法流程图;
图3是本申请实施例二提供的视频节目自动生成互动问答的装置图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本申请实施例一提供一种视频节目自动生成互动问答的方法,如图1所示,具体包括如下步骤:
步骤110、从播放的视频节目中提取视频台词文字,对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
本申请实施例中,从播放的视频节目(一般视频设置为5分钟左右)中提取视频台词文字,将视频台词文字整合成txt文本,对txt文本进行自然语言处理,如图2所示,具体包括如下子步骤:
步骤210、从视频节目中截取多帧视频彩色图像;
其中,从视频节目中截取每帧视频图像时,还包括存储视频图像画面帧与其中文字的对应关系。
步骤220、将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;
可选地,设定图像宽度的阈值,若图像宽度大于阈值宽度,则作降维处理,若图像宽度不大于阈值宽度,则不作处理,对图像根据宽度进行降维处理,使得图像分辨率调节到预设范围内,以获得更高的鲁棒性。
步骤230、对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;
本申请实施例中,结合角点特征图像和小波图像的统计特征作为区分文字和非文字区域的特性,具体地,对降维后的图像应用二维小波一级变换,分解结果为低频子带、水平方向高频子带、垂直方向高频子带和对角线方向高频子带,综合小波图像的三个高频子带得到小波图像,确定小波图像的具体公式如下:
Figure 415432DEST_PATH_IMAGE001
式(1)
其中,L(x,y)为小波图像,sp为水平方向高频子带,cz为垂直方向高频子带,dj为对角线方向高频子带;
然后,使用下述公式进行角点检测,得到角点特征图像:
Figure 801414DEST_PATH_IMAGE002
式(2)
其中,
Figure 784414DEST_PATH_IMAGE003
IX,IY分别为降维后的灰色图像在x和y方向的边缘幅值;
具体地,采用如下公式结合小波图像和角点特征图像的特征统计,筛选文字区域:
Figure 648464DEST_PATH_IMAGE004
式(3)
其中,
Figure 180946DEST_PATH_IMAGE005
为筛选出的文字区域,
Figure 268988DEST_PATH_IMAGE006
为每幅视频帧得到的小波图像,
Figure 739283DEST_PATH_IMAGE007
为每幅视频帧得到的交点特征图像,n为截取的视频帧的数量。
步骤240、从文字区域中提取视频台词文字,整合成txt文本;
对文字区域运用OTSU算法获得阈值并作二值化处理,再合并二值图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
步骤250、利用自然语言处理技术对txt文本进行词性分析、词性标注,从中提取疑问句和对应的答案;
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,先将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案;
具体地,从非结构化文本中获取非结构化数据,然后对非结构化数据进行序列化(如采用Base编码方法进行序列化),得到序列化数据,将序列化数据和非结构化数据的多音信息进行拼接,得到目标数据,将多个目标数据存储至目标结构化数据文件中,得到结构化数据;
优选地,从结构化数据中获取的是有答案的疑问句,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择依据陈述句,将其转化为疑问句,并为其匹配答案。
返回参见图1,步骤120、将选择的疑问句转化为引导语音并存储;
本申请实施例中,运用语音合成技术将计算机产生的或外部输入的文字信息转换为人类可以听懂的语言输出,具体包括:
步骤120-1、从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练;
步骤120-2、对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征;
步骤120-3、根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学特征满足语言学特征损失阈值,得到语音合成模块训练后的编码模块;
步骤120-4、将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音;
优选地,将疑问句转换为mp3格式的语音。
步骤130、检索答案文字所在的画面帧和非答案文字所在的随机画面帧,采用预设图像处理技术得到答案图片和非答案图片并存储;
本申请实施例中,检索答案文字画面帧和非答案文字画面帧,并对图像进行处理,具体包括如下子步骤:
步骤130-1、在选择好疑问句对应的答案之后,运用文字定位追溯技术从该对应关系中检索到该答案文字所在的画面帧;
步骤130-2、随机检索非答案文字所在的画面帧;
步骤130-3、截取答案文字画面帧和非答案文字画面帧,并裁剪到预设图像尺寸,得到对应的答案图片和非答案图片;
可选地,根据实际设定选择预设数量的非答案画面帧,例如,检索一个答案文字画面帧以及随机选取一个非答案文字画面帧,对画面进行图像预处理之后保存为两张jpg格式的图片。
步骤140、根据答案图片和非答案图片制作通用引导动画,视频节目结束后,播放通用引导动画和引导语音,智能生成互动问答环节。
本申请实施例中,生成互动问答环节具体包括如下子步骤:
步骤140-1、将答案图片和非答案图片自动嵌套入预设动画模板中,生成通用引导动画;
步骤140-2、在视频节目结束之后,播放通用引导动画及其引导语音;
步骤140-3、采集参与者的答案语音,运用语音识别技术确定参与者回答的答案是否正确,如果是,则播放回答正确的预选语音提示,并剔除不匹配的问答项显示正确答案图片,否则播放回答错误的预选语音提示。
实施例二
本申请实施例二提供一种视频节目自动生成互动问答的装置,如图3所示,包括视频台词文字提取模块310、互动问答题目提取模块320、语音转换模块330、答案画面帧选定模块340、互动问答画面制作模块350和互动问答环节播放模块360;
视频台词文字提取模块310,用于从播放的视频节目中提取视频台词文字,
互动问答题目提取模块320,用于对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
语音转换模块330,用于将选择的疑问句转化为引导语音并存储;
答案画面帧选定模块340,用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案画面帧和非答案画面帧进行图像预处理,得到答案图片和非答案图片并存储;
互动问答画面制作模块350,用于根据答案图片和非答案图片制作通用引导动画;
互动问答环节播放模块360,用于在视频节目结束后,播放通用引导动画和存储的引导语音。
作为一个可选实施例,视频台词文字提取模块310,具体用于从视频节目中截取每帧视频彩色图像,将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;从文字区域中提取视频台词文字,整合成txt文本。
另外,视频台词文字提取模块310中从文字区域中提取视频台词文字,具体用于对文字区域运用OTSU算法获得阈值并作二值化处理,再合并二值图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
作为另一个可选实施例,互动问答题目提取模块320,具体用于将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择依据陈述句,将其转化为疑问句,并为其匹配答案。
本申请实施例中,语音转换模块330,具体用于训练一个语音合成模型:从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练,对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征,根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学特征满足语言学特征损失阈值,得到语音合成模块训练后的编码模块;运用语音合成技术输出语音:将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种视频节目自动生成互动问答的方法,其特征在于,包括如下步骤:
从播放的视频节目中提取视频台词文字,对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
将选择的疑问句转化为引导语音;
检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案文字所在的画面帧和非答案文字所在的随机画面帧进行图像预处理,得到答案图片和非答案图片;
根据答案图片和非答案图片制作通用引导动画,视频节目结束后,播放通用引导动画和引导语音。
2.如权利要求1所述的视频节目自动生成互动问答的方法,其特征在于,从视频节目中提取视频台词文字,具体包括如下子步骤:
从视频节目中截取每帧视频彩色图像,对每帧视频彩色图像均执行如下处理:
将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;
对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;
从文字区域中提取视频台词文字,整合成txt文本。
3.如权利要求2所述的视频节目自动生成互动问答的方法,其特征在于,从文字区域中提取视频台词文字,具体为:对文字区域运用OTSU算法获得阈值并作二值化处理,再合并经二值化处理后得到的图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
4.如权利要求1所述的视频节目自动生成互动问答的方法,其特征在于,对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案,具体包括:将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择一句陈述句,将其转化为疑问句,并为其匹配答案。
5.如权利要求1所述的视频节目自动生成互动问答的方法,其特征在于,将选择的疑问句转化为引导语音,具体包括如下子步骤:
从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练;
对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征;
根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学解码特征满足语言学解码特征损失阈值,得到语音合成模块训练后的编码模块;
将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音。
6.一种视频节目自动生成互动问答的装置,其特征在于,包括:
视频台词文字提取模块,用于从播放的视频节目中提取视频台词文字,
互动问答题目提取模块,用于对视频台词文字进行自然语言处理,从中提取疑问句及其对应的答案;
语音转换模块,用于将选择的疑问句转化为引导语音并存储;
答案画面帧选定模块,用于检索并选定答案文字所在的画面帧和非答案文字所在的随机画面帧,对选定的答案文字所在的画面帧和非答案文字所在的随机画面帧进行图像预处理,得到答案图片和非答案图片并存储;
互动问答画面制作模块,用于根据答案图片和非答案图片制作通用引导动画;
互动问答环节播放模块,用于在视频节目结束后,播放通用引导动画和存储的引导语音。
7.如权利要求6所述的视频节目自动生成互动问答的装置,其特征在于,所述视频台词文字提取模块,具体用于从视频节目中截取每帧视频彩色图像,将视频彩色图像转换为灰色图像,并对灰色图像进行降维处理;对降维后的灰色图像进行小波分解和角点检测,得到小波图像和角点特征图像,结合小波图像和角点特征图像的特征统计,筛选文字区域;从文字区域中提取视频台词文字,整合成txt文本。
8.如权利要求7所述的视频节目自动生成互动问答的装置,其特征在于,所述视频台词文字提取模块,具体用于对文字区域运用OTSU算法获得阈值并作二值化处理,再合并经二值化处理后得到的图像,仅保留文字像素的交集,即候选文字像素区域,将候选文字像素区域的灰度值利用聚类算法进行分类,按照文字像素为1,边缘及干扰像素为0,得到最终提取的视频台词文字。
9.如权利要求6所述的视频节目自动生成互动问答的装置,其特征在于,所述互动问答题目提取模块,具体用于将非结构化文本转换为结构化数据,然后应用自然语言处理技术从结构化数据中提取疑问句和对应的答案,若包括多个疑问句且都有答案,则选择频率最高的疑问句,若频率相等,则随机选取一个疑问句,若结构化数据中没有疑问句,则随机选择一句陈述句,将其转化为疑问句,并为其匹配答案。
10.如权利要求6所述的视频节目自动生成互动问答的装置,其特征在于,所述语音转换模块,具体用于训练一个语音合成模型:从大量预选汉字语句中获取汉字向量,分别将汉字向量输入语音合成模型中进行训练,对汉字向量进行编码,得到语言编码特征,利用语言编码特征解码技术对语言编码特征进行解码,获得语言学解码特征,根据预设的参照语音学解码特征调整语音合成模型中的模型参数,直至语言学解码特征满足语言学解码特征损失阈值,得到语音合成模块训练后的编码模块;运用语音合成技术输出语音:将选择好的疑问句输入训练好的语音合成模型中,利用其中的编码模块将疑问句转换为引导语音。
CN201911314577.9A 2019-12-19 2019-12-19 一种视频节目自动生成互动问答的方法及装置 Active CN110730389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314577.9A CN110730389B (zh) 2019-12-19 2019-12-19 一种视频节目自动生成互动问答的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314577.9A CN110730389B (zh) 2019-12-19 2019-12-19 一种视频节目自动生成互动问答的方法及装置

Publications (2)

Publication Number Publication Date
CN110730389A CN110730389A (zh) 2020-01-24
CN110730389B true CN110730389B (zh) 2020-03-31

Family

ID=69226463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314577.9A Active CN110730389B (zh) 2019-12-19 2019-12-19 一种视频节目自动生成互动问答的方法及装置

Country Status (1)

Country Link
CN (1) CN110730389B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800200A (zh) * 2021-01-26 2021-05-14 广州欢网科技有限责任公司 节目题目编制方法、装置及设备
CN114627730A (zh) * 2022-03-31 2022-06-14 北京科技大学 一种盲文电子书

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN106375828A (zh) * 2016-08-30 2017-02-01 胡峰 一种基于人工智能的人机互动方法
US10528623B2 (en) * 2017-06-09 2020-01-07 Fuji Xerox Co., Ltd. Systems and methods for content curation in video based communications
CN108877786A (zh) * 2018-06-29 2018-11-23 恒信东方文化股份有限公司 指令识别方法
CN109858427A (zh) * 2019-01-24 2019-06-07 广州大学 一种语料提取方法、装置及终端设备
CN110222168B (zh) * 2019-05-20 2023-08-18 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN110442747B (zh) * 2019-07-09 2023-10-20 中山大学 一种基于关键词的视频摘要生成方法

Also Published As

Publication number Publication date
CN110730389A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
US20140257995A1 (en) Method, device, and system for playing video advertisement
CN109766759A (zh) 情绪识别方法及相关产品
US20210397266A1 (en) Systems and methods for language driven gesture understanding
US20180232602A1 (en) Image recognition with filtering of image classification output distribution
CN110730389B (zh) 一种视频节目自动生成互动问答的方法及装置
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
Pacha et al. Towards self-learning optical music recognition
CN111415537A (zh) 一种基于符号标注的中小学生听词系统
CN109064389A (zh) 一种手绘线条画生成现实感图像的深度学习方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN109766419A (zh) 基于语音分析的产品推荐方法、装置、设备及存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN115936944A (zh) 一种基于人工智能的虚拟教学管理方法及装置
CN109522865A (zh) 一种基于深度神经网络的特征加权融合人脸识别方法
CN111862061A (zh) 图片美学质量的评估方法、系统、设备和介质
CN113609330B (zh) 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN112232166B (zh) 基于人工智能的讲师动态评价方法、装置、计算机设备
CN114862636A (zh) 一种金融智能授课与隐私保护方法
Snoussi et al. Arabic document segmentation on a smartphone towards Big Data HAJJ rules extraction
US11442981B2 (en) Information providing device, information providing method, and recording medium with combined images corresponding to selected genre
CN114638988A (zh) 一种基于不同呈现方式的教学视频自动化分类方法及系统
Rajesh et al. Digitized exam paper evaluation
CN114911910A (zh) 问答系统、方法、电子设备及存储介质
CN112800177A (zh) 基于复杂数据类型的faq知识库自动生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant