CN112102847A - 一种音频和幻灯片内容对齐方法 - Google Patents

一种音频和幻灯片内容对齐方法 Download PDF

Info

Publication number
CN112102847A
CN112102847A CN202010939686.6A CN202010939686A CN112102847A CN 112102847 A CN112102847 A CN 112102847A CN 202010939686 A CN202010939686 A CN 202010939686A CN 112102847 A CN112102847 A CN 112102847A
Authority
CN
China
Prior art keywords
slide
audio
data
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010939686.6A
Other languages
English (en)
Other versions
CN112102847B (zh
Inventor
吕建成
邬鸿杰
王坚
王勇
张小菲
叶庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010939686.6A priority Critical patent/CN112102847B/zh
Publication of CN112102847A publication Critical patent/CN112102847A/zh
Application granted granted Critical
Publication of CN112102847B publication Critical patent/CN112102847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种音频和幻灯片内容对齐方法,包括S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。

Description

一种音频和幻灯片内容对齐方法
技术领域
本发明属于幻灯片的技术领域,具体涉及一种音频和幻灯片内容对齐方法。
背景技术
幻灯片是在办公软件上创建的演示文稿,允许用户为演示文稿添加文字、音频、视频等内容。它被认为是一种多媒体技术,是现代社会非常重要的内容共享和展示工具。
现代社会的工作学习中,使用幻灯片进行内容分享与展示的频率日益增加,幻灯片展示也成为了交流和展示的重要途径。在互联网视频网站上各类演讲视频和上课视频层出不穷,数量庞大。由于目前没有有效的将多个模态信息的融合对齐方法,导致目前没有根据演讲者音频和幻灯片内容对齐的方法,导致用户观看视频时,视频内容没有根据幻灯片进行分段,内容结构不够简洁明了,想要快速拖动视频时不够便捷。
目前,市面上还没有出现针对于幻灯片和演讲视频或语音的对齐方法。其他尚存多模态对齐方法只是单一的多模态数据的对齐或者融合,不能适应幻灯片数据的特点以及演讲的内容和幻灯片数据的对应关系,导致各类网站对演讲视频或课堂视频进行展示的时候,不能按照幻灯片内容对演讲视频或语音的时序进行分割。
发明内容
本发明的目的在于针对现有技术中的上述不足,提供一种音频和幻灯片内容对齐方法,以解决现有幻灯片展示效率的不足,不能自动根据演讲内容对齐幻灯片的问题。
为达到上述目的,本发明采取的技术方案是:
一种音频和幻灯片内容对齐方法,其包括:
S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;
S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;
S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;
S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;
S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;
S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。
优选地,S2中根据幻灯片翻页时间对演讲视频进行切片并转换为音频,包括:
人工将视频进行切片,保留视频中的音频数据,使得幻灯片上的每一页内容对应到切片后的一段音频。
优选地,S3中对切片后的音频数据进行预处理,包括:
对获取的音频数据进行归一化处理:
Figure BDA0002673196880000021
其中,
Figure BDA0002673196880000022
是归一化处理之后的音频数据,xw是处理前的音频数据,μ为音频数据的平均值,σ为音频数据的标准差。
优选地,S3中提取幻灯片信息,包括:
若幻灯片数据为文字,则直接记录文字信息;
若幻灯片数据为图像,则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果,并记录文字说明和OCR识别结果;
若幻灯片数据为非文字或图像的其他数据,则不作处理。
优选地,S4中将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集,包括:
将处理后的音频数据和处理后的幻灯片数据进行配对,每一页的幻灯片数据对应一段音频录音,幻灯片数据的总数和音频数据总数相等;将配对的数据的80%作为训练集,剩下的20%作为验证集。
优选地,S5中构建音频幻灯片对齐神经网络,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型,包括:
S5.1、将训练集乱序;
S5.2、构建神经网络模型,将训练集中处理后的音频数据输入卷积神经网络,通过卷积、池化、全连接,音频中的每一个字得到一个1000维的向量,并记录为va
va通过解码器得到向量的词义表示da,da为4334维向量,4334是字典大小,每一维的值为字的概率;解码器是一个1000×4334维的矩阵,记录下解码器的运算过程中的权值wd;其中,解码器得到da为:
da=wd·va
S5.3、根据one-hot编码将每个文字转换为4334维的词向量
Figure BDA0002673196880000031
记解码器权值wd的转置为
Figure BDA0002673196880000032
即将每个字转换为与字音相同大小的1000维向量vw
Figure BDA0002673196880000033
S5.4、将va、vw分别输入LSTM循环神经网络,转换为相同长度的表示;
S5.5、通过反向传播算法优化损失函数,调整神经网络的参数,得到可判断语音和幻灯片概率的神经网络模型,其中,损失函数为:
l(y,v)=log(1+exp(-yv)) y∈{+1,-1}
其中,
Figure BDA0002673196880000041
表示音频输出矩阵ha和幻灯片文字输出矩阵hw的相似程度。y为音频和幻灯片是否对应的标志,对应则y=+1,不对应则y=-1;
S5.6、采用验证集对神经网络模型进行测试,输入音频、幻灯片,输出语音的时间划分节点;
S5.7、采用验证集对神经网络模型进行测试以及参数微调,确定用于音频和幻灯片数据对齐的神经网络模型。
优选地,S5.4中将va、vw分别输入LSTM循环神经网络,转换为相同长度的表示,包括:
it=σ(Wi·[ht-1,vt]+bi)
ft=σ(Wf·[ht-1,vt]+bf)
Figure BDA0002673196880000042
ot=σ(Wo·[ht-1,vt]+bo)
Figure BDA0002673196880000043
ha=ot*Tanh(Ct)
其中,ht-1为上一字的隐状态,it、ft
Figure BDA0002673196880000044
ot、Ct分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元,Wi、Wf、WC、Wo为输入门、遗忘门、候选单元、输出门的权重矩阵,bi、bf、bC、bo为输入门、遗忘门、候选单元、输出门的偏置矩阵,σ为sigmoid函数。
优选地,S5.6中采用验证集对神经网络模型进行测试,输入音频、幻灯片,输出语音的时间划分节点,包括:
输入为音频,幻灯片,输出为语音的时间划分节点;
假设音频向量为X=[X1,X2,X3,...,Xn},记为G={1,2,3,...,n},Xi表示每一个单位长度上的音频;
输入幻灯片数据处理之后为P={P1,P2,P3,...,Pk},pi表示每一页幻灯片数据;
用b(n,k)表示将X的n段音频分为k段:
G1={i1,i1+1,i1+2,…,i2-1}
G2={i2,i2+1,i2+2,…,i3-1)
.....................................................
Gk={ik,ik+1,ik+2,...,n}
满足:1=i1<i2<…<ik<n
对音频基于幻灯片内容进行最优分割,满足:
Figure BDA0002673196880000051
其中L[b(n,k)]表示对将n段音频分为k段的最优划分,F表示对数据进行预处理并输入神经网络运算;
对语音进行划分的递推公式为:
Figure BDA0002673196880000052
Figure BDA0002673196880000053
若要找到1至n的音频对应k个幻灯片的最优分割,则需建立在1到j-1(k≤j≤n)的音频(X1,X2,...,Xj)对应为k-1个幻灯片的最优分割基础上;
其中,L[b(n,2)]表示对X向量的n个音频划分为2段的最优划分,L[b(j-1,k-1)]表示对X向量的j-1个音频划分为k-1段的最优划分,Gj,n表示{Xj,Xj+1,Xj+2,…,Xn};
递推公式依次返回推理的分割节点Xj,即可根据节点Xj占所有字向量的比例计算出分割时间点。
本发明提供的音频和幻灯片内容对齐方法,具有以下有益效果:
本发明将演讲者的语音,幻灯片的文字、图像信息等多种模态的数据输入神经网络模型,实现稳定且高效的内容对齐;且将本发明应用于视频网站的相关视频进行播放时,可根据音频数据和幻灯片进行内容对齐和分段,提升内容的展示效果。
附图说明
图1为本发明音频和幻灯片对齐方法的流程图。
图2为本发明幻灯片数据处理流程。
图3为本发明图像理解网络工作流程。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
根据本申请的一个实施例,参考图1,本方案的音频和幻灯片内容对齐方法,包括:
S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;
S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;
S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;
S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;
S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;
S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。
根据本申请的一个实施例,以下将对上述步骤进行详细说明;
步骤S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗。
步骤S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;
即人工地将视频进行切片,最终只保留视频中的音频数据,使得幻灯片上的每一页内容对应到切片后的一小段音频。
步骤S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据,其具体包括:
预处理具体为对音频进行归一化处理,归一化处理后得到处理后的音频数据,归一化的公式为:
Figure BDA0002673196880000071
其中,
Figure BDA0002673196880000072
是归一化处理之后的音频数据,xw是处理前的音频数据,μ为音频数据的平均值,σ为音频数据的标准差。
提取幻灯片数据的具体步骤为:
参考图2,对于幻灯片中的文字,则直接记录文字信息;
如果是图像,则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果,记录该文字说明和OCR识别结果;
如果是非文字或图像的其他数据,则不作处理。
其中,参考图3,图像理解网络首先将图像I归一化到224×224大小,通过卷积神经网络提取图像I的196个512维特征vp,根据attention注意力计算得到vp释义的加权和αP,由αP,vp可得当前步骤上下文zp
采用LSTM结构模拟图像之间的记忆关系,包括内部隐状态hp,还包含it、ft
Figure BDA0002673196880000081
ot、Ct分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元,共6个状态。zp由LSTM循环神经网络得到图片的内部隐状态hp,hp再通过全连接网络得到图片的文字表示,即图像的文字说明。
其中,zp的计算公式为
Figure BDA0002673196880000082
Figure BDA0002673196880000083
为αp的转置。
hp的计算公式为:
Figure BDA0002673196880000084
hp=ot*Tanh(Ct)
其中,ct表示当前字的储存单元,Ct-1表示上一字的储存单元。it、ft
Figure BDA0002673196880000085
ot、Ct分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元。
步骤S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集,其具体包括:
将处理后的音频数据和处理后的幻灯片数据进行配对,每一页的幻灯片数据对应一段课堂的录音,幻灯片数据的总数和音频数据总数相等。
将配对的数据的80%作为训练集,将剩下的20%作为验证集。
步骤S5,构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型,其具体包括:
步骤S5.1、将训练集乱序。
步骤S5.2、构建神经网络模型,首先将训练集中处理后的音频数据输入卷积神经网络,通过卷积、池化、全连接等过程,音频中的每一个字都会得到一个1000维的向量,记录为va。va再通过解码器得到向量的词义表示da,da为4334维向量,4334是字典大小,每一维的值为该字的概率。解码器是一个1000×4334维的矩阵,记录下解码器的运算过程中的权值wd
其中,解码器得到da为:
da=wd·va
步骤S5.3、处理后的幻灯片数据为幻灯片上的文字和经过图像理解网络的图像的文字说明,均为文字,将每个文字用one-hot编码转换为4334维的词向量
Figure BDA0002673196880000091
将解码器权值wd的转置记为
Figure BDA0002673196880000092
用词向量
Figure BDA0002673196880000093
乘以
Figure BDA0002673196880000094
即可将每个字转换为与字音相同大小的1000维向量vw。即,
Figure BDA0002673196880000095
步骤S5.4、因幻灯片数据中的字的向量vw和对应的音频数据中的字的向量va长度不一,所以将va、vw分别输入同一个LSTM循环神经网络,va、vw可以通过LSTM网络转换为相同长度的表示。
其中,LSTM循环神经网络是基于当前输入xt和上一轮输出ht-1来计算当前输出ht,而且加入了输入门it、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中;遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉;输出门控制当前的输出有多大程度上取决于当前的记忆单元。va、vw经过LSTM网络,会得到相同长度的输出hat和hwt
计算过程为:
it=σ(Wi·[ht-1,vt]+bi)
ft=σ(Wf·[ht-1,vt]+bf)
Figure BDA0002673196880000101
ot=σ(Wo·[ht-1,vt]+bo)
Figure BDA0002673196880000102
ha=ot*Tanh(Ct)
其中,ht-1为上一字的隐状态,it、ft
Figure BDA0002673196880000103
ot、Ct本别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元,Wi、Wf、WC、Wo为输入门、遗忘门、候选单元、输出门的权重矩阵,bi、bf、bC、bo为输入门、遗忘门、候选单元、输出门的偏置矩阵,σ为sigmoid函数。
经过上述计算后得到当前字输入后的隐状态ha,对于hw的计算采用相同原理。
步骤S5.5、将上述步骤搭建好的神经网络进行训练,通过反向传播算法不断优化损失函数,调整所述神经网络的参数,得到能够判断语音和幻灯片对应概率的神经网络模型。
其中,损失函数为:
l(y,v)=log(1+exp(-yv))y∈{+1,-1}
其中,
Figure BDA0002673196880000104
表示音频输出矩阵ha和幻灯片文字输出矩阵hw的相似程度。y为音频和幻灯片是否对应的标志,对应则y=+1,不对应则y=-1。
步骤S5.6、用验证集对网络进行测试,测试时,输入为音频,幻灯片,输出为语音的时间划分节点。假设音频向量为X={X1,X2,X3,...,Xn},记为G={1,2,3,...,n},Xi表示每一个单位长度上的音频。输入幻灯片数据经过处理之后为P={P1,P2,P3,...,Pk},pi表示每一页幻灯片数据。
用用b(n,k)表示将X的n段音频分为k段的一种划分方法。
G1={i1,i1+1,i1+2,…,i2-1}
G2={i2,i2+1,i2+2,…,i3-1)
.....................................................
Gk={ik,ik+1,ik+2,...,n}
满足:1=i1<i2<…<ik<n
想要对音频基于幻灯片内容进行最优分割,应满足:
Figure BDA0002673196880000111
其中,L[b(n,k)]表示对将n段音频分为k段的最优划分方式。F表示对数据进行预处理并输入神经网络运算。
对语音进行划分的递推公式为:
Figure BDA0002673196880000112
Figure BDA0002673196880000113
以上两个递推公式的含义是,如果要找到1到n的音频对应k个幻灯片的最优分割,应当建立在1到j-1(k≤j≤n)的音频(X1,X2,...,Xj)对应为k-1个幻灯片的最优分割基础上。其中L[b(n,2)]表示对X向量的n个音频划分为2段的最优划分,L[b(j-1,k-1)]表示对X向量的j-1个音频划分为k-1段的最优划分,Gj,n表示{Xj,Xj+1,Xj+2,...,Xn},G1,j-1同理。
递推公式依次返回推理的分割节点Xj,即可根据节点Xj占所有字向量的比例计算出分割时间点。
最后,用验证集对网络进行测试以及参数微调,从而最终确立用于音频和幻灯片数据对齐的网络模型。
步骤S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。
即在实际使用时,将幻灯片数据和演讲语音输入网络,本发明算法即可根据演讲的音频自动对齐的对应的幻灯片文档,实现音频和幻灯片对齐。
需要注意的是,本发明是将文字、语音、图像都表示成相同维度的向量,通过向量之间的关系来计算他们之间的相似程度。除此之外,还可以通过其他语言处理模型来计算相似度例如BERT。另外,将本发明的损失函数和分割计算方法更改为另外的计算方法也可以达到与本发明类似的效果,但总体的构思和算法逻辑也应在本发明的保护范围之内。
相比于传统技术,本发明通过将演讲者的语音,幻灯片的文字、图像信息等多种模态的数据输入神经网络模型,实现稳定且高效的内容对齐;本发明也是首次将演讲者的语音,幻灯片的文字、图像等多种模态的数据结合理解,做到多模态数据融合理解与对齐。
应用本发明模型和算法,视频网站对此类视频进行播放时,可根据音频数据和幻灯片进行内容对齐和分段,提升此类内容的展示效果。
虽然结合附图对发明的具体实施方式进行了详细地描述,但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。

Claims (8)

1.一种音频和幻灯片内容对齐方法,其特征在于,包括:
S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;
S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;
S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;
S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;
S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;
S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。
2.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S2中根据幻灯片翻页时间对演讲视频进行切片并转换为音频,包括:
人工将视频进行切片,保留视频中的音频数据,使得幻灯片上的每一页内容对应到切片后的一段音频。
3.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S3中对切片后的音频数据进行预处理,包括:
对获取的音频数据进行归一化处理:
Figure FDA0002673196870000011
其中,
Figure FDA0002673196870000012
是归一化处理之后的音频数据,xw是处理前的音频数据,μ为音频数据的平均值,σ为音频数据的标准差。
4.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于:所述S3中提取幻灯片信息,包括:
若幻灯片数据为文字,则直接记录文字信息;
若幻灯片数据为图像,则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果,并记录文字说明和OCR识别结果;
若幻灯片数据为非文字或图像的其他数据,则不作处理。
5.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于:所述S4中将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集,包括:
将处理后的音频数据和处理后的幻灯片数据进行配对,每一页的幻灯片数据对应一段音频录音,幻灯片数据的总数和音频数据总数相等;将配对的数据的80%作为训练集,剩下的20%作为验证集。
6.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S5中构建音频幻灯片对齐神经网络,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型,包括:
S5.1、将训练集乱序;
S5.2、构建神经网络模型,将训练集中处理后的音频数据输入卷积神经网络,通过卷积、池化、全连接,音频中的每一个字得到一个1000维的向量,并记录为va
va通过解码器得到向量的词义表示da,da为4334维向量,4334是字典大小,每一维的值为字的概率;解码器是一个1000×4334维的矩阵,记录下解码器的运算过程中的权值wd;其中,解码器得到da为:
da=wd·va
S5.3、根据one-hot编码将每个文字转换为4334维的词向量
Figure FDA0002673196870000021
记解码器权值wd的转置为
Figure FDA0002673196870000031
即将每个字转换为与字音相同大小的1000维向量vw
Figure FDA0002673196870000032
S5.4、将va、vw分别输入LSTM循环神经网络,转换为相同长度的表示;
S5.5、通过反向传播算法优化损失函数,调整神经网络的参数,得到可判断语音和幻灯片概率的神经网络模型,其中,损失函数为:
l(y,v)=log(1+exp(-yv))y∈{+1,-1}
其中,
Figure FDA0002673196870000033
表示音频输出矩阵ha和幻灯片文字输出矩阵hw的相似程度。y为音频和幻灯片是否对应的标志,对应则y=+1,不对应则y=-1;
S5.6、采用验证集对神经网络模型进行测试,输入音频、幻灯片,输出语音的时间划分节点;
S5.7、采用验证集对神经网络模型进行测试以及参数微调,确定用于音频和幻灯片数据对齐的神经网络模型。
7.根据权利要求6所述的音频和幻灯片内容对齐方法,其特征在于,所述S5.4中将va、vw分别输入LSTM循环神经网络,转换为相同长度的表示,包括:
it=σ(Wi·[ht-1,vt]+bi)
ft=σ(Wf·[ht-1,vt]+bf)
Figure FDA0002673196870000034
ot=σ(Wo·[ht-1,vt]+bo)
Figure FDA0002673196870000035
ha=ot*Tanh(Ct)
其中,ht-1为上一字的隐状态,it、ft
Figure FDA0002673196870000036
ot、Ct分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元,Wi、Wf、WC、Wo为输入门、遗忘门、候选单元、输出门的权重矩阵,bi、bf、bC、bo为输入门、遗忘门、候选单元、输出门的偏置矩阵,σ为sigmoid函数。
8.根据权利要求6所述的音频和幻灯片内容对齐方法,其特征在于,所述S5.6中采用验证集对神经网络模型进行测试,输入音频、幻灯片,输出语音的时间划分节点,包括:
输入为音频,幻灯片,输出为语音的时间划分节点;
假设音频向量为X={X1,X2,X3,...,Xn},记为G={1,2,3,...,n},Xi表示每一个单位长度上的音频;
输入幻灯片数据处理之后为P={P1,P2,P3,...,Pk},pi表示每一页幻灯片数据;
用b(n,k)表示将X的n段音频分为k段:
G1={i1,i1+1,i1+2,…,i2-1}
G2={i2,i2+1,i2+2,…,i3-1}
……………………………………………
Gk={ik,ik+1,ik+2,...,n}
满足:1=i1<i2<…<ik<n
对音频基于幻灯片内容进行最优分割,满足:
Figure FDA0002673196870000041
其中L[b(n,k)]表示对将n段音频分为k段的最优划分,F表示对数据进行预处理并输入神经网络运算;
对语音进行划分的递推公式为:
Figure FDA0002673196870000042
Figure FDA0002673196870000043
若要找到1至n的音频对应k个幻灯片的最优分割,则需建立在1到j-1(k≤j≤n)的音频(X1,X2,...,Xj)对应为k-1个幻灯片的最优分割基础上;
其中,L[b(n,2)]表示对X向量的n个音频划分为2段的最优划分,L[b(j-1,k-1)]表示对X向量的j-1个音频划分为k-1段的最优划分,Gj,n表示{Xj,Xj+1,Xj+2,…,Xn};
递推公式依次返回推理的分割节点Xj,即可根据节点Xj占所有字向量的比例计算出分割时间点。
CN202010939686.6A 2020-09-09 2020-09-09 一种音频和幻灯片内容对齐方法 Active CN112102847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010939686.6A CN112102847B (zh) 2020-09-09 2020-09-09 一种音频和幻灯片内容对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010939686.6A CN112102847B (zh) 2020-09-09 2020-09-09 一种音频和幻灯片内容对齐方法

Publications (2)

Publication Number Publication Date
CN112102847A true CN112102847A (zh) 2020-12-18
CN112102847B CN112102847B (zh) 2022-08-09

Family

ID=73751716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010939686.6A Active CN112102847B (zh) 2020-09-09 2020-09-09 一种音频和幻灯片内容对齐方法

Country Status (1)

Country Link
CN (1) CN112102847B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907707A (zh) * 2021-02-01 2021-06-04 杜博新 一种基于html5的新型微课制作系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition
CN101266790A (zh) * 2007-03-16 2008-09-17 微星科技股份有限公司 文字文件自动标示时间的装置与方法
CN101802816A (zh) * 2007-09-18 2010-08-11 微软公司 同步幻灯片显示事件与音频
CN103763627A (zh) * 2014-01-02 2014-04-30 Tcl集团股份有限公司 一种实现实时视像会议的方法及系统
CN105488067A (zh) * 2014-09-19 2016-04-13 中兴通讯股份有限公司 幻灯片生成方法和装置
CN205983440U (zh) * 2016-07-06 2017-02-22 深圳市矽伟智科技有限公司 一种基于视频同步播放装置的全媒体管理系统
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
CN111246288A (zh) * 2020-01-22 2020-06-05 福建天泉教育科技有限公司 一种视频化演示pptx文档的方法及终端
CN111538851A (zh) * 2020-04-16 2020-08-14 北京捷通华声科技股份有限公司 自动生成演示视频的方法、系统、设备及存储介质
CN111581938A (zh) * 2020-06-22 2020-08-25 程浩 一种多源内容的课件制作和编辑方法以及服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition
CN101266790A (zh) * 2007-03-16 2008-09-17 微星科技股份有限公司 文字文件自动标示时间的装置与方法
CN101802816A (zh) * 2007-09-18 2010-08-11 微软公司 同步幻灯片显示事件与音频
CN103763627A (zh) * 2014-01-02 2014-04-30 Tcl集团股份有限公司 一种实现实时视像会议的方法及系统
CN105488067A (zh) * 2014-09-19 2016-04-13 中兴通讯股份有限公司 幻灯片生成方法和装置
CN205983440U (zh) * 2016-07-06 2017-02-22 深圳市矽伟智科技有限公司 一种基于视频同步播放装置的全媒体管理系统
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
CN111246288A (zh) * 2020-01-22 2020-06-05 福建天泉教育科技有限公司 一种视频化演示pptx文档的方法及终端
CN111538851A (zh) * 2020-04-16 2020-08-14 北京捷通华声科技股份有限公司 自动生成演示视频的方法、系统、设备及存储介质
CN111581938A (zh) * 2020-06-22 2020-08-25 程浩 一种多源内容的课件制作和编辑方法以及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EHRI L C: ""Learning to Read and Spell"", 《BEGINNING READING》 *
Q WANG: ""FACLSTM: ConvLSTM with focused attention for scene text recognition"", 《 SCIECE CHINA. INFORMATION SCIENCES》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907707A (zh) * 2021-02-01 2021-06-04 杜博新 一种基于html5的新型微课制作系统及方法

Also Published As

Publication number Publication date
CN112102847B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
WO2019149200A1 (zh) 文本分类方法、计算机设备及存储介质
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
WO2021114840A1 (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN111008274B (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
US10685012B2 (en) Generating feature embeddings from a co-occurrence matrix
US20040254782A1 (en) Method and apparatus for training a translation disambiguation classifier
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN111832308A (zh) 语音识别文本连贯性处理方法和装置
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN114896377A (zh) 一种基于知识图谱的答案获取方法
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN111581379A (zh) 一种基于作文扣题度的自动作文评分计算方法
CN112102847B (zh) 一种音频和幻灯片内容对齐方法
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant