CN112102847A

CN112102847A - 一种音频和幻灯片内容对齐方法

Info

Publication number: CN112102847A
Application number: CN202010939686.6A
Authority: CN
Inventors: 吕建成; 邬鸿杰; 王坚; 王勇; 张小菲; 叶庆
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-18
Anticipated expiration: 2040-09-09
Also published as: CN112102847B

Abstract

本发明公开了一种音频和幻灯片内容对齐方法，包括S1、获取若干演讲视频和对应于演讲视频的幻灯片文档，并对演讲视频和幻灯片数据进行筛选、清洗；S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频；S3、对切片后的音频数据进行预处理，提取幻灯片信息，得到处理后的音频数据和幻灯片数据；S4、将处理后的音频数据和幻灯片数据进行配对，并将配对后的数据按比例划分为训练集和验证集；S5、构建音频幻灯片对齐神经网络模型，并利用训练集对神经网络进行训练，得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型；S6、将演讲音频和幻灯片输入神经网络模型，神经网络模型根据演讲的音频自动对齐幻灯片文档。

Description

一种音频和幻灯片内容对齐方法

技术领域

本发明属于幻灯片的技术领域，具体涉及一种音频和幻灯片内容对齐方法。

背景技术

幻灯片是在办公软件上创建的演示文稿，允许用户为演示文稿添加文字、音频、视频等内容。它被认为是一种多媒体技术，是现代社会非常重要的内容共享和展示工具。

现代社会的工作学习中，使用幻灯片进行内容分享与展示的频率日益增加，幻灯片展示也成为了交流和展示的重要途径。在互联网视频网站上各类演讲视频和上课视频层出不穷，数量庞大。由于目前没有有效的将多个模态信息的融合对齐方法，导致目前没有根据演讲者音频和幻灯片内容对齐的方法，导致用户观看视频时，视频内容没有根据幻灯片进行分段，内容结构不够简洁明了，想要快速拖动视频时不够便捷。

目前，市面上还没有出现针对于幻灯片和演讲视频或语音的对齐方法。其他尚存多模态对齐方法只是单一的多模态数据的对齐或者融合，不能适应幻灯片数据的特点以及演讲的内容和幻灯片数据的对应关系，导致各类网站对演讲视频或课堂视频进行展示的时候，不能按照幻灯片内容对演讲视频或语音的时序进行分割。

发明内容

本发明的目的在于针对现有技术中的上述不足，提供一种音频和幻灯片内容对齐方法，以解决现有幻灯片展示效率的不足，不能自动根据演讲内容对齐幻灯片的问题。

为达到上述目的，本发明采取的技术方案是：

一种音频和幻灯片内容对齐方法，其包括：

S1、获取若干演讲视频和对应于演讲视频的幻灯片文档，并对演讲视频和幻灯片数据进行筛选、清洗；

S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频；

S3、对切片后的音频数据进行预处理，提取幻灯片信息，得到处理后的音频数据和幻灯片数据；

S4、将处理后的音频数据和幻灯片数据进行配对，并将配对后的数据按比例划分为训练集和验证集；

S5、构建音频幻灯片对齐神经网络模型，并利用训练集对神经网络进行训练，得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型；

S6、将演讲音频和幻灯片输入神经网络模型，神经网络模型根据演讲的音频自动对齐幻灯片文档。

优选地，S2中根据幻灯片翻页时间对演讲视频进行切片并转换为音频，包括：

人工将视频进行切片，保留视频中的音频数据，使得幻灯片上的每一页内容对应到切片后的一段音频。

优选地，S3中对切片后的音频数据进行预处理，包括：

对获取的音频数据进行归一化处理：

其中，

是归一化处理之后的音频数据，x_w是处理前的音频数据，μ为音频数据的平均值，σ为音频数据的标准差。

优选地，S3中提取幻灯片信息，包括：

若幻灯片数据为文字，则直接记录文字信息；

若幻灯片数据为图像，则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果，并记录文字说明和OCR识别结果；

若幻灯片数据为非文字或图像的其他数据，则不作处理。

优选地，S4中将处理后的音频数据和幻灯片数据进行配对，并将配对后的数据按比例划分为训练集和验证集，包括：

将处理后的音频数据和处理后的幻灯片数据进行配对，每一页的幻灯片数据对应一段音频录音，幻灯片数据的总数和音频数据总数相等；将配对的数据的80％作为训练集，剩下的20％作为验证集。

优选地，S5中构建音频幻灯片对齐神经网络，并利用训练集对神经网络进行训练，得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型，包括：

S5.1、将训练集乱序；

S5.2、构建神经网络模型，将训练集中处理后的音频数据输入卷积神经网络，通过卷积、池化、全连接，音频中的每一个字得到一个1000维的向量，并记录为v_a；

v_a通过解码器得到向量的词义表示d_a，d_a为4334维向量，4334是字典大小，每一维的值为字的概率；解码器是一个1000×4334维的矩阵，记录下解码器的运算过程中的权值w_d；其中，解码器得到d_a为：

d_a＝w_d·v_a；

S5.3、根据one-hot编码将每个文字转换为4334维的词向量

记解码器权值w_d的转置为

即将每个字转换为与字音相同大小的1000维向量v_w：

S5.4、将v_a、v_w分别输入LSTM循环神经网络，转换为相同长度的表示；

S5.5、通过反向传播算法优化损失函数，调整神经网络的参数，得到可判断语音和幻灯片概率的神经网络模型，其中，损失函数为：

l(y，v)＝log(1+exp(-yv)) y∈{+1，-1}

其中，

表示音频输出矩阵h_a和幻灯片文字输出矩阵h_w的相似程度。y为音频和幻灯片是否对应的标志，对应则y＝+1，不对应则y＝-1；

S5.6、采用验证集对神经网络模型进行测试，输入音频、幻灯片，输出语音的时间划分节点；

S5.7、采用验证集对神经网络模型进行测试以及参数微调，确定用于音频和幻灯片数据对齐的神经网络模型。

优选地，S5.4中将v_a、v_w分别输入LSTM循环神经网络，转换为相同长度的表示，包括：

i_t＝σ(W_i·[h_t-1，v_t]+b_i)

f_t＝σ(W_f·[h_t-1，v_t]+b_f)

o_t＝σ(W_o·[h_t-1，v_t]+b_o)

h_a＝o_t*Tanh(C_t)

其中，h_t-1为上一字的隐状态，i_t、f_t、

o_t、C_t分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元，W_i、W_f、W_C、W_o为输入门、遗忘门、候选单元、输出门的权重矩阵，b_i、b_f、b_C、b_o为输入门、遗忘门、候选单元、输出门的偏置矩阵，σ为sigmoid函数。

优选地，S5.6中采用验证集对神经网络模型进行测试，输入音频、幻灯片，输出语音的时间划分节点，包括：

输入为音频，幻灯片，输出为语音的时间划分节点；

假设音频向量为X＝[X₁，X₂，X₃，...，X_n}，记为G＝{1，2，3，...，n}，X_i表示每一个单位长度上的音频；

输入幻灯片数据处理之后为P＝{P₁，P₂，P₃，...，P_k}，p_i表示每一页幻灯片数据；

用b(n，k)表示将X的n段音频分为k段：

G₁＝{i₁，i₁+1，i₁+2，…，i₂-1}

G₂＝{i₂，i₂+1，i₂+2，…，i₃-1)

.....................................................

G_k＝{i_k，i_k+1，i_k+2，...，n}

满足：1＝i₁＜i₂＜…＜i_k＜n

对音频基于幻灯片内容进行最优分割，满足：

其中L[b(n，k)]表示对将n段音频分为k段的最优划分，F表示对数据进行预处理并输入神经网络运算；

对语音进行划分的递推公式为：

若要找到1至n的音频对应k个幻灯片的最优分割，则需建立在1到j-1(k≤j≤n)的音频(X₁，X₂，...，X_j)对应为k-1个幻灯片的最优分割基础上；

其中，L[b(n，2)]表示对X向量的n个音频划分为2段的最优划分，L[b(j-1，k-1)]表示对X向量的j-1个音频划分为k-1段的最优划分，G_j，n表示{X_j，X_j+1，X_j+2，…，X_n}；

递推公式依次返回推理的分割节点X_j，即可根据节点X_j占所有字向量的比例计算出分割时间点。

本发明提供的音频和幻灯片内容对齐方法，具有以下有益效果：

本发明将演讲者的语音，幻灯片的文字、图像信息等多种模态的数据输入神经网络模型，实现稳定且高效的内容对齐；且将本发明应用于视频网站的相关视频进行播放时，可根据音频数据和幻灯片进行内容对齐和分段，提升内容的展示效果。

附图说明

图1为本发明音频和幻灯片对齐方法的流程图。

图2为本发明幻灯片数据处理流程。

图3为本发明图像理解网络工作流程。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

根据本申请的一个实施例，参考图1，本方案的音频和幻灯片内容对齐方法，包括：

根据本申请的一个实施例，以下将对上述步骤进行详细说明；

步骤S1、获取若干演讲视频和对应于演讲视频的幻灯片文档，并对演讲视频和幻灯片数据进行筛选、清洗。

步骤S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频；

即人工地将视频进行切片，最终只保留视频中的音频数据，使得幻灯片上的每一页内容对应到切片后的一小段音频。

步骤S3、对切片后的音频数据进行预处理，提取幻灯片信息，得到处理后的音频数据和幻灯片数据，其具体包括：

预处理具体为对音频进行归一化处理，归一化处理后得到处理后的音频数据，归一化的公式为：

其中，

提取幻灯片数据的具体步骤为：

参考图2，对于幻灯片中的文字，则直接记录文字信息；

如果是图像，则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果，记录该文字说明和OCR识别结果；

如果是非文字或图像的其他数据，则不作处理。

其中，参考图3，图像理解网络首先将图像I归一化到224×224大小，通过卷积神经网络提取图像I的196个512维特征v_p，根据attention注意力计算得到v_p释义的加权和α_P，由α_P，v_p可得当前步骤上下文z_p。

采用LSTM结构模拟图像之间的记忆关系，包括内部隐状态h_p，还包含i_t、f_t、

o_t、C_t分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元，共6个状态。z_p由LSTM循环神经网络得到图片的内部隐状态h_p，h_p再通过全连接网络得到图片的文字表示，即图像的文字说明。

其中，z_p的计算公式为

为α_p的转置。

h_p的计算公式为：

h_p＝o_t*Tanh(C_t)

其中，c_t表示当前字的储存单元，C_t-1表示上一字的储存单元。i_t、f_t、

o_t、C_t分别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元。

步骤S4、将处理后的音频数据和幻灯片数据进行配对，并将配对后的数据按比例划分为训练集和验证集，其具体包括：

将处理后的音频数据和处理后的幻灯片数据进行配对，每一页的幻灯片数据对应一段课堂的录音，幻灯片数据的总数和音频数据总数相等。

将配对的数据的80％作为训练集，将剩下的20％作为验证集。

步骤S5，构建音频幻灯片对齐神经网络模型，并利用训练集对神经网络进行训练，得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型，其具体包括：

步骤S5.1、将训练集乱序。

步骤S5.2、构建神经网络模型，首先将训练集中处理后的音频数据输入卷积神经网络，通过卷积、池化、全连接等过程，音频中的每一个字都会得到一个1000维的向量，记录为v_a。v_a再通过解码器得到向量的词义表示d_a，d_a为4334维向量，4334是字典大小，每一维的值为该字的概率。解码器是一个1000×4334维的矩阵，记录下解码器的运算过程中的权值w_d。

其中，解码器得到d_a为：

d_a＝w_d·v_a

步骤S5.3、处理后的幻灯片数据为幻灯片上的文字和经过图像理解网络的图像的文字说明，均为文字，将每个文字用one-hot编码转换为4334维的词向量

将解码器权值w_d的转置记为

用词向量

乘以

即可将每个字转换为与字音相同大小的1000维向量v_w。即，

步骤S5.4、因幻灯片数据中的字的向量v_w和对应的音频数据中的字的向量v_a长度不一，所以将v_a、v_w分别输入同一个LSTM循环神经网络，v_a、v_w可以通过LSTM网络转换为相同长度的表示。

其中，LSTM循环神经网络是基于当前输入x_t和上一轮输出h_t-1来计算当前输出h_t，而且加入了输入门i_t、遗忘门f_t以及输出门o_t三个门和一个内部记忆单元c_t。输入门控制当前计算的新状态以多大程度更新到记忆单元中；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉；输出门控制当前的输出有多大程度上取决于当前的记忆单元。v_a、v_w经过LSTM网络，会得到相同长度的输出h_at和h_wt。

计算过程为：

i_t＝σ(W_i·[h_t-1，v_t]+b_i)

f_t＝σ(W_f·[h_t-1，v_t]+b_f)

o_t＝σ(W_o·[h_t-1，v_t]+b_o)

h_a＝o_t*Tanh(C_t)

其中，h_t-1为上一字的隐状态，i_t、f_t、

o_t、C_t本别为t状态下的输入门、遗忘门、候选单元、输出门、储存单元，W_i、W_f、W_C、W_o为输入门、遗忘门、候选单元、输出门的权重矩阵，b_i、b_f、b_C、b_o为输入门、遗忘门、候选单元、输出门的偏置矩阵，σ为sigmoid函数。

经过上述计算后得到当前字输入后的隐状态h_a，对于h_w的计算采用相同原理。

步骤S5.5、将上述步骤搭建好的神经网络进行训练，通过反向传播算法不断优化损失函数，调整所述神经网络的参数，得到能够判断语音和幻灯片对应概率的神经网络模型。

其中，损失函数为：

l(y，v)＝log(1+exp(-yv))y∈{+1，-1}

其中，

表示音频输出矩阵h_a和幻灯片文字输出矩阵h_w的相似程度。y为音频和幻灯片是否对应的标志，对应则y＝+1，不对应则y＝-1。

步骤S5.6、用验证集对网络进行测试，测试时，输入为音频，幻灯片，输出为语音的时间划分节点。假设音频向量为X＝{X₁，X₂，X₃，...，X_n}，记为G＝{1，2，3，...，n}，X_i表示每一个单位长度上的音频。输入幻灯片数据经过处理之后为P＝{P₁，P₂，P₃，...，P_k}，p_i表示每一页幻灯片数据。

用用b(n，k)表示将X的n段音频分为k段的一种划分方法。

G₁＝{i₁，i₁+1，i₁+2，…，i₂-1}

G₂＝{i₂，i₂+1，i₂+2，…，i₃-1)

.....................................................

G_k＝{i_k，i_k+1，i_k+2，...，n}

满足：1＝i₁＜i₂＜…＜i_k＜n

想要对音频基于幻灯片内容进行最优分割，应满足：

其中，L[b(n，k)]表示对将n段音频分为k段的最优划分方式。F表示对数据进行预处理并输入神经网络运算。

对语音进行划分的递推公式为：

以上两个递推公式的含义是，如果要找到1到n的音频对应k个幻灯片的最优分割，应当建立在1到j-1(k≤j≤n)的音频(X₁，X₂，...，X_j)对应为k-1个幻灯片的最优分割基础上。其中L[b(n，2)]表示对X向量的n个音频划分为2段的最优划分，L[b(j-1，k-1)]表示对X向量的j-1个音频划分为k-1段的最优划分，G_j，n表示{X_j，X_j+1，X_j+2，...，X_n}，G_1，j-1同理。

最后，用验证集对网络进行测试以及参数微调，从而最终确立用于音频和幻灯片数据对齐的网络模型。

步骤S6、将演讲音频和幻灯片输入神经网络模型，神经网络模型根据演讲的音频自动对齐幻灯片文档。

即在实际使用时，将幻灯片数据和演讲语音输入网络，本发明算法即可根据演讲的音频自动对齐的对应的幻灯片文档，实现音频和幻灯片对齐。

需要注意的是，本发明是将文字、语音、图像都表示成相同维度的向量，通过向量之间的关系来计算他们之间的相似程度。除此之外，还可以通过其他语言处理模型来计算相似度例如BERT。另外，将本发明的损失函数和分割计算方法更改为另外的计算方法也可以达到与本发明类似的效果，但总体的构思和算法逻辑也应在本发明的保护范围之内。

相比于传统技术，本发明通过将演讲者的语音，幻灯片的文字、图像信息等多种模态的数据输入神经网络模型，实现稳定且高效的内容对齐；本发明也是首次将演讲者的语音，幻灯片的文字、图像等多种模态的数据结合理解，做到多模态数据融合理解与对齐。

应用本发明模型和算法，视频网站对此类视频进行播放时，可根据音频数据和幻灯片进行内容对齐和分段，提升此类内容的展示效果。

虽然结合附图对发明的具体实施方式进行了详细地描述，但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内，本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。