CN117194818B

CN117194818B - 基于视频的图文网页生成方法及装置

Info

Publication number: CN117194818B
Application number: CN202311475166.4A
Authority: CN
Inventors: 刘成书; 唐海霞; 王涛; 韩博; 刘真; 高凌辉; 李文永; 卫世杰; 孙思遥; 高树奎; 张小师; 刘亚伟
Original assignee: Beijing Xin Li Fang Technologies Inc
Current assignee: Beijing Xin Li Fang Technologies Inc
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-16
Anticipated expiration: 2043-11-08
Also published as: CN117194818A

Abstract

本发明提供一种基于视频的图文网页生成方法及装置，涉及互联网技术领域，方法包括：获取包括至少一组视频帧组的视频帧序列，以及获取各视频帧组对应的语音数据；对各语音数据进行语音识别；对各视频帧组进行OCR文字识别；针对每组视频帧组，基于对应语音识别得到的预测文本和对应文字识别得到的识别文本，结合结巴分词和拼音相似度，确定预测文本中存在待纠正词，并结合三元语言模型，利用对应识别文本对待纠正词进行替换；针对每组视频帧组，将替换后的文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，得到超文本标记语言HTML网页。本发明既保证了网页内容的准确性，又便于用户阅读。

Description

基于视频的图文网页生成方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于视频的图文网页生成方法及装置。

背景技术

随着互联网和数字媒体的迅速发展，视频内容的传播和消费逐渐成为主流。然而，对于一些内容生产者和读者来说，快速查询、获取视频内容可能存在一定的难度和限制。

现阶段大多通过模型根据语音生成文字或者给视频打上字幕，对于口音、多音字等原因语音生成的文字可能存在未纠错导致准确度不高，且是直接利用搜索引擎对视频内容进行的搜索，而搜索引擎在处理视频内容时可能存在困难，影响了相关信息的检索效率。

发明内容

本发明提供一种基于视频的图文网页生成方法及装置，用以解决现有技术中受限于搜索引擎处理视频内容困难以致影响检索效率的缺陷，以根据视频快速生成图文并茂的网页，便于通过图文等方式快速获取信息，且有利于搜索引擎抓取信息。

本发明提供一种基于视频的图文网页生成方法，包括：获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

根据本发明提供的一种基于视频的图文网页生成方法，获取视频帧序列，包括：获取目标视频；基于预设间隔或预设视频起始时间，提取目标视频中的视频帧，得到视频帧序列。

根据本发明提供的一种基于视频的图文网页生成方法，在基于预设间隔或预设视频起始时间，提取目标视频中的视频帧之后，包括：对提取的各个视频帧分别进行质量检测，得到对应各视频帧的质量评分；将相邻视频帧转换为向量，并利用余弦相似度，得到对应相邻视频帧的图片相似度；确定各个相邻视频帧的图片相似度大于图片预设阈值，以将对应所有相邻视频帧划分为同一视频帧组；针对同一视频帧组，将质量评分最大的视频帧作为对应视频帧组的视频帧，得到视频帧序列。

根据本发明提供的一种基于视频的图文网页生成方法，获取视频帧序列中各视频帧组对应的语音数据，包括：获取用于提取得到视频帧序列的目标视频；基于视频帧序列中各视频帧组的起止时间，对目标视频进行切分，得到视频帧序列中各视频帧组对应的语音数据；其中，视频帧组的起止时间是根据对应视频帧组中第一帧的开始时间和最后一帧的结束时间确定的。

根据本发明提供的一种基于视频的图文网页生成方法，对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本，包括：将各视频帧组对应的语音数据输入至文字转换模型中，得到文字转换模型输出的各视频帧组对应的预测文本；其中，文字转换模型是基于语音训练文件和语音训练文件对应的文本标签训练得到的。

根据本发明提供的一种基于视频的图文网页生成方法，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词，包括：针对每组视频帧组，利用结巴分别对相应预测文本和识别文本进行分词，得到对应预测文本分词和识别文本分词；根据预测文本分词和识别文本分词，利用拼音相似度，得到对应拼音相似度；基于拼音相似度大于拼音预设阈值，确定对应预测文本分词为待纠正词。

根据本发明提供的一种基于视频的图文网页生成方法，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本，包括：根据待纠正词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第一出现概率；根据待纠正词对应的识别文本分词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第二出现概率；确定第二出现概率大于第一出现概率，则利用对应识别文本分词对对应待纠正词进行替换。

本发明还提供一种基于视频的图文网页生成装置，包括：数据获取模块，获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；语音识别模块，对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；文字识别模块，根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；纠错模块，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；更新模块，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；网页生成模块，针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如上述任一种基于视频的图文网页生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种基于视频的图文网页生成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述任一种基于视频的图文网页生成方法的步骤。

本发明提供的基于视频的图文网页生成方法及装置，通过对视频帧组对应的语音数据进行语音数据进行语音识别，以及通过OCR对相应视频帧组进行文字识别，从而根据识别文本确定是否对预测文本进行纠错，进而便于根据纠错后的预测文本及其对应的视频帧生成图文并茂的网页，节省了大量的时间，既保证了网页内容的准确性，又便于用户阅读，使读者能通过多种方式获取视频信息，且有利于利用搜索引擎对文字内容进行搜索。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于视频的图文网页生成方法的流程示意图；

图2是本发明提供的基于视频的图文网页生成装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1描述了本发明的一种基于视频的图文网页生成方法的流程示意图，该方法，包括：

S11，获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；

S12，对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；

S13，根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；

S14，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；

S15，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；

S16，针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

需要说明的是，本说明书中的步骤编号“S1N”不代表基于视频的图文网页生成方法的先后顺序，下面具体描述本发明的基于视频的图文网页生成方法。

步骤S11，获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据。

在本实施例中，获取视频帧序列，包括：获取目标视频；基于预设间隔或预设视频起始时间，提取目标视频中的视频帧，得到视频帧序列。需要说明的是，在获取目标视频之后，可以利用诸如cv2.VideoCapture()等方式打开目标视频。

在一个可选实施例中，在获取视频帧序列之前，包括：创建视频帧信息存储表，视频帧信息存储表包括多个字段，包括用于标记每条记录的标识编号id、视频唯一标识编号video_id、视频在服务器上的存储路径video_path、经处理后的视频帧存储路径image_path、视频帧所在视频帧组存储路径group_image_path、视频帧的开始时间start_time、视频帧的结束时间end_time、视频帧的质量评分quality_score、当前视频帧与上一视频帧的相似度simlary_score、标记是否为视频帧组的标识is_group_image、用于标记每组记录的视频帧组编号group_number和视频帧frame。

进一步地，获取目标视频，包括：获取源视频，将源视频作为目标视频；或者，获取源视频；基于目标间隔或目标视频起始时间，提取源视频中的视频，得到多段目标视频。需要说明的是，源视频的打开方式可以参考上述目标视频的打开方式，此处不作进一步地阐述。

在一个可选实施例中，在获取目标视频之后，包括：将目标视频按照一定顺序编号命名，并将编号对应赋值给变量var_video_id；同时将目标视频进行存储，将存储路径赋值给变量var_video_path。

另外，基于目标间隔或目标视频起始时间，提取目标视频中的视频，包括：基于视频帧所在视频帧组存储路径，提取对应的目标视频；基于目标视频，提取视频帧并将提取的视频帧赋值给变量var_frame。

在一个可选实施例中，在将提取的视频帧赋值给变量var_frame之后，包括：对变量var_frame进行黑边处理，以去除对应视频帧边缘的黑边。需要补充的是，黑边处理可以采用cv2.copyMakeBorder()函数，此处不作过多限定。

在一个可选实施例中，在去除对应视频帧边缘的黑边之后，包括：将黑边处理后的视频帧赋值或更新给变量var_frame，以及保存至指定位置，并将路径赋值给变量var_image_path；将每一视频帧对应目标视频的开始位置时间赋值给变量var_start_time；按start_time顺序为各视频帧赋予一个唯一标识编号并赋值给变量var_id；将var_video_id、var_video_path、var_id、var_frame、var_image_path、var_start_time值作为一条记录新增到视频帧信息存储表的字段video_id、video_path 、id、frame、image_path、start_time中，当前帧视频的start_time值更新到所述目标视频的前一帧视频记录的字段end_time中。

此外，在基于预设间隔或预设视频起始时间，提取目标视频中的视频之后，包括：对提取的各个视频帧分别进行质量检测，得到对应各视频帧的质量评分；将相邻视频帧转换为向量，并利用余弦相似度，得到对应相邻视频帧的图片相似度；确定各个相邻视频帧的图片相似度大于图片预设阈值，以将对应所有相邻视频帧划分为同一视频帧组；针对同一视频帧组，将质量评分最大的视频帧作为对应视频帧组的视频帧，得到视频帧序列。

需要说明的是，在对提取的各个视频帧进行质量检测之前，包括：从视频帧信息存储表中读取与目标视频相匹配的所有视频帧存储路径，并根据视频帧存储路径提取对应视频帧。

此外，对提取的各个视频帧进行质量检测，包括：根据提取的各个视频帧的轮廓质量和清晰度，得到对应质量评分。相应地，在得到对应各视频帧的质量评分之后，包括：将质量评分更新至视频帧信息存储表中对应记录的字段quality_score中。

应当补充的是，在将相邻视频帧转换为向量之前，包括：将当前视频帧的image_path赋值给image_path2，将当前视频帧的在先一个视频帧的image_path赋值给image_path1；根据image_path1和image_path2，取出对应两帧相邻视频帧，并将其转化为向量，从而便于计算这两个向量之间的余弦相似度，以便于后续将计算得到的图片相似度更新至视频帧信息存储表中对应记录的字段simlary_score字段中。

相应地，确定各个相邻视频帧的图片相似度大于图片预设阈值，包括：检查视频帧信息存储表中目标视频对应的所有simlary_score字段，若存在图片相似度大于图片预设阈值，则确定图片相似度对应image_path1和image_path2路径的两视频帧相似度较高，并将其归为同一视频帧组，从而便于后续在同一视频帧组中根据质量评分，从多个相似视频帧中选取一个质量评分quality_score最高的视频帧，并将选取的视频帧的id和image_path更新至视频帧信息存储表中对应记录的字段group_number和group_image_path，从而避免后续重复对相似视频帧进行处理，提高效率。需要说明的是，图片相似度阈值可以根据实际选取的视频帧设置，比如可以为0.5，此处不做进一步的限定。

此外，获取所述视频帧序列中各视频帧组对应的语音数据，包括：获取用于提取得到视频帧序列的目标视频；基于视频帧序列中各视频帧组的起止时间，对目标视频进行切分，得到视频帧序列中各视频帧组对应的语音数据；其中，视频帧组的起止时间是根据对应视频帧组中第一帧的开始时间和最后一帧的结束时间确定的。需要说明的是，通过获取用于提取得到视频帧序列的目标视频，并根据各视频帧组的起止时间对目标视频进行切分，以便于使得到的语音数据与视频帧组一一对应。

具体而言，在实际切分目标视频之前，包括：创建组别信息存储表，组别信息存储表包括用于标记每条记录的标识编号id、目标视频唯一标识编号video_id（与视频帧信息存储表中的video_id关联）、用于标识每组记录的视频帧组编号group_number（与视频帧信息存储表中的group_number关联）、每组视频帧组存储路径group_image_path（与视频帧信息存储表中的group_image_path关联）、利用训练好的文字转换模型将语音转化为的预测文本voice_creat_text和通过Tesseract-OCR引擎对视频帧进行OCR识别出的识别文本ocr_text。

在创建组别信息存储表之后，包括：根据视频帧序列，确定视频帧信息存储表中的video_id、video_path、group_number、start_time、end_time和group_image_path，并将其字段名称作为键、字段值作为值存储至在先创建的第一列表中。

在一个可选实施例中，对目标视频进行切分，包括：利用预设命令对目标视频进行切分，预设命令可以预先基于切分需求设置，比如可以为mmpeg -i<input_video>-o<output_audio>-ss<start_time>-t<duration>，其中input_video参数值设置为video_path值，output_audio为当前行以video_id值、下划线、group_numer值、.wav生成的字符串，start_time为当前视频帧组的start_time值，duration等于end_time减去start_time的值，不断迭代生成目标视频的全部语音数据。

步骤S12，对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本。

在本实施例中，对视频帧序列中各视频帧组对应的语音数据进行语音识别，包括：利用Google Cloud Speech-to-Text API、百度智能云和/或腾讯云语音识别（AutomaticSpeech Recognition，ASR），对视频帧序列中各视频帧组对应的语音数据进行语音识别。

在另一可选实施例中，对视频帧序列中各视频帧组对应的语音数据进行语音识别，包括：将视频帧序列中各视频帧组对应的语音数据输入至文字转换模型中，得到文字转换模型输出的各视频帧组对应的语音数据的预测文本；其中，文字转换模型是基于语音训练文件和语音训练文件对应的文本标签训练得到的。

应当注意的是，在对视频帧序列中各视频帧组对应的语音数据进行语音识别之前，包括：循环所有语音数据，对每个语音数据进行分帧、提取MFCC特征矩阵并将其通过numpy转化和添加维度处理转换为适合卷积神经网络输入的格式。

在一个可选实施例中，在将视频帧序列中各视频帧组对应的语音数据输入至文字转换模型中之前，包括：创建神经网络网络模型；在神经网络网络模型中添加一个Conv1D层，且过滤器数量设置为64，卷积核大小设置为3，激活函数采用relu，输入形状设置为(13,1)；在神经网络网络模型中添加一个MaxPooling1D层，将池化窗口大小参数设置为2；在神经网络网络模型中添加一个Dropout层，将丢弃率参数设置为0.5，用于防止过拟合；在神经网络网络模型中添加一个Flatten层，将卷积后的数据展平为一维向量；在神经网络网络模型中添加一个Dense层，神经元数量参数设置为64，激活函数采用relu；在神经网络网络模型中添加一个Dense层，参数神经元数量设置为1，激活函数采用sigmoid，用于输出二分类问题的预测结果；调用神经网络网络模型的编译方法，损失函数选择binary_crossentropy，优化器选择adam，评估指标选择accuracy；将神经网络网络模型的epochs参数设置为20、batch_size参数设置为32、validation_data参数设置为根据语音训练文件和语音训练文件对应的文本标签划分得到的测试集，以便在每个周期结束时在测试集上进行验证；调用神经网络网络模型的evaluate方法，将预测结果与文本标签进行对比，输出模型的准确率和损失率输出语音训练文件上的损失和准确率，并根据预测结果与文本标签构建损失函数，基于损失函数收敛，结束训练。

需要说明的是，语音训练文件可以参考上述语音数据的获取方式，此处不作进一步地描述，另外，文本标签可以是历史文本数据或者人工标记出由多个词和标点符号组成的文本。

在一个可选实施例中，神经网络网络模型可以使用LAS模型。

在一个可选实施例中，在得到文字转换模型输出的各视频帧组对应的语音数据的预测文本之后，包括：将预测文本更新至第一列表对应的键voice_create_text中。

进一步地，在将预测文本更新至第一列表对应的键voice_create_text中之后，还包括：循环第一列表中存储的video_id、group_number、group_image_path、voice_create_text键值，以对应的键作为字段，以一条新记录存储到对应组别信息存储表中。

步骤S13，根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本。

需要说明的是，根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本，包括：循环组别信息存储表中的记录，通过id字段正序读取，获取id和group_image_path字段的值；根据group_image_path字段的值，打开对应视频帧；使用Tesseract-OCR引擎，基于预设语言，对各视频帧组进行OCR识别，得到对应识别文本并存储在第一列表对应行的键ocr_text中；将第一列表ocr_text的值更新至组别信息存储表中对应的ocr_text字段中。需要说明的是，预设语言可以基于设计使用需求预先确定，比如可以为中文和/或英文。

步骤S14，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词。

在一个可选实施例中，在确定预测文本中是否存在待纠正词之前，包括：创建语音文本信息表，语音文本信息表包括用于标记每条记录的标识编号id、目标视频唯一标识编号video_id（与视频帧信息存储表中的video_id以及组别信息存储表中的video_id关联）、用于标记每组记录的视频帧组编号group_number（与视频帧信息存储表中的group_number以及组别信息存储表中的group_number关联）、每组视频帧组存储路径group_image_path（与视频帧信息存储表中的group_image_path以及组别信息存储表中的group_image_path关联）、利用训练好的文字转换模型将语音转化为的预测文本voice_creat_text、预测文本分词terms、预测文本分词在预测文本中的位置terms_position、预测文本分词对应的拼音terms_pinyin、识别文本分词correct_word、预测文本分词与识别文本分词之间的拼音相似度terms_correct_pinyin_siminary、待纠正词相对于待纠正词所属视频帧组对应预测文本的第一出现概率possible_term_sentence、待纠正词对应的识别文本分词相对于待纠正词所属视频帧组对应预测文本的第二出现概率 possible_correct_sentence、用于标记是否需要将terms 替换为correct_word 的标识replace_correct_word （0不需要替换，1需要替换）。

在本实施例中，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定所述预测文本中是否存在待纠正词，包括：针对每组视频帧组，利用结巴分别对相应预测文本和识别文本进行分词，得到对应预测文本分词和识别文本分词；根据预测文本分词和识别文本分词，利用拼音相似度，得到对应拼音相似度；基于拼音相似度大于拼音预设阈值，确定对应预测文本分词为待纠正词。

需要说明的是，在确定预测文本中是否存在待纠正词之前，包括：针对每个目标视频，从组别信息存储表中按照对应id顺序读取数据，将id、group_image_path、group_number、voice_creat_text和ocr_text字段的值对应赋值给在先创建的第二列表中的键id、group_image_path、group_number 、voice_create_text、ocr_text。相应地，针对每组视频帧组对应的语音数据的预测文本和识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词，包括：利用结巴对第二列表中的voice_create_text键值进行分词；将产生的词长度大于1的集合进行循环得到预测文本分词，并以键terms命名存储至在先创建的第三列表中；将每个预测文本分词对应第二列表中的id、group_image_path、group_number 、voice_create_text键值以键id、group_image_path、group_number 、voice_create_text存储到第三列表对应行中；利用结巴对第二列表中的ocr_text键值进行分词，将产生的词长度大于1的集合以键correct命名存储到在先创建的第四列表中；遍历第三列表，将键terms的值赋给变量var_terms，使用pypinyin模型的lazy_pinyin方法将其转化为拼音并赋值给var_terms_pinyin，并将var_terms_pinyin的值存储到第三列表对应行的terms_pinyin键中；遍历第四列表，将键correct的值赋值给变量var_correct，使用pypinyin模型的lazy_pinyin方法将其转化为拼音并赋值给var_correct_pinyin，并将var_correct_pinyin的值存储到第四列表对应行的correc_pinyin键中；遍历第三列表作为一级外循环，将terms、terms_pinyin键值分别赋值给变量var_terms、var_terms_pinyin；遍历第四列表作为二级内嵌循环，将correct、correct_pinyin键值分别赋值给变量var_correct、var_correct_pinyin，将一级外循环中当前的var_terms_pinyin值和二级内循环中的每个var_correct_pinyin值进行拼音相似度计算，以将相似度最大的值进行归一化处理后赋值给变量var_max_terms_correct_pinyin_siminary ，相似度值最大的值对应行的变量var_correct、var_correct_pinyin赋值给变量var_max_correct、var_max_correct_pinyin；将变量var_max_terms_correct_pinyin_siminary、var_max_correct、var_max_correct_pinyin值赋值给第三列表中当前行的max_terms_correct_pinyin_siminary、max_correct、max_correct_pinyin键中；遍历第三列表，将当前行的video_id、group_number、group_image_path、voice_create_text、terms、terms_pinyin、max_correct、max_correct_pinyin、max_terms_correct_pinyin_siminary的键值分别对应存储到语音文本信息表的video_id、group_number、group_image_path、voice_create_text、terms、terms_pinyin、correct_word、correct_word_pinyin、terms_correct_pinyin_siminary字段中。

步骤S15，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本。

在本实施例中，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本，包括：根据待纠正词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第一出现概率；根据待纠正词对应的识别文本分词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第二出现概率；确定第二出现概率大于第一出现概率，则利用对应识别文本分词对对应待纠正词进行替换。

需要补充的是，第一出现概率用于表征待纠正词相对于待纠正词所属视频帧组对应预测文本的出现的概率值；第二出现概率用于表征待纠正词对应的识别文本分词相对于待纠正词所属视频帧组对应预测文本的出现的概率值。

具体而言，利用对应识别文本分词对待纠正词进行替换，得到对应更新文本，包括：从语音文本信息表中读取与目标视频相匹配的所有数据，循环数据将每行的video_id、id、group_number、term、correct_word、voice_create_text字段的值分别赋值给变量var_video_id、var_id、var_group_number、var_term、var_correct_word、var_voice_create_text；将var_term、var_voice_correct_word放到三元语言模型中，得到var_term在var_voice_correct_word中的第一出现概率赋值给变量var_possible_term，将变量var_possible_term值更新到语音文本信息表video_id字段等于var_video_id值，id字段值等于var_id值所在记录的字段possible_term中；将var_correct_word、var_voice_correct_word放到三元语言模型中，得到var_correct_word在var_voice_create_text中的第二出现概率赋值给变量var_possible_correct，并将变量var_possible_correct值更新到语音文本信息表video_id字段等于var_video_id值，id字段值等于var_id值所在记录的字段possible_correct中；若var_possible_correct值大于var_possible_term值，则更新语音文本信息表中video_id字段等于var_video_id值，group_number字段等于var_group_number值的所有记录的voice_create_text值从term替换为correct_word。

需要补充的是，多元语音模型表示为：

P(w1,w2,...,wk) = P(w1)P(w2|w1)P(w3|w1,w2)...P(wk|w1,w2,...,wk-1)

P(w1)表示第一个词的概率，P(w2|w1)表示在给定第一个词的情况下，第二个词的概率，以此类推，P(wk|w1,w2,...,wk-1)表示在给定前k-1个词的情况下，第k个词的概率；K表示语音模数对应元数，比如当多元语音模型为三元语音模型时，K=3。

步骤S16，针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

具体而言，得到超文本标记语言HTML网页，包括：创建HTML文件的title和body标签；从语音文本信息表中按照id的正序以一组group_number只读取一条为条件循环读取video_id语音标识、voice_create_text预测文本和group_image_path视频帧组存储路径字段的值，并分别赋值给对应var_video_id、var_voice_create_text和var_group_image_path变量；对于每个段落，使用一个DIV标签存放var_voice_create_text值，并将DIV的margin_bottom值设置为15px；在DIV标签内部添加一个image图片标签，将group_image_path值赋给image的src属性，并将image标签的width设置为20%，style中的float设置为left；将循环生成的所有DIV标签及内部内容全部添加到body标签中，以生成一个以var_video_id值为文件名的HTML文件。

应当注意，上述var开头字符串用于表征变量，列表的键名和数据库的字段名不包括var开头字符串。

综上所述，本发明实施例通过对视频帧组对应的语音数据进行语音数据进行语音识别，以及通过OCR对相应视频帧组进行文字识别，从而根据识别文本确定是否对预测文本进行纠错，进而便于根据纠错后的预测文本及其对应的视频帧生成图文并茂的网页，节省了大量的时间，既保证了网页内容的准确性，又便于用户阅读，使读者能通过多种方式获取视频信息，且有利于利用搜索引擎对文字内容进行搜索。

下面对本发明提供的基于视频的图文网页生成装置进行描述，下文描述的基于视频的图文网页生成装置与上文描述的基于视频的图文网页生成方法可相互对应参照。

图2示出了一种基于视频的图文网页生成装置的结构示意图，该装置，包括：

数据获取模块21，获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；

语音识别模块22，对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；

文字识别模块23，根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；

纠错模块24，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；

更新模块25，基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；

网页生成模块26，针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

在本实施例中，数据获取模块21，包括：视频获取单元，获取目标视频；视频帧获取单元，基于预设间隔或预设视频起始时间，提取目标视频中的视频帧，得到视频帧序列。需要说明的是，在获取目标视频之后，可以利用诸如cv2.VideoCapture()等方式打开目标视频。

在一个可选实施例中，该装置，还包括：第一数据表创建模块，在获取视频帧序列之前，创建视频帧信息存储表，视频帧信息存储表包括多个字段，包括用于标记每条记录的标识编号id、视频唯一标识编号video_id、视频在服务器上的存储路径video_path、经处理后的视频帧存储路径image_path、视频帧所在视频帧组存储路径group_image_path、视频帧的开始时间start_time、视频帧的结束时间end_time、视频帧的质量评分quality_score、当前视频帧与上一视频帧的相似度simlary_score、标记是否为视频帧组的标识is_group_image、用于标记每组记录的视频帧组编号group_number和视频帧frame。

进一步地，视频获取单元，包括：视频获取子单元，获取源视频，将源视频作为目标视频；或者，视频获取子单元，获取源视频；视频提取子单元，基于目标间隔或目标视频起始时间，提取源视频中的视频，得到多段目标视频。

在一个可选实施例中，该装置，还包括：赋值模块，在获取目标视频之后，将目标视频按照一定顺序编号命名，并将编号对应赋值给变量var_video_id；同时将目标视频进行存储，将存储路径赋值给变量var_video_path。

另外，视频提取子单元，用于：基于视频帧所在视频帧组存储路径，提取对应的目标视频；基于目标视频，提取视频帧并将提取的视频帧赋值给变量var_frame。

在一个可选实施例中，视频获取单元，还包括：黑边处理子单元，在将提取的视频帧赋值给变量var_frame之后，对变量var_frame进行黑边处理，以去除对应视频帧边缘的黑边。需要补充的是，黑边处理可以采用cv2.copyMakeBorder()函数，此处不作过多限定。

在一个可选实施例中，视频获取单元，还包括：视频赋值子单元，在去除对应视频帧边缘的黑边之后，将黑边处理后的视频帧赋值或更新给变量var_frame，以及保存至指定位置，并将路径赋值给变量var_image_path；将每一视频帧对应目标视频的开始位置时间赋值给变量var_start_time；按start_time顺序为各视频帧赋予一个唯一标识编号并赋值给变量var_id；将var_video_id、var_video_path、var_id、var_frame、var_image_path、var_start_time值作为一条记录新增到视频帧信息存储表的字段video_id、video_path 、id、frame、image_path、start_time中，当前帧视频的start_time值更新到所述目标视频的前一帧视频记录的字段end_time中。

此外，数据获取模块21，还包括：质量检测单元，在基于预设间隔或预设视频起始时间，提取目标视频中的视频之后，对提取的各个视频帧分别进行质量检测，得到对应各视频帧的质量评分；相似度比较单元，将相邻视频帧转换为向量，并利用余弦相似度，得到对应相邻视频帧的图片相似度；分组单元，确定各个相邻视频帧的图片相似度大于图片预设阈值，以将对应所有相邻视频帧划分为同一视频帧组；视频帧获取单元，针对同一视频帧组，将质量评分最大的视频帧作为对应视频帧组的视频帧，得到视频帧序列。

需要说明的是，数据获取模块21，还包括：视频帧提取单元，在对提取的各个视频帧进行质量检测之前，从视频帧信息存储表中读取与目标视频相匹配的所有视频帧存储路径，并根据视频帧存储路径提取对应视频帧。

此外，质量检测单元，用于：根据提取的各个视频帧的轮廓质量和清晰度，得到对应质量评分。相应地，数据获取模块21，还包括：评分保存单元，将质量评分更新至视频帧信息存储表中对应记录的字段quality_score中。

应当补充的是，数据获取模块21，还包括：第一赋值单元，在质量检测单元将相邻视频帧转换为向量之前，将当前视频帧的image_path赋值给image_path2，将当前视频帧的在先一个视频帧的image_path赋值给image_path1；根据image_path1和image_path2，取出对应两帧相邻视频帧，并将其转化为向量，从而便于计算这两个向量之间的余弦相似度，以便于后续将计算得到的图片相似度更新至视频帧信息存储表中对应记录的字段simlary_score字段中。

相应地，分组单元，包括：字段检查单元，检查视频帧信息存储表中目标视频对应的所有simlary_score字段，若存在图片相似度大于图片预设阈值，则确定图片相似度对应image_path1和image_path2路径的两视频帧相似度较高，并将其归为同一视频帧组，从而便于后续在同一视频帧组中根据质量评分，从多个相似视频帧中选取一个质量评分quality_score最高的视频帧，并将选取的视频帧的id和image_path更新至视频帧信息存储表中对应记录的字段group_number和group_image_path，从而避免后续重复对相似视频帧进行处理，提高效率。

此外，数据获取模块21，还包括：视频获取单元，获取用于提取得到视频帧序列的目标视频；视频切分单元，基于视频帧序列中各视频帧组的起止时间，对目标视频进行切分，得到视频帧序列中各视频帧组对应的语音数据；其中，视频帧组的起止时间是根据对应视频帧组中第一帧的开始时间和最后一帧的结束时间确定的。需要说明的是，通过获取用于提取得到视频帧序列的目标视频，并根据各视频帧组的起止时间对目标视频进行切分，以便于使得到的语音数据与视频帧组一一对应。

具体而言，该装置还包括：第二数据表创建模块，在实际切分目标视频之前，创建组别信息存储表，组别信息存储表包括用于标记每条记录的标识编号id、目标视频唯一标识编号video_id（与视频帧信息存储表中的video_id关联）、用于标识每组记录的视频帧组编号group_number（与视频帧信息存储表中的group_number关联）、每组视频帧组存储路径group_image_path（与视频帧信息存储表中的group_image_path关联）、利用训练好的文字转换模型将语音转化为的预测文本voice_creat_text和通过Tesseract-OCR引擎对视频帧进行OCR识别出的识别文本ocr_text。

该装置还包括：第一信息确定模块，在创建组别信息存储表之后，根据视频帧序列，确定视频帧信息存储表中的video_id、video_path、group_number、start_time、end_time和group_image_path，并将其字段名称作为键、字段值作为值存储至在先创建的第一列表中。

在一个可选实施例中，视频切分单元，用于：利用预设命令对目标视频进行切分，预设命令可以预先基于切分需求设置，比如可以为mmpeg -i<input_video>-o<output_audio>-ss<start_time>-t<duration>，其中input_video参数值设置为video_path值，output_audio为当前行以video_id值、下划线、group_numer值、.wav生成的字符串，start_time为当前视频当前组的start_time值，duration等于end_time减去start_time的值，不断迭代生成目标视频的全部语音数据。

在一个可选实施例中，语音识别模块22，用于：利用Google Cloud Speech-to-Text API、百度智能云和/或腾讯云语音识别（Automatic Speech Recognition，ASR），对视频帧序列中各视频帧组对应的语音数据进行语音识别。

在另一可选实施例中，语音识别模块22，包括：将视频帧序列中各视频帧组对应的语音数据输入至文字转换模型中，得到文字转换模型输出的各视频帧组对应的语音数据的预测文本；其中，文字转换模型是基于语音训练文件和语音训练文件对应的文本标签训练得到的。

应当注意的是，该装置，还包括：格式转换模块，在对视频帧序列中各视频帧组对应的语音数据进行语音识别之前，循环所有语音数据，对每个语音数据进行分帧、提取MFCC特征矩阵并将其通过numpy转化和添加维度处理转换为适合卷积神经网络输入的格式。

在一个可选实施例中，该装置，还包括：模型创建模块，在将视频帧序列中各视频帧组对应的语音数据输入至文字转换模型中之前，创建神经网络网络模型；在神经网络网络模型中添加一个Conv1D层，且过滤器数量设置为64，卷积核大小设置为3，激活函数采用relu，输入形状设置为(13, 1)；在神经网络网络模型中添加一个MaxPooling1D层，将池化窗口大小参数设置为2；在神经网络网络模型中添加一个Dropout层，将丢弃率参数设置为0.5，用于防止过拟合；在神经网络网络模型中添加一个Flatten层，将卷积后的数据展平为一维向量；在神经网络网络模型中添加一个Dense层，神经元数量参数设置为64，激活函数采用relu；在神经网络网络模型中添加一个Dense层，参数神经元数量设置为1，激活函数采用sigmoid，用于输出二分类问题的预测结果；调用神经网络网络模型的编译方法，损失函数选择binary_crossentropy，优化器选择adam，评估指标选择accuracy；将神经网络网络模型的epochs参数设置为20、batch_size参数设置为32、validation_data参数设置为根据语音训练文件和语音训练文件对应的文本标签划分得到的测试集，以便在每个周期结束时在测试集上进行验证；调用神经网络网络模型的evaluate方法，将预测结果与文本标签进行对比，输出模型的准确率和损失率输出语音训练文件上的损失和准确率，并根据预测结果与文本标签构建损失函数，基于损失函数收敛，结束训练。

在一个可选实施例中，神经网络网络模型可以使用LAS模型。

在一个可选实施例中，该装置，还包括：预测文本存储模块，在得到文字转换模型输出的各视频帧组对应的语音数据的预测文本之后，将预测文本更新至第一列表对应的键voice_create_text中。

进一步地，该装置，还包括：信息表更新模块，在将预测文本更新至第一列表对应的键voice_create_text中之后，循环第一列表中存储的video_id、group_number、group_image_path、voice_create_text键值，以对应的键作为字段，以一条新记录存储到对应组别信息存储表中。

文字识别模块23，包括：字段读取单元，循环组别信息存储表中的记录，通过id字段正序读取，获取id和group_image_path字段的值；视频帧打开单元，根据group_image_path字段的值，打开对应视频帧；文字识别单元，使用Tesseract-OCR引擎，基于预设语言，对各视频帧组进行OCR识别，得到对应识别文本并存储在第一列表对应行的键ocr_text中；识别文本存储单元，将第一列表ocr_text的值更新至组别信息存储表中对应的ocr_text字段中。

在一个可选实施例中，该装置还包括：第三数据表创建模块，在确定预测文本中是否存在待纠正词之前，创建语音文本信息表，语音文本信息表包括用于标记每条记录的标识编号id、目标视频唯一标识编号video_id（与视频帧信息存储表中的video_id以及组别信息存储表中的video_id关联）、用于标记每组记录的视频帧组编号group_number（与视频帧信息存储表中的group_number以及组别信息存储表中的group_number关联）、每组视频帧组存储路径group_image_path（与视频帧信息存储表中的group_image_path以及组别信息存储表中的group_image_path关联）、利用训练好的文字转换模型将语音转化为的预测文本voice_creat_text、预测文本分词terms、预测文本分词在预测文本中的位置terms_position、预测文本分词对应的拼音terms_pinyin、识别文本分词correct_word、预测文本分词与识别文本分词之间的拼音相似度terms_correct_pinyin_siminary、待纠正词相对于待纠正词所属视频帧组对应预测文本的第一出现概率possible_term_sentence、待纠正词对应的识别文本分词相对于待纠正词所属视频帧组对应预测文本的第二出现概率possible_correct_sentence、用于标记是否需要将terms 替换为correct_word 的标识replace_correct_word （0不需要替换，1需要替换）。

在本实施例中，纠错模块24，包括：分词单元，针对每组视频帧组，利用结巴分别对相应预测文本和识别文本进行分词，得到对应预测文本分词和识别文本分词；相似度获取单元，根据预测文本分词和识别文本分词，利用拼音相似度，得到对应拼音相似度；纠错单元，基于拼音相似度大于拼音预设阈值，确定对应预测文本分词为待纠正词。

需要说明的是，纠错模块，还用于：在确定预测文本中是否存在待纠正词之前，针对每个目标视频，从组别信息存储表中按照对应id顺序读取数据，将id、group_image_path、group_number、voice_creat_text和ocr_text字段的值对应赋值给在先创建的第二列表中的键id、group_image_path、group_number 、voice_create_text、ocr_text。相应地，针对每组视频帧组对应的语音数据的预测文本和识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词，包括：利用结巴对第二列表中的voice_create_text键值进行分词；将产生的词长度大于1的集合进行循环得到预测文本分词，并以键terms命名存储至在先创建的第三列表中；将每个预测文本分词对应第二列表中的id、group_image_path、group_number 、voice_create_text键值以键id、group_image_path、group_number 、voice_create_text存储到第三列表对应行中；利用结巴对第二列表中的ocr_text键值进行分词，将产生的词长度大于1的集合以键correct命名存储到在先创建的第四列表中；遍历第三列表，将键terms的值赋给变量var_terms，使用pypinyin模型的lazy_pinyin方法将其转化为拼音并赋值给var_terms_pinyin，并将var_terms_pinyin的值存储到第三列表对应行的terms_pinyin键中；遍历第四列表，将键correct的值赋值给变量var_correct，使用pypinyin模型的lazy_pinyin方法将其转化为拼音并赋值给var_correct_pinyin，并将var_correct_pinyin的值存储到第四列表对应行的correc_pinyin键中；遍历第三列表作为一级外循环，将terms、terms_pinyin键值分别赋值给变量var_terms、var_terms_pinyin；遍历第四列表作为二级内嵌循环，将correct、correct_pinyin键值分别赋值给变量var_correct、var_correct_pinyin，将一级外循环中当前的var_terms_pinyin值和二级内循环中的每个var_correct_pinyin值进行拼音相似度计算，以将相似度最大的值进行归一化处理后赋值给变量var_max_terms_correct_pinyin_siminary，相似度值最大的值对应行的变量var_correct、var_correct_pinyin赋值给变量var_max_correct、var_max_correct_pinyin；将变量var_max_terms_correct_pinyin_siminary、var_max_correct、var_max_correct_pinyin值赋值给第三列表中当前行的max_terms_correct_pinyin_siminary、max_correct、max_correct_pinyin键中；遍历第三列表，将当前行的video_id、group_number、group_image_path、voice_create_text、terms、terms_pinyin、max_correct、max_correct_pinyin、max_terms_correct_pinyin_siminary的键值分别对应存储到语音文本信息表的video_id、group_number、group_image_path、voice_create_text、terms、terms_pinyin、correct_word、correct_word_pinyin、terms_correct_pinyin_siminary字段中。

更新模块25，包括：第一概率获取单元，根据待纠正词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第一出现概率；第二概率获取单元，根据待纠正词对应的识别文本分词和待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第二出现概率；文本替换单元，确定第二出现概率大于第一出现概率，则利用对应识别文本分词对对应待纠正词进行替换。

具体而言，更新模块25，用于：从语音文本信息表中读取与目标视频相匹配的所有数据，循环数据将每行的video_id、id、group_number、term、correct_word、voice_create_text字段的值分别赋值给变量var_video_id、var_id、var_group_number、var_term、var_correct_word、var_voice_create_text；将var_term、var_voice_correct_word放到三元语言模型中，得到var_term在var_voice_correct_word中的第一出现概率赋值给变量var_possible_term，将变量var_possible_term值更新到语音文本信息表video_id字段等于var_video_id值，id字段值等于var_id值所在记录的字段possible_term中；将var_correct_word、var_voice_correct_word放到三元语言模型中，得到var_correct_word在var_voice_create_text中的第二出现概率赋值给变量var_possible_correct，并将变量var_possible_correct值更新到语音文本信息表video_id字段等于var_video_id值，id字段值等于var_id值所在记录的字段possible_correct中；若var_possible_correct值大于var_possible_term值，则更新语音文本信息表中video_id字段等于var_video_id值，group_number字段等于var_group_number值的所有记录的voice_create_text值从term替换为correct_word。

需要补充的是，多元语音模型表示为：

P(w1,w2,...,wk) = P(w1)P(w2|w1)P(w3|w1,w2)...P(wk|w1,w2,...,wk-1)

网页生成模块26，包括：第一标签创建单元，创建HTML文件的title和body标签；信息读取单元，从语音文本信息表中按照id的正序以一组group_number只读取一条为条件循环读取video_id语音标识、voice_create_text预测文本和group_image_path视频帧组存储路径字段的值，并分别赋值给对应var_video_id、var_voice_create_text和var_group_image_path变量；数值设置单元，对于每个段落，使用一个DIV标签存放var_voice_create_text值，并将DIV的margin_bottom值设置为15px；第二标签创建单元，在DIV标签内部添加一个image图片标签，将group_image_path值赋给image的src属性，并将image标签的width设置为20%，style中的float设置为left；网页生成单元，将循环生成的所有DIV标签及内部内容全部添加到body标签中，以生成一个以var_video_id值为文件名的HTML文件。

综上所述，本发明实施例通过语音识别模块对视频帧组对应的语音数据进行语音数据进行语音识别，以及文字识别模块通过OCR对相应视频帧组进行文字识别，从而利用纠错模块根据识别文本确定是否对预测文本进行纠错，进而便于更新模块对预测文本进行更新，以便于网页生成模块根据纠错后的预测文本及其对应的视频帧生成图文并茂的网页，节省了大量的时间，既保证了网页内容的准确性，又便于用户阅读，使读者能通过多种方式获取视频信息，且有利于利用搜索引擎对文字内容进行搜索。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信。处理器31可以调用存储器33中的逻辑指令，以执行基于视频的图文网页生成方法，该方法包括：获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

此外，上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于视频的图文网页生成方法，该方法包括：获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于视频的图文网页生成方法，该方法包括：获取视频帧序列，视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取视频帧序列中各视频帧组对应的语音数据；对视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；根据视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定预测文本中是否存在待纠正词；基于预测文本中存在待纠正词，结合三元语言模型，利用对应识别文本对待纠正词进行替换，得到对应更新文本；针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与DIV标签关联的图片标签中，以根据各视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频的图文网页生成方法，其特征在于，包括：

获取视频帧序列，所述视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取所述视频帧序列中各视频帧组对应的语音数据；

对所述视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；

根据所述视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；

针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定所述预测文本中是否存在待纠正词；

基于所述预测文本中存在所述待纠正词，结合三元语言模型，利用对应识别文本对所述待纠正词进行替换，得到对应更新文本；

针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与所述DIV标签关联的图片标签中，以根据各所述视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页；

所述获取视频帧序列，包括：

获取目标视频；

基于预设间隔或预设视频起始时间，提取所述目标视频中的视频帧，得到视频帧序列；

在所述基于预设间隔或预设视频起始时间，提取所述目标视频中的视频帧之后，包括：

对提取的各个视频帧分别进行质量检测，得到对应各视频帧的质量评分；

将相邻视频帧转换为向量，并利用余弦相似度，得到对应相邻视频帧的图片相似度；

确定各个所述相邻视频帧的图片相似度大于图片预设阈值，以将对应所有相邻视频帧划分为同一视频帧组；

针对所述同一视频帧组，将质量评分最大的视频帧作为对应视频帧组的视频帧，得到视频帧序列；

所述针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定所述预测文本中是否存在待纠正词，包括：

针对每组视频帧组，利用结巴分别对相应预测文本和识别文本进行分词，得到对应预测文本分词和识别文本分词；

根据所述预测文本分词和所述识别文本分词，利用拼音相似度，得到对应拼音相似度；

基于所述拼音相似度大于拼音预设阈值，确定对应预测文本分词为待纠正词。

2.根据权利要求1所述的基于视频的图文网页生成方法，其特征在于，所述获取所述视频帧序列中各视频帧组对应的语音数据，包括：

获取用于提取得到视频帧序列的目标视频；

基于所述视频帧序列中各视频帧组的起止时间，对所述目标视频进行切分，得到所述视频帧序列中各视频帧组对应的语音数据；其中，所述视频帧组的起止时间是根据对应视频帧组中第一帧的开始时间和最后一帧的结束时间确定的。

3.根据权利要求1所述的基于视频的图文网页生成方法，其特征在于，所述对所述视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本，包括：

将所述各视频帧组对应的语音数据输入至文字转换模型中，得到所述文字转换模型输出的各视频帧组对应的预测文本；其中，所述文字转换模型是基于语音训练文件和所述语音训练文件对应的文本标签训练得到的。

4.根据权利要求1所述的基于视频的图文网页生成方法，其特征在于，所述基于所述预测文本中存在所述待纠正词，结合三元语言模型，利用对应识别文本对所述待纠正词进行替换，得到对应更新文本，包括：

根据所述待纠正词和所述待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第一出现概率；

根据所述待纠正词对应的识别文本分词和所述待纠正词所属视频帧组对应预测文本，利用三元语言模型，得到第二出现概率；

确定所述第二出现概率大于所述第一出现概率，则利用对应识别文本分词对对应待纠正词进行替换。

5.一种基于视频的图文网页生成装置，其特征在于，包括：

数据获取模块，获取视频帧序列，所述视频帧序列中包括至少一组基于图片相似度划分的视频帧，以及获取所述视频帧序列中各视频帧组对应的语音数据；

语音识别模块，对所述视频帧序列中各视频帧组对应的语音数据进行语音识别，得到对应各语音数据的预测文本；

文字识别模块，根据所述视频帧序列，利用OCR文字识别，得到对应各视频帧组的识别文本；

纠错模块，针对每组视频帧组，基于对应预测文本和对应识别文本，结合结巴分词和拼音相似度，确定所述预测文本中是否存在待纠正词；

更新模块，基于所述预测文本中存在所述待纠正词，结合三元语言模型，利用对应识别文本对所述待纠正词进行替换，得到对应更新文本；

网页生成模块，针对每组视频帧组，将对应更新文本或预测文本存放至区隔标记DIV标签中，以及将对应视频帧存放至与所述DIV标签关联的图片标签中，以根据各所述视频帧组对应的DIV标签和图片标签，得到超文本标记语言HTML网页；

所述数据获取模块，包括：

视频获取单元，获取目标视频；

视频帧获取单元，基于预设间隔或预设视频起始时间，提取所述目标视频中的视频帧，得到视频帧序列；

所述数据获取模块，还包括：

质量检测单元，在所述基于预设间隔或预设视频起始时间，提取所述目标视频中的视频帧之后，对提取的各个视频帧分别进行质量检测，得到对应各视频帧的质量评分；

相似度比较单元，将相邻视频帧转换为向量，并利用余弦相似度，得到对应相邻视频帧的图片相似度；

分组单元，确定各个所述相邻视频帧的图片相似度大于图片预设阈值，以将对应所有相邻视频帧划分为同一视频帧组；

视频帧获取单元，针对所述同一视频帧组，将质量评分最大的视频帧作为对应视频帧组的视频帧，得到视频帧序列；

所述纠错模块，包括：

分词单元，针对每组视频帧组，利用结巴分别对相应预测文本和识别文本进行分词，得到对应预测文本分词和识别文本分词；

相似度获取单元，根据所述预测文本分词和所述识别文本分词，利用拼音相似度，得到对应拼音相似度；

纠错单元，基于所述拼音相似度大于拼音预设阈值，确定对应预测文本分词为待纠正词。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述基于视频的图文网页生成方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于视频的图文网页生成方法的步骤。