CN117219067B

CN117219067B - 一种基于语音理解的短视频自动生成字幕的方法及系统

Info

Publication number: CN117219067B
Application number: CN202311254680.5A
Authority: CN
Inventors: 李志阳; 孔丽红; 李鸿禹; 栾晓静
Original assignee: Beijing Huaxing Kuyu Culture Media Co ltd
Current assignee: Beijing Huaxing Kuyu Culture Media Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-04-09
Anticipated expiration: 2043-09-27
Also published as: CN117219067A

Abstract

本发明公开了一种基于语音理解的短视频自动生成字幕的方法及系统，用于自然语言处理领域，该方法包括以下步骤：收集短视频的语音数据样本和文本数据；构建语音识别模型，同时依据文本数据构建语言理解模型；通过改进Bagging算法构建端到端语音理解模型；结合阈值法和视频信息的端点检测算法，提取出音频数据；将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；将文本语义信息与视频时序信息相结合，自动渲染生成字幕；提供交互接口，对语音识别的错误结果进行校正。本发明共享语义表示，两任务互促进，语音编码器提取的语义特征可同时服务于语音识别和语言理解任务，两任务在统一模型中进行联合优化。

Description

一种基于语音理解的短视频自动生成字幕的方法及系统

技术领域

本发明涉及自然语言处理领域，具体来说，尤其涉及一种基于语音理解的短视频自动生成字幕的方法及系统。

背景技术

短视频是一种在各种新媒体平台上广泛分享和播放的内容形式，特别适合在移动设备上观看，以满足人们在短暂的休闲时间内的娱乐需求。这种类型的视频通常时长不超过五分钟，自2016年以来，通过其易于创作、强社交特性和碎片化的娱乐性质，已经在中国乃至全球范围内流行开来。短视频已经成为了网红记录和分享生活的主要手段，也为观众提供了娱乐和发现新事物的新方式。它甚至还被用作品牌推广，也为独立创作者提供了利益来源。

短视频的制作包括内容策划、视频拍摄和后期处理等步骤。其中，字幕生成是后期处理的重要部分，通常需要作者手动完成，这个过程可能会消耗大量的时间和精力。尽管当前市场上存在一些可以自动生成字幕的软件，但这些软件主要依赖视频中的音频信息。如果视频中没有清晰的音频信息，这些软件就无法提取出文字。在实际生活中，普通用户可能希望通过短视频记录生活，但他们可能会觉得边拍摄边解说很尴尬。如果选择在拍摄后再录制音频，又会回到初始的时间和精力消耗问题。因此，对于没有音频背景的短视频，如何自动生成字幕是一个待解决的问题。

文本生成技术在许多场景中都有广泛的应用，包括信息提取、问答系统、文字创作等任务。例如，问答系统使得聊天机器人的出现成为可能，文字创作使得机器人能够编写歌词和作曲。同时，跨模态的文本生成也是近年来的研究热点。跨模态技术需要结合图像、音频和语言处理技术。常见的应用包括“看图说话”以及为教学视频自动生成字幕等。

目前的语音识别和语义理解模型存在一些关键的问题和局限性；首先，这两个模型的训练过程是独立的，这使得语音特征无法共享，且语音与语义之间的对应关系建模较弱；同时，语音识别作为中间监督信号的潜力并没有被充分利用，导致语音编码器对语音序列的建模能力不足；此外，这两个模型的评估指标体系不同，造成优化目标不清晰；训练流程的复杂性也使得模型的部署和使用变得困难；基于RNN的解码器在建模语音和语义的长程依赖关系方面也存在问题；同时，用户交互界面简单，用户体验较差，无法实现自动学习和优化；字幕渲染和结果展示方式单一，缺乏可读性和趣味性；最后，模型的自定义选项有限，无法满足不同用户的个性化需求。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

为了克服以上问题，本发明旨在提出一种基于语音理解的短视频自动生成字幕的方法及系统，目的在于解决目前的语音识别和语义理解模型存在一些关键的问题和局限性的问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于语音理解的短视频自动生成字幕的方法，该短视频自动生成字幕的方法包括以下步骤：

S1、收集短视频的语音数据样本和文本数据；

S2、依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型；

S3、通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型；

S4、结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据；

S5、将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；

S6、将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面；

S7、提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正。

可选地，收集短视频的语音数据样本和文本数据包括以下步骤：

S11、从视频分享网站的公开渠道收集覆盖不同场景、话题的短视频；

S12、对收集的短视频进行处理，提取音频轨道，获取语音数据样本；

S13、对语音数据样本进行分割，获取语音段，并对语音段进行标注；

S14、从网络资源和电子书籍收集海量不同题材、风格的文本数据；

S15、对文本数据进行处理，并建文本语料库；

S16、从文本语料库中抽取句子，标注句法结构，构建文本训练数据集。

可选地，依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型包括以下步骤：

S21、基于标注的语音段，构建语音识别模型；

S22、通过迁移学习法优化语音识别模型的参数，提升语音识别的准确率；

S23、基于文本训练数据集，构建语言理解模型；

S24、通过迁移学习法优化语言理解模型对指定领域的适应性；

S25、评估语音识别模型和语言理解模型的性能，并进行迭代优化。

可选地，通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型包括以下步骤：

S31、对语音数据进行特征提取，获取语音特征矩阵；

S32、对文本数据进行词汇编码，获取文本特征矩阵；

S33、基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本；

S34、使用Botstrap算法对训练样本进行抽样，生成子集，并利用子集训练基学习器；

S35、在子集上训练连接了语音编码器和文本解码器的端到端语音理解模型，获得训练好的基学习器；

S35、对新输入的语音样本，利用训练好的基学习器进行语音理解，并通过模型融合获得最终理解结果。

可选地，基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本包括以下步骤：

S331、计算语音特征矩阵和文本特征矩阵之间的关联度，获得关联度矩阵；

S332、对新输入的语音特征向量，计算语音特征向量与语音特征矩阵中各语音特征向量的关联度，获得关联度向量；

S333、通过关联度向量在文本特征矩阵中的投影，获得语音特征向量与各文本特征的关联度；

S334、选择与语音特征向量关联度最高的文本特征向量作为训练样本；

S335、重复步骤S331至S334的步骤，获取全部的语音与文本训练样本对；

S336、使用语音与文本训练样本对训练端到端语音理解模型。

可选地，使用Botstrap算法对训练样本进行抽样，生成子集，并利用子集训练基学习器包括以下步骤：

S341、获取语音与文本训练样本，并设置基学习器数量；

S342、使用Botstrap算法从训练样本中进行有放回随机采样，获得大小与原训练样本相等的子集；

S343、重复执行S341至S342的步骤，并获得多个大小相等的子集；

S344、利用子集分别训练语音编码器模型和文本解码器模型，并连接为基学习器；

S345、利用基学习器对语音样本进行编码、解码和融合，输出文本。

可选地，结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据包括以下步骤：

S41、提取音频数据的短时帧特征，计算音频能量和过零率作为音频端点置信度；

S42、通过视频人脸识别和口型识别算法计算视频端点置信度；

S43、将音频端点置信度和视频端点置信度输入端点检测模型；

S44、端点检测模型融合音视频信息，输出端点概率；

S45、根据端点概率，确定端点初步位置；

S46、在端点附近进行阈值调整，精确定位终点，并提取音频数据。

可选地，将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息包括以下步骤：

S51、获取音频数据，并对音频数据进行帧块化，提取音频特征；

S52、将音频特征输入到端到端语音理解模型的语音编码器中；

S53、语音编码器使用卷积神经网络进行语音序列建模，输出语音的高级特征表示；

S54、将语音高级特征表示输入到集成注意力机制的解码器模块；

S55、解码器模块使用Trans former网络对语音特征进行语义解码，并通过注意力机制捕捉语音特征和输出语义之间的相关性，输出文本描述结果；

S56、对文本描述结果进行格式化处理，获得文本语义信息，并将文本语义信息与原音频序列对齐，得到语音对应的语义文本。

可选地，解码器模块使用Trans former网络对语音特征进行语义解码，并通过注意力机制捕捉语音特征和输出语义之间的相关性，输出文本描述结果包括以下步骤：

S551、初始化Trans former网络的解码器模型；

S552、将语音编码器输出的语音高级特征表示序列作为解码器模型的输入；

S553、在解码器模型的多头自注意力模块中，计算输入语音特征的多头自注意力，学习语音特征的内部关联；

S554、在解码器模型的多头交叉注意力模块中，计算语音特征与输出语义的多头交叉注意力，学习两者之间的相关性；

S555、通过前馈全连接层生成输出语义的高级语义特征表示；

S556、对高级语义特征表示进行softmax分类，预测输出语义标签；

S557、重复执行S553-S556的步骤，直到输出完全的语义标签；

S558、对语义标签的输出结果进行处理，生成格式化的文本描述。

根据本发明的另一个方面，还提供了一种基于语音理解的短视频自动生成字幕的系统，该系统包括：数据采集模块、模型构建模块、模型融合模块、语音分割模块、语音理解模块、字幕渲染模块及交互反馈模块；

数据采集模块，用于收集短视频的语音数据样本和文本数据；

模型构建模块，用于依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型；

模型融合模块，用于通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型；

语音分割模块，用于结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据；

语音理解模块，用于将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；

字幕渲染模块，用于将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面；

交互反馈模块，用于提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正。

相较于现有技术，本申请具有以下有益效果：

1、本发明共享语义表示，两任务互促进，语音编码器提取的语义特征可同时服务于语音识别和语言理解任务，两任务在统一模型中进行联合优化，相互促进；引入语音识别作为中间监督信号，帮助语音序列建模，语音识别作为辅助任务，其训练可以指导语音编码器学习对语音序列的建模，从而增强语音理解模型的语音分析能力；加强语音与语义的对应关系建模，加入语音和语义一致性的监督，可以直接优化语音理解的效果。

2、本发明采用动态权重调整，平衡不同任务，根据各任务指标动态调整权重，使其协同训练，防止过度偏向任一任务；提供端到端的语音理解框架，无需独立训练语音识别和语言理解模型，直接端到端训练，简化流程；统一的评估指标体系，可以关注语音识别准确率、语义理解效果等指标，全面评估系统效果。

3、本发明利用了Trans former的并行计算结构，计算效率高，其多头注意力机制可以高效模拟语音和语义之间的相关性，多头注意力机制可以同时学习语音的不同语义解释，增强模型的语义建模能力，编码器与解码器结构可以充分利用语音特征，进行顺序语义解码，适合语音理解任务，相比RNN等循环结构，Trans former对长距离依赖建模更强，可以捕捉语音和语义之间的长程关联，基于大量语音语义标注数据进行预训练，使得模型更好地适配语音理解任务，可以进行多任务学习，同时完成语音识别和语言理解，相互促进，注意力机制可以关注语音关键词与语义关键词之间的相关性，实现精确语音理解，模型参数可以进行微调，快速适配不同领域的语音理解应用。

4、本发明提高了结果的可读性和可理解性，如生成简洁的字幕、增加情感标注等，这提升了用户的使用体验，拓展了系统的应用范围，如支持多语言翻译，这使产品适用群体更广，提高了交互效率，如支持语音反馈、提供候选结果等，这减轻了用户工作量，增强了系统的智能性，如分析用户修改模式进行模型优化，这实现了自动学习和优化，让交互过程更友好，如文字标注、流程引导等，这提升了用户体验，提供了自定义选项，如调整字幕格式、交互方式等，这满足了不同用户的个性化需求。

附图说明

结合实施例的以下描述，本发明的上述特性、特征和优点及其实现方式和方法变得更明白易懂，实施例结合附图详细阐述。在此以示意图示出：

图1是根据本发明实施例的一种基于语音理解的短视频自动生成字幕的方法的流程图；

图2是根据本发明实施例的一种基于语音理解的短视频自动生成字幕的系统的原理框图。

图中：

1、数据采集模块；2、模型构建模块；3、模型融合模块；4、语音分割模块；5、语音理解模块；6、字幕渲染模块；7、交互反馈模块。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据本发明的实施例，提供了一种基于语音理解的短视频自动生成字幕的方法及系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明的一个实施例，提供了一种基于语音理解的短视频自动生成字幕的方法，该短视频自动生成字幕的方法包括以下步骤：

S1、收集短视频的语音数据样本和文本数据。

优选地，收集短视频的语音数据样本和文本数据包括以下步骤：

S15、对文本数据进行处理，并建文本语料库；

需要解释说明的是，在收集语音和文本训练数据样本时，我们还可以考虑采用数据增强的方法，以扩充样本量和增加样本多样性。对语音数据，可以进行添加噪声、变速、变调等处理来增强样本。这可以提高模型的鲁棒性，增强其适应不同环境的能力。对文本数据，可以采用反义词替换、随机删除、语序打乱等来增强语言模型的语义理解能力。另外，可以构建语音和对应文本之间的匹配对，作为端到端语音理解模型的监督训练数据。这可以帮助模型更好地学习语音和文本语义之间的对应关系。总体而言，高质量和充足的训练数据是构建高性能语音理解模型的基础。采用合理的训练数据增强策略，可以进一步扩充样本空间的多样性，提升模型的泛化能力。

S2、依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型。

优选地，依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型包括以下步骤：

S21、基于标注的语音段，构建语音识别模型；

S23、基于文本训练数据集，构建语言理解模型；

需要解释说明的是，构建高效的语音识别和语言理解模型，需要选择合适的模型结构和算法，对语音识别模型，除了标准的RNN(循环神经网络)、CNN(卷积神经网络)结构，还可以考虑使用基于注意力机制的转录器结构，或结合声学模型的序列到序列结构。这可以直接对语音进行转录，无需明确的语音段检测和对齐，对语言理解模型，并进行迁移学习。这可以充分利用大规模文本语料进行预训练，然后快速适配到下游任务，此外，可以研究多任务学习框架，联合训练语音识别和语言理解模型，实现多任务共享。这可以加强两个模型的语义建模能力，评估指标方面，可以关注识别准确率。迭代优化时，可以采用各种正则化方法防止过拟合，综上，选择合适的模型结构和学习策略，对构建高效语音理解系统非常重要。这需要结合具体应用场景进行设计和评估。

S3、通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型。

优选地，通过改进Bagging算法(一种用来提高学习算法准确度的方法)，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型包括以下步骤：

S31、对语音数据进行特征提取，获取语音特征矩阵；

S32、对文本数据进行词汇编码，获取文本特征矩阵；

S34、使用Botstrap算法(自助法算法)对训练样本进行抽样，生成子集，并利用子集训练基学习器；

优选地，基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本包括以下步骤：

其中，关联度的计算公式如下：

式中，ρ是常数；

|Δx_i(k)-Δx_j(k)|为数据序列，

Δx_i和Δx_j在k时间点的增量的绝对差值；

ξ_(i，j)为各语音特征向量的关联度。

S336、使用语音与文本训练样本对训练端到端语音理解模型。

优选地，使用Botstrap算法对训练样本进行抽样，生成子集，并利用子集训练基学习器包括以下步骤：

S341、获取语音与文本训练样本，并设置基学习器数量；

需要解释说明的是，在融合语音识别和语言理解模型构建端到端语音理解系统时，可以考虑采用多任务学习框架，实现模型的多目标联合训练。具体来说，可以构建一个统一的编码器-解码器结构模型，编码器同时学习语音和文本特征，解码器同时完成语音识别和语言理解两个任务的训练。在这个过程中，两个任务之间可以共享编码器提取的语义表示，相互促进。另外，也可以在模型中加入针对语音和语义一致性的监督，引导模型学习语音与语义之间的对应关系。这可以加强模型的语音理解能力。在模型优化时，可以关注语音识别准确率、语义标签准确率以及语音语义一致性等多项指标，采用多任务学习中的动态权重调整策略，平衡不同任务的训练过程。总体来说，端到端语音理解系统需要语音识别和语义理解能力的深度融合。多任务学习提供了很好的实现框架和思路。

S4、结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据。

优选地，结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据包括以下步骤：

S44、端点检测模型融合音视频信息，输出端点概率；

S45、根据端点概率，确定端点初步位置；

需要解释说明的是，在语音端点检测任务中，可以采用基于深度学习的检测算法，以进一步提高检测精度。例如，可以构建卷积神经网络或循环神经网络模型，直接对语音信号进行建模，端到端地输出语音段的概率或置信度。相比传统方法，深度学习模型通过大量标注数据训练，可以学习更抽象的语音特征，对噪声环境更具鲁棒性。此外，可以研究在端点检测模型中加入注意力机制，自动学习对不同语音帧的重要性，从而更准确地定位端点位置。端点检测的训练数据中，也可以考虑加入不同背景噪声或复杂环境中的语音样本，增强模型的适应性。总之，端点检测算法可以引入更多先进的深度学习技术，如注意力机制、增强数据等，以提升在实际应用中的健壮性和可靠性。

S5、将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息。

优选地，将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息包括以下步骤：

S55、解码器模块使用Trans former网络(变压器网络)对语音特征进行语义解码，并通过注意力机制捕捉语音特征和输出语义之间的相关性，输出文本描述结果；

优选地，解码器模块使用Trans former网络对语音特征进行语义解码，并通过注意力机制捕捉语音特征和输出语义之间的相关性，输出文本描述结果包括以下步骤：

S551、初始化Trans former网络的解码器模型；

S555、通过前馈全连接层生成输出语义的高级语义特征表示；

S556、对高级语义特征表示进行softmax(归一化指数函数)分类，预测输出语义标签；

S557、重复执行S553-S556的步骤，直到输出完全的语义标签；

需要结束说明的是，在端到端语音理解模型的训练过程中，可以采用多任务学习框架，加入语音识别作为辅助任务，实现语音转录和语义理解的联合多任务学习。具体来说，可以在模型中加入一个语音识别分支，同时学习生成文本并预测语义标签。这可以充分利用语音识别作为中间监督信号，帮助语音编码器学习对语音序列的建模。另外，也可以研究采用知识蒸馏的思想，先训练一个大规模的教师语音识别模型，然后转移其知识到端到端语音理解模型中，进一步提升语音编码的效果。在解码器模块中，除了Trans former结构，也可以尝试使用基于门控循环单元的解码器，在循环模型中集成注意力机制。总之，可以通过多任务学习、知识蒸馏等方式，增强端到端语音理解模型对语音序列建模和语义解码的能力。

S6、将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面。

需要结束说明的是，在将文本语义信息渲染生成字幕的过程中，我们还可以引入以下技术进行优化：对语义文本进行压缩和精简，生成简洁明了的字幕关键信息。这可以提高字幕的可读性。应用多语言翻译技术，支持将字幕渲染到不同语言版本，扩大使用范围。通过情感分析技术，插入情感标注或表情符号，使字幕更生动有趣。采用字体识别和风格迁移算法，将字幕渲染成与视频场景相匹配的风格，提高用户体验。在可视化界面中，增加交互功能，允许用户自定义字幕格式、字体、颜色等。支持通过拖拽方式调整字幕在屏幕上的位置，使其不遮挡重要信息，大大增强自动生成字幕的智能化和趣味性，提供更好的用户体验。

需要结束说明的是，在提供交互接口进行结果校正时，还可以增加以下功能来优化用户体验：支持语音输入反馈，用户可以直接对错误结果进行语音校正，提高交互效率，设计交互流程引导用户对关键错误进行校正，避免用户遗漏错误，收集用户修改的文本，增加到语料库中，增强语音理解模型的训练，通过聚类分析用户修改模式，自动识别语音识别易错类型，进行模型优化，在用户修改时，提供候选结果列表供用户选择，减少修改工作量，支持批量校正重复出现的错误，避免用户重复操作，在可视化界面中，用颜色标注用户修改的部分，便于检查，提供用户自定义配置，调整校正方式、交互流程等。

根据本发明的另一个实施例，如图2所示，还提供了一种基于语音理解的短视频自动生成字幕的系统，该系统包括：数据采集模块1、模型构建模块2、模型融合模块3、语音分割模块4、语音理解模块5、字幕渲染模块6及交互反馈模块7；

数据采集模块1，用于收集短视频的语音数据样本和文本数据；

模型构建模块2，用于依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型；

模型融合模块3，用于通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型；

语音分割模块4，用于结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据；

语音理解模块5，用于将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；

字幕渲染模块6，用于将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面；

交互反馈模块7，用于提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正。

综上所述，借助于本发明的上述技术方案，本发明共享语义表示，两任务互促进，语音编码器提取的语义特征可同时服务于语音识别和语言理解任务，两任务在统一模型中进行联合优化，相互促进；引入语音识别作为中间监督信号，帮助语音序列建模，语音识别作为辅助任务，其训练可以指导语音编码器学习对语音序列的建模，从而增强语音理解模型的语音分析能力；加强语音与语义的对应关系建模，加入语音和语义一致性的监督，可以直接优化语音理解的效果；采用动态权重调整，平衡不同任务，根据各任务指标动态调整权重，使其协同训练，防止过度偏向任一任务；提供端到端的语音理解框架，无需独立训练语音识别和语言理解模型，直接端到端训练，简化流程；统一的评估指标体系，可以关注语音识别准确率、语义理解效果等指标，全面评估系统效果；本发明利用了Trans former的并行计算结构，计算效率高，其多头注意力机制可以高效模拟语音和语义之间的相关性，多头注意力机制可以同时学习语音的不同语义解释，增强模型的语义建模能力，编码器与解码器结构可以充分利用语音特征，进行顺序语义解码，适合语音理解任务，相比RNN等循环结构，Trans former对长距离依赖建模更强，可以捕捉语音和语义之间的长程关联，基于大量语音语义标注数据进行预训练，使得模型更好地适配语音理解任务，可以进行多任务学习，同时完成语音识别和语言理解，相互促进，注意力机制可以关注语音关键词与语义关键词之间的相关性，实现精确语音理解，模型参数可以进行微调，快速适配不同领域的语音理解应用；本发明提高了结果的可读性和可理解性，如生成简洁的字幕、增加情感标注等，这提升了用户的使用体验，拓展了系统的应用范围，如支持多语言翻译，这使产品适用群体更广，提高了交互效率，如支持语音反馈、提供候选结果等，这减轻了用户工作量，增强了系统的智能性，如分析用户修改模式进行模型优化，这实现了自动学习和优化，让交互过程更友好，如文字标注、流程引导等，这提升了用户体验，提供了自定义选项，如调整字幕格式、交互方式等，这满足了不同用户的个性化需求。

虽然本发明已以较佳实施例揭示如上，然所述实施例仅为了便于说明而举例而已，并非用以限定本发明，本领域的技术人员在不脱离本发明精神和范围的前提下可作若干的更动与润饰，本发明所主张的保护范围应以权利要求书所述为准。

Claims

1.一种基于语音理解的短视频自动生成字幕的方法，其特征在于，该短视频自动生成字幕的方法包括以下步骤：

S1、收集短视频的语音数据样本和文本数据；

S7、提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正；

所述通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型包括以下步骤：

S31、对语音数据进行特征提取，获取语音特征矩阵；

S32、对文本数据进行词汇编码，获取文本特征矩阵；

S35、对新输入的语音样本，利用训练好的基学习器进行语音理解，并通过模型融合获得最终理解结果；

所述基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本包括以下步骤：

S336、使用语音与文本训练样本对训练端到端语音理解模型。

2.根据权利要求1所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述收集短视频的语音数据样本和文本数据包括以下步骤：

S15、对文本数据进行处理，并建文本语料库；

3.根据权利要求2所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型包括以下步骤：

S21、基于标注的语音段，构建语音识别模型；

S23、基于文本训练数据集，构建语言理解模型；

4.根据权利要求1所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述使用Botstrap算法对训练样本进行抽样，生成子集，并利用子集训练基学习器包括以下步骤：

S341、获取语音与文本训练样本，并设置基学习器数量；

5.根据权利要求1所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据包括以下步骤：

S44、端点检测模型融合音视频信息，输出端点概率；

S45、根据端点概率，确定端点初步位置；

6.根据权利要求1所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息包括以下步骤：

7.根据权利要求6所述的一种基于语音理解的短视频自动生成字幕的方法，其特征在于，所述解码器模块使用Trans former网络对语音特征进行语义解码，并通过注意力机制捕捉语音特征和输出语义之间的相关性，输出文本描述结果包括以下步骤：

S551、初始化Trans former网络的解码器模型；

S555、通过前馈全连接层生成输出语义的高级语义特征表示；

S557、重复执行S553-S556的步骤，直到输出完全的语义标签；

8.一种基于语音理解的短视频自动生成字幕的系统，用于实现权利要求1-7中任一项所述的基于语音理解的短视频自动生成字幕的方法，其特征在于，该系统包括：数据采集模块、模型构建模块、模型融合模块、语音分割模块、语音理解模块、字幕渲染模块及交互反馈模块；

所述数据采集模块，用于收集短视频的语音数据样本和文本数据；

所述模型构建模块，用于依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型；

所述模型融合模块，用于通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型；

所述语音分割模块，用于结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据；

所述语音理解模块，用于将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；

所述字幕渲染模块，用于将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面；

所述交互反馈模块，用于提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正。