CN117371433A

CN117371433A - 一种标题预测模型的处理方法和装置

Info

Publication number: CN117371433A
Application number: CN202311490760.0A
Authority: CN
Inventors: 肖立; 朱勇钢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-01-09
Anticipated expiration: 2043-11-09
Also published as: CN117371433B

Abstract

本发明实施例涉及一种标题预测模型的处理方法和装置，所述方法包括：构建标题预测模型、模型训练网络；基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于二阶段训练数据集对文本向量解码模型进行二阶段训练；标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将第一音频和第一反向扩散总步数输入标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对第一标题文本进行显示。通过本发明可以提高预测标题文本的多样性。

Description

一种标题预测模型的处理方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种标题预测模型的处理方法和装置。

背景技术

音频标题生成技术的目标是为音频片段生成符合内容的自然语言描述。现有的音频标题生成方法主要使用来自自然语言处理领域的评价指标进行评价，这些指标常见的有单词相似度、子序列匹配度等。但这些评价指标只专注于音频标题生成的准确性，而忽略了生成的多样性。通过研究我们发现与扩散模型(诸如DDIM模型)相结合的图像自动标注模型可以在确保标注准确度的前提下实现图像的多样性标注效果；若能将DDIM模型算法结合到音频标题生成方案中也能达到提高音频标题多样性的目的。所以，如何将DDIM模型算法结合到音频标题生成方案中就是本发明需要解决的技术问题。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种标题预测模型的处理方法、装置和电子设备；本发明将DDIM(Denoising Diffusion Implicit Models)反向扩散算法结合到音频标题预测方案中并由此构建出一个对应的标题预测模型，该预测模型由音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型组成；并为该预测模型构建一个对应的模型训练网络用来进行模型训练；并基于该模型训练网络给出一个两阶段训练方案来具体实施训练：1)在第一阶段中，基于DDIM模型的反向扩散算法构建优化目标函数L_simple来训练音频特征提取模型和文本向量去噪模型，并对过程数据进行采集构建出对应的二阶段训练数据集；2)在第二阶段中，基于二阶段训练数据集对文本向量解码模型进行模型参数微调；并在模型训练结束后使用该标题预测模型对任意音频进行标题文本预测处理，并对预测结果进行显示。本发明给出了一种与DDIM模型算法相结合的音频标题预测机制，通过本发明可以提高预测标题文本的多样性。

为实现上述目的，本发明实施例第一方面提供了一种标题预测模型的处理方法，所述方法包括：

构建标题预测模型；所述标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型；

构建模型训练网络；所述模型训练网络包括文本向量编码模型、文本向量噪声添加模块、所述音频特征提取模型、所述文本向量去噪模型、所述DDIM反向扩散算法模块、所述反向扩散计数模块和所述文本向量解码模型；

基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练；

所述标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将所述第一音频和所述第一反向扩散总步数输入所述标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对所述第一标题文本进行显示。

优选的，所述音频特征提取模型用于根据模型输入的音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；

所述音频特征提取模型的输入端与所述标题预测模型的第一输入端连接，输出端与所述文本向量去噪模型的第一输入端连接；所述音频特征提取模型用于对所述标题预测模型输入的音频进行音频特征提取处理生成对应的音频特征张量A向所述文本向量去噪模型发送；

所述文本向量初始化模块的第一输出端与所述文本向量去噪模型的第二输入端连接、第二输出端与所述DDIM反向扩散算法模块的第一输入端连接；所述文本向量初始化模块用于向预设的文本向量模板中添加随机噪声得到一个对应的输入文本向量X_t＝T，并将所述输入文本向量X_t＝T分别向所述文本向量去噪模型和所述DDIM反向扩散算法模块发送；所述随机噪声满足高斯噪声特征；

所述文本向量去噪模型的第三输入端与所述DDIM反向扩散算法模块的输出端连接，所述文本向量去噪模型的输出端与所述反向扩散计数模块的第一输入端连接；所述文本向量去噪模型用于在所述DDIM反向扩散算法模块的输出端没有反馈时，根据所述输入文本向量X_t＝T和所述音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Z_t向所述反向扩散计数模块发送；所述文本向量去噪模型还用于在所述DDIM反向扩散算法模块的输出端反馈了输入文本向量X_t-1时，根据所述输入文本向量X_t-1和所述音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Z_t-1向所述反向扩散计数模块发送；

所述反向扩散计数模块的第二输入端与所述标题预测模型的第二输入端连接，所述反向扩散计数模块的第一输出端与所述DDIM反向扩散算法模块的第二输入端连接、第二输出端与所述文本向量解码模型的输入端连接；所述反向扩散计数模块用于在接收到所述标题预测模型输入的所述反向扩散总步数T时，将本地的第一计数器的计数值初始化为所述反向扩散总步数T；所述反向扩散计数模块还用于在每次接收到所述文本向量去噪模型发送的去噪文本向量时对所述第一计数器减1，并对减1后的所述第一计数器是否为1进行识别，若是则将当次接收到的去噪文本向量作为对应的去噪文本向量Z_t＝1向所述文本向量解码模型发送，若否则将将当次接收到的去噪文本向量作为对应的去噪文本向量Z_t>1向所述DDIM反向扩散算法模块发送；

所述DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对所述去噪文本向量Z_t>1进行反向扩散处理得到对应的所述输入文本向量X_t-1向所述文本向量去噪模型反馈；

所述文本向量解码模型的输出端与所述音频特征提取模型的输出端连接；所述文本向量解码模型用于对所述去噪文本向量Z_t＝1进行文本向量解码处理得到对应的向量解码文本，并将所述向量解码文本作为对应的所述预测标题文本向所述音频特征提取模型的输出端发送。

进一步的，所述音频特征提取模型基于PANN特征提取器的模型结构实现；

所述文本向量解码模型基于BART模型的解码器结构实现，并预先通过开放数据集对所述文本向量解码模型完成预训练。

进一步的，所述文本向量去噪模型以transformer模型的编码器结构为参考，由模块数量N个第一编码器模块顺次连接而成；所述模块数量N为大于0的整数；所述第一编码器模块由自注意力单元、互注意力单元和前馈神经单元组成；所述自注意力单元与所述互注意力单元连接；所述互注意力单元与所述前馈神经单元连接；

所述文本向量去噪模型在进行文本向量去噪处理时，将当次所述文本向量初始化模块或所述DDIM反向扩散算法模块发送的输入文本向量作为对应的当前模块输入向量；并将所述当前模块输入向量输入第一个所述第一编码器模块，由当前编码器模块对所述当前模块输入向量进行Q、K、V矩阵转换得到对应第一Q矩阵、第一K矩阵和第一V矩阵，并由所述当前编码器模块的所述自注意力单元基于所述第一Q矩阵、所述第一K矩阵和所述第一V矩阵进行注意力计算得到对应的第一注意力张量，并由所述当前编码器模块对所述第一注意力张量进行Q矩阵转换得到对应的第二Q矩阵、由所述当前编码器模块对所述音频特征张量A进行K、V矩阵转换得到对应的第二K矩阵和第二V矩阵，并由所述当前编码器模块的所述互注意力单元基于所述第二Q矩阵、所述第二K矩阵和所述第二V矩阵进行注意力计算得到对应的第二注意力张量，并由所述当前编码器模块的所述前馈神经单元对所述第二注意力张量进行全连接计算得到对应的当前模块输出向量；再将所述当前模块输出向量作为新的所述当前模块输入向量，并将所述当前模块输入向量输入下一个所述第一编码器模块中按与第一个所述第一编码器模块相同的计算方式进行计算得到新的所述当前模块输出向量；依次类推，直到最后一个所述第一编码器模块完成计算后将当前编码器模块输出的所述当前模块输出向量作为对应的去噪文本向量输出。

进一步的，所述DDIM模型的反向扩散算法为：

其中，X_t、X_t-1分别为前一步和下一步的输入文本向量，Z_t为所述输入文本向量X_t对应的去噪文本向量，α_t、α_t-1分别为前一步和下一步的噪声计划，ε为一个新增的随机高斯噪声，ε_t为与所述输入文本向量X_t和所述去噪文本向量Z_t相关的噪声，σ_t为前一步的随机性控制参数。

优选的，所述模型训练网络用于根据网络输入的标签标题文本、音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；

所述文本向量编码模型的输入端与所述模型训练网络的第一输入端连接，输出端与所述文本向量噪声添加模块的输入端连接；所述文本向量编码模型用于对所述模型训练网络输入的所述标签标题文本进行编码处理得到对应的文本编码向量，并将所述文本编码向量作为对应的标签文本向量X^*向所述文本向量噪声添加模块发送；

所述音频特征提取模型的输入端与所述模型训练网络的第二输入端连接，输出端与所述文本向量去噪模型的第一输入端连接；所述音频特征提取模型用于对所述模型训练网络输入的音频进行音频特征提取处理生成对应的音频特征张量A向所述文本向量去噪模型发送；

所述文本向量噪声添加模块的第一输出端与所述文本向量去噪模型的第二输入端连接、第二输出端与所述DDIM反向扩散算法模块的第一输入端连接；所述文本向量噪声添加模块用于向所述标签文本向量X^*中添加随机噪声得到一个对应的目标文本向量X_a,t＝T，并将所述目标文本向量X_a,t＝T分别向所述文本向量去噪模型和所述DDIM反向扩散算法模块发送；所述随机噪声满足高斯噪声特征；

所述文本向量去噪模型的第三输入端与所述DDIM反向扩散算法模块的输出端连接，所述文本向量去噪模型的输出端与所述反向扩散计数模块的第一输入端连接；所述文本向量去噪模型用于在所述DDIM反向扩散算法模块的输出端没有反馈时，根据所述目标文本向量X_a,t＝T和所述音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Z_p,t向所述反向扩散计数模块发送；所述文本向量去噪模型还用于在所述DDIM反向扩散算法模块的输出端反馈了目标文本向量X_a,t-1时，根据所述目标文本向量X_a,t-1和所述音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Z_p,t-1向所述反向扩散计数模块发送；

所述反向扩散计数模块的第二输入端与所述模型训练网络的第三输入端连接，所述反向扩散计数模块的第一输出端与所述DDIM反向扩散算法模块的第二输入端连接、第二输出端与所述文本向量解码模型的输入端连接；所述反向扩散计数模块用于在接收到所述模型训练网络输入的所述反向扩散总步数T时，将本地的第一计数器的计数值初始化为所述反向扩散总步数T；所述反向扩散计数模块还用于在每次接收到所述文本向量去噪模型发送的预测文本向量时对所述第一计数器减1，并对减1后的所述第一计数器是否为1进行识别，若是则将当次接收到的预测文本向量作为对应的预测文本向量Z_p,t＝1向所述文本向量解码模型发送，若否则将将当次接收到的预测文本向量作为对应的预测文本向量Z_p,t>1向所述DDIM反向扩散算法模块发送；

所述DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对所述预测文本向量Z_p,t>1进行反向扩散处理得到对应的所述目标文本向量X_a,t-1向所述文本向量去噪模型反馈；

所述文本向量解码模型的输出端与所述模型训练网络的输出端连接；所述文本向量解码模型用于对所述预测文本向量Z_p,t＝1进行文本向量解码处理得到对应的向量解码文本，并将所述向量解码文本作为对应的所述预测标题文本向所述模型训练网络的输出端发送。

进一步的，所述文本向量编码模型基于BART模型的编码器结构实现，并预先通过开放数据集对所述文本向量编码模型完成预训练。

优选的，所述基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，具体包括：

步骤81，将预设的第一数据集的第一个第一数据记录作为对应的当前数据记录；所述第一数据集包括多个所述第一数据记录；所述第一数据记录包括第一标签标题文本、第一训练音频和第一反向扩散总步数；

步骤82，将所述当前数据记录的所述第一标签标题文本、所述第一训练音频和所述第一反向扩散总步数输入所述模型训练网络进行标题文本预测处理得到对应的第一预测标题文本；并在预测处理过程中，对所述标签文本向量X^*进行采样，并对所有目标文本向量进行采样得到对应的目标文本向量集合{X_a,t}，并对所有预测文本向量进行采样得到对应的预测文本向量集合{Z_p,t}；

步骤83，将所述标签文本向量X^*、所述目标文本向量集合{X_a,t}和所述预测文本向量集合{Z_p,t}带入预设的优化目标函数L_simple，

其中，α_t、α_t-1分别为DDIM模型反向扩散算法中的前一步和下一步噪声计划，为DDIM模型的期望函数，μ_t(X_a,t-X^*)为DDIM模型的均值；

步骤84，朝着使所述优化目标函数L_simple达到最小期望值的方向对所述文本向量去噪模型和所述音频特征提取模型的模型参数进行迭代优化；

步骤85，本轮迭代优化结束后，对所述当前数据记录是否为所述第一数据集的最后一个所述第一数据记录进行识别；若是，则转至步骤86；若否，则将所述第一数据集的下一个所述第一数据记录提取出来作为新的所述当前数据记录，并返回步骤82继续训练；

步骤86，对所述音频特征提取模型和所述文本向量去噪模型的模型参数进行固化处理；并将所述第一数据集的各个所述第一数据记录的所述第一标签标题文本、所述第一训练音频和所述第一反向扩散总步数重新输入所述模型训练网络进行标题文本预测处理得到对应的第二预测文本，并对各个所述第二预测文本对应的所述预测文本向量Z_p,t＝1作为对应的第一训练向量，并将各个所述第一训练向量对应的所述第一标签标题文本作为对应的第一标签文本，并由各个所述第一训练向量和对应的所述第一标签文本组成一个对应的第二数据记录；并由得到的所有所述第二数据记录组成对应的所述二阶段训练数据集。

优选的，所述基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练，具体包括：

步骤91，将所述二阶段训练数据集的第一个第二数据记录作为对应的当前数据记录；所述二阶段训练数据集包括多个所述第二数据记录；所述第二数据记录包括第一训练向量和第一标签文本；

步骤92，将所述当前数据记录的所述第一训练向量输入所述文本向量解码模型进行文本向量解码处理得到对应的向量解码文本，并将所述向量解码文本作为对应的第一预测文本；

步骤93，将所述第一预测文本和所述第一标签文本带入预设的第一损失函数进行计算得到对应的第一损失值；并对所述第一损失值是否满足预设的第一损失值范围进行识别；若所述第一损失值满足所述第一损失值范围，则转至步骤94；若所述第一损失值不满足所述第一损失值范围，则基于预设的预训练模型参数微调适配器对所述文本向量解码模型的模型参数进行微调，并在微调结束时返回步骤92继续训练；

步骤94，对所述当前数据记录是否为所述二阶段训练数据集中的最后一个所述第二数据记录进行识别；若是，则转至步骤95；若否，则将所述二阶段训练数据集中的下一个所述第二数据记录提取出来作为新的所述当前数据记录，并返回步骤92继续训练；

步骤95，对所述文本向量解码模型的模型参数进行固化处理。

本发明实施例第二方面提供了一种用于实现上述第一方面所述的标题预测模型的处理方法的装置，所述装置包括：预测模型构建模块、训练网络构建模块、预测模型训练模块和预测模型应用模块；

所述预测模型构建模块用于构建标题预测模型；所述标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型；

所述训练网络构建模块用于构建模型训练网络；所述模型训练网络包括文本向量编码模型、文本向量噪声添加模块、所述音频特征提取模型、所述文本向量去噪模型、所述DDIM反向扩散算法模块、所述反向扩散计数模块和所述文本向量解码模型；

所述预测模型训练模块用于基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练；

所述预测模型应用模块用于在所述标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将所述第一音频和所述第一反向扩散总步数输入所述标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对所述第一标题文本进行显示。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现上述第一方面所述的方法步骤；

所述收发器与所述处理器耦合，由所述处理器控制所述收发器进行消息收发。

本发明实施例提供了一种标题预测模型的处理方法、装置和电子设备；由上述内容可知，本发明实施例将DDIM反向扩散算法结合到音频标题预测方案中并由此构建出一个对应的标题预测模型，该预测模型由音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型组成；并为该预测模型构建一个对应的模型训练网络用来进行模型训练；并基于该模型训练网络给出一个两阶段训练方案来具体实施训练：1)在第一阶段中，基于DDIM模型的反向扩散算法构建优化目标函数L_simple来训练音频特征提取模型和文本向量去噪模型，并对过程数据进行采集构建出对应的二阶段训练数据集；2)在第二阶段中，基于二阶段训练数据集对文本向量解码模型进行模型参数微调；并在模型训练结束后使用该标题预测模型对任意音频进行标题文本预测处理，并对预测结果进行显示。本发明给出了一种与DDIM模型算法相结合的音频标题预测机制，通过本发明提高了预测标题文本的多样性。

附图说明

图1为本发明实施例一提供的一种标题预测模型的处理方法示意图；

图2a为本发明实施例一提供的标题预测模型的模块结构图；

图2b为本发明实施例一提供的文本向量去噪模型的模块结构图；

图2c为本发明实施例一提供的模型训练网络的模块结构图；

图3为本发明实施例二提供的一种标题预测模型的处理装置的模块结构图；

图4为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例一提供一种标题预测模型的处理方法，如图1为本发明实施例一提供的一种标题预测模型的处理方法示意图所示，本方法主要包括如下步骤：

步骤1，构建标题预测模型；

其中，标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型。

这里，本发明实施例的音频特征提取模型用于根据模型输入的音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；该预测模型如图2a为本发明实施例一提供的标题预测模型的模块结构图所示：

1)音频特征提取模型的输入端与标题预测模型的第一输入端连接，输出端与文本向量去噪模型的第一输入端连接；音频特征提取模型用于对标题预测模型输入的音频进行音频特征提取处理生成对应的音频特征张量A向文本向量去噪模型发送；

需要说明的是，本发明实施例的音频特征提取模型可基于PANN特征提取器的模型结构实现；PANN特征提取器的模型结构和预训练方式可参看论文《PANNs:Large-ScalePretrained Audio Neural Networks for Audio Pattern Recognition》，在此不做进一步重复性说明；

2)文本向量初始化模块的第一输出端与文本向量去噪模型的第二输入端连接、第二输出端与DDIM反向扩散算法模块的第一输入端连接；文本向量初始化模块用于向预设的文本向量模板中添加随机噪声得到一个对应的输入文本向量X_t＝T，并将输入文本向量X_t＝T分别向文本向量去噪模型和DDIM反向扩散算法模块发送；其中，随机噪声满足高斯噪声特征；

3)文本向量去噪模型的第三输入端与DDIM反向扩散算法模块的输出端连接，文本向量去噪模型的输出端与反向扩散计数模块的第一输入端连接；文本向量去噪模型用于在DDIM反向扩散算法模块的输出端没有反馈时，根据输入文本向量X_t＝T和音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Z_t向反向扩散计数模块发送；文本向量去噪模型还用于在DDIM反向扩散算法模块的输出端反馈了输入文本向量X_t-1时，根据输入文本向量X_t-1和音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Z_t-1向反向扩散计数模块发送；

这里，本发明实施例的文本向量去噪模型以transformer模型的编码器结构为参考，由模块数量N个第一编码器模块顺次连接而成的，如图2b为本发明实施例一提供的文本向量去噪模型的模块结构图所示；其中，模块数量N为大于0的整数；第一编码器模块由自注意力单元、互注意力单元和前馈神经单元组成；自注意力单元与互注意力单元连接；互注意力单元与前馈神经单元连接；

本发明实施例的文本向量去噪模型在进行文本向量去噪处理时，将当次文本向量初始化模块或DDIM反向扩散算法模块发送的输入文本向量作为对应的当前模块输入向量；并将当前模块输入向量输入第一个第一编码器模块，由当前编码器模块对当前模块输入向量进行Q、K、V矩阵转换得到对应第一Q矩阵、第一K矩阵和第一V矩阵，并由当前编码器模块的自注意力单元基于第一Q矩阵、第一K矩阵和第一V矩阵进行注意力计算得到对应的第一注意力张量，并由当前编码器模块对第一注意力张量进行Q矩阵转换得到对应的第二Q矩阵、由当前编码器模块对音频特征张量A进行K、V矩阵转换得到对应的第二K矩阵和第二V矩阵，并由当前编码器模块的互注意力单元基于第二Q矩阵、第二K矩阵和第二V矩阵进行注意力计算得到对应的第二注意力张量，并由当前编码器模块的前馈神经单元对第二注意力张量进行全连接计算得到对应的当前模块输出向量；再将当前模块输出向量作为新的当前模块输入向量，并将当前模块输入向量输入下一个第一编码器模块中按与第一个第一编码器模块相同的计算方式进行计算得到新的当前模块输出向量；依次类推，直到最后一个第一编码器模块完成计算后将当前编码器模块输出的当前模块输出向量作为对应的去噪文本向量输出；

这里，本发明实施例以transformer模型的编码器结构为参考实现了文本向量去噪模型，但在每个第一编码器模块中增加了常规transformer编码器模块中没有的互注意力单元，其目的就是将音频特征融合到文本特征中从而实现对音频特征的文本编码，该编码过程其本质就是对音频中的各个细分音频特征对应的个体发声事件(或对象)进行定向描述；

4)反向扩散计数模块的第二输入端与标题预测模型的第二输入端连接，反向扩散计数模块的第一输出端与DDIM反向扩散算法模块的第二输入端连接、第二输出端与文本向量解码模型的输入端连接；反向扩散计数模块用于在接收到标题预测模型输入的反向扩散总步数T时，将本地的第一计数器的计数值初始化为反向扩散总步数T；反向扩散计数模块还用于在每次接收到文本向量去噪模型发送的去噪文本向量时对第一计数器减1，并对减1后的第一计数器是否为1进行识别，若是则将当次接收到的去噪文本向量作为对应的去噪文本向量Z_t＝1向文本向量解码模型发送，若否则将将当次接收到的去噪文本向量作为对应的去噪文本向量Z_t>1向DDIM反向扩散算法模块发送；其中，本发明实施例的反向扩散总步数T为大于1的整数，常规情况下可以设为1000；

5)DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对去噪文本向量Z_t>1进行反向扩散处理得到对应的输入文本向量X_t-1向文本向量去噪模型反馈；

DDIM模型的反向扩散算法为：

其中，X_t、X_t-1分别为前一步和下一步的输入文本向量，Z_t为输入文本向量X_t对应的去噪文本向量，α_t、α_t-1分别为前一步和下一步的噪声计划，ε为一个新增的随机高斯噪声，ε_t为与输入文本向量X_t和去噪文本向量Z_t相关的噪声，σ_t为前一步的随机性控制参数；

这里，本发明实施例引用上述反向扩散算法通过多次(迭代次数与下文中的反向扩散总步数T保持一致)迭代在文本向量中增加线性噪声的方式来增加文本的多样性特征，诸如多样性语法特征(例如主谓宾语法结构、倒装句语法结构、定语从句语法结构等)、多样性情感特征(例如消极、积极、中性等)、多样性时态特征(例如不同语种的过去式时态、现在进行时时态等)等等；

6)文本向量解码模型的输出端与音频特征提取模型的输出端连接；文本向量解码模型用于对去噪文本向量Z_t＝1进行文本向量解码处理得到对应的向量解码文本，并将向量解码文本作为对应的预测标题文本向音频特征提取模型的输出端发送；需要说明的是，本发明实施例的文本向量解码模型可基于BART模型的解码器结构实现，并预先通过开放数据集对文本向量解码模型完成预训练；BART模型的解码器结构及其预训练方式也可参看公开的技术论文《BART:Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation,Translation,and Comprehension》进行了解，在此也不做进一步重复性说明；还需要说明的是，本发明实施例除了基于BART模型的解码器来实现文本向量解码模型之外、还可以基于其他大语言模型的解码器来实现文本向量解码模型，之所以选择类似BART模型这样的大语言模型的解码器来实现文本向量解码模型，是因为这些大语言模型预先都已经通过足够丰富的大语料库完成了预训练，在解码时可对文本向量中的各个细分编码特征进行充分识别和组合并最终输出文本风格更符合人类各语种常规用语风格的文本内容。

步骤2，构建模型训练网络；

其中，模型训练网络包括文本向量编码模型、文本向量噪声添加模块、音频特征提取模型、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型。

这里，本发明实施例的模型训练网络用于根据网络输入的标签标题文本、音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；该模型训练网络如图2c为本发明实施例一提供的模型训练网络的模块结构图所示，其实质就是为了达到自监督训练效果特定增加了两个新模块即文本向量编码模型和本向量噪声添加模块：

1)文本向量编码模型的输入端与模型训练网络的第一输入端连接，输出端与文本向量噪声添加模块的输入端连接；文本向量编码模型用于对模型训练网络输入的标签标题文本进行编码处理得到对应的文本编码向量，并将文本编码向量作为对应的标签文本向量X^*向文本向量噪声添加模块发送；需要说明的是，本法实施例的文本向量编码模型可基于BART模型的编码器结构实现，并预先通过开放数据集对文本向量编码模型完成预训练；还需要说明的是，本发明实施例除了基于BART模型的编码器来实现文本向量解码模型之外、还可以基于其他大语言模型的编码器来实现文本向量解码模型，只是该文本向量编码模型与文本向量解码模型必须基于同一个大语言模型的编码器和解码器结构实现，而之所以选择类似BART模型这样的大语言模型的编码器来实现文本向量编码模型，是因为这些大语言模型预先都已经通过足够丰富的大语料库完成了预训练，在编码时可对输入文本中的各个细分特征进行充分识别和编码并最终输出带有多样性文本特征的编码向量从而达到提高自监督训练效果的目的；

2)音频特征提取模型的输入端与模型训练网络的第二输入端连接，输出端与文本向量去噪模型的第一输入端连接；音频特征提取模型用于对模型训练网络输入的音频进行音频特征提取处理生成对应的音频特征张量A向文本向量去噪模型发送；

3)文本向量噪声添加模块的第一输出端与文本向量去噪模型的第二输入端连接、第二输出端与DDIM反向扩散算法模块的第一输入端连接；文本向量噪声添加模块用于向标签文本向量X^*中添加随机噪声得到一个对应的目标文本向量X_a,t＝T，并将目标文本向量X_a,t＝T分别向文本向量去噪模型和DDIM反向扩散算法模块发送；随机噪声满足高斯噪声特征；

4)文本向量去噪模型的第三输入端与DDIM反向扩散算法模块的输出端连接，文本向量去噪模型的输出端与反向扩散计数模块的第一输入端连接；文本向量去噪模型用于在DDIM反向扩散算法模块的输出端没有反馈时，根据目标文本向量X_a,t＝T和音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Z_p,t向反向扩散计数模块发送；文本向量去噪模型还用于在DDIM反向扩散算法模块的输出端反馈了目标文本向量X_a,t-1时，根据目标文本向量X_a,t-1和音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Z_p,t-1向反向扩散计数模块发送；

5)反向扩散计数模块的第二输入端与模型训练网络的第三输入端连接，反向扩散计数模块的第一输出端与DDIM反向扩散算法模块的第二输入端连接、第二输出端与文本向量解码模型的输入端连接；反向扩散计数模块用于在接收到模型训练网络输入的反向扩散总步数T时，将本地的第一计数器的计数值初始化为反向扩散总步数T；反向扩散计数模块还用于在每次接收到文本向量去噪模型发送的预测文本向量时对第一计数器减1，并对减1后的第一计数器是否为1进行识别，若是则将当次接收到的预测文本向量作为对应的预测文本向量Z_p,t＝1向文本向量解码模型发送，若否则将将当次接收到的预测文本向量作为对应的预测文本向量Z_p,t>1向DDIM反向扩散算法模块发送；

6)DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对预测文本向量Z_p,t>1进行反向扩散处理得到对应的目标文本向量X_a,t-1向文本向量去噪模型反馈；

7)文本向量解码模型的输出端与模型训练网络的输出端连接；文本向量解码模型用于对预测文本向量Z_p,t＝1进行文本向量解码处理得到对应的向量解码文本，并将向量解码文本作为对应的预测标题文本向模型训练网络的输出端发送。

步骤3，基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于二阶段训练数据集对文本向量解码模型进行二阶段训练；

具体包括：步骤31，基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；

具体包括：步骤311，将预设的第一数据集的第一个第一数据记录作为对应的当前数据记录；

其中，第一数据集包括多个第一数据记录；第一数据记录包括第一标签标题文本、第一训练音频和第一反向扩散总步数；

这里，第一数据集是一个预先准备的数据集；本法实施例第一数据集中的各个第一标签标题文本优选带有多样性文本特征的文句，这些文句可以从各个大语言模型的开放训练数据集中选择、也可基于具体的实施场景进行定制；此处提及的多样性文本特征是指文句的语法结构除了主+谓+宾结构之外还可使用倒装句结构等其他语法结构、主谓宾的修辞手法除了常规单一性修辞方式还可增加诸如情感特征、时态特征等修辞方式；

步骤312，将当前数据记录的第一标签标题文本、第一训练音频和第一反向扩散总步数输入模型训练网络进行标题文本预测处理得到对应的第一预测标题文本；并在预测处理过程中，对标签文本向量X^*进行采样，并对所有目标文本向量进行采样得到对应的目标文本向量集合{X_a,t}，并对所有预测文本向量进行采样得到对应的预测文本向量集合{Z_p,t}；

步骤313，将标签文本向量X^*、目标文本向量集合{X_a,t}和预测文本向量集合{Z_p,t}带入预设的优化目标函数L_simple，

步骤314，朝着使优化目标函数L_simple达到最小期望值的方向对文本向量去噪模型和音频特征提取模型的模型参数进行迭代优化；

步骤315，本轮迭代优化结束后，对当前数据记录是否为第一数据集的最后一个第一数据记录进行识别；若是，则转至步骤316；若否，则将第一数据集的下一个第一数据记录提取出来作为新的当前数据记录，并返回步骤312继续训练；

步骤316，对音频特征提取模型和文本向量去噪模型的模型参数进行固化处理；并将第一数据集的各个第一数据记录的第一标签标题文本、第一训练音频和第一反向扩散总步数重新输入模型训练网络进行标题文本预测处理得到对应的第二预测文本，并对各个第二预测文本对应的预测文本向量Z_p,t＝1作为对应的第一训练向量，并将各个第一训练向量对应的第一标签标题文本作为对应的第一标签文本，并由各个第一训练向量和对应的第一标签文本组成一个对应的第二数据记录；并由得到的所有第二数据记录组成对应的二阶段训练数据集；

这里，得到的二阶段训练数据集包括多个第二数据记录；第二数据记录包括第一训练向量和第一标签文本；

步骤32，并基于二阶段训练数据集对文本向量解码模型进行二阶段训练；

具体包括：步骤321，将二阶段训练数据集的第一个第二数据记录作为对应的当前数据记录；

步骤322，将当前数据记录的第一训练向量输入文本向量解码模型进行文本向量解码处理得到对应的向量解码文本，并将向量解码文本作为对应的第一预测文本；

步骤323，将第一预测文本和第一标签文本带入预设的第一损失函数进行计算得到对应的第一损失值；并对第一损失值是否满足预设的第一损失值范围进行识别；若第一损失值满足第一损失值范围，则转至步骤324；若第一损失值不满足第一损失值范围，则基于预设的预训练模型参数微调适配器对文本向量解码模型的模型参数进行微调，并在微调结束时返回步骤322继续训练；

其中，预训练模型参数微调适配器包括LoRA适配器、SDG优化器、Adam优化器等；

这里，第一损失值为一个预先设置的损失函数，可采用交叉熵损失函数、也可以采用均方误差损失函数，还可基于具体实施需求选择其他损失函数；第一损失值范围为一个预先设置的损失值范围；

步骤324，对当前数据记录是否为二阶段训练数据集中的最后一个第二数据记录进行识别；若是，则转至步骤325；若否，则将二阶段训练数据集中的下一个第二数据记录提取出来作为新的当前数据记录，并返回步骤322继续训练；

步骤325，对文本向量解码模型的模型参数进行固化处理。

步骤4，标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将第一音频和第一反向扩散总步数输入标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对第一标题文本进行显示。

这里，本发明实施例通过上述步骤1-4实现了对音频对象的多样性标题预测(也称为多样性标题生成)。需要说明是，本发明实施例标题预测模型的技术方案除了可对音频对象进行多样性标题预测，也可拓展到对图像、文章或文章片段、视频等多媒体对象进行多样性标题预测。具体的：

1)在对图像对象进行多样性标题预测时，先将本发明实施例的标题预测模型和模型训练网络中的音频特征提取模型替换成对应的图像特征提取模型；再将本发明实施例模型训练中使用的第一数据集中各个第一数据记录替换成基于图像和图像标签标题文本的数据记录，即由第一反向扩散总步数、第一训练图像以及与该训练图像对应的第一标签标题文本构成各个第一数据记录；再采用本发明实施例提供的两阶段训练方法对新的标题预测模型进行训练，即基于新的模型训练网络对新的标题预测模型中的图像特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，并基于二阶段训练数据集对新的标题预测模型中的文本向量解码模型进行二阶段训练；再在完成训练之后使用新的标题预测模型对任意图像对象进行多样性标题预测，即：在标题预测模型训练结束后接收任意图像作为对应的第一图像，并设置对应的第一反向扩散总步数为预设的总步数阈值，并将第一图像和第一反向扩散总步数输入新的标题预测模型进行标题文本预测处理得到对应的图像标题文本，并对图像标题文本进行显示；

2)在对文章或文章片段对象进行多样性标题预测时，先将本发明实施例的标题预测模型和模型训练网络中的音频特征提取模型替换成对应的文本摘要特征提取模型；再将本发明实施例模型训练中使用的第一数据集中各个第一数据记录替换成基于文本摘要和摘要标签标题文本的数据记录，即由第一反向扩散总步数、第一训练摘要文本以及与该训练摘要文本对应的第一标签标题文本构成各个第一数据记录；再采用本发明实施例提供的两阶段训练方法对新的标题预测模型进行训练，即基于新的模型训练网络对新的标题预测模型中的文本摘要特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，并基于二阶段训练数据集对新的标题预测模型中的文本向量解码模型进行二阶段训练；再在完成训练之后使用新的标题预测模型对任意文章或文章片段对象进行多样性标题预测，即：在标题预测模型训练结束后接收任意文章或文章片段对象作为对应的第一文章文本，并设置对应的第一反向扩散总步数为预设的总步数阈值，并将第一文章文本和第一反向扩散总步数输入新的标题预测模型进行标题文本预测处理得到对应的文章标题文本，并对文章标题文本进行显示；

3)在对不带或带有音轨数据的视频对象进行多样性标题预测时，有以下A、B两种细化方案：

A、若视频对象不带音轨数据，则先将本发明实施例的标题预测模型和模型训练网络中的音频特征提取模型替换成对应的图像序列特征提取模型；再将模型训练中使用的第一数据集中各个第一数据记录替换成基于图像序列和图像序列标签标题文本的数据记录，即由第一反向扩散总步数、第一训练图像序列以及与该训练图像序列对应的第一标签标题文本构成各个第一数据记录；再采用本发明实施例提供的两阶段训练方法对新的标题预测模型进行训练，即基于新的模型训练网络对新的标题预测模型中的图像序列特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，并基于二阶段训练数据集对新的标题预测模型中的文本向量解码模型进行二阶段训练；再在完成训练之后使用新的标题预测模型对由任意不带音轨数据的视频对象进行多样性标题预测，即：在标题预测模型训练结束后接收任意不带音轨数据的视频作为对应的第一视频，并对第一视频进行帧图像提取并由提取出的帧图像顺序排列得到对应的第一帧图像序列，并设置对应的第一反向扩散总步数为预设的总步数阈值，并将第一帧图像序列和第一反向扩散总步数输入新的标题预测模型进行标题文本预测处理得到对应的第一视频标题文本，并对第一视频标题文本进行显示；

B、若视频对象带有音轨数据，则预先构建一个由图像序列特征提取模型、音频特征提取模型以及一个用于融合图像序列特征和音频特征的多模态特征融合模块构成的多模态特征提取模型；再将本发明实施例的标题预测模型和模型训练网络中的音频特征提取模型替换成该多模态特征提取模型；再将本发明实施例模型训练中使用的第一数据集中各个第一数据记录替换成基于图像序列、音频和标签标题文本的数据记录，即由第一反向扩散总步数、第一训练图像序列、第一训练音频以及对应的第一标签标题文本构成各个第一数据记录；再采用本发明实施例提供的两阶段训练方法对新的标题预测模型进行训练，即基于新的模型训练网络对新的标题预测模型中的多模态特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，并基于二阶段训练数据集对新的标题预测模型中的文本向量解码模型进行二阶段训练；再在完成训练之后使用新的标题预测模型对由任意带有音轨数据的视频对象进行多样性标题预测，即：在标题预测模型训练结束后接收任意带有音轨数据的视频作为对应的第二视频，并对第二视频进行音轨数据提取得到对应的第二音频，并对第二视频进行帧图像提取并由提取出的帧图像顺序排列得到对应的第二帧图像序列，并设置对应的第一反向扩散总步数为预设的总步数阈值，并将第二帧图像序列、第二音频和第一反向扩散总步数输入新的标题预测模型进行标题文本预测处理得到对应的第二视频标题文本，并对第二视频标题文本进行显示。

图3为本发明实施例二提供的一种标题预测模型的处理装置的模块结构图，该装置为实现前述方法实施例的终端设备或者服务器，也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置，例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图3所示，该装置包括：预测模型构建模块201、训练网络构建模块202、预测模型训练模块203和预测模型应用模块204。

预测模型构建模块201用于构建标题预测模型；标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型。

训练网络构建模块202用于构建模型训练网络；模型训练网络包括文本向量编码模型、文本向量噪声添加模块、音频特征提取模型、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型。

预测模型训练模块203用于基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于二阶段训练数据集对文本向量解码模型进行二阶段训练。

预测模型应用模块204用于在标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将第一音频和第一反向扩散总步数输入标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对第一标题文本进行显示。

本发明实施例提供的一种标题预测模型的处理装置，可以执行上述方法实施例中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，与上述方法实施例中对标题预测模型在对图像、文章或文章片段、视频等多媒体对象进行多样性标题预测的拓展技术方案对应，本发明实施例装置也可拓展到对图像、文章或文章片段、视频等多媒体对象进行多样性标题预测，而具体在对图像对象进行多样性标题预测、在对文章或文章片段对象进行多样性标题预测以及在对不带或带有音轨数据的视频对象进行多样性标题预测时的拓展实现步骤与上述方法实施例中的拓展实现步骤类似，在此不再赘述。

还需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，预测模型构建模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

图4为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图4所示，该电子设备可以包括：处理器301(例如CPU)、存储器302、收发器303；收发器303耦合至处理器301，处理器301控制收发器303的收发动作。存储器302中可以存储各种指令，以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的，本发明实施例涉及的电子设备还包括：电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图4中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(NetworkProcessor，NP)、图形处理器(Graphics Processing Unit，GPU)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种标题预测模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的标题预测模型的处理方法，其特征在于，

所述音频特征提取模型用于根据模型输入的音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；

3.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

所述音频特征提取模型基于PANN特征提取器的模型结构实现；

4.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

所述文本向量去噪模型以transformer模型的编码器结构为参考，由模块数量N个第一编码器模块顺次连接而成；所述模块数量N为大于0的整数；所述第一编码器模块由自注意力单元、互注意力单元和前馈神经单元组成；所述自注意力单元与所述互注意力单元连接；所述互注意力单元与所述前馈神经单元连接；

5.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

所述DDIM模型的反向扩散算法为：

6.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

所述模型训练网络用于根据网络输入的标签标题文本、音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本；

7.根据权利要求6所述的标题预测模型的处理方法，其特征在于，

所述文本向量编码模型基于BART模型的编码器结构实现，并预先通过开放数据集对所述文本向量编码模型完成预训练。

8.根据权利要求6所述的标题预测模型的处理方法，其特征在于，所述基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，具体包括：

9.根据权利要求6所述的标题预测模型的处理方法，其特征在于，所述基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练，具体包括：

10.一种用于实现权利要求1-9任一项所述的标题预测模型的处理方法的装置，其特征在于，所述装置包括：预测模型构建模块、训练网络构建模块、预测模型训练模块和预测模型应用模块；

11.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现权利要求1-9任一项所述的方法；