CN112905844B

CN112905844B - 一种视频语音检索方法

Info

Publication number: CN112905844B
Application number: CN202110308948.3A
Authority: CN
Inventors: 刘文印; 李劼博; 陈俊洪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-03-15
Anticipated expiration: 2041-03-23
Also published as: CN112905844A

Abstract

本申请公开了一种视频语音检索方法，包括：提取训练样本中的视频特征和语音特征；将视频特征和语音特征进行特征对齐；计算视频/语音特征与视频/语音特征记忆库中视频/语音特征的视频特征相似度；若视频特征相似度和/或者语音特征相似度小于预设的阈值，则更新对应的视频特征记忆库和/或者语音特征记忆库；计算视频/语音特征与记忆库中视频/语音特征的距离关系向量；将对齐后的视频特征和语音特征进行特征融合，得到融合特征向量；将距离关系向量与融合特征向量进行加权计算，得到训练样本的特征与记忆库特征的匹配度；根据匹配度调整视频语音检索模型的参数。本申请可以对新类事物进行实时学习，并能对新样本所描述的事物进行匹配检索。

Description

一种视频语音检索方法

技术领域

本申请涉及视频语音检索技术领域，尤其涉及一种视频语音检索方法。

背景技术

智能机器人，从人类的演示视频中，学习人类动作并充分理解动作的含义，绝不仅仅体现于它能在特定场景下复现人类动作。它应该在更加广阔的外部场景下，根据场景信息和人类发出的语音信息亦或指令做出相应的一种或多种动作。这样才算得上，机器人系统从广泛的视频和语音资料中学习并理解到了其中的含义。当看不见的内容时，听觉通常可以提供在与有关视觉内容上，具有相同结构的信息。因此，尽管对于一段带声音的视频片段，声音是视频内容补充的存在，但是声音或语音本身也包含了关于隐含在动作中的重要信息。要认识并理解到这一点，其实对于机器人或者智能系统来说是不容易的，因为它们的学习能力尚未达到人类的那种元认知学习的程度，尚不善于把各种动作的类型，包括动作对于的物体，以及物体的种类联系起来。例如，对于“刀切橙子”和“刀切香蕉”的语音信息，对应的动作都是“切”，但是，确切到被切的物体，辅助动作还会有细微的不同。

为了实现这样的目标，可以把动作视频资料和描述动作的语音资料联系起来，而这就涉及到跨模态算法的发展和应用。以往，训练好的神经网络模型在实际的测试和使用中，当面对新种类的物体或者动作出现时，往往只能靠瞎猜或者难以达到理想的效果。如果想要进一部获得较好的预测效果，需要重新建立大规模数据，并在上面重新训练新的特征表示，以连结不同模态的关系。这样的操作实际上非常昂贵，在时效上，也很划不来。

综上，提出一个能从视频和语音中学习到内在关联，实现视频语音之间检索的模型，并且让搭载该模型的智能机器人或智能系统在实际应用中面对新的陌生样本，可以就地实时学习，不断丰富其视频语音记忆库的方案，是有重大意义的。

发明内容

本申请提供了一种视频语音检索方法，使得可以把动作视频资料和描述动作的语音资料联系起来，并且能够就地实时学习，不断丰富其视频语音记忆库，得到一个可以不断学习，并能对音视频结合进行识别的视频语音检索模型。

有鉴于此，本申请提供了一种视频语音检索方法，所述方法包括：

提取训练样本中的第一视频特征和第一语音特征；

将所述第一视频特征和所述第一语音特征进行特征对齐；

计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度；

若所述视频特征相似度和/或者所述语音特征相似度小于预设的阈值，则更新对应的所述视频特征记忆库和/或者所述语音特征记忆库；

计算所述第一视频特征与所述第二视频特征的视频特征距离关系向量，以及计算所述第一语音特征与所述第二语音特征的语音特征距离关系向量；

将对齐后的所述第一视频特征和所述第一语音特征进行特征融合，得到融合特征向量；

将所述视频特征距离关系向量、所述语音特征距离关系向量以及所述融合特征向量进行加权计算，得到训练样本的特征与特征记忆库中特征的匹配度；

根据所述匹配度调整视频语音检索模型的参数。

可选的，在所述计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度，之前还包括：

分别建立原始视频特征的视频特征记忆库和原始语音特征的语音特征记忆库。

可选的，所述提取训练样本中的第一视频特征和第一语音特征，包括：

采用动作识别模型双流I3D提取所述训练样本的所述第一视频特征；

采用长短期记忆网络提取所述训练样本的所述第二语音特征。

可选的，所述将所述第一视频特征和所述第一语音特征进行特征对齐，包括：

将所述训练样本的所述第一视频特征和所述第一语音特征分别输入到两个全连接层，使得所述第一视频特征和所述第一语音特征投射到同一个空间，当描述同一件事物的特征时，所述第一视频特征和所述第一语音特征的距离小于预设距离，当描述不同一件事物的特征时，所述第一视频特征和所述第一语音特征的距离大于预设距离。

可选的，所述计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度，包括：

将所述第一视频特征与所述第二视频特征进行对齐，将所述第一视频特征中未与所述第二视频特征对齐的第三视频特征，分别与所述第二视频特征中的每个特征进行逐个比对，得到所述第三视频特征对应的多个视频特征相似度；

将所述第一语音特征与所述第二语音特征进行对齐，将所述第一语音特征中未与所述第二语音特征对齐的第三语音特征，分别与所述第二语音特征中的每个特征进行逐个比对，得到所述第三语音特征对应的多个语音特征相似度。

可选的，所述若所述视频特征相似度和/或者所述语音特征相似度小于预设的阈值，则更新对应的所述视频特征记忆库和/或者所述语音特征记忆库，包括：

若多个视频特征相似度和/或者所述语音特征相似度中的最大值小于预设的阈值，则将所述第三视频特征和/或者所述第三语音特征作为一个新的特征类别更新到对应的所述视频特征记忆库和/或者所述语音特征记忆库。

可选的，所述根据所述匹配度调整视频语音检索模型的参数，包括：

获取所述匹配度最高的多个训练样本与所述训练样本对应的真值进行对比，得到所述视频语音检索模型的准确率，所述真值为所述训练样本中的视频和音频描述的是同一件事，否则为假；

根据所述准确率调整所述视频语音检索模型的参数，再次训练所述视频语音检索模型，直到所述准确率大于预设准确率阈值。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种视频语音检索方法，方法包括：提取训练样本中的第一视频特征和第一语音特征；将第一视频特征和第一语音特征进行特征对齐；计算第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度；若视频特征相似度和/或者语音特征相似度小于预设的阈值，则更新对应的视频特征记忆库和/或者语音特征记忆库；计算第一视频特征与第二视频特征的视频特征距离关系向量，以及计算第一语音特征与第二语音特征的语音特征距离关系向量；将对齐后的第一视频特征和第一语音特征进行特征融合，得到融合特征向量；将视频特征距离关系向量、语音特征距离关系向量以及融合特征向量进行加权计算，得到训练样本的特征与特征记忆库中特征的匹配度；根据匹配度调整视频语音检索模型的参数。

本申请通过引入新类样本再学习的测试机制，将新样本对齐后的语音视频特征与原始语音视频特征进行比对，使得新的样本中的新的事物的特征更新至原始特征记忆库中，在实际应用中可以对新类行为或事件进行实时学习的效果，从而增强机器人或智能系统在新场景中的适应能力。另外，本申请分别将新样本的语音视频特征与原特征记忆库中的特征的特征距离关系向量以及融合语音视频特征向量进行加权计算，得到新的样本与原始记忆库中特征的匹配度，从而实现对新样本的语音视频所描述的事物的匹配检索。

附图说明

图1为本申请一种视频语音检索方法的一个实施例的方法流程图；

图2为本申请一种视频语音检索方法的一个实施例的架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一种视频语音检索方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、提取训练样本中的第一视频特征和第一语音特征；

需要说明的是，本申请可以分别提取新的训练样本的视频及语音特征；具体的，采用动作识别模型双流I3D对视频的关键动作特征进行提取；采用LSTM网络用于对语音数据的特征进行提取。

在具体应用中，当增强机器人或智能系统在新的场景中获取到新场景的视频和语音时，首先可以对场景中的视频和语音的特征进行提取。

102、将第一视频特征和第一语音特征进行特征对齐；

需要说明的是，经过特征提取后，分别得到了第一视频特征和第一语音特征。由于融合不同来源的特征，必然会出现信息冗余和比单模态特征更为优秀的互补现象。若能合理处理多模态信息，就能得到精简且丰富的特征信息。考虑到本申请需要将视频特征和语音特征进行融合，即融合两种不同模态(差距较远)的特征，因此，可以将视频特征和语音特征输入到两个全连接网络，每个网络由多个全连接层构成，可以使用Triple Loss来对调整网络的参数。通过调整全连接层的参数，使得将视频特征和语音特征投射到另外一个空间中，使得当描述同一种事物的特征时，视频特征和音频特征之间的距离尽可能的小，而当描述不同事物的特征时，使其特征距离尽可能大。在训练过程中，通过梯度回传不断调整每个全连接层的具体参数，把两种情况(描述同一事物和不同事物)区分开。

103、计算第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度；

需要说明的是，计算训练样本的第一视频特征和原始的视频特征记忆库中第二视频特征的视频特征相似度，以及计算第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度。

在一种具体的实施方式中，可以将第一视频特征与第二视频特征进行对齐，将第一视频特征中未与第二视频特征对齐的第三视频特征，分别与第二视频特征中的每个特征进行逐个比对，得到第三视频特征对应的多个视频特征相似度；将第一语音特征与第二语音特征进行对齐，将第一语音特征中未与第二语音特征对齐的第三语音特征，分别与第二语音特征中的每个特征进行逐个比对，得到第三语音特征对应的多个语音特征相似度。

具体的，本申请可以采用欧式距离法计算视频特征或者语音特征之间的欧氏距离，求得的欧氏距离即为视频或者语音特征相似度，具体相似度的计算公式为：

式中，x和y表示特征点的值，dist表示n维空间中两点之间的真实距离或者向量的真实长度。

还需要说明的是，本申请中的增强机器人或智能系统可以先建立视频特征记忆库和语音特征记忆库，用于将原始视频特征和原始语音特征进行存储，以便用于后续与新输入的样本的视频特征和语音特征进行比对。

104、若视频特征相似度和/或者语音特征相似度小于预设的阈值，则更新对应的视频特征记忆库和/或者语音特征记忆库；

需要说明的是，本申请中视频特征相似度和/或者语音特征相似度小于预设的阈值，则可以将小于预设阈值的特征作为新的一类特征，用于更新对应的视频特征记忆库和/或者语音特征记忆库。

在一种具体的实施方式中，若多个视频特征相似度和/或者语音特征相似度中的最大值小于预设的阈值，则将第三视频特征和/或者第三语音特征作为一个新的特征类别更新到对应的视频特征记忆库和/或者语音特征记忆库。

具体的，若计算视频特征和语音特征与对应的视频特征记忆库和语音特征记忆库中得到的相似度大于一个实际设定的阈值0.93，则将该视频特征和语音特征作为记忆库中原本就有的特征，则不对记忆库进行更新。再分别将未对齐的视频特征和语音特征与各自特征记忆库中的特征逐个对比得到多个相似度的值，如果一个视频特征或者语音特征对应的多个相似度中的最大值小于实际设定的阈值0.5，则认为该类特征对于记忆库来说是一个新的类别——即New Feature，同时更新视频和语音特征记忆库；反之认为该类是OldFeature，是记忆库原本就存在的特征，则不需要更新记忆库。

105、计算第一视频特征与第二视频特征的视频特征距离关系向量，以及计算第一语音特征与第二语音特征的语音特征距离关系向量；

需要说明的是，可以计算新的训练样本的第一视频特征与视频特征记忆库中的特征的距离关系向量，以及第一语音特征与语音特征记忆库的特征的距离关系向量，以便用于后续的加权计算。

具体的，本申请可以对于视频特征和语音特征的两个分支，可以将特征记忆库中的更新后的特征，与训练样本的特征并在一起，作为图节点输入到图卷积网络中。这样图的每个节点表示了这一次迭代中记忆库中的更新后的特征和训练样本特征，图的边则是当前特征与特征之间的关系。经过图的隐藏层(hidden layer)，这里的组合模式分别是BN层归一化，Dropout层，时间卷积Convt层，BN层和Relu激活层，得到训练样本特征和记忆库中特征的距离关系向量，即得到视频特征的视频特征距离关系向量以及语音特征的语音特征距离关系向量。

106、将对齐后的第一视频特征和第一语音特征进行特征融合，得到融合特征向量；

需要说明的是，为最大程度保留信息，本申请可以采用全局式特征组合策略来融合(就是不丢弃对齐后的特征向量所有数据，神经网络中采用add的方式融合特征向量)对齐后的特征，充分挖掘各模态特征间的一致性。基于中间层的深度特征融合，将视频特征和语音特征融合为一个特征，增强模型最后加权计算中的决策能力。

107、将视频特征距离关系向量、语音特征距离关系向量以及融合特征向量进行加权计算，得到训练样本的特征与特征记忆库中特征的匹配度；

需要说明的是，本申请可以将视频特征距离关系向量、语音特征距离关系向量以及融合特征向量进行加权计算，得到训练样本的特征与特征记忆库中特征的匹配度。

具体的，可以分别将视频特征距离关系向量、语音特征距离关系向量以及融合特征向量的权值设置为0.3，0.3，0.4；计算得到一个用来衡量两种模态内容匹配程度的匹配度分数。多个训练样本将产生多个匹配度分数。

108、根据匹配度调整视频语音检索模型的参数。

需要说明的是，可以根据匹配度分数调整视频语音检索模型的参数，使得优化视频语音检索模型的检索能力。

在一种具体的实施方式中，获取匹配度最高的多个训练样本与训练样本对应的真值进行对比，得到视频语音检索模型的准确率，真值为训练样本中的视频和音频描述的是同一件事，否则为假；根据准确率不断微调视频语音检索模型的参数，再次训练视频语音检索模型，直到准确率大于预设准确率阈值。

本申请可以将匹配度分数采取Top5的排序展示的方法，选取匹配度分数最高的五个训练样本，通过视频语音检索模型的检索结果与真实结果进行比较，从而不断微调视频语音检索模型的参数，直到准确率大于预设准确率阈值，以此提高视频到语音的检索效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频语音检索方法，其特征在于，包括：

提取训练样本中的第一视频特征和第一语音特征；

将所述第一视频特征和所述第一语音特征进行特征对齐；

根据所述匹配度调整视频语音检索模型的参数。

2.根据权利要求1所述的视频语音检索方法，其特征在于，在所述计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度，之前还包括：

3.根据权利要求1所述的视频语音检索方法，其特征在于，所述提取训练样本中的第一视频特征和第一语音特征，包括：

4.根据权利要求1所述的视频语音检索方法，其特征在于，所述将所述第一视频特征和所述第一语音特征进行特征对齐，包括：

5.根据权利要求1所述的视频语音检索方法，其特征在于，所述计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度，以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度，包括：

6.根据权利要求5所述的视频语音检索方法，其特征在于，所述若所述视频特征相似度和/或者所述语音特征相似度小于预设的阈值，则更新对应的所述视频特征记忆库和/或者所述语音特征记忆库，包括：

7.根据权利要求1所述的视频语音检索方法，其特征在于，所述根据所述匹配度调整视频语音检索模型的参数，包括：