CN113536039A

CN113536039A - 视频的文本信息匹配方法、装置、存储介质及电子设备

Info

Publication number: CN113536039A
Application number: CN202110894271.6A
Authority: CN
Inventors: 王瑞轩; 庄嘉鑫; 陶婉莹; 石威; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-10-22

Abstract

本申请公开了一种视频的文本信息匹配方法、装置、存储介质及电子设备。其中，该视频的文本信息匹配方法采用从目标视频截取预设长度的视频片段；获取视频片段对应的第一文本信息；对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合；将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到视频片段与第一文本信息的匹配关系；基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。本方案可以提高视频的文本信息匹配的精准性。

Description

视频的文本信息匹配方法、装置、存储介质及电子设备

技术领域

本申请涉及信息技术领域，具体涉及一种视频的文本信息匹配方法、装置、存储介质及电子设备。

背景技术

随着5G时代的到来，因其更快的传输速度、更大的带宽和更低的时延等特点，将会进一步的加快多媒体数据的增长，特别是对于视频数据来说，人们将更容易地上传和共享自己所创造的视频，可以预见的是，未来互联网上的视频数据存储量将会非常巨大。

面对如此庞大的多媒体数据，如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。而如何精准的实现文本到视频的跨模态匹配就是解决这个挑战的关键技术之一。

发明内容

本申请实施例提供一种视频的文本信息匹配方法、装置、存储介质及电子设备，可以提高视频的文本信息匹配的精准性。

第一方面，本申请实施例提供了一种视频的文本信息匹配方法，包括：

从目标视频截取预设长度的视频片段；

获取所述视频片段对应的第一文本信息；

对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；

将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；

基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。

在本申请实施例提供的视频的文本信息匹配方法中，所述将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系，包括：

将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理，得到所述第一文本信息的损失函数；

基于所述损失函数确定所述第一文本信息与所述视频片段的匹配关系。

在本申请实施例提供的视频的文本信息匹配方法中，所述基于所述损失函数确定所述第一文本信息与所述视频片段的匹配关系，包括：

判断所述损失函数的值是否小于预设值；

若是，则保存所述第一文本信息与所述视频片段的匹配关系；

若否，则返回执行从目标视频截取预设长度的视频片段的步骤，直至所述损失函数的值小于所述预设值。

在本申请实施例提供的视频的文本信息匹配方法中，所述第一表征集合包括动作表征、物体表征和片段表征，所述第二表征集合包括动词表征、名词表征和文本表征。

在本申请实施例提供的视频的文本信息匹配方法中，所述将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理，得到所述第一文本信息的损失函数，包括：

分别对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征输入至所述共享空间进行表征对齐处理，分别得到所述第一文本信息的第一子损失函数、第二子损失函数和第三子损失函数。

将所述动作表征、所述物体表征、所述动词表征和所述名词表征输入至第一子共享空间；

将所述片段表征和所述文本表征输入至第二子共享空间；

基于所述第一子共享空间和所述第二子共享空间对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理，得到所述第一文本信息的损失函数。

在本申请实施例提供的视频的文本信息匹配方法中，所述基于所述第一子共享空间和所述第二子共享空间对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理，得到所述第一文本信息的损失函数，包括：

将所述第一子共享空间和所述第二子共享空间进行卷积处理，得到第三子共享空间；

对所述第三子共享空间中的所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理，得到所述第一文本信息的损失函数。

第二方面，本申请实施例提供了一种视频的文本信息匹配装置，包括：

视频截取单元，用于从目标视频截取预设长度的视频片段；

文本获取单元，用于获取所述视频片段对应的第一文本信息；

表征提取单元，用于对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；

表征匹配单元，用于将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；

文本匹配单元，用于基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。

第三方面，本申请实施例提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述的任一方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述的任一方法。

本申请实施例提供的视频的文本信息匹配方法采用从目标视频截取预设长度的视频片段；获取所述视频片段对应的第一文本信息；对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一表征集合和第二表征集合，并将将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到匹配关系，基于该匹配关系，可以实现视频的文本信息的匹配，并提高视频的文本信息匹配的精准性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频的文本信息匹配方法的流程示意图。

图2是本申请实施例提供的视频的文本信息匹配装置的结构示意图。

图3是本申请实施例提供的服务器的结构示意图。

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频的文本信息匹配方法、装置、存储介质及电子设备。需要说明的是，本申请实施例提供的视频的文本信息匹配方法，可集成在视频的文本信息匹配装置中，该视频的文本信息匹配装置具体可以集成在电子设备中，该电子设备包括但不限于计算机、手机、平板电脑等设备。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参照图1，图1为本申请的视频的文本信息匹配方法的流程示意图。该视频的文本信息匹配方法的具体流程可以包括：

101、从目标视频截取预设长度的视频片段。

需要说明的是，该目标视频可以从Howto100M视频数据集中选取。

其中，该预设长度可以根据实际情况进行设定。比如，该预设长度可以为1秒、1.2秒、2秒、2.2秒、3秒、3.2秒、4秒、1帧、2 帧、3帧等等。

102、获取视频片段对应的第一文本信息。

在一些实施例中，可以通过语音识别系统对该视频片段中的语音进行识别，从而生成该第一文本信息。

需要说明的是，也可以通过其他方式生成该视频片段的第一文本信息。比如，可以从互联网、服务器、云端等进行获取。

103、对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合。

需要说明的是，第一表征集合可以包括动作表征、物体表征和片段表征。第二表征集合可以包括动词表征、名词表征和文本表征。

具体的，可以分别通过视频网络表征提取分支和文本网络提取分支对对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合。

在一些实施例中，可以将视频片段输入至MotionSqueeze模型进行耦开，从而得到该视频片段的动作表征和物体表征，再将视频片段输入至S3D-G，从而得到该视频片段的片段表征，然后将动词表征、名词表征和文本表征进行组合，从而得到第一表征集合。

在一些实施例中，可以将第一文本信息输入至多层感知机进行耦开，从而得到该第一文本信息的动词表征、名词表征和文本表征。

需要说明的是，对视频片段和第一文本信息进行表征提取的方式包括但不限于以上方式，还可以采用其他方式进行提取，本实施例不再一一赘述。

104、将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到视频片段与第一文本信息的匹配关系。

需要说明的是，该共享空间为联合嵌入空间。联合嵌入空间学习是目前跨模态检索中常用的方法。它期望异构的视频、文本信息能够在统一空间下进行度量学习，该空间即被命名为联合嵌入空间。在联合嵌入空间中，会约束不同模态的数据之间正样本对的距离要比负样本对的距离要近，以此来学习跨模态数据间的相似性。

在一些实施例中，视频与第一文本信息之间的相似性可以用损失函数进行表示。损失函数的值越大，则表示视频与第一文本信息的相似性越低。损失函数的值越小，则表示视频与第一文本信息的相似性越高。

具体的，可以将将第一表征集合与第二表征集合输入至共享空间进行表征对齐处理，得到第一文本信息的损失函数；然后基于损失函数确定第一文本信息与视频片段的匹配关系。

需要说明的是，该损失函数即为噪声对比损失函数。其具体的计算公式可以为：

其中，t是预设长度的视频片段，F是视频网络，G是文本网络。

代表该目标视频中非预设长度视频片段的所有视频数据。

在一些实施例中，步骤“基于损失函数确定第一文本信息与视频片段的匹配关系”可以包括：

判断损失函数的值是否小于预设值；

若是，则保存第一文本信息与视频片段的匹配关系；

若否，则返回执行从目标视频截取预设长度的视频片段的步骤，直至损失函数的值小于预设值。

需要说明的是，该预设值可以根据实际情况进行设定。可以理解的是，理想状态下，该预设值为0。

在一些实施例中，步骤“将第一表征集合与第二表征集合输入至共享空间进行表征对齐处理，得到第一文本信息的损失函数”可以包括：

分别对动作表征与动词表征、物体表征与名词表征、片段表征与文本表征输入至共享空间进行表征对齐处理，分别得到第一文本信息的第一子损失函数、第二子损失函数和第三子损失函数。

可以理解的是，分别对动作表征与动词表征、物体表征与名词表征、片段表征与文本表征输入至共享空间进行表征对齐处理，可以确定视频片段和第一文本信息的局部到整体多个层次的对应关系，从而进一步提高视频的文本信息匹配准确性。

可以理解的是，在该步骤之后，可以分别将第一子损失函数、第二子损失函数、第三子损失函数与第一阈值、第二阈值、第三阈值进行比较，然后根据比较结果确定确定第一文本信息与视频片段的匹配关系。

需要说明的是，该第一阈值、第二阈值和第三阈值可以根据实际情况进行设定。

在一些实施例中，可以在第一子损失函数小于第一阈值，第二子损失函数小于第二阈值，第三子损失函数小于第三阈值时，确定保存此时的第一文本信息与视频片段的匹配关系。可以在第一子损失函数大于第一阈值，第二子损失函数小于第二阈值，第三子损失函数小于第三阈值时，确定保存此时的第一文本信息与视频片段的匹配关系。也可以在第一子损失函数小于第一阈值，第二子损失函数大于第二阈值，第三子损失函数小于第三阈值时，确定保存此时的第一文本信息与视频片段的匹配关系。还可以在第一子损失函数小于第一阈值，第二子损失函数小于第二阈值，第三子损失函数大于第三阈值时，确定保存此时的第一文本信息与视频片段的匹配关系。

将动作表征、物体表征、动词表征和名词表征输入至第一子共享空间；

将片段表征和文本表征输入至第二子共享空间；

基于第一子共享空间和第二子共享空间对动作表征与动词表征、物体表征与名词表征、片段表征与文本表征进行表征对齐处理，得到第一文本信息的损失函数。

其中，步骤“基于第一子共享空间和第二子共享空间对动作表征与动词表征、物体表征与名词表征、片段表征与文本表征进行表征对齐处理，得到第一文本信息的损失函数”可以包括：

将第一子共享空间和第二子共享空间进行卷积处理，得到第三子共享空间；

对第三子共享空间中的动作表征与动词表征、物体表征与名词表征、片段表征与文本表征进行表征对齐处理，得到第一文本信息的损失函数。

需要说明的是，第一子共享空间和第二子共享空间可以为256维度的表征空间，也可以为512维度的表征空间。第三子共享空间即为第一子共享空间和第二子共享空间叠加后的表征空间。比如，当第一子共享空间和第二子共享空间可以为256维度的表征空间时，第三子共享空间为512维度的表征空间。当第一子共享空间和第二子共享空间可以为512维度的表征空间时，第三子共享空间为1024维度的表征空间。

105、基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。

可以理解的是，得到第一文本信息与视频片段的匹配关系后，即可将该匹配关系作为目标视频的第二文本信息的匹配依据，对该目标视频对应的第二文本信息进行匹配，得到与该目标视频匹配准确性最高的第二文本信息。

之后，当需要对该目标视频中的某一视频片段进行检索时，可以通过相应文本信息进行匹配，从而得到与之匹配的视频片段。

综上，本申请实施例提供的视频的文本信息匹配方法采用从目标视频截取预设长度的视频片段；获取所述视频片段对应的第一文本信息；对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一表征集合和第二表征集合，并将将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到匹配关系，基于该匹配关系，可以实现视频的文本信息的匹配，并提高视频的文本信息匹配的精准性。

为了更好地实施以上视频的文本信息匹配方法，相应的，本申请实施例还提供一种视频的文本信息匹配装置，其中，该视频的文本信息匹配装置可以集成在电子设备中，也可以集成在服务器中。其中名词的含义与上述视频的文本信息匹配方法中相同，具体实现细节可以参考方法实施例中的说明。

比如，如图2所示，图2是本申请实施例提供的视频的文本信息匹配装置的结构示意图，该视频的文本信息匹配装置200可以包括视频截取单元201、文本获取单元202、表征提取单元203、表征匹配单元 204和文本匹配单元205。其中，

视频截取单元201，用于从目标视频截取预设长度的视频片段；

文本获取单元202，用于获取视频片段对应的第一文本信息；

表征提取单元203，用于对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合；

表征匹配单元204，用于将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到视频片段与第一文本信息的匹配关系；

文本匹配单元205，用于基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。

综上，本申请实施例提供的视频的文本信息匹配装置200通过视频截取单元201从目标视频截取预设长度的视频片段；由文本获取单元202获取视频片段对应的第一文本信息；由表征提取单元203对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合；由表征匹配单元204将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到视频片段与第一文本信息的匹配关系；由文本匹配单元205基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一表征集合和第二表征集合，并将将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到匹配关系，基于该匹配关系，可以实现视频的文本信息的匹配，并提高视频的文本信息匹配的精准性。

本申请实施例还提供一种服务器，如图3所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解，图3中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器301是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器 301可包括一个或多个处理核心；优选的，处理器301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

服务器还包括给各个部件供电的电源303，优选的，电源303可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元304，该输入单元304可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302 中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能，如下：

从目标视频截取预设长度的视频片段；

获取视频片段对应的第一文本信息；

对视频片段和第一文本信息进行表征提取，得到视频片段的第一表征集合和第一文本信息的第二表征集合；

将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到视频片段与第一文本信息的匹配关系；

基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的服务器通过从目标视频截取预设长度的视频片段；获取所述视频片段对应的第一文本信息；对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一表征集合和第二表征集合，并将将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到匹配关系，基于该匹配关系，可以实现视频的文本信息的匹配，并提高视频的文本信息匹配的精准性。

相应的，本申请实施例还提供一种电子设备，如图4所示，该电子设备可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，WirelessFidelity) 模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器 408处理；另外，将涉及上行的数据发送给基站。通常，RF电路401 包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber IdentityModule)卡、收发信机、耦合器、低噪声放大器(LNA，LowNoiseAmplifier)、双工器等。此外，RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System ofMobile communication)、通用分组无线服务(GPRS，GeneralPacketRadio Service)、码分多址 (CDMA，Code DivisionMultipleAccess)、宽带码分多址(WCDMA， WidebandCode DivisionMultipleAccess)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，ShortMessaging Service) 等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器 402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可以包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和 /或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器 408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

电子设备还可以包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源 409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

从目标视频截取预设长度的视频片段；

获取视频片段对应的第一文本信息；

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的电子设备通过从目标视频截取预设长度的视频片段；获取所述视频片段对应的第一文本信息；对所述视频片段和所述第一文本信息进行表征提取，得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合；将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系；基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一表征集合和第二表征集合，并将将第一表征集合和第二表征集合输入至共享空间进行匹配，从而得到匹配关系，基于该匹配关系，可以实现视频的文本信息的匹配，并提高视频的文本信息匹配的精准性。本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频的文本信息匹配方法中的步骤。例如，该指令可以执行如下步骤：

从目标视频截取预设长度的视频片段；

获取视频片段对应的第一文本信息；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任意视频的文本信息匹配方法中的步骤，因此，可以实现本申请实施例所提供的任一视频的文本信息匹配方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频的文本信息匹配方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频的文本信息匹配方法，其特征在于，包括：

从目标视频截取预设长度的视频片段；

获取所述视频片段对应的第一文本信息；

2.如权利要求1所述的视频的文本信息匹配方法，其特征在于，所述将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配，从而得到所述视频片段与所述第一文本信息的匹配关系，包括：

3.如权利要求2所述的视频的文本信息匹配方法，其特征在于，所述基于所述损失函数确定所述第一文本信息与所述视频片段的匹配关系，包括：

判断所述损失函数的值是否小于预设值；

4.如权利要求2所述的视频的视频的文本信息匹配方法，其特征在于，所述第一表征集合包括动作表征、物体表征和片段表征，所述第二表征集合包括动词表征、名词表征和文本表征。

5.如权利要求4所述的视频的视频的文本信息匹配方法，其特征在于，所述将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理，得到所述第一文本信息的损失函数，包括：

6.如权利要求4所述的视频的文本信息匹配方法，其特征在于，所述将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理，得到所述第一文本信息的损失函数，包括：

将所述片段表征和所述文本表征输入至第二子共享空间；

7.如权利要求6所述的视频的文本信息匹配方法，其特征在于，所述基于所述第一子共享空间和所述第二子共享空间对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理，得到所述第一文本信息的损失函数，包括：

8.一种视频的文本信息匹配装置，其特征在于，包括：

视频截取单元，用于从目标视频截取预设长度的视频片段；

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。