CN113536039A - 视频的文本信息匹配方法、装置、存储介质及电子设备 - Google Patents

视频的文本信息匹配方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113536039A
CN113536039A CN202110894271.6A CN202110894271A CN113536039A CN 113536039 A CN113536039 A CN 113536039A CN 202110894271 A CN202110894271 A CN 202110894271A CN 113536039 A CN113536039 A CN 113536039A
Authority
CN
China
Prior art keywords
text information
representation
video
matching
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110894271.6A
Other languages
English (en)
Inventor
王瑞轩
庄嘉鑫
陶婉莹
石威
郑伟诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110894271.6A priority Critical patent/CN113536039A/zh
Publication of CN113536039A publication Critical patent/CN113536039A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种视频的文本信息匹配方法、装置、存储介质及电子设备。其中,该视频的文本信息匹配方法采用从目标视频截取预设长度的视频片段;获取视频片段对应的第一文本信息;对视频片段和第一文本信息进行表征提取,得到视频片段的第一表征集合和第一文本信息的第二表征集合;将第一表征集合和第二表征集合输入至共享空间进行匹配,从而得到视频片段与第一文本信息的匹配关系;基于匹配关系对目标视频及目标视频对应的第二文本信息进行匹配。本方案可以提高视频的文本信息匹配的精准性。

Description

视频的文本信息匹配方法、装置、存储介质及电子设备
技术领域
本申请涉及信息技术领域,具体涉及一种视频的文本信息匹配方 法、装置、存储介质及电子设备。
背景技术
随着5G时代的到来,因其更快的传输速度、更大的带宽和更低 的时延等特点,将会进一步的加快多媒体数据的增长,特别是对于视 频数据来说,人们将更容易地上传和共享自己所创造的视频,可以预 见的是,未来互联网上的视频数据存储量将会非常巨大。
面对如此庞大的多媒体数据,如何从中快速且准确地检索出用户 所需求的视频是一个艰巨的挑战。而如何精准的实现文本到视频的跨 模态匹配就是解决这个挑战的关键技术之一。
发明内容
本申请实施例提供一种视频的文本信息匹配方法、装置、存储介 质及电子设备,可以提高视频的文本信息匹配的精准性。
第一方面,本申请实施例提供了一种视频的文本信息匹配方法, 包括:
从目标视频截取预设长度的视频片段;
获取所述视频片段对应的第一文本信息;
对所述视频片段和所述第一文本信息进行表征提取,得到所述视 频片段的第一表征集合和所述第一文本信息的第二表征集合;
将所述第一表征集合和所述第二表征集合输入至共享空间进行 匹配,从而得到所述视频片段与所述第一文本信息的匹配关系;
基于所述匹配关系对所述目标视频及所述目标视频对应的第二 文本信息进行匹配。
在本申请实施例提供的视频的文本信息匹配方法中,所述将所述 第一表征集合和所述第二表征集合输入至共享空间进行匹配,从而得 到所述视频片段与所述第一文本信息的匹配关系,包括:
将所述第一表征集合与所述第二表征集合输入至所述共享空间 进行表征对齐处理,得到所述第一文本信息的损失函数;
基于所述损失函数确定所述第一文本信息与所述视频片段的匹 配关系。
在本申请实施例提供的视频的文本信息匹配方法中,所述基于所 述损失函数确定所述第一文本信息与所述视频片段的匹配关系,包 括:
判断所述损失函数的值是否小于预设值;
若是,则保存所述第一文本信息与所述视频片段的匹配关系;
若否,则返回执行从目标视频截取预设长度的视频片段的步骤, 直至所述损失函数的值小于所述预设值。
在本申请实施例提供的视频的文本信息匹配方法中,所述第一表 征集合包括动作表征、物体表征和片段表征,所述第二表征集合包括 动词表征、名词表征和文本表征。
在本申请实施例提供的视频的文本信息匹配方法中,所述将所述 第一表征集合与所述第二表征集合输入至所述共享空间进行表征对 齐处理,得到所述第一文本信息的损失函数,包括:
分别对所述动作表征与所述动词表征、所述物体表征与所述名词 表征、所述片段表征与所述文本表征输入至所述共享空间进行表征对 齐处理,分别得到所述第一文本信息的第一子损失函数、第二子损失 函数和第三子损失函数。
在本申请实施例提供的视频的文本信息匹配方法中,所述将所述 第一表征集合与所述第二表征集合输入至所述共享空间进行表征对 齐处理,得到所述第一文本信息的损失函数,包括:
将所述动作表征、所述物体表征、所述动词表征和所述名词表征 输入至第一子共享空间;
将所述片段表征和所述文本表征输入至第二子共享空间;
基于所述第一子共享空间和所述第二子共享空间对所述动作表 征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与 所述文本表征进行表征对齐处理,得到所述第一文本信息的损失函 数。
在本申请实施例提供的视频的文本信息匹配方法中,所述基于所 述第一子共享空间和所述第二子共享空间对所述动作表征与所述动 词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表 征进行表征对齐处理,得到所述第一文本信息的损失函数,包括:
将所述第一子共享空间和所述第二子共享空间进行卷积处理,得 到第三子共享空间;
对所述第三子共享空间中的所述动作表征与所述动词表征、所述 物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对 齐处理,得到所述第一文本信息的损失函数。
第二方面,本申请实施例提供了一种视频的文本信息匹配装置, 包括:
视频截取单元,用于从目标视频截取预设长度的视频片段;
文本获取单元,用于获取所述视频片段对应的第一文本信息;
表征提取单元,用于对所述视频片段和所述第一文本信息进行表 征提取,得到所述视频片段的第一表征集合和所述第一文本信息的第 二表征集合;
表征匹配单元,用于将所述第一表征集合和所述第二表征集合输 入至共享空间进行匹配,从而得到所述视频片段与所述第一文本信息 的匹配关系;
文本匹配单元,用于基于所述匹配关系对所述目标视频及所述目 标视频对应的第二文本信息进行匹配。
第三方面,本申请实施例提供了一种存储介质,所述存储介质存 储有多条指令,所述指令适于处理器进行加载,以执行上述的任一方 法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处 理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所 述处理器执行所述计算机程序时实现如上述的任一方法。
本申请实施例提供的视频的文本信息匹配方法采用从目标视频 截取预设长度的视频片段;获取所述视频片段对应的第一文本信息; 对所述视频片段和所述第一文本信息进行表征提取,得到所述视频片 段的第一表征集合和所述第一文本信息的第二表征集合;将所述第一 表征集合和所述第二表征集合输入至共享空间进行匹配,从而得到所 述视频片段与所述第一文本信息的匹配关系;基于所述匹配关系对所 述目标视频及所述目标视频对应的第二文本信息进行匹配。本方案通 过分别提取第一表征集合和第二表征集合,并将将第一表征集合和第 二表征集合输入至共享空间进行匹配,从而得到匹配关系,基于该匹 配关系,可以实现视频的文本信息的匹配,并提高视频的文本信息匹 配的精准性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的视频的文本信息匹配方法的流程示 意图。
图2是本申请实施例提供的视频的文本信息匹配装置的结构示 意图。
图3是本申请实施例提供的服务器的结构示意图。
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部 分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技 术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属 于本申请保护的范围。
本申请中的术语“第一”和“第二”等是用于区别不同对象,而不是 用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形, 意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、 方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选 地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方 法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结 构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个 位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例 互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解 的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种视频的文本信息匹配方法、装置、存储介 质及电子设备。需要说明的是,本申请实施例提供的视频的文本信息 匹配方法,可集成在视频的文本信息匹配装置中,该视频的文本信息 匹配装置具体可以集成在电子设备中,该电子设备包括但不限于计算 机、手机、平板电脑等设备。
以下将分别进行详细说明,以下各个实施例的描述先后顺序并不 构成对具体实施先后顺序的限定。
请参照图1,图1为本申请的视频的文本信息匹配方法的流程示意 图。该视频的文本信息匹配方法的具体流程可以包括:
101、从目标视频截取预设长度的视频片段。
需要说明的是,该目标视频可以从Howto100M视频数据集中选 取。
其中,该预设长度可以根据实际情况进行设定。比如,该预设长 度可以为1秒、1.2秒、2秒、2.2秒、3秒、3.2秒、4秒、1帧、2 帧、3帧等等。
102、获取视频片段对应的第一文本信息。
在一些实施例中,可以通过语音识别系统对该视频片段中的语音 进行识别,从而生成该第一文本信息。
需要说明的是,也可以通过其他方式生成该视频片段的第一文本 信息。比如,可以从互联网、服务器、云端等进行获取。
103、对视频片段和第一文本信息进行表征提取,得到视频片段 的第一表征集合和第一文本信息的第二表征集合。
需要说明的是,第一表征集合可以包括动作表征、物体表征和片 段表征。第二表征集合可以包括动词表征、名词表征和文本表征。
具体的,可以分别通过视频网络表征提取分支和文本网络提取分 支对对视频片段和第一文本信息进行表征提取,得到视频片段的第一 表征集合和第一文本信息的第二表征集合。
在一些实施例中,可以将视频片段输入至MotionSqueeze模型进 行耦开,从而得到该视频片段的动作表征和物体表征,再将视频片段 输入至S3D-G,从而得到该视频片段的片段表征,然后将动词表征、 名词表征和文本表征进行组合,从而得到第一表征集合。
在一些实施例中,可以将第一文本信息输入至多层感知机进行耦 开,从而得到该第一文本信息的动词表征、名词表征和文本表征。
需要说明的是,对视频片段和第一文本信息进行表征提取的方式 包括但不限于以上方式,还可以采用其他方式进行提取,本实施例不 再一一赘述。
104、将第一表征集合和第二表征集合输入至共享空间进行匹配, 从而得到视频片段与第一文本信息的匹配关系。
需要说明的是,该共享空间为联合嵌入空间。联合嵌入空间学习 是目前跨模态检索中常用的方法。它期望异构的视频、文本信息能够 在统一空间下进行度量学习,该空间即被命名为联合嵌入空间。在联 合嵌入空间中,会约束不同模态的数据之间正样本对的距离要比负样 本对的距离要近,以此来学习跨模态数据间的相似性。
在一些实施例中,视频与第一文本信息之间的相似性可以用损失 函数进行表示。损失函数的值越大,则表示视频与第一文本信息的相 似性越低。损失函数的值越小,则表示视频与第一文本信息的相似性 越高。
具体的,可以将将第一表征集合与第二表征集合输入至共享空间 进行表征对齐处理,得到第一文本信息的损失函数;然后基于损失函 数确定第一文本信息与视频片段的匹配关系。
需要说明的是,该损失函数即为噪声对比损失函数。其具体的计 算公式可以为:
Figure BDA0003196413940000071
其中,t是预设长度的视频片段,F是视频网络,G是文本网络。
Figure BDA0003196413940000072
代表该目标视频中非预设长度视频片段的所有视频数据。
在一些实施例中,步骤“基于损失函数确定第一文本信息与视频 片段的匹配关系”可以包括:
判断损失函数的值是否小于预设值;
若是,则保存第一文本信息与视频片段的匹配关系;
若否,则返回执行从目标视频截取预设长度的视频片段的步骤, 直至损失函数的值小于预设值。
需要说明的是,该预设值可以根据实际情况进行设定。可以理解 的是,理想状态下,该预设值为0。
在一些实施例中,步骤“将第一表征集合与第二表征集合输入至 共享空间进行表征对齐处理,得到第一文本信息的损失函数”可以包 括:
分别对动作表征与动词表征、物体表征与名词表征、片段表征与 文本表征输入至共享空间进行表征对齐处理,分别得到第一文本信息 的第一子损失函数、第二子损失函数和第三子损失函数。
可以理解的是,分别对动作表征与动词表征、物体表征与名词表 征、片段表征与文本表征输入至共享空间进行表征对齐处理,可以确 定视频片段和第一文本信息的局部到整体多个层次的对应关系,从而 进一步提高视频的文本信息匹配准确性。
可以理解的是,在该步骤之后,可以分别将第一子损失函数、第 二子损失函数、第三子损失函数与第一阈值、第二阈值、第三阈值进 行比较,然后根据比较结果确定确定第一文本信息与视频片段的匹配 关系。
需要说明的是,该第一阈值、第二阈值和第三阈值可以根据实际 情况进行设定。
在一些实施例中,可以在第一子损失函数小于第一阈值,第二子 损失函数小于第二阈值,第三子损失函数小于第三阈值时,确定保存 此时的第一文本信息与视频片段的匹配关系。可以在第一子损失函数 大于第一阈值,第二子损失函数小于第二阈值,第三子损失函数小于 第三阈值时,确定保存此时的第一文本信息与视频片段的匹配关系。 也可以在第一子损失函数小于第一阈值,第二子损失函数大于第二阈 值,第三子损失函数小于第三阈值时,确定保存此时的第一文本信息 与视频片段的匹配关系。还可以在第一子损失函数小于第一阈值,第 二子损失函数小于第二阈值,第三子损失函数大于第三阈值时,确定保存此时的第一文本信息与视频片段的匹配关系。
在一些实施例中,步骤“将第一表征集合与第二表征集合输入至 共享空间进行表征对齐处理,得到第一文本信息的损失函数”可以包 括:
将动作表征、物体表征、动词表征和名词表征输入至第一子共享 空间;
将片段表征和文本表征输入至第二子共享空间;
基于第一子共享空间和第二子共享空间对动作表征与动词表征、 物体表征与名词表征、片段表征与文本表征进行表征对齐处理,得到 第一文本信息的损失函数。
其中,步骤“基于第一子共享空间和第二子共享空间对动作表征 与动词表征、物体表征与名词表征、片段表征与文本表征进行表征对 齐处理,得到第一文本信息的损失函数”可以包括:
将第一子共享空间和第二子共享空间进行卷积处理,得到第三子 共享空间;
对第三子共享空间中的动作表征与动词表征、物体表征与名词表 征、片段表征与文本表征进行表征对齐处理,得到第一文本信息的损 失函数。
需要说明的是,第一子共享空间和第二子共享空间可以为256维 度的表征空间,也可以为512维度的表征空间。第三子共享空间即为 第一子共享空间和第二子共享空间叠加后的表征空间。比如,当第一 子共享空间和第二子共享空间可以为256维度的表征空间时,第三子 共享空间为512维度的表征空间。当第一子共享空间和第二子共享空 间可以为512维度的表征空间时,第三子共享空间为1024维度的表 征空间。
105、基于匹配关系对目标视频及目标视频对应的第二文本信息 进行匹配。
可以理解的是,得到第一文本信息与视频片段的匹配关系后,即 可将该匹配关系作为目标视频的第二文本信息的匹配依据,对该目标 视频对应的第二文本信息进行匹配,得到与该目标视频匹配准确性最 高的第二文本信息。
之后,当需要对该目标视频中的某一视频片段进行检索时,可以 通过相应文本信息进行匹配,从而得到与之匹配的视频片段。
综上,本申请实施例提供的视频的文本信息匹配方法采用从目标 视频截取预设长度的视频片段;获取所述视频片段对应的第一文本信 息;对所述视频片段和所述第一文本信息进行表征提取,得到所述视 频片段的第一表征集合和所述第一文本信息的第二表征集合;将所述 第一表征集合和所述第二表征集合输入至共享空间进行匹配,从而得 到所述视频片段与所述第一文本信息的匹配关系;基于所述匹配关系 对所述目标视频及所述目标视频对应的第二文本信息进行匹配。本方 案通过分别提取第一表征集合和第二表征集合,并将将第一表征集合 和第二表征集合输入至共享空间进行匹配,从而得到匹配关系,基于 该匹配关系,可以实现视频的文本信息的匹配,并提高视频的文本信 息匹配的精准性。
为了更好地实施以上视频的文本信息匹配方法,相应的,本申请 实施例还提供一种视频的文本信息匹配装置,其中,该视频的文本信 息匹配装置可以集成在电子设备中,也可以集成在服务器中。其中名 词的含义与上述视频的文本信息匹配方法中相同,具体实现细节可以 参考方法实施例中的说明。
比如,如图2所示,图2是本申请实施例提供的视频的文本信息匹 配装置的结构示意图,该视频的文本信息匹配装置200可以包括视频 截取单元201、文本获取单元202、表征提取单元203、表征匹配单元 204和文本匹配单元205。其中,
视频截取单元201,用于从目标视频截取预设长度的视频片段;
文本获取单元202,用于获取视频片段对应的第一文本信息;
表征提取单元203,用于对视频片段和第一文本信息进行表征提 取,得到视频片段的第一表征集合和第一文本信息的第二表征集合;
表征匹配单元204,用于将第一表征集合和第二表征集合输入至 共享空间进行匹配,从而得到视频片段与第一文本信息的匹配关系;
文本匹配单元205,用于基于匹配关系对目标视频及目标视频对 应的第二文本信息进行匹配。
综上,本申请实施例提供的视频的文本信息匹配装置200通过视 频截取单元201从目标视频截取预设长度的视频片段;由文本获取单 元202获取视频片段对应的第一文本信息;由表征提取单元203对视频 片段和第一文本信息进行表征提取,得到视频片段的第一表征集合和 第一文本信息的第二表征集合;由表征匹配单元204将第一表征集合 和第二表征集合输入至共享空间进行匹配,从而得到视频片段与第一 文本信息的匹配关系;由文本匹配单元205基于匹配关系对目标视频 及目标视频对应的第二文本信息进行匹配。本方案通过分别提取第一 表征集合和第二表征集合,并将将第一表征集合和第二表征集合输入 至共享空间进行匹配,从而得到匹配关系,基于该匹配关系,可以实 现视频的文本信息的匹配,并提高视频的文本信息匹配的精准性。
本申请实施例还提供一种服务器,如图3所示,其示出了本申请 实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器301、一 个或一个以上计算机可读存储介质的存储器302、电源303和输入单 元304等部件。本领域技术人员可以理解,图3中示出的服务器结构 并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者 组合某些部件,或者不同的部件布置。其中:
处理器301是该服务器的控制中心,利用各种接口和线路连接整 个服务器的各个部分,通过运行或执行存储在存储器302内的软件程 序和/或模块,以及调用存储在存储器302内的数据,执行服务器的 各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器 301可包括一个或多个处理核心;优选的,处理器301可集成应用处 理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户 界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的 是,上述调制解调处理器也可以不集成到处理器301中。
存储器302可用于存储软件程序以及模块,处理器301通过运行 存储在存储器302的软件程序以及模块,从而执行各种功能应用以及 数据处理。存储器302可主要包括存储程序区和存储数据区,其中, 存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声 音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的 使用所创建的数据等。此外,存储器302可以包括高速随机存取存储 器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存 器件、或其他易失性固态存储器件。相应地,存储器302还可以包括 存储器控制器,以提供处理器301对存储器302的访问。
服务器还包括给各个部件供电的电源303,优选的,电源303可 以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统 实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一 个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、 电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元304,该输入单元304可用于接收输 入的数字或字符信息,以及产生与用户设置以及功能控制有关的键 盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具 体在本实施例中,服务器中的处理器301会按照如下的指令,将一个 或一个以上的应用程序的进程对应的可执行文件加载到存储器302 中,并由处理器301来运行存储在存储器302中的应用程序,从而实 现各种功能,如下:
从目标视频截取预设长度的视频片段;
获取视频片段对应的第一文本信息;
对视频片段和第一文本信息进行表征提取,得到视频片段的第一 表征集合和第一文本信息的第二表征集合;
将第一表征集合和第二表征集合输入至共享空间进行匹配,从而 得到视频片段与第一文本信息的匹配关系;
基于匹配关系对目标视频及目标视频对应的第二文本信息进行 匹配。
以上操作具体可参见前面的实施例,在此不作赘述。
由上可知,本实施例提供的服务器通过从目标视频截取预设长度 的视频片段;获取所述视频片段对应的第一文本信息;对所述视频片 段和所述第一文本信息进行表征提取,得到所述视频片段的第一表征 集合和所述第一文本信息的第二表征集合;将所述第一表征集合和所 述第二表征集合输入至共享空间进行匹配,从而得到所述视频片段与 所述第一文本信息的匹配关系;基于所述匹配关系对所述目标视频及 所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取第 一表征集合和第二表征集合,并将将第一表征集合和第二表征集合输 入至共享空间进行匹配,从而得到匹配关系,基于该匹配关系,可以 实现视频的文本信息的匹配,并提高视频的文本信息匹配的精准性。
相应的,本申请实施例还提供一种电子设备,如图4所示,该电 子设备可以包括射频(RF,Radio Frequency)电路401、包括有一个 或一个以上计算机可读存储介质的存储器402、输入单元403、显示 单元404、传感器405、音频电路406、无线保真(WiFi,WirelessFidelity) 模块407、包括有一个或者一个以上处理核心的处理器408、以及电 源409等部件。本领域技术人员可以理解,图4中示出的电子设备结 构并不构成对电子设备的限定,可以包括比图示更多或更少的部件, 或者组合某些部件,或者不同的部件布置。其中:
RF电路401可用于收发信息或通话过程中,信号的接收和发送, 特别地,将基站的下行信息接收后,交由一个或者一个以上处理器 408处理;另外,将涉及上行的数据发送给基站。通常,RF电路401 包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber IdentityModule)卡、收发信机、 耦合器、低噪声放大器(LNA,LowNoiseAmplifier)、双工器等。 此外,RF电路401还可以通过无线通信与网络和其他设备通信。所 述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通 讯系统(GSM,Global System ofMobile communication)、通用分 组无线服务(GPRS,GeneralPacketRadio Service)、码分多址 (CDMA,Code DivisionMultipleAccess)、宽带码分多址(WCDMA, WidebandCode DivisionMultipleAccess)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,ShortMessaging Service) 等。
存储器402可用于存储软件程序以及模块,处理器408通过运行 存储在存储器402的软件程序以及模块,从而执行各种功能应用以及 数据处理。存储器402可主要包括存储程序区和存储数据区,其中, 存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声 音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备 的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器 402可以包括高速随机存取存储器,还可以包括非易失性存储器,例 如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。 相应地,存储器402还可以包括存储器控制器,以提供处理器408和 输入单元403对存储器402的访问。
输入单元403可用于接收输入的数字或字符信息,以及产生与用 户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信 号输入。具体地,在一个具体的实施例中,输入单元403可包括触敏 表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板, 可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任 何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根 据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触 摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的 触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器; 触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐 标,再送给处理器408,并能接收处理器408发来的命令并加以执行。 此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实 现触敏表面。除了触敏表面,输入单元403还可以包括其他输入设备。 具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音 量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多 种。
显示单元404可用于显示由用户输入的信息或提供给用户的信 息以及电子设备的各种图形用户接口,这些图形用户接口可以由图 形、文本、图标、视频和其任意组合来构成。显示单元404可包括显 示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、 有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配 置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测 到在其上或附近的触摸操作后,传送给处理器408以确定触摸事件的 类型,随后处理器408根据触摸事件的类型在显示面板上提供相应的 视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部 件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与 显示面板集成而实现输入和输出功能。
电子设备还可以包括至少一种传感器405,比如光传感器、运动 传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接 近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面 板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和 /或背光。作为运动传感器的一种,重力加速度传感器可检测各个方 向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方 向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力 计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电 子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器 等其他传感器,在此不再赘述。
音频电路406、扬声器,传声器可提供用户与电子设备之间的音 频接口。音频电路406可将接收到的音频数据转换后的电信号,传输 到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集 的声音信号转换为电信号,由音频电路406接收后转换为音频数据, 再将音频数据输出处理器408处理后,经RF电路401以发送给比如 另一电子设备,或者将音频数据输出至存储器402以便进一步处理。 音频电路406还可能包括耳塞插孔,以提供外设耳机与电子设备的通 信。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块407可 以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提 供了无线的宽带互联网访问。虽然图4示出了WiFi模块407,但是 可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要 在不改变发明的本质的范围内而省略。
处理器408是电子设备的控制中心,利用各种接口和线路连接整 个手机的各个部分,通过运行或执行存储在存储器402内的软件程序 和/或模块,以及调用存储在存储器402内的数据,执行电子设备的 各种功能和处理数据,从而对手机进行整体监控。可选的,处理器 408可包括一个或多个处理核心;优选的,处理器408可集成应用处 理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户 界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的 是,上述调制解调处理器也可以不集成到处理器408中。
电子设备还可以包括给各个部件供电的电源409(比如电池), 优选的,电源可以通过电源管理系统与处理器408逻辑相连,从而通 过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源 409还可以包括一个或一个以上的直流或交流电源、再充电系统、电 源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组 件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不 再赘述。具体在本实施例中,电子设备中的处理器408会按照如下的 指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到 存储器402中,并由处理器408来运行存储在存储器402中的应用程 序,从而实现各种功能:
从目标视频截取预设长度的视频片段;
获取视频片段对应的第一文本信息;
对视频片段和第一文本信息进行表征提取,得到视频片段的第一 表征集合和第一文本信息的第二表征集合;
将第一表征集合和第二表征集合输入至共享空间进行匹配,从而 得到视频片段与第一文本信息的匹配关系;
基于匹配关系对目标视频及目标视频对应的第二文本信息进行 匹配。
以上操作具体可参见前面的实施例,在此不作赘述。
由上可知,本实施例提供的电子设备通过从目标视频截取预设长 度的视频片段;获取所述视频片段对应的第一文本信息;对所述视频 片段和所述第一文本信息进行表征提取,得到所述视频片段的第一表 征集合和所述第一文本信息的第二表征集合;将所述第一表征集合和 所述第二表征集合输入至共享空间进行匹配,从而得到所述视频片段 与所述第一文本信息的匹配关系;基于所述匹配关系对所述目标视频 及所述目标视频对应的第二文本信息进行匹配。本方案通过分别提取 第一表征集合和第二表征集合,并将将第一表征集合和第二表征集合 输入至共享空间进行匹配,从而得到匹配关系,基于该匹配关系,可 以实现视频的文本信息的匹配,并提高视频的文本信息匹配的精准 性。本领域普通技术人员可以理解,上述实施例的各种方法中的全部 或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完 成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加 载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令, 该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种 视频的文本信息匹配方法中的步骤。例如,该指令可以执行如下步骤:
从目标视频截取预设长度的视频片段;
获取视频片段对应的第一文本信息;
对视频片段和第一文本信息进行表征提取,得到视频片段的第一 表征集合和第一文本信息的第二表征集合;
将第一表征集合和第二表征集合输入至共享空间进行匹配,从而 得到视频片段与第一文本信息的匹配关系;
基于匹配关系对目标视频及目标视频对应的第二文本信息进行 匹配。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁 盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供 的任意视频的文本信息匹配方法中的步骤,因此,可以实现本申请实 施例所提供的任一视频的文本信息匹配方法所能实现的有益效果,详 见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种视频的文本信息匹配方法、装 置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对 本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮 助理解本申请的方法及其核心思想;同时,对于本领域的技术人员, 依据本申请的思想,在具体实施方式及应用范围上均会有改变之处, 综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种视频的文本信息匹配方法,其特征在于,包括:
从目标视频截取预设长度的视频片段;
获取所述视频片段对应的第一文本信息;
对所述视频片段和所述第一文本信息进行表征提取,得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合;
将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配,从而得到所述视频片段与所述第一文本信息的匹配关系;
基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。
2.如权利要求1所述的视频的文本信息匹配方法,其特征在于,所述将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配,从而得到所述视频片段与所述第一文本信息的匹配关系,包括:
将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理,得到所述第一文本信息的损失函数;
基于所述损失函数确定所述第一文本信息与所述视频片段的匹配关系。
3.如权利要求2所述的视频的文本信息匹配方法,其特征在于,所述基于所述损失函数确定所述第一文本信息与所述视频片段的匹配关系,包括:
判断所述损失函数的值是否小于预设值;
若是,则保存所述第一文本信息与所述视频片段的匹配关系;
若否,则返回执行从目标视频截取预设长度的视频片段的步骤,直至所述损失函数的值小于所述预设值。
4.如权利要求2所述的视频的视频的文本信息匹配方法,其特征在于,所述第一表征集合包括动作表征、物体表征和片段表征,所述第二表征集合包括动词表征、名词表征和文本表征。
5.如权利要求4所述的视频的视频的文本信息匹配方法,其特征在于,所述将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理,得到所述第一文本信息的损失函数,包括:
分别对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征输入至所述共享空间进行表征对齐处理,分别得到所述第一文本信息的第一子损失函数、第二子损失函数和第三子损失函数。
6.如权利要求4所述的视频的文本信息匹配方法,其特征在于,所述将所述第一表征集合与所述第二表征集合输入至所述共享空间进行表征对齐处理,得到所述第一文本信息的损失函数,包括:
将所述动作表征、所述物体表征、所述动词表征和所述名词表征输入至第一子共享空间;
将所述片段表征和所述文本表征输入至第二子共享空间;
基于所述第一子共享空间和所述第二子共享空间对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理,得到所述第一文本信息的损失函数。
7.如权利要求6所述的视频的文本信息匹配方法,其特征在于,所述基于所述第一子共享空间和所述第二子共享空间对所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理,得到所述第一文本信息的损失函数,包括:
将所述第一子共享空间和所述第二子共享空间进行卷积处理,得到第三子共享空间;
对所述第三子共享空间中的所述动作表征与所述动词表征、所述物体表征与所述名词表征、所述片段表征与所述文本表征进行表征对齐处理,得到所述第一文本信息的损失函数。
8.一种视频的文本信息匹配装置,其特征在于,包括:
视频截取单元,用于从目标视频截取预设长度的视频片段;
文本获取单元,用于获取所述视频片段对应的第一文本信息;
表征提取单元,用于对所述视频片段和所述第一文本信息进行表征提取,得到所述视频片段的第一表征集合和所述第一文本信息的第二表征集合;
表征匹配单元,用于将所述第一表征集合和所述第二表征集合输入至共享空间进行匹配,从而得到所述视频片段与所述第一文本信息的匹配关系;
文本匹配单元,用于基于所述匹配关系对所述目标视频及所述目标视频对应的第二文本信息进行匹配。
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。
CN202110894271.6A 2021-08-04 2021-08-04 视频的文本信息匹配方法、装置、存储介质及电子设备 Pending CN113536039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110894271.6A CN113536039A (zh) 2021-08-04 2021-08-04 视频的文本信息匹配方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110894271.6A CN113536039A (zh) 2021-08-04 2021-08-04 视频的文本信息匹配方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113536039A true CN113536039A (zh) 2021-10-22

Family

ID=78090498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110894271.6A Pending CN113536039A (zh) 2021-08-04 2021-08-04 视频的文本信息匹配方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113536039A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
CN107801106A (zh) * 2017-10-24 2018-03-13 维沃移动通信有限公司 一种视频片段截取方法及电子设备
CN111191075A (zh) * 2019-12-31 2020-05-22 华南师范大学 基于双重编码与联合的跨模态检索方法、系统及存储介质
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
US10021276B1 (en) * 2017-06-30 2018-07-10 Beijing Kingsoft Internet Security Software Co., Ltd. Method and device for processing video, electronic device and storage medium
CN107801106A (zh) * 2017-10-24 2018-03-13 维沃移动通信有限公司 一种视频片段截取方法及电子设备
CN111191075A (zh) * 2019-12-31 2020-05-22 华南师范大学 基于双重编码与联合的跨模态检索方法、系统及存储介质
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈雯柏;陈祥凤;刘琼;韩琥;: "一种粒子群优化融合特征的零样本图像分类算法", 西北工业大学学报, no. 06, 15 December 2019 (2019-12-15) *

Similar Documents

Publication Publication Date Title
WO2015090248A1 (zh) 服务器的过载保护方法及装置
CN108470571B (zh) 一种音频检测方法、装置及存储介质
US20170316781A1 (en) Remote electronic service requesting and processing method, server, and terminal
CN106528545B (zh) 一种语音信息的处理方法及装置
CN107734170B (zh) 一种通知消息处理方法、移动终端及穿戴设备
CN107229618B (zh) 一种显示页面的方法及装置
CN109817241B (zh) 音频处理方法、装置及存储介质
CN107885718B (zh) 语义确定方法及装置
CN108492837B (zh) 音频突发白噪声的检测方法、装置及存储介质
CN110335629B (zh) 音频文件的音高识别方法、装置以及存储介质
CN111405043A (zh) 信息处理方法、装置及电子设备
CN109688611B (zh) 一种频段参数的配置方法、装置、终端和存储介质
CN108089935B (zh) 一种应用程序的管理方法及移动终端
CN111027406B (zh) 图片识别方法、装置、存储介质及电子设备
CN113536039A (zh) 视频的文本信息匹配方法、装置、存储介质及电子设备
CN108449259B (zh) 一种通信处理方法及移动终端
CN111897916A (zh) 语音指令识别方法、装置、终端设备及存储介质
CN110955468A (zh) 一种操作入口的调取的方法、装置及电子设备
CN105988801B (zh) 一种显示注释信息的方法及装置
CN109561481B (zh) 一种数据发送方法、终端和存储介质
CN114095585B (zh) 数据传输方法、装置、存储介质及电子设备
CN111221782B (zh) 一种文件查找方法、装置、存储介质及移动终端
CN111966271B (zh) 屏幕全景截图方法、装置、终端设备和存储介质
CN115831120B (zh) 语料数据采集方法、装置、电子设备及可读存储介质
CN111405649B (zh) 一种信息传输方法、装置及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination