CN110990597B

CN110990597B - 基于文本语义映射的跨模态数据检索系统及其检索方法

Info

Publication number: CN110990597B
Application number: CN201911315961.0A
Authority: CN
Inventors: 张淯舒; 张德; 钱茛南; 方赴洋; 张志华; 曹扬
Original assignee: CETC Information Science Research Institute; CETC Big Data Research Institute Co Ltd
Current assignee: CETC Information Science Research Institute; CETC Big Data Research Institute Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2022-11-25
Anticipated expiration: 2039-12-19
Also published as: CN110990597A

Abstract

一种基于文本语义映射的跨模态数据检索系统及其检索方法，该检索系统包括数据域、离线域、语义域以及在线域；数据域包括文本数据集和非文本数据集；离线域包括标签提取模块、文本语义提取模块、数据标注模块、和非文本语义模型训练模块；所述语义域包括文本语义空间；在线预包括文本语义提取模块、非文本语义提取模块、查询表达模块、相关度计算模块、和相关度排序模块。本发明将非文本数据语义映射至文本语义空间，有助于提高系统数据标注、模型训练以及检索准确率评估的效率与可操作性，减少了非本文数据语义映射次数，极大地保留了数据的原始语义，能够有效提高数据检索准确率。

Description

基于文本语义映射的跨模态数据检索系统及其检索方法

技术领域

本发明涉及跨模态数据语义检索领域，具体涉及一种基于文本语义映射的跨模态数据检索系统及其检索方法。

背景技术

跨模态数据是文字、图像、音频和视频等多模态数据的集成,通过不同表现形式各自描绘丰富的语义信息。随着网络技术的飞速发展与移动智能设备的普及，信息的来源渠道多元化，信息的承载形式多样化，信息检索方式从最单一的关键字搜索发展到图像检索、音频视频等跨模态数据的检索。

一般而言，侧重某一种特定模态的媒体数据往往只能获得认知对象的部分特性,容易给数据分析带来一定的局限性，现在人们对互联网信息检索的需求不断增大，单一模态媒体信息的检索结果已经不能满足人们的检索需求。因此，跨模态多媒体检索方法的研究对于多媒体时代的互联网媒体信息的检索有着重大的意义。

跨模态检索的核心目标是计算不同模态的多媒体数据间的跨模态相关度,对于给定的查询样例,根据候选对象与查询样例的相关度对候选对象进行排序从而得到最终的检索结果。在跨模态检索中,关键的困难在于不同模态的多媒体数据之间存在很大的“异构鸿沟”,底层表示通常是异构的(例如文本由不同单词排列组成，而图像由不同像素排列组成)。底层表示的差异使得不同模态数据的特征表达不能直接进行比较，从而导致不能直接比较计算它们的相关度。由于多媒体数据之间异构性和不可比性，使得如何计算跨模态数据之间相关度是一个非常有挑战性的研究任务。针对上述挑战，大量跨模态捡索方法相继被提出，现有技术中，主要的方法可以分为两大类:基于公共空间学习的方法和基于相关性度量的方法。

对于基于公共空间学习的方法，主要通过为不同模态的多媒体数据学习一个统一的公共空间并将数据在所学到的空间中表达，从而使得跨模态相关度可以在这个公共空间中直接通过距离进行衡量。

其主流方法的思想是通过学习两个线性或非线性映射分别将两种不同模态的数据投影到一个公共的潜在子空间中。在基于深度学习的特征提取方法出现之前，跨模态检索中的图像或视频通常采用Bag-of-Visual Words(称为视觉词袋)特征表示，而文本用Bag-of-Words特征表示。由于这些手工制作的特征不能很好地表示视觉和文本模态数据且不能直接比较，因此需要对视觉和文本模态特征进行特征变换，以学习到一个公共的潜在子空间并将两种模态数据进行更好的表达,从而可以在子空间中计算跨模态相关度。

虽然基于该方案的跨模态检索取得了很大的进展，但基于潜在的子空间的解决方案存在以下问题。首先,学习到的公共潜在子空间缺乏实际的物理解释性，其合理性难以被证明；其次，需要两个不同映射将两种模态的数据投影到潜在子空间中,越多的映射往往会造成越多的信息丢失降低检索准确率。

对于基于相关性度量的方法，主要通过分析挖掘跨模态数据之间的关联关系直接预测跨模态数据之间的相关度。基于相关性度量的方法不能提前进行计算,需同时给定不同模态数据对(如图像句子对)，在查询样例到来前无法进行提前计算，这限制了该类方法在大规模条件下的应用。

发明内容

本发明的目的在于提出一种基于文本语义映射的跨模态数据检索系统及其检索方法，以文本语义为基准为多模态数据提供直接、准确、可解释的语义空间，一方面可以提升数据标注、模型训练以及系统准确率评估等工作的可操作性；另一方面减少了处理过程中语义映射次数，最大限度保留语义信息，有助于提高检索准确率。

为达此目的，本发明采用以下技术方案：

一种基于文本语义映射的跨模态数据检索系统，其特征在于：

该检索系统包括数据域、离线域、语义域以及在线域；

其中所述数据域包括文本数据集100和非文本数据集，各数据集存储对应模态数据内容，用于与离线域中的处理、标注和训练提供原始数据支持；

所述离线域包括标签提取模块101、文本语义提取模块102、数据标注模块111、非文本语义模型训练模块；

所述标签提取模块101，用于对文本数据集100中样本数据进行处理，从中提取出应用领域内具有代表性语义的文本形式的标签集，以对非文本数据进行标注；

所述文本语义提取模块102，用于通过文本语义模型，对标签进行处理，将标签、标签集按照语义转换为固定长度的实数向量，作为对应标签、标签集在语义域103中的表示；

所述数据标注模块111，用于通过自动或人工方式，利用标签提取模块101生成的标签集中一个或多个标签描述非文本数据集中数据的语义，并将数据对应标签、标签集通过文本语义提取模块102获得的语义向量记录为对应非文本数据的语义表示，以此获取非文本数据语义模型训练数据；

所述非文本语义模型训练模块，用于利用数据标注模块111提供的训练数据，对相应模态的非文本模态语义模型232进行训练，使其能够将非文本数据转化为文本语义向量，从而将非本文数据语义映射至文本语义空间；

所述语义域包括文本语义空间103，用于数据内在含义的逻辑表示，在系统中具体为固定长度的实数向量，所述文本语义空间103通过文本数据构建，非文本数据通过相应模型映射至该文本语义空间，以实现跨模态数据相关度分析、处理与计算；

所述在线预包括文本语义提取模块104、非文本语义提取模块、查询表达模块145、相关度计算模块135、和相关度排序模块125。

所述文本语义提取模块104和非文本语义提取模块，一方面用于将对应模态的查询请求转换为语义空间中文本语义向量表示，另一方面用于将待检索的数据内容转换为语义空间中的本文语义向量表示。

所述查询表达模块145，用于将表示查询请求语义向量、表示待检索数据内容的语义向量集合以及其他查询约束条件整合后提供给相关度计算模块135处理。

所述相关度计算模块135，用于按照查询约束条件要求，分别计算待检索数据语义向量与查询请求语义向量的相关度。

所述相关排序模块125，用于按照待检索数据语义向量与查询请求语义向量的相关度高低，对待检索数据进行排序，并按照查询约束条件，返回相似度最高的若干项数据。

可选的，所述非文本数据集包括图片数据集110、音频数据集120、视频数据集130以及其他模态数据集140。

可选的，所述非文本语义模型训练模块包括图片语义模型训练模块112、音频语义模型训练模块122、视频语义模型训练模块132以及其他语义模式训练模块142。

可选的，所述非文本语义模型训练模块对相应模态的非文本模态语义模型232进行训练，具体为：非文本语义模型训练模块按照所处理的数据类型选取对应的端到端深度神经网络模型，将该类型数据序列化后得到的多维实数向量作为模型输入，将数据对应标签序列化后得到的多维实数向量作为模型输出，对上述端到端深度神经网络模型进行迭代训练与优化，获得对应模态的非文本语义模型，基于该模型实现非文本数据到文本语义空间的映射。

可选的，所述非文本语义提取模块，包括图片提取模块104、音频提取模块114、视频提取模块124和其他语义提取模块134。

本发明还公开了一种利用上述的跨模态数据检索系统进行检索的方法，其特征在于：

包括离线数据处理流程，具体包括：

S110：利用标签提取模块101对文本数据210进行处理，产生关键词库221；

S120：将关键词库221中的标签利用文本语义模型211转换为由固定长度实数向量表示的语义向量212；

S130：数据标注模块111利用关键词库中标签，与标签对应语义向量，对非文本数据230进行标注；

S140：非文本语义模型训练模块，利用标注数据进行训练，获得相应模态的非文本语义模型232；

S150：本文数据210、非文本数据230通过对应模态语义模型211、232转换为语义向量212，并按照语义分布形成数据索引213。

可选的，S210：将文本/非文本查询请求201、242通过对应模态语义模型211、232转换为表示查询请求语义的查询向量233；

S220：在所述数据索引213中搜索与所述查询向量233相关度较高的数据项目；

S230：按相应查询约束条件对相关的数据项目进行排序，按相关度大小产生查询排序234，并返回查询结果214。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于文本语义映射的跨模态数据检索系统的检索方法。

本发明具有如下的优点：

1、利用从文本数据中提取的标签对图片、音频、视频等模态数据进行语义标注，将非文本数据语义映射至文本语义空间，能够有效避免通常的利用深度学习构建公共语义空间带来的过程不可控、结果难认知问题，有助于提高系统数据标注、模型训练以及检索准确率评估的效率与可操作性。

2、直接将非文本数据映射至文本语义空间，减少了非本文数据语义映射次数，极大地保留了数据的原始语义，能够有效提高数据检索准确率。

附图说明

图1是根据本发明具体实施例的基于文本语义映射的跨模态数据检索系统的模块图；

图2是根据本发明具体实施例的基于文本语义映射的跨模态数据检索系统的数据处理流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明在于：通过将非文本模态的数据所包含的语义信息映射到文本语义空间的方法，实现阔模态数据语义的分析、计算，避免了构建统一语义空间所产生的多次映射、丢失语义信息的问题；利用文本标签方式表示标注非文本数据、训练非文本数据语义提取模型，有助于提高标注、训练过程的可操作性，提高系统的适用性与部署效率。

具体的，参见图1，示出了根据本发明具体实施例的基于文本语义映射的跨模态数据检索系统的模块图。

该检索系统包括数据域、离线域、语义域以及在线域；

其中所述数据域包括文本数据集100和非文本数据集，各数据集存储对应模态数据内容，用于与离线域中的处理、标注和训练提供原始数据支持。

进一步的，所述非文本数据集包括图片数据集110、音频数据集120、视频数据集130以及其他模态数据集140。

所述离线域包括标签提取模块101、文本语义提取模块102、数据标注模块111、非文本语义模型训练模块。

所述数据标注模块111，用于通过自动或人工方式，利用标签提取模块101生成的标签集中一个或多个标签描述非文本数据集中数据的语义，并将数据对应标签、标签集通过文本语义提取模块102获得的语义向量记录为对应非文本数据的语义表示，以此获取非文本数据语义模型训练数据。

所述非文本语义模型训练模块，用于利用数据标注模块111提供的训练数据，对相应模态的非文本模态语义模型232进行训练，使其能够将非文本数据转化为文本语义向量，从而将非本文数据语义映射至文本语义空间。

进一步的，所述非文本语义模型训练模块包括图片语义模型训练模块112、音频语义模型训练模块122、视频语义模型训练模块132以及其他语义模式训练模块142。

进一步的，所述非文本语义模型训练模块对相应模态的非文本模态语义模型232进行训练，具体为：非文本语义模型训练模块按照所处理的数据类型选取对应的端到端深度神经网络模型，将该类型数据序列化后得到的多维实数向量作为模型输入，将数据对应标签序列化后得到的多维实数向量作为模型输出，对上述端到端深度神经网络模型进行迭代训练与优化，获得对应模态的非文本语义模型，基于该模型实现非文本数据到文本语义空间的映射。

所述语义域包括文本语义空间103，用于数据内在含义的逻辑表示，在系统中具体为固定长度的实数向量，所述文本语义空间103通过文本数据构建，非文本数据通过相应模型映射至该文本语义空间，以实现跨模态数据相关度分析、处理与计算。

所述在线预包括文本语义提取模块104和非文本语义提取模块、查询表达模块145、相关度计算模块135、和相关度排序模块125。

进一步的，所述非文本语义提取模块，包括图片提取模块104、音频提取模块114、视频提取模块124和其他语义提取模块134。

参见图2，示出了根据本发明具体实施例的基于文本语义映射的跨模态数据检索系统的检索方法。

包括离线数据处理流程，具体包括：

S140：非文本语义模型训练模块，利用标注数据进行训练，获得相应模态的非文本语义模型232。

进一步的，还包括在线数据处理流程，具体包括

S210：将文本/非文本查询请求201、242通过对应模态语义模型211、232转换为表示查询请求语义的查询向量233；

进一步的，本发明公开了一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行上述的基于文本语义映射的跨模态数据检索系统的检索方法。

综上，本发明具有如下的优点：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种基于文本语义映射的跨模态数据检索系统，其特征在于：

该检索系统包括数据域、离线域、语义域以及在线域；

其中所述数据域包括文本数据集(100)和非文本数据集(110、120、130、140)，各数据集存储对应模态数据内容，用于与离线域中的处理、标注和训练提供原始数据支持；

所述离线域包括标签提取模块(101)、文本语义提取模块(102)、数据标注模块(111)、非文本语义模型训练模块；

所述标签提取模块(101)，用于对文本数据集(100)中样本数据进行处理，从中提取出应用领域内具有代表性语义的文本形式的标签集，以对非文本数据进行标注；

所述文本语义提取模块(102)，用于通过文本语义模型，对标签进行处理，将标签、标签集按照语义转换为固定长度的实数向量，作为对应标签、标签集在语义域(103)中的表示；

所述数据标注模块(111)，用于通过自动或人工方式，利用标签提取模块(101)生成的标签集中一个或多个标签描述非文本数据集(110、120、130、140)中数据的语义，并将数据对应标签、标签集通过文本语义提取模块(102)获得的语义向量记录为对应非文本数据的语义表示，以此获取非文本数据语义模型训练数据；

所述非文本语义模型训练模块(112、122、132、142)，用于利用数据标注模块(111)提供的训练数据，对相应模态的非文本模态语义模型(232)进行训练，使其能够将非文本数据转化为文本语义向量，从而将非本文数据语义映射至文本语义空间；

所述语义域包括文本语义空间(103)，用于数据内在含义的逻辑表示，在系统中具体为固定长度的实数向量，所述文本语义空间(103)通过文本数据构建，非文本数据通过相应模型映射至该文本语义空间，以实现跨模态数据相关度分析、处理与计算；

所述在线预包括文本语义提取模块(104)、非文本语义提取模块(114、124、134、144)、查询表达模块(145)、相关度计算模块(135)、和相关度排序模块(125)。

所述文本语义提取模块(104)和非文本语义提取模块(114、124、134、144)，一方面用于将对应模态的查询请求转换为语义空间中文本语义向量表示，另一方面用于将待检索的数据内容转换为语义空间中的本文语义向量表示。

所述查询表达模块(145)，用于将表示查询请求语义向量、表示待检索数据内容的语义向量集合以及其他查询约束条件整合后提供给相关度计算模块(135)处理。

所述相关度计算模块(135)，用于按照查询约束条件要求，分别计算待检索数据语义向量与查询请求语义向量的相关度。

所述相关排序模块(125)，用于按照待检索数据语义向量与查询请求语义向量的相关度高低，对待检索数据进行排序，并按照查询约束条件，返回相似度最高的若干项数据。

2.根据权利要求1所述的跨模态数据检索系统，其特征在于：

所述非文本数据集(110、120、130、140)包括图片数据集(110)、音频数据集(120)、视频数据集(130)以及其他模态数据集(140)。

3.根据权利要求2所述的跨模态数据检索系统，其特征在于：

所述非文本语义模型训练模块包括图片语义模型训练模块(112)、音频语义模型训练模块(122)、视频语义模型训练模块(132)以及其他语义模式训练模块(142)。

4.根据权利要求3所述的跨模态数据检索系统，其特征在于：

所述非文本语义模型训练模块对相应模态的非文本模态语义模型(232)进行训练，具体为：非文本语义模型训练模块按照所处理的数据类型选取对应的端到端深度神经网络模型，将该类型数据序列化后得到的多维实数向量作为模型输入，将数据对应标签序列化后得到的多维实数向量作为模型输出，对上述端到端深度神经网络模型进行迭代训练与优化，获得对应模态的非文本语义模型，基于该模型实现非文本数据到文本语义空间的映射。

5.根据权利要求3所述的跨模态数据检索系统，其特征在于：

所述非文本语义提取模块，包括图片提取模块(104)、音频提取模块(114)、视频提取模块(124)和其他语义提取模块(134)。

6.一种利用权利要求1-5中任意一项所述的跨模态数据检索系统进行检索的方法，其特征在于：

包括离线数据处理流程，具体包括：

S110：利用标签提取模块(101)对文本数据(210)进行处理，产生关键词库(221)；

S120：将关键词库(221)中的标签利用文本语义模型(211)转换为由固定长度实数向量表示的语义向量(212)；

S130：数据标注模块(111)利用关键词库中标签，与标签对应语义向量，对非文本数据(230)进行标注；

S140：非文本语义模型训练模块(112、122、132、142)，利用标注数据进行训练，获得相应模态的非文本语义模型(232)；

S150：本文数据(210)、非文本数据(230)通过对应模态语义模型(211、232)转换为语义向量(212)，并按照语义分布形成数据索引(213)。

7.根据权利要求6所述的进行检索的方法，其特征在于：

S210：将文本/非文本查询请求(201、242)通过对应模态语义模型(211、232)转换为表示查询请求语义的查询向量(233)；

S220：在所述数据索引(213)中搜索与所述查询向量(233)相关度较高的数据项目；

S230：按相应查询约束条件对相关的数据项目进行排序，按相关度大小产生查询排序(234)，并返回查询结果(214)。

8.一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行权利要求6或7所述的基于文本语义映射的跨模态数据检索系统的检索方法。