CN111680173B

CN111680173B - 统一检索跨媒体信息的cmr模型

Info

Publication number: CN111680173B
Application number: CN202010481108.2A
Authority: CN
Inventors: 刘鑫; 黄细凤; 杨露; 崔莹
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-05-31
Filing date: 2020-05-31
Publication date: 2024-02-23
Anticipated expiration: 2040-05-31
Also published as: CN111680173A

Abstract

本发明公开的一种统一检索跨媒体信息的CMR模型，旨在提供一种信息准确、快速的跨媒体检索模型。本发明通过下述技术方案实现：多模态媒体信息语义特征统一表达与关联模块查询输入和跨媒体数据模块输入的异构信息，基于多模态语义特征提取结果及底层特征到高层语义特征的映射，将多模态语义特征映射到同一特征空间中并构建多模语义关联规则，实现跨媒体信息底层特征与高层语义特征之间的关联和不同模态信息高层语义的关联；跨媒体数据索引构建模块针对多模态数据特征建立多维度检索索引；跨媒体检索模型构建模块基于本体、语义网络和知识图谱技术，实现多模态信息的统一检索；检索结果经过多模态检索结果关联印证与组织模块实现冲突检测和自组织。

Description

统一检索跨媒体信息的CMR模型

技术领域

本发明涉及跨媒体信息检索领域，具体涉及计算机科学的信息检索跨媒体检索(cross-media retrieval,CMR)技术。

背景技术

自人类进入信息化时代至今，人类社会飞速发展，媒体信息资源从原来的文本，扩展为丰富多样的图像、音频、视频、多维模型等不同类型的信息。人们在对信息进行识别的过程中，往往需要对不同类型的信息进行感性认识，包括视觉、听觉等信息进行综合分析，形成整体认知。要实现这一点，需要在多媒体信息检索和管理的时候利用跨媒体信息检索方式进行比对。对于跨媒体检索技术的发展，离不开传统基于内容的多媒体检索技术。随着多媒体技术的飞速发展和多媒体数量的不断增长，需要高效的检索系统来处理。检索中需要根据媒体之间存在的各种联系，从一种媒体跨越到另一种媒体。同时由于移动设备、网络技术、自媒体平台等日益繁荣，跨媒体信息的规模呈现指数级增长的趋势。面对海量的跨媒体信息资源，人们想要快速精准全面地检索出所需要的多模态信息变得愈发困难。

互联网信息存在着广泛且错综复杂的四种交叉：联网网页之间的交叉关联：网页之内或者网页之间所包含的链接、人名、主题和事件等实体对象与实体对象的交叉关联；不同类型多媒体数据之间的交叉关联：图像、音频和视频等不同类型多媒体数据以及其包含前景/背景、音乐/语音和镜头/关键帧等结构化对象之间的交叉关联；用户检索过程中交互信息之间的交叉关联：基于社会化计算Web2.0的应用产生了用户提供的大量标注、评价和日志等隐性和显性交互信息，这些交互信息存在复杂关联；互联网网页、不同类型多媒体数据和用户交互信息之间也存在广泛与深层的交叉关联。这些交叉关联使得互联网数据呈现跨媒体特性，即互联网上的网页文字、多媒体数据和用户交互信息之间存在着或强或弱的内容跨越和语义关联。由于多种类型媒体数据混合并存，媒体数据组织结构复杂，不同类型媒体数据从不同侧面表达同一语义；由于不同概念之间有着复杂的关联，相应地，虽然同构多媒体数据表达方式一致，但是它们所蕴含的语义联系却错综复杂。如何挖掘同构多媒体数据之间的语义关联信息是跨媒体研究的又一重要内容。

跨媒体所包含的内容非常广泛，包括多媒体数据的存储、多媒体数据检索、多媒体数据的组织管理、多媒体数据的传播和应用等等多个方面相关理论和技术。跨媒体指的是跨越媒体数据的不同媒体形式而共同表达同一语义。也就是说，要研究的跨媒体包括多种媒体形式，而这些媒体数据相互协助来共同表达传播者要传播的信息和目的。跨媒体检索的研究是所有其他研究内容的结合点和最终目标。跨媒体检索的研究目标是分析一种媒体数据和多种媒体数据之间的语义关联，在一种或多种媒体数据间进行检索。具体而言，跨媒体检索就是用户提交任意一种媒体的查询，检索相同或者不同种类的相关多媒体数据。由于同种类媒体的检索可以认为是单一媒体形式的检索，所以人们更多关注于不同种类间媒体数据的检索，也就是用户提交某种媒体查询来检索出其他种类媒体数据。在跨媒体检索研究领域中，最大的障碍就是人们常说的“语义鸿沟”，也就是说在不同媒体类型间找到它们的语义关联。一些主流的跨媒体检索系统，如谷歌、百度、Bing等大型搜索引擎公司的产品采用的依然是源于文本检索的基于关键词或基于内容的检索技术，即对于音频、图像、视频等多模态信息，将其内容信息通过人工或机器标注的方式标注出来形成关键词，把标注的关键词与多种媒体形式的信息进行关联构建数据库索引，然后根据用户的查询句进行关键词匹配返回标注文本相似的音频、图像、视频等检索结果。然而基于关键字的全文检索，检索的准确度很大程度上依赖人工标注的详细与否，并且关键词并不能全面表达多模态的跨媒体信息，尤其是无法从语义层面对文本、音频、图像、视频等信息进行统一的特征表达和关联。另外不同人对相同图像、音频和视频等非文本信息的认知不同，造成了描述语言的不充分或不准确，因此利用简单文本进行搜索的结果并不理想。与传统信息检索不同的是，跨媒体信息检索的对象不是单一类型的多媒体对象，往往包括图像、声音以及视频等格式的数据。而基于内容的多媒体检索通常只关注媒体的底层特征(如音频的节奏和韵律、图像的纹理和颜色等)，它无法实现我们从多通道获取多种形式信息的检索需求，解决不了异构类型多媒体数据之间的相关性匹配问题。在多媒体关联空间中，每个多媒体文档就是该空间中的一个数据点。目前国际上还没有较为成熟的跨媒体检索算法和技术。但有人提出了一种排序算法LRGA，该算法通过学习一个拉普拉斯矩阵来对数据进行重排序。尽管LRGA算法在检索过程中能够将不同类型的多媒体对象结合起来，但它仍有一些缺陷。首先，尽管多媒体文档距离能够把多种类型的多媒体对象信息都包含在内，但它依赖于该类型的媒体对象的检索精度，这有可能使得某种媒体对象对当前多媒体文档表达语义的贡献变得很小。其次，建立多媒体文档语义空间需要对所有媒体对象的距离都进行计算，这在处理大型多媒体数据库时变得困难，因为随着多媒体文档数据量的增大，多媒体文档距离矩阵也变得异常庞大，这为进一步的处理带来了困难。

跨媒体检索技术虽然可以大大缩短人们检索的时间、减少工作量，并有效提高信息检索的查准率和查全率。但由于跨媒体检索的研究对象是不同类型的多媒体数据，这些数据底层特征上彼此异构，在高层语义上相互关联，呈现出数据混合并存和表达语义相似的特征，并且数据结构复杂，表现在不同类型的多媒体数据之间组织方式灵活多变，存在多种数据关联结构；图像、音频和视频等多媒体数据呈半结构或无结构化的，计算机难以根据底层的视觉或听觉特征准确理解高层语义。所谓异构多媒体数据，即指不同类型的多媒体数据，如图像与音频数据就互为异构多媒体数据。如给定一副图像、一则文本和一段音频数据，虽然它们对信息的表现形式各异，底层特征也不同。但是，异构多媒体数据却可以在语义层面统一起来：如老虎的图像、老虎习性的描述性文字和老虎吼叫的音频数据虽然表达形式各异，却在语义层面共同表达了老虎这一概念。传统的单一媒体相关技术忽略了异构多媒体数据在语义上的共性，因此不能有效处理异构多媒体数据共存的复杂多媒体数据，也无法有效跨越语义鸿沟。作为单一媒体技术在理论和功能上的延伸，跨媒体技术将异构多媒体数据统一理解分析；图像、文本、音频、视频等异构多媒体数据在语义层面的共性得以彰显利用，这不但更符合人类的思维方式，而且也便于对异构多媒体数据的统一管理，以方便用户对其使用与信息的传递。其次，跨媒体检索要支持同构多媒体数据在语义上的跨越。所谓同构多媒体数据，即指相同类型的多媒体数据，如两幅图像互为同构多媒体数据。由于不同概念之间有着复杂的关联，相应地，虽然同构多媒体数据表达方式一致，但是它们所蕴含的语义联系却错综复杂。传统的单一类型搜索引擎利用互联网文档所包含的文本信息和链接属性来检索相关网页，通过多媒体视听觉底层特征和样例，以及相关反馈技术实现基于内容的多媒体检索。这些方法忽略了媒体之间存在的关联特性，难以实现不同类型媒体数据的统一检索。为了满足人们对这些多媒体数据检索的需求，需要研究一种新的检索方法，使可以检索到相似主题、不同类型的多媒体对象。例如提交一幅小鸟的图像，除了可检索到各种相似的鸟类图像，还可以检索到鸟儿动听的叫声。这类“跨媒体检索”手段需要达到如下要求：首先，跨媒体检索要支持检索过程中在数据类型上的跨越。又比如，当用户使用一张主体是“狮子”外形的图像作为查询输入时，并不能有效检索出记录了“狮子”叫声的音频信息，或者描述“狮子”相关内容的文本信息。所以从本质上讲，现有的跨媒体检索系统实现的依然只是检索单一模态的跨媒体数据库而已，还远远达不到人们希望的根据一种模态信息检索到其他模态信息的要求。因此，亟需发展出一种跨越多种媒体形态、关联多模态语义特征的检索技术，以大幅缩短用户信息检索时间，提高跨媒体信息检索的准确率和查全率。

为了对跨媒体数据进行统一表示和组织，现有技术提出了一种两层流形学习方法来构建跨媒体检索系统。该方法首先为图像数据、音频数据和文本数据。构建三个独立的图，这三个图将图像数据、音频数据、文本数据映射到三个独立的空间中，然后将这三个数据空间结合形成多媒体文档语义空间MMDSS(Multi-media Document Semantic Space)。然而这种方法有一定缺陷：在建立这三个独立的空间时，不同种类的多媒体文件间的语义关联并没有被考虑到；另外，两层流形学习方法需要调节大量的参数，其复杂程度并不适用于实际使用。于是有文献提出了只建立一个图的跨媒体检索系统方案，在这个图中每个多媒体对象都是一个顶点，图中顶点间的距离根据单一媒体对象来确定。尽管这种只建立一个图的方法简化了流形学习的困难程度，但仍然没有能够对不同种类多媒体文件间的语义关联进行很好的分析和利用。

目前，为了实现同时对多种媒体类型的信息检索，国内外学者的研究工作主要集中在以下几个领域:1)基于“词袋”模型建立多媒体对象知识库此类方法大多通过对多媒体对象的语义信息进行人工标注得到先验知识，结合“词袋”模型等为海量多媒体信息建立知识库，从而借助知识库的桥梁作用实现跨媒体检索。但是，此种方法很大程度上还是一种变相的基于关键字的检索，需要人工标注大量的关键字训练样本集，虽然它在一定程度上避开了特征向量异构和语义鸿沟的问题，但是人工标注耗时耗力且缺乏统一性与客观性，多媒体对象的语义信息往往不能够得到恰当描述，因而检索的准确性不尽人如意。2)基于文档链接关系或Web链接关系建立多媒体对象之间的语义关系。此类方法通过分析多媒体文档之间的链接关系或Web网页中的链接跳转关系建立多媒体对象之间的语义关系网(跨媒体关联图、交叉参照图模型等)从而实现多媒体对象之间的相互检索。该方法有效地避免了媒体对象之间的语义鸿沟，但是对链接关系的依赖性太强，不具有一般性。3)建立辅助空间解决特征向量异构问题。此类方法为解决不同类型媒体对象之间特征向量异构的问题，在计算特征向量和相似性的度量时，一些方法；是基于数据集中所有数据间的距离度量的，但是在实际跨媒体数据集中:一方面，计算和存储所有对象间的距离尺度是不现实的；另一方面，距离度量不能有效解决现实生活中的问题。4)基于机器学习、神经网络等方法获取多媒体对象间的语义关系。此类方法主要是通过机器学习或神经网络领域的融合分析、流形学习、线性迭代与映射、概率模型、支持向量机、监督分类、非监督分类等方式对异构数据之间的关联关系进行挖掘，进而实现不同模态多媒体数据之间的相互检索。总的说来，该类方法检索效果不错，但往往计算量比较大，实现过程比较复杂。5)索引。此类方法一般是通过对多媒体数据进行一定预处理得到相互之间的相似关系，进而根据相似关系为海量多媒体；对象建立索引，以提高检索时的效率。这是一种辅助型的方法，更多的是关注如何有效地减少检索所需要的时间，提高跨媒体检索的效率，对多媒体对象之间的相似度度量未关注。6)基于Ontology的检索。此类方法是建立在基于内容检索的基础上，Ontology存储多媒体对象语义信息的新型检索模式。检索过程中结合多媒体对象的底层特征与Ontology表达的语义信息进行跨媒体检索。该方法对多媒体对象的语义信息及空间关系表达与处理具有强大的优势，同时，Ontology模型能使检索系统更加智能化和人性化。然而，现有的跨媒体信息检索技术的研究对象主要是己采集好的各种媒体数据，较少考虑多用户分享中的数据冗余、网络带宽约束等移动互联网环境下面临的新问题和挑战。

发明内容

为了对跨媒体数据进行统一表示和组织，本发明的目的是针对传统单一类型多媒体信息检索的弊端和文本、音频、图像、视频等异构信息，提供一种信息准确、快速，能够提高在大数据量情况下信息检索效率的统一检索跨媒体信息的跨媒体检索模型。

本发明上述目的可以通过以下技术方案予以实现，一种统一检索跨媒体信息的CMR模型，包括：共端链接多模态媒体信息语义特征统一表达与关联模块的查询输入模块、跨媒体数据模块，多模态媒体信息语义特征统一表达与关联模块输出端链接的查询输入语义特征模块、跨媒体数据索引构建模块，跨媒体检索模型构建模块和多模态检索结果关联印证与组织模块，其特征在于：多模态媒体信息语义特征统一表达与关联模块根据查询输入模块的文本输入、音频输入、图像输入、视频输入的异构信息和跨媒体数据模块输入的文本数据、音频数据、图像数据和视频数据，基于提取视频语义特征、音频语义特征、图像语义特征、文本语义特征和环境的语义理解，以及异构多模态媒体信息底层特征相关性，基于多模态媒体信息的语义特征提取结果，将多模态信息语义特征映射到同一特征空间中，同时构建多模语义关联规则，并将底层特征到高层语义特征的映射到查询输入语义特征模块、跨媒体数据索引构建模块，实现跨媒体信息底层特征与高层语义特征之间的关联和不同模态信息之间的高层语义关联；跨媒体数据索引构建模块在文本、音频、图像、视频等跨媒体数据语义特征提取基础上，建立针对多模态数据特征库的多维度检索索引，跨媒体检索模型构建模块基于本体和语义网络空间与知识图谱相结合的跨媒体检索模型技术，实现多模态信息的统一检索；多模态检索结果关联印证与组织模块基于文本、音频、图像、视频等多类型多来源检索结果的关联印证与组织技术，实现跨媒体信息的自动关联与去重、冲突信息的检测与印证、检索结果的自组织。

本发明的有益效果是：

(1)本发明采用共端链接多模态媒体信息语义特征统一表达与关联模块的查询输入模块、跨媒体数据模块，多模态媒体信息语义特征统一表达与关联模块输出端链接的查询输入语义特征模块、跨媒体数据索引构建模块，跨媒体检索模型构建模块和多模态检索结果关联印证与组织模块，通过多模态信息的语义特征提取与不同格式数据的内容特征表达，实现跨模态数据在语义层面的相互关联。突破了跨媒体信息语义特征统一表达与关联、跨媒体数据索引构建、跨媒体检索模型构建、检索结果关联印证与组织等内容，能够建立文本、音频、图像、视频等多类型数据在语义层面的关联性，实现不同媒体类型的信息准确、快速、全面地获取，检索结果的关联、印证和组织以及检索结果要素之间的相互补充，能够跨越底层特征异构的不同模态信息的语义鸿沟。

(2)本发明采用的多模态媒体信息语义特征统一表达与关联模块，根据查询输入模块的文本输入、音频输入、图像输入、视频输入的异构信息和跨媒体数据模块输入的文本数据、音频数据、图像数据和视频数据，基于环境的语义理解，提取视频语义特征、音频语义特征、图像语义特征和文本语义特征，按语义关联规则和异构多模态媒体信息底层特征相关性，将底层特征到高层语义特征的映射到查询输入语义特征模块、跨媒体数据索引构建模块，通过跨媒体数据的索引构建，实现跨媒体信息底层特征与高层语义特征之间的关联和不同模态信息之间的高层语义关联和针对大规模跨媒体数据库的快速检索，能够适应面向多模态信息的多维空间属性的搜索，大幅提升查询效率。

(3)本发明针对现有的数据库索引技术无法适应海量多媒体数据的内容检索需求，基于待检索跨媒体数据的语义特征和文本、音频、图像、视频等数据的多维属性特点，构建跨媒体数据的多维检索索引，优化搜索空间划分，提高统一检索效率。跨媒体数据索引构建模块在文本、音频、图像、视频等跨媒体数据语义特征提取基础上，建立针对多模态数据特征库的多维度检索索引，实现加速查询过程、提高查询效率。

(4)本发明跨媒体检索模型构建模块基于本体和的语义网络空间与知识图谱相结合的跨媒体检索模型技术，从知识表示、语义匹配、知识推理等方面弥补现有传统检索系统缺乏推理和语义理解的不足，实现快速、精准、全面多模态信息的统一检索，大大提高了信息检索的准确率和召回率。这种基于本体、语义网络空间、知识图谱相结合的综合检索技术，通过语义理解、知识推理等手段，能够实现文本、音频、图像、视频等多媒体信息高效、精确的统一检索，大幅度提高检索准确率、召回率，以及检索的层次。通过检索结果的自动关联与自组织、冲突信息的检测与印证，能够提高检索结果的置信度和可使用性，辅助用户对检索结果进行针对性的利用，更快捷地获取最想要的信息。

本发明解决了以下三个难题：

(1)本发明的多模态媒体信息语义特征统一表达与关联模块通过建立不同模态媒体异构特征的统一语义表示框架，解决不同模态媒体异构特征难以进行统一语义表示的难题；

(2)在多模态异构媒体内容相关性的基础上建立基于流形学习的媒体语义特征空间降维方法，解决图像、视频等媒体特征维数过高引起的维数灾难问题；

(3)基于核函数的模糊聚类方法，建立在流形非线性子空间中多模态异构媒体的相似度计算模型，解决不同模态媒体特征在特征空间中的相似度计算问题。

附图说明

图1是本发明跨媒体检索CMR模型的原理示意图。

图2是多模态媒体信息语义特征统一表达与关联模块的原理示意图。

图3是跨媒体数据索引构建原理示意图。

图4是跨媒体检索模型构建原理示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

参阅图1。在以下描述的优选实施例中，一种统一检索跨媒体信息的CMR模型，包括：共端链接多模态媒体信息语义特征统一表达与关联模块的查询输入模块、跨媒体数据模块，多模态媒体信息语义特征统一表达与关联模块输出端链接的查询输入语义特征模块、跨媒体数据索引构建模块，跨媒体检索模型构建模块和多模态检索结果关联印证与组织模块，其特征在于：多模态媒体信息语义特征统一表达与关联模块根据查询输入模块的文本输入、音频输入、图像输入、视频输入的异构信息和跨媒体数据模块输入的文本数据、音频数据、图像数据和视频数据，基于提取视频语义特征、音频语义特征、图像语义特征、文本语义特征和环境的语义理解，以及异构多模态媒体信息底层特征相关性，基于多模态媒体信息的语义特征提取结果，将多模态信息语义特征映射到同一特征空间中，同时构建多模语义关联规则，并将底层特征到高层语义特征的映射到查询输入语义特征模块、跨媒体数据索引构建模块，实现跨媒体信息底层特征与高层语义特征之间的关联和不同模态信息之间的高层语义关联；跨媒体数据索引构建模块在文本、音频、图像、视频等跨媒体数据语义特征提取基础上，建立针对多模态数据特征库的多维度检索索引，跨媒体检索模型构建模块基于本体和语义网络空间与知识图谱相结合的跨媒体检索模型技术，实现多模态信息的统一检索，多模态检索结果关联印证与组织模块基于文本、音频、图像、视频等多类型多来源检索结果的关联印证与组织技术，实现跨媒体信息的自动关联与去重、冲突信息的检测与印证、检索结果的自组织。

在可选的实施例中，多模态媒体信息语义特征统一表达与关联模块首先对待检索的跨媒体数据库中的文本、音频、图像、视频等多模态数据分别进行文本、音频、图像、视频等语义特征提取，基于跨媒体信息语义特征提取结果，构建语义关联规则和基于跨媒体信息的上下文环境，利用语义特征的上下文关系和前后联系，实现跨媒体数据的语义特征表达和语义关联，同时对于用户的查询输入，针对不同类型的输入，进行相应的查询语义特征提取，得到更贴近用户查询意图的高层语义特征。

多模态媒体信息语义特征统一表达与关联模块在跨媒体信息语义特征统一表达关联和多维检索索引构建的基础上，将查询输入语义特征和跨媒体数据语义特征输入至跨媒体检索模型构建模块，通过本体技术、语义空间技术和知识图谱技术，经过知识表示、语义匹配、知识推理等步骤实现跨媒体信息快速、精准、全面的统一检索，得到多模态的检索结果。

最终，多模态检索结果关联印证与组织模块针对获取的多模态检索结果，进行检索结果的去重、不同来源不同类型信息的自动关联、冲突检索结果的相互检测与印证、多模态检索结果的自组织，将检索结果重新处理、排序后返回给用户。

参阅图2。输入多模态媒体信息语义特征统一表达与关联模块的跨媒体数据均为经过跨媒体数据模块预处理的文本数据、音频数据、图像数据和视频数据，对于文本数据首先进行文本语义特征提取，主要提取文本中的实体、实体关系、摘要、情感、主题、分类、事件、关键词和新词等；在基于训练、总结得到的文本处理算法模型、语料和规则，完成词汇级、句子级、篇章级、跨篇章级文本语义特征提取。在句子级文本语义特征提取中主要实现分析文本依存句法、元事件提取和句际关系，计算文本句子相似度；在篇章级文本语义特征提取中，主要完成文本分类聚类、文本篇章结构的分析、文本摘要生成、句际关系提取、文本情感分析、主题提取、观点提取和事件提取等功能；在跨篇章级文本语义特征特征提取中，主要实现文本事件关联和主题事件获取等功能。

对于图像数据的语义特征提取，主要包括图像的低层可视化特征和图像内容描述，前者可以采用基于AlexNet深度神经网络的图像特征提取技术来提取图像中物体语义信息，进而构建具有较强表达能力的图像语义特征，该方法将能够从图像素材中提取更有效的隐藏信息。图像内容描述可以通过编码器-解码器模型来实现图像文本化描述，即首先在编码器部分使用LSTM递归神经网络编码句子，使用深度卷积网络(CNN)编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生其文本化描述，其中，低层可视化特征主要包括图像的统计特征、颜色特征、纹理特征、结构特征等和图像内容特征，图像内容特征从图像语义信息提取和图像的文本化描述两个层次完成。

对于视频数据的视频语义特征提取主要包括将视频数据经过视频音轨和视频关键帧取两个步骤，分别得到其关键帧集合和音频文件后，再分别调用图像语义特征提取和音频语义特征提取的方法得到视频数据的视频语义特征。

对于音频数据，主要提取音频语义特征，首先进行声纹特征识别和音频内容描述，识别音频中的声纹特征要素中的响度、谐波结构、音色、语调和语气，通过语音转写成文字后，再利用文本数据内容特征提取方法完成内容特征要素的特征提取，返回文本表示；两者共同构成音频数据的语义特征表达。

多模态媒体信息语义特征统一表达与关联模块基于文本语义特征提取、图像数据的语义特征提取、视频语义特征和音频语义提取特征提取，完成多模态语义特征关联，利用多模态媒体信息的语义特征提取结果，将多模态信息语义特征映射到同一特征空间中，同时构建多模语义关联规则，例如，若从语义上是属于同一描述对象的跨媒体数据，则将这些多模态数据的信息标识关联到该对象的唯一识别标识符上，并且建立跨媒体数据关联关系表，同时对这些关联关系进行存储，此外，基于多模态媒体信息产生时的环境数据，考虑语义特征的上下文关系和前后联系，实现多模态媒体信息的语义理解与关联。

参阅图3。为了适应海量跨媒体数据的检索，需要构建一种支持高效检索的跨媒体数据索引结构。对于不同类型的数据，其跨媒体数据索引构建方式分别如下所述。

(1)文本索引

跨媒体数据索引构建模块针对文本数据，采用基于文本语义特征的倒排索引结构，将文本中的中文词、西文词和连续数字组合分析出来，在得到文本词语义特征后，合并相同词语义特征的信息，得到一张文本中词语义特征的列表以及它们的出现位置序列。

在倒排索引结构中，文本ID进行自动字频、位置序列、分词和语义特征提取，对分词结果和语义特征提取结果进行排序，合并相同语义特征的信息。根据文献频率、出现列表确定词语语义特征、索引指针，定位词语义特征在列表中的位置，得到词语义特征索引区在临时文件中的偏移量，如果是以前未出现过的词语义特征，就在临时文件的末尾分配一个固定大小的基本空间；如果这个词语义特征以前出现过，将文本的读写指针定位到这个词语义特征的索引区的末尾；然后写入每个词语义特征的索引信息到临时文件。如果此时分配给该词语义特征的空间用完，则在临时文件末尾给其分配新的溢出空间，出现次数越多的词语义特征分配的溢出空间越大。索引写完后，将上一索引区的向前指针更新为新分配空间在临时文档中的偏移量。所有文本处理完后，对于每个词语义特征，将分散在临时文档中的索引信息合并在一起，写入最终的倒排文档。

(2)音频索引

音频数据的语义特征由声纹特征和内容特征组成。对于声纹特征，创建索引时，先将音频文件划分成若干片段序列，在可选的实施例中，在此以直方图F1、F2、F3、F4这4个序列为例阐述，将每个片段的特征直方图作为索引叶节点，直方图F1+F2、F3+F4是以该节点作为根的子树中所有叶节点直方图的总和。同层的直方图F1、直方图F2、直方图F3、直方图F4各节点用索引指针连接，并指向该层最左端。对于内容特征，则参照文本语义特征索引的方式进行构建。这样，将音频数据从声纹特征和内容特征两个方面进行索引构建，丰富了索引维度，扩展了检索的范围。

(3)图像索引

对于图像数据的语义特征，采用基于局部敏感哈希的索引技术，首先定义局部敏感哈希族H：给定查询高维矢量空间S、距离度量标准d、范围查询半径R、S映射后的集合U、哈希函数族中的任意哈希函数h和近似因子c，对高维矢量空间S中任意的两个点p、q，则

p,q∈S,H＝{h:S→U}，如果满足以下条件：距离度量标准d(p,q)≤R，则p、q经过哈希函数映射后h(q)＝h(p)的概率至少为某一概率值p₁，即P_rH[h(q)＝h(p)]≥p₁，近似因子c＞l，距离度量标准d(p,q)≥cR，则h(q)＝h(p)的概率至多为p₂，即P_rH[h(q)＝h(p)]≤p₂，其中p₁＞q₂，则称哈希函数的函数族H是以(R,cR,p₁,p₂)为参数的局部敏感哈希族H。

由局部敏感哈希族H的定义可以看出，相似的或者相同的数据项哈希值相同的概率较大，而相差较大的数据项的哈希值相同的可能性较小。

图像索引构建步骤如下：

跨媒体数据索引构建模块将图像数据点集转化为海明空间的二进制串；选取合适的查询半径r＞0，和某一正数ε＞0，随机选取包含n个哈希函数的函数族G，构造一组哈希函数获取G＝{g₁(p),g₂(p),…,g_n(p)}，使用这些哈希函数，将数据点存入相应的哈希表中。对于图像数据的内容特征，同样参照文本语义特征索引的方式进行构建。

(4)视频索引

对于视频数据，由前述可知，视频数据是一个既包含音轨信息，同时也是在时间坐标上的图像帧序列，因此需要把各个部分综合起来，才能对视频建立真正有效的索引结构。其音轨特征部分参照音频索引构造步骤，关键帧序列部分则参照图像索引构建步骤，在此不进行赘述。

参见图4。对于跨媒体数据和查询输入，跨媒体检索模型构建模块首先根据跨媒体数据和查询输入采用本体技术，建立基于领域的本体库，达到对多模态数据的本体描述；同时在领域本体库中与用户查询输入进行术语、字集的匹配，在本体引导下构造出查询本体。其次针对查询输入和跨媒体数据提取得到的文本语义特征、音频语义特征、图像语义特征、视频语义特征等多模态语义特征进行多模态语义空间构建，采用多向度量尺(MDS)、特征映射、低层高层特征关联等方法，将不同模态的语义特征投射到同一个多模态语义空间中，将不同模态的媒体信息，以同一个空间的坐标点集表示，反映多模态信息之间的语义关联，既达到方便管理和索引跨媒体信息的目的，又能对高维异构特征进行降维，为精准语义匹配计算提供便利。然后，对于待检索跨媒体信息库中的信息素材，通过知识获取、质量评估、知识融合、实体链接、关系抽取等技术建立起基础的信息图谱，并在此基础上采用知识映射、关系合并、跨图融合等方法形成人物图谱、事件图谱和其它图谱关联的知识图谱；最终，在本体库和知识图谱的支撑下，针对构建的多模态语义空间、查询本体和领域本体，进行语义特征的相似度度量，以及运用基于图的逻辑推理等技术，得到跨模态的信息检索结果，实现跨越不同类型多媒体对象的“语义鸿沟”，全面、精准地检索出用户最需要信息的目标。

针对跨媒体检索结果多类型多来源的问题，为了方便用户更好地获取最符合其真实查询意图的结果，需要最后进行跨媒体检索结果去重、关联、印证、冲突检测与组织。

(1)多模态检索结果关联

在实际应用中，用户往往需要针对多个关键词通过多次检索任务得到足够的素材，然后对检索结果进行针对性的利用。因此可以采用一定的自动化手段，进行检索结果的自动关联与去重，辅助用户更快更准地找到想要的信息。可以采用基于主题的层次聚类算法对检索候选结果素材的特征进行隐藏主题的聚类，对关于相同主题的素材完成归类。针对归类后的主题，完成基于频繁项集的信息隐含关联关系挖掘，挖掘相同主题内检索候选素材中的隐藏关联信息。

(2)多模态检索结果印证与冲突处理

在检索结果中，有许多信息条目得到的是同一主题、同一事件或相关事件的内容，而由于信息素材的来源不一、获得的信息要素不一样，其准确性和可信度不一致，需要进行不同来源多类型检索结果的印证与冲突处理。针对同一用户关注内容，对于单一来源的信息素材进行直接利用，对于相同要素，若发现冲突则进行冲突处理，不冲突则进行综合；对于多来源的信息素材，基于该用户关注内容和素材来源的可信度，完成信息素材要素特征维度、关注主题要素特征维度等信息的印证与冲突处理。

信息要素特征维度：检测从多个候选检索信息素材中提取的要素内容中时间是否一致，时间一致时，其他要素内容，如对象、事件、地点等，是否也一致，若不一致，基于时间、素材可信度、历史规律等信息，确定正确的要素信息，完成素材的冲突处理。

关注内容要素特征维度：检测关于同一用户关注内容中的信息素材中涉及的每个维度信息的信息及其属性，如人物和人物的属性信息，是否一致，若不一致，进行素材的溯源与查证。

(3)多模态检索结果自组织

根据用户关注内容，从主题、要素等维度对排序后的检索素材进行组织。按用户关注主题进行组织：从用户关注主题中提取出若干关键词，并从检索结果中抽取包含这些主题的信息，基于主题关键词和检索信息的排序结果，对抽取的检索信息进行组织；按用户关注主题的要素进行组织：从用户关注主题中提取出表示人物、地点、时间、事件等要素的关键词，并从检索结果中抽取包含这些主题的信息；根据这些关键词，基于关键词和检索信息的排序结果，对抽取的结果进行排序。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种统一检索跨媒体信息的CMR模型，包括：共端链接多模态媒体信息语义特征统一表达与关联模块的查询输入模块、跨媒体数据模块，多模态媒体信息语义特征统一表达与关联模块输出端链接的查询输入语义特征模块、跨媒体数据索引构建模块、跨媒体检索模型构建模块和多模态检索结果关联印证与组织模块，其特征在于：多模态媒体信息语义特征统一表达与关联模块根据查询输入模块的文本输入、音频输入、图像输入、视频输入的异构信息和跨媒体数据模块输入的文本数据、音频数据、图像数据和视频数据，基于提取的视频语义特征、音频语义特征、图像语义特征、文本语义特征和环境的语义理解，以及异构多模态媒体信息底层特征相关性，基于多模态媒体信息的语义特征提取结果，将多模态信息语义特征映射到同一特征空间中，同时构建多模语义关联规则，并将底层特征到高层语义特征映射到查询输入语义特征模块、跨媒体数据索引构建模块，实现跨媒体信息底层特征与高层语义特征之间的关联和不同模态信息之间的高层语义关联；跨媒体数据索引构建模块在文本、音频、图像和视频的跨媒体数据语义特征提取基础上，建立针对多模态数据特征库的多维度检索索引，跨媒体检索模型构建模块基于本体和语义网络空间与知识图谱相结合的跨媒体检索模型技术，实现多模态信息的统一检索；多模态检索结果关联印证与组织模块基于文本、音频、图像和视频这些多类型多来源检索结果的关联印证与组织技术，实现跨媒体信息的自动关联与去重、冲突信息的检测与印证、检索结果的自组织；

多模态媒体信息语义特征统一表达与关联模块在跨媒体信息语义特征统一表达关联和多维检索索引构建的基础上，将查询输入语义特征和跨媒体数据语义特征输入至跨媒体检索模型构建模块，通过本体技术、语义空间技术和知识图谱技术，经过知识表示、语义匹配和知识推理步骤实现跨媒体信息的统一检索，得到多模态的检索结果；多模态检索结果关联印证与组织模块针对获取的多模态检索结果，进行检索结果的去重、不同来源不同类型信息的自动关联、冲突检索结果的相互检测与印证、多模态检索结果的自组织，将检索结果重新处理、排序后返回给用户；

音频数据的语义特征由声纹特征和内容特征组成；对于声纹特征，创建索引时，先将音频文件划分成若干片段序列，将每个片段的特征直方图作为索引叶节点；同层的直方图各节点用索引指针连接，并指向该层最左端；对于内容特征，则参照文本语义特征索引的方式进行构建。

2.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：多模态媒体信息语义特征统一表达与关联模块首先对待检索的跨媒体数据库中的文本、音频、图像和视频这些多模态数据分别进行文本、音频、图像和视频语义特征提取，基于跨媒体信息语义特征提取结果，构建语义关联规则和基于跨媒体信息的上下文环境，利用语义特征的上下文关系和前后联系，实现跨媒体数据的语义特征表达和语义关联，同时对于用户的查询输入，针对不同类型的输入，进行相应的查询语义特征提取，得到贴近用户查询意图的高层语义特征。

3.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：输入多模态媒体信息语义特征统一表达与关联模块的跨媒体数据均为经过跨媒体数据模块预处理的文本数据、音频数据、图像数据和视频数据，对于文本数据首先进行文本语义特征提取，提取文本中的实体、实体关系、摘要、情感、主题、分类、事件、关键词和新词；再基于训练、总结得到的文本处理算法模型、语料和规则，完成词汇级、句子级、篇章级、跨篇章级文本语义特征提取，并在句子级文本语义特征提取中实现分析文本依存句法、元事件提取和句际关系，计算文本句子相似度；在篇章级文本语义特征提取中，完成文本分类聚类、文本篇章结构的分析、文本摘要生成、句际关系提取、文本情感分析、主题提取、观点提取和事件提取功能；在跨篇章级文本语义特征特征提取中，实现文本事件关联和主题事件获取功能。

4.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：图像数据的语义特征提取包括：图像的低层可视化特征和图像内容描述，前者采用基于AlexNet深度神经网络的图像特征提取技术来提取图像中物体语义信息，进而构建图像语义特征；图像内容描述通过编码器-解码器模型来实现图像文本化描述，即首先在编码器部分使用LSTM递归神经网络编码句子和深度卷积网络CNN编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生其文本化描述，其中，低层可视化特征包括图像的统计特征、颜色特征、纹理特征、结构特征和图像内容特征，图像内容特征从图像语义信息提取和图像的文本化描述两个层次完成。

5.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：视频数据的视频语义特征提取包括将视频数据经过视频音轨和视频关键帧取两个步骤，分别得到其关键帧集合和音频文件后，再分别调用图像语义特征提取和音频语义特征提取，得到视频数据的视频语义特征；对于音频数据，提取音频语义特征，首先进行声纹特征识别和音频内容描述，识别音频中的声纹特征要素中的响度、谐波结构、音色、语调和语气，通过语音转写成文字后，再利用文本数据内容特征提取方法完成内容特征要素的特征提取，返回文本表示；两者共同构成音频数据的语义特征表达。

6.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：多模态媒体信息语义特征统一表达与关联模块基于文本语义特征提取、图像数据的语义特征提取、视频语义特征和音频语义提取特征提取，完成多模态语义特征关联，利用多模态媒体信息的语义特征提取结果，将多模态信息语义特征映射到同一特征空间中，同时构建多模语义关联规则，若从语义上是属于同一描述对象的跨媒体数据，则将这些多模态数据的信息标识关联到该对象的唯一识别标识符上，并且建立跨媒体数据关联关系表，同时对这些关联关系进行存储，此外，基于多模态媒体信息产生时的环境数据，考虑语义特征的上下文关系和前后联系，实现多模态媒体信息的语义理解与关联。

7.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：跨媒体数据索引构建模块针对文本数据，采用基于文本语义特征的倒排索引结构，将文本中的中文词、西文词和连续数字组合分析出来，在得到文本词语义特征后，合并相同词语义特征的信息，得到文本中词语义特征的列表以及它们的出现位置序列；在倒排索引结构中，对文本进行自动字频、位置序列、分词和语义特征提取，对分词结果和语义特征提取结果进行排序，合并相同语义特征的信息；根据文献频率、出现列表确定词语语义特征、索引指针，定位词语义特征在列表中的位置，得到词语义特征索引区在临时文件中的偏移量，如果是以前未出现过的词语义特征，就在临时文件的末尾分配一个固定大小的基本空间；如果这个词语义特征以前出现过，将文本的读写指针定位到这个词语义特征的索引区的末尾；然后写入每个词语义特征的索引信息到临时文件；如果此时分配给该词语义特征的空间用完，则在临时文件末尾给其分配新的溢出空间，出现次数越多的词语义特征分配的溢出空间越大；索引写完后，将上一索引区的向前指针更新为新分配空间在临时文档中的偏移量；所有文本处理完后，对于每个词语义特征，将分散在临时文档中的索引信息合并在一起，写入最终的倒排文档。

8.如权利要求1所述的统一检索跨媒体信息的CMR模型，其特征在于：对于图像数据的语义特征，采用基于局部敏感哈希的索引技术，首先定义局部敏感哈希族H：给定查询高维矢量空间S、距离度量标准d、范围查询半径R、S映射后的集合U、哈希函数族中的任意哈希函数h和近似因子c，对高维矢量空间S中任意的两个点p、q，则p，q∈S，H＝{h：S→U}，如果满足以下条件：距离度量标准d(p，q)≤R，则p、q经过哈希函数映射后h(q)＝h(p)的概率至少为某一概率值p1，即P_rH[h(q)＝h(p)]≥p1，近似因子c＞l，距离度量标准d(p，q)≥cR，则h(q)＝h(p)的概率至多为p2，即P_rH[h(q)＝h(p)]≤p2，其中p1<p2，则称哈希函数的函数族H是以(R，cR，p1，p2)为参数的局部敏感哈希族H。