CN114817580A

CN114817580A - 基于多尺度内容理解的跨模态媒体资源检索方法

Info

Publication number: CN114817580A
Application number: CN202210553211.2A
Authority: CN
Inventors: 高登科; 徐桢虎; 苏忠莹
Original assignee: Sichuan Cover Media Technology Co ltd
Current assignee: Sichuan Cover Media Technology Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29

Abstract

本发明涉及媒体资源检索领域，具体涉及一种基于多尺度内容理解的跨模态媒体资源检索方法。解决了语义鸿沟，极大地提高了检索准确度以及检索效率。本发明基于多尺度内容理解的跨模态媒体资源检索方法，包括：按照设定的规则从多个维度对媒体内容进行理解；对理解的媒体内容进行融合对齐，并存入数据库；对用户的检索内容进行理解并处理；基于用户检索内容理解，从多个维度对媒体内容进行召回；对召回的媒体内容进行排序；在排序后的媒体内容中进行相应筛选。本发明适用于跨模态媒体资源检索。

Description

基于多尺度内容理解的跨模态媒体资源检索方法

技术领域

本发明涉及媒体资源检索领域，具体涉及一种基于多尺度内容理解的跨模态媒体资源检索方法。

背景技术

伴随互联网技术的飞速发展,媒体产业积累的数字资产越来越多,媒体资源管理(DAM)成为媒体行业的一个研究热点；而媒体资源检索作为媒体资源管理的一个重要功能,在事件分析、内容创作、舆情跟踪等具体媒体业务场景中的应用更是日趋广泛。

媒体资源检索要面对文本(Text)、图像(Image)、音频(Audio)、视频(Video)等多种模态数据，同时其业务应用场景更是千差万别；因此，媒体资源检索不仅面临不同模态数据的语义鸿沟，更面临不同业务场景下具体检索意图的粗细粒度差异。因此，现有检索面对上述情况时，检索效率低，对检索意图理解准确度不高，以及检索结果准确率不高。

发明内容

本申请的目的是提供一种基于多尺度内容理解的跨模态媒体资源检索方法，解决了语义鸿沟，极大地提高了检索准确度以及检索效率。

本发明采取如下技术方案实现上述目的，基于多尺度内容理解的跨模态媒体资源检索方法，包括：

步骤1、按照设定的规则从多个维度对媒体内容进行理解；

步骤2、对理解的媒体内容进行融合对齐，并存入数据库；

步骤3、对用户的检索内容进行理解并处理；

步骤4、基于用户检索内容理解，从多个维度对媒体内容进行媒体内容召回；

步骤5、对召回的媒体内容进行排序；

步骤6、在排序后的媒体内容中进行相应筛选。

进一步的是，所述多个维度包括关键词、实体、主题、场景类别以及事件五个维度。

进一步的是，设定规则具体包括：对关键词构建媒体领域词典、停用词典；对实体，限定实体类型范围，并构建媒体领域实体知识图谱；对主题，设计三级主题标签体系；对场景类别，设计层次化场景类别标签体系；对事件，限定事件类型和元素维度，并构建事件图谱。

进一步的是，所述媒体内容包括文本、图片、视频以及音频；对文本内容理解的具体方法包括：基于集成模型以及领域词典提取关键词信息，基于媒体领域实体抽取模型提取基于媒体领域实体抽取，基于媒体领域训练的主题模型提取主题信息，基于媒体领域场景分类的第一模型分类场景类别，基于联合模型进行句子级别的事件抽取。

进一步的是，对图片内容理解的具体方法包括：

获取图片在文章内的上下文文本，基于匹配模型，筛选相关匹配文本；

通过对文本内容理解的具体方法对筛选的文本进行处理，提取关键词、实体、主题、场景分类、事件信息；同时，对图片，采用基于媒体领域场景分类的第二模型分类场景类别、主题类别，采用基于媒体领域的第三模型抽取目标实体信息。

进一步的是，对理解的图片内容进行融合对齐的具体方法包括：

对提取的文本关键词融合；对图片实体与文本实体进行实体融合对齐，融合对齐具体包括对图片实体和文本实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出场景分类概率对图片场景与文本场景进行场景加权，得到场景类别的分布；根据输出主题分类概率对图片主题与文本主题进行主题加权，得到主题类别分布；对图片事件与文本事件进行融合，事件融合具体包括对图片事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属实体的权重。

进一步的是，对音频内容理解的具体方法包括：将音频数据转换为文本数据，通过对文本内容理解的具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息。

进一步的是，对视频内容理解的具体方法包括：

在视频内容中提取出音频数据，将音频数据转换为文本数据，通过对文本内容理解的具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息；同时，对视频的图片序列，进行帧间聚类抽取关键帧；对关键帧，利用第二模型分类场景类别、主题类别，利用第三模型抽取目标实体信息。

进一步的是，对理解的视频内容进行融合对齐的具体方法包括：

对音频关键词融合；对图片序列实体和音频实体进行融合对齐，融合对齐的具体方法包括对图片序列实体和音频实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出主题分类概率对图片序列场景与音频场景进行场景加权，得到场景类别的分布；根据输出主题分类概率对图片序列主题与音频主题进行主题加权，得到主题类别分布；对音频事件与文本事件进行融合，融合具体方法包括对音频事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属事件的权重。

进一步的是，对理解的媒体内容进行全局对齐的具体方法包括：

对图片序列实体、音频实体、文本实体以及视频实体进行实体对齐，实体对齐的具体方法包括，对图片序列实体、音频实体、文本实体以及视频实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；

对图片序列事件、音频事件、文本事件以及视频事件进行事件对齐，事件对齐的具体方法包括，对图片序列事件、音频事件、文本事件以及视频事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属事件的权重。

进一步的是，步骤3中，对用户的检索内容进行理解并处理具体包括：

对用户的检索条件进行划分设计，包括检索内容、检索粒度控制、待检索资源模态；

对检索内容进行敏感信息审核，对审核合格的内容基于文本内容理解、图片内容理解、视频内容理解以及音频内容理解进行信息融合。

进一步的是，步骤4中，基于用户检索内容理解，从多个维度对媒体内容进行召回具体包括：

基于用户检索内容理解，结合检索粒度，组合关键词、实体、主题、场景以及事件对检索的内容进行召回，同时根据待检索资源模态进行待检索数据库筛选，然后再进行相应召回，最后对召回的结果进行同模态数据的hash去重。

进一步的是，步骤5中，对召回的媒体内容进行排序具体包括：

基于关键词、实体、主题、场景分类、事件等维度特征，引入领域词典、媒体实体知识图谱、媒体事件图谱、预训练词向量、预训练语言模型等外部知识库，构建深宽模型；设定对比学习机制，针对检索条件和召回媒体资源进行排序学习。

本发明建设了媒体资源内容理解的标准化维度体系，基于该体系针对文本、图片、视频、音频，从关键词、实体、主题、场景类别、事件多个语义尺度进行详细内容理解刻画；内容理解融合对齐，针对图片上下文、图片本身进行了内容理解信息的融合对齐，针对视频的音频部分、图片序列部分进行了内容理解信息的融合对齐，针对各模态的理解信息进行了全局的对齐，不仅大大丰富图片、视频内容理解的信息维度，同时将不同模态的理解信息映射至同一语义空间，解决了不同模态的语义鸿沟；针对用户的检索条件进行检索粒度、待检索资源模态划分可满足用户多场景下不同的检索意图，同时针对检索内容进行了负面、敏感、虚假、不良的筛查和多模态内容理解融合，确保信息安全可靠及检索内容的深度丰富理解；结合待检索模态，进行检索底库的筛选，结合检索粒度进行关键词、实体、主题、场景类别、事件不同尺度组合的检索模式筛选，大大提高检索的效率及检索意图的灵活性；同时，同模态数据的hash去重，去除信息冗余的同时，提高检索结果的多样性；从多个尺度语义特征、结合外部知识库，构建深宽模型，进行对比排序学习，大大提高检索结果呈现的相关性，更加准确贴近用户检索意图。

附图说明

图1是本发明实施例提供的文本内容理解流程图；

图2是本发明实施例提供的图片内容理解流程图；

图3是本发明实施例提供的视频内容理解流程图；

图4是本发明实施例提供的音频内容理解流程图；

图5是本发明实施例提供的图片理解信息融合流程图；

图6是本发明实施例提供的视频理解信息融合流程图；

图7是本发明实施例提供的跨模态理解信息全局对齐流程图；

图8是本发明实施例提供的用户检索条件内容意图理解流程图；

图9是本发明实施例提供的多尺度语义召回流程图；

图10是本发明实施例提供的深宽模型对比排序流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1-10对本发明的具体实施方式进行详细说明。

本发明基于多尺度内容理解的跨模态媒体资源检索方法，包括：

步骤1、按照设定的规则从多个维度对媒体内容进行理解；

步骤2、对理解的媒体内容进行融合对齐，并存入数据库；

步骤3、对用户的检索内容进行理解并处理；

步骤5、对召回的媒体内容进行排序；

步骤6、在排序后的媒体内容中进行相应筛选。

本发明的技术方案具体分为五个方面，包括基础模态内容理解、内容理解融合对齐、用户检索条件内容意图理解、多尺度语义召回、结合深宽模型与对比学习的排序。

基础模态内容理解具体包括如下内容：

内容理解维度体系建设：针对媒体内容，从关键词、实体、主题、场景类别、事件五个维度进行粗细粒度语义刻画；针对关键词，构建媒体领域词典、停用词典；针对实体，限定实体类型范围，构建媒体领域实体知识图谱；针对主题，设计三级主题标签体系；针对场景类别，设计层次化场景类别标签体系；针对事件，限定事件类型和元素维度，构建事件图谱。

对文本内容理解的具体方法包括：基于集成模型以及领域词典提取关键词信息，基于媒体领域实体抽取模型提取基于媒体领域实体抽取，基于媒体领域训练的主题模型提取主题信息，基于媒体领域场景分类的第一模型分类场景类别，基于联合模型进行句子级别的事件抽取。

在本发明的一种实施例中，如图1所示，文本理解包括：基于textrank算法+tfidf算法+yake算法的集成模型及领域词典提取关键词信息，基于媒体领域实体抽取微调的bert模型提取实体信息，基于媒体领域训练的lda主题模型提取主题信息，基于媒体领域场景分类微调的bert模型分类场景类别，基于联合模型DMCNN(事件抽取算法)进行句子级别的事件抽取，将获得的关键词、实体、场景类别、主题以及时间信息存入数据库。

对图片内容理解的具体方法包括：

在本发明的一种实施例中，如图2所示，首先，获取图片在文章内的上下文文本，基于dssm匹配模型，筛选相关匹配文本，然后利用上述文本理解技术提取关键词、实体、主题、场景分类、事件等信息；同时，针对图片，基于媒体领域微调的efficientnet-l2模型分类场景类别、主题类别，基于媒体领域微调的yolov5算法抽取目标实体信息，将获得的所有信息存入数据库。

对视频内容理解的具体方法包括：

在本发明的一种实施例中，如图3所示，首先，针对视频分割音频数据，进行asr(自动语音识别)后利用上述文本理解技术提取关键词、实体、主题、场景分类、事件等信息，并存入数据库；同时，针对视频的图片序列，进行帧间聚类抽取关键帧，而后针对关键帧利用微调的efficientnet-l2模型分类场景类别及主题类别、利用微调的yolov5算法抽取目标实体信息，并存入数据库。

对音频内容理解的具体方法，如图4所示，将音频语音识别后换为文本数据，通过对文本内容理解的具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息，并存入数据库。

内容理解融合对齐具体包括如下内容：

图片理解信息融合对齐的具体方法如图5，包括：

对提取的文本关键词融合，并存入数据库；对图片实体与文本实体进行实体融合对齐，并存入数据库，融合对齐具体包括对图片实体和文本实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出场景分类概率对图片场景与文本场景进行场景加权，得到场景类别的分布，并存入数据库；根据输出主题分类概率对图片主题与文本主题进行主题加权，得到主题类别分布，并存入数据库；对图片事件与文本事件进行融合，并存入数据库，事件融合具体包括对图片事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属实体的权重。

在本发明的一种实施例中，针对图片实体与文本实体进行实体融合对齐。例如文本中提高了张三、李四、王五，图片中提到了张三、李四；对比文本中的人与图片中的人，若文本中提到的张三、李四与图片中提到的张三、李四是同一个人；王五不是同一个人；则张三、李四的权重增加。最终图片实体与文本实体融合对齐的结果为：{实体：张三，权重：2}、{实体：李四，权重：2}、{实体：王五，权重：1}。

视频理解信息融合对齐的具体方法如图6，包括：

对音频关键词融合，并存入数据库；对图片序列实体和音频实体进行融合对齐，并存入数据库，融合对齐的具体方法包括对图片序列实体和音频实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出主题分类概率对图片序列场景与音频场景进行场景加权，得到场景类别的分布，并存入数据库；根据输出主题分类概率对图片序列主题与音频主题进行主题加权，得到主题类别分布，并存入数据库；对音频事件与文本事件进行融合，并存入数据库，融合具体方法包括对音频事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属事件的权重。

跨模态理解信息的全局对齐：主要针对不同模态数据提取的实体、事件的全局融合对齐，如图7所示，包括：

在本发明的一种实施例中，针对实体的全局对齐可以是判断实体中出现的人是不是同一个人。例如文本、图片、音频以及视频中均提到了张三，对比文本、图片、音频以及视频中的张三是否是同一个人，若是则张三的权重增加，最终针对实体的全局对齐的结果为{实体：张三，权重：4}。

在本发明的一种实施例中，针对事件的全局对齐可以是判断是不是同一个事件。例如，文本、图片、音频以及视频中均提到了张三离婚事件，对比文本、图片、音频以及视频中的张三是否是同一个人，以及对比文本、图片、音频以及视频中的事件是否是同一个事件，若是则增加张三离婚事件的权重，最终针对事件的全局对齐的结果为{事件：张三离婚，权重：4}。

最后将不同媒体资源的关键词、对齐的实体、主题、场景类别、对齐的事件等理解信息存入数据库保存。

用户检索条件内容意图理解如图8所示，具体包括如下内容：

针对用户的检索条件进行划分设计，包括检索内容、检索粒度控制、待检索资源模态；针对检索内容，首先进行敏感信息审核，审核合格的内容基于文本内容理解、图片内容理解、视频内容理解以及音频内容理解进行信息融合，得到融合后的关键词、实体、场景类别、主题以及事件。

多尺度语义召回具体包括如下内容：

语义召回，是将关键词进行语义编码成向量，利用向量间相似度召回。

本发明多尺度语义召回具体方法如图9所示，基于用户的检索内容意图理解，结合检索粒度，组合关键词、实体、主题、场景、事件进行媒体资源召回，同时根据待检索资源模态进行待检索底库筛选，而后进行相应的召回，最后针对召回的结果进行同模态数据的hash去重。其中涵盖关键词同义扩展召回、实体的链接和对齐召回、场景层次化相似度计算召回、主题层次化相似度计算召回、事件类型及元素对齐召回。

对齐召回，是针对实体，确认检索的实体和库内待检索内容的实体是同一实体或同一类实体，并给出具体相似度，根据相似度进行过滤召回。

在本发明的一种实施例中，针对媒体资源召回，若用户输入的检索条件为张三离婚，基于对张三离婚检索内容的理解，从关键词、实体、主题、场景、事件五个维度出发，将检索到的关于张三离婚的文本信息、图片信息、音频信息以及视频信息从数据库中筛选出来。

结合深宽模型与对比学习的排序的具体方法如图10所示，基于检索关键词、检索实体、检索主题、检索场景分类、检索事件等维度特征，引入领域词典、媒体实体知识图谱、媒体事件图谱、预训练词向量、预训练语言模型等外部知识库，构建深宽模型；设定对比学习机制，针对检索条件和召回媒体资源进行pairwise的排序学习，从而整体重排召回媒体资源的顺序。同时，可根据待检索资源模态，进行相应模态结果的筛选。

本发明从关键词、实体、主题、场景类别、事件多个语义尺度针对不同模态媒体资源进行内容理解，同时进行了同模态、跨模态的信息融合对齐，将不同模态映射至同一语义空间，解决不同模态的语义鸿沟；同时，结合用户待检索资源模态设计、检索粒度设计、检索内容敏感过滤及多模态深度理解，可安全、动态、准确覆盖用户检索意图；最终，通过多粒度召回及深宽对比排序，高效、优异的获取检索结果。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，包括：

步骤1、按照设定的规则从多个维度对媒体内容进行理解；

步骤2、对理解的媒体内容进行融合对齐，并存入数据库；

步骤3、对用户的检索内容进行理解并处理；

步骤5、对召回的媒体内容进行排序；

步骤6、在排序后的媒体内容中进行相应筛选。

2.根据权利要求1所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，所述多个维度包括关键词、实体、主题、场景类别以及事件五个维度。

3.根据权利要求2所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，设定规则具体包括：对关键词构建媒体领域词典、停用词典；对实体，限定实体类型范围，并构建媒体领域实体知识图谱；对主题，设计三级主题标签体系；对场景类别，设计层次化场景类别标签体系；对事件，限定事件类型和元素维度，并构建事件图谱。

4.根据权利要求3所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，所述媒体内容包括文本、图片、视频以及音频；对文本内容理解的具体方法包括：基于集成模型以及领域词典提取关键词信息，基于媒体领域实体抽取模型提取基于媒体领域实体抽取，基于媒体领域训练的主题模型提取主题信息，基于媒体领域场景分类的第一模型分类场景类别，基于联合模型进行句子级别的事件抽取。

5.根据权利要求4所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对图片内容理解的具体方法包括：

6.根据权利要求5所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的图片内容进行融合对齐的具体方法包括：

7.根据权利要求6所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对音频内容理解的具体方法包括：将音频数据转换为文本数据，通过对文本内容理解的具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息。

8.根据权利要求7所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对视频内容理解的具体方法包括：

9.根据权利要求8所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的视频内容进行融合对齐的具体方法包括：

10.根据权利要求9所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的媒体内容进行全局对齐的具体方法包括：

11.根据权利要求10所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤3中，对用户的检索内容进行理解并处理具体包括：

12.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤4中，基于用户检索内容理解，从多个维度对媒体内容进行召回具体包括：

13.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤5中，对召回的媒体内容进行排序具体包括：