CN115422399B

CN115422399B - 视频搜索方法、装置、设备和存储介质

Info

Publication number: CN115422399B
Application number: CN202210869119.7A
Authority: CN
Inventors: 阮晓峰; 胡卫明; 李兵
Original assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2023-10-31
Anticipated expiration: 2042-07-21
Also published as: CN115422399A

Abstract

本发明实施例提供一种视频搜索方法、装置、设备和存储介质，该方法包括：获取用户输入的搜索信息；根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息；根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。本发明实施例的方法通过多模态知识图谱，将用户的搜索信息扩展为更多模态的信息输入，进而基于扩展后的搜索信息，也就可以获得更加全面、更加准确的视频搜索结果，提升了视频搜索结果的准确性和全面性，解决了视频搜索过程中的误检和漏检问题。

Description

视频搜索方法、装置、设备和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频搜索方法、装置、设备和存储介质。

背景技术

随着移动互联网技术和网络社交媒体的不断发展，短视频行业以新型的传播方式和丰富的内容表达为依托，受到人们喜爱与关注。然而，短视频中也存在着大量风险类视频，这些视频广泛传播会造成消费者消极负面情绪，更增加了社会不稳定因素，因此如何准确快速搜索和识别出风险类视频具有重要的意义。

相关技术中，通过在搜索引擎中输入风险类词汇来搜索和识别风险类视频，该方法存在大量误检和漏检的情况，导致风险类视频的搜索和识别的准确性较低。

发明内容

针对现有技术中的问题，本发明实施例提供一种视频搜索方法、装置、设备和存储介质。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种视频搜索方法，包括：

获取用户输入的搜索信息；

根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息；所述多模态信息包括所述搜索信息的扩展文本信息和视频特征信息；

根据所述扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

进一步地，所述根据所述扩展文本信息和视频特征信息，基于搜索引擎确定目标视频，包括：

根据所述扩展文本信息，基于所述搜索引擎搜索第一视频，并根据所述视频特征信息，基于所述搜索引擎搜索第二视频；

提取候选视频的文本信息和音频信息，所述候选视频包括所述第一视频和所述第二视频；

根据所述文本信息、所述音频信息以及所述多模态知识图谱，从所述候选视频中确定所述目标视频。

进一步地，所述根据所述文本信息、所述音频信息以及所述多模态知识图谱，从所述候选视频中确定所述目标视频，包括：

将所述多模态知识图谱中的预设关键词，与所述文本信息和所述音频信息进行匹配，得到所述文本信息和所述音频信息中出现所述预设关键词的次数；

根据所述次数，从所述候选视频中确定所述目标视频。

进一步地，所述根据所述次数，从所述候选视频中确定所述目标视频，包括：

按照所述次数从大到小的顺序，对所述候选视频进行排序；

将前预设数量个候选视频，确定为所述目标视频。

进一步地，所述根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息，包括：

基于所述多模态知识图谱对所述搜索信息进行匹配，在匹配成功的情况下，在所述多模态知识图谱中确定与所述搜索信息存在关联关系的所述扩展文本信息和所述视频特征信息。

进一步地，所述根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息之前，所述方法还包括：

获取多个待处理文本和待处理视频；

对所述待处理文本进行文本信息抽取，得到文本内容；

对所述待处理视频进行视频表观特征提取，得到视频特征；

基于所述文本内容和所述视频特征，构建所述多模态知识图谱。

第二方面，本发明实施例还提供了一种视频搜索装置，包括：

获取模块，用于获取用户输入的搜索信息；

处理模块，用于根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息；所述多模态信息包括所述搜索信息的扩展文本信息和视频特征信息；

搜索模块，用于根据所述扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述视频搜索方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述视频搜索方法。

第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述视频搜索方法。

本发明实施例提供的视频搜索方法、装置、设备和存储介质，通过获取用户输入的搜索信息，并根据用户输入的搜索信息从预设的多模态知识图谱得到与搜索信息相关联的扩展文本信息、视频特征信息等多种模态的信息，即通过多模态知识图谱，将用户的搜索信息扩展为更多模态的信息输入，实现了对用户搜索信息的扩展，使得通过多模态知识图谱扩展后的搜索信息更加的全面和丰富，进而基于扩展后的搜索信息，也就可以获得更加全面、更加准确的视频搜索结果，提升了视频搜索结果的准确性和全面性，解决了视频搜索过程中的误检和漏检问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频搜索方法的流程示意图之一；

图2本发明实施例提供的视频搜索方法的流程示意图之二；

图3本发明实施例提供的视频搜索方法的流程示意图之三；

图4本发明实施例提供的视频搜索方法的流程示意图之四；

图5本发明实施例提供的视频搜索装置的结构示意图；

图6本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的方法可以应用于视频处理场景中，根据用户输入准确快速地获取视频搜索结果。

相关技术中，通过在搜索引擎中输入风险类词汇来搜索和识别风险类视频，该搜索方法存在误检和漏检的问题，导致风险类视频的搜索结果准确性较低。

本发明实施例的视频搜索方法，通过获取用户输入的搜索信息，并根据用户输入的搜索信息从预设的多模态知识图谱得到与搜索信息相关联的扩展文本信息、视频特征信息等多种模态的信息，即通过多模态知识图谱，将用户的搜索信息扩展为更多模态的信息输入，实现了对用户搜索信息的扩展，使得通过多模态知识图谱扩展后的搜索信息更加的全面和丰富，进而基于扩展后的搜索信息，也就可以获得更加全面、更加准确的视频搜索结果，提升了视频搜索结果的准确性和全面性，解决了视频搜索过程中的误检和漏检问题。

下面结合图1-图6以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明实施例提供的视频搜索方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取用户输入的搜索信息。

具体地，随着移动互联网技术和网络社交媒体的不断发展，短视频行业以新型的传播方式和丰富的内容表达为依托，受到人们喜爱与关注。然而，短视频中也存在着大量风险类视频，这些视频广泛传播会造成消费者消极负面情绪，更增加了社会不稳定因素。因此，如何能在浩瀚如海的短视频库中找到风险类短视频，对社会网络安全监督有着重要意义。风险类短视频具有两个特点：(1)数量稀少，导致正 /负样本极度不均衡；(2)语义由多模融合信息构成，导致机器理解比较困难。现有技术中，通过在搜索引擎中输入风险类词汇来搜索和得到风险类视频，搜索方法存在误检和漏检的问题。

为了解决现有视频搜索方式导致的误检和漏检问题，提高视频搜索的准确性，本发明实施例基于多模态知识图谱进行风险类视频的搜索，提高视频检索效率和搜索的准确性。另外需要说明的是，本发明实施例的方法也可以用于其他任意类型的视频检索，本发明实施例不作限制。为了便于描述，以风险类视频搜索进行举例说明。

本发明实施例中为了实现视频的快速准确检索，首先需要获取用户输入的搜索信息，如获取到用户在搜索界面输入“***”的搜索信息，则可以基于用户输入的搜索信息进行基于多模态知识图谱的视频检索。

步骤102、根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息。

具体地，本发明实施例基于多模态知识图谱进行视频搜索，即在获取到用户输入的搜索信息后，根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的扩展文本信息、视频特征信息等多种模态的信息。其中，多模态知识图谱是一个以实体、概念为节点，以概念之间的各种语义关系为边的大规模语义网络，多模态知识图谱在传统知识图谱的基础上，构建了多种模态下的实体，以及多种模态实体间的多模态语义关系，其不仅仅是文本和结构化数据，也可以是图片、视频和音频等视觉或听觉形式的数据。可选地，根据搜索信息可以从多模态知识图谱中获取到搜索信息相关的多个实体、多个实体的关系及对应的视频特征信息，例如搜索信息对应的对象信息、新闻信息、场景信息、对象表情信息、事件特征信息及对应的视频特征信息，通过多模态知识图谱实现了对搜索信息内容和搜索信息类型的扩展，使得搜索信息与多模态知识图谱中的多模态信息相关联，也就是将搜索信息与多模态知识图谱中对应的实体、实体之间的关系及视频特征相关联，使得通过多模态知识图谱扩展后的搜索信息更加的丰富，进而基于扩展后的搜索信息，也就可以更加准确的实现对所需视频的搜索。另外需要说明的是，本发明实施例中，文本和视频特征提取采用双流的结构，不同模态特征单独提取，大大提高了用户输入的搜索信息的拓展性。通过成对的数据集(文本+图像/视频)得到文本和图像的特征，同时采用跨模态对比学习的方法进行优化，可以将不同模态的数据在相近语义空间中表达。

例如，用户在搜索界面输入“***”的搜索信息后，则根据搜索信息从多模态知识图谱中得到与搜索信息相关联的多模态信息，可以包括：新闻信息：A市出现大量***；对象信息：身份证、人、材料；场景信息：室内；表情信息：严肃；事件特征信息：表情严肃的人举着身份证在说话；视频特征信息：多维向量的视频特征。

步骤103、根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

具体地，根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息后，即根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的扩展文本信息和视频特征信息后，实现了基于多模态知识图谱，将搜索信息拓展为更多模态的信息输入，进而也就可以根据获取到的搜索信息相关联的多模态信息得到搜索引擎返回的目标视频。

例如，将搜索信息相关联的多模态的信息，如对象信息、新闻信息、场景信息、对象表情信息、事件特征信息和视频特征信息，输入至搜索引擎，就可以得到基于多模态信息搜索得到的短视频。

上述实施例的方法，通过获取用户输入的搜索信息，并根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的扩展文本信息、视频特征信息等多种模态的信息，即通过多模态知识图谱，将用户的搜索信息扩展为更多模态的信息输入，实现了对用户搜索信息的扩展，使得通过多模态知识图谱扩展后的搜索信息更加的全面和丰富，进而基于扩展后的搜索信息，也就可以获得更加全面、更加准确的视频搜索结果，提升了视频搜索结果的准确性和全面性，解决了视频搜索过程中的误检和漏检问题。

在一实施例中，根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频，包括：

根据扩展文本信息，基于搜索引擎搜索第一视频，并根据视频特征信息，基于搜索引擎搜索第二视频；

提取候选视频的文本信息和音频信息，候选视频包括第一视频和第二视频；

根据文本信息、音频信息以及多模态知识图谱，从候选视频中确定目标视频。

具体地，根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息后，即根据用户输入的搜索信息从预设的多模态知识图谱中得到与搜索信息相关联的扩展文本信息和视频特征信息，实现了对用户输入的搜索信息的扩展。通过将搜索信息相关联的扩展文本信息输入搜索引擎，得到基于扩展文本信息的第一视频，将搜索信息相关联的视频特征信息输入至搜索引擎，得到基于视频特征信息的第二视频，即将用户输入的搜索信息拓展为更多模态的信息并将其作为视频搜索的条件和特征，使得搜索得到的视频搜索结果更加的全面和准确。

进一步，根据搜索信息的多模态信息得到基于扩展文本信息的第一视频和基于视频特征信息的第二视频后，将第一视频和第二视频作为候选视频，并通过文本识别模型(OCR)和语音识别模型(ASR) 提取候选视频的文本信息和音频信息，进而可以基于候选视频的文本信息、音频信息和多模态知识图谱，对候选视频的内容作进一步的检查校验，也就是对基于多模态信息得到的视频搜索结果进行更进一步的分析，使得最终获得的目标视频更加的准确。可选地，本发明实施例中对候选视频进行校验时，从候选视频的全量的文本信息和音频信息两个维度去进行分析和校验，实现了对候选视频内容的全面核查和校验，使得对候选视频的校验维度和校验结果上更加的全面和准确，也就使得核查校验后得到的目标视频与搜索信息更加的匹配，得到的搜索结果更加的准确。

例如，多模态知识图谱中“***”对应的关键词为：词语1、词语2、词语3、词语4等，则通过将候选视频中提取出的文本信息、音频信息和多模态知识图谱中的关键词进行匹配，就可以基于多模态知识图谱的关键词对候选视频进行更加深入的核查和校验，使得最终得到的目标视频的搜索结果更加的准确。

上述实施例的方法，通过将搜索信息相关联的扩展文本信息输入搜索引擎，得到基于扩展文本信息搜索得到的第一视频，将搜索信息相关联的视频特征信息输入至搜索引擎，得到基于视频特征信息搜索得到的第二视频，即将用户输入的搜索信息拓展为更多模态的信息并将其作为搜索的条件和特征，使得视频搜索结果更加的全面和准确；进一步基于第一视频和第二视频的文本信息和音频信息两个维度对视频内容进行全面核查和校验，使得对候选视频的分析维度和分析结果更加的全面，也就使得核查校验后得到的目标视频与搜索信息更加的匹配，得到的搜索结果更加的准确。

在一实施例中，根据文本信息、音频信息以及多模态知识图谱，从候选视频中确定目标视频，包括：

将多模态知识图谱中的预设关键词，与文本信息和音频信息进行匹配，得到文本信息和音频信息中出现预设关键词的次数；

根据次数，从候选视频中确定目标视频。

具体地，在提取第一视频和第二视频的文本信息和音频信息后，就可以基于文本信息和音频信息两个维度对第一视频和第二视频的内容进行更深层次的核查和校验；进一步地，本发明实施例通过将多模态知识图谱中的预设关键词与第一视频、第二视频的文本信息和音频信息进行匹配，得到文本信息和音频信息中出现预设关键词的次数，即借助于多模态知识图谱，将候选视频的全量的文本信息和音频信息与多模态知识图谱中的与搜索信息相关联的预设关键词进行匹配，判断候选视频的文本和音频里面是否包含特定关键词，并根据候选视频的文本信息和音频信息中出现预设关键词的次数，可以快速有效的对候选视频的内容进行核查和校验，进而根据核查和校验得到的结果，就可以得到更加准确的视频搜索结果。

上述实施例的方法，通过将多模态知识图谱中的预设关键词与候选视频的文本信息和音频信息进行匹配，判断候选视频的文本和音频里面是否包含特定关键词，并根据候选视频的文本信息和音频信息中出现预设关键词的次数，可以快速有效的对候选视频的内容进行核查和校验，进而根据核查和校验得到的结果，就可以得到更加准确的视频搜索结果。

在一实施例中，根据次数，从候选视频中确定目标视频，包括：

按照次数从大到小的顺序，对候选视频进行排序；

将前预设数量个候选视频，确定为目标视频。

具体地，在将多模态知识图谱中的预设关键词与候选视频的文本信息和音频信息进行匹配，得到文本信息和音频信息中出现预设关键词的次数后，就可以按照次数从大到小的顺序，对候选视频进行排序，可选地，将候选视频中关键词次数出现最多的候选视频作为与搜索信息匹配度最高的视频，进而根据关键词出现次数的大小，即候选视频与搜索信息的匹配度的高低进行候选视频的排序，并将排序后的候选视频中预设数量的候选视频作为目标视频向用户返回搜索结果，实现了对搜索结果中匹配程度较低的候选视频的过滤，也实现了依据匹配程度对候选视频的排序，使得用户可以优先获得与搜索信息匹配程度较高的视频信息，在提升视频搜索结果准确性的基础上，优先呈现与搜索信息匹配程度较高的视频信息，也就使得用户更加容易、更加方便的获取到所需的视频信息。

上述实施例的方法，通过将多模态知识图谱中的预设关键词与候选视频的文本信息和音频信息进行匹配，并根据匹配结果中文本信息和音频信息中出现预设关键词的次数对候选视频进行排序，并将排序后的候选视频中预设数量的候选视频作为目标视频向用户返回搜索结果，实现了对搜索结果中匹配程度较低的候选视频的过滤，同时视频搜索结果中优先呈现与搜索信息匹配程度较高的视频信息，也就使得用户更加容易、更加方便的获取到所需的视频信息。

在一实施例中，根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息，包括：

基于多模态知识图谱对搜索信息进行匹配，在匹配成功的情况下，在多模态知识图谱中确定与搜索信息存在关联关系的扩展文本信息和视频特征信息。

具体地，为了实现根据用户输入的搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息，可以将搜索信息与多模态知识图谱中的内容进行匹配，若搜索信息与多模态知识图谱中的内容匹配成功，则可以基于多模态知识图谱中各个实体间的关系及实体的属性，在多模态知识图谱中确定与搜索信息存在关联关系的扩展文本信息和视频特征信息，达到了将用户输入的搜索信息拓展为更多模态信息的效果。可选地，将搜索信息与多模态知识图谱中的各个实体进行逐一匹配，获得与搜索信息相匹配的目标实体信息，进而基于多模态知识图谱的结构，获取与目标实体信息存在关联关系的各个实体，及各个实体的属性信息，并将各个实体、实体之间的关系及实体属性信息作为与搜索信息存在关联关系的扩展文本信息和视频特征信息。

上述实施例的方法，通过将搜索信息与多模态知识图谱中的内容进行匹配，则可以基于多模态知识图谱中各个实体间的关系及实体的属性，在多模态知识图谱中确定与搜索信息存在关联关系的扩展文本信息和视频特征信息，达到了将用户输入的搜索信息拓展为更多模态信息的效果，进而也就提高了视频搜索的全面性和准确性。

在一实施例中，根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息之前，方法还包括：

获取多个待处理文本和待处理视频；

对待处理文本进行文本信息抽取，得到文本内容；

对待处理视频进行视频表观特征提取，得到视频特征；

基于文本内容和视频特征，构建多模态知识图谱。

具体地，本发明实施例通过多模态知识图谱，实现了对用户搜索信息的扩展，进而基于扩展后的搜索信息，也就可以获得更加全面、更加准确的视频搜索结果，因此如何准确高效的构建多模态知识图谱具有重要的意义。本发明实施例中，通过获取多个待处理文本和待处理视频，对待处理文本进行文本信息抽取，得到文本内容，对待处理视频进行视频表观特征提取，得到视频特征，进而基于文本内容和视频特征构建多模态知识图谱中的多模态信息，并建立各个模态信息之间的多个实体及实体间的关系。可选地，为了使得构建的多模态知识图谱更加的准确和合理，多模态知识图谱的构建需要进行文本信息抽取和视频表观特征表示，其中，文本信息抽取可以采用数据驱动和专家审核的方式构建，充分挖掘历史用户查询记录和借助专家经验知识，保证多模态知识图谱实时动态更新，满足风险类热点事件查询需求，文本关键信息包括风险类主题词汇、事件类型、事件说明描述、关联拓展词汇、关联实体词汇等。视频表观特征通过视觉特征提取器获得，可以将视频特征作为实体的属性信息，从而构建出多模态知识图谱，以实现对搜索信息的多模态扩展，提升视频搜索结果的全面性和准确性。

上述实施例的方法，通过文本信息抽取和视频表观特征提取，得到文本内容和视频特征，进而基于文本内容和视频特征建立各个模态信息之间的多个实体及实体间的关系，构建出多模态知识图谱中的多模态信息，以实现对搜索信息的多模态扩展，提升视频搜索结果的全面性和准确性。

示例性的，图2为本发明实施例提供的视频搜索方法的流程之二，具体如下：

首先通过数据驱动和专家参与的方式，构建全面和准确的风险短视频多模态知识图谱。多模态知识图谱的构建采用数据驱动和专家审核的方式，可以充分挖掘历史用户查询记录和借助专家经验知识，保证多模态知识图谱实时动态更新，获得风险类主题不同模态之间关联信息，使得构建的多模态知识图谱更加的准确和合理。

然后根据目标风险主题类查询词汇(搜索信息)，借助风险类短视频多模态知识图谱，对查询词汇进行扩展，通过目标搜索引擎，获得多路召回候选视频，包括关联扩展词汇和视频特征查询到的内容，使用多路召回方式，可以保证候选视频内容的多样性，提高了查询结果召回率。从短视频库中召回丰富的候选视频，也就使得基于多模态知识图谱得到的视频搜索结果更加的全面和准确。

最后，对候选短视频进行进一步分析处理，利用文本检测和语音识别工具，获得候选短视频文本和语音模态信息，借助于风险类短视频多模态知识图谱，进一步对候选短视频进行优化排序，最终返回与输入查询词汇相关联的风险类短视频，即通过提取候选短视频多模信息，结合风险类短视频多模态知识图谱，对候选视频排序进行指导校验，最终获得与目标风险主题类查询词汇相关联的风险类短视频，降低了查询结果误检率。

本发明充分借助风险类短视频多模态知识图谱，通过扩展风险类词汇和提供知识指导，并采用召回加精排的策略，可以快速、准确地完成风险类视频搜索任务，提高了搜索的效率和准确率，解决了目标风险主题类查询词汇搜索结果存在大量误检和漏检的问题。

示例性的，图3为本发明实施例提供的视频搜索方法流程之三，具体如下：

下面本发明以“***”类主题查询为例子，介绍风险类短视频搜索整个业务流程。

对于“***”主题，由于视频数量很少，***类的文本和视频语义很难对齐。如果直接输入“***”，目标搜索引擎返回来的短视频与“***”在语义上会出现大的偏差。

对于“***”查询词汇，本发明构建的多模态知识图谱信息包括：新闻信息：A市出现大量***；对象信息：身份证、人、材料；场景信息：室内；表情信息：严肃；事件特征信息：表情严肃的人举着身份证在说话；视频特征信息：多维向量的视频特征；关键词：词语1、词语2、词语3、词语4等。通过多模态知识图谱模块，本发明将关联新闻和实体类词汇作为扩展词汇，作为目标搜索引擎的输入，此外，本发明也将视频特征作为输入，通过视频特征搜索对应的短视频。召回模块将多路召回的视频作为候选短视频，有效地提高了搜索召回率。

对于候选视频，本发明利用文本检测和语音识别工具，获得更加精细的多模信息，比如在视频里可以获得“我***”、“词语5”、“词语 6”等词汇，借助于多模态知识图谱的特定关键词，校验模块可以判断候选视频文本和音频里面是否包含风险类主题特定关键词，进而对候选视频进行重新排序，有效地降低了查询结果误检率。

示例性的，图4为本发明实施例提供的视频搜索方法的流程之四，具体如下：

通过爬虫模块爬取文本样本和短视频样本，特征提取模块对短视频样本进行特征提取，并构建短视频库和多媒体信息索引库；在用户输入搜索信息进行视频检索时，根据多模态知识图谱对搜索信息进行多模态扩展，并根据扩展后的多模态信息，利用召回模块从搜索引擎 (向量检索引擎)中获取候选短视频，最后再通过校验模块利用多模态知识模块中的关键词对候选短视频进行指导校验，就可以得到风险类短视频的全面、准确的搜索结果。

下面对本发明提供的视频搜索装置进行描述，下文描述的视频搜索装置与上文描述的视频搜索方法可相互对应参照。

图5本发明提供的视频搜索装置的结构示意图。本实施例提供的视频搜索装置，包括：

获取模块710，于获取用户输入的搜索信息；

处理模块720，用于根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息；

搜索模块730，用于根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

可选地，所述搜索模块730，具体用于：根据扩展文本信息，基于搜索引擎搜索第一视频，并根据视频特征信息，基于搜索引擎搜索第二视频；

可选地，所述搜索模块730，具体用于：将多模态知识图谱中的预设关键词，与文本信息和音频信息进行匹配，得到文本信息和音频信息中出现预设关键词的次数；

根据次数，从候选视频中确定目标视频。

可选地，所述搜索模块730，具体用于：按照次数从大到小的顺序，对候选视频进行排序；

将前预设数量个候选视频，确定为目标视频。

可选地，所述处理模块720，具体用于：基于多模态知识图谱对搜索信息进行匹配，在匹配成功的情况下，在多模态知识图谱中确定与搜索信息存在关联关系的扩展文本信息和视频特征信息。

可选地，所述处理模块720，还用于：获取多个待处理文本和待处理视频；

对待处理文本进行文本信息抽取，得到文本内容；

对待处理视频进行视频表观特征提取，得到视频特征；

基于文本内容和视频特征，构建多模态知识图谱。

本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。

图6例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行视频搜索方法，该方法包括：获取用户输入的搜索信息；根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息；根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的视频搜索方法，该方法包括：获取用户输入的搜索信息；根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息；根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的视频搜索方法，该方法包括：获取用户输入的搜索信息；根据搜索信息，从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息；多模态信息包括搜索信息的扩展文本信息和视频特征信息；根据扩展文本信息和视频特征信息，基于搜索引擎确定目标视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频搜索方法，其特征在于，包括：

获取用户输入的搜索信息；

根据所述扩展文本信息，基于搜索引擎搜索第一视频，并根据所述视频特征信息，基于所述搜索引擎搜索第二视频；

将所述多模态知识图谱中的与搜索信息相关的预设关键词，与所述文本信息和所述音频信息进行匹配，得到所述文本信息和所述音频信息中出现所述预设关键词的次数；

根据所述次数，从所述候选视频中确定目标视频。

2.根据权利要求1所述的视频搜索方法，其特征在于，所述根据所述次数，从所述候选视频中确定所述目标视频，包括：

按照所述次数从大到小的顺序，对所述候选视频进行排序；

将前预设数量个候选视频，确定为所述目标视频。

3.根据权利要求1或2所述的视频搜索方法，其特征在于，所述根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息，包括：

4.根据权利要求1或2所述的视频搜索方法，其特征在于，所述根据所述搜索信息，从预设的多模态知识图谱中得到与所述搜索信息相关联的多模态信息之前，所述方法还包括：

获取多个待处理文本和待处理视频；

对所述待处理文本进行文本信息抽取，得到文本内容；

对所述待处理视频进行视频表观特征提取，得到视频特征；

5.一种视频搜索装置，其特征在于，包括：

获取模块，用于获取用户输入的搜索信息；

搜索模块，用于根据所述扩展文本信息，基于搜索引擎搜索第一视频，并根据所述视频特征信息，基于所述搜索引擎搜索第二视频；

根据所述次数，从所述候选视频中确定目标视频。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的视频搜索方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频搜索方法。