CN114282019A

CN114282019A - 目标多媒体数据查找方法、装置、计算机设备、存储介质

Info

Publication number: CN114282019A
Application number: CN202111590256.9A
Authority: CN
Inventors: 崔洋洋; 余俊澎; 王星宇
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-05

Abstract

本申请涉及一种目标多媒体数据查找方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：接收目标应用发出的用于检索的多媒体数据；依据多媒体数据的类型调用匹配的多媒体服务；多媒体服务是基于多媒体数据的类型对应的神经网络模型构建的业务服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度；在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。采用本方法能够提升多媒体数据查找的精确度。

Description

目标多媒体数据查找方法、装置、计算机设备、存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种目标多媒体数据查找方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，网络信息由单一的文本，演变为包含文本、图片、语音以及视频的多媒体综合体。传统的多媒体数据查找方式中，主要是以单一的形式进行查找，导致了查找精确度低下的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种目标多媒体数据查找方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种目标多媒体数据查找方法。所述方法包括：

接收目标应用发出的用于检索的多媒体数据；

依据所述多媒体数据的类型调用匹配的多媒体服务；所述多媒体服务是基于所述多媒体数据的类型对应的神经网络模型构建的业务服务；所述多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；

通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征；

在与所述多媒体数据的类型对应的数据库中，将所述多媒体数据的语义特征与所述数据库中候选多媒体数据的语义特征进行对比，得到相似度；

在所述数据库中选取所述相似度不小于相似阈值对应的目标多媒体数据。

在其中一个实施例中，所述多媒体服务包括文本分析服务、音频分析服务和图像处理服务；所述依据所述多媒体数据的类型调用匹配的多媒体服务包括：

判断所述多媒体数据的类型；

当所述多媒体数据的类型为文本类时，调用所述文本分析服务；

当所述多媒体数据的类型为音频类时，调用所述音频分析服务；

当所述多媒体数据的类型为图像类时，调用所述图像处理服务；

当所述多媒体数据的类型为视频类时，将所述多媒体数据解析为对应的文本数据、音频数据和图像数据后，调用所述文本分析服务、所述音频分析服务和所述图像处理服务。

在其中一个实施例中，所述通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征包括：

当所述多媒体数据的类型为文本类时，对所述多媒体数据进行预处理，得到第一预处理后多媒体数据；

通过所述文本分析服务的神经网络模型，对所述第一预处理后多媒体数据进行文本切分，得到切分后多媒体数据；

提取所述切分后多媒体数据中的语义特征。

当所述多媒体数据的类型为音频类时，对所述多媒体数据进行分帧处理，得到多个的子多媒体数据；

通过所述音频分析服务的神经网络模型，对每个所述子多媒体数据进行降噪处理；

对降噪处理后的各所述子多媒体数据提取对应的语义特征。

当所述多媒体数据的类型为图像类时，对所述多媒体数据进行预处理，得到第二预处理后多媒体数据；

通过对应的所述多媒体服务的神经网络模型，对所述第二预处理后多媒体数据进行特征提取得到对应的语义特征。

当所述多媒体数据的类型为视频类时，通过所述文本分析服务的神经网络模型对解析所得的文本数据文本切分，在切分的所述文本数据中提取文本特征；

通过所述音频分析服务的神经网络模型对解析所得的音频数据进行声纹特征提取，得到声纹特征；

通过所述图像分析服务的神经网络模型对解析所得的图像数据进行图像特征提取，得到图像特征；

组合所述文本特征、所述声纹特征和所述图像特征，得到所述多媒体数据的语义特征。

在其中一个实施例中，所述在所述数据库中选取所述相似度不小于相似阈值对应的目标多媒体数据包括：

基于相似阈值与各所述相似度之间的大小关系，对各所述相似度对应的多媒体数据进行判断；

当存在至少一个所述相似度不小于所述相似阈值时，则将至少一个所述相似度对应的多媒体数据作为目标多媒体数据；

所述方法还包括：当各所述相似度均小于相似阈值时，则对所述数据库进行对应的数据补充。

在其中一个实施例中，所述数据库中存储了与各所述候选多媒体数据对应的身份信息；

所述在所述数据库中选取所述相似度不小于相似阈值对应的目标多媒体数据之后，所述方法还包括：

获取与所述目标多媒体数据匹配的身份信息。

第二方面，本申请还提供了一种目标多媒体数据查找装置。所述装置包括：

接收模块，用于接收目标应用发出的用于检索的多媒体数据；

调用模块，用于依据所述多媒体数据的类型调用匹配的多媒体服务；所述多媒体服务是基于所述多媒体数据的类型对应的神经网络模型构建的业务服务；所述多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；

提取模块，用于通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征；

对比模块，用于在与所述多媒体数据的类型对应的数据库中，将所述多媒体数据的语义特征与所述数据库中候选多媒体数据的语义特征进行对比，得到相似度；

选取模块，用于在所述数据库中选取所述相似度不小于相似阈值对应的目标多媒体数据。

在其中一个实施例中，所述调用模块还用于判断所述多媒体数据的类型；当所述多媒体数据的类型为文本类时，调用所述文本分析服务；当所述多媒体数据的类型为音频类时，调用所述音频分析服务；当所述多媒体数据的类型为图像类时，调用所述图像处理服务；当所述多媒体数据的类型为视频类时，将所述多媒体数据解析为对应的文本数据、音频数据和图像数据后，调用所述文本分析服务、所述音频分析服务和所述图像处理服务。

在其中一个实施例中，所述提取模块还用于当所述多媒体数据的类型为文本类时，对所述多媒体数据进行预处理，得到第一预处理后多媒体数据；通过所述文本分析服务的神经网络模型，对所述第一预处理后多媒体数据进行文本切分，得到切分后多媒体数据；提取所述切分后多媒体数据中的语义特征。

在其中一个实施例中，所述提取模块还用于当所述多媒体数据的类型为音频类时，对所述多媒体数据进行分帧处理，得到多个的子多媒体数据；

对降噪处理后的各所述子多媒体数据提取对应的语义特征。

在其中一个实施例中，所述提取模块还用于当所述多媒体数据的类型为图像类时，对所述多媒体数据进行预处理，得到第二预处理后多媒体数据；通过对应的所述多媒体服务的神经网络模型，对所述第二预处理后多媒体数据进行特征提取得到对应的语义特征。

在其中一个实施例中，所述提取模块还用于当所述多媒体数据的类型为视频类时，通过所述文本分析服务的神经网络模型对解析所得的文本数据文本切分，在切分的所述文本数据中提取文本特征；通过所述音频分析服务的神经网络模型对解析所得的音频数据进行声纹特征提取，得到声纹特征；通过所述图像分析服务的神经网络模型对解析所得的图像数据进行图像特征提取，得到图像特征；组合所述文本特征、所述声纹特征和所述图像特征，得到所述多媒体数据的语义特征。

在其中一个实施例中，所述选取模块还用于基于相似阈值与各所述相似度之间的大小关系，对各所述相似度对应的多媒体数据进行判断；当存在至少一个所述相似度不小于所述相似阈值时，则将至少一个所述相似度对应的多媒体数据作为目标多媒体数据；所述方法还包括：当各所述相似度均小于相似阈值时，则对所述数据库进行对应的数据补充。

在其中一个实施例中，所述数据库中存储了与各所述候选多媒体数据对应的身份信息；所述装置还包括：

获取模块，用于获取与所述目标多媒体数据匹配的身份信息。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所有方法步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所有方法步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述所有方法步骤。

上述目标多媒体数据查找方法、装置、计算机设备、存储介质和计算机程序产品，依据多媒体数据的类型调用匹配的多媒体服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度；在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。通过对不同的多媒体数据针对性的进行查找，提升了多媒体数据查找的精确度，为后续对多媒体的分类和信息安全的检测提供了有效的保障作用。

附图说明

图1为一个实施例中目标多媒体数据查找方法的应用环境图；

图2为一个实施例中目标多媒体数据查找方法的流程示意图；

图3a为目标多媒体数据查找方法的总体架构示意图；

图3b为目标多媒体数据查找方法的搜索反馈原理图；

图4为目标多媒体数据查找方法的多媒体数据检索流程图；

图5为目标多媒体数据查找方法的入库多媒体数据存储示意图；

图6为目标多媒体数据查找方法的文本特征提取和对比的流程图；

图7为目标多媒体数据查找方法的音频特征提取和对比的流程图；

图8为目标多媒体数据查找方法的图像特征提取和对比的流程图；

图9为一个实施例中提取视频中的语义特征步骤的流程示意图；

图10为目标多媒体数据查找方法的视频数据分析架构图；

图11为一个实施例中目标多媒体数据查找装置的结构框图；

图12为另一个实施例中目标多媒体数据查找装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的目标多媒体数据查找方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。该方法可以用在终端102或服务器104上，以用在终端102上进行说明：终端102接收目标应用发出的用于检索的多媒体数据；终端102依据多媒体数据的类型调用匹配的多媒体服务；多媒体服务是基于多媒体数据的类型对应的神经网络模型构建的业务服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；终端102通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；终端102在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度；终端102在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种目标多媒体数据查找方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202，接收目标应用发出的用于检索的多媒体数据。

其中，目标应用可指通信应用或浏览器等应用程序，例如，微信、QQ等。多媒体数据可指文本数据，音频数据、图像数据和视频数据等多媒体数据。

具体地，终端可接收用户通过目标应用编辑发送的用于检索的多媒体数据。

例如，如图3a所示，为目标多媒体数据查找方法的总体架构示意图，多媒体数据经由数据接口后，可进行文本分析、语音对比、图像对比和视频分析。图3b为目标多媒体数据查找方法的搜索反馈原理图，用户通过将问题描述输入解释接口(数据接口)，由终端内部的智能推理系统、数据库和推理机处理后，由推理机经由解释接口向用户输出结果反馈，此外，数据库还可以通过获取多媒体知识丰富数据库。图4为目标多媒体数据查找方法的多媒体数据检索流程图，首先对要需检索的多媒体数据进行数据特征提取，再与数据库模板库(数据库)中的已有特征进行比对(对比)，最后输出相应的对比结果。图5为目标多媒体数据查找方法的入库多媒体数据存储示意图，将文本数据、音频数据、图像数据、视频数据进行逐一解析后，对应存入文本数据库、音频数据库、图像数据库、视频数据库。

S204，依据多媒体数据的类型调用匹配的多媒体服务；多媒体服务是基于多媒体数据的类型对应的神经网络模型构建的业务服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种。

其中，神经网络模型可指前馈神经网络、反馈神经网络、全连接神经网络、卷积神经网络、残差网络、生成对抗网络、变分自动编码器、循环神经网络、长短期记忆网络等网络模型。

具体的，终端判断多媒体数据的类型；当多媒体数据的类型为文本类时，调用文本分析服务；当多媒体数据的类型为音频类时，调用音频分析服务；当多媒体数据的类型为图像类时，调用图像处理服务；当多媒体数据的类型为视频类时，将多媒体数据解析为对应的文本数据、音频数据和图像数据后，调用文本分析服务、音频分析服务和图像处理服务。

S206，通过多媒体服务的神经网络模型提取多媒体数据中的语义特征。

其中，语义特征可指多媒体数据所反映的关键信息或关键字词。

在一个实施例中，当多媒体数据的类型为文本类时，终端对多媒体数据进行预处理，得到第一预处理后多媒体数据；通过文本分析服务的神经网络模型，对第一预处理后多媒体数据进行文本切分，得到切分后多媒体数据；提取切分后多媒体数据中的语义特征。

其中，当多媒体数据的类型为文本类时，预处理是指对多媒体数据进行去停用词，例如，去除文本中的“这个”、“的”、“我”等字词。

在一个实施例中，当多媒体数据的类型为音频类时，终端对多媒体数据进行分帧处理，得到多个的子多媒体数据；通过音频分析服务的神经网络模型，对每个子多媒体数据进行降噪处理；对降噪处理后的各子多媒体数据提取对应的语义特征。

其中，对音频数据可用声纹识别系统，例如ivector系统声纹识别系统进行提取声纹特征以及声纹识别。

在一个实施例中，当多媒体数据的类型为图像类时，终端对多媒体数据进行预处理，得到第二预处理后多媒体数据；通过对应的多媒体服务的神经网络模型，对第二预处理后多媒体数据进行特征提取得到对应的语义特征。

其中，当多媒体数据的类型为图像类时，预处理是指对图像进行降噪、图像增强等处理。

S208，在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度。

其中，候选多媒体数据是指存储在数据库中的多媒体数据。相似度是指语义特征之间的相似程度，例如，60％，80％。

具体地，在与多媒体数据的类型对应的数据库中，终端将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行逐一对比计算，分别得到媒体数据的语义特征与数据库中各候选多媒体数据的语义特征的相似度。

S210，在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。

其中，相似阈值是指预设的相似度阈值，例如，70％。目标多媒体数据是指符合相似度不小于相似阈值条件的候选多媒体数据。

具体地，基于相似阈值与各相似度之间的大小关系，终端对各相似度对应的多媒体数据进行判断；当存在至少一个相似度不小于相似阈值时，则将至少一个相似度对应的多媒体数据作为目标多媒体数据。

在一个实施例中，当各相似度均小于相似阈值时，终端则对数据库进行对应的数据补充。

在一个实施例中，数据库中存储了与各候选多媒体数据对应的身份信息；在S210之后，方法还包括：终端获取与目标多媒体数据匹配的身份信息。

例如，图6为目标多媒体数据查找方法的文本特征提取和对比的流程图，首先进行OCR(Optical Character Recoginition，光学字符识别)识别，再进行自然语言处理，再用机器学习分类预测后，得到对文本数据的文本特征和相似度。其中，自然语言处理包括基于数据挖掘的短语抽取算法，该算法能对文本数据进行预处理、文本切分、词库建立、特征提取等操作。机器学习中分类器包括基于关联规则的组合支持向量分类器。图7为目标多媒体数据查找方法的音频特征提取和对比的流程图，首先，通过神经网络对音频数据进行降噪、对齐(统计量计算)、身份向量提取、球形空间规整、线性区分分析、类内协方差规则处理，以及对比、进行相似度计算、对称分数规整，判断相似度是否大于阈值，当相似度大于阈值时，接受并输出查找结果，反之则无查找结果。图8为目标多媒体数据查找方法的图像特征提取和对比的流程图，首先对图像进行解码、经由图像预处理、卷积神经网络特征提取、特征哈希、查询哈希表、相似度计算后，判断相似度是否大于阈值，当相似度大于阈值时，输出匹配结果(查找结果)，反之则返回“无匹配结果”。

上述目标多媒体数据查找方法中，依据多媒体数据的类型调用匹配的多媒体服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度；在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。通过对不同的多媒体数据针对性的进行查找，提升了多媒体数据查找的精确度，为后续对多媒体的分类和信息安全的检测提供了有效的保障作用。

在一个实施例中，如图9所示，提取视频中的语义特征步骤包括：

S902，当多媒体数据的类型为视频类时，通过文本分析服务的神经网络模型对解析所得的文本数据文本切分，在切分的文本数据中提取文本特征。

其中，文本特征是指文本数据反映的关键信息。

S904，通过音频分析服务的神经网络模型对解析所得的音频数据进行声纹特征提取，得到声纹特征。

其中，声纹特征指音频数据反映的关键信息。

S906，通过图像分析服务的神经网络模型对解析所得的图像数据进行图像特征提取，得到图像特征。

其中，图形特征图像数据反映的关键信息。

S908，组合文本特征、声纹特征和图像特征，得到多媒体数据的语义特征。

例如，图10为目标多媒体数据查找方法的视频数据分析架构图，由图可知，视频数据可解析为文本数据、音频数据和图像数据。

本实施例中，通过分别对视频解析得到的文本数据、音频数据和图像数据分别进行特征提取，并组合文本特征、声纹特征和图像特征，得到对应的多媒体数据的语义特征。通过对不同的多媒体数据针对性的进行查找，提升了多媒体数据查找的精确度，为后续对多媒体的分类和信息安全的检测提供了有效的保障作用。

本申请还提供一种应用场景，该应用场景应用上述的目标多媒体数据查找方法。具体地，该目标多媒体数据查找方法在该应用场景的应用如下：

以公安相关应用为例

场景1：可用于检测关键或敏感信息。

当用户输入待检测的多媒体数据(文本数据、音频数据、图像数据、视频数据)，依据多媒体数据的类型调用匹配的多媒体服务，通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度，在数据库中选取相似度不小于相似阈值对应的目标多媒体数据，例如，关键信息为“烤鸭”，候选多媒体数据的语义特征即为“烤鸭”，多媒体数据中的语义特征为“鸭子”，相似度为“50％”，相似阈值为50％，即相似度不小于相似阈值，则目标多媒体数据为“烤鸭”，检测的结果为，待检测的多媒体数据含关键信息“烤鸭”。

场景2：可用于确认犯罪份子图像。

输入待检索的视频，对视频中的图像逐一进行图像特征提取，在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据(犯罪份子图像)的语义特征进行对比，得到相似度；当相似度不小于相似阈值时，视频中对应的图像则判断为该犯罪分子图像，同时返回对应的图像在视频的位置和时间段。

场景3：声纹比对功能。

将待确认的音频数据输入终端，依据多媒体数据的类型调用匹配的多媒体服务；通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库(声纹库)中，将多媒体数据的语义特征与数据库中候选多媒体数据(声纹)的语义特征进行对比，得到相似度；当相似度不小于相似阈值时，即判定该声纹匹配成功，同时获取与目标多媒体数据匹配的身份信息。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的目标多媒体数据查找方法的目标多媒体数据查找装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个目标多媒体数据查找装置实施例中的具体限定可以参见上文中对于目标多媒体数据查找方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种目标多媒体数据查找装置，包括：接收模块1102、调用模块1104、提取模块1106、对比模块1108和选取模块1110，其中：

接收模块1102，用于接收目标应用发出的用于检索的多媒体数据。

调用模块1104，用于依据多媒体数据的类型调用匹配的多媒体服务；多媒体服务是基于多媒体数据的类型对应的神经网络模型构建的业务服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种。

提取模块1106，用于通过多媒体服务的神经网络模型提取多媒体数据中的语义特征。

对比模块1108，用于在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度。

选取模块1110，用于在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。

在一个实施例中，调用模块1104还用于判断多媒体数据的类型；当多媒体数据的类型为文本类时，调用文本分析服务；当多媒体数据的类型为音频类时，调用音频分析服务；当多媒体数据的类型为图像类时，调用图像处理服务；当多媒体数据的类型为视频类时，将多媒体数据解析为对应的文本数据、音频数据和图像数据后，调用文本分析服务、音频分析服务和图像处理服务。

在一个实施例中，提取模块1106还用于当多媒体数据的类型为文本类时，对多媒体数据进行预处理，得到第一预处理后多媒体数据；通过文本分析服务的神经网络模型，对第一预处理后多媒体数据进行文本切分，得到切分后多媒体数据；提取切分后多媒体数据中的语义特征。

在一个实施例中，提取模块1106还用于当多媒体数据的类型为音频类时，对多媒体数据进行分帧处理，得到多个的子多媒体数据；

通过音频分析服务的神经网络模型，对每个子多媒体数据进行降噪处理；

对降噪处理后的各子多媒体数据提取对应的语义特征。

在一个实施例中，提取模块1106还用于当多媒体数据的类型为图像类时，对多媒体数据进行预处理，得到第二预处理后多媒体数据；通过对应的多媒体服务的神经网络模型，对第二预处理后多媒体数据进行特征提取得到对应的语义特征。

在一个实施例中，提取模块1106还用于当多媒体数据的类型为视频类时，通过文本分析服务的神经网络模型对解析所得的文本数据文本切分，在切分的文本数据中提取文本特征；通过音频分析服务的神经网络模型对解析所得的音频数据进行声纹特征提取，得到声纹特征；通过图像分析服务的神经网络模型对解析所得的图像数据进行图像特征提取，得到图像特征；组合文本特征、声纹特征和图像特征，得到多媒体数据的语义特征。

在一个实施例中，选取模块1110还用于基于相似阈值与各相似度之间的大小关系，对各相似度对应的多媒体数据进行判断；当存在至少一个相似度不小于相似阈值时，则将至少一个相似度对应的多媒体数据作为目标多媒体数据；方法还包括：当各相似度均小于相似阈值时，则对数据库进行对应的数据补充。

在一个实施例中，如图12所示，数据库中存储了与各候选多媒体数据对应的身份信息；该装置还包括：获取模块1112，其中，

获取模块1112，用于获取与目标多媒体数据匹配的身份信息。

上述实施例中，依据多媒体数据的类型调用匹配的多媒体服务；多媒体数据的类型包括文本类、音频类、图像类或视频类中的一种；通过多媒体服务的神经网络模型提取多媒体数据中的语义特征；在与多媒体数据的类型对应的数据库中，将多媒体数据的语义特征与数据库中候选多媒体数据的语义特征进行对比，得到相似度；在数据库中选取相似度不小于相似阈值对应的目标多媒体数据。通过对不同的多媒体数据针对性的进行查找，提升了多媒体数据查找的精确度，为后续对多媒体的分类和信息安全的检测提供了有效的保障作用。

上述目标多媒体数据查找装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，上述实施例以终端为例进行说明，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标多媒体数据查找方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标多媒体数据查找方法，其特征在于，所述方法包括：

接收目标应用发出的用于检索的多媒体数据；

2.根据权利要求1所述的方法，其特征在于，所述多媒体服务包括文本分析服务、音频分析服务和图像处理服务；所述依据所述多媒体数据的类型调用匹配的多媒体服务包括：

判断所述多媒体数据的类型；

3.根据权利要求2所述的方法，其特征在于，所述通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征包括：

提取所述切分后多媒体数据中的语义特征。

4.根据权利要求2所述的方法，其特征在于，所述通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征包括：

对降噪处理后的各所述子多媒体数据提取对应的语义特征。

5.根据权利要求2所述的方法，其特征在于，所述通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征包括：

6.根据权利要求2所述的方法，其特征在于，所述通过所述多媒体服务的神经网络模型提取所述多媒体数据中的语义特征包括：

7.根据权利要求1所述的方法，其特征在于，所述在所述数据库中选取所述相似度不小于相似阈值对应的目标多媒体数据包括：

8.根据权利要求1所述的方法，其特征在于，所述数据库中存储了与各所述候选多媒体数据对应的身份信息；

获取与所述目标多媒体数据匹配的身份信息。

9.一种目标多媒体数据查找装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。