CN116127133B

CN116127133B - 基于人工智能的文件查找方法、系统、设备和介质

Info

Publication number: CN116127133B
Application number: CN202310405828.4A
Authority: CN
Inventors: 田申
Original assignee: Hunan Grapefruit Tree Culture Media Co ltd
Current assignee: Hunan Grapefruit Tree Culture Media Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-08-08
Anticipated expiration: 2043-04-17
Also published as: CN116127133A

Abstract

本发明提供的一种基于人工智能的文件查找方法、系统、设备和介质，涉及文件查找领域，该方法包括基于视频查询文本和用户数据使用关联人物确定模型确定一个或多个关联人物；基于多个本地视频文件使用本地视频处理模型确定多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和一个或多个出镜人物的出镜频率；基于一个或多个关联人物的人脸图像、一个或多个关联人物的出镜频率的排序结果、每一个本地视频文件的一个或多个出镜人物的人脸图像、一个或多个出镜人物的出镜频率，使用视频文件确定模型确定多个本地视频文件中的目标视频文件。该方法能够快速查找特定的视频文件，方便用户的使用。

Description

基于人工智能的文件查找方法、系统、设备和介质

技术领域

本发明涉及文件查找技术领域，具体涉及一种基于人工智能的文件查找方法、系统、设备和介质。

背景技术

随着移动终端的快速普及，用户会将拍摄的视频和聊天内容中的一些视频保存并存储在个人移动设备，随着时间推移，个人移动设备中的视频文件也越来越多，当用户想要查看某个视频文件时，需要从大量的视频文件中逐一手动观看查找，这将会耗费大量的时间。现有的查找视频文件的方法大多是用户提前对视频文件进行逐一命名，然后在查找时搜索视频文件名字，从而搜索到相应的视频文件。但该方法需要用户提前对每个视频文件进行手动命名，这需要浪费用户大量的时间，费时费力。这难以满足用户快速查找特定视频文件的需求，给用户的使用造成了不便。

发明内容

本发明主要解决的技术问题是如何快速查找特定的视频文件，方便用户的使用。

根据第一方面，本发明提供一种基于人工智能的文件查找方法，包括：获取用户输入的视频查询文本和用户数据；基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；获取多个本地视频文件；基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

更进一步地，所述本地视频处理模型为长短期神经网络模型，所述本地视频处理模型的输入为所述多个本地视频文件，所述本地视频处理模型的输出为所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率。

更进一步地，所述方法还包括：若所述关联人物确定模型未确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。

更进一步地，所述方法还包括：获取所述目标视频文件的语音信息，基于所述语音信息进行语音识别得到目标视频文件的语音文本，使用相关度确定模型确定所述视频查询文本和所述目标视频文件的语音文本的相关度，若所述相关度小于阈值，则提醒用户对所述目标视频文件进行人工确认并接收用户的确认结果，若所述相关度大于阈值，则自动打开并播放所述目标视频文件，其中所述相关度确定模型的输入为所述视频查询文本和所述目标视频文件的语音文本，所述相关度确定模型的输出为所述视频查询文本和所述目标视频文件的语音文本的相关度。

根据第二方面，本发明提供一种基于人工智能的文件查找系统，包括：第一获取模块，用于获取用户输入的视频查询文本和用户数据；关联人物确定模块，用于基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；第二获取模块，用于获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；第三获取模块，用于获取多个本地视频文件；出镜人物确定模块，用于基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；目标视频文件确定模块，用于基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

更进一步地，所述系统还包括提醒模块，所述提醒模块用于：若所述关联人物确定模型未确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。

更进一步地，所述系统还包括相关度确定模块，所述相关度确定模块用于：获取所述目标视频文件的语音信息，基于所述语音信息进行语音识别得到目标视频文件的语音文本，使用相关度确定模型确定所述视频查询文本和所述目标视频文件的语音文本的相关度，若所述相关度小于阈值，则提醒用户对所述目标视频文件进行人工确认并接收用户的确认结果，若所述相关度大于阈值，则自动打开并播放所述目标视频文件，其中所述相关度确定模型的输入为所述视频查询文本和所述目标视频文件的语音文本，所述相关度确定模型的输出为所述视频查询文本和所述目标视频文件的语音文本的相关度。

根据第三方面，本发明提供一种电子设备，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现上述的方法。

根据第四方面，本发明提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如上述方面中任一项所述的方法。

本发明提供的一种基于人工智能的文件查找方法、系统、设备和介质，该方法包括基于视频查询文本和用户数据使用关联人物确定模型确定一个或多个关联人物；基于多个本地视频文件使用本地视频处理模型确定多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和一个或多个出镜人物的出镜频率；基于一个或多个关联人物的人脸图像、一个或多个关联人物的出镜频率的排序结果、每一个本地视频文件的一个或多个出镜人物的人脸图像、一个或多个出镜人物的出镜频率，使用视频文件确定模型确定多个本地视频文件中的目标视频文件。该方法能够快速查找特定的视频文件，方便用户的使用。

附图说明

图1为本发明实施例提供的一种基于人工智能的文件查找方法的流程示意图；

图2为本发明实施例提供的一种基于人工智能的文件查找系统的示意图；

图3为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

本发明实施例中，提供了如图1所示的一种基于人工智能的文件查找方法，所述基于人工智能的文件查找方法包括步骤S1~S6：

步骤S1，获取用户输入的视频查询文本和用户数据。

视频查询文本表示用户输入的表达用户查询视频意愿的文本，例如视频查询文本为“我要查找今年我们全家去三亚出游的视频”，又例如视频查询文本为“我要查找我上周的舞蹈训练视频”，又例如视频查询文本为“我要查找我和朋友张三去爬山的视频”。

用户数据包括用户的个人信息、家庭信息、朋友信息。

个人信息包括用户的名字，用户人脸图像。家庭信息包括用户家庭成员名字、家庭成员关系、家庭成员人脸图像。朋友信息包括用户朋友名字、用户朋友之间的关系、朋友人脸图像。

步骤S2，基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物。

一个或多个关联人物表示所述视频查询文本中表达的想要查询的视频中会出现的人物。例如视频查询文本为“我要查找今年我们全家去三亚出游的视频”，则其中表达了想要查询的视频中会出现的人物为全家，而通过用户数据可知用户家里有四口人，为“爸爸、妈妈、我、弟弟”，则关联人物为“爸爸、妈妈、我、弟弟”。又例如，又例如视频查询文本为“我要查找我上周的舞蹈训练视频”，则其中表达了想要查询的视频中会出现的人物为“我”，则关联人物为“我”。又例如视频查询文本为“我要查找我和朋友张三去爬山的视频”，其中表达了想要查询的视频中会出现的人物为“我和张三”，则关联人物为“我和张三”。

关联人物确定模型为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数可以通过训练获得。深度神经网络可以包括循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络（Convolutional Neural Networks，CNN）、生成对抗网络(Generative Adversarial Networks，GAN)等等。所述关联人物确定模型的输入为所述视频查询文本和所述用户数据，所述关联人物确定模型的输出为一个或多个关联人物。

例如输入的视频查询文本为“我要查找今年我们全家去三亚出游的视频”，通过关联人物确定模型输出的一个或多个关联人物为“爸爸、妈妈、我、弟弟”。又例如视频查询文本为“我要查找我上周的舞蹈训练视频”，通过关联人物确定模型输出的一个或多个关联人物为“我”，又例如视频查询文本为“我要查找我和张三去爬山的视频”，通过关联人物确定模型输出的一个或多个关联人物为“我、张三”。

关联人物确定模型可以通过历史数据中的训练样本来训练得到。所述训练样本包括样本输入数据和所述样本输入数据对应的标签，所述样本输入数据为样本视频查询文本和样本用户数据，所述标签为一个或多个样本关联人物。所述训练样本的输出标签可以通过人为标注得到。例如，可以对用户输入的视频查询文本和用户数据进行手动标注，并标注出一个或多个样本关联人物。

在一些实施例中，若所述关联人物确定模型未确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。例如，用户输入的视频查询文本为“查找上个月的视频”，该视频查询文本范围太广且未有关联人物，关联人物确定模型不能确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。

步骤S3，获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像。

一个或多个关联人物的出镜频率表示一个或多个关联人物在用户想要查询的视频中出现的频率。例如，出镜频率可以为一个数值，数值越大，则表示出镜频率越高，例如，视频查询文本为“我要查找我上周的舞蹈训练视频”，“我”的出镜频率为0.9，又例如，视频查询文本为“我要查找我和张三去爬山的视频”，“我”的出镜频率为0.7，“张三”的出镜频率为0.5。

出镜频率的排序结果表示用户对一个或多个关联人物的出镜频率按照一定顺序进行排序的结果。例如，可以按照出镜频率从大到小的顺序进行排序，得到出镜频率的排序结果。又例如，也可以按照出镜频率从小到大的顺序进行排序，得到出镜频率的排序结果。

在一些实施例中，一个或多个关联人物的出镜频率的排序结果可以通过用户手动输入，由于用户在查询视频之前是清楚想要查询的视频中所包含的内容，所以用户知道想要查询的视频中的一个或多个关联人物的出镜频率，所以可以通过获取用户的手动输入的结果来获取一个或多个关联人物的出镜频率的排序结果。例如，输出的一个或多个关联人物为“爸爸、妈妈、我、弟弟”，用户可以对一个或多个关联人物的出镜频率进行手动排序得到出镜频率的排序结果，作为示例，排序结果按出镜频率从大到小可以为“我出镜频率＞爸爸出镜频率＞妈妈出镜频率＞弟弟出镜频率”。

在一些实施例中，一个或多个关联人物的出镜频率的排序结果可以通过使用排序模型进行判断得到。排序模型的输入为用户输入的视频查询文本和用户输入的视频查询文本的注释，排序模型的输出为一个或多个关联人物的出镜频率的排序结果。用户输入的视频查询文本的注释为用户输入视频查询文本后再额外输入的关于视频查询文本的解释。例如，视频查询文本为“我要查找我和张三去爬山的视频”，视频查询文本的注释为“爬山的视频中基本都是我的画面，张三出现的频率较低”，排序模型进行处理输出后得到的出镜频率按从大到小的排序结果为“我出镜频率＞张三出镜频率”。排序模型可以为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。

在一些实施例中，所述一个或多个关联人物的人脸图像可以通过从用户数据中获取得到。

步骤S4，获取多个本地视频文件。

多个本地视频文件为用户在用户保存在本地存储设备中的视频，多个本地视频文件包含了用户想要查找的视频文件。

视频文件的格式可以包括但不限于：高密度数字视频光盘(Digital Video Disc，DVD)、流媒体格式(Flash Video，FLV)、动态图像专家组(MPEG，Motion Picture ExpertsGroup)、音频视频交错(Audio Video Interleaved，AVI)、家用录像系统(Video HomeSystem，VHS)和视频容器文件格式(Real Media file format，RM)等中的一种或多种组合。

步骤S5，基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率。

本地视频处理模型为长短期神经网络模型，长短期神经网络模型为人工智能的一种实现方式。长短期神经网络模型包括长短期神经网络（LSTM，Long Short-Term Memory），长短期神经网络是RNN(Recurrent Neural Network，循环神经网络)中的一种。长短期神经网络模型能够处理任意长度的序列数据，捕捉序列的信息，输出基于序列中前后数据关联关系的结果。通过长短期神经网络模型处理连续时间段的本地视频文件，能够输出得到综合考虑了各个时间点的本地视频文件之间关联关系的特征，使得该输出的特征更加的准确和全面。

所述本地视频处理模型的输入为所述多个本地视频文件，所述本地视频处理模型的输出为所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率。例如，输入的本地视频文件为“我和父亲去北京游玩的视频”，输出为“我的人脸图像和父亲的人脸图像，我的出镜频率为0.8，父亲的出镜频率为0.5”。

本地视频文件的一个或多个出镜人物表示本地视频文件中视频内会显示的一个或多个人物。例如，本地视频文件为用户的自拍视频，则出镜人物为用户。

出镜人物的出镜频率表示本地视频文件中出镜人物在本地视频文件中出现的频率。出镜人物的出镜频率可以为一个0-1的数值，数值越大，则表示出镜人物的出镜频率越高。

本地视频处理模型可以通过历史数据中训练样本来训练得到。所述训练样本包括样本输入数据和所述样本输入数据对应的标签，所述样本输入数据为样本本地视频文件，所述标签为一个或多个样本出镜人物的人脸图像和一个或多个样本出镜人物的出镜频率。所述训练样本的输出标签可以通过人为标注得到。例如，用户可以对本地视频文件进行观看，并标注出一个或多个样本出镜人物的人脸图像和一个或多个样本出镜人物的出镜频率，最后将标注出的一个或多个样本出镜人物的人脸图像和一个或多个样本出镜人物的出镜频率作为标签。在一些实施例中，可以通过梯度下降法对初始的本地视频处理模型进行训练得到训练后的本地视频处理模型。具体的，根据训练样本，构建本地视频处理模型的损失函数，通过本地视频处理模型的损失函数调整长短期神经网络模型的参数，直到损失函数值收敛或者小于预设阈值，则训练完成。损失函数可以包括但不限于对数(log)损失函数、平方损失函数、指数损失函数、Hinge损失函数以及绝对值损失函数等。

步骤S6，基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

目标视频文件表示最终查找得到的视频文件。

视频文件确定模型为深度神经网络模型，深度神经网络模型包括深度神经网络（Deep Neural Networks，DNN）。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数可以通过训练获得。深度神经网络可以包括循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络（Convolutional Neural Networks，CNN）、生成对抗网络(Generative Adversarial Networks，GAN)等等。所述视频文件确定模型的输入为所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，所述视频文件确定模型的输出为所述多个本地视频文件中的目标视频文件。

视频文件确定模型可以将所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、与本地视频文件中的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率进行相似度对比，确定出最符合所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果的本地视频文件，并将该本地视频文件确定为目标视频文件。作为示例，输入的所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果为“我和父亲的人脸图像，排序结果按照从大到小的顺序为我出镜频率＞父亲出镜频率”，输入的多个本地视频文件包括本地视频文件1、2、3，本地视频文件1的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率分别为“我和母亲的人脸图像，我出镜频率0.5，父亲出镜频率0.3”，本地视频文件2的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率分别为“我和父亲的人脸图像，父亲出镜频率0.8、我出镜频率0.2”，本地视频文件3的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率分别为“我和父亲的人脸图像，我出镜频率0.6，父亲出镜频率0.3”，则通过视频文件确定模型最终输出的与所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果最匹配的目标视频文件为本地视频文件3。

在一些实施例中，当得到所述目标视频文件后，可以获取所述目标视频文件的语音信息，基于所述语音信息进行语音识别得到目标视频文件的语音文本，使用相关度确定模型确定所述视频查询文本和所述目标视频文件的语音文本的相关度，若所述相关度小于阈值，则提醒用户对所述目标视频文件进行人工确认并接收用户的确认结果，若所述相关度大于阈值，则自动打开并播放所述目标视频文件，其中所述相关度确定模型的输入为所述视频查询文本和所述目标视频文件的语音文本，所述相关度确定模型的输出为所述视频查询文本和所述目标视频文件的语音文本的相关度。

相关度可以为0-1之间的数值，数值越大，则相关度越高。

阈值可以提前手动设定或自动设定。

语音识别的算法可以包括基于隐马尔可夫模型(HMM)的语音识别算法、基于高斯混合模型(GMM)的语音识别算法、基于神经网络的语音识别算法等。

相关度确定模型可以为深度神经网络模型，相关度确定模型可以判断所述视频查询文本和所述目标视频文件的语音文本的相关度，从而判断出所述目标视频文件的结果是否正确，若相关度大于阈值，则自动打开目标视频文件，以减少用户操作，若相关度小于阈值，则提醒用户人工确认，并接收用户确认的结果。

基于同一发明构思，图2为本发明的实施例提供的一种基于人工智能的文件查找系统示意图，所述基于人工智能的文件查找系统包括：

第一获取模块21，用于获取用户输入的视频查询文本和用户数据；

关联人物确定模块22，用于基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；

第二获取模块23，用于获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；

第三获取模块24，用于获取多个本地视频文件；

出镜人物确定模块25，用于基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；

目标视频文件确定模块26，用于基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

基于同一发明构思，本发明的实施例提供了一种电子设备，如图3所示，包括：

处理器31；存储器32；以及计算机程序；其中，所述计算机程序存储在所述存储器32中，并配置为由所述处理器31执行以实现所述的基于人工智能的文件查找方法，所述方法包括：获取用户输入的视频查询文本和用户数据；基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；获取多个本地视频文件；基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

基于同一发明构思，本实施例提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器31执行时，使得电子设备能够执行实现如前述提供的基于人工智能的文件查找方法，所述方法包括: 获取用户输入的视频查询文本和用户数据；基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；获取多个本地视频文件；基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于人工智能的文件查找方法，其特征在于，包括：

获取用户输入的视频查询文本和用户数据；

基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物；

获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像，所述一个或多个关联人物的出镜频率的排序结果通过用户手动输入；

获取多个本地视频文件；

基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；

基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件，所述视频文件确定模型用于将所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、与本地视频文件中的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率进行相似度对比，确定出符合所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果的本地视频文件，并将所述符合所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果的本地视频文件确定为目标视频文件。

2.如权利要求1所述的基于人工智能的文件查找方法，其特征在于，所述本地视频处理模型为长短期神经网络模型，所述本地视频处理模型的输入为所述多个本地视频文件，所述本地视频处理模型的输出为所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率。

3.如权利要求1所述的基于人工智能的文件查找方法，其特征在于，所述方法还包括：若所述关联人物确定模型未确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。

4.如权利要求1所述的基于人工智能的文件查找方法，其特征在于，所述方法还包括：获取所述目标视频文件的语音信息，基于所述语音信息进行语音识别得到目标视频文件的语音文本，使用相关度确定模型确定所述视频查询文本和所述目标视频文件的语音文本的相关度，若所述相关度小于阈值，则提醒用户对所述目标视频文件进行人工确认并接收用户的确认结果，若所述相关度大于阈值，则自动打开并播放所述目标视频文件，其中所述相关度确定模型的输入为所述视频查询文本和所述目标视频文件的语音文本，所述相关度确定模型的输出为所述视频查询文本和所述目标视频文件的语音文本的相关度。

5.一种基于人工智能的文件查找系统，其特征在于，包括：

第一获取模块，用于获取用户输入的视频查询文本和用户数据；

关联人物确定模块，用于基于所述视频查询文本和所述用户数据使用关联人物确定模型确定一个或多个关联人物，所述一个或多个关联人物的出镜频率的排序结果通过用户手动输入；

第二获取模块，用于获取所述一个或多个关联人物的出镜频率的排序结果和所述一个或多个关联人物的人脸图像；

第三获取模块，用于获取多个本地视频文件；

出镜人物确定模块，用于基于所述多个本地视频文件使用本地视频处理模型确定所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率；

目标视频文件确定模块，用于基于所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、所述每一个本地视频文件的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率，使用视频文件确定模型确定所述多个本地视频文件中的目标视频文件，所述视频文件确定模型用于将所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果、与本地视频文件中的一个或多个出镜人物的人脸图像、所述一个或多个出镜人物的出镜频率进行相似度对比，确定出符合所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果的本地视频文件，并将所述符合所述一个或多个关联人物的人脸图像、所述一个或多个关联人物的出镜频率的排序结果的本地视频文件确定为目标视频文件。

6.如权利要求5所述的基于人工智能的文件查找系统，其特征在于，所述本地视频处理模型为长短期神经网络模型，所述本地视频处理模型的输入为所述多个本地视频文件，所述本地视频处理模型的输出为所述多个本地视频文件中的每一个本地视频文件的一个或多个出镜人物的人脸图像和所述一个或多个出镜人物的出镜频率。

7.如权利要求5所述的基于人工智能的文件查找系统，其特征在于，所述系统还包括提醒模块，所述提醒模块用于：若所述关联人物确定模型未确定出一个或多个关联人物，则提醒用户对所述视频查询文本进行关键词补充。

8.如权利要求5所述的基于人工智能的文件查找系统，其特征在于，所述系统还包括相关度确定模块，所述相关度确定模块用于：获取所述目标视频文件的语音信息，基于所述语音信息进行语音识别得到目标视频文件的语音文本，使用相关度确定模型确定所述视频查询文本和所述目标视频文件的语音文本的相关度，若所述相关度小于阈值，则提醒用户对所述目标视频文件进行人工确认并接收用户的确认结果，若所述相关度大于阈值，则自动打开并播放所述目标视频文件，其中所述相关度确定模型的输入为所述视频查询文本和所述目标视频文件的语音文本，所述相关度确定模型的输出为所述视频查询文本和所述目标视频文件的语音文本的相关度。

9.一种电子设备，其特征在于，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1至4任一项所述的基于人工智能的文件查找方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的基于人工智能的文件查找方法。