CN118331502A - 一种云资源管理方法、装置及电子设备 - Google Patents

一种云资源管理方法、装置及电子设备 Download PDF

Info

Publication number
CN118331502A
CN118331502A CN202410576537.6A CN202410576537A CN118331502A CN 118331502 A CN118331502 A CN 118331502A CN 202410576537 A CN202410576537 A CN 202410576537A CN 118331502 A CN118331502 A CN 118331502A
Authority
CN
China
Prior art keywords
file type
network resource
feature
classification
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410576537.6A
Other languages
English (en)
Inventor
杨政和
梁彧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lthpc Beijing Technology Co ltd
Original Assignee
Lthpc Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lthpc Beijing Technology Co ltd filed Critical Lthpc Beijing Technology Co ltd
Priority to CN202410576537.6A priority Critical patent/CN118331502A/zh
Publication of CN118331502A publication Critical patent/CN118331502A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种云资源管理方法、装置及电子设备,涉及数据处理领域。在该方法中,确定第一网络资源对应的第一文件类型和第二网络资源对应的第二文件类型;若第一文件类型和第二文件类型为同一文件类型,则根据多个预设分类标准对第一网络资源进行逐级分类,得到第一分类结果,并根据多个预设分类标准对第二网络资源进行逐级分类,得到第二分类结果;若第一分类结果和第二分类结果为同一分类结果,则从第一网络资源中提取出第一特征,并从第二网络资源中提取出第二特征;若确定第一特征与第二特征相同,则存储第一网络资源或第二网络资源中的一种网络资源。实施本申请的技术方案,通过识别出重复的网络资源,减少了重复网络资源的存储,节约了存储空间。

Description

一种云资源管理方法、装置及电子设备
技术领域
本申请涉及数据处理领域,具体涉及一种云资源管理方法、装置及电子设备。
背景技术
随着信息技术和网络基础设施的不断进步,云资源的应用已变得越来越普遍并日益成熟。云计算提供了弹性伸缩、按需服务和集中式管理等优势,极大地提升了企业运营的灵活性和效率。用户通过云服务可以获得必要的计算能力、存储空间和各种软硬件资源,支持从简单的数据存储到复杂的数据分析和机器学习任务。此外,云资源的应用也促进了远程工作、在线教育和数字医疗等新兴模式的快速发展,为各行各业提供了持续创新的动力。
目前,尽管云计算技术带来了许多便利,但在云资源管理方面仍存在一些问题。一大挑战是对于上传到云的网络资源,相关技术往往缺乏有效的重复数据识别和处理机制。这导致即使是内容相同的网络资源也会被重复存储,从而占用大量的存储空间,增加了存储成本。
因此,亟需一种云资源管理方法、装置及电子设备。
发明内容
本申请提供了一种云资源管理方法、装置及电子设备,通过识别出重复的网络资源,减少了重复网络资源的存储,节约了存储空间,降低了成本。
在本申请的第一方面提供了一种云资源管理方法,该方法包括:获取上传的第一网络资源和第二网络资源;确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型;判断所述第一文件类型和所述第二文件类型是否为同一文件类型;若所述第一文件类型和所述第二文件类型为同一文件类型,则根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,并根据多个所述预设分类标准对所述第二网络资源进行逐级分类,得到第二分类结果;若所述第一分类结果和所述第二分类结果为同一分类结果,则从所述第一网络资源中提取出第一特征,并从所述第二网络资源中提取出第二特征;判断所述第一特征与所述第二特征是否相同;若确定所述第一特征与所述第二特征相同,则存储所述第一网络资源或所述第二网络资源中的一种网络资源。
通过采用上述技术方案,通过对上传的网络资源进行分类和管理,能够更有效地组织和管理大量的网络资源,使其易于检索、浏览和利用。通过多个预设分类标准对网络资源进行逐级分类,实现了自动化的分类过程,减少了手动分类的工作量和错误率,提高了分类的准确性和效率。通过从网络资源中提取特征,并通过比较特征的相似度来判断资源是否相同,可以识别重复的资源或相似的资源,并进行合理的存储和管理。通过确定特征相同的资源,可以避免存储重复的网络资源,从而节省存储空间并提高存储效率。
可选的,所述确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型,具体包括:对所述第一网络资源进行提取,得到对应的第一文件扩展名,并对所述第二网络资源进行提取,得到对应的第二文件扩展名;在预设扩展名映射表中确定所述第一文件扩展名对应的第一文件类型和所述第二文件扩展名对应的第二文件类型,所述预设扩展名映射表中包括文件扩展名和文件类型的对应关系。
通过采用上述技术方案,通过对上传的网络资源进行扩展名提取和预设扩展名映射表匹配,实现了对网络资源对应的文件类型的自动识别。这种自动化的方式能够快速、准确地确定网络资源对应的文件类型。
可选的,所述根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,具体包括:通过多个分类方法对所述第一网络资源进行逐级分类,确定所述第一网络资源对应的第一分类结果,不同层级对应的分类方法依次为按照资源类型分类、按照主题分类、元数据分类以及用户标记分类。
通过采用上述技术方案,通过多个预设分类标准对第一网络资源进行逐级分类,能够实现对资源的精细化分类,使得资源可以根据不同的属性和特征进行更加详细和准确的分类。采用主题分类、元数据分类和用户标记分类等多个分类方法,能够从不同的视角对资源进行分类,考虑到了资源的内容、属性、特征和用户的标记等多个维度,提高了分类的全面性和多样性。
可选的,所述从所述第一网络资源中提取第一特征,具体包括:在预设特征提取数据库中,根据所述第一文件类型确定对应的特征提取算法;根据所述特征提取算法,对所述第一网络资源进行特征提取,得到所述第一特征。
通过采用上述技术方案,通过根据预设特征提取数据库中的特征提取算法对第一网络资源进行特征提取,能够确保所提取的第一特征与第一资源的实际内容和属性相匹配,提高了特征提取的准确性和可靠性。根据第一文件类型确定对应的特征提取算法,能够根据不同文件类型的网络资源采用适合的特征提取算法。
可选的,所述判断所述第一特征与所述第二特征是否相同,具体包括:采用余弦相似度算法计算所述第一特征和所述第二特征的相似度;判断所述相似度与预设相似度阈值的大小关系;若确定所述相似度大于所述预设相似度阈值,则确定所述第一特征和所述第二特征相同;若确定所述相似度小于或等于所述预设相似度阈值,则确定所述第一特征和所述第二特征不同。
通过采用上述技术方案,采用余弦相似度算法对第一特征和第二特征进行相似度比较,从而评估两个特征之间的相似程度,从而判断它们是否相同或相似。通过设定预设相似度阈值,可以根据实际需求调整判断相似度的标准,使得判断结果更符合具体应用场景的要求,提高了判断的灵活性和适应性。通过判断第一特征和第二特征的相似度,能够实现对网络资源的去重和重复资源的识别。
可选的,所述判断所述第一文件类型和所述第二文件类型是否为同一文件类型之后,所述方法还包括:若确定所述第一文件类型和所述第二文件类型不为同一文件类型,则在预设目录结构中,确定所述第一文件类型对应的第一目录,并确定所述第二文件类型对应的第二目录;将所述所述第一网络资源存储至所述第一目录,并将所述第二网络资源存储至所述第二目录。
通过采用上述技术方案,根据第一文件类型和第二文件类型的不同,将网络资源存储到相应的目录中,实现了对不同类型资源的分类存储,使得资源管理更加清晰和有序。
可选的,所述判断所述第一特征与所述第二特征是否相同之后,所述方法还包括:若确定所述第一特征和所述第二特征不同,则在所述预设目录结构中确定所述第一文件类型对应的第三目录,并将所述第一网络资源和所述第二网络资源存储至所述第三目录。
通过采用上述技术方案,当确定第一特征和第二特征不相同时,将两个特征不同但文件类型相同的网络资源存储到第三目录中,实现了对非重复资源的存储,提高了资源管理的效率和整洁度。
在本申请的第二方面提供了一种云资源管理装置,该装置包括:获取模块和处理模块;所述获取模块,用于获取上传的第一网络资源和第二网络资源;所述处理模块,用于确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型;所述处理模块,还用于判断所述第一文件类型和所述第二文件类型是否为同一文件类型;所述处理模块,还用于若所述第一文件类型和所述第二文件类型为同一文件类型,则根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,并根据多个所述预设分类标准对所述第二网络资源进行逐级分类,得到第二分类结果;所述处理模块,还用于若所述第一分类结果和所述第二分类结果为同一分类结果,则从所述第一网络资源中提取出第一特征,并从所述第二网络资源中提取出第二特征;所述处理模块,还用于判断所述第一特征与所述第二特征是否相同;所述处理模块,还用于若确定所述第一特征与所述第二特征相同,则存储所述第一网络资源或所述第二网络资源中的一种网络资源。
在本申请的第三方面提供了一种电子设备,包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于与其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上述任意一项所述的方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过对上传的网络资源进行分类和管理,能够更有效地组织和管理大量的网络资源,使其易于检索、浏览和利用。通过多个预设分类标准对网络资源进行逐级分类,实现了自动化的分类过程,减少了手动分类的工作量和错误率,提高了分类的准确性和效率。通过从网络资源中提取特征,并通过比较特征的相似度来判断资源是否相同,可以识别重复的资源或相似的资源,并进行合理的存储和管理。通过确定特征相同的资源,可以避免存储重复的网络资源,从而节省存储空间并提高存储效率。
2、通过对上传的网络资源进行扩展名提取和预设扩展名映射表匹配,实现了对网络资源对应的文件类型的自动识别。这种自动化的方式能够快速、准确地确定网络资源对应的文件类型。
3、通过多个预设分类标准对第一网络资源进行逐级分类,能够实现对资源的精细化分类,使得资源可以根据不同的属性和特征进行更加详细和准确的分类。采用主题分类、元数据分类和用户标记分类等多个分类方法,能够从不同的视角对资源进行分类,考虑到了资源的内容、属性、特征和用户的标记等多个维度,提高了分类的全面性和多样性。
附图说明
图1是本申请实施例公开的一种云资源管理方法的流程示意图;
图2是本申请实施例公开的一种云资源管理装置的模块示意图;
图3是本申请实施例公开的一种电子设备的结构示意图。
附图标记说明:201、获取模块;202、处理模块;300、电子设备;301、处理器;302、通信总线;303、用户接口;304、网络接口;305、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请提供了一种云资源管理方法,参照图1,图1是本申请实施例的提供的一种云资源管理方法的流程示意图。该方法应用于云服务器,包括步骤S101至步骤S107,上述步骤如下:
步骤S101:获取上传的第一网络资源和第二网络资源。
在步骤S101中,云服务器通过提供的网络接口,接收用户通过客户端上传的网络资源。用户可以通过Web浏览器、移动APP、桌面程序等多种方式上传文件。云服务器接收到用户的上传请求后,获取用户需要保存的网络资源,作为举例,第一网络资源和第二网络资源为上传的网络资源中的任意两种网络资源,第一网络资源和第二网络资源可以来自于同一用户,也可以来自于不同用户。
步骤S102:确定第一网络资源对应的第一文件类型和第二网络资源对应的第二文件类型。
在步骤S102中,对第一网络资源进行提取,得到对应的第一文件扩展名,并对第二网络资源进行提取,得到对应的第二文件扩展名;在预设扩展名映射表中确定第一文件扩展名对应的第一文件类型和第二文件扩展名对应的第二文件类型,预设扩展名映射表中包括文件扩展名和文件类型的对应关系。
具体地,云服务器对第一网络资源进行提取,获取其文件名。文件名通常由文件的基本名称和扩展名两部分组成,二者之间由点号“.”分隔。比如,“report.doc”就是一个包含扩展名的完整文件名。云服务器可以通过字符串处理函数,如split()或substring(),将文件名拆分开,提取出最后一个点号之后的内容作为扩展名。云服务器根据获得的第一网络资源的第一扩展名来确定对应的第一文件类型。云服务器内预先维护了预设扩展名映射表。预设扩展名映射表中包括文件扩展名和文件类型的对应关系。比如,“jpg”、“jpeg”、“png”、“gif”等扩展名对应“图像”类型;“doc”、“docx”、“pdf”、“txt”等扩展名对应“文档”类型;“mp3”、“wav”、“aac”等扩展名对应“音频”类型。云服务器根据该对应关系,确定第一网络资源对应的第一文件类型和第二网络资源对应的第二文件类型。
步骤S103:判断第一文件类型和第二文件类型是否为同一文件类型。
在步骤S103中,云服务器将第一网络资源和第二网络资源识别出的文件类型进行比对,判断它们是否属于同一文件类型。比如,第一网络资源是“.doc”文件,第二网络资源是“.ppt”文件,虽然第一网络资源和第二网络资源的具体格式不同,但根据预设扩展名映射表,第一网络资源和第二网络资源都属于文档类,那么就将第一网络资源和第二网络资源视为同一文件类型。
在步骤S103之后,该方法还包括:判断第一文件类型和第二文件类型是否为同一文件类型之后,方法还包括:若确定第一文件类型和第二文件类型不为同一文件类型,则在预设目录结构中,确定第一文件类型对应的第一目录,并确定第二文件类型对应的第二目录;将第一网络资源存储至第一目录,并将第二网络资源存储至第二目录。
具体地,云服务器内维护了一个预设目录结构,用于组织不同类型的文件。这个目录结构通常采用树形的层级设计,顶层是根目录,下面分别设置了不同文件类型对应的子目录。比如,可以在根目录下创建“图像”、“文档”、“音频”、“视频”等一级子目录,每个子目录下面还可以根据需要设置更细分的二级、三级子目录。当云服务器判定第一网络资源的文件类型为“图像”,第二网络资源的文件类型为“文档”时,就需要在预设目录结构中找出对应的存储路径。对于第一网络资源,云服务器首先查找“图像”一级子目录,然后根据具体的图片格式(如JPG、PNG等),选择对应的二级子目录。假设第一网络资源的扩展名为“jpg”,则其存储路径应为“/图像/JPG/”。同理,对于第二网络资源,云服务器首先查找“文档”一级子目录,然后根据具体的文档格式(如Word、PDF等),选择对应的二级子目录。假设第二网络资源的扩展名为“pdf”,则其存储路径应为“/文档/PDF/”。在确定了存储路径之后,云服务器将第一网络资源和第二网络资源分别写入对应的目录。
步骤S104:若第一文件类型和第二文件类型为同一文件类型,则根据多个预设分类标准对第一网络资源进行逐级分类,得到第一分类结果,并根据多个预设分类标准对第二网络资源进行逐级分类,得到第二分类结果。
在步骤S104中,根据多个预设分类标准对第一网络资源进行逐级分类,得到第一分类结果,具体包括:通过多个分类方法对第一网络资源进行逐级分类,确定第一网络资源对应的第一分类结果,不同层级对应的分类方法依次为按照主题分类、元数据分类以及用户标记分类。
具体地,云服务器根据预设分类标准,对第一网络资源进行主题分类。不同类型的网络资源虽然形式多样,但都可以根据内容主题进行归类。比如,一份有关“互联网+”的文档、一张5G基站的图片、一段人工智能的音频讲座、一个云计算的宣传视频,虽然形式各异,但都可以归入“信息技术”这个主题类别。云服务器首先对第一网络资源进行内容提取和格式转换,得到统一的文本表示形式。若第一网络资源的第一文件类型为文本,则云服务器提取正文内容,过滤掉文档中的格式标签、页眉页脚、水印等噪声信息,只保留正文内容,同时,云服务器将不同编码格式的文本统一转换为UTF-8编码。若第一网络资源的第一文件类型为图像,则云服务器采用基于深度学习的OCR模型提取图像中的文字信息。根据图像场景和版式,识别并提取图像中的标题、说明文字等关键信息。若第一网络资源的第一文件类型为音频,则云服务器按照语义完整性和停顿时间,将音频切分为若干语音片段。采用基于声学和语言模型的语音识别引擎(如Kaldi、DeepSpeech等),将语音片段转写为文本信息。若第一网络资源的第一文件类型为视频,则云服务器识别视频中的字幕区域,并将其转换为文本信息,并对视频中的音频部分进行语音识别,得到语音文本;服务器对第一网络资源进行提取,得到对应的文本信息,并根据预设主题识别模型对文本信息进行训练,得到对应的主题。预设主体识别模型的构建步骤如下:
云服务器需要为每个主题类别准备大量的训练数据。训练数据是指已经标注了主题类别的文本数据,它们将作为机器学习模型的学习样本。云服务器通过多种渠道来收集和整理训练数据,如:利用已有的主题标注数据库,如新闻主题分类语料库、学术论文主题标注语料库等。云服务器对收集到的训练数据进行去重、清洗、格式化等预处理。同时,云服务器会将训练数据按照主题类别进行划分,确保每个类别下都有足够的样本。在进行模型训练之前,云服务器还需要对训练数据进行特征工程处理。特征工程是指从原始文本数据中提取出能够刻画文本语义特点的数字化特征,以便机器学习模型能够进行学习和分类判断。
对于文本信息,特征工程方法包括:分词、去停用词、词频统计、TF-IDF权重以及词向量,将每个词语映射到一个固定维度的语义向量,词语间的语义相似度可以用向量间的距离来表示;特征工程的结果是将每篇训练文本都转化为一个固定维度的数值向量,向量的每个维度代表了一个语义特征。在完成特征工程后,训练数据就可以输入到机器学习模型中进行训练了。云服务器会采用多种文本分类模型,如:深度学习:利用卷积神经网络(CNN)、循环神经网络(RNN)等深度学习模型,自动学习文本信息的层次化语义特征。在模型训练过程中,云服务器会采用交叉验证,将训练数据划分为训练集和验证集,利用验证集上的分类准确率来评估和优化模型。通过不断的对模型进行训练,云服务器最终会得到一个预设主题识别模型。
接下来,云服务器对第一网络资源进行元数据分类。元数据是对资源形式特征的描述,不同类型资源的元数据各不相同。以文档为例,它的元数据包括作者、创作日期、页数等;图像的元数据包括拍摄设备、分辨率、色彩模式等;音频的元数据包括时长、采样率、编码格式等;视频的元数据包括帧率、比特率、编解码方式等。云服务器可以抽取资源的这些元数据特征,然后按照一定的标准进行分类。比如按创作时间分为今年、近三年和三年以上;按作者身份分为内部员工和外部作者;按采样率分为低码率和高码率等。
最后,云服务器还可以结合用户标记对资源进行分类。相比主题分类和元数据分类,用户标记(如标签、评论等)代表了用户对资源更主观的理解和评价,对资源的内容和特征进行了高度概括。云服务器可以对资源的用户标记进行自然语言处理,提取关键词,进而判断资源的内容倾向。比如,一张图片如果被反复打上“震撼”、“悲伤”等标签,可能反映出它的情感色彩;一段音频如果评论中频繁出现“广告”、“植入”等词语,则它可能含有软性广告内容。云服务器通过分析海量用户标记数据,去粗取精,实现对网络资源的分类。
服务器经过主题分类、元数据分类、用户标记分类这三个层级的逐步分类,云服务器最终确定了第一网络资源的第一分类结果;第二网络资源的处理过程与第一网络资源的处理过程一致。这种先主题分类、再元数据划分、后用户标记细分的分类方法,既聚合了同类资源,又区分了异质特征,体现出计算机自动分类的细致和全面。最终形成的第一分类结果,对于视频可能是“人工智能-长视频-入门教程”,对于文章可能是“人工智能-长文-专家文章”。
步骤S105:若第一分类结果和第二分类结果为同一分类结果,则从第一网络资源中提取出第一特征,并从第二网络资源中提取出第二特征。
在步骤S105中,从第一网络资源中提取第一特征,具体包括:在预设特征提取数据库中,根据第一文件类型确定对应的特征提取算法;根据特征提取算法,对第一网络资源进行特征提取,得到第一特征。
具体地,云服务器内由用户预先构建了一个预设特征提取算法库,涵盖了针对不同文件类型(如文本、图像、音频、视频等)的多种特征提取算法。比如,对于文本类型,对应的特征提取算法有:TF-IDF(词频-逆文档频率)、Word2Vec(词嵌入)、TextRank(基于图的关键词提取)。这些算法从不同角度刻画了文本的语义特征。对于图像类型,对应的特征提取算法包括:SIFT(尺度不变特征变换)、SURF(加速稳健特征)、ORB(定向FAST和旋转BRIEF)。对于音频类型,对应的特征提取算法有:MFCC(梅尔频率倒谱系数)、Chroma(色度频率)、MelSpectrogram(梅尔频谱图)。对于视频类型,由于其包含图像和音频两种模态,因此可以综合运用图像和音频的特征提取算法,此外还可以利用运动向量、关键帧等视频独有的特征。云服务器将这些特征提取算法整理、封装,形成了一个面向不同文件类型的预设特征提取算法库,预设特征提取算法库中包括文件类型和特征提取算法之间的对应关系。云服务器将第一网络资源的文件类型与预设特征提取数据库中的数据项进行匹配,得到适用于该文件类型的一个或多个特征提取算法。比如,如果第一网络资源是一张图片(jpg格式),则云服务器会匹配出适用于文件类型为图像的特征提取算法,如SIFT,并提取出图像的关键点,如图像的角点和边缘点;比如第一网络资源为视频,云服务器会对视频逐帧进行关键帧提取,关键帧是视频内容的重要节点,包括视频的主要场景变化,云服务器提取出视频内容关键变化点的帧作为关键帧。比如第一网络资源为音频,服务器会匹配预设特征提取数据库中的MFCC算法,针对音频的重复片段,如前奏、间奏等进行提取;同时,云服务器也会关注视频、音频中的人为标注部分,比如用户对于视频的标题、描述;音频的署名、节目名称等。云服务器会匹配出这些人为标注部分,并转化为对应的文本特征。
云服务器若确定第一分类结果和第二分类结果为同一分类结果,则采用上述步骤从第一网络资源中提取出第一特征,并从第二网络资源中提取出第二特征。
步骤S106:判断第一特征与第二特征是否相同。
在步骤S106中,判断第一特征与第二特征是否相同,具体包括:采用余弦相似度算法计算第一特征和第二特征的相似度;判断相似度与预设相似度阈值的大小关系;若确定相似度大于预设相似度阈值,则确定第一特征和第二特征相同;若确定相似度小于或等于预设相似度阈值,则确定第一特征和第二特征不同。
具体地,云服务器采用余弦相似度算法来计算第一特征和第二特征的相似度。假设第一特征对应的向量为A,第二特征对应的向量为B,两个向量的维度都为n,则它们的余弦相似度计算公式为:cos(A,B)=(A·B)/(|A|*|B|);其中,A·B表示向量A和向量B的内积,|A|和|B|分别表示向量A和向量B的欧几里得范数(即向量的长度)。余弦相似度的取值范围为[-1,1],取值为1时表示两个向量完全相同,取值为-1时表示两个向量完全相反,取值为0时表示两个向量正交(无相关性)。云服务器将第一特征向量和第二特征向量输入到余弦相似度算法中,通过上述公式计算出它们的相似度。得到相似度后,云服务器将其与预设相似度阈值进行比较,以做出相似与否的判断。预设相似度阈值是一个介于-1和1之间的实数,表示认定两个特征相似所需要达到的最低相似度。预设相似度阈值可以根据具体应用场景和需求灵活设定。若计算出的相似度大于预设相似度阈值,则云服务器确定第一特征和第二特征是相同的,即对应的两个网络资源在语义内容上是相近的。反之,若计算出的相似度小于或等于预设相似度阈值,则云服务器认为第一特征和第二特征是不相同的,即对应的两个网络资源在语义内容上存在较大差异。
需要注意的是,对于不同类型的网络资源,特征相似度的计算方式和阈值设定可能有所不同。对于文本类资源,云服务器将TF-IDF关键词特征等表示为高维稀疏向量,然后利用余弦相似度公式计算它们的相似程度。对于图像类资源,云服务器通常将SIFT、ORB等局部特征转化为视觉词袋(BoVW)向量,将CNN特征表示为高维语义向量,然后采用余弦相似度计算它们的相似程度。对于音频类资源,云服务器通常将MFCC等声学特征表示为时间序列矩阵,然后采用DTW(动态时间规整)算法计算两个矩阵之间的距离,将距离值映射到0-1的相似度。对于视频类资源,云服务器综合利用多模态特征进行相似度计算。针对视频的关键帧图像,可以采用与图像特征相似的计算方式;针对视频的音频轨道,可以采用与音频特征相似的计算方式;针对视频的文本信息,可以采用与文本特征相似的计算方式。在得到各模态特征的相似度后,云服务器通过加权平均的方式得到视频整体的相似度。
在步骤S106之后,该方法还包括:若确定第一特征和第二特征不同,则在预设目录结构中确定第一文件类型对应的第三目录,并将第一网络资源和第二网络资源存储至第三目录。
云服务器首先根据第一网络资源的文件类型,在预设目录结构中查找与之对应的第三目录。在预设目录结构中,每一个节点代表一个目录,不同层级和分支的目录对应不同的文件类型和子类型。例如,顶层目录可能按照文本、图像、音频、视频等大类划分,当确定第一网络资源属于某个文件类型时(如“DOC文档”),云服务器就会查询预设目录结构,找到与该文件类型对应的目录路径(如“/文本/”),将其作为第三目录。确定了第三目录后,云服务器将第一网络资源和第二网络资源一并存储到该目录下。通过这种方式,尽管第一网络资源和第二网络资源的特征不同,但由于它们属于相同的文件类型,因此被存储到了同一个目录中。
步骤S107:若确定第一特征与第二特征相同,则存储第一网络资源或第二网络资源中的一种网络资源。
在步骤S107中,当云服务器判定第一特征和第二特征相同时,意味着第一网络资源和第二网络资源在内容上是高度相似的,它们可能是同一原始资源的不同版本,或者是不同来源对同一事件的报道。为了节省存储空间,提高信息的精简度,云服务器会在两个相似网络资源中选择一个进行存储,而剔除另一个。这个过程称为“去重”或“排重”。尽管云服务器最终只存储了一个网络资源,但它并没有完全丢弃另一个资源的信息。在存储选定资源的同时,云服务器会在云端的元数据库中记录下两个网络资源的相似关系,以及被剔除资源的关键属性(如URL、标题、摘要等)。这样,即使未被直接保存的网络资源也能通过元数据被间接地检索和追溯。
参照图2,本申请还提供了一种云资源管理装置,该装置为云服务器,云服务器包括获取模块201和处理模块202;获取模块201,用于获取上传的第一网络资源和第二网络资源;处理模块202,用于确定第一网络资源对应的第一文件类型和第二网络资源对应的第二文件类型;处理模块202,还用于判断第一文件类型和第二文件类型是否为同一文件类型;处理模块202,还用于若第一文件类型和第二文件类型为同一文件类型,则根据多个预设分类标准对第一网络资源进行逐级分类,得到第一分类结果,并根据多个预设分类标准对第二网络资源进行逐级分类,得到第二分类结果;处理模块202,还用于若第一分类结果和第二分类结果为同一分类结果,则从第一网络资源中提取出第一特征,并从第二网络资源中提取出第二特征;处理模块202,还用于判断第一特征与第二特征是否相同;处理模块202,还用于若确定第一特征与第二特征相同,则存储第一网络资源或第二网络资源中的一种网络资源。
在一种可能的实施方式中,处理模块202确定第一网络资源对应的第一文件类型和第二网络资源对应的第二文件类型,具体包括:处理模块202对第一网络资源进行提取,得到对应的第一文件扩展名,并对第二网络资源进行提取,得到对应的第二文件扩展名;处理模块202在预设扩展名映射表中确定第一文件扩展名对应的第一文件类型和第二文件扩展名对应的第二文件类型,预设扩展名映射表中包括文件扩展名和文件类型的对应关系。
在一种可能的实施方式中,处理模块202根据多个预设分类标准对第一网络资源进行逐级分类,得到第一分类结果,具体包括:处理模块202通过多个分类方法对第一网络资源进行逐级分类,确定第一网络资源对应的第一分类结果,不同层级对应的分类方法依次为按照主题分类、元数据分类以及用户标记分类。
在一种可能的实施方式中,处理模块202从第一网络资源中提取第一特征,具体包括:处理模块202在预设特征提取数据库中,根据第一文件类型确定对应的特征提取算法;处理模块202根据特征提取算法,对第一网络资源进行特征提取,得到第一特征。
在一种可能的实施方式中,处理模块202判断第一特征与第二特征是否相同,具体包括:处理模块202采用余弦相似度算法计算第一特征和第二特征的相似度;处理模块202判断相似度与预设相似度阈值的大小关系;若确定相似度大于预设相似度阈值,则处理模块202确定第一特征和第二特征相同;若确定相似度小于或等于预设相似度阈值,则处理模块202确定第一特征和第二特征不同。
在一种可能的实施方式中,处理模块202判断第一文件类型和第二文件类型是否为同一文件类型之后,方法还包括:若确定第一文件类型和第二文件类型不为同一文件类型,则在预设目录结构中,处理模块202确定第一文件类型对应的第一目录,并确定第二文件类型对应的第二目录;处理模块202将第一网络资源存储至第一目录,并将第二网络资源存储至第二目录。
在一种可能的实施方式中,处理模块202判断第一特征与第二特征是否相同之后,方法还包括:若确定第一特征和第二特征不同,则处理模块202在预设目录结构中确定第一文件类型对应的第三目录,并将第一网络资源和第二网络资源存储至第三目录。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还提供一种电子设备。参照图3,图3是本申请实施例的提供的一种电子设备的结构示意图。该电子设备300可以包括:至少一个处理器301,至少一个网络接口304,用户接口303,存储器305,至少一个通信总线302。
其中,通信总线302用于实现这些组件之间的连接通信。
其中,用户接口303可以包括显示屏(Display)、摄像头(Camera),可选用户接口303还可以包括标准的有线接口、无线接口。
其中,网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器305内的指令、程序、代码集或指令集,以及调用存储在存储器305内的数据,执行服务器的各种功能和处理数据。可选的,处理器301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器301可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器301中,单独通过一块芯片进行实现。
其中,存储器305可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。参照图3,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及一种云资源管理方法的应用程序。
在图3所示的电子设备300中,用户接口303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器301可以用于调用存储器305中存储一种云资源管理方法的应用程序,当由一个或多个处理器301执行时,使得电子设备300执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有指令。当由一个或多个处理器301执行时,使得电子设备300执行如上述实施例中一个或多个所述的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (10)

1.一种云资源管理方法,其特征在于,所述方法包括:
获取上传的第一网络资源和第二网络资源;
确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型;
判断所述第一文件类型和所述第二文件类型是否为同一文件类型;
若所述第一文件类型和所述第二文件类型为同一文件类型,则根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,并根据多个所述预设分类标准对所述第二网络资源进行逐级分类,得到第二分类结果;
若所述第一分类结果和所述第二分类结果为同一分类结果,则从所述第一网络资源中提取出第一特征,并从所述第二网络资源中提取出第二特征;
判断所述第一特征与所述第二特征是否相同;
若确定所述第一特征与所述第二特征相同,则存储所述第一网络资源或所述第二网络资源中的一种网络资源。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型,具体包括:
对所述第一网络资源进行提取,得到对应的第一文件扩展名,并对所述第二网络资源进行提取,得到对应的第二文件扩展名;
在预设扩展名映射表中确定所述第一文件扩展名对应的第一文件类型和所述第二文件扩展名对应的第二文件类型,所述预设扩展名映射表中包括文件扩展名和文件类型的对应关系。
3.根据权利要求1所述的方法,其特征在于,所述根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,具体包括:
通过多个分类方法对所述第一网络资源进行逐级分类,确定所述第一网络资源对应的第一分类结果,不同层级对应的分类方法依次为按照主题分类、元数据分类以及用户标记分类。
4.根据权利要求1所述的方法,其特征在于,所述从所述第一网络资源中提取第一特征,具体包括:
在预设特征提取数据库中,根据所述第一文件类型确定对应的特征提取算法,所述预设特征提取数据库中包括文件类型与特征提取算法的对应关系;
根据所述特征提取算法,对所述第一网络资源进行特征提取,得到所述第一特征。
5.根据权利要求1所述的方法,其特征在于,所述判断所述第一特征与所述第二特征是否相同,具体包括:
采用余弦相似度算法计算所述第一特征和所述第二特征的相似度;
判断所述相似度与预设相似度阈值的大小关系;
若确定所述相似度大于所述预设相似度阈值,则确定所述第一特征和所述第二特征相同;
若确定所述相似度小于或等于所述预设相似度阈值,则确定所述第一特征和所述第二特征不同。
6.根据权利要求1所述的方法,其特征在于,所述判断所述第一文件类型和所述第二文件类型是否为同一文件类型之后,所述方法还包括:
若确定所述第一文件类型和所述第二文件类型不为同一文件类型,则在预设目录结构中,确定所述第一文件类型对应的第一目录,并确定所述第二文件类型对应的第二目录;
将所述所述第一网络资源存储至所述第一目录,并将所述第二网络资源存储至所述第二目录。
7.根据权利要求6所述的方法,其特征在于,所述判断所述第一特征与所述第二特征是否相同之后,所述方法还包括:
若确定所述第一特征和所述第二特征不同,则在所述预设目录结构中确定所述第一文件类型对应的第三目录,并将所述第一网络资源和所述第二网络资源存储至所述第三目录。
8.一种云资源管理装置,其特征在于,所述装置包括获取模块(201)和处理模块(202),其中:
所述获取模块(201),用于获取上传的第一网络资源和第二网络资源;
所述处理模块(202),用于确定所述第一网络资源对应的第一文件类型和所述第二网络资源对应的第二文件类型;
所述处理模块(202),还用于判断所述第一文件类型和所述第二文件类型是否为同一文件类型;
所述处理模块(202),还用于若所述第一文件类型和所述第二文件类型为同一文件类型,则根据多个预设分类标准对所述第一网络资源进行逐级分类,得到第一分类结果,并根据多个所述预设分类标准对所述第二网络资源进行逐级分类,得到第二分类结果;
所述处理模块(202),还用于若所述第一分类结果和所述第二分类结果为同一分类结果,则从所述第一网络资源中提取出第一特征,并从所述第二网络资源中提取出第二特征;
所述处理模块(202),还用于判断所述第一特征与所述第二特征是否相同;
所述处理模块(202),还用于若确定所述第一特征与所述第二特征相同,则存储所述第一网络资源或所述第二网络资源中的一种网络资源。
9.一种电子设备,其特征在于,包括处理器(301)、存储器(305)、用户接口(303)及网络接口(304),所述存储器(305)用于存储指令,所述用户接口(303)和网络接口(304)用于给其他设备通信,所述处理器(301)用于执行所述存储器(305)中存储的指令,以使所述电子设备(300)执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法。
CN202410576537.6A 2024-05-10 2024-05-10 一种云资源管理方法、装置及电子设备 Pending CN118331502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410576537.6A CN118331502A (zh) 2024-05-10 2024-05-10 一种云资源管理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410576537.6A CN118331502A (zh) 2024-05-10 2024-05-10 一种云资源管理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN118331502A true CN118331502A (zh) 2024-07-12

Family

ID=91769143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410576537.6A Pending CN118331502A (zh) 2024-05-10 2024-05-10 一种云资源管理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN118331502A (zh)

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
US9589208B2 (en) Retrieval of similar images to a query image
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
JP2013541793A (ja) マルチモード検索クエリー入力手法
JP4699954B2 (ja) マルチメディアデータ管理方法とその装置
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
US11437038B2 (en) Recognition and restructuring of previously presented materials
TWI793432B (zh) 工程專案文件管理方法與系統
Rogushina et al. Use of ontologies for metadata records analysis in big data
JP6152032B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
CN107423294A (zh) 一种社群图像检索方法及系统
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
Shrivastav et al. Towards an ontology based framework for searching multimedia contents on the web
CN118331502A (zh) 一种云资源管理方法、装置及电子设备
TWI656448B (zh) 主題提供裝置及其雲儲存檔案提示方法
JP4755122B2 (ja) 画像辞書生成方法及び装置及びプログラム
Li et al. Research on hot news discovery model based on user interest and topic discovery
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination