CN107169075A - 基于特征分析的数据存取方法、存储设备及存储系统 - Google Patents
基于特征分析的数据存取方法、存储设备及存储系统 Download PDFInfo
- Publication number
- CN107169075A CN107169075A CN201710323317.2A CN201710323317A CN107169075A CN 107169075 A CN107169075 A CN 107169075A CN 201710323317 A CN201710323317 A CN 201710323317A CN 107169075 A CN107169075 A CN 107169075A
- Authority
- CN
- China
- Prior art keywords
- file
- characteristic value
- storage
- stored
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4221—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0026—PCI express
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0028—Serial attached SCSI [SAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0032—Serial ATA [SATA]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于特征分析的数据存取方法、存储设备及存储系统,其中所述方法包括:对待存储文件进行文件特征分析,获取待存储文件的文件特征值;存储设备根据待存储文件的文件特征值生成文件特征值记录,并将文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表;当存储设备接收到存储服务器的数据管理命令时,生成与数据管理命令对应的条件文件特征值;条件文件特征值用于表征数据管理命令所对应的查询条件;存储设备根据条件文件特征值与预设映射表中的文件特征值记录进行匹配,获取所需的目标文件的文件名或目标文件的物理地址。本发明可以有效地减轻存储服务的负荷,不会使数据存储服务器因为负荷过大造成性能下降。
Description
技术领域
本发明涉及计算机领域,特别是涉及基于特征分析的数据存取方法、存储设备及存储系统。
背景技术
随着互联网的普及,以及涉及各个领域的物联网和大数据运算等科技技术的快速发展,数据的产生也在呈爆发式的增长;从而使得现有技术中存储系统的性能和效率越来越无法满足当前的需求。
具体来说,当前的存储系统需要处理数据的数据量越来越大,而且,对于数据处理的效率要求也越来高。现有技术中,存储系统可以通过在一个特定的存储服务器中设有的控制装置,来对整个存储系统的存储设备进行数据的存取和管理的控制。
发明人经过研究发现,现有技术中,至少还存在以下缺陷:
随着数据量的不断增长,存储系统的性能和效率会不断地下降。
发明内容
本发明所要解决的技术问题是提高存储系统的性能和效率,具体的:
本发明实施例提供了一种基于特征分析的数据存取方法,包括步骤:
S11、存储设备在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
S12、存储设备根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与所述待存储文件的对应关系存储至预设映射表;
S13、当存储设备接收到所述存储服务器的数据管理命令时,生成与所述数据管理命令对应的条件文件特征值;所述条件文件特征值用于表征数据管理命令所对应的查询条件;
S14、所述存储设备根据条件文件特征值与所述预设映射表中的文件特征值记录进行匹配,获取所需的目标文件。
优选的,在本发明实施例中,所述属性特性包括:
所述存储文件的获取时间、地点和文件类型。
优选的,在本发明实施例中,所述属性特性集包括:
当所述存储文件为包括人物的图像文件时,所述属性特性包括:人物的年龄、性别和容貌体态特点;当所述存储文件为包括车辆的图像文件时,所述属性特性包括:车辆的品牌和车牌号码。
优选的,在本发明实施例中,
所述根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表,包括:
根据所述待存储文件的文件特征值生成对应的哈希值;
建立所述待存储文件的文件名与所述哈希值的位映射表。
在本发明实施例的另一面,还提供了一种基于特征分析的存储设备,包括数据接口、处理器、功能单元和用于存储文件的存储介质;
所述数据接口包括用于与存储服务器数据交互的主机接口;
所述功能单元包括:
特征解析模块,用于在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
关联模块,用于根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表;
命令解析模块,用于当存储设备接收到所述存储服务器的数据管理命令时,生成与所述数据管理命令对应的条件文件特征值;所述条件文件特征值用于表征数据管理命令所对应的查询条件;
匹配模块,用于根据条件文件特征值与所述预设映射表中的文件特征值记录进行匹配,获取所需的目标文件;
所述处理器用于为所述功能单元中的各模块提供数据处理能力。
优选的,在本发明实施例中,所述存储介质包括闪存类存储单元。
优选的,在本发明实施例中,所述数据接口还包括:
同级接口,用于实现与存储系统中相邻存储设备的存储介质的数据通信连接。
优选的,在本发明实施例中,所述主机接口包括PCIe接口、SAS接口、SATA接口、RAPID-IO接口和NVMe接口中的一种或任意组合;
所述同级接口包括Ethernet接口、FC接口、iSCSI接口和SAN接口中的一种或任意组合。
在本发明实施例的另一面,还提供了一种基于特征分析的存储系统,包括存储服务器和存储设备;
所述存储设备包括数据接口、处理器、功能单元和用于存储文件的存储介质;
所述数据接口包括用于与存储服务器数据交互的主机接口;
所述功能单元包括:
特征解析模块,用于在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
关联模块,用于根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表;
命令解析模块,用于当存储设备接收到所述存储服务器的数据管理命令时,生成与所述数据管理命令对应的条件文件特征值;所述条件文件特征值用于表征数据管理命令所对应的查询条件;
匹配模块,用于根据条件文件特征值与所述预设映射表中的文件特征值记录进行匹配,获取所需的目标文件;
所述处理器用于为所述功能单元中的各模块提供数据处理能力。
优选的,在本发明实施例中,所述存储设备包括有两个以上。
本发明实施中的存储系统为分布处理式结构,即,存储服务器端和存储设备端均具有数据处理的功能;在存储文件时,首先将待存储的文件预先进行特征的提取,获取对应的文件特征值;接着,将文件的文件名与文件特征值进行关联,并将该关联关系记录至预设的映射表,然后再将文件进行存储;这样,当进行文件的调用和查找时,存储设备根据存储服务器的数据管理指令,可以获取或生成相应的条件文件特征值,接着,可以获得可以以条件文件特征值为匹配参数,通过预设的映射表在存储介质中检索对应目标文件的文件名或是目标文件在存储设备的物理地址,然后再将目标文件上传至存储服务器。
现有技术中,与本申请较为接近的基于数据内容的存储技术(ContentAddressable Storage,CAS)中,一般的做法是,计算生成每个数据存取单元的内容(如一个文件或是一个数据块)的指纹,并依据该指纹来进行文件或数据的匹配与查找。上述现有技术中,虽然能够有效地在海量数据中查找与文件或数据块内容完全匹配的数据,但是很难实现对于含有某一特性的所有文件或数据进行分类的查找和检索。而通过本发明实施例,可以检索出存储设备中所有符合条件文件特征值的文件,从而提高了数据的检索效率。这样,通过本发明实施例,通过对存储文件的文件特征值提取和匹配过程,可以提高文件的检索查找效率,方便和精确的获取所需的文件,从而提高文件检索效率;
另一方面,由于本发明实施例可以在存储设备中进行文件管理的初步处理,可以进行文件的初步筛选,可以有效地减少从存储设备向存储服务器的数据传输量,所以还可以有效地减少整个存储系统的网络负载,提高了有效文件的传输效率,进而也从另一方面提高了存储系统的效能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请中所述数据存取方法的步骤示意图;
图2为本申请中所述存储系统的结构示意图;
图3为本申请中所述存储设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人经过研究发现,现有技术中,随着数据量的不断增长,存储系统的性能和效率会不断地下降,究其原因,是因为数据量的不断增大也会相应的增加存储系统中存储服务器的处理负荷;此外,数据量的不断增大也会相应的增加存储单元的数量和整个存储系统网络的数据传输负荷,从而也会降低整个存储系统的数据管理的执行效能;
基于以上研究,本发明实施例提供了一种基于特征分析的数据存取方法,参考图1至图3,包括步骤:
S11、存储设备在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
在本发明实施例中,其核心思想是将整个存储系统的数据管理的处理过程分布式设计为由服务器端和终端两部分来实现,具体来说,一部分处理过程可以由存储服务器02(作为服务器端)来完成,另一部分可以由存储设备01(作为终端)来完成;比如,可以由控制存储设备01完成的本地数据管理可以包括对于数据的查找、分类、分析、哈希计算和数据转换等;也就是说,上述这些数据管理的运算和处理不是由存储服务器02完成的。
需要说明的是,本发明实施例中所提及的本地数据管理的几种数据处理方式(查找、分类、分析、哈希计算和数据转换)的只是存储设备01进行数据管理处理所涉及的具体应用的典型举例,而非限定,本领域技术人员可以根据实际的需要进行相应的处理功能的设计,这些设计并不超出本发明实施例的保护范围。
本发明实施例中,通过存储系统可以实现基于不同应用的文件(数据)的存储和读取等操作;比如,可以是存储由摄像头所获取的视频帧文件。
以存储设备为执行主体,文件存取的过程分为文件存储过程和文件的检索读取过程;
根据存储服务器的指令,存储设备可以接收待存储文件,在将待存储文件进行存储之前,首先要对待存储文件进行文件特征值分析,从而获取文件的文件特征值;本发明实施例中,文件特征值是指预定义的用于表征存储文件的属性特征的属性特性集,在实际应用中,文件属性特征可以是多方面的,根据不同的应用来自定义的,当所述存储文件为包括人物的图像文件时,所述属性特性包括:人物的年龄、性别和容貌体态特点;当所述存储文件为包括车辆的图像文件时,所述属性特性包括:车辆的品牌和车牌号码;比如,针对摄像头所获取的视频帧文件,可以将视频帧的图片中的内容特性定义为文件特征值,具体来说可以是,可以将车辆的品牌和车牌号分别预定义为文件特征值,同时,还可以分别将人物的性别、年龄或容貌体态特点等也当预定义为文件特征值,将这些属性特征构成属性特征集作为文件特征值;这样,在分析待存储文件的文件特性过程中,当从图片中包括车辆时,可以在文件特征值中记录车辆的品牌和车牌号码,当图片中出现人物时,在文件特征值中记载任务的性别年龄等特征。
此外,在实际应用中,还可以将待存储文件的其他属性(如文件的文件类型、生成时间和地点等属性)也生成相应的文件特征值,从而可以更加全面的通过文件属性来记载。
S12、存储设备根据待存储文件的文件特征值生成文件特征值记录,并将文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表;
在获取了待存储文件的文件特性后,可以生成文件特征值记录,文件特征值记录可以用来记载待存储文件的属性,每个待存储文件对应有文件特征值记录;通过将文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表,可以为后续的文件的检索和读取等数据管理操作提供依据。
举例来说,文件A(文件名为A)作为待存储文件,进行了文件特征值分析后生成了对应的文件特征值记录为“xyz”,其中,属性特征x的值用于标识车辆的品牌;此时映射表中所对应的记录中的内容可以包括“xyzA”。
优选的,在本发明实施例中,还可以采用哈希算法来提高文件(数据)的存储效率和后期的文件(数据)检索效率,具体步骤可以如下:
根据所述待存储文件的文件特征值生成对应的哈希值;
建立所述待存储文件的文件名(或是存储文件在存储设备的物理地址)与所述哈希值的位映射表。
S13、当存储设备接收到存储服务器的数据管理命令时,生成与数据管理命令对应的条件文件特征值;条件文件特征值用于表征数据管理命令所对应的查询条件;
本步骤记载的是文件的访问读取过程;在实际应用中,典型的数据管理命令可以是检索命令,用于查询特定的文件,比如,检索命令可以用于从视频帧数据中查询包括品牌为“福特”的车辆视频文件;通常,检索命令中一般会包含“车辆品牌为福特”这一查询条件。
此时,根据检索命令,可以获取“车辆品牌”这一条件文件特征值,即,本次检索的查询条件是“车辆品牌”的取值应当为“福特”,即,符合上述查询条件的存储文件即为目标文件。
S14、存储设备根据条件文件特征值与预设映射表中的文件特征值记录进行匹配,获取所需的目标文件的文件名或是目标文件在存储设备的物理地址。
根据查询条件进行文件名的检索,可以找到相应的目标文件的文件名;比如,可以方便的查询到包括有“福特”车的视频文件。当然,在本发明实施例中,查询条件的设置是可以根据需要来设定的,不同的查询条件可以映射为不同的文件特征值,从而可以作为文件检索是的匹配条件。
由上可知,在本发明实施例中存储系统为分布处理式结构,即,存储服务器端和存储设备端均具有数据处理的功能;在存储文件时,首先将待存储的文件预先进行特征的提取,并将文件的文件名与文件特征值进行关联,然后再将文件进行存储;这样,当进行文件的调用和查找时,存储设备根据存储服务器的数据管理指令,可以获取或生成相应的文件特征值,接着,可以获得可以以文件特征值为匹配参数,在存储介质中获取对应的目标文件,然后再将目标文件上传至存储服务器。
通过本发明实施例,对实现数据存储的数据处理过程进行了划分,赋予了存储设备端进行文件特征值提取和文件特征值匹配等数据功能,通过对存储文件的文件特征值提取和匹配过程,首先可以提高文件的检索查找效率,方便和精确的获取所需的文件,从而提高文件检索效率;另一方面,由于本发明实施例可以在存储设备中进行文件管理的初步处理,可以进行文件的初步筛选,可以有效地减少从存储设备向存储服务器的数据传输量,所以还可以有效地减少整个存储系统的网络负载,提高了有效文件的传输效率,进而也从另一方面提高了存储系统的效能。
在本发明实施实施例的另一面,还提供了一种基于特征分析的存储设备,参考图2和图3,包括数据接口11、处理器12、功能单元13和用于存储文件的存储介质14;
数据接口11包括用于与存储服务器02数据交互的主机接口;
功能单元13包括:特征解析模块(图中未示出),用于在将获取自存储服务器02的待存储文件进行存储前,对待存储文件进行文件特征值分析,获取待存储文件的文件特征值;文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;属性特性集包括用于表征存储文件内容特性的内容特性子集;关联模块(图中未示出),用于建立并存储待存储文件的文件特征值与文件名的对应关系;命令解析模块(图中未示出),用于当存储设备接收到所述存储服务器02的查询命令时,生成与所述查询命令对应的文件特征值;匹配模块(图中未示出),用于根据存储文件的文件特征值与文件名的对应关系,进行所述文件特征值的匹配,获取目标文件的文件名,并获取所述目标文件;
处理器12用于为功能单元13中的各模块提供数据处理能力。
在本发明实施例中,其核心思想是将整个存储系统的数据管理的处理过程分布式设计为由服务器端和终端两部分来实现,具体来说,一部分处理过程可以由存储服务器02(作为服务器端)来完成,另一部分可以由存储设备01(作为终端)来完成;比如,可以由控制存储设备01完成的本地数据管理可以包括对于文件的查找、分类、分析、哈希计算和数据转换等;也就是说,上述这些数据管理的运算和处理不是由存储服务器02完成的。
需要说明的是,本发明实施例中所提及的本地数据管理的几种数据处理方式(查找、分类、分析、哈希计算和数据转换)的只是控存储设备01进行数据管理处理所涉及的具体应用的典型举例,而非限定,本领域技术人员可以根据实际的需要进行相应的处理功能的设计,这些设计并不超出本发明实施例的保护范围。
本发明实施例中的存储设备作为存储系统中的一部分,通过与存储服务器的网络通讯来协同实现文件的存取;在实际应用中,一个存储服务器可以同时与多个存储设备网络连接构成一个存储系统。
本发明实施例中的存储设备承担了担部分运算处理功能,不但可以分担存储服务器的运算负荷,还可以有效的减少存储系统中的网络负载,为此,本发明实施例中的存储设备从硬件构成上来说,不但需要用于与存储服务器02通讯的数据接口11和数据文件的存储实体(即,存储介质14),还需要包括处理器12和功能单元13,其中,处理器12用于实现数据的运算处理,功能单元13则可以是用于实现本发明实施例中的数据文件管理功能的软件,当然功能软件也可由硬件构成。只要能够实现存储设备01的数据文件管理功能即可。
在本发明实施例中,存储介质14具体可以是闪存类存储单元;此外,为了进一步减少整个存储系统的网络负载,存储设备还可以包括有同级接口,来直接与存储系统中相邻的存储设备进行数据通信。
在实际应用中,主机接口具体可以包括PCIe接口、SAS接口、SATA接口、RAPID-IO接口和NVMe接口中的一种或任意组合;级接口具体可以包括Ethernet接口、FC接口、iSCSI接口和SAN接口中的一种或任意组合。
功能单元13的具体可以描述如下:
本发明实施例中,通过存储系统可以实现基于不同应用的文件(数据)的存储和读取等操作;比如,可以是存储由摄像头所获取的视频帧文件。
存储设备01作为执行主体时,文件存取的过程分为文件存储过程和文件的检索读取过程;
根据存储服务器02的指令,存储设备01可以接收待存储文件,在将待存储文件进行存储之前,特征解析模块首先要对待存储文件进行文件特征值分析,从而获取文件的文件特征值;本发明实施例中,文件特征值是指预定义的用于表征存储文件的属性特征的属性特性集,在实际应用中,文件属性特征可以是多方面的,根据不同的应用来自定义的,当所述存储文件为包括人物的图像文件时,所述属性特性包括:人物的年龄、性别和容貌体态特点;当所述存储文件为包括车辆的图像文件时,所述属性特性包括:车辆的品牌和车牌号码;比如,针对摄像头所获取的视频帧文件,可以将视频帧的图片中的内容特性定义为文件特征值,具体来说可以是,可以将车辆的品牌和车牌号分别预定义为文件特征值,同时,还可以分别将人物的性别、年龄或容貌体态特点等也当预定义为文件特征值,将这些属性特征构成属性特征集作为文件特征值;这样,在分析待存储文件的文件特性过程中,当从图片中包括车辆时,可以在文件特征值中记录车辆的品牌和车牌号码,当图片中出现人物时,在文件特征值中记载任务的性别年龄等特征。
此外,在实际应用中,还可以将待存储文件的其他特性(如文件的文件类型、生成时间和地点等属性)也为其生成对应的文件特征值,从而可以更加全面的通过文件属性来记载。
在获取了待存储文件的文件特性后,关联模块可以生成文件特征值记录,文件特征值记录可以用来记载待存储文件的属性,每个待存储文件对应有文件特征值记录;通过将文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表,可以为后续的文件的检索和读取等数据管理操作提供依据。
举例来说,文件A(文件名为A)作为待存储文件,进行了文件特征值分析后生成了对应的文件特征值记录为“xyz”,其中,属性特征x的值用于标识车辆的品牌;此时映射表中所对应的记录中的内容可以包括“xyzA”。
优选的,在本发明实施例中,还可以采用哈希算法来提高文件(数据)的存储效率和后期的文件(数据)检索效率,具体步骤可以如下:
根据所述待存储文件的文件特征值生成对应的哈希值;
建立所述待存储文件的文件名与所述哈希值的位映射表。
在实际应用中,典型的数据管理命令可以是检索命令,用于查询特定的文件,比如,检索命令可以用于从视频帧数据中查询包括品牌为“福特”的车辆视频文件;通常,检索命令中一般会包含“车辆品牌为福特”这一查询条件。
此时,命令解析模块根据检索命令,可以获取“车辆品牌”这一条件文件特征值,即,本次检索的查询条件是“车辆品牌”的取值应当为“福特”,即,符合上述查询条件的存储文件即为目标文件。
匹配模块根据查询条件在预设映射表中的文件特征值记录进行匹配,可以找到相应的目标文件的文件名或目标文件在存储设备的物理地址;比如,可以方便的查询到包括有“福特”车的视频文件。当然,在本发明实施例中,查询条件的设置是可以根据需要来设定的,不同的查询条件可以映射为不同的文件特征值,从而可以作为文件检索是的匹配条件。
由上可知,在本发明实施例中存储系统为分布处理式结构,即,存储服务器端和存储设备端均具有数据处理的功能;在存储文件时,首先将待存储的文件预先进行特征的提取,并将文件的文件名与文件特征值进行关联,然后再将文件进行存储;这样,当进行文件的调用和查找时,存储设备根据存储服务器的数据管理指令,可以获取或生成相应的文件特征值,接着,可以获得可以以文件特征值为匹配参数,在存储介质中获取对应的目标文件,然后再将目标文件上传至存储服务器。
通过本发明实施例,对实现数据存储的数据处理过程进行了划分,赋予了存储设备端进行文件特征值提取和文件特征值匹配等数据功能,通过对存储文件的文件特征值提取和匹配过程,首先可以提高文件的检索查找效率,方便和精确的获取所需的文件,从而提高文件检索效率;另一方面,由于本发明实施例可以在存储设备中进行文件管理的初步处理,可以进行文件的初步筛选,可以有效地减少从存储设备向存储服务器的数据传输量,所以还可以有效地减少整个存储系统的网络负载,提高了有效文件的传输效率,进而也从另一方面提高了存储系统的效能。
在本发明实施例的另一面,还提供了一种存储系统,参考图2和图3,存储系统包括存储设备01和存储服务器02;
本发明实施例中的技术方案、工作原理和能达到的有益效果在上述存储设备的实施例中已经进行了记载和描述,在此就不再赘述。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、ReRAM、MRAM、PCM、NAND Flash,NOR Flash, Memristor、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于特征分析的数据存取方法,其特征在于,包括步骤:
S11、存储设备在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
S12、存储设备根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与所述待存储文件的对应关系存储至预设映射表;
S13、当存储设备接收到所述存储服务器的数据管理命令时,生成与所述数据管理命令对应的条件文件特征值;所述条件文件特征值用于表征数据管理命令所对应的查询条件;
S14、所述存储设备根据条件文件特征值与所述预设映射表中的文件特征值记录进行匹配,获取所需的目标文件。
2.根据权利要求1所述的数据存取方法,其特征在于,所述属性特性包括:
所述存储文件的获取时间、地点和文件类型。
3.根据权利要求2所述的数据存取方法,其特征在于,所述属性特性集包括:
当所述存储文件为包括人物的图像文件时,所述属性特性包括:人物的年龄、性别和容貌体态特点;当所述存储文件为包括车辆的图像文件时,所述属性特性包括:车辆的品牌和车牌号码。
4.根据权利要求1至3中任一所述的数据存取方法,其特征在于,所述根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表,包括:
根据所述待存储文件的文件特征值生成对应的哈希值;
建立所述待存储文件的文件名或存储文件在存储设备的物理地址与所述哈希值的位映射表。
5.一种基于特征分析的存储设备,其特征在于,包括数据接口、处理器、功能单元和用于存储文件的存储介质;
所述数据接口包括用于与存储服务器数据交互的主机接口;
所述功能单元包括:
特征解析模块,用于在将获取自存储服务器的待存储文件进行存储前,对所述待存储文件进行文件特征分析,获取所述待存储文件的文件特征值;所述文件特征值为根据预设规则预定义的,用于表征存储文件的属性特征的属性特性集;所述属性特性集包括用于表征所述存储文件内容特性的内容特性子集;
关联模块,用于根据所述待存储文件的文件特征值生成文件特征值记录,并将所述文件特征值记录以及文件特征值记录与待存储文件的对应关系存储至预设映射表;
命令解析模块,用于当存储设备接收到所述存储服务器的数据管理命令时,生成与所述数据管理命令对应的条件文件特征值;所述条件文件特征值用于表征数据管理命令所对应的查询条件;
匹配模块,用于根据条件文件特征值与所述预设映射表中的文件特征值记录进行匹配,获取所需的目标文件;
所述处理器用于为所述功能单元中的各模块提供数据处理能力。
6.根据权利要求5所述的存储设备,其特征在于,所述存储介质包括闪存类存储单元。
7.根据权利要求6所述的存储设备,其特征在于,所述数据接口还包括:
同级接口,用于实现与存储系统中相邻存储设备的存储介质的数据通信连接。
8.根据权利要求7所述的存储设备,其特征在于,
所述主机接口包括PCIe接口、SAS接口、SATA接口、RAPID-IO接口和NVMe接口中的一种或任意组合;
所述同级接口包括Ethernet接口、FC接口、iSCSI接口和SAN接口中的一种或任意组合。
9.一种基于特征分析的存储系统,其特征在于,包括存储服务器,和,如权5至8中任一所述存储设备。
10.根据权利要求9所述的存储系统,其特征在于,所述存储设备包括有两个以上。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710323317.2A CN107169075A (zh) | 2017-05-10 | 2017-05-10 | 基于特征分析的数据存取方法、存储设备及存储系统 |
PCT/CN2017/100424 WO2018205471A1 (zh) | 2017-05-10 | 2017-09-04 | 基于特征分析的数据存取方法、存储设备及存储系统 |
US16/508,293 US20190332577A1 (en) | 2017-05-10 | 2019-07-10 | Data access method based on feature analysis, storage device and storage system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710323317.2A CN107169075A (zh) | 2017-05-10 | 2017-05-10 | 基于特征分析的数据存取方法、存储设备及存储系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107169075A true CN107169075A (zh) | 2017-09-15 |
Family
ID=59812603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710323317.2A Pending CN107169075A (zh) | 2017-05-10 | 2017-05-10 | 基于特征分析的数据存取方法、存储设备及存储系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190332577A1 (zh) |
CN (1) | CN107169075A (zh) |
WO (1) | WO2018205471A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228101A (zh) * | 2017-12-28 | 2018-06-29 | 北京盛和大地数据科技有限公司 | 一种管理数据的方法和系统 |
CN111125030A (zh) * | 2019-12-18 | 2020-05-08 | 北京数衍科技有限公司 | 数据存储方法、装置及服务器 |
CN113001538A (zh) * | 2019-12-20 | 2021-06-22 | 合肥欣奕华智能机器有限公司 | 一种命令解析方法及系统 |
CN113793609A (zh) * | 2021-09-07 | 2021-12-14 | 米茂(上海)数字技术有限公司 | 一种基于语音识别的文件上传方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783483A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种数据整理的方法、装置、计算机存储介质及终端 |
US10832774B2 (en) * | 2019-03-01 | 2020-11-10 | Samsung Electronics Co., Ltd. | Variation resistant 3T3R binary weight cell with low output current and high on/off ratio |
US11681525B2 (en) * | 2019-11-25 | 2023-06-20 | EMC IP Holding Company LLC | Moving files between storage devices based on analysis of file operations |
CN113836087B (zh) * | 2021-09-24 | 2022-07-15 | 中国劳动关系学院 | 一种基于文件模式的大数据层存储方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699438A (zh) * | 2009-11-04 | 2010-04-28 | 北京锋力信息科技有限公司 | 数据存取方法及系统 |
CN103235820A (zh) * | 2013-04-27 | 2013-08-07 | 北京搜狐新媒体信息技术有限公司 | 一种集群系统中数据存储方法与装置 |
CN104915450A (zh) * | 2015-07-01 | 2015-09-16 | 武汉大学 | 一种基于HBase的大数据存储与检索方法及系统 |
CN105404634A (zh) * | 2014-09-15 | 2016-03-16 | 南京理工大学 | 基于Key-Value数据块的数据管理方法及系统 |
CN105701096A (zh) * | 2014-11-25 | 2016-06-22 | 腾讯科技(深圳)有限公司 | 索引生成方法、数据查询方法、装置及系统 |
CN105912666A (zh) * | 2016-04-12 | 2016-08-31 | 中国科学院软件研究所 | 一种面向云平台的混合结构数据高性能存储、查询方法 |
CN106055704A (zh) * | 2016-06-22 | 2016-10-26 | 重庆中科云丛科技有限公司 | 一种图像检索与匹配方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908077B (zh) * | 2010-08-27 | 2012-11-21 | 华中科技大学 | 一种适用于云备份的重复数据删除方法 |
US9342574B2 (en) * | 2011-03-08 | 2016-05-17 | Nec Corporation | Distributed storage system and distributed storage method |
CN103139252B (zh) * | 2011-11-30 | 2015-12-02 | 北京网康科技有限公司 | 一种网络代理缓存加速的实现方法及其装置 |
CN104010016B (zh) * | 2013-02-27 | 2018-03-27 | 联想(北京)有限公司 | 数据管理方法、云端服务器及终端设备 |
CN104408111B (zh) * | 2014-11-24 | 2017-12-15 | 浙江宇视科技有限公司 | 一种删除重复数据的方法及装置 |
CN106446263B (zh) * | 2016-10-18 | 2020-06-09 | 北京航空航天大学 | 一种多媒体文件云存储平台及使用该云存储平台去冗的方法 |
CN106951181A (zh) * | 2017-02-21 | 2017-07-14 | 深圳大普微电子科技有限公司 | 一种数据存储系统的控制装置 |
-
2017
- 2017-05-10 CN CN201710323317.2A patent/CN107169075A/zh active Pending
- 2017-09-04 WO PCT/CN2017/100424 patent/WO2018205471A1/zh active Application Filing
-
2019
- 2019-07-10 US US16/508,293 patent/US20190332577A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699438A (zh) * | 2009-11-04 | 2010-04-28 | 北京锋力信息科技有限公司 | 数据存取方法及系统 |
CN103235820A (zh) * | 2013-04-27 | 2013-08-07 | 北京搜狐新媒体信息技术有限公司 | 一种集群系统中数据存储方法与装置 |
CN105404634A (zh) * | 2014-09-15 | 2016-03-16 | 南京理工大学 | 基于Key-Value数据块的数据管理方法及系统 |
CN105701096A (zh) * | 2014-11-25 | 2016-06-22 | 腾讯科技(深圳)有限公司 | 索引生成方法、数据查询方法、装置及系统 |
CN104915450A (zh) * | 2015-07-01 | 2015-09-16 | 武汉大学 | 一种基于HBase的大数据存储与检索方法及系统 |
CN105912666A (zh) * | 2016-04-12 | 2016-08-31 | 中国科学院软件研究所 | 一种面向云平台的混合结构数据高性能存储、查询方法 |
CN106055704A (zh) * | 2016-06-22 | 2016-10-26 | 重庆中科云丛科技有限公司 | 一种图像检索与匹配方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228101A (zh) * | 2017-12-28 | 2018-06-29 | 北京盛和大地数据科技有限公司 | 一种管理数据的方法和系统 |
CN111125030A (zh) * | 2019-12-18 | 2020-05-08 | 北京数衍科技有限公司 | 数据存储方法、装置及服务器 |
CN111125030B (zh) * | 2019-12-18 | 2023-09-22 | 北京数衍科技有限公司 | 数据存储方法、装置及服务器 |
CN113001538A (zh) * | 2019-12-20 | 2021-06-22 | 合肥欣奕华智能机器有限公司 | 一种命令解析方法及系统 |
CN113001538B (zh) * | 2019-12-20 | 2022-08-26 | 合肥欣奕华智能机器股份有限公司 | 一种命令解析方法及系统 |
CN113793609A (zh) * | 2021-09-07 | 2021-12-14 | 米茂(上海)数字技术有限公司 | 一种基于语音识别的文件上传方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018205471A1 (zh) | 2018-11-15 |
US20190332577A1 (en) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169075A (zh) | 基于特征分析的数据存取方法、存储设备及存储系统 | |
Quick et al. | Data reduction and data mining framework for digital forensic evidence: storage, intelligence, review and archive | |
CN104298736B (zh) | 数据集合连接方法、装置及数据库系统 | |
CN104021161B (zh) | 一种聚簇存储方法及装置 | |
US9256665B2 (en) | Creation of inverted index system, and data processing method and apparatus | |
CN108389118A (zh) | 资产管理系统、方法及装置、电子设备 | |
US8285721B2 (en) | Mapping item records to product records | |
CN107656958A (zh) | 一种多数据源数据的归类方法及服务器 | |
Zhang et al. | Zero-shot hashing with orthogonal projection for image retrieval | |
CN108170578A (zh) | 日志收集方法及装置 | |
CN108021333B (zh) | 随机读写数据的系统、装置及方法 | |
CN106951181A (zh) | 一种数据存储系统的控制装置 | |
CN104965826A (zh) | 基于浏览器的检索方法及检索装置 | |
CN105224560A (zh) | 缓存数据的查找方法和装置 | |
CN106649368A (zh) | 数据存储方法、装置和数据查询方法、装置 | |
CN110321364B (zh) | 信用卡管理系统的交易数据查询方法、装置及终端 | |
CN103905310B (zh) | 报文处理的方法及转发设备 | |
US20090089071A1 (en) | Compressed non-indexed data storage | |
CN107784091A (zh) | 一种操作权限查询方法及终端设备 | |
US10872103B2 (en) | Relevance optimized representative content associated with a data storage system | |
CN105868023B (zh) | 一种分布式系统中的数据处理方法及计算节点 | |
CN104599181A (zh) | 一种货币类产品的查询方法及装置 | |
CN116319576A (zh) | 一种访问流量控制方法、装置、计算机设备及存储介质 | |
CN114385606A (zh) | 一种大数据清洗方法、系统、存储介质和电子设备 | |
US20170075724A1 (en) | Task handling in a multisystem environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170915 |