CN108228101A - 一种管理数据的方法和系统 - Google Patents

一种管理数据的方法和系统 Download PDF

Info

Publication number
CN108228101A
CN108228101A CN201711464034.6A CN201711464034A CN108228101A CN 108228101 A CN108228101 A CN 108228101A CN 201711464034 A CN201711464034 A CN 201711464034A CN 108228101 A CN108228101 A CN 108228101A
Authority
CN
China
Prior art keywords
data
target
storage server
unstructured data
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711464034.6A
Other languages
English (en)
Other versions
CN108228101B (zh
Inventor
郝海生
王�锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Great Earth Data Technology Co Ltd
Original Assignee
Beijing Great Earth Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Great Earth Data Technology Co Ltd filed Critical Beijing Great Earth Data Technology Co Ltd
Priority to CN201711464034.6A priority Critical patent/CN108228101B/zh
Publication of CN108228101A publication Critical patent/CN108228101A/zh
Application granted granted Critical
Publication of CN108228101B publication Critical patent/CN108228101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools

Abstract

本发明公开了一种管理数据的方法和系统,属于数据存储技术领域。所述方法包括:管理服务器接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给存储服务器,所述存储服务器根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,所述存储服务器将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。采用本发明,可以提高数据管理的效率。

Description

一种管理数据的方法和系统
技术领域
本发明涉及数据存储技术领域,特别涉及一种管理数据的方法和系统。
背景技术
随着计算机、互联网和数字媒体等技术的进一步发展,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加。非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,无法通过数据库二维逻辑表来表现的数据。
非结构化数据一般存储在数据管理系统中的存储服务器的磁盘阵列上或闪存阵列上。数据管理系统的管理服务器接收到外界对于某非结构化数据的检索或分析等数据管理请求后,可以先从数据管理系统的存储服务器中获取非结构化数据,然后管理服务器可以对非结构化数据进行特征提取与分析等数据管理处理,再向外界反馈上述处理结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
非结构化数据的数据量很大,在对其进行数据管理的过程中,存储服务器和管理服务器间的非结构化数据的传输将占用大量的带宽资源与计算资源,且需要花费大量传输时间,故而,数据管理的效率较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种管理数据的方法和系统。所述技术方案如下:
第一方面,提供了一种管理数据的方法,所述方法包括:
管理服务器接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给存储服务器;
所述存储服务器根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件;
所述存储服务器将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。
可选的,所述存储服务器根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,包括:
所述存储服务器获取所述目标非结构化数据的数据属性;
所述存储服务器根据预设的所述数据属性对应的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件。
可选的,所述目标特征文件中的特征信息的数据格式与所述目标非结构化数据的数据格式相同或者不同。
可选的,所述方法还包括:
所述管理服务器获取数据查询请求,将其中携带的查询关键信息发送给存储服务器;
所述存储服务器确定与所述查询关键信息相符的可选特征信息,并查找所述可选特征信息所属的可选特征文件;
所述存储服务器将所述可选特征文件反馈给所述管理服务器。
可选的,所述方法还包括:
如果不存在与所述查询关键信息相符的可选特征信息,所述存储服务器则确定所述查询关键信息的相似特征信息;
所述存储服务器查找所述相似特征信息所属的相似特征文件,并将所述相似特征文件反馈给所述管理服务器。
可选的,所述存储服务器将所述目标非结构化数据存储至冷存储区之后,还包括:
如果所述目标非结构化数据的优先级大于预设优先级,所述存储服务器则在所述热存储区同时存储所述非结构化数据。
可选的,所述存储服务器将所述目标特征文件存储至热存储区之前,还包括:
如果在已存储的所有特征文件中,存在与所述目标特征文件相同,或者相似程度大于预设数值的关联特征文件,所述存储服务器则将所述关联特征文件的非结构化数据发送给所述管理服务器。
第二方面,提供了一种管理数据的系统,所述系统包括管理服务器和存储服务器,其中:
所述管理服务器,用于接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给所述存储服务器;
所述存储服务器,用于根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。
可选的,所述存储服务器,具体用于:
获取所述目标非结构化数据的数据属性;
根据预设的所述数据属性对应的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件。
可选的,所述目标特征文件中的特征信息的数据格式与所述目标非结构化数据的数据格式相同或者不同。
可选的,所述管理服务器,还用于获取数据查询请求,将其中携带的查询关键信息发送给所述存储服务器;
所述存储服务器,还用于确定与所述查询关键信息相符的可选特征信息,并查找所述可选特征信息所属的可选特征文件,将所述可选特征文件反馈给所述管理服务器。
可选的,所述存储服务器,还用于:
如果不存在与所述查询关键信息相符的可选特征信息,则确定所述查询关键信息的相似特征信息;
查找所述相似特征信息所属的相似特征文件,并将所述相似特征文件反馈给所述管理服务器。
可选的,所述存储服务器,还用于:
在将所述目标非结构化数据存储至冷存储区之后,如果所述目标非结构化数据的优先级大于预设优先级,则在所述热存储区同时存储所述非结构化数据。
可选的,所述存储服务器,还用于:
在将所述目标特征文件存储至热存储区之前,如果在已存储的所有特征文件中,存在与所述目标特征文件相同,或者相似程度大于预设数值的关联特征文件,则将所述关联特征文件的非结构化数据发送给所述管理服务器。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,管理服务器接收目标非结构化数据的数据存储请求,将目标非结构化数据传输给存储服务器,存储服务器根据预设的特征提取标准,提取目标非结构化数据的特征信息,生成目标特征文件,存储服务器将目标特征文件存储至热存储区,并将目标非结构化数据存储至冷存储区。这样,如果需要对已存储的某个非结构化数据进行数据管理,则可以对相应的特征文件进行管理操作,无需在存储服务器和管理服务器间传输非结构化数据,从而可以降低数据管理过程中带宽资源与计算资源的开销,同时减少了传输时间,故而可以提高数据管理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据管理系统的场景框架示意图;
图2是本发明实施例提供的一种管理数据的方法流程图;
图3是本发明实施例提供的一种存储数据的原理示意图;
图4是本发明实施例提供的一种查询数据的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本本发明实施例提供了一种管理数据的方法,该方法的可以由数据管理系统实现,数据管理系统中可以包括管理服务器和存储服务器,如图1所示。其中,管理服务器可以是数据管理系统对外提供的交互设备,外界可以通过管理服务器实现数据的读取、存储、检索等管理处理,存储服务器可以用于存储数据,并对数据进行分析计算。上述管理服务器和存储服务器中均可以包括处理器、存储器、收发器,处理器可以用于进行下述流程中的管理数据的处理,存储器可以用于存储下述处理过程中需要的数据以及产生的数据,收发器可以用于接收和发送下述处理过程中的相关数据。上述管理服务器中还可以包括显示部件和输入部件,显示部件可以用于显示输入内容,显示数据等,可以是屏幕,输入部件可以用于用户向管理服务器输入指令,可以是键盘或控制按键等。当然,在某种场景下,管理服务器和存储服务器均可以为多个设备组成的设备组,相应的功能可以由多个设备共同实现,此外,本方案的执行主体还可以是一个独立的网络设备,上述管理服务器和存储服务器的功能可以由该网络设备中一个或多个组件实现。本方案以执行主体为数据管理系统,管理服务器和存储服务器均为一个独立的设备进行说明,其它处理情况与之类似,不再赘述。
下面将结合具体实施方式,对图2所示的处理流程进行详细的说明,内容可以如下:
步骤201,管理服务器接收目标非结构化数据的数据存储请求,将目标非结构化数据传输给存储服务器。
在实施中,数据管理系统可以向外界系统或设备提供数据管理业务,该数据管理业务中包括对数据的存储、检索、读取等管理操作。外界系统或设备在运行过程中,将产生大量的非结构化数据,这些非结构化数据可以是大量文字内容,也可以是多张图像,还可以是音视频数据等等。为了便于后续使用、分析,外界系统或设备可以将非结构化数据提交至上述数据管理系统中进行存储。这样,数据管理系统中的管理服务器可以接收到相应的非结构化数据(即目标非结构化数据)的数据存储请求,然后获取目标非结构化数据,并将目标非结构化数据传输给数据管理系统中的存储服务器。
步骤202,存储服务器根据预设的特征提取标准,提取目标非结构化数据的特征信息,生成目标特征文件。
在实施中,存储服务器中可以设置有一个非结构化数据的特征提取单元,该特征提取单元可以是软件程序,也可以是硬件设备,主要用于对非结构化数据进行分析并自动提取特征信息。数据管理系统的技术人员也可以预先配置上述特征提取单元的特征提取标准,如可以是识别视频或图片中的人、车、物,或者可以是提取文本内容中的关键词。这样,存储服务器在接收到管理服务器发送的目标非结构化数据之后,可以调取预设的特征提取标准,对目标非结构化数据进行特征提取处理,得到结构化的特征信息,从而生成目标特征文件。可以理解,目标非结构化数据可以存在多项特征信息,而目标特征文件则为目标非结构化数据的所有特征信息的集合。需要说明的是,本实施例中不对特征提取的具体处理进行限定,可以选择任意可行的特征提取算法。
可选的,针对不同的非结构化数据,可以设定有不同的特征提取标准,相应的,步骤202的处理可以如下:存储服务器获取目标非结构化数据的数据属性;存储服务器根据预设的数据属性对应的特征提取标准,提取目标非结构化数据的特征信息,生成目标特征文件。
其中,数据属性可以是数据归属方、数据格式、数据大小、数据价值等级等用于区别不同非结构化数据的信息。
在实施中,数据管理系统的技术人员可以按照数据属性对不同的非结构化数据进行分类,然后为每类非结构化数据预先设置相应的特征提取标准。数据属性可以是数据归属方、数据格式、数据大小、数据价值等信息中的一项或多项。例如,数据归属方属于服装行业,则特征提取标准可以为提取非结构化数据中的服装信息;数据归属方属于汽车行业,则特征提取标准可以为提取非结构化数据中的车辆信息。又例如,数据归属方为公安系统,数据格式为视频数据,数据大小为100GB,则特征提取标准可以为提取视频数据中的能清晰体现人物、车辆或者地点信息的图像数据,且提取的特征信息的总数据量为100MB;数据归属方为文档管理系统,数据格式为文本内容,数据大小为1GB,则特征提取标准可以为提取文本内容中的关键词,且提取的特征信息的总数据量为1MB。这样,存储服务器在接收到管理服务器发送的目标非结构化数据之后,可以先获取目标非结构化数据的数据属性,然后调取预设的该数据属性所对应的特征提取标准。进而存储服务器可以基于调取的特征提取标准对目标非结构化数据进行特征提取处理,得到结构化的特征信息,从而生成目标特征文件。
可选的,目标特征文件中的特征信息的数据格式与目标非结构化数据的数据格式相同或者不同。
在实施中,一种情况下,存储服务器可以根据预设的特征提取标准,提取出数据格式与非结构化数据的数据格式相同的特征信息,如特征信息可以是视频数据中的视频片段,或者是图像数据中的局部图像,或者是文本内容的关键词句等等。另一种情况下,存储服务器提取出的特征信息的数据格式可以与非结构化数据的数据格式不同,如可以提取视频数据中的视频帧图像,进一步的还可以对视频帧图像进行文本转换。具体的,当提取的特征信息是人物图像时,可以进一步识别这个人物是明星某某;当提取的特征信息是车辆图像时,可以进一步识别车牌号、车辆型号等。综上,对非结构化数据提取多种数据格式的特征信息,可以多维度地记录非结构化数据的特征,使得提取出的特征信息更加准确、全面。
步骤203,存储服务器将目标特征文件存储至热存储区,并将目标非结构化数据存储至冷存储区。
在实施中,存储服务器中可以存在以磁盘或固态硬盘与蓝光光盘组成的混合存储阵列,并相应的建立有包括热存储区和冷存储区在内的至少两个存储区域,其中,热存储区可以由磁盘或固态硬盘组成,冷存储区可以由蓝光光盘构成。存储服务器在生成目标特征文件之后,可以将目标特征文件存储至上述磁盘或固态硬盘中,并将目标非结构化数据存储至上述蓝光光盘中,图3为存储数据的原理示意图。这样,当需要对非结构化数据进行分析或检索时,可以快速访问热存储区中的特征文件,无需访问冷存储区中的非结构化数据。可以理解,由于单张光盘的存储容量较大,且光盘相较于常见的存储介质(如磁盘、固态硬盘等)具有一定的价格和性能优势,故而可以用来存储数据量较大,无需经常访问的非结构化数据。而特征文件的数据量较小,访问较为频繁且需要快速反馈,故而可以存储在磁盘或者固态硬盘中。同时,为了防止特征信息遗失,还可以将目标特征文件也存储至冷存储区,作为备份数据。
可选的,存储服务器可以在热存储区内存储一些优先级较高的非结构化数据,相应的,步骤203之后可以有如下处理:如果所述目标非结构化数据的优先级大于预设优先级,所述存储服务器则在所述热存储区同时存储所述非结构化数据。
在实施中,数据管理系统的技术人员可以基于数据属性对非结构化数据设置相应的优先级。这样,在将目标非结构化数据存储至冷存储区之后,如果热存储区中还有空闲的存储空间,则可以判断目标非结构化数据的优先级是否大于预设优先级,如果是,则可以在所述热存储区内同时存储所述非结构化数据。
值得一提的是,针对于数据存储这块处理,还可以包括如下几种处理:
处理一:存储服务器在存储目标特征文件和目标非结构化数据时,可以建立相应的数据标识,用于关联特征文件和非结构化数据,然后将数据标识与目标特征文件以及目标非结构化数据一起存储。
处理二;如果在存储目标特征文件时发现热存储区的空闲容量不够,存储服务器则可以删除热存储区内存储的,优先级最低的预设个数的非结构化数据。而如果在存储目标非结构化数据时发现冷存储区的空闲容量不够,存储服务器则可以删除冷存储区内存储的,优先级最低的预设个数的非结构化数据,同时可以在热存储区内删除相应的特征文件。
处理三,存储服务器在生成了目标特征文件后,可以将目标特征文件与已存储的所有特征文件进行比较,如果发现存在与目标特征文件相同,或者相似程度大于预设数值的特征文件,则可以停止存储目标特征文件和目标非结构数据,并将上述特征文件的非结构化数据通过管理服务器反馈给数据存储请求的发起方。
可选的,本实施例还提供了一种查询数据的方法,如图4所示,具体内容可以如下:
步骤401,管理服务器获取数据查询请求,将其中携带的查询关键信息发送给存储服务器。
在实施中,当用户需要对数据管理系统中存储的数据进行查询时,可以向数据管理系统提交相应的数据查询请求,该数据查询请求可以是用户在外界系统或设备上操作后,由外界系统或设备发送至数据管理系统的,也可以是用户直接在数据管理系统中的管理服务器上操作生成的。之后,管理服务器可以获取到上述数据查询请求,并可以将其中携带的查询关键信息发送给数据管理系统中的存储服务器。此处,查询关键信息是本次数据查询操作的主要依据,可以是整体图像或者局部图像,也可以是关键词或者关键句,还可以是音频片段或者视频片段等等。
步骤402,存储服务器确定与查询关键信息相符的可选特征信息,并查找可选特征信息所属的可选特征文件。
在实施中,存储服务器在接收到管理服务器发送的查询关键信息后,可以先确定与查询关键信息相符的所有可选特征信息,具体的,可以按照特征信息的数据结构对查询关键信息进行整理,然后确定和整理后的查询关键信息相同的可选特征信息。进而,存储服务器可以在热存储区内存储的所有特征文件中,查找上述可选特征信息所属的可选特征文件。
步骤403,存储服务器将可选特征文件反馈给管理服务器。
在实施中,存储服务器在查找到可选特征文件后,可以将其反馈给管理服务器,从而管理服务器可以将可选特征文件反馈给用户(即数据查询请求的发起方)。进一步的,如果用户想要查看可选特征文件的原始数据,则管理服务器可以先在存储服务器的热存储区内,查找该可选特征文件所对应的非结构化数据,如果未查找到,则可以再从存储服务器的冷存储区内,获取可选特征文件所对应的非结构化数据,然后将该非结构化数据反馈给用户。另外,存储服务器在反馈可选特征文件之后,如果热存储区中还有空闲的存储空间,则可以将可选特征文件存储在热存储区内,以便其他用户查询相同的非结构化数据时,存储服务器可以快速进行反馈。
可选的,如果无法查找到与管理关键信息相符的特征信息,存储服务器则可以反馈较为相似的特征信息,相应的处理可以如下:如果不存在与查询关键信息相符的可选特征信息,存储服务器则确定查询关键信息的相似特征信息;存储服务器查找相似特征信息所属的相似特征文件,并将相似特征文件反馈给管理服务器。
在实施中,存储服务器在确定可选特征信息时,如果发现所有的特征文件中均不存在与查询关键信息相符的特征信息,则可以将所有的特征信息与查询关键信息进行相似度计算,然后可以将相似度大于预设阈值的特征信息,或者相似度最高的预设数目个特征信息确定为查询关键信息的相似特征信息。之后,存储服务器则可以查找相似特征信息所属的所有相似特征文件,并将所有相似特征文件反馈给管理服务器。同理,如果用户想要查看某个相似特征文件的原始数据,则管理服务器可以从存储服务器的冷存储区内,获取该相似特征文件所对应的非结构化数据,然后将非结构化数据反馈给用户。
本发明实施例中,管理服务器接收目标非结构化数据的数据存储请求,将目标非结构化数据传输给存储服务器,存储服务器根据预设的特征提取标准,提取目标非结构化数据的特征信息,生成目标特征文件,存储服务器将目标特征文件存储至热存储区,并将目标非结构化数据存储至冷存储区。这样,如果需要对已存储的某个非结构化数据进行数据管理,则可以对相应的特征文件进行管理操作,无需在存储服务器和管理服务器间传输非结构化数据,从而可以降低数据管理过程中带宽资源与计算资源的开销,同时减少了传输时间,故而可以提高数据管理的效率。
基于相同的技术构思,本发明实施例还提供了一种管理数据的系统,所述系统包括管理服务器和存储服务器,其中:
所述管理服务器,用于接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给所述存储服务器;
所述存储服务器,用于根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。
可选的,所述存储服务器,具体用于:
获取所述目标非结构化数据的数据属性;
根据预设的所述数据属性对应的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件。
可选的,所述目标特征文件中的特征信息的数据格式与所述目标非结构化数据的数据格式相同或者不同。
可选的,所述管理服务器,还用于获取数据查询请求,将其中携带的查询关键信息发送给所述存储服务器;
所述存储服务器,还用于确定与所述查询关键信息相符的可选特征信息,并查找所述可选特征信息所属的可选特征文件,将所述可选特征文件反馈给所述管理服务器。
可选的,所述存储服务器,还用于:
如果不存在与所述查询关键信息相符的可选特征信息,则确定所述查询关键信息的相似特征信息;
查找所述相似特征信息所属的相似特征文件,并将所述相似特征文件反馈给所述管理服务器。
可选的,所述存储服务器,还用于:
在将所述目标非结构化数据存储至冷存储区之后,如果所述目标非结构化数据的优先级大于预设优先级,则在所述热存储区同时存储所述非结构化数据。
可选的,所述存储服务器,还用于:
在将所述目标特征文件存储至热存储区之前,如果在已存储的所有特征文件中,存在与所述目标特征文件相同,或者相似程度大于预设数值的关联特征文件,则将所述关联特征文件的非结构化数据发送给所述管理服务器。
本发明实施例中,管理服务器接收目标非结构化数据的数据存储请求,将目标非结构化数据传输给存储服务器,存储服务器根据预设的特征提取标准,提取目标非结构化数据的特征信息,生成目标特征文件,存储服务器将目标特征文件存储至热存储区,并将目标非结构化数据存储至冷存储区。这样,如果需要对已存储的某个非结构化数据进行数据管理,则可以对相应的特征文件进行管理操作,无需在存储服务器和管理服务器间传输非结构化数据,从而可以降低数据管理过程中带宽资源与计算资源的开销,同时减少了传输时间,故而可以提高数据管理的效率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种管理数据的方法,其特征在于,所述方法包括:
管理服务器接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给存储服务器;
所述存储服务器根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件;
所述存储服务器将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。
2.根据权利要求1所述的方法,其特征在于,所述存储服务器根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,包括:
所述存储服务器获取所述目标非结构化数据的数据属性;
所述存储服务器根据预设的所述数据属性对应的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件。
3.根据权利要求1所述的方法,其特征在于,所述目标特征文件中的特征信息的数据格式与所述目标非结构化数据的数据格式相同或者不同。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述管理服务器获取数据查询请求,将其中携带的查询关键信息发送给存储服务器;
所述存储服务器确定与所述查询关键信息相符的可选特征信息,并查找所述可选特征信息所属的可选特征文件;
所述存储服务器将所述可选特征文件反馈给所述管理服务器。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果不存在与所述查询关键信息相符的可选特征信息,所述存储服务器则确定所述查询关键信息的相似特征信息;
所述存储服务器查找所述相似特征信息所属的相似特征文件,并将所述相似特征文件反馈给所述管理服务器。
6.根据权利要求1所述的方法,其特征在于,所述存储服务器将所述目标非结构化数据存储至冷存储区之后,还包括:
如果所述目标非结构化数据的优先级大于预设优先级,所述存储服务器则在所述热存储区同时存储所述非结构化数据。
7.根据权利要求1所述的方法,其特征在于,所述存储服务器将所述目标特征文件存储至热存储区之前,还包括:
如果在已存储的所有特征文件中,存在与所述目标特征文件相同,或者相似程度大于预设数值的关联特征文件,所述存储服务器则将所述关联特征文件的非结构化数据发送给所述管理服务器。
8.一种管理数据的系统,其特征在于,所述系统包括管理服务器和存储服务器,其中:
所述管理服务器,用于接收目标非结构化数据的数据存储请求,将所述目标非结构化数据传输给所述存储服务器;
所述存储服务器,用于根据预设的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件,将所述目标特征文件存储至热存储区,并将所述目标非结构化数据存储至冷存储区。
9.根据权利要求8所述的系统,其特征在于,所述存储服务器,具体用于:
获取所述目标非结构化数据的数据属性;
根据预设的所述数据属性对应的特征提取标准,提取所述目标非结构化数据的特征信息,生成目标特征文件。
10.根据权利要求8所述的系统,其特征在于,所述目标特征文件中的特征信息的数据格式与所述目标非结构化数据的数据格式相同或者不同。
11.根据权利要求8所述的系统,其特征在于,所述管理服务器,还用于获取数据查询请求,将其中携带的查询关键信息发送给所述存储服务器;
所述存储服务器,还用于确定与所述查询关键信息相符的可选特征信息,并查找所述可选特征信息所属的可选特征文件,将所述可选特征文件反馈给所述管理服务器。
12.根据权利要求11所述的系统,其特征在于,所述存储服务器,还用于:
如果不存在与所述查询关键信息相符的可选特征信息,则确定所述查询关键信息的相似特征信息;
查找所述相似特征信息所属的相似特征文件,并将所述相似特征文件反馈给所述管理服务器。
13.根据权利要求8所述的系统,其特征在于,所述存储服务器,还用于:
在将所述目标非结构化数据存储至冷存储区之后,如果所述目标非结构化数据的优先级大于预设优先级,则在所述热存储区同时存储所述非结构化数据。
14.根据权利要求8所述的系统,其特征在于,所述存储服务器,还用于:
在将所述目标特征文件存储至热存储区之前,如果在已存储的所有特征文件中,存在与所述目标特征文件相同,或者相似程度大于预设数值的关联特征文件,则将所述关联特征文件的非结构化数据发送给所述管理服务器。
CN201711464034.6A 2017-12-28 2017-12-28 一种管理数据的方法和系统 Active CN108228101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711464034.6A CN108228101B (zh) 2017-12-28 2017-12-28 一种管理数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711464034.6A CN108228101B (zh) 2017-12-28 2017-12-28 一种管理数据的方法和系统

Publications (2)

Publication Number Publication Date
CN108228101A true CN108228101A (zh) 2018-06-29
CN108228101B CN108228101B (zh) 2022-03-15

Family

ID=62645570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711464034.6A Active CN108228101B (zh) 2017-12-28 2017-12-28 一种管理数据的方法和系统

Country Status (1)

Country Link
CN (1) CN108228101B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815500A (zh) * 2019-01-25 2019-05-28 杭州绿湾网络科技有限公司 非结构化公文的管理方法、装置、计算机设备及存储介质
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161780A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Hot data management method based on hit counter
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
US20150134733A1 (en) * 2013-11-08 2015-05-14 Rockwell Automation Technologies, Inc. Industrial monitoring using cloud computing
CN107037985A (zh) * 2017-02-14 2017-08-11 中山大学 一种超融合一体机系统及其横向和纵向扩容方法
CN107169075A (zh) * 2017-05-10 2017-09-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统
CN107194006A (zh) * 2017-06-19 2017-09-22 深圳警翼智能科技股份有限公司 一种视频特征结构化管理方法
CN107291746A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种存储和读取数据的方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161780A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Hot data management method based on hit counter
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
US20150134733A1 (en) * 2013-11-08 2015-05-14 Rockwell Automation Technologies, Inc. Industrial monitoring using cloud computing
CN107291746A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种存储和读取数据的方法及设备
CN107037985A (zh) * 2017-02-14 2017-08-11 中山大学 一种超融合一体机系统及其横向和纵向扩容方法
CN107169075A (zh) * 2017-05-10 2017-09-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统
CN107194006A (zh) * 2017-06-19 2017-09-22 深圳警翼智能科技股份有限公司 一种视频特征结构化管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李思宇,伍国华: "《数据库技术自考应试指导》", 31 May 2004, 南京大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815500A (zh) * 2019-01-25 2019-05-28 杭州绿湾网络科技有限公司 非结构化公文的管理方法、装置、计算机设备及存储介质
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN112395292B (zh) * 2020-11-25 2024-03-29 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Also Published As

Publication number Publication date
CN108228101B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
US8392472B1 (en) Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
JP6141305B2 (ja) 画像検索
JP5241954B2 (ja) 形状に基づく画像検索
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9361320B1 (en) Modeling big data
Fujimura et al. Topigraphy: visualization for large-scale tag clouds
US8949241B2 (en) Systems and methods for interactive disambiguation of data
US20210240757A1 (en) Automatic Detection and Transfer of Relevant Image Data to Content Collections
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2013541793A (ja) マルチモード検索クエリー入力手法
CN106970958B (zh) 一种流文件的查询与存储方法和装置
CN109558378A (zh) 文件管理方法、装置、设备及存储介质
US20120046937A1 (en) Semantic classification of variable data campaign information
CN108228101A (zh) 一种管理数据的方法和系统
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
JP6140835B2 (ja) 情報検索システムおよび情報検索方法
TW200807346A (en) Knowledge framework system and method for integrating a knowledge management system with an e-learning system
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US10169458B1 (en) Using a query log from a two-box interface to identify standalone locations
JPH11282874A (ja) 情報フィルタリング方法および装置
CN112947844A (zh) 一种数据存储方法、装置、电子设备及介质
KR20190104671A (ko) 콘텐츠 기반 클린 클라우드 시스템 및 그 방법
KR102023687B1 (ko) 서버의 이미지 공유 방법, 그리고 이를 구현한 시스템 및 어플리케이션
CN110825959B (zh) 数据发送方法及榜单数据获取模型的选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant