CN109471717A - 样本库拆分方法、装置、计算机设备及存储介质 - Google Patents
样本库拆分方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109471717A CN109471717A CN201811183764.3A CN201811183764A CN109471717A CN 109471717 A CN109471717 A CN 109471717A CN 201811183764 A CN201811183764 A CN 201811183764A CN 109471717 A CN109471717 A CN 109471717A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature vectors
- sampling feature
- server
- word bank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/508—Monitor
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种样本库拆分方法、装置、计算机设备及存储介质,在检测服务器集群中每一服务器的性能数据之后,若检测到该服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息,并且根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,在对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库,并返回执行检测服务器集群中每一服务器的性能数据的步骤,直至检测到服务器集群中的每一个服务器的性能数据都没有超过容量阈值。检测到服务器性能数据超过容量阈值之后,通过分库的方式来缓解系统性能负担,并且样本子库可以提高后续识别的效率,进一步减轻服务器的存储负担。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种样本库拆分方法、装置、计算机设备及存储介质。
背景技术
近年来,随着人工智能技术的飞速发展,各种神经网络模型被应用到不同的应用场景中。而在使用各种神经网络模型时,往往会使用到各种样本库,对于一些应用场景而言,样本库的数据量是非常大的,例如:人脸识别、语义分析或者文字识别等。而目前的样本库基本都是单库或者固定式样本库,然而,在性能要求高的应用场景中,样本库数据量过大会为系统性能带来负担,而且影响后续的识别效率。
发明内容
本发明实施例提供一种样本库拆分方法、装置、计算机设备及存储介质,以解决样本库数据量过大而影响识别效率的问题。
一种样本库拆分方法,包括:
检测服务器集群中每一服务器的性能数据;
若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
一种样本库拆分装置,包括:
性能检测模块,用于检测服务器集群中每一服务器的性能数据;
样本拆分信息获取模块,用于若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
样本库拆分模块,用于根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
样本特征向量库获取模块,用于对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回检测模块,用于返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述样本库拆分方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述样本库拆分方法的步骤。
上述样本库拆分方法、装置、计算机设备及存储介质中,在检测服务器集群中每一服务器的性能数据之后,若检测到该服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息,并且根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,在对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库。通过检测到服务器性能数据超过容量阈值之后,根据样本拆分信息对样本库进行拆分,并且进行样本特征向量提取,得到对应的样本特征向量库。并返回执行检测服务器集群中每一服务器的性能数据的步骤,直至检测到服务器集群中的每一个服务器的性能数据都没有超过容量阈值。通过分库的方式来缓解系统性能负担,并且拆分之后的样本子库可以提高后续识别的效率,而预先形成样本特征向量库也可以进一步减轻服务器的存储负担,也提高了后续识别的识别效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中样本库拆分方法的一应用环境示意图;
图2是本发明一实施例中样本库拆分方法的一流程图;
图3是本发明一实施例中样本库拆分方法的另一流程图;
图4是本发明一实施例中样本库拆分方法的另一流程图;
图5是本发明一实施例中样本库拆分方法的另一流程图;
图6是本发明一实施例中样本库拆分方法的另一流程图;
图7是本发明一实施例中样本库拆分装置的一原理框图;
图8是本发明一实施例中样本库拆分装置的另一原理框图;
图9是本发明一实施例中样本库拆分装置的另一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的样本库拆分方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务端进行通信。服务端检测服务器集群中每一服务器的性能数据;若检测到该服务器集群的任一个服务器的性能数据超过容量阈值,则和客户端进行交互,以获取样本拆分信息;再根据样本拆分信息对样本库进行处理,最终得到样本子库和样本特征向量库。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。或者,本发明实施例提供的样本库拆分方法,可以单独应用到服务端中,服务端根据预先设置好的样本拆分信息来实现对样本库的拆分,最终得到样本子库和样本特征向量库。
在一实施例中,如图2所示,提供一种样本库拆分方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:检测服务器集群中每一服务器的性能数据。
其中,服务器集群是指由复数个服务器组成并执行相同服务的服务器集合。在本实施例中,该服务器集群中主要用于存储样本库。该服务器集群中服务器的数量可以根据实际需要进行设置,在此不做具体限定。具体地,服务器的性能数据可以包括服务器中数据库的QPS(Qeury Per Second,每秒查询次数)、TPS(Transaction Per Second,每秒事务次数)或数据库连接数至少一项。QPS是指数据库一秒钟能响应应用服务器查询的次数,该指标体现数据库吞吐能力;TPS是指数据库一秒内能处理业务提交事务的操作次数,该操作包含插入、修改和删除操作;数据连接数是指数据库在某个时刻所有线程数,包括活跃线程和非活跃线程数,活跃线程数是指线程状态不是Sleep状态,而非活跃连接数是指线程状态是Sleep状态的线程数。具体地,可以在Linux系统下,采用Grafana工具对QPS、TPS和数据库连接数进行检测。Grafana是一个数据监控和分析平台,并且Grafana还配只有可视化界面,可以更加直观地对各种数据进行检测。
在该步骤中,可以实时对服务器集群中每一服务器的性能数据进行检测,也可以采用定时检测的方式,每隔一预定时间就触发对服务器集群中每一服务器的性能数据进行检测的动作。该预定时间可以按照实际检测需要来设置,可以理解地,该预定时间设置的越短,检测的实时性就越高,该预定时间设置的越长,对系统的负担就越小。
S20:若检测到该服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息。
具体地,对于检测的性能数据,设定对应的容量阈值来进行衡量。可以理解地,对于不同的性能数据,设置有不同的容量阈值,示例性地,对应于QPS、TPS和数据库连接数,分别设置有QPS阈值、TPS阈值和连接阈值(包括非活跃线程数阈值和活跃线程数阈值)。例如,对于QPS这个性能数据,该QPS阈值可以设置为每秒2万次;对于TPS这个性能数据,该TPS阈值设置为每秒2000次;对于数据库连接数这个性能,该活跃线程数阈值可以设置为50个,该非线程数阈值可以设置为2000个。通过向该服务器集群中的每一个服务器发送心跳包,检测每一服务器的上述性能数据,并将对应的指标数据和预先设置好的容量阈值进行比较。优选地,可以检测一段时间内(例如,每10秒、15秒或者1分钟等)该服务器集群中每一个服务器对应的指标数据,并分别计算各项指标的每秒的平均值,在将该各项指标的平均值与该容量阈值进行比较。可以理解地,可以预先对性能数据超过容量阈值的条件进行限定,可以设置为任一项性能数据超过容量阈值,也可以设置为其中的两项性能数据超过容量阈值,或者设置为所有性能数据都超过容量阈值。
在将该各项指标的平均值与该容量阈值进行比较之后,若该服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息。样本拆分信息是指对样本库进行拆分的指引信息,用于对样本库的拆分条件进行限定。具体地,可以通过客户端获取到该样本拆分信息,在检测到该服务器集群的任一个服务器的性能数据超过容量阈值之后,向客户端发送一个提示信息,并接收客户端返回的样本拆分信息。或者,该样本拆分信息可以预先配置好并存储在服务端的数据库中,如此可以直接通过服务端的数据库获取到该样本拆分信息。
S30:根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数。
其中,样本子库是指对样本库拆分之后得到的复数个小的样本库,N为样本子库的数量,N为正整数。具体地,样本库中包括了大量的样本数据,而每一个样本数据都带有对应的属性标签,示例性地,若样本数据为人脸图像,则样本数据的属性标签可以包括用户名、性别、年龄、所属地区或者职业等个人信息。具体的属性标签可以根据样本数据的不同而定义。而样本拆分信息则是指示需要对服务器集群中的样本库按照何种标准进行拆分,若样本拆分信息指示了对样本库按照性别进行拆分,则样本拆分信息可以为性别。如此,在获取到样本拆分信息之后,对服务器集群中的样本库按照性别来拆分,此时将样本库拆分为两个样本子库。可选地,样本拆分信息还可以对样本库的其他拆分方式进行限定,例如:每个样本子库的数据量、每个样本子库中样本数据的排序方式或者样本子库的数量等。
S40:对N个样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库。
样本特征向量是指用于表征样本数据信息特征的向量,例如:HOG(Histogram ofOriented Gradient,梯度方向直方图)样本特征向量、LBP(Local Binary Patterns,局部二值模式)样本特征向量或PCA(Principal Component Analysis,主成分分析)样本特征向量等。样本特征向量能够以简单的数据表征图像信息,避免后续训练过程重复的提取操作。优选地,本实施例中可以提取样本数据的HOG样本特征向量。由于样本数据的HOG样本特征向量是通过样本数据的局部信息的梯度来描述,因此,提取样本数据的HOG样本特征向量能够避免样本数据中几何形变和光线变化等因素的影响。
在该步骤中,每个样本子库都包含了复数个样本数据,对每一样本子库中的样本数据都进行样本特征向量提取,并将在一个样本子库中提取得到的样本特征向量组成一个样本特性向量库。可以理解地,样本特征向量库中的每一个样本特征向量也继承了对应样本数据的属性标签,即每一个样本特征向量也带有对应样本数据的属性标签。
在一个具体实施方式中,可以提取每一样本数据的复数种样本特征向量,并组成不同的样本特性向量库。例如,对每一个样本数据,分别提取该样本数据的HOG样本特征向量和LBP样本特征向量,并分别组成HOG样本特性向量库和LBP样本特性向量库。如此,在后续面对不同的需要可以选择不同类型的样本特征向量库来进行处理,提高了处理效率和准确性。
在一个具体实施方式中,在对N个样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库的步骤之后,还可以将样本子库进行数据压缩,以减轻服务端的存储压力。或者,将样本子库转移到其他服务端或者客户端进行存储,在有需要时再进行获取操作。
为了减少在后续识别过程中提取样本数据对I/O口的消耗,以及为了加快提取的速度,从样本子库中进行样本数据中的样本特征向量提取,并将提取的样本特征向量存入预设的样本特征向量库中。可以理解地,该样本特征向量库是和对应的样本子库关联的。在样本子库中,图片格式的样本数据的大小通过为MB数量级,而样本特征向量的大小仅为KB数量级,通过样本特征向量库地设置,不仅缓解了服务端地存储压力,也减少了后续识别过程中重复地特征提取环节,减轻了系统的计算量,提高了识别效率。
S50:返回执行检测服务器集群中每一服务器的性能数据的步骤,直至检测到服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
在步骤S40之后,该样本库拆分方法还包括返回执行检测服务器集群中每一服务器的性能数据的步骤。若检测到服务器集群中的任一个服务器的性能数据都没有超过容量阈值,则停止检测服务器集群中每一服务器的性能数据。若检测到服务器集群中还存在任一个服务器的性能数据超过容量阈值,则继续执行步骤S20-S40的步骤,之后返回执行检测服务器集群中每一服务器的性能数据的步骤。如此循环执行上述步骤,直至检测到服务器集群中的任一个服务器的性能数据都没有超过容量阈值,以实现对服务端存储压力的缓解。
可选地,若检测到服务器集群中性能数据都超过容量阈值的服务器的数量超过一预设阈值,还可以发出增加服务器数量的请求,以提醒该服务器集群已接近超负荷运转,需要增加服务器。可选地,该预设阈值可以根据该服务器集群中服务器的数量而设置,示例性地,该预设阈值可以为服务器集群中所有服务器数量的75%、80%或者85%。
在本实施例中,在检测服务器集群中每一服务器的性能数据之后,若检测到该服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息,并且根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,在对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库。通过检测到服务器性能数据超过容量阈值之后,根据样本拆分信息对样本库进行拆分,并且进行样本特征向量提取,得到对应的样本特征向量库。并返回执行检测服务器集群中每一服务器的性能数据的步骤,直至检测到服务器集群中的每一个服务器的性能数据都没有超过容量阈值。通过分库的方式来缓解系统性能负担,并且拆分之后的样本子库可以提高后续识别的效率,而预先形成样本特征向量库也可以进一步减轻服务器的存储负担,也提高了后续识别的识别效率。
在一实施例中,如图3所示,步骤S30中,即根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数,具体包括如下步骤:
S31:从样本拆分信息中获取分库关键词。
具体地,分库关键词是指用于对样本库进行分库指引的词汇。在获取到的样本拆分信息中,获取到分库关键词。具体地,若样本拆分信息中仅是包含了对分库指引的词汇,例如:性别、年龄或者所属地区,则直接将该词汇提取出来,作为分库关键词即可。若样本拆分信息中还包括了对样本库的其他拆分方式进行限定,例如:每个样本子库的数据量、每个样本子库中样本数据的排序方式或者样本子库的数量等,则可以采用字符串匹配的方式,采用预设的字符串(例如:性别、年龄或者所属地区)在样本拆分信息中进行匹配,将匹配成功的字符串作为分库关键词。其中,匹配成功即是指采用预设的字符串在样本拆分信息中查询到对应的字符串。
优选地,样本拆分信息是以键值对的方式存在的。即样本拆分信息中包括了复数个元素,每一个元素包含一个键对象(key)和值对象(value),它们成对出现,键对象可以看成是值对象的索引,键对象在集合中不可重复。此时,可以通过查询代表分库指引的词汇的键对象(key),并将该键对象(key)对应的值对象(value)提取出来,作为分库关键词即可。
S32:根据分库关键词确定样本类别和每一样本类别的样本数量。
其中,样本类别是指根据分库关键词确定的样本数据的类别。例如,若分库关键词为性别,则根据样本数据中代表性别的属性标签来确定样本类别,并统计每一样本类别的样本数量,样本数量即是指每一样本类别的样本数据的数量。
S33:根据每一样本类别的样本数量确定样本子库的数量。
在确定每一样本类别的样本数量之后,确定出样本子库的数量。具体地,可以预先设定每一样本子库的样本数据的样本数量的上限值,再根据每一样本类别的样本数量和这个上限值来确定出样本子库的数量。示例性地,若分库关键词为性别,并确定样本类别为“男”和“女”,对应地样本类别“男”的样本数量为50000,样本类别“女”的样本数量为20000,而预先设定的每一样本子库的样本数据的样本数量的上限值为20000,则此时应该为样本类别“男”设定3个样本子库,为样本类别“女”设定1个样本子库,即样本子库的数量为4。
S34:根据样本类别和样本子库的数量对服务器集群中的样本库进行拆分,得到N个样本子库。
在该步骤中,根据样本类别和样本子库的数量对服务器集群中的样本库进行拆分,即将样本库中的样本数据根据样本类别划分到不同的样本子库中,并且每一样本类别根据确定好的样本子库的数量进行样本子库的设定,再将对应的样本数据划分到该样本类别对应的样本子库中,得到N个样本子库,N为正整数。
在一个具体实施方式中,可以通过预设的子库关键词对同一样本类别的样本数据进行划分,以保证再一个样本类别的样本数据需要划分到不同的样本子库中时,可以根据该子库关键词进行合理的划分。具体地,该子库关键词可以包含在样本拆分信息中,即在样本拆分信息中就预先设定子库关键词,通过键值对的方式包含在样本拆分信息中。
优选地,可以对样本数据中的每一属性标签进行统计,根据统计后的数据来确定该子库关键词。若一个样本类别的样本数据需要划分到3个样本子库中,则将优选选择属性标签的类别为3的属性标签确定为子库关键词。
在本实施例中,先从样本拆分信息中获取分库关键词,并根据分库关键词确定样本类别和每一样本类别的样本数量,进而根据每一样本类别的数量确定样本子库的数量,最后根据样本类别和样本子库的数量对服务器集群中的样本库进行拆分,得到N个样本子库。通过样本拆分信息合理地对样本库进行拆分,得到样本子库,保证了样本库分库的效率和灵活性。
在一实施例中,如图4所示,步骤S40中,即对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库,具体包括如下步骤:
S41:根据样本子库的数量,建立样本特征向量库,每一样本特征向量库包括一个样本特征向量表。
在该步骤中,根据样本子库的数量,来建立对应数量的样本特征向量库,以存储对应的样本特征向量,而每一样本特征向量库包括一个样本特征向量表。其中,对应数量可以为和样本子库的数量相同。可选地,样本特征向量库的数量也可以少于样本子库的数量,即有选择地将部分样本子库进行合并,具体可以根据实际需要而进行设定。
S42:获取每一样本子库中的样本数据。
具体地,从每一样本子库中获取样本数据,以便后续进行样本特征向量的提取。可选地,以样本子库为单位进行样本数据的获取,即先将一个样本子库中的样本数据提取出来,完成该样本子库的样本特征向量提取之后再获取下一个样本子库的样本数据。
S43:从样本数据中提取样本特征向量,将同一样本子库中提取的样本特征向量存储到同一个样本特征向量表中,并将样本特征向量表存入到对应的样本特征向量库中。
样本特征向量表是指用于存储样本特征向量的表格,而样本特征向量库则是用于存储样本特征向量表的数据库。在该步骤中,从样本数据中提取出样本特征向量,具体地,样本数据中包括样本图像和属性标签,从样本数据的样本图像中提取出样本特征向量,并将提取出来的样本特征向量和该样本数据的属性标签进行关联。之后将同一样本子库中提取的样本特征向量存储到同一个样本特征向量表中,可以理解地,该样本特征向量表包括样本特征向量和对应的属性标签。在得到样本特征向量表之后,再将样本特征向量表存入到对应的样本特征向量库中。
在这个实施例中,先根据样本子库的数量,建立样本特征向量库,并获取每一样本子库中的样本数据;从样本数据中提取样本特征向量,将同一样本子库中提取的样本特征向量存储到同一个样本特征向量表中,并将样本特征向量表存入到对应的样本特征向量库中。通过将样本子库中的样本数据转化成样本特征向量,并建立对应的样本特征向量库对样本特征向量进行储存,保证了样本特征向量库生成的效率。
在一实施例中,如图5所示,步骤S20中,获取样本拆分信息,具体包括如下步骤:
S21:发送样本库拆分请求至客户端。
其中,样本库拆分请求是指对样本库进行拆分的触发请求,该样本库拆分请求可以在检测到服务器集群的任一个服务器的性能数据超过容量阈值之后生成,生成该样本库拆分请求之后,发送该样本库拆分请求至客户端,以提醒客户端对样本库的拆分方式进行选择或者设置。
S22:接收客户端根据样本库拆分请求返回的拆分选择信息。
在将样本库拆分请求发送至客户端之后,用户可以在客户端中选择或者输入样本库的拆分方式,客户端根据用户的选择或者输入生成拆分选择信息,并将该拆分选择信息发送到服务端。具体地,在服务端中已经预先配置了一个默认的拆分方式,例如,默认根据年龄、性别或者所属地区对样本库进行拆分。若用户选择采用服务端预先配置的拆分方式对样本库进行拆分,则可以直接选择默认的拆分方式即可。若用户选择用自定义的方式来对样本库进行拆分,则可以通过客户端输入具体的拆分方式,形成样本拆分信息,并发送到服务端。
S23:若拆分选择信息为默认信息,则获取预存的默认拆分信息,并将默认拆分信息确定为样本拆分信息。
其中,默认信息指选择服务端预先配置了的默认的拆分方式。若用户在客户端中选择按照服务端预先配置了的默认的拆分方式对样本库进行拆分,则客户端生成的拆分选择信息为默认信息。服务端在接收到该默认信息之后,从服务端中获取到预存的默认拆分信息,并将默认拆分信息确定为样本拆分信息。
在一个具体实施方式中,若拆分选择信息为自定义信息,则将自定义信息确定为样本拆分信息。在该实施方式中,用户选择了一个自定义的拆分方式,并且在客户端输入了该自定义的拆分方式,具体可以包括拆分的关键词、每个样本子库的数据量、每个样本子库中样本数据的排序方式或者样本子库的数量等。客户端根据用户输入的信息生成拆分选择信息(自定义信息),并将该自定义信息发送到服务端,服务端获取到该自定义信息之后,将该自定义信息确定为样本拆分信息。
在这个实施例中,通过发送样本库拆分请求至客户端;然后接收客户端根据所述样本库拆分请求返回的拆分选择信息;若拆分选择信息为默认信息,则从数据库中获取预存的默认拆分信息,并将默认拆分信息确定为样本拆分信息。通过和客户端的交互来进行对样本库的拆分,根据客户端的返回信息来形成样本拆分信息,保证了样本库拆分的灵活性,并且在服务端预置了默认拆分信息,也保证了样本库拆分的效率。
在一实施例中,如图6所示,在对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库的步骤之后,该样本库拆分方法还包括如下步骤:
S51:获取样本库更新信息,样本库更新信息包括更新样本数据和更新样本数据对应的图像信息。
其中,样本库更新信息是指样本库中新增加的样本数据的相关信息,具体地,样本库更新信息包括更新样本数据和更新样本数据对应的图像信息。图像信息可以包括样本数据的属性标签,还可以在此基础上增加一个字段,来标识该更新样本数据是新增加的数据。
具体地,可以预先设置一时间阈值,并根据该时间阈值定时获取样本库更新信息,例如,设置时间阈值为24小时,即每隔24小时就获取样本库更新信息。或者,实时统计样本库更新信息中新增的样本数据的数量,当新增的样本数据的数量超过一预设的数量阈值时,触发执行该获取样本库更新信息的动作。
S52:对更新样本数据进行样本特征向量提取,得到更新图像特征向量。
具体地,该步骤可以和步骤S43相同,在此不再赘述。
S53:根据图像信息将更新样本数据和对应的更新图像特征向量分别划分到对应的样本子库和样本特征向量库中。
根据图像信息确定该更新样本数据属于哪一样本子库,该更新图像特征向量输入哪一样本特征向量库,并将该更新样本数据划分到对应的样本子库中,将更新图像特征向量划分到对应的样本特征向量库中。
在本实施例中,先获取样本库更新信息,并对更新样本数据进行样本特征向量提取,得到更新图像特征向量;再根据图像信息将更新样本数据和对应的更新图像特征向量分别划分到对应的样本子库和所述样本特征向量库中。通过对样本子库和样本特征向量库的更新,来保证数据的实时性,也进一步保证后续识别的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种样本库拆分装置,该样本库拆分装置与上述实施例中样本库拆分方法一一对应。如图7所示,该样本库拆分装置包括性能检测模块10、样本拆分信息获取模块20、样本库拆分模块30、样本特征向量库获取模块40和返回检测模块50。各功能模块详细说明如下:
性能检测模块10,用于检测服务器集群中每一服务器的性能数据。
样本拆分信息获取模块20,用于若检测到服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息。
样本库拆分模块30,用于根据样本拆分信息对服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数。
样本特征向量库获取模块40,用于对N个样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库。
返回检测模块50,用于返回执行检测服务器集群中每一服务器的性能数据的步骤,直至检测到服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
优选地,如图8所示,样本库拆分模块30包括分库关键词获取单元31、样本类别确定单元32、样本子库数量确定单元33和样本子库获取单元34。
分库关键词获取单元31,用于从样本拆分信息中获取分库关键词;
样本类别确定单元32,用于根据分库关键词确定样本类别和每一样本类别的样本数量;
样本子库数量确定单元33,用于根据每一样本类别的样本数量确定样本子库的数量;
样本子库获取单元34,用于根据样本类别和样本子库的数量对服务器集群中的样本库进行拆分,得到N个样本子库。
优选地,如图9所示,样本特征向量库获取模块40包括样本特征向量库建立单元41、样本数据获取单元42和样本特征向量表获取单元43。
样本特征向量库建立单元41,用于根据样本子库的数量,建立样本特征向量库,每一样本特征向量库包括一个样本特征向量表。
样本数据获取单元42,用于获取每一样本子库中的样本数据。
样本特征向量表获取单元43,用于从样本数据中提取样本特征向量,将同一样本子库中提取的样本特征向量存储到同一个样本特征向量表中,并将样本特征向量表存入到对应的样本特征向量库中。
优选地,样本拆分信息获取模块20包括拆分请求发送单元、拆分选择信息接收单元和样本拆分信息确定单元。
拆分请求发送单元,用于发送样本库拆分请求至客户端。
拆分选择信息接收单元,用于接收客户端根据样本库拆分请求返回的拆分选择信息。
样本拆分信息确定单元,用于若拆分选择信息为默认信息,则获取预存的默认拆分信息,并将默认拆分信息确定为样本拆分信息。
优选地,该样本库拆分装置还包括样本库更新信息获取模块、更新图像特征向量获取模块和样本数据更新模块。
样本库更新信息获取模块,用于获取样本库更新信息,样本库更新信息包括更新样本数据和更新样本数据对应的图像信息。
更新图像特征向量获取模块,用于对更新样本数据进行样本特征向量提取,得到更新图像特征向量。
样本数据更新模块,用于根据图像信息将更新样本数据和对应的更新图像特征向量分别划分到对应的样本子库和样本特征向量库中。
关于样本库拆分装置的具体限定可以参见上文中对于样本库拆分方法的限定,在此不再赘述。上述样本库拆分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述样本库拆分方法用使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本库拆分方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
检测服务器集群中每一服务器的性能数据;
若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
检测服务器集群中每一服务器的性能数据;
若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种样本库拆分方法,其特征在于,包括:
检测服务器集群中每一服务器的性能数据;
若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
2.如权利要求1所述的样本库拆分方法,其特征在于,所述根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,具体包括如下步骤:
从所述样本拆分信息中获取分库关键词;
根据所述分库关键词确定样本类别和每一所述样本类别的样本数量;
根据每一所述样本类别的样本数量确定样本子库的数量;
根据所述样本类别和所述样本子库的数量对所述服务器集群中的所述样本库进行拆分,得到N个样本子库。
3.如权利要求1所述的样本库拆分方法,其特征在于,所述对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库,具体包括如下步骤:
根据所述样本子库的数量,建立样本特征向量库,每一所述样本特征向量库包括一个样本特征向量表;
获取每一所述样本子库中的样本数据;
从所述样本数据中提取样本特征向量,将同一所述样本子库中提取的样本特征向量存储到同一个样本特征向量表中,并将所述样本特征向量表存入到对应的样本特征向量库中。
4.如权利要求1所述的样本库拆分方法,其特征在于,所述获取样本拆分信息,具体包括如下步骤:
发送样本库拆分请求至客户端;
接收客户端根据所述样本库拆分请求返回的拆分选择信息;
若所述拆分选择信息为默认信息,则获取预存的默认拆分信息,并将所述默认拆分信息确定为样本拆分信息。
5.如权利要求1所述的样本库拆分方法,其特征在于,在所述对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库的步骤之后,所述样本库拆分方法还包括如下步骤:
获取样本库更新信息,所述样本库更新信息包括更新样本数据和所述更新样本数据对应的图像信息;
对所述更新样本数据进行样本特征向量提取,得到更新图像特征向量;
根据所述图像信息将所述更新样本数据和对应的所述更新图像特征向量分别划分到对应的所述样本子库和所述样本特征向量库中。
6.一种样本库拆分装置,其特征在于,包括:
性能检测模块,用于检测服务器集群中每一服务器的性能数据;
样本拆分信息获取模块,用于若检测到所述服务器集群的任一个服务器的性能数据超过容量阈值,则获取样本拆分信息;
样本库拆分模块,用于根据所述样本拆分信息对所述服务器集群中的样本库进行拆分,得到N个样本子库,其中,N为正整数;
样本特征向量库获取模块,用于对N个所述样本子库中的样本数据进行样本特征向量提取,得到对应的N个样本特征向量库;
返回检测模块,用于返回执行所述检测服务器集群中每一服务器的性能数据的步骤,直至检测到所述服务器集群中的每一个服务器的性能数据都没有超过容量阈值。
7.如权利要求6所述的样本库拆分装置,其特征在于,所述样本库拆分模块包括:
分库关键词获取单元,用于从所述样本拆分信息中获取分库关键词;
样本类别确定单元,用于根据所述分库关键词确定样本类别和每一所述样本类别的样本数量;
样本子库数量确定单元,用于根据每一所述样本类别的样本数量确定样本子库的数量;
样本子库获取单元,用于根据所述样本类别和所述样本子库的数量对所述服务器集群中的所述样本库进行拆分,得到N个样本子库。
8.如权利要求6所述的样本库拆分装置,其特征在于,所述样本特征向量库获取模块包括:
样本特征向量库建立单元,用于根据所述样本子库的数量,建立样本特征向量库,每一所述样本特征向量库包括一个样本特征向量表;
样本数据获取单元,用于获取每一所述样本子库中的样本数据;
样本特征向量表获取单元,用于从所述样本数据中提取样本特征向量,将同一所述样本子库中提取的样本特征向量存储到同一个样本特征向量表中,并将所述样本特征向量表存入到对应的样本特征向量库中。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述样本库拆分方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述样本库拆分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811183764.3A CN109471717A (zh) | 2018-10-11 | 2018-10-11 | 样本库拆分方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811183764.3A CN109471717A (zh) | 2018-10-11 | 2018-10-11 | 样本库拆分方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109471717A true CN109471717A (zh) | 2019-03-15 |
Family
ID=65663909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811183764.3A Pending CN109471717A (zh) | 2018-10-11 | 2018-10-11 | 样本库拆分方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471717A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210307A (zh) * | 2019-04-30 | 2019-09-06 | 中国银联股份有限公司 | 人脸样本库部署方法、基于人脸识别业务处理方法及装置 |
CN114637736A (zh) * | 2022-03-09 | 2022-06-17 | 北京金堤科技有限公司 | 一种数据库拆分方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275556A (ja) * | 2004-03-23 | 2005-10-06 | Toshiba Solutions Corp | 分割クラスタリング装置及び分割データ数決定方法 |
CN103793424A (zh) * | 2012-10-31 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 数据库数据迁移方法及系统 |
CN104283737A (zh) * | 2014-09-30 | 2015-01-14 | 杭州华为数字技术有限公司 | 数据流的处理方法和装置 |
CN106202212A (zh) * | 2016-06-28 | 2016-12-07 | 微梦创科网络科技(中国)有限公司 | 一种基于数据服务器集群实现数据拆分的方法及系统 |
CN106529515A (zh) * | 2016-12-26 | 2017-03-22 | 浙江宇视科技有限公司 | 面部特征库管理方法及系统 |
-
2018
- 2018-10-11 CN CN201811183764.3A patent/CN109471717A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275556A (ja) * | 2004-03-23 | 2005-10-06 | Toshiba Solutions Corp | 分割クラスタリング装置及び分割データ数決定方法 |
CN103793424A (zh) * | 2012-10-31 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 数据库数据迁移方法及系统 |
CN104283737A (zh) * | 2014-09-30 | 2015-01-14 | 杭州华为数字技术有限公司 | 数据流的处理方法和装置 |
CN106202212A (zh) * | 2016-06-28 | 2016-12-07 | 微梦创科网络科技(中国)有限公司 | 一种基于数据服务器集群实现数据拆分的方法及系统 |
CN106529515A (zh) * | 2016-12-26 | 2017-03-22 | 浙江宇视科技有限公司 | 面部特征库管理方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210307A (zh) * | 2019-04-30 | 2019-09-06 | 中国银联股份有限公司 | 人脸样本库部署方法、基于人脸识别业务处理方法及装置 |
WO2020220779A1 (zh) * | 2019-04-30 | 2020-11-05 | 中国银联股份有限公司 | 人脸样本库部署方法、基于人脸识别业务处理方法及装置 |
CN110210307B (zh) * | 2019-04-30 | 2023-11-28 | 中国银联股份有限公司 | 人脸样本库部署方法、基于人脸识别业务处理方法及装置 |
US11893829B2 (en) * | 2019-04-30 | 2024-02-06 | China Union Pay Co., Ltd. | Method for deploying a face sample library and method and apparatus for business processing based on face recognition |
CN114637736A (zh) * | 2022-03-09 | 2022-06-17 | 北京金堤科技有限公司 | 一种数据库拆分方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729383B (zh) | 双录视频质量检测方法、装置、计算机设备和存储介质 | |
CN112330685B (zh) | 图像分割模型训练、图像分割方法、装置及电子设备 | |
CN109508638A (zh) | 人脸情绪识别方法、装置、计算机设备及存储介质 | |
CN109472213B (zh) | 掌纹识别方法、装置、计算机设备和存储介质 | |
CN108876133A (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN109871490B (zh) | 媒体资源匹配方法、装置、存储介质和计算机设备 | |
CN112270686B (zh) | 图像分割模型训练、图像分割方法、装置及电子设备 | |
EP3617946A1 (en) | Context acquisition method and device based on voice interaction | |
CN109271917B (zh) | 人脸识别方法、装置、计算机设备和可读存储介质 | |
CN111160275B (zh) | 行人重识别模型训练方法、装置、计算机设备和存储介质 | |
CN109858958A (zh) | 基于微表情的目标客户定位方法、装置、设备及存储介质 | |
CN104766062A (zh) | 基于轻量级智能终端的人脸识别系统及注册、识别方法 | |
CN110751533A (zh) | 产品画像生成方法、装置、计算机设备和存储介质 | |
CN109886110A (zh) | 微表情评分方法、装置、计算机设备及存储介质 | |
CN111832581B (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
CN109376598A (zh) | 面部表情图片处理方法、装置、计算机设备和存储介质 | |
CN110516558A (zh) | 样本数据获取方法、装置、计算机设备及存储介质 | |
CN110555164A (zh) | 群体兴趣标签的生成方法、装置、计算机设备和存储介质 | |
CN109471717A (zh) | 样本库拆分方法、装置、计算机设备及存储介质 | |
CN112258238A (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN110457361B (zh) | 特征数据获取方法、装置、计算机设备和存储介质 | |
CN110163151B (zh) | 人脸模型的训练方法、装置、计算机设备和存储介质 | |
CN113704511B (zh) | 多媒体资源的推荐方法、装置、电子设备及存储介质 | |
CN113032621A (zh) | 数据采样方法、装置、计算机设备和存储介质 | |
US20220101407A1 (en) | Method for determining a recommended product, electronic apparatus, and non-transitory computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |