CN110516558B - 样本数据获取方法、装置、计算机设备及存储介质 - Google Patents

样本数据获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110516558B
CN110516558B CN201910707658.9A CN201910707658A CN110516558B CN 110516558 B CN110516558 B CN 110516558B CN 201910707658 A CN201910707658 A CN 201910707658A CN 110516558 B CN110516558 B CN 110516558B
Authority
CN
China
Prior art keywords
image
data
identification
vector
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910707658.9A
Other languages
English (en)
Other versions
CN110516558A (zh
Inventor
唐宇
骆少明
侯超钧
庄家俊
郭琪伟
褚璇
苗爱敏
陈亚勇
高升杰
程至尚
朱耀宗
陈家政
吴亮生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongkai University of Agriculture and Engineering
Original Assignee
Zhongkai University of Agriculture and Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongkai University of Agriculture and Engineering filed Critical Zhongkai University of Agriculture and Engineering
Priority to CN201910707658.9A priority Critical patent/CN110516558B/zh
Publication of CN110516558A publication Critical patent/CN110516558A/zh
Application granted granted Critical
Publication of CN110516558B publication Critical patent/CN110516558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种样本数据获取方法、装置、计算机设备及存储介质,在获取待识别图像之后,根据所述待识别图像组成待验证信息;将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;监控所述验证端返回的识别数据的数量;若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;将所述待识别图像和所述数据标签组成样本数据。通过智能地为待识别图像生成数据标签,并且组成样本数据,可以避免大量地数据标注工作,而且通过智能形成数据标签的方式,也保证了样本数据的准确性。

Description

样本数据获取方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种样本数据获取方法、装置、计算机设备及存储介质。
背景技术
随着平行计算、大数据、深度学习算法、神经网络算法和人脑芯片等技术的发展,人工智能技术得到了突飞猛进的发展。越来越多的人工智能技术应用到了生活或者工作的各个领域中,帮助人们决策、代替重复性工作、减少人工劳动力和成本。示例性地,在农业领域中,也开始出现了利用神经网络模型来进行植物或者昆虫的识别,以更好地促进农业自动化技术的发展。然后,由于样本数据的缺乏以及数据标注的繁琐,都制约着人工智能技术在农业领域的应用。
发明内容
本发明实施例提供一种样本数据获取方法、装置、计算机设备及存储介质,以解决样本数据的缺乏以及数据标注繁琐的问题。
一种样本数据获取方法,包括:
获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息;
将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;
监控所述验证端返回的识别数据的数量;
若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;
将所述待识别图像和所述数据标签组成样本数据;
所述根据所述待识别图像组成待验证信息,包括:
对所述待识别图像进行图像分割,得到分割图像;
将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息;
根据每一分割图像的类别信息为每一所述分割图像匹配提问信息;
将每一分割图像和对应的提问信息组成待验证信息。
一种样本数据获取装置,包括:
待识别图像获取模块,用于获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息;
识别数据接收模块,用于将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;
数量监控模块,用于监控所述验证端返回的识别数据的数量;
数据标签确定模块,用于在所述识别数据的数量达到预设的数量阈值时,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;
样本数据组成模块,用于将所述待识别图像和所述数据标签组成样本数据;
所述待识别图像获取模块包括:
图像分割单元,用于对所述待识别图像进行图像分割,得到分割图像;
类别信息获取单元,用于将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息;
信息匹配单元,用于根据每一分割图像的类别信息为每一所述分割图像匹配提问信息;
待验证信息组成单元,用于将每一分割图像和对应的提问信息组成待验证信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述样本数据获取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述样本数据获取方法的步骤。
上述样本数据获取方法、装置、计算机设备及存储介质中,在获取待识别图像之后,根据所述待识别图像组成待验证信息;将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;监控所述验证端返回的识别数据的数量;若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;将所述待识别图像和所述数据标签组成样本数据。通过智能地为待识别图像生成数据标签,并且组成样本数据,可以避免大量地数据标注工作,而且通过智能形成数据标签的方式,也保证了样本数据的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中样本数据获取方法的一应用环境示意图;
图2是本发明一实施例中样本数据获取方法的一流程图;
图3是本发明一实施例中样本数据获取方法的另一流程图;
图4是本发明一实施例中样本数据获取方法的另一流程图;
图5是本发明一实施例中样本数据获取方法的另一流程图;
图6是本发明一实施例中样本数据获取方法的另一流程图;
图7是本发明一实施例中样本数据获取装置的一示意图;
图8是本发明一实施例中样本数据获取装置的另一示意图;
图9是本发明一实施例中样本数据获取装置的另一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的样本数据获取方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)与验证端通过网络与服务端进行通信。服务端获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息;将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;监控所述验证端返回的识别数据的数量;若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;将所述待识别图像和所述数据标签组成样本数据。其中,客户端(计算机设备)和验证端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种样本数据获取方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S201:获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息。
其中,待识别图像为客户端采集的带有目标物的图像。该目标物可以为植物、动物或者其他对象。具体地,该待识别图像可以为具有图像采集功能的客户端采集的图像,或者该客户端从其他渠道获取到的图像。示例性地,客户端可以为无人机,该无人机通过采集室外区域中的某一植物的图像,然后将该图像发送至服务端,服务端即获取到该待识别图像。或者,该客户端也可以为虫害捕获装置,该虫害捕获装置采集其捕获到的虫害的图像之后,将该图像发送至服务端,服务端即获取到该待识别图像。
在得到待识别图像之后,根据所述待识别图像组成待验证信息。该待验证信息为引导验证端对待识别图像进行识别的信息。例如,待验证信息可以包括待识别图像和提问信息。该提问信息可以为文字信息和/语音信息。示例性的,该提问信息可以为“请问图像中是什么东西?”、“请问图像中是什么植物?”或者“请问图像中是什么动物?”等。
在一个具体实施方式中,在得到待识别图像之后,可以先对待识别图像进行一个类别的判断或者识别,例如,判断待识别图像是动物还是植物。在识别除该待识别图像的类别之后,再为该待识别图像匹配对应的提问信息,最终组成待验证信息。
S202:将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据。
其中,验证端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。可以理解地,验证端的数量不做限定,可以将待验证信息发送到大量不同的验证端中,再接收每一验证端返回的识别数据。进一步地,可以将待验证信息通过登陆验证信息的方式发送到验证端中。验证端再其界面上显示该待验证信息,以供用户回答或者输入该识别数据。示例性地,在应用程序的注册或者登录过程中,加入该待验证信息。验证端通过收集用户在注册或者登录过程中的针对待验证信息输入的识别数据,再将识别数据发送到服务端。
S203:监控所述验证端返回的识别数据的数量。
服务端接收验证端返回的识别数据,并监控返回的所述待识别图像的识别数据的数量。可选地,可以通过一个计数器来实现对所述验证端返回的识别数据的数量的监控。可以理解地,该识别数据的数量为所有验证端返回的识别数据的数量。
S204:若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签。
预先设置一数量阈值,该数量阈值可以根据实际场景需求来设定。可以理解地,该数量阈值数值越高,对应的后续数据标签的精度就越高,但是对应的采集时间可能也会增加。可以根据不同的应用需求进行数量阈值的设定。
在识别数据的数量达到预设的数量阈值之后,根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签。具体地,可以对其中的识别数据进行相互匹配,然后将匹配成功次数最多地识别数据确定为所述待识别图像的数据标签。其中的匹配可以通过字符串匹配算法或者正则匹配式来实现。可选地,也可以通过向量相似度算法来实现对识别数据的匹配过程。进一步地,若匹配成功次数较为接近,也可以筛选出排在最前面的几个数据,进行进一步地确认,可以通过识别模型或者发送到不同终端进行进一步地确认。
在一个具体实施方式中,可以设定一个匹配数量阈值,若没有一个识别数据的匹配成功次数超过该匹配数量阈值,则可以放弃为该待识别图像确定数据标签。可以继续收集该待识别图像的识别数据,或者对该待识别图像进行删除处理,以避免影响样本数据的质量。
S205:将所述待识别图像和所述数据标签组成样本数据。
在得到数据标签之后,将所述待识别图像和所述数据标签组成样本数据。该样本数据可以用于后续进行各种模型的训练或者验证。
在本实施例中,在获取待识别图像之后,根据所述待识别图像组成待验证信息;将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;监控所述验证端返回的识别数据的数量;若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;将所述待识别图像和所述数据标签组成样本数据。通过智能地为待识别图像生成数据标签,并且组成样本数据,可以避免大量地数据标注工作,而且通过智能形成数据标签的方式,也保证了样本数据的准确性。
在一个实施例中,如图3所示,所述根据所述待识别图像组成待验证信息,包括:
S301:对所述待识别图像进行图像分割,得到分割图像。
通过待识别图像算法将一幅图像中的多个相同或者不同的分离的目标物进行分割,以更好地进行后续地识别,也可以增加样本数据的数量。具体地,可以采用图像语义分割算法对待识别图像进行图像分割,得到分割图像。可选地,图像分割的算法可以为基于阈值的分割方法、基于边缘的分割方法、基于区域的分割方法、基于聚类分析的图像分割方法或者基于人工神经网络的分割方法等。分割图像的数量为至少一幅。
S302:将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息。
在得到分割图像之后,对每一分割图像进行类别的识别,以更智能地形成待验证信息。可选地,可以预先训练一类别识别模型,该类别识别模型可以通过预先采集的样本图像对神经网络模型进行训练得到。具体的类别可以根据实际需要进行设定。可选地,该类别识别模型可以识别的类别可以为动物或者植物。进一步地,可以作进一步的细分,例如对动物作进一步的细分。具体可以根据实际应用需要设置。将每一分割图像输入到预先训练好的类别识别模型中进行识别,即可以得到每一分割图像的类别信息。
在一个具体实施方式中,在将分割图像输入到类别识别模型中进行识别之前,还可以对分割图像归一化处理、图像增强处理等处理过程,以提高识别精度。
S303:根据每一分割图像的类别信息为每一所述分割图像匹配提问信息。
预先为不同的类别信息设置对应的提问信息,在每一分割图像通过类别识别模型得到类别信息之后,再根据该类别信息为每一所述分割图像匹配预先设置好的提问信息。例如,为类别信息为动物的分割图像匹配的提问信息为“请问图像中为什么动物?”。可选地,可以预先建立一个类别信息和提问信息的映射表格。该提问信息可以为文字信息或语音信息中的至少一项。
S304:将每一分割图像和对应的提问信息组成待验证信息。
在该步骤中,将分割图像和对应的提问信息组成待验证信息。
在本实施例中,先对所述待识别图像进行图像分割,得到分割图像;将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息;根据每一分割图像的类别信息为每一所述分割图像匹配提问信息;将每一分割图像和对应的提问信息组成待验证信息。通过对待识别图像的分割,进一步提高了对提问信息匹配的精度,也增加了后续样本数据的数量。
在一个实施例中,如图4所示,所述根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签,包括:
S401:将每一识别数据进行特征向量转化,并组成识别向量集。
对识别数据进行特征向量转化,以进行数据标签的确定。可选地,可以将识别数据进行字向量或者词向量的转化,得到每一识别数据对应的向量,并组成识别向量集。
S402:将预设数量的识别向量设置为初始聚类点,根据所述初始聚类点采用聚类算法对所述识别向量集进行聚类分析,得到不同的识别向量簇。
在该步骤中,通过将预设数量的识别向量设置为初始聚类点,该预设数量可以预先通过实际需要设定。聚类算法又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要分析方法。可选地,聚类算法可以为K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法或者凝聚层次聚类等算法实现。
优选地,采用K-Means(K均值)聚类算法对所述对识别向量集进行聚类分析,得到不同的识别向量簇。具体地,根据识别向量的数量设定K值,并将预设数量的识别向量为初始聚类点。当所有点都分配完毕后,对这个聚类簇中的所有点重新计算(例如计算平均值)得到该簇的新的中心点。然后再通过迭代的方式进行分配中心点和更新聚类簇的中心点的步骤,直至聚类簇的中心点的变化很小,或者达到指定的迭代次数。将符合预设数量的聚类簇作为识别向量簇。
S403:按照预设的向量距离计算每一识别向量簇的向量数量。
可以按照实际精度需求设定向量距离。再通过距离算法计算每一识别向量簇中每一识别向量到聚类簇中心的向量距离,例如:欧氏距离算法、曼哈顿距离算法、切比雪夫距离算法、闵可夫斯基距离算法、标准化欧氏距离算法、马氏距离或者汉明距离算法。统计每一识别向量簇中小于后者等于预设的向量距离的向量数据,即得到对应的识别向量簇的向量数量。
S404:将所述向量数量最多的识别向量簇确定为目标向量簇。
S405:确定所述目标向量簇的聚类中心,将与所述聚类中心距离最近的识别向量确定为目标向量。
通过向量数量来确定一个目标向量簇,该目标向量簇即为识别数据中相同或者相似度最高的体现。在确定目标向量簇之后,确定该目标向量簇的聚类中心,可以通过计算该目标向量簇的向量平均值来确定该聚类中心,并且进一步地将与所述聚类中心距离最近的识别向量确定为目标向量。
S406:将所述目标向量对应的识别数据确定为所述待识别图像的数据标签。
再通过目标向量反馈回来对应的识别数据,从而确定待识别图像的数据标签。
在本实施例中,通过将每一识别数据进行特征向量转化,并组成识别向量集;将预设数量的识别向量设置为初始聚类点,根据所述初始聚类点采用聚类算法对所述识别向量集进行聚类分析,得到不同的识别向量簇;按照预设的向量距离计算每一识别向量簇的向量数量;将所述向量数量最多的识别向量簇确定为目标向量簇;确定所述目标向量簇的聚类中心,将与所述聚类中心距离最近的识别向量确定为目标向量;将所述目标向量对应的识别数据确定为所述待识别图像的数据标签。通过向量转化并且采用聚类算法从识别数据中确定待识别图像的数据标签,保证了该数据标签确定的效率和精度。
在一个实施例中,如图5所示,在所述将所述待识别图像和所述数据标签组成样本数据之后,所述样本数据获取方法还包括:
S501:将所述待识别图像输入到预设的目标识别模型中,得到输出信息。
该目标识别模型为具体的目标物识别模型,用于识别对应的输入图像具体为什么目标。例如,识别输入的图像中的虫害为何种虫害,识别输入的图像中的植物为何种植物等。该预设的目标识别模型也可以通过预先训练神经网络模型得到。根据该目标识别模型,得到输出信息。可选地,可以根据上述实施例中类别识别模型识别的类别信息选择对应的目标识别模型。
S502:判断所述输出信息和所述数据标签是否一致。
判断该目标识别模型得到的输出信息和数据标签是否一致,即判断两者的结论是否一致。
S503:若所述输出信息和所述数据标签不一致,则将所述样本数据存储到预设的样本更新库中。
在该步骤中,若所述输出信息和所述数据标签不一致,则说明目标识别模型的输出信息有误,该目标识别模型在识别精度上还有待改善,因此,将所述样本数据存储到预设的样本更新库中。该样本更新库为预设的存储或者收集样本的数据库。具体地,可以根据不同地类别或者数据标签来为样本更新库进一步细化存储文件夹或者存储目录,以方便后续更好地管理样本更新库。
在本实施例中,通过将所述待识别图像输入到预设的目标识别模型中,得到输出信息;判断所述输出信息和所述数据标签是否一致;若所述输出信息和所述数据标签不一致,则将所述样本数据存储到预设的样本更新库中。即在输出信息和所述数据标签不一致时,将该样本数据存储到预设的样本更新库中,以有针对性地增加样本数据,更好地为后续保证各种模型训练的精度,提供了更好地数据支撑。
在一个实施例中,如图6所示,在所述将所述样本数据存储到预设的样本更新库中之后,所述样本数据获取方法还包括:
S601:监控所述样本更新库中的所述样本数据的数量。
S602:若所述样本数据的数量达到预设的触发阈值,则将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中。
预先设定一个触发阈值,当样本更新库中的样本数据的数量达到预设的触发阈值时,将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中。进一步地,可以为样本更新库中不同类型的样本数据分别设置触发阈值,不同类型的样本数据的触发阈值可以相同,也可以不同。将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中,进一步地,将将所述样本更新库中的所述样本数据加入到对应的所述目标识别模型中的训练样本。
S603:采用所述训练样本训练所述目标识别模型。
采用更新后的训练样本训练所述目标识别模型,更好地保证了目标识别模型的精度。可以保证目标识别模型的精度在不断地应用和调整中逐步提高其识别精度。
在本实施例中,持续监控所述样本更新库中的所述样本数据的数量;若所述样本数据的数量达到预设的触发阈值,则将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中;采用所述训练样本训练所述目标识别模型。保证了目标识别模型的精度在不断地应用和调整中逐步提高其识别精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种样本数据获取装置,该样本数据获取装置与上述实施例中样本数据获取方法一一对应。如图7所示,该样本数据获取装置包括待识别图像获取模块701、识别数据接收模块702、数量监控模块703、数据标签确定模块704和样本数据组成模块705。各功能模块详细说明如下:
待识别图像获取模块701,用于获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息。
识别数据接收模块702,用于将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据。
数量监控模块703,用于监控所述验证端返回的识别数据的数量。
数据标签确定模块704,用于在所述识别数据的数量达到预设的数量阈值时,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签。
样本数据组成模块705,用于将所述待识别图像和所述数据标签组成样本数据。
优选地,如图8所示,所述待识别图像获取模块701包括图像分割单元801、类别信息获取单元802、信息匹配单元803和待验证信息组成单元804。
图像分割单元801,用于对所述待识别图像进行图像分割,得到分割图像。
类别信息获取单元802,用于将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息。
信息匹配单元803,用于根据每一分割图像的类别信息为每一所述分割图像匹配提问信息。
待验证信息组成单元804,用于将每一分割图像和对应的提问信息组成待验证信息。
优选地,如图9所示,所述数据标签确定模块704包括向量转化单元901、识别向量簇获取单元902、向量数量计算单元903、目标向量簇确定单元904、目标向量确定单元905和数据标签确定单元906。
向量转化单元901,用于将每一识别数据进行特征向量转化,并组成识别向量集。
识别向量簇获取单元902,用于将预设数量的识别向量设置为初始聚类点,根据所述初始聚类点采用聚类算法对所述识别向量集进行聚类分析,得到不同的识别向量簇。
向量数量计算单元903,用于按照预设的向量距离计算每一识别向量簇的向量数量。
目标向量簇确定单元904,用于将所述向量数量最多的识别向量簇确定为目标向量簇。
目标向量确定单元905,用于确定所述目标向量簇的聚类中心,将与所述聚类中心距离最近的识别向量确定为目标向量。
数据标签确定单元906,用于将所述目标向量对应的识别数据确定为所述待识别图像的数据标签。
优选地,该样本数据获取装置还用于将所述待识别图像输入到预设的目标识别模型中,得到输出信息;判断所述输出信息和所述数据标签是否一致;若所述输出信息和所述数据标签不一致,则将所述样本数据存储到预设的样本更新库中。
优选地,该样本数据获取装置还用于监控所述样本更新库中的所述样本数据的数量;若所述样本数据的数量达到预设的触发阈值,则将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中;采用所述训练样本训练所述目标识别模型。
关于样本数据获取装置的具体限定可以参见上文中对于样本数据获取方法的限定,在此不再赘述。上述样本数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的样本数据获取方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据获取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的数据获取方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的数据获取方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种样本数据获取方法,其特征在于,包括:
获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息;
将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;
监控所述验证端返回的识别数据的数量;
若所述识别数据的数量达到预设的数量阈值,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;
将所述待识别图像和所述数据标签组成样本数据;
所述根据所述待识别图像组成待验证信息,包括:
对所述待识别图像进行图像分割,得到分割图像;
将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息;
根据每一分割图像的类别信息为每一所述分割图像匹配提问信息;
将每一分割图像和对应的提问信息组成待验证信息。
2.如权利要求1所述的样本数据获取方法,其特征在于,所述根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签,包括:
将每一识别数据进行特征向量转化,并组成识别向量集;
将预设数量的识别向量设置为初始聚类点,根据所述初始聚类点采用聚类算法对所述识别向量集进行聚类分析,得到不同的识别向量簇;
按照预设的向量距离计算每一识别向量簇的向量数量;
将所述向量数量最多的识别向量簇确定为目标向量簇;
确定所述目标向量簇的聚类中心,将与所述聚类中心距离最近的识别向量确定为目标向量;
将所述目标向量对应的识别数据确定为所述待识别图像的数据标签。
3.如权利要求1所述的样本数据获取方法,其特征在于,在所述将所述待识别图像和所述数据标签组成样本数据之后,所述样本数据获取方法还包括:
将所述待识别图像输入到预设的目标识别模型中,得到输出信息;
判断所述输出信息和所述数据标签是否一致;
若所述输出信息和所述数据标签不一致,则将所述样本数据存储到预设的样本更新库中。
4.如权利要求3所述的样本数据获取方法,其特征在于,在所述将所述样本数据存储到预设的样本更新库中之后,所述样本数据获取方法还包括:
监控所述样本更新库中的所述样本数据的数量;
若所述样本数据的数量达到预设的触发阈值,则将所述样本更新库中的所述样本数据加入到所述目标识别模型中的训练样本中;
采用所述训练样本训练所述目标识别模型。
5.一种样本数据获取装置,其特征在于,包括:
待识别图像获取模块,用于获取客户端发送的待识别图像,根据所述待识别图像组成待验证信息;
识别数据接收模块,用于将所述待验证信息发送到验证端中,并接收所述验证端返回的识别数据;
数量监控模块,用于监控所述验证端返回的识别数据的数量;
数据标签确定模块,用于在所述识别数据的数量达到预设的数量阈值时,则根据达到预设的数量阈值的识别数据确定所述待识别图像的数据标签;
样本数据组成模块,用于将所述待识别图像和所述数据标签组成样本数据;
所述待识别图像获取模块包括:
图像分割单元,用于对所述待识别图像进行图像分割,得到分割图像;
类别信息获取单元,用于将每一所述分割图像输入到类别识别模型中进行识别,得到每一分割图像的类别信息;
信息匹配单元,用于根据每一分割图像的类别信息为每一所述分割图像匹配提问信息;
待验证信息组成单元,用于将每一分割图像和对应的提问信息组成待验证信息。
6.如权利要求5所述的样本数据获取装置,其特征在于,所述数据标签确定模块包括:
向量转化单元,用于将每一识别数据进行特征向量转化,并组成识别向量集;
识别向量簇获取单元,用于将预设数量的识别向量设置为初始聚类点,根据所述初始聚类点采用聚类算法对所述识别向量集进行聚类分析,得到不同的识别向量簇;
向量数量计算单元,用于按照预设的向量距离计算每一识别向量簇的向量数量;
目标向量簇确定单元,用于将所述向量数量最多的识别向量簇确定为目标向量簇;
目标向量确定单元,用于确定所述目标向量簇的聚类中心,将与所述聚类中心距离最近的识别向量确定为目标向量;
数据标签确定单元,用于将所述目标向量对应的识别数据确定为所述待识别图像的数据标签。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述样本数据获取方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述样本数据获取方法的步骤。
CN201910707658.9A 2019-08-01 2019-08-01 样本数据获取方法、装置、计算机设备及存储介质 Active CN110516558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910707658.9A CN110516558B (zh) 2019-08-01 2019-08-01 样本数据获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910707658.9A CN110516558B (zh) 2019-08-01 2019-08-01 样本数据获取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110516558A CN110516558A (zh) 2019-11-29
CN110516558B true CN110516558B (zh) 2022-04-22

Family

ID=68625027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910707658.9A Active CN110516558B (zh) 2019-08-01 2019-08-01 样本数据获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110516558B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191706A (zh) * 2019-12-25 2020-05-22 深圳市赛维网络科技有限公司 图片识别的方法、装置、设备及存储介质
CN113298100A (zh) * 2020-02-21 2021-08-24 深圳码隆科技有限公司 一种数据清洗的方法、自助设备及存储介质
CN113465251B (zh) * 2020-05-28 2022-10-18 海信集团有限公司 智能冰箱及食材识别方法
CN113077015A (zh) * 2021-04-29 2021-07-06 平安科技(深圳)有限公司 样本选择方法、装置、计算机设备及存储介质
CN115049866A (zh) * 2022-05-17 2022-09-13 慧壹科技(上海)有限公司 一种化合物聚类的方法、装置、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN109213732A (zh) * 2018-06-28 2019-01-15 努比亚技术有限公司 一种改善相册分类的方法、移动终端及计算机可读存储介质
CN109740684A (zh) * 2019-01-08 2019-05-10 北京工业大学 共享单车入栏检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3107040A1 (en) * 2015-06-19 2016-12-21 Tata Consultancy Services Limited Assurance-enabled linde buzo gray (albg) data clustering based segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN109213732A (zh) * 2018-06-28 2019-01-15 努比亚技术有限公司 一种改善相册分类的方法、移动终端及计算机可读存储介质
CN109740684A (zh) * 2019-01-08 2019-05-10 北京工业大学 共享单车入栏检测方法及装置

Also Published As

Publication number Publication date
CN110516558A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516558B (zh) 样本数据获取方法、装置、计算机设备及存储介质
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
CN109783617B (zh) 用于答复问题的模型训练方法、装置、设备及存储介质
CN109472213B (zh) 掌纹识别方法、装置、计算机设备和存储介质
CN109086787B (zh) 用户画像获取方法、装置、计算机设备以及存储介质
CN109743624B (zh) 视频切割方法、装置、计算机设备和存储介质
CN109376759A (zh) 用户信息分类方法、装置、计算机设备和存储介质
CN108766545B (zh) 在线问诊科室分配方法、装置、计算机设备和存储介质
CN113283185B (zh) 联邦模型训练、客户画像方法、装置、设备及介质
WO2021082426A1 (zh) 人脸聚类方法、装置、计算机设备及存储介质
CN110544109A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN110880006B (zh) 用户分类方法、装置、计算机设备和存储介质
CN112035611B (zh) 目标用户推荐方法、装置、计算机设备和存储介质
CN110135943B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN113204660B (zh) 多媒体数据处理方法、标签识别方法、装置及电子设备
CN112434556A (zh) 宠物鼻纹识别方法、装置、计算机设备及存储介质
CN111832581A (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN111523479A (zh) 动物的生物特征识别方法、装置、计算机设备及存储介质
CN112069377A (zh) 会话信息数据处理方法、装置、计算机设备和存储介质
CN110688406A (zh) 数据处理方法、装置、计算机设备和存储介质
WO2021047189A1 (zh) 会话信息交互处理方法、装置、计算机设备和存储介质
CN110648052B (zh) 风控决策方法、装置、计算机设备和存储介质
CN110298684B (zh) 车型匹配方法、装置、计算机设备及存储介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant