CN110503150A

CN110503150A - 样本数据采集方法、装置及存储介质

Info

Publication number: CN110503150A
Application number: CN201910790098.8A
Authority: CN
Inventors: 王展; 胡小鹏; 顾振华
Original assignee: Suzhou Kodak Technology Co Ltd
Current assignee: Suzhou Kodak Technology Co Ltd; Suzhou Keda Technology Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-26

Abstract

本申请涉及一种样本数据采集方法、装置及存储介质，属于计算机技术领域，该方法包括：确定当前图像识别场景中是否存在待识别对象；在存在待识别对象时，采集当前图像识别场景的音频信息和图像数据；对音频信息进行声纹识别，得到音频信息对应的对象信息；将图像数据和对应的对象信息构成一组样本数据；可以解决人工拍摄图像数据、标记图像数据中待识别对象的对象信息时，样本数据获取效率较低的问题；由于采集过程全程无需人工参与，且可以在日常生活工作中逐渐收集，既可以扩大样本数据的采集数量，又可以提高样本数据的采集效率。

Description

样本数据采集方法、装置及存储介质

技术领域

本申请涉及样本数据采集方法、装置及存储介质，属于计算机技术领域。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能由不同的领域组成，如机器学习，计算机视觉等。人工智能在计算机上实现时，可以使用人工神经网络(Artificial Neural Network，ANN)来模拟人或动物大脑中神经细胞的活动方式。

人工神经网络在使用之前需要使用训练集进行训练，在训练完成后需要使用测试集对神经网络的模型性能进行测试。测试集和训练集中包括多组样本数据。训练集和测试集中样本数据的数量对人工神经网络的模型性能影响很大。样本数据越多，神经网络的输出结果的准确性越高。

以视频会议中用于识别会议的参会者的神经网络为例，在训练该神经网络之前，需要人工拍摄参会者的大量图像；然后，对每张图像中的参会者进行标注，得到参会者信息，从而得到多组样本数据。每组样本数据包括一张图像和该图像对应的参会者信息。

但是，人工拍摄图像、人工标记参会者信息来采集样本数据的过程效率较低。

发明内容

本申请提供了一种样本数据采集方法、装置及存储介质；可以解决人工拍摄图像数据、标记图像数据中待识别对象的对象信息时，样本数据获取效率较低的问题。本申请提供如下技术方案：

第一方面，提供了一种样本数据采集方法，所述方法包括：

确定当前图像识别场景中是否存在待识别对象；

在存在所述待识别对象时，采集所述当前图像识别场景的音频信息和图像数据；

对所述音频信息进行声纹识别，得到所述音频信息对应的对象信息；

将所述图像数据和对应的对象信息构成一组样本数据，所述样本数据用于训练识别模型，所述识别模型用于在所述图像识别场景的图像中识别所述待识别对象的图像。

可选地，所述采集所述当前图像识别场景的音频信息和图像数据之后，包括：

在已获取的图像数据中筛除无效图像数据。

可选地，所述在已获取的样本数据中筛除无效样本数据，包括：

按照获取时间从前至后的顺序对所述已获取的图像数据进行排序；

对于排序后的每张图像数据，在所述图像数据的获取时间与上一张排序后的图像数据的获取时间之差小于或等于时间阈值时，删除所述图像数据或者删除所述上一张排序后的图像数据。

对于已获取的每张图像数据，将所述图像数据与上一张的图像数据进行相似度比较；

在所述图像数据与上一张图像数据之间的相似度大于或等于相似度阈值时，删除所述图像数据或者删除所述上一张排序后的图像数据。

对于排序后的每张图像数据，在所述图像数据的获取时间与上一张排序后的图像数据的获取时间之差小于或等于时间阈值、且所述图像数据与上一张排序后的图像数据之间的相似度大于或等于相似度阈值时，删除所述图像数据或者删除所述上一张排序后的图像数据。

可选地，所述方法还包括：

使用感知哈希算法获取每张图像数据的图像指纹，所述图像指纹用于对不同的图像数据进行相似度比较。

可选地，所述确定当前图像识别场景中是否存在待识别对象，包括：

获取所述当前图像识别场景中接近传感器的检测结果，所述检测结果用于指示是否存在所述待识别对象接近；

在所述检测结果指示存在所述待识别对象接近时，确定所述当前图像识别场景存在所述待识别对象。

可选地，所述当前图像识别场景为包括视频会议终端的场景，所述采集所述当前图像识别场景的音频信息和图像数据，包括：

在使用所述视频会议终端进行视频会议时，获取所述视频会议终端采集到的参会者的音频信息和图像数据；

在未使用所述视频会议终端进行视频会议时，获取所述当前图像识别场景中的音频采集设备采集到的音频信息；并获取所述视频会议终端采集到的图像数据。

第二方面，提供了一种样本数据采集装置，所述装置包括：

对象感知模块，用于确定当前图像识别场景中是否存在待识别对象；

数据采集模块，用于在存在所述待识别对象时，采集所述当前图像识别场景的音频信息和图像数据；

声纹识别模块，用于对所述音频信息进行声纹识别，得到所述音频信息对应的对象信息；

数据生成模块，用于将所述图像数据和对应的对象信息构成一组样本数据，所述样本数据用于训练识别模型，所述识别模型用于在所述图像识别场景的图像中识别所述待识别对象的图像。

第三方面，提供一种样本数据采集装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的样本数据采集方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的样本数据采集方法。

本申请的有益效果在于：通过确定当前图像识别场景中是否存在待识别对象；在存在待识别对象时，采集当前图像识别场景的音频信息和图像数据；对音频信息进行声纹识别，得到音频信息对应的对象信息；将图像数据和对应的对象信息构成一组样本数据；可以解决人工拍摄图像数据、标记图像数据中待识别对象的对象信息时，样本数据获取效率较低的问题；由于可以在图像识别场景中存在待识别对象时自动采集音频信息以识别对应的对象信息，并采集该场景的图像数据，从而建立图像数据与对象信息的对应关系，得到样本数据；采集过程全程无需人工参与，且可以在日常生活工作中逐渐收集，既可以扩大样本数据的采集数量，又可以提高样本数据的采集效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的图像识别场景的结构示意图；

图2是本申请一个实施例提供的样本数据采集方法的流程图；

图3是本申请一个实施例提供的图像指纹获取方法的流程图；

图4是本申请一个实施例提供的图像数据筛选方法的流程图；

图5是本申请另一个实施例提供的样本数据采集方法的流程图；

图6是本申请一个实施例提供的样本数据采集装置的框图；

图7是本申请一个实施例提供的样本数据采集装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

可选地，本申请提供的样本数据采集方法的应用场景包括但不限于以下图像识别场景：

1、包括视频会议终端的场景，参考图1所示的包括视频会议终端的场景，该场景包括场景入口，用于检测场景入口是否存在待识别对象的接近传感器11、位于场景中其他位置的接近传感器12、音频采集设备13、视频会议终端14和样本数据采集终端15。

其中，接近传感器11和12是以无需接触待识别对象进行接近检测为目的的传感器的总称。接近传感器也可以称为接近感应器、人体感应器、人体接近传感器等，本实施例不对接近传感器的名称作限定。可选地，接近传感器11和12采用基于微波多普勒技术的传感器，该传感器抗干扰强，不会被同一场景中的其他电子设备的电磁和红外所干扰，能够保证良好的识别率。

接近传感器11和接近传感器12的数量可以是一个；或者，也可以是多个，本实施例不对接近传感器11和接近传感器12的数量作限定。

音频采集设备13可以是麦克风、或者也可以是安装有麦克风组件的其他电子设备，比如：手机、平板电脑、录音笔等，本实施例不对音频采集设备13的类型作限定。可选地，音频采集设备13为支持360°拾音的界面麦克风，从而保证能够拾取整个场景中的音频信息。

视频会议终端14用于供处于不同地点的参会者进行视频会议。视频会议终端14集成有摄像头、显示设备、麦克风、音响等组件。

样本数据采集终端15用于采集样本数据，该样本数据采集终端15可以是计算机、便携式个人计算机、手机、平板电脑、服务器等，本实施例不对样本数据采集终端15的类型作限定。

其中，接近传感器11、位于场景中其他位置的接近传感器12、音频采集设备13和视频会议终端14均与样本数据采集终端15通信相连。

图1中以在会议室门口上方安置一个接近传感器11，用来探测人员的进出；在会议室桌子上安置一个接近传感器12，用来探测在桌子周围是否有人员；在会议室桌子上安置麦克风13，用来采集会议室人声为例进行说明，在实际实现时接近传感器11、12以及麦克风13的位置也可以是在其他位置，本申请对此不作限定。

当然，包括视频会议终端的场景还可以包括其他设备，比如：与样本数据采集终端15通信相连的交换机、与交换机相连的服务器等，这样，样本数据采集终端15可以通过交换机与服务器实现数据交换，本实施例不对该场景中的设备作限定。

2、考勤场景。该场景至少包括设置于场景入口的接近传感器、摄像头、音频采集设备和样本数据采集终端。

当然，图像识别场景还可以是其他场景，本申请在此不再一一列举。

可选地，本申请以各个实施例的执行主体为样本数据采集终端为例进行说明，该样本数据采集终端可以是计算机、便携式个人计算机、手机、平板电脑、服务器等，本实施例不对样本数据采集终端的类型作限定。

图2是本申请一个实施例提供的样本数据采集方法的流程图。该方法至少包括以下几个步骤：

步骤201，确定当前图像识别场景中是否存在待识别对象。

可选地，样本数据采集终端获取当前图像识别场景中接近传感器的检测结果；在检测结果指示存在待识别对象接近时，确定当前图像识别场景存在待识别对象。在检测结果指示不存在待识别对象接近时，确定当前图像识别场景不存在待识别对象。其中，检测结果用于指示是否存在待识别对象接近。

其中，待识别对象可以是人、动物等具有唯一的音频特征的对象，以使样本数据采集终端能够根据待识别对象发出的音频信息确定出对应的对象信息。对象信息可以是待识别对象的名称、年龄、身高、性别、职位等信息，本实施例不对对象信息的具体内容作限定。

接近传感器的数量可以是一个；或者，也可以是多个，本实施例不对接近传感器的数量作限定。

步骤202，在存在待识别对象时，采集当前图像识别场景的音频信息和图像数据。

可选地，样本数据采集终端在接近传感器的检测结果指示当前图像识别场景存在待识别对象时，控制音频采集设备采集音频信息；控制图像采集设备采集图像数据。

其中，音频信息和图像数据可以是同时采集到的；或者，也可以分别采集到的，本实施例不对音频信息和图像数据的采集时机和采集顺序作限定。

可选地，音频信息可以是待识别对象发出的音频信息；或者，也可以是经过音频采集设备处理后的音频信息，比如：经过声学回声消除(Acoustic EchoCancellation，AEC)处理后的音频信息。

在一个示例中，当前图像识别场景为包括视频会议终端的场景。

在使用视频会议终端进行视频会议时，样本数据采集终端获取视频会议终端采集到的参会者的音频信息和图像数据。在未使用视频会议终端进行视频会议时，样本数据采集终端获取当前图像识别场景中的音频采集设备采集到的音频信息；并获取视频会议终端采集到的图像数据。其中，音频采集设备是与视频会议终端相独立的设备，比如：麦克风等。

比如：基于图1所示的图像识别场景，若门口接近传感器感应到有人员进入会议室，则样本数据采集终端控制视频会议终端进行拍照，并将拍摄得到的图像数据下载至样本数据采集；若桌面接近传感器感应到有人员在周围，则样本数据采集控制视频会议终端按照固定时间间隔进行拍照。

样本数据采集终端还会获取视频会议终端的工作状态，若该工作状态指示视频会议终端未处于视频会议状态，则使用桌面麦克风采集音频信息；若该工作状态指示视频会议终端处于视频会议状态，则从视频会议终端获取AEC处理后音频信息。

可选地，样本数据采集终端还可以在已获取的图像数据中筛除无效图像数据。其中，在已获取的图像数据中筛除无效图像数据，包括但不限于以下几种方式：

第一种：按照获取时间从前至后的顺序对已获取的图像数据进行排序；对于排序后的每张图像数据，在图像数据的获取时间与上一张排序后的图像数据的获取时间之差小于或等于时间阈值时，删除图像数据或者删除上一张排序后的图像数据。

在图像数据的获取时间与上一张排序后的图像数据的获取时间之差大于时间阈值时，保留当前的图像数据。

由于采集时间相隔较短的两张图像数据，相似的概率很高，而两张相似的图像数据在训练识别模型时对模型性能的提升作用不是很大，因此，可以将其中一张图像筛除，以提高识别模型的训练效率。

第二种：对于已获取的每张图像数据，将所述图像数据与上一张的图像数据进行相似度比较；在所述图像数据与上一张图像数据之间的相似度大于或等于相似度阈值时，删除所述图像数据或者删除所述上一张排序后的图像数据。

可选地，本申请中，样本数据采集终端在对不同的图像数据进行相似度比较时，使用图像数据的图像指纹进行比较。此时，样本数据采集终端还需要使用感知哈希算法获取每张图像数据的图像指纹。其中，图像指纹用于对不同的图像数据进行相似度比较。

对于每张图像数据，参考图3所示的图像指纹获取过程，该过程至少包括步骤31-35：

步骤31，将图像数据的分辨率缩小为预设长度x和预设宽度y；

其中，x和y为存储在样本数据采集终端中的常数。

步骤32，获取缩小后的图像数据的灰度图；

步骤33，对灰度图进行离散余弦变换(Discrete Cosine Transform，DCT)得到系数矩阵；

步骤34，对系数矩阵左上角a*b尺寸的子矩阵进行二值化处理；

二值化处理的过程为：将大于等于DCT均值的值设为1，将小于DCT均值的值设为0。

其中，a和b为存储在样本数据采集终端中的常数。

步骤35，将二值化处理后的子矩阵中的所有元素链接起来，得到64比特(bit)的图像指纹。

可选地，在图像数据与上一张的图像数据之间的相似度小于相似度阈值时，保留当前的图像数据。

第三种：按照获取时间从前至后的顺序对已获取的图像数据进行排序；对于排序后的每张图像数据，在图像数据的获取时间与上一张排序后的图像数据的获取时间之差小于或等于时间阈值、且图像数据与上一张排序后的图像数据之间的相似度大于或等于相似度阈值时，删除图像数据或者删除上一张排序后的图像数据。

可选地，在图像数据的获取时间与上一张排序后的图像数据的获取时间之差大于时间阈值；或者，图像数据与上一张排序后的图像数据之间的相似度小于相似度阈值时，保留当前的图像数据。

其中，图像数据之间的相似度比较过程参考第二种方式，本实施例在此不再赘述。

为了更清楚地理解本申请提供的图像数据筛选过程，下面以图4所示的图像数据筛选过程为例进行说明，该过程至少步骤41-46：

步骤41，按照获取时间从前至后的顺序获取图像数据；

步骤42，确定该图像数据的获取时间与上一张排序后的图像数据的获取时间之差是否小于或等于时间阈值；若不是，则执行步骤43；若是，则执行步骤44,；

步骤43，保留当前的图像数据，流程结束；

步骤44，使用感知哈希算法获取样本数据中图像数据的图像指纹；

步骤45，确定该图像指纹与上一组样本数据中图像数据的图像指纹之间的相似度是否大于或等于相似度阈值；若是，则执行步骤46；若否，则执行步骤43；

步骤46，删除该样本数据。

步骤203，对音频信息进行声纹识别，得到音频信息对应的对象信息。

在一个示例中，样本数据采集终端中存储有声纹特征与对象信息之间的对应关系，样本数据采集终端对音频信息进行声纹识别后得到音频信息的声纹特征；然后，根据该对应关系确定出声纹特征对应的对象信息，得到音频信息对应的对象信息。

在另一个示例中，样本数据采集终端中存储有模板音频信息与对象信息之间的对应关系，样本数据采集终端将采集到的音频信息与各个模板音频信息进行比较；将与音频信息相匹配的模板音频信息对应的对象信息确定为音频信息对应的对象信息。

当然，样本数据采集终端还可以通过其他方式获取音频信息对应的对象信息，本实施例对此不作限定。

可选地，样本数据采集终端还会获取到图像数据的拍摄时间，并存储对象信息、拍摄时间和图像数据三者之间的对应关系，得到一组样本数据。

步骤204，将图像数据和对应的对象信息构成一组样本数据。

样本数据用于训练识别模型，识别模型用于在图像识别场景的图像中识别待识别对象的图像。

在一个示例中，图像数据与音频信息的获取时间相同，对象信息的获取时间取音频信息的获取时间，此时，相同获取时间的图像数据与对象信息构成一组样本数据。

在另一个示例中，获取经过筛选后的保留的每组图像数据的获取时间，将获取时间段与该获取时间所属时间段相同的对象信息确定为该图像数据对应的对象信息，得到一组样本数据。

其中，对象信息的获取时间段是基于对应的音频信息的采集时间得到的，比如：音频信息的采集时间为16:42，则对应的对象信息的获取时间段为[16:00，16:45]。获取时间段的长度可以是5分钟、3分钟、10分钟等，本实施例不对对象信息的获取时间段的设置方式作限定。

其中，获取时间所属时间段是基于图像数据的获取时间得到的。比如：图像数据的获取时间为16:41，则获取时间所属时间段为[16:00，16:45]。获取时间所属时间段的长度可以是5分钟、3分钟、10分钟等，本实施例不对获取时间所属时间段的设置方式作限定。

基于本申请提供的数据采集方法，样本数据采集终端可以获得经过去重处理并进行了对象信息标记的样本数据。

综上所述，本实施例提供的样本数据采集方法，通过确定当前图像识别场景中是否存在待识别对象；在存在待识别对象时，采集当前图像识别场景的音频信息和图像数据；对音频信息进行声纹识别，得到音频信息对应的对象信息；将图像数据和对应的对象信息构成一组样本数据；可以解决人工拍摄图像数据、标记图像数据中待识别对象的对象信息时，样本数据获取效率较低的问题；由于可以在图像识别场景中存在待识别对象时自动采集音频信息以识别对应的对象信息，并采集该场景的图像数据，从而建立图像数据与对象信息的对应关系，得到样本数据；采集过程全程无需人工参与，且可以在日常生活工作中逐渐收集，既可以扩大样本数据的采集数量，又可以提高样本数据的采集效率。

另外，通过对图像数据进行去重，可以减少用于训练识别模型的冗余数据，提高模型的训练效率。

另外，通过在使用处于视频会议状态的视频会议终端采集音频信息时，使用AEC处理后的音频信息进行声纹识别，可以减少视频会议终端发出的噪声(比如：对端参会人员发出的声音)对识别结果的影响，提高声纹识别的准确性。

为了更清楚地理解本申请提供的样本数据采集方法，下面图5中以基于图1的图像识别场景为例，对该样本数据采集方法进行举例说明，该方法至少包括以下几个步骤：

步骤51，获取门口的接近传感器的检测结果；若该检测结果指示没有人接近，则再次执行本步骤；若该检测结果指示存在人接近，则执行步骤53；

步骤52，获取桌面的接近传感器的检测结果；若该检测结果指示没有人接近，则再次执行本步骤；若该检测结果指示存在人接近，则执行步骤53；

步骤53，控制视频会议终端对图像识别场景进行拍照，得到图像数据，执行步骤58；

步骤54，确定视频会议终端是否进行视频会议；若是，则执行步骤55；若否，则执行步骤56；

可选地，步骤54可以在步骤51-53之前执行；或者，也可以在步骤51-53之后执行；或者，还可以与步骤51-53同时执行，本实施例不对步骤54、步骤51-53之间的执行顺序作限定。

步骤55，获取视频会议终端采集到的经AEC处理后的音频信息，执行步骤57；

步骤56，控制麦克风采集图像识别场景中的音频信息；

步骤57，对音频信息进行声纹识别；若成功，得到对象信息，执行步骤58；若失败，则再次执行步骤55或者56；

步骤58，筛除图像数据中的无效图像数据，将筛除后的图像数据和对应的对象信息构成样本数据。

图6是本申请一个实施例提供的样本数据采集装置的框图。该装置至少包括以下几个模块：对象感知模块610、数据采集模块620、声纹识别模块630和数据生成模块640。

对象感知模块610，用于确定当前图像识别场景中是否存在待识别对象；

数据采集模块620，用于在存在所述待识别对象时，采集所述当前图像识别场景的音频信息和图像数据；

声纹识别模块630，用于对所述音频信息进行声纹识别，得到所述音频信息对应的对象信息；

数据生成模块640，用于将所述图像数据和对应的对象信息构成一组样本数据，所述样本数据用于训练识别模型，所述识别模型用于在所述图像识别场景的图像中识别所述待识别对象的图像。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的样本数据采集装置在进行样本数据采集时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将样本数据采集装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的样本数据采集装置与样本数据采集方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请一个实施例提供的样本数据采集装置的框图。该装置至少包括处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的样本数据采集方法。

在一些实施例中，样本数据采集装置还可选包括有：外围设备接口和至少一个外围设备。处理器701、存储器702和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，样本数据采集装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的样本数据采集方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的样本数据采集方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种样本数据采集方法，其特征在于，所述方法包括：

确定当前图像识别场景中是否存在待识别对象；

2.根据权利要求1所述的方法，其特征在于，所述采集所述当前图像识别场景的音频信息和图像数据之后，包括：

在已获取的图像数据中筛除无效图像数据。

3.根据权利要求2所述的方法，其特征在于，所述在已获取的样本数据中筛除无效样本数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述在已获取的样本数据中筛除无效样本数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述在已获取的样本数据中筛除无效样本数据，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述当前图像识别场景为包括视频会议终端的场景，所述采集所述当前图像识别场景的音频信息和图像数据，包括：

8.一种样本数据采集装置，其特征在于，所述装置包括：

9.一种样本数据采集装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的样本数据采集方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至7任一项所述的样本数据采集方法。