CN107368565A - 数据处理方法、数据处理装置和计算机可读存储介质 - Google Patents
数据处理方法、数据处理装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN107368565A CN107368565A CN201710557334.2A CN201710557334A CN107368565A CN 107368565 A CN107368565 A CN 107368565A CN 201710557334 A CN201710557334 A CN 201710557334A CN 107368565 A CN107368565 A CN 107368565A
- Authority
- CN
- China
- Prior art keywords
- data
- data processing
- processing method
- automatic marking
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法。数据处理方法包括:采集数据;和对数据进行自动标注。本发明实施方式的数据处理方法对采集的数据进行自动标注,实现了数据的自动化处理,节省了人力成本且标注质量高。此外,本发明还公开了一种数据处理装置和计算机可读存储介质。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
背景技术
在当今资讯时代,通用的数据资源很多,但是优质的数据资源例如标注的数据资源却十分匮乏。即使拥有了某一领域的行业数据,人工对数据进行标注往往十分耗时并且艰难,人力成本投入较大。
发明内容
本发明实施方式提供一种数据处理方法、数据处理装置和计算机可读存储介质。
本发明实施方式的数据处理方法,包括:
采集数据;和
对所述数据进行自动标注。
在某些实施方式中,在所述采集数据的步骤之后,所述数据处理方法还包括:
预处理所述数据;所述预处理所述数据包括汇总所述数据、整理所述数据、对所述数据进行分类、和对所述数据添加描述信息中的至少一种。
在某些实施方式中,在所述预处理所述数据的步骤之后,所述数据处理方法还包括:
二次处理所述数据;所述二次处理所述数据包括筛选所述数据、对所述数据进行去重复处理中的至少一种。
在某些实施方式中,所述数据包括以下中至少一种:
文字数据;
图像数据;
视频数据;
语音数据;
指令数据;和
机器状态数据。
在某些实施方式中,所述数据处理方法还包括:
获取与所述数据相关的关联信息;
其中,所述二次处理所述数据还包括:将所述关联信息补充至所述数据内。
在某些实施方式中,所述获取与所述数据相关的关联信息是通过实时获取所述关联信息及读取预存的所述关联信息中的至少一种方式来实现的。
在某些实施方式中,所述关联信息包括季节、气温、空气质量和/或地域。
在某些实施方式中,所述对所述数据进行自动标注是通过标注工具来实现的。
在某些实施方式中,所述数据处理方法还包括:
在通过所述标注工具对所述数据进行自动标注的得分大于预定分值时,采用所述标注工具对所述数据进行自动标注的数据集结果;和
在通过所述标注工具对所述数据进行自动标注的得分小于或等于所述预定分值时,对所述数据进行人工辅助标注,并采用经过所述自动标注及所述人工辅助标注后的数据集结果。
在某些实施方式中,所述数据处理方法还包括:
根据所述数据集结果生成模型,或根据所述数据集结果生成和优化模型,或根据所述数据集结果生成和测试模型,或根据所述数据集结果生成、优化和测试模型;和
根据所述模型优化所述标注工具。
在某些实施方式中,所述模型包括人脸识别模型、手势识别模型、食材识别模型和/或菜品识别模型。
在某些实施方式中,所述数据处理方法还包括:
对所述数据进行人工标注;
对所述数据进行初始标注,所述初始标注为自动标注;
判断所述初始标注的结果与所述人工标注的结果的相似度是否达到预定范围;和
当所述初始标注的结果与所述人工标注的结果的相似度达到所述预定范围时,进入所述对所述数据进行自动标注的步骤。
本发明实施方式的数据处理装置,包括:
终端采集设备,所述终端采集设备用于采集数据;和
标注设备,所述标注设备用于对所述数据进行自动标注。
在某些实施方式中,所述数据处理装置还包括:
收集服务器,所述收集服务器用于在所述终端采集设备采集所述数据后预处理所述数据;所述预处理所述数据包括汇总所述数据、整理所述数据、对所述数据进行分类、和对所述数据添加描述信息中的至少一种。
在某些实施方式中,所述数据处理装置还包括:
集群服务器,所述集群服务器用于在所述收集服务器预处理所述数据后二次处理所述数据;所述二次处理所述数据包括筛选所述数据、对所述数据进行去重复处理中的至少一种。
在某些实施方式中,所述数据包括以下中至少一种:
文字数据;
图像数据;
视频数据;
语音数据;
指令数据;和
机器状态数据。
在某些实施方式中,所述集群服务器还用于获取与所述数据相关的关联信息;
其中,所述二次处理所述数据还包括:将所述关联信息补充至所述数据内。
在某些实施方式中,所述获取与所述数据相关的关联信息是通过实时获取所述关联信息及读取预存的所述关联信息中的至少一种方式来实现的。
在某些实施方式中,所述关联信息包括季节、气温、空气质量和/或地域。
在某些实施方式中,所述对所述数据进行自动标注是通过标注工具来实现的。
在某些实施方式中,所述标注设备还用于:
在通过所述标注工具对所述数据进行自动标注的得分大于预定分值时,采用所述标注工具对所述数据进行自动标注的数据集结果;和
在通过所述标注工具对所述数据进行自动标注的得分小于或等于所述预定分值时,采用经过所述自动标注及人工辅助标注后的数据集结果。
在某些实施方式中,所述标注设备还用于:
根据所述数据集结果生成模型,或根据所述数据集结果生成和优化模型,或根据所述数据集结果生成和测试模型,或根据所述数据集结果生成、优化和测试模型;和
根据所述模型优化所述标注工具。
在某些实施方式中,所述模型包括人脸识别模型、手势识别模型、食材识别模型和/或菜品识别模型。
在某些实施方式中,所述标注设备还用于:
对所述数据进行初始标注,所述初始标注为自动标注;
判断所述初始标注的结果与人工标注的结果的相似度是否达到预定范围;和
当所述初始标注的结果与所述人工标注的结果的相似度达到所述预定范围时,对所述数据进行自动标注。
本发明实施方式的数据处理装置,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行上述任一实施方式所述的数据处理方法的指令。
本发明实施方式的计算机可读存储介质,包括与数据处理装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成上述任一实施方式所述的数据处理方法。
本发明实施方式的数据处理方法、数据处理装置和计算机可读存储介质,对采集的数据进行自动标注,实现了数据的自动化处理,节省了人力成本且标注质量高。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的数据处理方法的流程示意图;
图2是本发明实施方式的数据处理装置的模块示意图;
图3是本发明实施方式的数据处理方法的流程示意图;
图4是本发明实施方式的数据处理方法的流程示意图;
图5是本发明实施方式的数据处理方法标注数据的示意图;
图6是本发明实施方式的数据处理方法的流程示意图;
图7是本发明实施方式的数据处理方法的流程示意图;
图8是本发明实施方式的数据处理方法的流程示意图;
图9是本发明实施方式的数据处理装置的模块示意图;
图10是本发明实施方式的数据处理装置和计算机可读存储介质的连接示意图。
主要元件及符号说明:
终端采集设备10、收集服务器20、集群服务器30、标注设备40、处理器50、存储器60、数据处理装置100、计算机可读存储介质200。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
在本发明的实施方式的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明的实施方式和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的实施方式的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的实施方式的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明的实施方式中的具体含义。
在本发明的实施方式中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明的实施方式可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明的实施方式提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
请参阅图1,本发明实施方式的数据处理方法,包括:
S10:采集数据;和
S20:对数据进行自动标注。
请参阅图2,本发明实施方式的数据处理装置100包括终端采集设备10和标注设备40。本发明实施方式的数据处理方法可由本发明实施方式的数据处理装置100实现。例如,终端采集设备10可用于执行S10中的方法,标注设备40可用于执行S20中的方法。
也即是说,终端采集设备10可以用于采集数据,标注设备40可以用于对数据进行自动标注。
本发明实施方式的数据处理方法和数据处理装置100,对采集的数据进行自动标注,实现了数据的自动化处理,节省了人力成本且标注质量高。
具体地,终端采集设备10指的是可以用于获取数据资源的终端,包括但不限于手机终端、笔记本终端、家电终端(例如冰箱、空调、洗衣机、热水器等)。
在一个实施例中,当终端采集设备10工作时或用户在使用终端采集设备10的常规功能时,例如空调的制冷功能,热水器的加热功能,终端采集设备10将持续实时或以预定时间间隔采集数据。
在一个实施例中,终端采集设备10的数量为多个,多个终端采集设备10分别在各自的应用场景和功能下收集数据。例如,冰箱采集的数据可以包括菜肴种类、食物食材、食物保存时间等。多个终端采集设备10在长期的数据采集的过程中,将形成大规模数量的数据资源,且数据在相应的领域下具有较强的代表性,因此相较于业界的一些通用数据资源(如ImageNet,LWF)或者高校和企业适度开放的数据资源而言具有显著优点。
请参阅图3,在某些实施方式中,在S10之后,数据处理方法还包括:
S30:预处理数据;预处理数据包括汇总数据、整理数据、对数据进行分类、和对数据添加描述信息中的至少一种。
请再次参阅图2,在某些实施方式中,数据处理装置100还包括收集服务器20。收集服务器20可用于执行S30中的方法。
也即是说,收集服务器20可以用于在终端采集设备10采集数据后预处理数据。预处理数据包括汇总数据、整理数据、对数据进行分类、和对数据添加描述信息中的至少一种。
在一个实施例中,汇总数据包括汇总一个终端采集设备10在多个时间点采集的数据,和多个终端采集设备10分别采集的数据(可以是同时采集与分时采集)。
在一个实施例中,整理数据包括对数据进行排序,例如,收集服务器20可以按照年龄对数据进行排序,或者按照身高对数据进行排序,或者按照其他方式进行排序。
在一个实施例中,对数据进行分类包括将多组数据进行分类,例如收集服务器20可以将多个冰箱采集的数据分为一类,或者将多个空调采集的数据分为一类,或者将学历为本科的数据分为一类,或者将出生年月为1983年的数据分为一类等。
在一个实施例中,描述信息包括但不限于终端采集设备10的编号、数据采集的时间、数据采集环境及状态、终端采集设备10的规格等。例如,描述信息为:冰箱01号,2017年7月7日19点30分25秒,家居环境下的正脸图像或餐馆环境下的熟食图像,摄像头的像素2000万像素等。
预处理数据可以仅是汇总数据,也可以仅是整理数据,也可以仅是对数据进行分类,也可以仅是对数据添加描述信息。预处理数据还可以是前述处理方式的两两组合,例如:汇总数据后再整理数据、或者整理数据后再对数据进行分类、或者是汇总数据后再对数据进行分类、或者是汇总数据后再对数据添加描述信息。预处理数据还可以是前述处理方式的三者组合,例如:先汇总数据、再整理数据、最后对数据进行分类;或者是先汇总数据、再整理数据、最后对数据添加描述信息。较佳地,预处理数据为依次汇总数据、整理数据、对数据进行分类、和对数据添加描述信息。
请再次参阅图3,在某些实施方式中,在S30之后,数据处理方法还包括:
S40:二次处理数据;S40包括筛选数据、对数据进行去重复处理中的至少一种。
请再次参阅图2,在某些实施方式中,数据处理装置100还包括集群服务器30。集群服务器30可用于执行S40中的方法。
也即是说,集群服务器30用于在收集服务器20预处理数据后二次处理数据。二次处理数据包括筛选数据、对数据进行去重复处理中的至少一种。
在一个实施例中,筛选数据包括根据数据质量筛选数据,从而将质量较差的数据剔除。数据质量的好坏可以从数据的完整性和数据的合理性这两个方面来评估。其中,评估数据的完整性可以通过判断数据的属性是否完整来实现,完整的数据应该包含哪些必不可少的属性可以人为设置。例如描述一个人的数据,属性可以包括性别、出生年月、年龄、身高、工作、学历、家庭背景等。若集群服务器30中的数据包含完整的上述各个属性,则集群服务器30判断该数据完整,若数据缺少预定个数的上述各个属性,例如,缺少性别、年龄和学历之一或者三者均缺少,则集群服务器30判断该数据不完整。而评估数据的合理性可以通过数据之间的逻辑关系、常识等来进行判断。仍以上述描述一个人的数据为例,若出生年月为2013年10月1日,年龄为8岁,则出生年月与年龄的数据之间存在矛盾,表明数据不合理。若年龄为6岁,学历为本科,则该数据不符合常识,表明数据不合理。当数据不完整或数据不合理时,集群服务器30判断为数据质量差,可选择性地将质量较差的数据剔除。
在一个实施例中,对数据进行去重复处理包括去除相似度大于预定相似度阈值的数据。例如数据可以为图像数据,预定相似度阈值可以为95%,当终端采集设备10针对同一对象多次采集图像,当其中两帧图像的相似度大于95%,则集群服务器30将其判断为重复数据,将删除其中一帧图像。又例如数据可以为文字数据,当两组文字数据均为“张某,23岁,……,本科”时,则集群服务器30将其判断为重复数据,将删除其中一组文字数据。
较佳地,二次处理数据为先对数据进行去重复处理,再筛选数据,以节省时间和提高数据质量。
需要指出的是,在本发明实施方式中,一个或多个终端采集设备10采集数据并将数据上传至收集服务器20,收集服务器20预处理数据并将数据发送至集群服务器30进行保存,集群服务器30二次处理数据,最后由标注设备40对数据进行自动标注。
在某些实施方式中,数据包括以下中至少一种:文字数据、图像数据、视频数据、语音数据、指令数据和机器状态数据。
例如,数据可以包括图像数据,或者可以包括图像数据和机器状态数据,或者可以包括文字数据、图像数据、视频数据、语音数据、指令数据和机器状态数据等。
其中,指令数据可以为用户向终端采集设备10发送的指令,例如,用户通过遥控器向空调发送的控制指令。机器状态数据可以为机器的运行状态,例如,当终端采集设备10为空调时,机器状态数据可以为空调的开关机状态、运行模式、设定温度、风速等。
请参阅图4,在某些实施方式中,数据处理方法还包括:
S50:获取与数据相关的关联信息;
其中,S40还包括:将关联信息补充至数据内。
在某些实施方式中,集群服务器30还可用于执行S50中的方法。
也即是说,集群服务器30还可以用于获取与数据相关的关联信息。其中,集群服务器30二次处理数据还包括:集群服务器30将关联信息补充至数据内。
如此,在集群服务器30中,数据的信息将进一步得到补充和优化,数据的信息维度也会增加。
在某些实施方式中,S50是通过实时获取关联信息及读取预存的关联信息中的至少一种方式来实现的。
在某些实施方式中,集群服务器30获取与数据相关的关联信息是通过实时获取关联信息及读取预存的关联信息中的至少一种方式来实现的。
在一个实施例中,集群服务器30中预存有丰富的数据资源,集群服务器30可以从该数据资源中读取与数据相关的关联信息并将关联信息补充到经过预处理、筛选和去重复处理之后的数据内。
在一个实施例中,集群服务器30可以通过无线通信模块联网,以实时获取与数据相关的关联信息并将关联信息补充到经过预处理、筛选和去重复处理之后的数据内。
在一个实施例中,终端采集设备10安装有智能家居应用。在智能家居应用中,用户的账号关联了终端采集设备10的信息。集群服务器30可以通过终端采集设备10的信息获取用户的账号信息(例如姓名、年龄、头像等)。在智能家居应用中,当用户的账号关联了多个终端采集设备10时,多个终端采集设备10的信息通过用户的账号也将建立关联,集群服务器30可以将这些关联信息都补充到数据内,以丰富数据。
在某些实施方式中,关联信息包括季节、气温、空气质量和/或地域。
例如,关联信息可以包括季节和气温,或者可以包括气温和地域,或者可以包括季节、气温、空气质量和地域等。
具体地,季节为当前数据采集时间所处的季节,气温为当前数据采集环境下的温度,空气质量为当前数据采集环境下的空气质量,地域为当前终端采集设备10所处的位置。例如,关联信息可以为:春季,23度,空气质量指数13,深圳(或者可以为具体的经纬度等,如东经113°46'~114°37',北纬22°27'~22°52')。
在某些实施方式中,S20是通过标注工具来实现的。
在某些实施方式中,标注设备40对数据进行自动标注是通过标注工具来实现的。
在一个实施例中,标注设备40包括各种标注工具,例如,用于标注文字数据的标注工具、用于标注图像数据的标注工具、用于标注语音数据的标注工具等。以用于标注图像数据的标注工具为例,标注工具可以是标注软件,例如可以是Image Lable(图像标注软件)。
例如,请参阅图5,以数据为图像数据为例,标注设备40采用Image Lable对图像数据进行标注,通过Image Lable可以找出图像中的兴趣点(又被称为特征点,指的是图像中具有特殊性质的像素点),例如兴趣点可以是人脸、手部、人体、食物食材、菜品等。标注设备40将与兴趣点相关的信息补充到数据内,标注的格式可以为(lable,location),其中lable为标注的信息的类型,如上述人脸、手部、人体、食物食材、菜品等,location为标注的信息的位置。location具体可以用如下坐标表示([xmin,ymin],[xmax,ymax]),其中,[xmin,ymin]为标注的信息的左上角坐标,[xmax,ymax]为标注的信息的右下角坐标。当数据为视频数据时,标注工具可以采用VATIC工具辅助标注处理,视频数据可以看成是一些图像的组合,对于每一帧图像均可以采用Image Lable进行标注,标注格式和内容可以和上述对图像数据进行标注的方法相同,在此不再赘述。
请参阅图6,在某些实施方式中,数据处理方法还包括:
S60:在通过标注工具对数据进行自动标注的得分大于预定分值时,采用标注工具对数据进行自动标注的数据集结果;和
S70:在通过标注工具对数据进行自动标注的得分小于或等于预定分值时,对数据进行人工辅助标注,并采用经过自动标注及人工辅助标注后的数据集结果。
在某些实施方式中,标注设备40还可用于执行S60和S70中的方法。
也即是说,标注设备40还可以用于:在通过标注工具对数据进行自动标注的得分大于预定分值时,采用标注工具对数据进行自动标注的数据集结果;和在通过标注工具对数据进行自动标注的得分小于或等于预定分值时,采用经过自动标注及人工辅助标注后的数据集结果。
在一个实施例中,标注设备40中包含评分算法。评分算法用于对通过标注工具对数据进行的自动标注进行评分,当评分大于预定分值时,例如满分为100分,预定分值可以为95分,也即是说,当评分大于95分时,标注设备40采用标注工具对数据进行自动化标注的数据集结果。当评分小于或等于95分时,需要在自动标注的基础上对数据进行人工辅助标注,并采用经过自动标注及人工辅助标注后的数据集结果,以确保标注的质量。
在本发明实施方式中,数据处理方法先广泛利用各种标注工具对数据进行标注,从而提高标注的效率,当得分高时,采用标注工具自动标注的结果,当得分低时,进行人为辅助标记,从而确保标注质量。本发明实施方式的数据处理方法相对于传统的人工标注而言,极大地提高了标注效率,且标注质量高,投入的人力成本小,可以持续获取大规模、高质量、经过标注的数据集结果。
请参阅图7,在某些实施方式中,数据处理方法还包括:
S80:根据数据集结果生成模型,或根据数据集结果生成和优化模型,或根据数据集结果生成和测试模型,或根据数据集结果生成、优化和测试模型;和
S90:根据模型优化标注工具。
在某些实施方式中,标注设备40还可用于执行S80和S90中的方法。
也即是说,标注设备40还可以用于:根据数据集结果生成模型,或根据数据集结果生成和优化模型,或根据数据集结果生成和测试模型,或根据数据集结果生成、优化和测试模型;和根据模型优化标注工具。
可以理解,经过收集服务器20的预处理、集群服务器30的二次处理和标注设备40的标注,数据从一些零散的、非结构化的、没有关联性的数据,逐步变成信息完备的、结构化的、相互有关联的、标注的数据集。标注的数据集结果可以作为人工智能数据的基础,生成、优化和测试模型,根据模型可以优化标注工具中的算法,以提升标注质量,从而可以进一步优化模型,形成一个良性循环。
在某些实施方式中,模型包括人脸识别模型、手势识别模型、食材识别模型和/或菜品识别模型。
例如,模型可以包括人脸识别模型和食材识别模型,或者可以包括食材识别模型和菜品识别模型,或者可以包括人脸识别模型、手势识别模型、食材识别模型和菜品识别模型等。
可以理解,上述根据对实时采集的数据进行一系列处理得到的数据集结果来训练的各个模型,相对于根据通用数据集或从数据公司处购买的数据集来训练的模型,具有更强的针对性和实用性,模型可以用于优化对应的标注工具,经过优化后的标注工具将更好地用于标注数据。
请参阅图8,在某些实施方式中,数据处理方法还包括:
S100:对数据进行人工标注;
S110:对数据进行初始标注,初始标注为自动标注;
S120:判断初始标注的结果与人工标注的结果的相似度是否达到预定范围;和
当初始标注的结果与人工标注的结果的相似度达到预定范围时,进入S20。
在某些实施方式中,标注设备40还可用于执行S100、S110和S120中的方法。
也即是说,标注设备40还可以用于:对数据进行初始标注,初始标注为自动标注;判断初始标注的结果与人工标注的结果的相似度是否达到预定范围;和当初始标注的结果与人工标注的结果的相似度达到预定范围时,对数据进行自动标注。
可以理解,本发明实施方式的数据处理方法在对数据进行自动标注前,还可以包括判断机制,判断机制用于判读自动标注的效果,从而决定是否可以采用自动标注。
例如,首先对100张图像进行人工标注一次,另外再对这100张图像进行自动标注一次,然后比较人工标注的结果与自动标注的结果的相似度。相似度的判断方法可以如下:当人工标注的信息的位置形成的区域与自动标注的信息的位置形成的区域面积重合度达到预定范围(例如预定范围可以是90%~100%),则自动标注的准确度较高,可以对新采集得到的数据进行自动标注。当相似度未达到预定范围时,标注设备40可以根据人工标注的结果生成模型,以优化标注设备40中的标注工具,提高自动标注的准确度,直至相似度达到预定范围。
请参阅图9,本发明实施方式的数据处理装置100包括一个或多个处理器50、存储器60以及一个或多个程序。其中,一个或多个程序被存储在存储器60中,并且被配置由一个或多个处理器50执行。程序包括用于执行本发明上述任一实施方式的数据处理方法的指令。
例如,程序包括用于执行以下数据处理方法的指令:
S10:采集数据;和
S20:对数据进行自动标注。
请参阅图10,本发明实施方式的计算机可读存储介质200包括与数据处理装置100结合使用的计算机程序。计算机程序可被处理器50执行以完成本发明上述任一实施方式的数据处理方法。
例如,计算机程序可被处理器50执行以完成以下数据处理方法:
S10:采集数据;和
S20:对数据进行自动标注。
综上,本发明实施方式的数据处理方法、数据处理装置100和计算机可读存储介质200具有如下优点:
1.对采集的数据进行自动标注,节省人力成本,标注效率高;
2.数据信息完备;
3.可以持续获取大规模的经过标注的数据集结果
4.标注的数据集结果和模型相互优化,形成良性循环;
5.数据的实用性和针对性强。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(IPM过流保护电路),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明的各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。
Claims (26)
1.一种数据处理方法,其特征在于,包括:
采集数据;和
对所述数据进行自动标注。
2.根据权利要求1所述的数据处理方法,其特征在于,在所述采集数据的步骤之后,所述数据处理方法还包括:
预处理所述数据;所述预处理所述数据包括汇总所述数据、整理所述数据、对所述数据进行分类、和对所述数据添加描述信息中的至少一种。
3.根据权利要求2所述的数据处理方法,其特征在于,在所述预处理所述数据的步骤之后,所述数据处理方法还包括:
二次处理所述数据;所述二次处理所述数据包括筛选所述数据、对所述数据进行去重复处理中的至少一种。
4.根据权利要求1-3中任意一项所述的数据处理方法,其特征在于,所述数据包括以下中至少一种:
文字数据;
图像数据;
视频数据;
语音数据;
指令数据;和
机器状态数据。
5.根据权利要求3所述的数据处理方法,其特征在于,所述数据处理方法还包括:
获取与所述数据相关的关联信息;
其中,所述二次处理所述数据还包括:将所述关联信息补充至所述数据内。
6.根据权利要求5所述的数据处理方法,其特征在于,所述获取与所述数据相关的关联信息是通过实时获取所述关联信息及读取预存的所述关联信息中的至少一种方式来实现的。
7.根据权利要求5所述的数据处理方法,其特征在于,所述关联信息包括季节、气温、空气质量和/或地域。
8.根据权利要求1所述的数据处理方法,其特征在于,所述对所述数据进行自动标注是通过标注工具来实现的。
9.根据权利要求8所述的数据处理方法,其特征在于,所述数据处理方法还包括:
在通过所述标注工具对所述数据进行自动标注的得分大于预定分值时,采用所述标注工具对所述数据进行自动标注的数据集结果;和
在通过所述标注工具对所述数据进行自动标注的得分小于或等于所述预定分值时,对所述数据进行人工辅助标注,并采用经过所述自动标注及所述人工辅助标注后的数据集结果。
10.根据权利要求9所述的数据处理方法,其特征在于,所述数据处理方法还包括:
根据所述数据集结果生成模型,或根据所述数据集结果生成和优化模型,或根据所述数据集结果生成和测试模型,或根据所述数据集结果生成、优化和测试模型;和
根据所述模型优化所述标注工具。
11.根据权利要求10所述的数据处理方法,其特征在于,所述模型包括人脸识别模型、手势识别模型、食材识别模型和/或菜品识别模型。
12.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括:
对所述数据进行人工标注;
对所述数据进行初始标注,所述初始标注为自动标注;
判断所述初始标注的结果与所述人工标注的结果的相似度是否达到预定范围;和
当所述初始标注的结果与所述人工标注的结果的相似度达到所述预定范围时,进入所述对所述数据进行自动标注的步骤。
13.一种数据处理装置,其特征在于,包括:
终端采集设备,所述终端采集设备用于采集数据;和
标注设备,所述标注设备用于对所述数据进行自动标注。
14.根据权利要求13所述的数据处理装置,其特征在于,所述数据处理装置还包括:
收集服务器,所述收集服务器用于在所述终端采集设备采集所述数据后预处理所述数据;所述预处理所述数据包括汇总所述数据、整理所述数据、对所述数据进行分类、和对所述数据添加描述信息中的至少一种。
15.根据权利要求14所述的数据处理装置,其特征在于,所述数据处理装置还包括:
集群服务器,所述集群服务器用于在所述收集服务器预处理所述数据后二次处理所述数据;所述二次处理所述数据包括筛选所述数据、对所述数据进行去重复处理中的至少一种。
16.根据权利要求13-15中任意一项所述的数据处理装置,其特征在于,所述数据包括以下中至少一种:
文字数据;
图像数据;
视频数据;
语音数据;
指令数据;和
机器状态数据。
17.根据权利要求15所述的数据处理装置,其特征在于,
所述集群服务器还用于获取与所述数据相关的关联信息;
其中,所述二次处理所述数据还包括:将所述关联信息补充至所述数据内。
18.根据权利要求17所述的数据处理装置,其特征在于,所述获取与所述数据相关的关联信息是通过实时获取所述关联信息及读取预存的所述关联信息中的至少一种方式来实现的。
19.根据权利要求17所述的数据处理装置,其特征在于,所述关联信息包括季节、气温、空气质量和/或地域。
20.根据权利要求13所述的数据处理装置,其特征在于,所述对所述数据进行自动标注是通过标注工具来实现的。
21.根据权利要求20所述的数据处理装置,其特征在于,所述标注设备还用于:
在通过所述标注工具对所述数据进行自动标注的得分大于预定分值时,采用所述标注工具对所述数据进行自动标注的数据集结果;和
在通过所述标注工具对所述数据进行自动标注的得分小于或等于所述预定分值时,采用经过所述自动标注及人工辅助标注后的数据集结果。
22.根据权利要求21所述的数据处理装置,其特征在于,所述标注设备还用于:
根据所述数据集结果生成模型,或根据所述数据集结果生成和优化模型,或根据所述数据集结果生成和测试模型,或根据所述数据集结果生成、优化和测试模型;和
根据所述模型优化所述标注工具。
23.根据权利要求22所述的数据处理装置,其特征在于,所述模型包括人脸识别模型、手势识别模型、食材识别模型和/或菜品识别模型。
24.根据权利要求13所述的数据处理装置,其特征在于,所述标注设备还用于:
对所述数据进行初始标注,所述初始标注为自动标注;
判断所述初始标注的结果与人工标注的结果的相似度是否达到预定范围;和
当所述初始标注的结果与所述人工标注的结果的相似度达到所述预定范围时,对所述数据进行自动标注。
25.一种数据处理装置,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行权利要求1-12任意一项所述的数据处理方法的指令。
26.一种计算机可读存储介质,其特征在于,包括与数据处理装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成权利要求1-12任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710557334.2A CN107368565A (zh) | 2017-07-10 | 2017-07-10 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710557334.2A CN107368565A (zh) | 2017-07-10 | 2017-07-10 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107368565A true CN107368565A (zh) | 2017-11-21 |
Family
ID=60305242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710557334.2A Pending CN107368565A (zh) | 2017-07-10 | 2017-07-10 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368565A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596223A (zh) * | 2018-04-11 | 2018-09-28 | 珠海博明视觉科技有限公司 | 一种自动生成物体数据集的方法 |
CN108986134A (zh) * | 2018-08-17 | 2018-12-11 | 浙江捷尚视觉科技股份有限公司 | 一种基于相关滤波跟踪的视频目标半自动标注方法 |
CN110515525A (zh) * | 2019-08-30 | 2019-11-29 | 佳都新太科技股份有限公司 | 可视化数据处理方法、装置、设备和存储介质 |
CN110674789A (zh) * | 2019-10-12 | 2020-01-10 | 海信集团有限公司 | 食材管理方法和冰箱 |
CN112880201A (zh) * | 2021-01-28 | 2021-06-01 | 珠海格力电器股份有限公司 | 热水器参数调节方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN106529485A (zh) * | 2016-11-16 | 2017-03-22 | 北京旷视科技有限公司 | 用于获取训练数据的方法及装置 |
CN106649610A (zh) * | 2016-11-29 | 2017-05-10 | 北京智能管家科技有限公司 | 图片标注方法及装置 |
-
2017
- 2017-07-10 CN CN201710557334.2A patent/CN107368565A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN106529485A (zh) * | 2016-11-16 | 2017-03-22 | 北京旷视科技有限公司 | 用于获取训练数据的方法及装置 |
CN106649610A (zh) * | 2016-11-29 | 2017-05-10 | 北京智能管家科技有限公司 | 图片标注方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596223A (zh) * | 2018-04-11 | 2018-09-28 | 珠海博明视觉科技有限公司 | 一种自动生成物体数据集的方法 |
CN108986134A (zh) * | 2018-08-17 | 2018-12-11 | 浙江捷尚视觉科技股份有限公司 | 一种基于相关滤波跟踪的视频目标半自动标注方法 |
CN108986134B (zh) * | 2018-08-17 | 2021-06-18 | 浙江捷尚视觉科技股份有限公司 | 一种基于相关滤波跟踪的视频目标半自动标注方法 |
CN110515525A (zh) * | 2019-08-30 | 2019-11-29 | 佳都新太科技股份有限公司 | 可视化数据处理方法、装置、设备和存储介质 |
CN110515525B (zh) * | 2019-08-30 | 2021-07-23 | 佳都科技集团股份有限公司 | 可视化数据处理方法、装置、设备和存储介质 |
CN110674789A (zh) * | 2019-10-12 | 2020-01-10 | 海信集团有限公司 | 食材管理方法和冰箱 |
CN110674789B (zh) * | 2019-10-12 | 2022-04-29 | 海信集团有限公司 | 食材管理方法和冰箱 |
CN112880201A (zh) * | 2021-01-28 | 2021-06-01 | 珠海格力电器股份有限公司 | 热水器参数调节方法、装置、设备及存储介质 |
CN112880201B (zh) * | 2021-01-28 | 2022-03-18 | 珠海格力电器股份有限公司 | 热水器参数调节方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368565A (zh) | 数据处理方法、数据处理装置和计算机可读存储介质 | |
CN110472082B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN107679183A (zh) | 分类器用训练数据获取方法和装置、服务器及存储介质 | |
CN107808358A (zh) | 图像水印自动检测方法 | |
CN102306298B (zh) | 一种基于Wiki的图像分类体系动态演化方法 | |
CN103745454B (zh) | 一种基于排序学习的图像处理算法或系统的评价方法 | |
CN109886928A (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN110738132B (zh) | 一种具备判别性感知能力的目标检测质量盲评价方法 | |
CN108256022A (zh) | 人才评价模型构建方法及人才评价方法及系统 | |
CN107908513A (zh) | 一种存储介质和存储设备性能的测试方法、装置及设备 | |
CN112115971B (zh) | 一种基于异质学术网络进行学者画像的方法及系统 | |
CN110782448A (zh) | 渲染图像的评价方法及装置 | |
CN108228684A (zh) | 聚类模型的训练方法、装置、电子设备和计算机存储介质 | |
CN110175657A (zh) | 一种图像多标签标记方法、装置、设备及可读存储介质 | |
CN110633404A (zh) | 应用程序消息推送的方法、装置、存储介质和终端设备 | |
CN110018823A (zh) | 交互式应用程序的处理方法及系统、生成方法及系统 | |
CN110866564A (zh) | 多重半监督图像的季节分类方法、系统、电子设备和介质 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN108846429B (zh) | 基于无监督学习的网络空间资源自动分类方法及装置 | |
CN116311380A (zh) | 一种面向小样本数据自主学习的皮肤分型方法 | |
CN107643968A (zh) | 崩溃日志处理方法及装置 | |
Bai | RETRACTED ARTICLE: Data cleansing method of talent management data in wireless sensor network based on data mining technology | |
CN113139581B (zh) | 一种基于多图融合的图像分类方法和系统 | |
CN109086440A (zh) | 一种知识萃取的方法及系统 | |
CN205608776U (zh) | 一种智能化人力资源教育培训系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171121 |
|
RJ01 | Rejection of invention patent application after publication |