CN108268575A - 标注信息的处理方法、装置和系统 - Google Patents

标注信息的处理方法、装置和系统 Download PDF

Info

Publication number
CN108268575A
CN108268575A CN201710006138.6A CN201710006138A CN108268575A CN 108268575 A CN108268575 A CN 108268575A CN 201710006138 A CN201710006138 A CN 201710006138A CN 108268575 A CN108268575 A CN 108268575A
Authority
CN
China
Prior art keywords
information
markup information
marked
markup
main body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710006138.6A
Other languages
English (en)
Inventor
占怀旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710006138.6A priority Critical patent/CN108268575A/zh
Publication of CN108268575A publication Critical patent/CN108268575A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种标注信息的处理方法、装置和系统。其中,该方法包括:发布待标注对象,其中,所述待标注对象包含一个或多个主体;获取来自多个客户端的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。本发明解决了识别图片中主体的准确率低的技术问题。

Description

标注信息的处理方法、装置和系统
技术领域
本发明涉及信息处理领域,具体而言,涉及一种标注信息的处理方法、装置和系统。
背景技术
目前图片主体(如人在看到某个图片时注意力集中的对象)的识别算法主要是利用深度学习提取图片中的主体。
具体地,根据图片中物品的属性,例如,颜色,袖子长度,款式等等,来识别图中是什么衣服,这种方法对训练数据的要求很高,同时需要大量的学习数据来提高算法精度。
而机器学习和算法训练成本高,在多个不相关物品混杂、以及图片不够清晰等情况下,计算机无法从图片中识别出主体来的,或者,识别错误;另外,机器无法模拟真实用户的想法,在机器识别主体时,识别出的图片主体不准确、以及对图片中的文字主体的识别比较困难。
针对上述识别图片中主体的准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标注信息的处理方法、装置和系统,以至少解决识别图片中主体的准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种标注信息的处理系统,包括:服务器,用于发布待标注对象,其中,所述待标注对象包含一个或多个主体;客户端,用于接收操作信息,并根据所述操作信息生成标注信息,其中,所述操作信息用于记录标注所述待标注对象中一个或多个主体的操作;所述服务器还用于获取多个所述客户端反馈的多个标注信息,根据所述多个标注信息确定所述待标注对象中每个所述主体的主体标注信息;汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
根据本发明实施例的一个方面,提供了一种标注信息的处理方法,该方法包括:发布待标注对象,其中,所述待标注对象包含一个或多个主体;获取多个客户端反馈的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
根据本发明实施例的另一方面,还提供了一种标注信息的处理装置,包括:发布单元,用于发布待标注对象,其中,所述待标注对象包含一个或多个主体;第一获取单元,用于获取多个客户端反馈的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;确定单元,用于根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;汇总单元,用于汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
根据本发明实施例的另一方面,还提供了一种标注信息的处理方法,应用于客户端,该方法包括:接收服务器发布的待标注对象,其中,待标注对象包含一个或多个主体;接收基于待标注对象输入的操作信息,操作信息用于记录标注待标注对象中一个或多个主体的操作;根据操作信息生成标注信息,将标注信息发送至服务器,其中,服务器用于根据多个标注信息确定待标注对象中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
在本发明实施例中,服务器发布待标注对象,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种实现标注信息的处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种标注信息的处理系统的结构框图;
图3是根据本发明实施例的一种标注信息的处理方法的流程图;
图4是根据本发明实施例的一种待标注对象的示意图;
图5是根据本发明实施例的一种将汇总得到的标注信息进行图形化展示的示意图;
图6是根据本发明实施例的一种获取K值方法的流程图;
图7是根据本发明实施例的一次聚类结果的示意图;
图8是根据本发明实施例的一种一次聚类方法的流程图;
图9是根据本发明实施例的二次聚类结果的示意图;
图10是根据本发明实施例的一种二次聚类方法的流程图;以及
图11是根据本发明实施例的一种二次聚类方法的处理装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
众包任务,即利用大众网络处理的任务。可选地,服务器根据大量的任务提供众包任务,客户端通过众包平台或者众包客户端执行服务器提供的众包任务,并将执行完成的结果发送给服务器,服务器根据客户端反馈的执行结果,进行统计分析,得到 众包任务的分析结果。
聚类(或称之为聚类分析),是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,例如,将数据分类到不同的类或者簇的过程,同一个类或者簇中的对象有很大的相似性,而不同的类或者簇中的对象有着很大的相异性。可选地,聚类方法可以采用k-medoids方法或k-means方法。
实施例1
根据本发明实施例,还提供了一种标注信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现标注信息的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,该计算机终端还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的标注信息的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的标注信息的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器, 如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
可选地,图1示出的硬件结构框图,可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图。
一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端(或移动设备)作为发送端的一种实施例。如图2所示,客户端21(该终端可以为移动设备)可以经由数据网络连接或电子连接到一个或多个服务器23,该服务器可以为众包任务的服务器。一种可选实施例中,上述客户端21可以是智能终端和个人计算机,如,智能手机、平板电脑等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。客户端21可以执行以连接到由服务器23执行服务。上述服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、众包任务或其他在线应用。
上述实施例中的服务器可以为众包服务器,该众包服务器可以将众包任务发布在众包平台或者众包应用程序中,客户端可以通过众包平台或者众包应用程序获取众包任务,执行该众包任务,如,通过众包任务的输入接口输入执行信息,服务器获取多个客户端执行众包任务的结果,统计分析该结果,得到该众包任务对应的结果。
在一个可选的实施例中,服务器可以将待标注对象发布至众包平台或者众包应用程序,客户端通过众包平台或者众包应用程序展示该待标注对象,并接收用于标注待标注对象中一个或多个主体的标注操作,根据该标注操作生成标注信息,并将生成的标注信息发送(或提交)至服务器,服务器在获取到多个客户端反馈的多个标注信息之后,根据多个标注信息确定待标注对象中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
在上述实施例中,采用了众包的标记方式来标注待标注对象,即将待标注对象提供给客户端,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
上述实施例中的待标注对象为图片。采用上述实施例,可以在一个图片有许多用户同时标注的时候,快速并准确地计算出这个图上所有被标注的物品或者文字信息。
例如,服务器可以将图片以众包任务的形式发布至众包平台或者众包,客户端通过众包平台或者众包服务器展示该待标注对象,在客户端展示该图片的界面上接收用于标注该图片中一个或多个主体(如文字或物品)的标注操作,根据该标注操作生成标注信息,并将生成的标注信息发送(或提交)至服务器,服务器在获取到多个客户端反馈的多个标注信息之后,根据多个标注信息确定图片中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到图片的目标标注信息。
在上述运行环境下,本申请提供了如图3所示的标注信息的处理方法的实施例。图3是根据本发明实施例的标注信息的处理方法的流程图。
在该标注信息的处理方法的实施例中,可以通过如下步骤实现:
步骤S301,服务器发布待标注对象,其中,待标注对象包含一个或多个主体。
可选地,待标注对象可以为图片,服务器可以将图片携带在众包任务中进行发放,如,将众包任务发布在众包应用或众包平台(如浏览器的页面)上。
其中,主体,即事物的主要部分,如图片中的物品或文字信息等。标注,即标示注记,在本申请中指在待标注对象上贴记号,以记录下待标注对象的信息。
如图4所示,该图片中可以包括三个主体,如,主体1,主体2和主体3。
步骤S302,客户端在获取待标注对象之后,在屏幕上展示该待标注对象。
客户端可以通过众包应用或众包平台(如浏览器的页面)获取待标注对象,并在屏幕上展示该待标注对象,如,在屏幕上展示图片。
步骤S303,客户端接收标注操作。
可选地,标注操作包括在待标注对象上的输入位置输入文本内容的操作,标注信息至少包括输入位置和文本内容。
该标注操作为用于标注目标主体中一个或多个主体的操作,可选地,该标注操作可以为:在待标注对象上的输入位置输入文本内容,该文本内容用于记录对应的主体的信息。
在上述实施例中,输入位置可以在客户端的屏幕上设置,如,在客户端的屏幕上,选中一个像素点,则可以生成预定尺寸的输入框,该输入框对应的位置则为输入位置;又如,在客户端的屏幕上执行滑动操作,以在客户端上选中一个封闭区间,该封闭区间对应的位置也可以为输入位置。
可选地,用户可以在客户端的屏幕上滑动设置一个输入矩形框,该输入矩形框对应的位置即为输入位置。
在一个可选的实施例中,该输入矩形框的输入位置可以使用二维坐标来表示,如,xmin:10,ymin:10,xmax:22,ymax:40,其中,xmin和ymin用于表示该输入矩形框的一个二维角坐标,xmax和ymax用于表示该输入矩形框的另外一个二维角坐标,由于该输入框为矩形,利用对角线上的两个角坐标即可以准确表示该输入矩形框的位置。
上述实施例中的文本内容用于记录主体的信息,该文本内容可以为文字,如图4所示的示例中,可以用文字“手机”记录主体1的信息。
步骤S304,客户端基于接收到的标注操作生成标注信息。
客户端的处理器在接收到标注操作之后,至少基于标注操作的属性信息生成标注信息。这里的属性信息可以包括标注操作的输入位置和文本内容。
在一个可选的实施例中,客户端每接收到一个标注操作生成一个对应的标注信息,若客户端接收到对待标注对象执行了三次操作,则可以生成三个标注信息,也即,每个标注信息用于表示一个标注操作。
可选地,在标注信息中还可以携带客户端的标识。例如,标注信息可以记录为:User_id:A,Data:{xmin:10,ymin:10,xmax:22,ymax:40,text:’iphone’},在该标注信息中,User_id表示客户端标识,该标注信息为客户端A生成的;Data用于记录输入位置和文本内容,这里的输入位置用输入矩形框的两个二维角坐标来表示,即,xmin:10,ymin:10,xmax:22,ymax:40;这里的文本内容记录为text:’iphone’。
步骤S305,服务器获取多个客户端反馈的多个标注信息,其中,标注信息为客户端根据接收到的标注操作生成的标注信息,标注操作用于标注待标注对象中一个或多 个主体。
在该示例中,把待标注的图片展示给X个用户,让大家在上面标记,(如,对于图4所示的示例,用户A觉得这个图上有3处重要内容,他就在这三处分别标记1个框,并填写文本内容。客户端接收用户在标注过程中的标注操作,生成标注信息,将生成的标注信息反馈给服务器,服务器得到每个客户端的标记结果(即上述的标记信息),在这里需要说明的是,一个客户端可以反馈一个或多个标注信息,服务器将来自多个客户端的多个标注信息进行汇总得到的汇总信息,表1示出了汇总的标注信息,在该表1中Img_id表示待标注对象的ID,如,图片ID。
表1
Img_id User_id Data
1 A {xmin:10,ymin:10,xmax:22,ymax:40,text:’iphone’}
1 B {xmin:100,ymin:20,xmax:202,ymax:400,text:’6s’}
2 C {xmin:10,ymin:60,xmax:88,ymax:420,text:’sumsung’}
将汇总得到的标注信息进行图形化展示,可以得到图5的示例。具体地,可以利用所有的标注信息的两个二维角坐标在同一个坐标系中绘制输入框的汇总图。
可以将同一个待标注对象的所有标注信息都放到同一个坐标系中,在代码上表示就是一个数组,里面放入每一个用户在该图上的标记结果(即上述实施例中的标注信息)。
在图5所示的坐标系中,每一个矩形(包括虚线矩形和实线矩形),都是用户标记的一个输入框,这其中有一些用户乱标或者手误造成的噪点(如图5中的虚线矩形)。
在一个可选的实施例中,可以在服务器得到来自多个客户端的多个标注信息之后,将多个标注信息进行清洗操作,以去除多个标注信息中的噪音信息(或称之为噪音数据);根据清洗后的多个标注信息,确定待标注对象中每个主体的主体标注信息。
可选地,对多个标注信息进行清洗操作,该清洗操作可以为去噪操作、和去重操作等,以发现并纠正多个标注信息中可识别的错误,在对获取到的多个标注信息进行清洗之后,再根据多个标注信息,确定待标注对象中每个主体的主体标注信息,在汇总之后,得到待标注对象的目标标注信息。
在一个可选的实施例中,将多个标注信息记录在同一坐标系中,其中,一个标注信息与坐标系中的一个区域相对应;确定噪音数据,将噪音信息剔除,得到清洗后的 多个标注信息;根据清洗后的多个标注信息,确定待标注对象中每个主体的主体标注信息。
确定坐标系中的噪点区域可以通过聚类实现,例如,在对坐标系中记录的标注信息进行聚类(如可以按照标注信息的位置进行聚类)之后,聚类得到A个类,其中,A个类中有两个类中均只包含一个标注信息,则确定该两个类中的标注信息为噪音数据,可以将该噪音数据剔除。
其中,清洗操作,该操作为发现并纠正原始数据中可识别的错误的操作,如,发现并纠正多个标注信息中可识别的错误。
例如,对于上述表1中的数据进行清洗后,可以得到如表2所示的数据,如,清洗后的数据中,Img_id为1的图片包括两个标注信息,分别为:{xmin:10,ymin:10,xmax:22,ymax:40,text:’iphone’},{xmin:100,ymin:20,xmax:202,ymax:400,text:’6s’}。Img_id为2的图片包括一个标注信息,为:{xmin:10,ymin:60,xmax:88,ymax:420,text:’sumsung’}。
表2
步骤S306:根据多个标注信息,确定待标注对象中每个主体的主体标注信息。
根据多个标注信息确定待标注对象中需标注的主体,并确定每个需标注主体的主体标注信息。
因为,一个待标注对象中可以包含多个物品和文字信息,但是不是每个物品或者文字信息都是这个待标注对象的主体,也即,不是每个物品或者文字信息都是需要标注的信息,在该方案中,可以基于多个标注信息确定需要标注的主体,并确定每个主体的主体标注信息。
在该实施例中,可以确定需要标注主体的数量,基于多个标注信息确定符合该数量的主体标注信息,如,确定的需要标注主体的数量为三个,则可以基于多个标注信息确定三个主体标注信息。
在一个可选的实施例中,根据多个标注信息,确定待标注对象中每个主体的目标标注信息包括:对多个标注信息进行聚类操作,得到一个或多个标注类,其中,每个标注类中包含至少一个标注信息,每个标注类用于标注一个主体。根据每个标注类所包含标注信息的输入位置和文本内容,确定每个标注类所标注主体的主体标注信息;汇总各个主体的主体标注信息,得到待标注对象的目标标注信息。通过该实施例可以确定需要标注的主体的数量,并将标注每个主体的标注信息进行分组,得到一个或多个标注类,并利用每个标注类包含的标注信息,确定一个最终的标注信息用于标识该标注类所标注的主体,汇总每个主体的主体标注信息,得到该待标注对象的目标标注信息。
在一个可选的实施例中,对多个标注信息进行聚类操作,得到一个或多个标注类包括:基于多个标注信息确定标注类的数量K,其中,K为自然数;将多个标注信息分为K个标注类。
其中,基于多个标注信息确定标注类的数量K包括:根据多个标注信息中的客户端标识,统计各个客户端的标注信息的数量M,其中,M为自然数;根据M个数量中每个数量的出现概率,将所述M个数量中预定比例的数量进行均值计算,得到所述标注类的数量K。
通过上述实施例可以通过众包标注的方式获取标注信息,并对获取到的多个标注信息进行聚类操作,以最终确定图片中主体标注结果。上述实施例中的聚类操作不拘泥于预先设置好的标注类的数量(也即已经预定好该图片中的主体是几个),而是基于多个标注信息确定标注类的数量(标注类的数量表示图片中主体的数量);实质上,对于不同的图片,图片中包含的主体数量是不确定,如果按照预先设置好的标注类的数量对标注信息进行聚类,得到的结果是很不准确的,而采用上述的处理方式,可以基于标注结果准确确定图片中主体的数量,也即,通过上述实施例的聚类方式,可以基于获取到的多个标注信息的特征,对多个标注信息进行分类,以获取最优的聚类结果(即最优的主体数量),并最终准确确定每个主体的标注结果。
可选地,预定比例可以为68%。
在一个可选的实施例中,根据M个数量中每个数量的出现概率,将所述M个数量中预定比例的数量进行均值计算,得到所述标注类的数量K可以通过图6所示的如下步骤实现:
步骤S601:计算每一个客户端标记的框数。
也即,统计每一个客户端反馈的标注信息的数量。
步骤S602:利用正态分布规律统计出概率密度最大的68%数据。
步骤S603:利用68%的数据计算出框数平均值。这个图最有可能有多少个主体,记为K个。
例如,一个图片有100个客户端给出了标注信息,60个客户端在2个输入框输入了文本内容,30个客户端在3个输入框输入了文本内容,10个客户端在4个输入框输入了文本内容;则概率密度最大的68%将作为求均值的数据,即(60*2+8*3)/68,计算得到该图片中有两个需标注的主体,即,K=2。
在另一种可选的实施例中,可以利用公式CAST(round(AVG(mark_cnt))ASBIGINT)AS rect_cnt确定K值,其中,mark_cnt是记录客户端的标注信息的数组中标注信息的数量(如用户答题记录的json数组中元素个数),即单个客户端在图片中标注的文本内容的数量。根据正态分布3西格玛规则,计算出该图片需要几个聚类(即上述实施例中的标注类的数量K),具体地,获取多个标注信息中的各个客户端标注信息的数量;统计每个数量出现频率;按照出现频率对所有的数量进行排序;从排序后得到的序列中取预定比例的数量进行均值计算,如取排序后序列中前68%的值来计算均值,获得最终的K值。
在该示例中的出现频率可以指每个数量在所有数量中出现的概率,按照出现频率对所有的数量进行排序,也可以转换为按照出现概率对所有的数量进行排序。
根据本发明的上述实施例,将多个标注信息分为K个标注类包括:获取各个标注信息的位置信息,其中,位置信息用于表示多个标注信息的输入位置之间的相对关系;利用各个标注信息的位置信息对多个标注信息进行聚类,以将多个标识信息分入K个标注类中。
通过该实施例,可以将图5所示的无序的一堆矩形合并成如图7所示的用点划线示出的区域(即,图7中的区域1、区域2和区域3),使其框出图片中的重要内容或者文字。
在上述实施例中,获取各个标注信息的位置信息包括:从各个标注信息中提取输入位置的坐标,其中,输入位置的坐标为二维坐标;按照预定坐标系修正多个标注信息的二维坐标;将修正后的二维坐标转换为点坐标,得到各个标注信息的位置信息。
其中,输入位置可以为输入矩形框的二维坐标,这里的二维坐标可以为输入矩形框的两个二维角坐标,按照预定坐标系修正多个标注信息的二维坐标,也即,将多个标注信息放入同一个坐标系中。
下面结合图7和图8,以待标注对象为图片为例,对上述实施例进行解释说明,如图8所示,该实施例可以通过如下步骤实现:
步骤S801:把所有的标注信息放入同一个数组中。
步骤S802:用矩形中心点代替矩形。
可选地,在上述实施例中得到图5所示的所有矩形之后,将修正后的二维坐标转换为点坐标,得到各个标注信息的位置信息,可以利用每个标注信息的两个二维角坐标计算每个输入矩形框的中心点,即,把每个二维的矩形降维成为一个点,得到与每个标注信息的输入位置对应的点坐标。可选地,利用每个矩形的两个二维角坐标计算该矩形的中心点,X中心=(xmax–xmin)/2,y中心=(ymax-ymin)/2,即将两个二维角坐标{xmin:10,ymin:10,xmax:100,ymax:150}变成点坐标{55,70}。
步骤S803:利用框数均值进行聚类。
使用上述的K值,对所有的标注信息的输入框的中心点进行一次k聚类,聚类的数量即为上述得出的K值,经过这次聚类以后,可以得到的效果是:图片中所有的框被分为K类,将聚类后的标注信息展示在同一坐标系中,可以得到如图7所示的三个区域,每个区域对应一个标注类,每个区域对应一个主体。
上述的k聚类可以采用k-medoids的聚类算法。
例如,有6个标注信息,即有6个数据点:
{xmin:0,ymin:0,xmax:100,ymax:100,text:’iPhone’};
{xmin:0,ymin:0,xmax:102,ymax:102,text:’iPhone’};
{xmin:2,ymin:2,xmax:100,ymax:100,text:’iPhone’};
{xmin:2,ymin:2,xmax:100,ymax:100,text:’Xiaomi};
{xmin:100,ymin:100,xmax:200,ymax:200,text:’Sumsung};
{xmin:102,ymin:102,xmax:202,ymax:202,text:’Sumsung};
降维后用中心点坐标表示为:
{x:50,y:50,text:’iPhone’};
{x:51,y:51,text:’iPhone’};
{x:49,y:49,text:’iPhone’};
{x:49,y:49,text:’Xiaomi};
{x:150,y:150,text:’Sumsung’}
{x:151,y:151,text:’Sumsung’}
根据前面的步骤,可以确定K值为2,也即该6个数据应该被分到两个聚类(即标注类)中。
进行k聚类以后得到:
第一类:
{x:50,y:50,text:’iPhone’};
{x:51,y:51,text:’iPhone’};
{x:49,y:49,text:’iPhone’};
{x:49,y:49,text:’Xiaomi};
第二类:
{x:150,y:150,text:’Sumsung’}
{x:151,y:151,text:’Sumsung’}。
根据本发明的上述实施例,根据每个标注类所包含标注信息的输入位置和文本内容,确定每个标注类所标注主体的主体标注信息包括:根据标注类所包含标注信息的文本内容,确定标注类对应的目标文本内容;对标注类所包含标注信息的输入位置进行聚类,得到标注类对应的目标位置信息;基于目标文本内容和目标位置信息,生成标注类所标注主体的主体标注信息。
通过上述实施例,可以基于每个标注类中的文本内容确定该标注类的目标文本内容,基于标注类中的输入信息确定该标注类对应的目标位置信息,则将包含多个输入位置和文本内容的标注类聚类汇总为一个目标文本内容和一个目标位置信息,将该目标文本内容和一个目标位置信息作为该标注类所标注主体的主体标注信息。每个标注类均可以采用上述的处理方法,确定出对应主体的主体标注信息。
根据上述实施例,根据标注类所包含标注信息的文本内容,确定标注类对应的目标文本内容包括:获取标注类所包含的P个标注信息中各个标注信息的文本内容,其中,P为自然数;统计P个文本内容中各个文本内容的词频;将统计得到的词频中数值最大的词频对应的文本内容,确定为标注类的目标文本内容。
可选地,根据每个聚类(即上述的标注类)中客户端接收到的(即用户填写的)文本内容,遍历每一个聚类,计算每个文本内容的出现词频,将计算得到的词频的值 最大的词频对应的文本内容确定为这个聚类的目标文本内容。
例如:对一个标注类中的文本内容进行汇总,得到三个文本信息,其中,{一个手机:120,1个手机:20,2个手机:10},即,一个手机的出现次数为120词,1个手机的出现次数为20词,2个手机的出现次数为10次。
根据统计得到的词频可知,120是值最大的词频,120对应的文本内容为“一个手机”,也即,“一个手机”应该是正确的文案(即文本内容),“1个手机”和“2个手机”都属于噪点,所以可以剔除这些噪点,保留正确的文案,从而确定出该标注类对应的目标文本内容为“一个手机”。
在一个可选的实施例中,在确定出目标文本内容之后,对标注类所包含标注信息的输入位置进行聚类,得到标注类对应的目标位置信息可以包括:获取标注类所包含标注信息的输入位置,其中,输入位置用于输入对应的文本内容时输入框的两角坐标来表示;根据标注类所包含标注信息的两角坐标,形成待聚合的坐标类;对各个坐标类中的坐标值进行聚类,确定出每个坐标类的目标坐标值;汇总各个坐标类的目标坐标值,得到标注类对应的目标位置信息。
通过上述实施例,可以基于标注类所包含标注信息的输入位置的两个二维角坐标(即上述的两角坐标),来确定该标注类最终对应的一个输入位置,将该一个输入位置确定为该标注类对应的目标位置信息。
在另一个可选地的实施例中,在确定出目标文本内容之后,获取标注类所包含标注信息的输入位置包括:从标注类包含的P个标注信息中筛选包含目标文本内容的Q个标注信息,其中,Q为大于等于1且小于等于P的自然数;获取Q个标注信息的输入位置。也即,从标注类包含的P个标注信息中筛选包含目标文本内容的Q个标注信息,也即,将噪点从P个标注信息中剔除之后,在根据筛选出的标注信息(即Q个标注信息)的输入位置确定目标位置信息。
在每个聚类中用一个矩形框来表示一个主体(如物品),遍历每一个聚类,在筛选出的标注信息中进行二次k-medoids聚类(即上述的k聚类),每一个框都可以用2组坐标点表示,即(xmin,ymin)与(xmax,ymax),我们将每个聚类中的框,拆成4组数据{xmin},{xmax},{ymin},{ymax},然后利用k-medoids分别对这四组数据进行二次聚类,只聚1个类(也即在该次聚类中K值等于1),以选出这组数据(即该标注类)中最具代表性的那一个,则可得到最优的四个数:xmin_best,ymin_best,xmax_best和ymax_best。将这四个坐标值进行组合,可以得出聚类后的两角坐标,从而可以确定该标注类的框的位置信息(即上述的目标位置信息)。即图7中的所有的框会汇聚成K 个(如图9所示,汇聚之后的图中包括三个框)。
下面结合图10所示的示例进行二次聚类,如图9所示,该示例中可以包括如下步骤:
步骤S1001:遍历一个聚类。
步骤S1002:比较聚类中各点的文本内容。
步骤S1003:检测当前点的文本内容是否为词频最高的文本内容。
若是,则执行步骤S1004;若否,则执行步骤S1008。
步骤S1004:把该点加入待聚类点集合。
步骤S1005:判断待聚类点集合中是否有未检测的点。
若是,则返回执行步骤S1003;若否,则执行步骤S1006。
步骤S1006:对所有待聚合点两角四个坐标点分别进行聚类。
步骤S1007:组合聚类得到的四个坐标值,得到该聚类的框位置。
步骤S1008:丢弃该噪点。
以图8中对数据点进行一次聚类的结果为例,得到的一次聚类结果中的聚类1为:
{x:50,y:50,text:’iPhone’};
{x:51,y:51,text:’iPhone’};
{x:49,y:49,text:’iPhone’};
{x:49,y:49,text:’Xiaomi};
在该标注类中最高词频是“iPhone”,所以最后一个点属于噪点,要丢弃,则聚类1变成了:
{x:50,y:50,text:’iPhone’};
{x:51,y:51,text:’iPhone’};
{x:49,y:49,text:’iPhone’};
对这三个点进行二次聚类确定矩形两角坐标,可选地,利用这个点之前的两角坐标,形成4个带聚合的坐标类:
Xmin:{0,0,2},
Ymin:{0,0,2},
Xmax:{100,102,100},
Ymax:{100.102.100}。
再对这4组数据进行二次聚类,分别获取每一组中的中心点,这个中心点距离其他各点距离最近,聚类后:xmin:0,ymin:0,xmax:100,ymax:100。
则可以确定,聚类1对应的框的坐标是:
{xmin:0,ymin:0,xmax:100,ymax:100,text:’iPhone’}。
同理,第二个聚类也可以利用这种方式,确定出第二个框的坐标。
通过上述实施例,可以计算出这个图需要标记两个框,以及两个框的坐标位置以及文案。
步骤S307:汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
在一个可选的实施例中,还可以将该方法实施例应用于客户端,可选地,该实施例可以包括如下步骤:
步骤S10:接收服务器发布的待标注对象,其中,待标注对象包含一个或多个主体;
步骤S20:接收基于待标注对象输入的操作信息,操作信息用于记录标注待标注对象中一个或多个主体的操作;
步骤S30:根据操作信息生成标注信息,将标注信息发送至服务器,其中,服务器用于根据多个标注信息确定待标注对象中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
在本发明实施例中,服务器发布待标注对象,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
可选地,在接收基于待标注对象输入的操作信息之后,方法还包括:获取其他客户端的标注信息;基于其他客户端的标注信息调整操作信息;基于调整后的操作信息生成客户端的标注信息。
其中,该客户端获取的其他客户端的标注信息可以主动获取,如客户端请求其他客户端发送该标注信息;还可以是被动获取,如其他客户端主动发布其的标注信息;在一个可选的实施例中,客户端还可以从服务器侧获取服务器已经收集的标注信息作为参考,本申请对此不作限定。
在该实施例中,每个客户端均可以基于其他客户端的标注信息来调整自己的标注信息,这样可以在将标注信息发给服务器之前,就进行调整,减少了发给服务器噪声数据(如噪音信息)的数据量,减少了服务器的处理量;并且,由于从客户端侧提高了标注的正确率,从而可以进一步保证服务器基于客户端确定的主体的标注信息的准确率。
通过上述实施例,使用人力来代替机器,使得标注的数据带有人的真实感情色彩,由真人来决定一个复杂的图中到底要表达的是什么东西,并且减少机器学习成本;由于人力标注会有误差,使用优化后的二次k-medoids聚类方法,对人力标注的数据进行清洗,汇总,再次清洗,再次汇总,得到精度更高的标注区域;利用词频分析,获取每一个聚类区域中的文案,以得到一个图中框出物体并且标识出框中文案的效果;根据用户数据,利用正态分布原则对k-medoids算法进行优化,科学地,自动化的预测出K,减少了传统k-medoids方法中利用经验值来估计K所造成的误差。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述标注信息的处理方法的标注信息的处理装置,如图11所示,该装置包括:
发布单元1101,用于发布待标注对象,其中,所述待标注对象包含一个或多个主体;
第一获取单元1103,用于获取来自多个客户端的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;
确定单元1105,用于根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;
汇总单元1107,用于汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
在本发明实施例中,服务器发布待标注对象,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
可选地,所述标注操作包括在所述待标注对象上的输入位置输入文本内容的操作,所述标注信息至少包括所述输入位置和所述文本内容。
可选地,确定单元包括:第一聚类模块,用于对多个标注信息进行聚类操作,得到一个或多个标注类,其中,每个标注类中包含至少一个标注信息,每个标注类用于标注一个主体;第一确定模块,用于根据每个标注类所包含标注信息的输入位置和文本内容,确定每个标注类所标注主体的主体标注信息。
可选地,第一聚类模块包括:第一确定子模块,用于基于多个标注信息确定标注类的数量K,其中,K为自然数;第一聚类子模块,用于将多个标注信息分为K个标注类。
可选地,第一确定子模块具体用于:根据多个标注信息中的客户端标识,统计各个客户端的标注信息的数量M,其中,M为自然数;根据M个数量中每个数量的出现概 率,将所述M个数量中预定比例的数量进行均值计算,得到所述标注类的数量K。
可选地,第一聚类子模块包括:位置信息获取模块,用于获取各个标注信息的位置信息,其中,位置信息用于表示多个标注信息的输入位置之间的相对关系;标注信息聚类子模块,用于利用各个标注信息的位置信息对多个标注信息进行聚类,以将多个标识信息分入K个标注类中。
可选地,位置信息获取模块具体用于:从各个标注信息中提取输入位置的坐标,其中,所述输入位置的坐标为二维坐标;按照预定坐标系修正所述多个标注信息的二维坐标;将修正后的二维坐标转换为点坐标,得到各个所述标注信息的位置信息。
可选地,第一确定模块包括:第二确定子模块,用于根据标注类所包含标注信息的文本内容,确定标注类对应的目标文本内容;第二聚类子模块,用于对标注类所包含标注信息的输入位置进行聚类,得到标注类对应的目标位置信息;生成子模块,用于基于目标文本内容和目标位置信息,生成标注类所标注主体的主体标注信息。
可选地,第二确定子模块具体用于:获取标注类所包含的P个标注信息中各个标注信息的文本内容,其中,P为自然数;统计P个文本内容中各个文本内容的词频;将统计得到的词频中数值最大的词频对应的文本内容,确定为标注类的目标文本内容。
可选地,第二聚类子模块具体用于:获取标注类所包含标注信息的输入位置,其中,输入位置用于输入对应的文本内容时输入框的两角坐标来表示;根据标注类所包含标注信息的两角坐标,形成待聚合的坐标类;对各个坐标类中的坐标值进行聚类,确定出每个坐标类的目标坐标值;汇总各个坐标类的目标坐标值,得到标注类对应的目标位置信息。
可选地,第二聚类子模块还用于:从标注类包含的P个标注信息中筛选包含目标文本内容的Q个标注信息,其中,Q为大于等于1且小于等于P的自然数;获取Q个标注信息的输入位置。
可选地,待标注对象为图片。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图2所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为 移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行标注信息的处理方法中以下步骤的程序代码:发布待标注对象,其中,待标注对象包含一个或多个主体;获取来自多个客户端的多个标注信息,其中,标注信息为客户端根据接收到的标注操作生成的标注信息,标注操作用于标注待标注对象中一个或多个主体;根据多个标注信息,确定待标注对象中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
可选地,图1所示存储器可用于存储软件程序以及模块,如本发明实施例中的标注信息的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的标注信息的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对多个标注信息进行聚类操作,得到一个或多个标注类,其中,每个标注类中包含至少一个标注信息,每个标注类用于标注一个主体;根据每个标注类所包含标注信息的输入位置和文本内容,确定每个标注类所标注主体的主体标注信息。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:基于多个标注信息确定标注类的数量K,其中,K为自然数;将多个标注信息分为K个标注类。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:根据多个标注信息中的客户端标识,统计各个客户端的标注信息的数量M,其中,M为自然数;根据M个数量中每个数量的出现概率,将M个数量中预定比例的数量进行均值计算,得到标注类的数量K。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取各个标注信息的位置信息,其中,位置信息用于表示多个标注信息的输入位置之间的相对关系;利用各个标注信息的位置信息对多个标注信息进行聚类,以将多个标识信息分入K个标注类中。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从各个标注信息中提取输入位置的坐标,其中,输入位置的坐标为二维坐标;按照预定坐标系修正多个标注信息的二维坐标;将修正后的二维坐标转换为点坐标,得到各个标注信息的位置信息。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:根据标注类所包含标注信息的文本内容,确定标注类对应的目标文本内容;对标注类所包含标注信息的输入位置进行聚类,得到标注类对应的目标位置信息;基于目标文本内容和目标位置信息,生成标注类所标注主体的主体标注信息。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取标注类所包含的P个标注信息中各个标注信息的文本内容,其中,P为自然数;统计P个文本内容中各个文本内容的词频;将统计得到的词频中数值最大的词频对应的文本内容,确定为标注类的目标文本内容。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取标注类所包含标注信息的输入位置,其中,输入位置用于输入对应的文本内容时输入框的两角坐标来表示;根据标注类所包含标注信息的两角坐标,形成待聚合的坐标类;对各个坐标类中的坐标值进行聚类,确定出每个坐标类的目标坐标值;汇总各个坐标类的目标坐标值,得到标注类对应的目标位置信息。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从标注类包含的P个标注信息中选取包含目标文本内容的Q个标注信息,其中,Q为大于等于1且小于等于P的自然数;获取Q个标注信息的输入位置。
采用本发明实施例,服务器发布待标注对象,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
本领域普通技术人员可以理解,图1所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图1其并不对上述电子装置的结构造成限定。例如,计算机终端1还可包括比图1中所示更多或者更少的组件(如 网络接口、显示装置等),或者具有与图1所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的标注信息的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:发布待标注对象,其中,待标注对象包含一个或多个主体;获取来自多个客户端的多个标注信息,其中,标注信息为客户端根据接收到的标注操作生成的标注信息,标注操作用于标注待标注对象中一个或多个主体;根据多个标注信息,确定待标注对象中每个主体的主体标注信息;汇总每个主体的主体标注信息,得到待标注对象的目标标注信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对多个标注信息进行聚类操作,得到一个或多个标注类,其中,每个标注类中包含至少一个标注信息,每个标注类用于标注一个主体;根据每个标注类所包含标注信息的输入位置和文本内容,确定每个标注类所标注主体的主体标注信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于多个标注信息确定标注类的数量K,其中,K为自然数;将多个标注信息分为K个标注类。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据多个标注信息中的客户端标识,统计各个客户端的标注信息的数量M,其中,M为自然数;根据M个数量中每个数量的出现概率,将M个数量中预定比例的数量进行均值计算,得到标注类的数量K。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取各个标注信息的位置信息,其中,位置信息用于表示多个标注信息的输入位置之间的相对关系;利用各个标注信息的位置信息对多个标注信息进行聚类,以将多个标识信息分入K个标注类中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从各个标注信息中提取输入位置的坐标,其中,输入位置的坐标为二维坐标;按照预定坐标系修正多个标注信息的二维坐标;将修正后的二维坐标转换为点坐标,得到各个标注信息的位置信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据标注类所包含标注信息的文本内容,确定标注类对应的目标文本内容;对标注类所包含标注信息的输入位置进行聚类,得到标注类对应的目标位置信息;基于目标文本内容和目标位置信息,生成标注类所标注主体的主体标注信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取标注类所包含的P个标注信息中各个标注信息的文本内容,其中,P为自然数;统计P个文本内容中各个文本内容的词频;将统计得到的词频中数值最大的词频对应的文本内容,确定为标注类的目标文本内容。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取标注类所包含标注信息的输入位置,其中,输入位置用于输入对应的文本内容时输入框的两角坐标来表示;根据标注类所包含标注信息的两角坐标,形成待聚合的坐标类;对各个坐标类中的坐标值进行聚类,确定出每个坐标类的目标坐标值;汇总各个坐标类的目标坐标值,得到标注类对应的目标位置信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从标注类包含的P个标注信息中选取包含目标文本内容的Q个标注信息,其中,Q为大于等于1且小于等于P的自然数;获取Q个标注信息的输入位置。
采用本发明实施例,服务器发布待标注对象,让用户通过客户端来标注待标注对象,服务器把客户端反馈的标注信息(如标注结果)汇总成这个待标注对象应该被标注出的信息(即上述实施例中的目标标注信息),在上述实施例中,由于根据已经标注的信息(例如,真实用户进行标注)确定每个个体的个体标注信息,并汇总得到待标注对象的目标标注信息,而无需通过计算机直接从待标注对象中识别主体,从而可以准确标注出待标注对象中的主体,通过上述实施例,解决了现有技术中识别图片中主体的准确率低的问题,实现了对待标注对象的主体进行准确标注的效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (19)

1.一种标注信息的处理系统,其特征在于,包括:
服务器,用于发布待标注对象,其中,所述待标注对象包含一个或多个主体;
客户端,用于接收操作信息,并根据所述操作信息生成标注信息,其中,所述操作信息用于记录标注所述待标注对象中一个或多个主体的操作;
所述服务器还用于获取多个所述客户端反馈的多个标注信息,根据所述多个标注信息确定所述待标注对象中每个所述主体的主体标注信息;汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
2.一种标注信息的处理方法,其特征在于,包括:
发布待标注对象,其中,所述待标注对象包含一个或多个主体;
获取多个客户端反馈的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;
根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;
汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
3.根据权利要求2所述的处理方法,其特征在于,所述标注操作包括在所述待标注对象上的输入位置输入文本内容的操作,所述标注信息至少包括所述输入位置和所述文本内容。
4.根据权利要求2或3所述的处理方法,其特征在于,根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息包括:
对多个所述标注信息进行聚类操作,得到一个或多个标注类,其中,每个所述标注类中包含至少一个标注信息,每个所述标注类用于标注一个所述主体;
根据每个所述标注类所包含标注信息的输入位置和文本内容,确定每个所述标注类所标注主体的主体标注信息。
5.根据权利要求4所述的方法,其特征在于,对多个所述标注信息进行聚类操作,得到一个或多个标注类包括:
基于多个所述标注信息确定标注类的数量K,其中,K为自然数;
将所述多个标注信息分为K个标注类。
6.根据权利要求5所述的方法,其特征在于,基于多个所述标注信息确定标注类的数量K包括:
根据所述多个标注信息中的客户端标识,统计各个客户端的标注信息的数量M,其中,M为自然数;
根据M个数量中每个数量的出现概率,将所述M个数量中预定比例的数量进行均值计算,得到所述标注类的数量K。
7.根据权利要求5所述的方法,其特征在于,将所述多个标注信息分为K个标注类包括:
获取各个标注信息的位置信息,其中,所述位置信息用于表示所述多个标注信息的输入位置之间的相对关系;
利用各个所述标注信息的位置信息对所述多个标注信息进行聚类,以将所述多个标识信息分入所述K个标注类中。
8.根据权利要求7所述的方法,其特征在于,获取各个标注信息的位置信息包括:
从各个标注信息中提取输入位置的坐标,其中,所述输入位置的坐标为二维坐标;
按照预定坐标系修正所述多个标注信息的二维坐标;
将修正后的二维坐标转换为点坐标,得到各个所述标注信息的位置信息。
9.根据权利要求4所述的方法,其特征在于,根据每个所述标注类所包含标注信息的输入位置和文本内容,确定每个所述标注类所标注主体的主体标注信息包括:
根据所述标注类所包含标注信息的文本内容,确定所述标注类对应的目标文本内容;
对所述标注类所包含标注信息的输入位置进行聚类,得到所述标注类对应的目标位置信息;
基于所述目标文本内容和所述目标位置信息,生成所述标注类所标注主体的主体标注信息。
10.根据权利要求9所述的方法,其特征在于,根据所述标注类所包含标注信息的文本内容,确定所述标注类对应的目标文本内容包括:
获取所述标注类所包含的P个标注信息中各个标注信息的文本内容,其中,P为自然数;
统计P个文本内容中各个文本内容的词频;
将统计得到的词频中数值最大的词频对应的文本内容,确定为所述标注类的目标文本内容。
11.根据权利要求9所述的方法,其特征在于,对所述标注类所包含标注信息的输入位置进行聚类,得到所述标注类对应的目标位置信息包括:
获取所述标注类所包含标注信息的输入位置,其中,所述输入位置用于输入对应的文本内容时输入框的两角坐标来表示;
根据所述标注类所包含标注信息的两角坐标,形成待聚合的坐标类;
对各个所述坐标类中的坐标值进行聚类,确定出每个坐标类的目标坐标值;
汇总各个坐标类的所述目标坐标值,得到所述标注类对应的目标位置信息。
12.根据权利要求11所述的方法,其特征在于,获取所述标注类所包含标注信息的输入位置包括:
从所述标注类包含的P个标注信息中选取包含所述目标文本内容的Q个标注信息,其中,Q为大于等于1且小于等于P的自然数;
获取所述Q个标注信息的输入位置。
13.根据权利要求4所述的方法,其特征在于,根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息包括:
将所述多个标注信息进行清洗操作,以去除所述多个标注信息中的噪音信息;
根据清洗后的多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息。
14.根据权利要求2所述的方法,其特征在于,所述待标注对象为图片。
15.一种标注信息的处理装置,其特征在于,包括:
发布单元,用于发布待标注对象,其中,所述待标注对象包含一个或多个主体;
第一获取单元,用于获取多个客户端反馈的多个标注信息,其中,所述标注信息为所述客户端根据接收到的标注操作生成的标注信息,所述标注操作用于标注所述待标注对象中一个或多个主体;
确定单元,用于根据所述多个标注信息,确定所述待标注对象中每个所述主体的主体标注信息;
汇总单元,用于汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
16.根据权利要求15所述的处理装置,其特征在于,所述标注操作包括在所述待标注对象上的输入位置输入文本内容的操作,所述标注信息至少包括所述输入位置和所述文本内容。
17.根据权利要求15所述的装置,其特征在于,所述待标注对象为图片。
18.一种标注信息的处理方法,其特征在于,应用于客户端,包括:
接收服务器发布的待标注对象,其中,所述待标注对象包含一个或多个主体;
接收基于所述待标注对象输入的操作信息,所述操作信息用于记录标注所述待标注对象中一个或多个主体的操作;
根据所述操作信息生成标注信息,将所述标注信息发送至所述服务器,其中,所述服务器用于根据多个标注信息确定所述待标注对象中每个所述主体的主体标注信息;汇总每个所述主体的主体标注信息,得到所述待标注对象的目标标注信息。
19.根据权利要求18所述的处理方法,其特征在于,在接收基于所述待标注对象输入的操作信息之后,所述方法还包括:
获取其他客户端的标注信息;
基于所述其他客户端的标注信息调整所述操作信息;
基于调整后的操作信息生成所述客户端的标注信息。
CN201710006138.6A 2017-01-04 2017-01-04 标注信息的处理方法、装置和系统 Pending CN108268575A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710006138.6A CN108268575A (zh) 2017-01-04 2017-01-04 标注信息的处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710006138.6A CN108268575A (zh) 2017-01-04 2017-01-04 标注信息的处理方法、装置和系统

Publications (1)

Publication Number Publication Date
CN108268575A true CN108268575A (zh) 2018-07-10

Family

ID=62771607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710006138.6A Pending CN108268575A (zh) 2017-01-04 2017-01-04 标注信息的处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN108268575A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109934141A (zh) * 2019-03-01 2019-06-25 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110135409A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 识别模型的优化方法和装置
CN110209849A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN111143333A (zh) * 2018-11-06 2020-05-12 北大方正集团有限公司 标注数据处理方法、装置、设备及计算机可读存储介质
CN112654999A (zh) * 2020-07-21 2021-04-13 华为技术有限公司 标注信息的确定方法及装置
CN113688597A (zh) * 2020-05-18 2021-11-23 北京字节跳动网络技术有限公司 一种标注文件的展示方法、装置、设备及存储介质
CN114025216A (zh) * 2020-04-30 2022-02-08 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
US20230195771A1 (en) * 2021-12-21 2023-06-22 Apple Inc. Automated tagging of topics in documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930901A (zh) * 2011-11-17 2014-07-16 微软公司 基于图像内容的自动标记生成
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
US20160093106A1 (en) * 2014-09-29 2016-03-31 Sony Computer Entertainment Inc. Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
CN105978905A (zh) * 2016-07-03 2016-09-28 韦建峰 一种关键词验证方法和生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930901A (zh) * 2011-11-17 2014-07-16 微软公司 基于图像内容的自动标记生成
US20160093106A1 (en) * 2014-09-29 2016-03-31 Sony Computer Entertainment Inc. Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN105978905A (zh) * 2016-07-03 2016-09-28 韦建峰 一种关键词验证方法和生成装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN111143333A (zh) * 2018-11-06 2020-05-12 北大方正集团有限公司 标注数据处理方法、装置、设备及计算机可读存储介质
CN111143333B (zh) * 2018-11-06 2023-06-09 北大方正集团有限公司 标注数据处理方法、装置、设备及计算机可读存储介质
CN109934141A (zh) * 2019-03-01 2019-06-25 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110135409A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 识别模型的优化方法和装置
WO2020199472A1 (zh) * 2019-04-04 2020-10-08 平安科技(深圳)有限公司 识别模型的优化方法和装置
CN110135409B (zh) * 2019-04-04 2023-11-03 平安科技(深圳)有限公司 识别模型的优化方法和装置
CN110209849A (zh) * 2019-06-04 2019-09-06 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN110209849B (zh) * 2019-06-04 2022-03-25 北京字节跳动网络技术有限公司 用于标注关键点的方法和装置
CN114025216A (zh) * 2020-04-30 2022-02-08 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN114025216B (zh) * 2020-04-30 2023-11-17 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN113688597A (zh) * 2020-05-18 2021-11-23 北京字节跳动网络技术有限公司 一种标注文件的展示方法、装置、设备及存储介质
CN112654999B (zh) * 2020-07-21 2022-01-28 华为技术有限公司 标注信息的确定方法及装置
CN112654999A (zh) * 2020-07-21 2021-04-13 华为技术有限公司 标注信息的确定方法及装置
US20230195771A1 (en) * 2021-12-21 2023-06-22 Apple Inc. Automated tagging of topics in documents

Similar Documents

Publication Publication Date Title
CN108268575A (zh) 标注信息的处理方法、装置和系统
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
Fang et al. Bottom-up saliency detection model based on human visual sensitivity and amplitude spectrum
CN108229355A (zh) 行为识别方法和装置、电子设备、计算机存储介质、程序
CN109902708A (zh) 一种推荐模型训练方法及相关装置
TWI716057B (zh) 服務推薦方法、裝置及設備
CN110135185A (zh) 使用生成式对抗网络进行私有化的机器学习
CN108229479A (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN108229591A (zh) 神经网络自适应训练方法和装置、设备、程序和存储介质
CN108229478A (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN108780519A (zh) 卷积神经网络中的结构学习
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110045953A (zh) 生成业务规则表达式的方法及计算装置
JP2017501514A (ja) 顔表現のためのシステムおよび方法
CN106156025A (zh) 一种数据标注的管理方法及装置
CN109086742A (zh) 场景识别方法、场景识别装置及移动终端
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN107506376A (zh) 获取区域内信息点数据的客户端
CN109117760A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN109961064A (zh) 身份证文本定位方法、装置、计算机设备及存储介质
CN107533680A (zh) 代理指派的多维方法
WO2019062405A1 (zh) 应用程序的处理方法、装置、存储介质及电子设备
CN107302492A (zh) 社交软件的交友请求方法、服务器、客户端装置和系统
CN111475661B (zh) 一种基于有限标签构造场景图的方法、装置及计算机设备
CN108984555A (zh) 用户状态挖掘和信息推荐方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710