CN110825914A - 一种资源的标注管理系统 - Google Patents

一种资源的标注管理系统 Download PDF

Info

Publication number
CN110825914A
CN110825914A CN201911052744.7A CN201911052744A CN110825914A CN 110825914 A CN110825914 A CN 110825914A CN 201911052744 A CN201911052744 A CN 201911052744A CN 110825914 A CN110825914 A CN 110825914A
Authority
CN
China
Prior art keywords
resource
target
annotation
label
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911052744.7A
Other languages
English (en)
Inventor
赵晗荻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201911052744.7A priority Critical patent/CN110825914A/zh
Publication of CN110825914A publication Critical patent/CN110825914A/zh
Priority to PCT/CN2020/099354 priority patent/WO2021082499A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification

Abstract

本发明公开了一种资源的标注管理系统,该系统包括:机器标注模块用于将原始资源输入机器标注网络模型,得到带有基础标签的基础标注资源,形成基础标注资源集;资源分配模块用于根据标注者的资源分配需求,从所述基础标注资源集中选取待标注的目标标注资源分配给所述标注者;标注资源存储模块用于接收标注者提交的带有目标标签的目标标注资源并存储至目标标注资源集,所述目标标签由所述标注者从给定的目标标签模板中进行标签选择生成。利用该系统,相当于一个为标注者服务的标注管理平台,对于标注者而言,基于本标注管理系统进行标注操作时,有效的规避了现有标注中遇到的因资源内容多变、语言差异带来的标注困难的问题。

Description

一种资源的标注管理系统
技术领域
本发明涉及信息管理技术领域,尤其涉及一种资源的标签管理系统。
背景技术
目前,短视频产品逐渐成为互联网领域一个受大众青睐的应用产品,对于用户来说,可以基于短视频产品的相关客户端软件进行短视频的观看、短视频录制及上传发布等操作。对于短视频产品服务端来说,需要对上传的短视频进行精确、有效、及时的给短视频内容进行标注,即给短视频内容打标签,从而对整个推荐、搜索系统起到有效的辅助作用,同时可以建立用户画像,为运营、市场等业务使用方提供更全面的信息。
当前,为短视频打标签主要靠人工或者简单的识别模型来实现,然而,很多短视频产品已不局限于在一个国家发展,大部分已经面向全球用户,使得短视频的上传量大幅度增加,且由于用户所属国家的不同,所上传的短视频也存在内容多变、语言文件差异等问题,由此给短视频打标签的实现带来了很多困扰,如内容量过大、更新速度多快、定义困难以及标签管理效率等,现有打标签方案不能有效解决上述问题。
发明内容
本发明实施例提供了一种资源的标注管理系统,实现了对原始资源进行标签标注的有效管理,提高了标签标注的标注效率和标注准确率。
该标注管理系统包括:机器标注模块,用于将原始资源输入机器标注网络模型,得到带有基础标签的基础标注资源,形成基础标注资源集;资源分配模块,用于根据标注者的资源分配需求,从所述基础标注资源集中选取待标注的目标标注资源分配给所述标注者;标注资源存储模块,用于接收标注者提交的带有目标标签的目标标注资源并存储至目标标注资源集,所述目标标签由所述标注者从给定的目标标签模板中进行标签选择生成。
本发明实施例提供的一种资源的标注管理系统,首先通过机器标注模块将原始资源输入机器标注网络模型,得到带有基础标签的基础标注资源形成基础标注资源集;之后由资源分配模块根据标注者的资源分配需求,从所述基础标注资源集中选取待标注的目标标注资源分配给标注者,最终标注资源存储模块接收标注者提交的带有目标标签的目标标注资源并存储至目标标注资源集,其中,目标标签由所述标注者从给定的目标标签模板中进行标签选择生成。上述技术提供的资源的标注管理系统,相当于一个为标注者服务的标注管理平台,本标注管理系统首先能够对接收的大量原始资源进行机器标注,得到基础标注资源集,实现资源的粗粒度标识,然后根据标注者的需求从基础标注资源集中向标注者分配待标注的目标标注资源,从而使标注者能够简单便捷的基于给定的目标标签模板为目标标注资源打标,获得更精细准确的资源标签信息,对于标注者而言,基于本标注管理系统进行标注操作时,有效的规避了现有标注中遇到的因资源内容多变、语言差异带来的标注困难的问题。
附图说明
图1给出了本发明实施例一提供的一种资源的标注管理系统的结构框图;
图2给出了本发明实施例二提供的一种资源的标注管理系统的结构框图;
图3给出了本发明实施例二提供的资源的标注管理系统的架构示例图;
图4提供了本发明实施例二资源的标注管理系统中资源标注实现的数据流向示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例方式作进一步地详细描述。应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。另外,在不冲突的情况下,本发明实施例及实施例中的特征可以相互结合,各个实施例可以相互参考和引用。
实施例一
图1给出了本发明实施例一提供的一种资源的标注管理系统的结构框图,如图1所示,该系统包括:机器标注模块11、资源分配模块12以及标注资源存储模块13。
其中,机器标注模块11用于将原始资源输入机器标注网络模型,得到带有基础标签的基础标注资源,形成基础标注资源集;
资源分配模块12用于根据标注者的资源分配需求,从所述基础标注资源集中选取待标注的目标标注资源分配给所述标注者;
标注资源存储模块13用于接收标注者提交的带有目标标签的目标标注资源并存储至目标标注资源集,所述目标标签由所述标注者从给定的目标标签模板中进行标签选择生成。
在本实施例中,所提供的资源的标注管理系统中集成了机器标注模块11,通过该机器标注模块11能够对原始资源进行基础的标签标注,从而获得带有基础标签的基础标注资源,所获得的基础标注资源可形成基础标注资源集。其中,所述原始资源具体可理解为资源提供者上传发布的音视频或者文本资源,示例性的,原始资源可以为用户通过短视频产品客户端录制及上传发布的短视频内容,同时,原始资源还可以为专业内容创作者生产的专业性音视频或文字内容,或者也可以是通过多频道网络提供的经过内容编排的专业性内容资源及稀缺冷启资源等,其中多频道网络可理解为与资源平台存在合作的组织,可以提供内容编排、创作者协作、数字版权管理以及获取销售等服务的网络平台。此外,原始资源也可以是一些对用户或作者进行介绍的文字内容。
可以知道的是,原始资源在面向受众用户之前需要进行标签标注,以通过标注形成的标签来更好的向受众用户展示资源本身所要表达的内容。在本实施例中,原始资源通过机器标注模块11后可以获得带有基础标签的基础标注资源,机器标注模块11相当于对原始资源的一个粗粒度识别,粗粒度识别后原始资源所带有的基础标签具体可理解为对原始资源内容的一个基础解析标注,示例性的,基础标签中可以包括原始资源的上传时间、资源热度以及资源内容的概述等标签信息。
在本实施例中,所提供的资源的标注管理系统主要面向的用户具体可以是进行资源标签标注的标注者,考虑到标注者所处地域不同或所擅长领域的不同,标注者对系统所推送的待标注资源自己的资源分配需求,本实施例可以为标注者提供一个系统进入接口,标注者可以通过标注管理系统的进入接口进入标签标注的功能页面,并可在该功能页面中进行资源分配需求的设置,示例性的,所设置的资源分配需求可以是资源的分配需求,如自动分配或手动分配,也可以是资源的标注操作需求,如对已标注资源进行重新标注等。
具体的,本标注管理系统上设置的资源分配模块12可以接收到标注者在相关系统界面上设置的资源分配需求,并可按照资源分配需求来从基础标注资源集中选择相匹配的基础标注资源作为待标注的目标标注资源分配给标注者。本实施例通过设置资源分配模块12进行资源按需分配的方式能够很好地规避向标注者分配标注者不擅长的待标注资源,保证了标注者简单便捷对待标注资源进行有效标注,以此来提高标注者的标注效率,可以理解的是,上述所形成的基础标签资源集中的基础标签资源均可称为待标注资源。
在本实施例中,本标注管理系统还集成了标注资源存储模块13,该标注资源存储模块13可以接收到带有目标标签的目标标注资源并将所接收的目标标注资源存储至目标标注资源集,所述目标标签具体可理解为对带有基础标签的基础标签资源进行更详细更精准解释的文本信息,示例性的,所述目标标签可以是展示资源所属分类以及资源所体现的关键内容等提示的文本信息。
在本实施例中,目标标注资源的目标标签可以由标注者从本标注管理系统给定的目标标签模板中进行标签选择生成,目标标签模板可理解包含了规范化标签文本内容的模板文件,其规范化可以体现在标准的标签格式、标准的标签内容表述形式等方面,本实施例基于上述操作确定的目标标签保证了对资源进行标签标注的标准化,改善了标注者对标签定义困难的问题。标注资源存储模块13对接收的带有目标标签的目标标注资源进行存储,形成目标标注资源集,目标标注资源集中的各目标标注资源可以为后续内容推荐以及搜索等提供基础信息,同时给市场拓展、投放买量的业务方提供内容依据,以便更好的选择资源上传者以及投放资源等。
需要说明的是,本标注管理系统中集成的标注资源存储模块13除了用于对所接收目标标注资源的存储,还用于对机器标注后所形成基础标注资源的存储,即,本实施例形成的目标标注资源集以及基础标注资源集均存储在标注资源存储模块中。
本实施例提供的一种资源的标注管理系统,相当于一个为标注者服务的标注管理平台,本标注管理系统首先能够对接收的大量原始资源进行机器标注,得到基础标注资源集,实现资源的粗粒度标识,然后根据标注者的需求基础标注资源集中向标注者分配的待标注目标标注资源,从而使标注者能够简单便捷的基于给定的目标标签模板为目标标注资源打标,获得更精细准确的资源标签信息,对于标注者而言,基于本标注管理系统进行标注操作时,有效的规避了现有标注中遇到的因资源内容多变、语言差异带来的标注困难的问题。
进一步地,本实施例中的资源分配模块12具体可用于当标注者发送的资源分配需求为资源自动分配时,确定所述标注者的位置所在区域;从所述基础标注资源集中筛选与所述位置所在区域匹配的至少一个候选基础标注资源;选择所包含基础标签符合预设筛选项的候选基础标注资源,作为待标注的目标标注资源分配给所述标注者。
在本实施例中,资源分配模块12基于标注者所发送资源分配需求的不同,采用不同的分配方式向标注者进行标注资源的分配。示例性的,资源分配模块12可以在资源分配需求为资源自动分配时,结合标注者的一些属性(所处地理位置以及使用的第一语言等),自主筛选与标注者匹配的基础标注资源。具体的,资源分配模块12可以确定标注者的地理位置,获得标注者的位置所在区域,以此了解标注者归属的国家,首先筛选出与标注者语言相符的基础标注资源作为候选基础标注资源,之后,资源分配模块12还可以结合一些预设筛选项与候选基础标注资源的基础标签进行匹配。
示例性的,本实施例可以采用资源的上传时间标签以及资源的热度标签来设置筛选项,如可以设置上传时间标签中的上传时间早于一个时间阈值,又如,可以设置热度标签中标定的热度高于一个热度等级等。资源分配模块12通过预设筛选项与候选基础标注资源的基础标签进行比对,由此筛选出至少一个待标注的目标标注资源分配相应的标注者。
进一步地,本实施例中的资源分配模块12具体可用于当标注者发送的资源分配需求为资源按条件分配时,获取所述标注者设置的第一筛选条件,其中,所述第一筛选条件包括下述至少一项:资源所属国家、资源的资源标识以及资源上传者的上传者标识;从所述基础标注资源集中筛选满足所述第一筛选条件的基础标注资源作为待标注的目标标注资源分配给所述标注者。
示例性的,资源分配模块12可以在资源分配需求为资源按条件分配时,从基础标注资源集中筛选满足标注者所设置筛选条件的基础标注资源作为待标注的目标标注资源。具体的,标注者可以根据标注需求设置筛选条件,为便于区分,本实施例将此处的筛选条件记为第一筛选条件,所述第一筛选条件可以根据资源自身的一些属性来设置,如,资源所属国家(资源在哪个国家进行上传)、资源具备的资源标识(资源标识可以为资源上传时赋予资源的唯一标识)、以及资源上传者的上传者标识(上传者标识可以为上传者在用户注册时赋予的用户唯一标识)等。
可以理解的是,资源分配模块12具体从缓存有基础标注资源集中所有基础标注资源的待标注队列中选定要分配给标注者的基础标注资源,并可以在将选定的基础标注资源分配给标注者之后,将选定的这些基础标注资源从待标注列表中删除,以避免重复分配给其他标注者,同时,当资源分配模块12向标注者分配的待标注的目标标注资源的数量为多个时,可以采用一个对应标注者的缓存队列来缓存各待标注的目标标注资源,并以列表的形式将各待标注的目标标注资源展示给标注者。
此外,本实施例中的资源分配模块12具体可用于当标注者发送的资源分配需求为资源重标注分配时,获取所述标注者在所展示资源重标注界面下设置的第二筛选条件,其中,所述第二筛选条件至少包括:重标注资源的资源标识;从目标标注资源集中筛选满足所述第二筛选条件的目标标注资源作为待重标注的目标标注资源分配给所述标注者。
在本实施例中,资源分配模块12进行分配还存在一种情况是,标注者想要对一些进行具备了目标标签的目标标注资源进行重标注,示例性的,该种情况下,资源分配模块12接收到资源分配需求为资源重标注分配,此时系统可以向标注者展示一个资源重标注界面,并在该资源重标注界面中设置重标注所需的第二筛选条件,由此根据第二筛选条件从目标标注资源集中筛选符合要求的目标标注资源分配给标注者。示例性的,所述第二筛选条件可以是需要进行重标注的目标标注资源的所处地理位置、上次标注的标注时间以及资源标识,也可以是目标标注资源所对应上次标注者的标注者名称或标注者标识等。
本实施例所提供标注管理管理系统中集成的资源分配模块12能够根据标注者需求灵活的向标注者分配适合的资源进行标注,实现了资源的合理化分配,从而解决了标注者因语言及文化差异不能有效进行资源标注的问题。
在上述优化的基础上,资源分配模块12在向所述标注者分配待标注的目标标注资源的同时还可用于向所述标注者发送与所述待标注的目标标注资源关联的目标标签模板,所述目标标签模板通过所述待标注的目标标注资源所具备的基础标签选定。其中,所述目标标签模板存储在预设的的标签模板集中,所述标签模板集中包含至少一个结合历史标注资源具备的标准标签形成的目标标签模板。
本实施例所提供标注管理管理系统中还包括了一个标签模板集,标签模板集包含了至少一个目标标签模板,各目标标签模板可以根据历史标注资源所具备的标准标签来确定,具体可通过将标准标签进行聚类或分类处理形成划分成不同的集合,以此形成至少一个目标标签模板。本实施例中,资源分配模块12确定需要分配给标注者待标注的目标标注资源后,可以对待标注的目标标注资源的基础标签进行分析,进而将基础标签所归属的目标标签模板发送给标注者用来进行目标标签的标注。
本实施例一包含上述可选特征的资源的标注管理系统,具体给出了资源分配模块根据标注者的不同资源分配需求向标注者分配待标注的目标标注资源的过程。通过具备该资源分配模块的标注管理系统,实现了标注资源分配的灵活性。
实施例二
图2给出了本发明实施例二提供的一种资源的标注管理系统的结构框图,本实施例二以上述实施例为基础进行优化,在本实施例中,该系统还优化包括了:资源接收模块14和资源分类存储模块15。
其中,资源接收模块14包含至少一个资源入口,用于通过与资源匹配的资源入口接收资源提供者提供的原始资源,所述资源入口的数量基于原始资源的来源途径设置;
资源分类存储模块15用于将从至少一个资源入口接收的原始资源分别存储至相应的原始资源集。
在本实施例中,标注资源管理系统中还集成了资源接收模块14和资源分类存储模块15,本实施例的标注资源管理系统通过上述两个功能模块能够实现原始资源的有效接收和存储,便于原始资源的分类管理,示例性的,所述资源入口可以根据原始资源的来源途径设置,具体的,原始资源的来源途径可以由爬虫抓取、专业生产内容平台提供、用户生产内容平台提供以及资源审核平台提供等,基于不同的来源途径,本实施例可以设置不同的资源入口,从而使满足条件的资源能够自动推送到本标注资源管理系统并通过资源分类存储模块15进行原始资源的自动分类存储,以在初始接收时就对原始资源从来源途径进行分配,提高资源的分配效率。
需要说明的是,本实施例提供的资源的标注管理系统可以实现对原始资源的有效的资源标注,还可以实现对目标标注资源的有效管理,如对目标标注资源进行多维度的抽检以及统计等,也可以随时应对标签模板以及标签内容的变化及时作出调整等,以此来提升标注团队的管理效率,以及保证资源标注结果的准确性。
进一步地,本实施例二所提供的资源的标注管理系统,还可以优化包括标签抽检模块16,标签抽检模块16用于从目标标注资源集中确定抽检者所发送标签抽检请求对应的待抽检资源,并向所述抽检者展示所述待抽检注资源及对应的目标标签,所述抽检者为具备抽检权限的系统用户。
其中,所述标签抽检请求中包括下述至少一项:待抽检资源的资源来源信息、待抽检资源的资源标识、标注者标识、关键标签内容以及待抽检资源的资源所属国家。
在本实施例中,标签抽检模块16体现了对标注者标注后所形成的目标标注资源集的抽检管理,系统可以向具备抽检权限的抽检者提供抽检入口,抽检者能够通过抽检入口向标签抽检模块16发送标签抽检请求,标签抽检模块16则可对标签抽检请求进行分析,从而确定对应的待抽检资源,并将待抽检资源的相关标签信息展示给抽检者。
示例性的,抽检者可以按照资源来源、标注者或标注团队、具体的标签内容以及资源归属国家等维度通过标签抽检模块16实现对待抽检资源的抽检。
在上述优化的基础上,标签抽检模块16还用于接收抽检者对所述待抽检资源的标签修改信息,采用所述标签修改信息替换所述目标标注资源集中所述待抽检资源对应的目标标签,作为新的目标标签。
基于上述描述,抽检者通过标签抽检模块16获得待抽检资源的目标标签后,若发现标注者所形成的该目标标签有误,则可直接对该目标标签进行修改,从而形成标签抽检模块16可接收的标签修改信息来替换该待抽检资源原有的目标标签存储在目标标签资源集中。
进一步地,本实施例二提供的系统还可以优化包括标签查询模块17,标签查询模块17用于接收查询者触发的标签查询请求,从目标标注资源集中获得与所述标签查询请求相匹配的目标标注资源及对应的目标标签并反馈至所述查询者,所述查询者为具备查询权限的系统用户。
其中,所述标签查询请求包括下述至少一项:标签标注时间信息、待查询资源的资源标识、待查询资源的资源来源信息以及标注者标识。
在本实施例中,标签查询模块17体现了对标注者标注后所形成的目标标注资源集的查询功能,系统为查询者(如标注者以及具备查询权限的系统其他用户等)提供了标签信息的查询入口,从而使查询者将生成的标签查询请求发送的标签查询模块17,以使标签查询模块17按照标签查询请求进行相关目标标注资源标签信息的查询。
示例性的,查询者可以按照标注者形成标签的时间、资源的资源标识、资源的来源途径以及标注者或标注团队的标识等维度通过标签查询模块17实现待查询资源的标签信息查询。
在上述优化的基础上,该系统还可以包括标签调整模块18,标签调整模块18用于对所述标签模板集中的目标标签模板进行调整操作。
进一步地,标签调整模块18具体可用于接收并解析调整者触发的标签调整请求,所述标签调整请求中包括待调整标签模板以及对应所述待调整标签模板的调整需求;从所述标签模板集中选定作为所述待调整标签模板目标标签模板,按照所述调整需求调整所述待调整标签模板;所述调整需求为下述至少一项:标签改名请求、标签隐藏显示请求以及标签等级分类请求。
在本实施例中,标签调整模块18体现了对系统中所形成的标签模板的调控管理,系统可以向具备调控权项的调整者提供标签调整入口,调整者通过标签调整入口向标签调整模块18发送标签调整请求,标签调整模块18则可对标签调整请求进行分析,从而确定待调整的标签模板并进行相应的调整。
示例性的,调整者可以通过标签调整模块18对标签模板集合进行修订,可以对指定的标签进行改名以及隐藏设置,同时还可以增加不同等级的标签,从而使标注管理系统能够灵活适应资源变化以及业务不同发展阶段对资源标签的需求。
需要说明的是,本标注管理系统中设置的标签抽检模块16和标签查询模块17以及系统还包括的信息反馈模块21以及数据信息统计模块22主要是对所形成的目标标注资源集中目标标注资源进行管理的相关功能实现,而系统所包括的标签调整模块18、用户调控模块19及系统配置管理模块20,则可理解为在系统层面上对系统中各组件或功能模块进行管理的相关功能实现。如,标签调整模块18可认为是对标签模板集进行调整管理的模块。由此,系统中标签调整模块18、用户调控模块19以及系统配置管理模块20可能与上述的机器标注模块11、资源分配模块12以及标注资源存储模块13、资源接收模块14、资源分类存储模块15、标签抽检模块16、标签查询模块17、信息反馈模块21以及数据信息统计模块22之间并不存在实质连接。
进一步地,本实施例二的系统还可以包括用户调控模块19,用户调控模块19用于根据接收的调控管理请求,对系统用户进行相应的调控管理;所述系统用户角色至少包括:标注者、抽检者、查询者以及调控者;所述调控管理请求为下述至少一项:用户更新管理请求、用户群的组建或更新管理请求以及用户权限管理请求。
在本实施例中,根据上述各功能模块的表述,可知本标注管理系统中的系统用户角色至少包括了标注者、抽检者、查询者以及调控者等,为了保证系统用户的有序化和权限明确化,本实施例可以通过用户调控模块19来实现新增系统用户、创建或修改系统用户群组以及管理不同系统用户角色权限的功能。
进一步地,本实施例二的系统还包括:系统配置管理模块20,系统配置管理模块20用于根据接收的系统配置管理请求,对待配置项进行配置管理;待配置项包括下述至少一项:展示界面的语言配置项、资源来源途径配置项、机器标注网络模型的更新配置项。
可以知道的是,本实施例的标注管理系统中还可以包括系统配置管理模块20,系统配置管理模块20主要体现了对系统中各功能配置项的管理,如对展示界面所显示语言的配置管理,可以在面向的系统用户为中国用户时以汉语显示,获得在面向的系统用户为欧美用户时以英语显示等;又如对资源来源途径的管理,可以在新增资源来源途径时,增设相应的资源入口以及分配相应的存储空间等,还具备对机器标注网络模型阈值参数以及模型数量增减的管理。
进一步地,本实施例二的系统还可以包括信息反馈模块21,信息反馈模块21用于将所述基准标注资源集中各基准标注资源的基准标签以及所述目标标注资源集中各目标标注资源的目标标签作为训练样本反馈至第三方模型训练管理平台,以使所述第三方模型训练管理平台对所述机器标注网络模型进行模型参数更新。
在本实施例中,由于本标注管理系统接收的原始资源数量巨大,所以形成的基础标注资源集中带有基础标签的基础标注资源以及目标标注资源集中带有目标标签的目标标注资源的资源数量也是巨大的,本实施例考虑将上述数据信息作为第三方模型训练管理平台的样本信息,以用于第三方模型训练管理平台对机器标注网络模型的更新训练,且可以知道的是,本标注管理系统经第三方模型训练管理平台更新训练后的机器标注网络模型来进行机器标注,以保证机器标注的准确性。
进一步地,本实施例二的系统还可以包括数据信息统计模块22,数据信息统计模块22用于根据接收的数据统计请求,对待统计信息进行统计并存储;其中,所述待统计信息至少包括下述一项:当天标注所形成目标标注资源的资源数量、当天标注所形成的目标标注资源的资源区域分布、标注者的每天标注量以及标注者的标注准确率。
其中,所述待统计信息通过分布式数据处理平台进行分布式统计。
在本实施例中,本标注管理系统包括的数据信息统计模块22可以通过对待统计信息的统计来形成统计结果,相关系统用户可以结合数据信息统计模块22的统计结果来实时掌控本标注管理系统的标注管理形势。示例性的,调控者可以查看每天进行标注操作的分布区域、量级,系统用户中标注者、抽检者或审核者的效率、准确率等信息,从而及时把控不同系统用户的工作效率以合理安排人力资源的投入。
本发明实施例二分解性的描述了资源的标注管理系统的各个功能模块,为了更好的了解本标注管理系统各功能模块之间的关联性,图3给出了本发明实施例二提供的资源的标注管理系统的架构示例图,如图3所示,标注管理系统大致包括了资源来源管理30、机器标注管理31、人工标注管理32、人工校正管理33结果输出管理34以及系统维护管理35六个部分。资源来源管理30中提供了一个基于数据库形成的资源池,在该资源池内按照资源来源的不同将原始资源存储在不同的子资源池内;机器标注管理31中提供了通过机器标注网络模型中的活动轮廓模型进行机器标注的功能实现;人工标注管理32中提供了按照两种不同资源分配需求,具体为自动筛选资源分配、人工筛选资源分配的标注形态进行资源标注的功能实现;人工校正管理33中提供了重标注资源分配、抽检管理以及查询修改管理的功能实现;结果输出管理34中提供了基础标签结果输出、目标标签结果输出以及数据信息统计结果输出的功能实现;系统维护管理35中提供了对标签模板集调控管理、用户调控管理以及系统配置管理的功能实现,系统维护管理35可以在上述各个功能实现阶段进行。
此外,为了更好的了解本资源的标注管理系统的工作流程,图4提供了本发明实施例二资源的标注管理系统中资源标注实现的数据流向示例图。如图4所示,系统后台服务器41提供了HTTP接口服务来接收用户业务端42上传的原始资源,原始资源存储在相应的包含不同子资源池的资源池43中,系统生产者进程44把原始资源地址以及对原始资源编码后缓存至待机打队列,然后由与训练好的机器标注网络模型对应的系统消费者进程45对待机打队列中的原始资源进行机器标注,系统消费者进程45将机器标注后的基础标注资源存放至数据库46中,并同时放进待人打队列,以用于标注者的人工标注;当浏览器的后台前端功能模块47通过HTTP接口请求系统后台服务器41获取缓存至基础标注资源,系统后台服务器41按照资源分配需求从待人打队列中筛选待标注资源并渲染出界面给后台前端功能模块47,以使标注者进行人工标注操作,标注者通过后台前端功能模块47把标注后带有目标标签的目标标注资源提交给系统后台服务器41,并由系统后台服务器41存储到数据库46中。
接上述描述,第三方模型训练管理平台48从数据库46中获取基础标注资源以及目标标注资源,通过将基础标注资源以及目标标注资源作为训练样本对机器标注网络模型进行错误回归训练,以提升模型的准确率,并将训练后的机器标注网络模型推给本标注管理系统进行后续的机器标注。此外,系统后台服务器41将人工标注中标注者标注操作相关的数据存储在静态数据库49中,并通过数据转换进程50对数据库46中的数据进行转换处理,分布式处理平台51根据静态数据库49以及转换后的数据采用分布式计算方式进行数据信息统计,并将统计后的结果存储在静态数据库49中,系统后台服务器41从静态数据库49中获取统计结果并以报表形式展现在浏览器侧。
本发明实施例二提供的一种资源的标注管理系统,实现了将机器标注与人工标注的准确、灵活结合,使得人工标注的标签结果称为模型训练的样本支持,弥补了模型训练周期长、内容覆盖面不足的问题;同时,本标注管理系统及时、多维度地对人工标注的结果进行抽检、查询以及校正,有力地把控准确率的问题以及保证了人工标注错误信息的及时纠正;此外,本标注管理系统还及时了解当前不同来源途径的原始资源的分布情况,为短视频等资源分享类应用软件的资源推荐提供了优化方向。
值得注意的是,上述资源的标注管理系统中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种资源的标注管理系统,其特征在于,包括:
机器标注模块,用于将原始资源输入机器标注网络模型,得到带有基础标签的基础标注资源,形成基础标注资源集;
资源分配模块,用于根据标注者的资源分配需求,从所述基础标注资源集中选取待标注的目标标注资源分配给所述标注者;
标注资源存储模块,用于接收标注者提交的带有目标标签的目标标注资源并存储至目标标注资源集,所述目标标签由所述标注者从给定的目标标签模板中进行标签选择生成。
2.根据权利要求1所述的系统,其特征在于,所述资源分配模块具体用于:
当标注者发送的资源分配需求为资源自动分配时,确定所述标注者的位置所在区域;
从所述基础标注资源集中筛选与所述位置所在区域匹配的至少一个候选基础标注资源;
选择所包含基础标签符合预设筛选项的候选基础标注资源,作为待标注的目标标注资源分配给所述标注者。
3.根据权利要求1所述的系统,其特征在于,所述资源分配模块具体用于:
当标注者发送的资源分配需求为资源按条件分配时,获取所述标注者设置的第一筛选条件,其中,所述第一筛选条件包括下述至少一项:资源所属国家、资源的资源标识以及资源上传者的上传者标识;
从所述基础标注资源集中筛选满足所述第一筛选条件的基础标注资源作为待标注的目标标注资源分配给所述标注者。
4.根据权利要求1所述的系统,其特征在于,所述资源分配模块具体用于:
当标注者发送的资源分配需求为资源重标注分配时,获取所述标注者在所展示资源重标注界面下设置的第二筛选条件,其中,所述第二筛选条件至少包括:重标注资源的资源标识;
从目标标注资源集中筛选满足所述第二筛选条件的目标标注资源作为待重标注的目标标注资源分配给所述标注者。
5.根据权利要求1所述的系统,所述资源分配模块用于向所述标注者分配待标注的目标标注资源的同时还用于:
向所述标注者发送与所述待标注的目标标注资源关联的目标标签模板,所述目标标签模板通过所述待标注的目标标注资源所具备的基础标签选定;
其中,所述目标标签模板存储在预设的标签模板集中,所述标签模板集中包含至少一个结合历史标注资源具备的标准标签形成的目标标签模板。
6.根据权利要求1-5任一项所述的系统,其特征在于,还包括:
资源接收模块,包含至少一个资源入口,用于通过与资源匹配的资源入口接收资源提供者提供的原始资源,所述资源入口的数量基于原始资源的来源途径设置;
资源分类存储模块,用于将从至少一个资源入口接收的原始资源分别存储至相应的原始资源集。
7.根据权利要求1-5任一项所述的系统,其特征在于,还包括:
标签抽检模块,用于从目标标注资源集中确定抽检者所发送标签抽检请求对应的待抽检资源,并向所述抽检者展示所述待抽检注资源及对应的目标标签,所述抽检者为具备抽检权限的系统用户。
8.根据权利要求7所述的系统,其特征在于,所述标签抽检请求中包括下述至少一项:待抽检资源的资源来源信息、待抽检资源的资源标识、标注者标识、关键标签内容以及待抽检资源的资源所属国家。
9.根据权利要求7所述的系统,其特征在于,所述标签抽检模块还用于:
接收抽检者对所述待抽检资源的标签修改信息,采用所述标签修改信息替换所述目标标注资源集中所述待抽检资源对应的目标标签,作为新的目标标签。
10.根据权利要求1-5任一项所述的系统,其特征在于,还包括:标签查询模块,用于接收查询者触发的标签查询请求,从目标标注资源集中获得与所述标签查询请求相匹配的目标标注资源及对应的目标标签并反馈至所述查询者,所述查询者为具备查询权限的系统用户。
11.根据权利要求10所述的系统,其特征在于,所述标签查询请求包括下述至少一项:标签标注时间信息、待查询资源的资源标识、待查询资源的资源来源信息以及标注者标识。
12.根据权利要求1-5任一项所述的系统,其特征在于,所述系统还包括:标签调整模块,用于对所述标签模板集中的目标标签模板进行调整操作。
13.根据权利要求12所述的系统,其特征在于,所述标签调整模块具体用于:
接收并解析调整者触发的标签调整请求,所述标签调整请求中包括待调整标签模板以及对应所述待调整标签模板的调整需求;
从所述标签模板集中选定作为所述待调整标签模板目标标签模板,按照所述调整需求调整所述待调整标签模板;
所述调整需求为下述至少一项:标签改名请求、标签隐藏显示请求以及标签等级分类请求。
14.根据权利要求1-5任一项所述的系统,其特征在于还包括:用户调控模块,用于根据接收的调控管理请求,对系统用户进行相应的调控管理;
所述系统用户角色至少包括:标注者、抽检者、查询者以及调控者;
所述调控管理请求为下述至少一项:用户更新管理请求、用户群的组建或更新管理请求以及用户权限管理请求。
15.根据权利要求1-5任一项所述的系统,其特征在于,还包括:
系统配置管理模块,用于根据接收的系统配置管理请求,对待配置项进行配置管理;
所述待配置项包括下述至少一项:展示界面的语言配置项、资源来源途径配置项、机器标注网络模型的更新配置项。
16.根据权利要求1-5任一项所述的系统,其特征在于,还包括:
信息反馈模块,用于将所述基准标注资源集中各基准标注资源的基准标签以及所述目标标注资源集中各目标标注资源的目标标签作为训练样本反馈至第三方模型训练管理平台,以使所述第三方模型训练管理平台对所述机器标注网络模型进行模型参数更新。
17.根据权利要求1-5任一项所述的系统,其特征在于,还包括:数据信息统计模块,用于根据接收的数据统计请求,对待统计信息进行统计并存储;
其中,所述待统计信息至少包括下述一项:当天标注所形成目标标注资源的资源数量、当天标注所形成的目标标注资源的资源区域分布、标注者的每天标注量以及标注者的标注准确率。
18.根据权利要求17所述的系统,其特征在于,所述待统计信息通过分布式数据处理平台进行分布式统计。
CN201911052744.7A 2019-10-31 2019-10-31 一种资源的标注管理系统 Pending CN110825914A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911052744.7A CN110825914A (zh) 2019-10-31 2019-10-31 一种资源的标注管理系统
PCT/CN2020/099354 WO2021082499A1 (zh) 2019-10-31 2020-06-30 一种资源的标注管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911052744.7A CN110825914A (zh) 2019-10-31 2019-10-31 一种资源的标注管理系统

Publications (1)

Publication Number Publication Date
CN110825914A true CN110825914A (zh) 2020-02-21

Family

ID=69551738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911052744.7A Pending CN110825914A (zh) 2019-10-31 2019-10-31 一种资源的标注管理系统

Country Status (2)

Country Link
CN (1) CN110825914A (zh)
WO (1) WO2021082499A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368929A (zh) * 2020-03-09 2020-07-03 西安中科长青医疗科技研究院有限公司 一种图片的标注方法
CN112740230A (zh) * 2020-04-30 2021-04-30 华为技术有限公司 数据标注系统、方法和数据标注管理器
WO2021082499A1 (zh) * 2019-10-31 2021-05-06 百果园技术(新加坡)有限公司 一种资源的标注管理系统
CN113918713A (zh) * 2021-09-22 2022-01-11 南京复保科技有限公司 数据标注方法、装置、计算机设备及存储介质
CN116910164A (zh) * 2023-07-21 2023-10-20 北京火山引擎科技有限公司 用于内容推送的标签生成方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法
CN109753976A (zh) * 2017-11-01 2019-05-14 中国电信股份有限公司 语料标注装置和方法
CN109993399A (zh) * 2019-01-25 2019-07-09 杭州易明远科技有限公司 一种操作便捷的地理信息测控系统
CN110334772A (zh) * 2019-07-11 2019-10-15 山东领能电子科技有限公司 一种扩充类别式数据快速标注方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013052555A1 (en) * 2011-10-03 2013-04-11 Kyaw Thu Systems and methods for performing contextual classification using supervised and unsupervised training
CN108573279A (zh) * 2018-03-19 2018-09-25 精锐视觉智能科技(深圳)有限公司 图像标注方法及终端设备
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN109815365A (zh) * 2019-01-29 2019-05-28 北京字节跳动网络技术有限公司 用于处理视频的方法和装置
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753976A (zh) * 2017-11-01 2019-05-14 中国电信股份有限公司 语料标注装置和方法
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法
CN109993399A (zh) * 2019-01-25 2019-07-09 杭州易明远科技有限公司 一种操作便捷的地理信息测控系统
CN110334772A (zh) * 2019-07-11 2019-10-15 山东领能电子科技有限公司 一种扩充类别式数据快速标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王江存: "《中国现代人事管理》", 30 November 1992 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082499A1 (zh) * 2019-10-31 2021-05-06 百果园技术(新加坡)有限公司 一种资源的标注管理系统
CN111368929A (zh) * 2020-03-09 2020-07-03 西安中科长青医疗科技研究院有限公司 一种图片的标注方法
CN111368929B (zh) * 2020-03-09 2023-05-02 西安中科长青医疗科技研究院有限公司 一种图片的标注方法
CN112740230A (zh) * 2020-04-30 2021-04-30 华为技术有限公司 数据标注系统、方法和数据标注管理器
CN112740230B (zh) * 2020-04-30 2022-06-10 华为技术有限公司 数据标注系统、方法和数据标注管理器
CN113918713A (zh) * 2021-09-22 2022-01-11 南京复保科技有限公司 数据标注方法、装置、计算机设备及存储介质
CN116910164A (zh) * 2023-07-21 2023-10-20 北京火山引擎科技有限公司 用于内容推送的标签生成方法、装置、电子设备和介质

Also Published As

Publication number Publication date
WO2021082499A1 (zh) 2021-05-06

Similar Documents

Publication Publication Date Title
CN110825914A (zh) 一种资源的标注管理系统
CN101558591B (zh) 内容管理系统
US7942319B2 (en) Location information management
CN108960297B (zh) 图片的标注方法、标注装置、设备及存储介质
US20170142482A1 (en) Video platform monitoring and analyzing system
CN109034188B (zh) 机器学习模型的获取方法、获取装置、设备及存储介质
CN109561326B (zh) 一种数据查询方法及装置
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
US20090287699A1 (en) Method, device and system for quality check
CN112612768B (zh) 模型训练方法和装置
CN105893259A (zh) 代码检测系统、方法及装置
CN108090228B (zh) 一种通过文化云平台进行互动的方法及装置
CN112181993A (zh) 业务数据查询方法、装置、服务器及存储介质
CN114519085A (zh) 一种数据标准化管理方法与共享系统
WO2023130837A1 (zh) 面向科研应用的自动机器学习实现方法、平台及装置
CN112733017A (zh) 一种标签管理方法、装置、存储介质及电子装置
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
KR101674799B1 (ko) 이벤트 스케줄링 스마트 캘린더 서비스 방법 및 그 방법을 수행하는 어플리케이션 프로그램 및 그 기록매체
CN115329131A (zh) 素材标签推荐方法、装置、电子设备及存储介质
CN106658158B (zh) 一种媒资数据的下发方法及下发装置
US20110320943A1 (en) Process and Apparatus for Computer Training
WO2023179708A1 (zh) 个性化云数据库的建立方法、装置、设备及存储介质
KR20210155488A (ko) 객체 레이블링을 통한 사용자맞춤 이미지식별 딥러닝 모델 생성을 위한 시스템 및 이의 운용 방법
CN114218407A (zh) 一种基于数字化自动索引的内容创作系统
KR102224782B1 (ko) 지역 콘텐츠 관리 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221