CN109800776A - 素材标注方法、装置、终端和计算机可读存储介质 - Google Patents

素材标注方法、装置、终端和计算机可读存储介质 Download PDF

Info

Publication number
CN109800776A
CN109800776A CN201711148095.1A CN201711148095A CN109800776A CN 109800776 A CN109800776 A CN 109800776A CN 201711148095 A CN201711148095 A CN 201711148095A CN 109800776 A CN109800776 A CN 109800776A
Authority
CN
China
Prior art keywords
algorithm model
mark
labeled
training set
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711148095.1A
Other languages
English (en)
Inventor
陆艳
刘勇
高洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201711148095.1A priority Critical patent/CN109800776A/zh
Priority to PCT/CN2018/109774 priority patent/WO2019095899A1/zh
Publication of CN109800776A publication Critical patent/CN109800776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

本发明实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,根据预设的算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本发明实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。

Description

素材标注方法、装置、终端和计算机可读存储介质
技术领域
本发明涉及无线通信技术领域,尤其涉及一种素材标注方法、装置、终端和计算机可读存储介质。
背景技术
在人工智能飞速发展的今天,对于各素材的标注和校对工作一直需要消耗大量的时间和人力。素材的标注和校对需要通过分析大量的训练素材得到,这些训练素材被事先按照一定的逻辑进行标注,通常都是人工标注,标注过程需要耗费大量的人力和时间。标注的过程实际上是对素材中的特征进行解释的过程,不同的人可能会有不同的解释结果,所以素材标注带有很大的主观性。不同的标注者的知识结构和语法理论也各不相同,导致标注的结果千奇百怪难以统一。
发明内容
本发明实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,旨在解决现有技术中素材标注耗时耗力,且标注结果难以统一的问题。
为了解决上述技术问题,本发明实施例提供了一种素材标注方法,所述素材标注方法包括:
根据预设的算法模型对待标注素材集中的素材进行标注;
基于标注的结果,生成对应的训练集;
通过所述训练集更新所述算法模型,用于下一次的素材标注。
此外,本发明实施例还提供一种素材标注装置,包括:
素材标注模块,用于根据预设的算法模型对待标注素材集中的素材进行标注;
训练生成模块,用于基于标注的结果,生成对应的训练集;
算法训练模块,用于通过所述训练集更新所述算法模型,用于下一次的素材标注。
此外,本发明实施例还提供一种终端,包括处理器、存储器和通信总线;所述通信总线用于实现所述处理器和存储器之间的连接通信;所述处理器用于执行所述存储器中存储的素材标注程序,以实现前述的素材标注方法的步骤。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个计算机程序,所述计算机程序可被一个或者多个处理器执行以实现前述的素材标注方法的步骤。
本发明的有益效果是:
本发明实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,根据预设的算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本发明实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。
附图说明
图1为本发明第一实施例提供的一种素材标注方法流程图;
图2为本发明第一实施例提供的一种素材标注示意图;
图3为本发明第二实施例提供的一种素材标注方法细化流程图;
图4为本发明第三实施例提供的一种素材标注示意图;
图5为本发明第四实施例提供的一种素材标注装置组成示意图;
图6为本发明第五实施例提供的一种终端组成示意图。
具体实施方式
第一实施例
请参考图1,图1是本发明第一实施例提供的一种素材标注方法流程图,包括:
S101、根据预设的算法模型对待标注素材集中的素材进行标注;
S102、基于标注的结果,生成对应的训练集;
S103、通过训练集更新算法模型,用于下一次的素材标注。
素材标注,其中素材可以包括智能问答系统中的语料,文本识别中的文本,以及音视频、图片等多媒体素材。这些素材中往往包含了很多很丰富的内容,但是计算机可能不能直接的识别和读取,因此需要对这些素材进行标注,标注也就是对素材库中的素材进行加工,把素材中的各种特征以计算机可识别的方式进行标注,比如说,将图片素材中的以图片形式呈现的信息以文本的格式进行标注,或者是人脸识别,以图像中的面部特征的像素点坐标和像素值进行标注,或者如语料库中的语料,把各种表示语言特征的标签标注在相应的语言成分上,以便于计算机的识别和读取。标注的具体方式根据应用场景的不同而有所区别,原理上都是基于一定的逻辑,将待标注素材集中的素材的各个特征进行计算机可识别的标注。
确定已生成的算法模型。算法模型就是标注素材所参考的算法,后续的素材标注参考的算法模型都是上一次素材标注之后所确定出来的算法模型。算法模型需要经过分析训练集来得到,其中,算法模型根据生成时机的不同,大致分为初始算法模型和过渡算法模型两种。初始算法模型,也就是在本次素材标注中,第一个算法模型,这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型,与初始算法模型不同,过渡算法模型通常是持续变化的。
具体的,确定已生成的算法模型,可以包括:对初始素材集中的素材进行人工标注,生成初始训练集;基于初始训练集,训练生成初始算法模型;参考初始算法模型对待标注素材集中的素材进行标注,并基于标注结果更新初始算法模型,形成过渡算法模型;参考过渡算法模型对下一次待标注素材集中的素材进行标注,并基于标注结果更新过渡算法模型,如此迭代进行素材标注和算法模型的更新,确定算法模型。上述步骤示出了算法模型的通用生成方式,具体而言,算法模型是基于初始算法模型,经过若干次标注更新迭代之后所形成。而初始算法模型的生成方式,一种可选的方式为,首先,以人工标注的方式,对初始素材集中的素材进行标注。这里的人工标注没有可参考的算法模型,根据人为的认知来自行确定素材的各个特征如何标注。然后,在标注完成之后,以标注结果为参照,生成对应的初始训练集。训练集是训练生成算法模型的集合,训练集中往往有大量的对象,对这些对象进行训练就可以生成想要的算法模型,而初始训练集,就是最初的用于训练算法模型的训练集。然后,基于初始训练集进行训练,得到初始算法模型。此时,由于初始素材集是以人工标注的方式进行标注的,为了保证所得到的初始算法模型的可靠性,还可以进行校验,校验可由其他人来进行,相当于参考多个校验者来确定初始算法模型。
初始算法模型在确定之后,就作为第二次素材标注的算法模型,也就是下一次的算法模型的参考算法模型。而在参考初始算法模型对素材进行标注之后,此时会得到相应的标注结果,以及根据标注结果所生成的训练集;这是不同于初始训练集的新增的训练集,第二次的素材标注中的素材与第一次中的素材往往是不同的,那么,在结合相同的算法模型进行标注之后得到的训练集,作为初始算法模型的更新包更新初始算法模型,让初始算法模型可以囊括更多更详尽的算法模型。此时所得到的算法模型就不再是初始算法模型,而是算法模型中的过渡算法模型。初始算法模型只有一个,过渡算法模型则通常有多个,这多个过渡算法模型就是通过在每一次的算法模型对素材进行标注之后,得到的训练集再更新该算法模型所得,换言之,每一次的素材标注,所参考的都是上一次素材标注后所更新的算法模型,且本次素材标注之后,更新的算法模型又作为下一次的素材标注所参考的算法模型。如此下去,迭代的次数越多,算法模型的覆盖面就越广,涉及的素材类型和领域就越多,对于后续的素材标记的准确率也就越高。
S101中,根据算法模型对待标注素材集中的素材进行标注。这里的标注过程就是前一次素材集中的素材标注的下一个迭代;而具体的,根据算法模型对待标注素材集中的素材进行标注可以包括:确定待标注素材集中,与算法模型领域相同的第一素材,以及与算法模型领域不同的第二素材;直接通过算法模型对第一素材进行标注;以及,通过人工标注对第二素材进行标注。待标注的素材集中的素材,大致可以分为两类:一类是可直接通过算法模型进行标注的,这类的素材即与算法模型领域相同的第一素材;一类是不能直接通过算法模型进行标注的,这类的素材即与算法模型领域不同的第二素材。第一素材由于领域与算法模型一致,大都可以直接进行标注,当然也可能遇到领域相同但是领域之下的类别有所区别,导致部分不能直接标注的,也可以通过人工标注进行标注,也就是,对第一素材中,无法通过算法模型直接进行标注的部分,通过人工标注进行标注;第二素材由于领域与算法模型不同,不能直接标注,往往是直接采取人工标注的方式进行。其中,确定待标注素材集中的第一素材和第二素材的方式,一般是素材提供者事先明确的,在标注前往往已经知道了待标注素材所属的领域;如果素材提供者未明确提供,则可以是通过关键词筛选等等方式进行,或者是由人工参与进行判断,或者是直接假设都是相同领域的直接进行标注,对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。请参考图2,图2示出了一种素材标注示意图,其中,素材A作为初始素材,以人工标注的形式进行标注并生成训练集A,基于训练集A训练出了算法模型,此处即为初始算法模型;素材B作为与素材A领域相同的素材,也就是与算法模型领域一致的素材,可直接通过集成了该算法模型的自动化标注装置进行标注。其中,该自动化标注装置除了集成了算法模型之外,还具备一些标注所需的其他组成部分,比如工作流、权限控制等相关功能。尽管如此,素材B中还有领域之下的类别不同的素材B’,不能直接通过算法模型进行标注,而采用人工的方式进行标注;素材C是与素材A领域不同的素材,也就是与算法模型领域不一致的素材,直接通过人工标注的方式进行标注。不管是对素材B的标注,还是对素材B’的标注,还是对素材C的标注,最终均生成对应的训练集,通过训练集来更新算法模型,作为下一次的素材标注所参考的算法模型。
此外,还可以包括,根据在各次算法模型对待标注集中的素材进行标注时,第一素材在待标注素材集中的占比,和/或各次标注的准确率,评估算法模型对待标注素材的标注能力是否达标。在每一次的素材标注中,根据待标注素材的领域与算法模型的领域的相同与否,会对应产生相应的第一素材和第二素材,根据可以直接标注的第一素材在待标注素材集中的占比可以确定算法模型的标注能力;另外,每一次对于待标注素材集的标注之后,再经过校验就可以得知标注的准确率,根据准确率也可以确定算法模型的标注能力。在得知算法模型的标注能力之后,如果算法模型的标注能力较弱,或者是标注能力不达标,则可能需要继续借助素材集进行训练,逐步完善算法模型标注能力。
S102中,基于标注的结果,生成对应的训练集。生成训练集,就为生成算法模型,以及更新算法模型提供了可能,由于初始算法模型已经根据对初始素材的人工标注生成了,因此后续的训练集都是作为更新算法模型而用。
S103中,通过训练集更新算法模型,用于下一次的素材标注。下一次的素材标注一般都是参考上一次的素材标注更新后的算法模型来进行,而迭代的次数越多,覆盖的领域越广,因此需要人工参与的次数也越少,标注的准确率也越高。为了保证素材标注的可靠性,通过训练集更新算法模型可以包括:对训练集进行校验;在校验完成后,通过校验后的训练集对算法模型进行更新。具体的,基于标注的结果对训练集进行校验可以包括:以抽查的方式从训练集中随机抽取部分进行校验;或,以全量的方式,直接校验训练集中的所有内容。
本实施例提供了一种素材标注方法,确定已生成的算法模型,算法模型用于素材标注,根据算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。
第二实施例
请参考图3,图3为本发明第二实施例提供的素材标注方法细化流程图。
S301、确定待标注的素材集;
素材可以包括智能问答系统中的语料,文本识别中的文本,以及音视频、图片等多媒体素材
S302、基于上一次素材标注后的算法模型,对待标注的素材集中的素材进行标注;
素材中往往包含了很多很丰富的内容,但是计算机可能不能直接的识别和读取,因此需要对这些素材进行标注,标注也就是对素材库中的素材进行加工,把素材中的各种特征以计算机可识别的方式进行标注。
算法模型根据迭代阶段的不同,大致可分为初始算法模型和过渡算法模型两类;初始算法模型,也就是在本次素材标注中,第一个算法模型,这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型,与初始算法模型不同,过渡算法模型通常是持续变化的。
S303、判断标注是否成功,若是,则转到S304,若否,则转到S307;
判断标注是否成功,也就是从素材中筛选出第一素材和第二素材的过程;而确定待标注素材集中的第一素材和第二素材的方式,可以是通过关键词筛选等等方式进行,或者是由人工参与进行判断,或者是直接假设都是相同领域的直接进行标注,对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。
S304、基于标注结果,生成训练集;
生成训练集,就为生成算法模型,以及更新算法模型提供了可能,由于初始算法模型已经根据对初始素材的人工标注生成了,因此后续的训练集都是作为更新算法模型而用。
S305、对训练集进行校验;
为了保证素材标注的可靠性,可对训练集进行校验,具体的校验方式可以包括:以抽查的方式从训练集中随机抽取部分进行校验;或,以全量的方式,直接校验训练集中的所有内容。
S306、通过校验后的训练集更新算法模型,并返回S401;
S307、通过人工标注对标注失败的素材进行标注。
第三实施例
请参考图4,图4为本发明第三实施例提供的素材标注方法的示意图,其中,本实施例中的素材标注方法以银行的业务语料为基础,通过训练相应的算法模型和循环迭代,来实现自动标注,其具体实现步骤如下:
S401、确定第一批银行A的业务语料;
S402、形成银行A的语料训练集;
S403、基于银行A的语料训练集训练生成算法模型,嵌入智能标注系统中;
S404、第二批银行B的业务语料需要进行标注时,判断银行A和银行B的业务语料同属于银行领域的语料,属于同一领域的不同子类,大部分业务用语、词汇相似,于是将银行B的业务语料输入智能标注系统中进行自动化标注。根据需要自动标注的语料规模,可考虑部署分布式智能标注系统。
S405、对于银行B的业务语料中,无法通过智能标注系统中的算法模型自动标注的部分,形成X语料’,人工对X语料’进行标注,此时大大降低了人工标注的工作量和耗时。人工标注的结果形成第二批训练集,再次执行步骤S402-S403,从而实现了算法模型的更新,智能标注系统得到第二次优化和扩充。
S406、当第三批银行X的业务语料需要标注时,重复步骤S404中的操作,从而实现了算法模型的更新,智能标注系统得到再一次优化和扩充。
S407、当第四批某电商的客服语料需要进行标注时,判断电商的客服语料和已人工标注过的银行语料不是同一领域的语料,用语、词汇差异很大,于是人工对某电商客服语料进行标注。形成第四批训练集,再次执行步骤S402-S403,从而实现了算法模型的更新,智能标注系统得到第四次优化和扩充。
S408、当第五批电商X的客服语料需要标注时,重复步骤S404中的操作,从而实现了算法模型的更新,智能标注系统得到第五次优化和扩充。
如果需要对同领域同子类型的素材进行标注,使用智能标注系统对这些素材进行自动化标注,如果智能标注系统已经过多轮迭代和优化扩充,这批语料理论上可以完全实现自动化标注且准确率达标。
分析只能标注系统对同领域不同子类、同领域相同子类新素材的自动化标注比例和准确率,可以判断是否需要收集更多更丰富的语料来继续训练算法模型。
第四实施例
请参考图5,图5为本发明第四实施例提供的一种素材标注装置组成示意图,包括:
素材标注模块501,用于根据预设的算法模型对待标注素材集中的素材进行标注;
训练生成模块502,用于基于标注的结果,生成对应的训练集;
算法训练模块503,用于通过训练集更新算法模型,用于下一次的素材标注。
素材标注,其中素材可以包括智能问答系统中的语料,文本识别中的文本,以及音视频、图片等多媒体素材。这些素材中往往包含了很多很丰富的内容,但是计算机可能不能直接的识别和读取,因此需要对这些素材进行标注,标注也就是对素材库中的素材进行加工,把素材中的各种特征以计算机可识别的方式进行标注,比如说,将图片素材中的以图片形式呈现的信息以文本的格式进行标注,或者是人脸识别,以图像中的面部特征的像素点坐标和像素值进行标注,或者如语料库中的语料,把各种表示语言特征的标签标注在相应的语言成分上,以便于计算机的识别和读取。标注的具体方式根据应用场景的不同而有所区别,原理上都是基于一定的逻辑,将待标注素材集中的素材的各个特征进行计算机可识别的标注。
确定已生成的算法模型。算法模型就是标注素材所参考的算法,后续的素材标注参考的算法模型都是上一次素材标注之后所确定出来的算法模型。算法模型需要经过分析训练集来得到,其中,算法模型根据生成时机的不同,大致分为初始算法模型和过渡算法模型两种。初始算法模型,也就是在本次素材标注中,第一个算法模型,这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型,与初始算法模型不同,过渡算法模型通常是持续变化的。
具体的,确定已生成的算法模型,可以包括:对初始素材集中的素材进行人工标注,生成初始训练集;训练生成模块502基于初始训练集,训练生成初始算法模型;素材标注模块501参考初始算法模型对待标注素材集中的素材进行标注;算法训练模块503基于标注结果更新初始算法模型,形成过渡算法模型;素材标注模块501再参考过渡算法模型对下一次待标注素材集中的素材进行标注,算法训练模块503再基于标注结果更新过渡算法模型,如此迭代进行素材标注和算法模型的更新,确定算法模型。上述步骤示出了算法模型的通用生成方式,具体而言,算法模型是基于初始算法模型,经过若干次标注更新迭代之后所形成。而初始算法模型的生成方式,一种可选的方式为,首先,以人工标注的方式,对初始素材集中的素材进行标注。这里的人工标注没有可参考的算法模型,根据人为的认知来自行确定素材的各个特征如何标注。然后,在标注完成之后,以标注结果为参照,生成对应的初始训练集。训练集是训练生成算法模型的集合,训练集中往往有大量的对象,对这些对象进行训练就可以生成想要的算法模型,而初始训练集,就是最初的用于训练算法模型的训练集。然后,基于初始训练集进行训练,得到初始算法模型。此时,由于初始素材集是以人工标注的方式进行标注的,为了保证所得到的初始算法模型的可靠性,还可以进行校验,校验可由其他人来进行,相当于参考多个校验者来确定初始算法模型。
初始算法模型在确定之后,就作为第二次素材标注的算法模型,也就是下一次的算法模型的参考算法模型。而在参考初始算法模型对素材进行标注之后,此时会得到相应的标注结果,以及根据标注结果所生成的训练集;这是不同于初始训练集的新增的训练集,第二次的素材标注中的素材与第一次中的素材往往是不同的,那么,在结合相同的算法模型进行标注之后得到的训练集,作为初始算法模型的更新包更新初始算法模型,让初始算法模型可以囊括更多更详尽的算法模型。此时所得到的算法模型就不再是初始算法模型,而是算法模型中的过渡算法模型。初始算法模型只有一个,过渡算法模型则通常有多个,这多个过渡算法模型就是通过在每一次的算法模型对素材进行标注之后,得到的训练集再更新该算法模型所得,换言之,每一次的素材标注,所参考的都是上一次素材标注后所更新的算法模型,且本次素材标注之后,更新的算法模型又作为下一次的素材标注所参考的算法模型。如此下去,迭代的次数越多,算法模型的覆盖面就越广,涉及的素材类型和领域就越多,对于后续的素材标记的准确率也就越高。
素材标注模块501用于根据算法模型对待标注素材集中的素材进行标注。这里的标注过程就是前一次素材集中的素材标注的下一个迭代;而具体的,根据算法模型对待标注素材集中的素材进行标注可以包括:确定待标注素材集中,与算法模型领域相同的第一素材,以及与算法模型领域不同的第二素材;直接通过算法模型对第一素材进行标注;以及,通过人工标注对第二素材进行标注。待标注的素材集中的素材,大致可以分为两类:一类是可直接通过算法模型进行标注的,这类的素材即与算法模型领域相同的第一素材;一类是不能直接通过算法模型进行标注的,这类的素材即与算法模型领域不同的第二素材。第一素材由于领域与算法模型一致,大都可以直接进行标注,当然也可能遇到领域相同但是领域之下的类别有所区别,导致部分不能直接标注的,也可以通过人工标注进行标注;第二素材由于领域与算法模型不同,不能直接标注,往往是直接采取人工标注的方式进行。其中,确定待标注素材集中的第一素材和第二素材的方式,可以是通过关键词筛选等等方式进行,或者是由人工参与进行判断,或者是直接假设都是相同领域的直接进行标注,对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。请参考图2,图2示出了一种素材标注示意图,其中,素材A作为初始素材,以人工标注的形式进行标注并生成训练集A,基于训练集A训练出了算法模型,此处即为初始算法模型;素材B作为与素材A领域相同的素材,也就是与算法模型领域一致的素材,可直接通过该算法模型进行标注;尽管如此,素材B中还有领域之下的类别不同的素材B’,不能直接通过算法模型进行标注,而采用人工的方式进行标注;素材C是与素材A领域不同的素材,也就是与算法模型领域不一致的素材,直接通过人工标注的方式进行标注。不管是对素材B的标注,还是对素材B’的标注,还是对素材C的标注,最终均生成对应的训练集,通过训练集来更新算法模型,作为下一次的素材标注所参考的算法模型。
训练生成模块502用于基于标注的结果,生成对应的训练集。生成训练集,就为生成算法模型,以及更新算法模型提供了可能,由于初始算法模型已经根据对初始素材的人工标注生成了,因此后续的训练集都是作为更新算法模型而用。
算法训练模块503用于通过训练集更新算法模型,用于下一次的素材标注。下一次的素材标注一般都是参考上一次的素材标注更新后的算法模型来进行,而迭代的次数越多,覆盖的领域越广,因此需要人工参与的次数也越少,标注的准确率也越高。为了保证素材标注的可靠性,通过训练集更新算法模型可以包括:基于标注的结果对训练集进行校验;在校验完成后,通过校验后的训练集对算法模型进行更新。具体的,基于标注的结果对训练集进行校验可以包括:以抽查的方式从训练集中随机抽取部分进行校验;或,以全量的方式,直接校验训练集中的所有内容。
本实施例提供了一种素材标注装置,确定已生成的算法模型,算法模型用于素材标注,根据算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。
第五实施例
请参考图6,图6为本发明第五实施例提供的一种终端的组成示意图,包括:
处理器601、存储器602和通信总线603;通信总线603用于实现处理器601和存储器602之间的连接通信;处理器601用于执行存储器602中存储的素材标注程序,以实现前述的素材标注方法的实施例,这里不再赘述。
此外,本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有一个或者多个计算机程序,计算机程序可被一个或者多个处理器执行,以实现前述的素材标注方法的实施例,这里不再赘述。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种素材标注方法,其特征在于,包括:
根据预设的算法模型对待标注素材集中的素材进行标注;
基于标注的结果,生成对应的训练集;
通过所述训练集更新所述算法模型,用于下一次的素材标注。
2.如权利要求1所述的素材标注方法,其特征在于,所述根据所述预设的算法模型对待标注素材集中的素材进行标注包括:
确定所述待标注素材集中,与所述算法模型领域相同的第一素材,以及与所述算法模型领域不同的第二素材;
直接通过所述算法模型对所述第一素材进行标注;以及,
通过人工标注对所述第二素材进行标注。
3.如权利要求2所述的素材标注方法,其特征在于,所述直接通过所述算法模型对所述第一素材进行标注包括:
对所述第一素材中,无法通过所述算法模型进行标注的部分,通过人工标注进行标注。
4.如权利要求1-3任一项所述的素材标注方法,其特征在于,还包括:
根据在各次根据所述算法模型对待标注素材集中的素材进行标注时,各次标注的准确率,评估所述算法模型对所述待标注素材的标注能力是否达标。
5.如权利要求1-3任一项所述的素材标注方法,其特征在于,所述通过所述训练集更新所述算法模型包括:
对所述训练集进行校验;
在校验完成后,通过校验后的训练集对所述算法模型进行更新。
6.如权利要求5所述的素材标注方法,其特征在于,所述对所述训练集进行校验包括:
以抽查的方式从所述训练集中随机抽取部分进行校验;或,以全量的方式,直接校验所述训练集中的所有内容。
7.一种素材标注装置,其特征在于,包括:
素材标注模块,用于根据预设的算法模型对待标注素材集中的素材进行标注;
训练生成模块,用于基于标注的结果,生成对应的训练集;
算法训练模块,用于通过所述训练集更新所述算法模型,用于下一次的素材标注。
8.如权利要求7所述的素材标注装置,其特征在于,所述素材标注模块具体用于:
确定所述待标注素材集中,与所述算法模型领域相同的第一素材,以及与所述算法模型领域不同的第二素材;
直接通过所述算法模型对所述第一素材进行标注;以及,
通过人工标注对所述第二素材进行标注。
9.一种终端,其特征在于,包括处理器、存储器和通信总线;所述通信总线用于实现所述处理器和存储器之间的连接通信;所述处理器用于执行所述存储器中存储的素材标注程序,以实现如权利要求1-6任一项所述的素材标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有一个或者多个计算机程序,所述计算机程序可被一个或者多个处理器执行,以实现如权利要求1-6任一项所述的素材标注方法的步骤。
CN201711148095.1A 2017-11-17 2017-11-17 素材标注方法、装置、终端和计算机可读存储介质 Pending CN109800776A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711148095.1A CN109800776A (zh) 2017-11-17 2017-11-17 素材标注方法、装置、终端和计算机可读存储介质
PCT/CN2018/109774 WO2019095899A1 (zh) 2017-11-17 2018-10-11 素材标注方法以及装置、终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711148095.1A CN109800776A (zh) 2017-11-17 2017-11-17 素材标注方法、装置、终端和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109800776A true CN109800776A (zh) 2019-05-24

Family

ID=66540040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711148095.1A Pending CN109800776A (zh) 2017-11-17 2017-11-17 素材标注方法、装置、终端和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109800776A (zh)
WO (1) WO2019095899A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751224A (zh) * 2019-10-25 2020-02-04 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN113380384A (zh) * 2021-05-01 2021-09-10 首都医科大学宣武医院 人机协同训练医学影像标注模型的方法、标注方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859862B (zh) * 2020-07-22 2024-03-22 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
US20100256969A1 (en) * 2009-04-07 2010-10-07 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
WO2014183275A1 (zh) * 2013-05-15 2014-11-20 中国科学院自动化研究所 一种基于在线学习的局部可形变目标检测方法及其系统
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN102163285A (zh) * 2011-03-09 2011-08-24 北京航空航天大学 一种基于主动学习的跨域视频语义概念检测方法
CN104142912A (zh) * 2013-05-07 2014-11-12 百度在线网络技术(北京)有限公司 一种精确的语料类别标注方法及装置
CN106844348B (zh) * 2017-02-13 2020-01-17 哈尔滨工业大学 一种汉语句子功能成分分析方法
CN106991085B (zh) * 2017-04-01 2020-08-04 中国工商银行股份有限公司 一种实体的简称生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256969A1 (en) * 2009-04-07 2010-10-07 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
WO2014183275A1 (zh) * 2013-05-15 2014-11-20 中国科学院自动化研究所 一种基于在线学习的局部可形变目标检测方法及其系统
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751224A (zh) * 2019-10-25 2020-02-04 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN110751224B (zh) * 2019-10-25 2022-08-05 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN113380384A (zh) * 2021-05-01 2021-09-10 首都医科大学宣武医院 人机协同训练医学影像标注模型的方法、标注方法及系统

Also Published As

Publication number Publication date
WO2019095899A1 (zh) 2019-05-23

Similar Documents

Publication Publication Date Title
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
US9720687B2 (en) Validating and maintaining respective validation status of software applications and manufacturing systems and processes
CN112416337B (zh) 一种面向航天嵌入式系统的软件架构开发系统
CN109934227A (zh) 图像文字识别系统和方法
CN114240101A (zh) 一种风险识别模型的验证方法、装置以及设备
Nagamine et al. A case study of applying software product line engineering to the air conditioner domain
CN116523284A (zh) 基于机器学习的业务操作流程自动化评估方法、系统
CN111159241A (zh) 一种点击转化预估方法及装置
CN114639152A (zh) 基于人脸识别的多模态语音交互方法、装置、设备及介质
CN113806574A (zh) 一种软硬件一体化的人工智能图像识别数据处理方法
CN112269875A (zh) 文本分类方法、装置、电子设备及存储介质
CN112416301A (zh) 深度学习模型开发方法及装置、计算机可读存储介质
CN107766033A (zh) 一种基于问题框架的敏捷需求拆分方法
CN115438190B (zh) 一种配电网故障辅助决策知识抽取方法及系统
CN109063732B (zh) 基于特征交互和多任务学习的图像排序方法及系统
CN116152609A (zh) 分布式模型训练方法、系统、装置以及计算机可读介质
CN115828022A (zh) 一种数据识别方法、联邦训练模型、装置和设备
CN113032257B (zh) 自动化测试方法、装置、计算机系统和可读存储介质
CN114968816A (zh) 基于数据模拟的策略测试方法、装置、设备及存储介质
CN115169578A (zh) 一种基于元宇宙数据标记的ai模型生产方法及系统
CN111428724B (zh) 一种试卷手写统分方法、装置及存储介质
CN111612023A (zh) 一种分类模型构建方法及装置
Bodenhausen Quick Start with AI for Automotive Development: Five Process Changes and One New Process
CN117668671B (zh) 一种基于机器学习的教育资源治理方法
CN114185962A (zh) 模型训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination