CN109800776A

CN109800776A - 素材标注方法、装置、终端和计算机可读存储介质

Info

Publication number: CN109800776A
Application number: CN201711148095.1A
Authority: CN
Inventors: 陆艳; 刘勇; 高洪
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2019-05-24
Also published as: WO2019095899A1

Abstract

本发明实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质，根据预设的算法模型对待标注素材集中的素材进行标注，基于标注结果生成对应的训练集，通过训练集更新算法模型，用于下一次素材标注。通过本发明实施例的实施，以每一次标注后的结果来更新算法模型，从而大大减少了人工标注的工作量，同时也提升了标注的一致性和准确性。

Description

素材标注方法、装置、终端和计算机可读存储介质

技术领域

本发明涉及无线通信技术领域，尤其涉及一种素材标注方法、装置、终端和计算机可读存储介质。

背景技术

在人工智能飞速发展的今天，对于各素材的标注和校对工作一直需要消耗大量的时间和人力。素材的标注和校对需要通过分析大量的训练素材得到，这些训练素材被事先按照一定的逻辑进行标注，通常都是人工标注，标注过程需要耗费大量的人力和时间。标注的过程实际上是对素材中的特征进行解释的过程，不同的人可能会有不同的解释结果，所以素材标注带有很大的主观性。不同的标注者的知识结构和语法理论也各不相同，导致标注的结果千奇百怪难以统一。

发明内容

本发明实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质，旨在解决现有技术中素材标注耗时耗力，且标注结果难以统一的问题。

为了解决上述技术问题，本发明实施例提供了一种素材标注方法，所述素材标注方法包括：

根据预设的算法模型对待标注素材集中的素材进行标注；

基于标注的结果，生成对应的训练集；

通过所述训练集更新所述算法模型，用于下一次的素材标注。

此外，本发明实施例还提供一种素材标注装置，包括：

素材标注模块，用于根据预设的算法模型对待标注素材集中的素材进行标注；

训练生成模块，用于基于标注的结果，生成对应的训练集；

算法训练模块，用于通过所述训练集更新所述算法模型，用于下一次的素材标注。

此外，本发明实施例还提供一种终端，包括处理器、存储器和通信总线；所述通信总线用于实现所述处理器和存储器之间的连接通信；所述处理器用于执行所述存储器中存储的素材标注程序，以实现前述的素材标注方法的步骤。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个计算机程序，所述计算机程序可被一个或者多个处理器执行以实现前述的素材标注方法的步骤。

本发明的有益效果是：

附图说明

图1为本发明第一实施例提供的一种素材标注方法流程图；

图2为本发明第一实施例提供的一种素材标注示意图；

图3为本发明第二实施例提供的一种素材标注方法细化流程图；

图4为本发明第三实施例提供的一种素材标注示意图；

图5为本发明第四实施例提供的一种素材标注装置组成示意图；

图6为本发明第五实施例提供的一种终端组成示意图。

具体实施方式

第一实施例

请参考图1，图1是本发明第一实施例提供的一种素材标注方法流程图，包括：

S101、根据预设的算法模型对待标注素材集中的素材进行标注；

S102、基于标注的结果，生成对应的训练集；

S103、通过训练集更新算法模型，用于下一次的素材标注。

素材标注，其中素材可以包括智能问答系统中的语料，文本识别中的文本，以及音视频、图片等多媒体素材。这些素材中往往包含了很多很丰富的内容，但是计算机可能不能直接的识别和读取，因此需要对这些素材进行标注，标注也就是对素材库中的素材进行加工，把素材中的各种特征以计算机可识别的方式进行标注，比如说，将图片素材中的以图片形式呈现的信息以文本的格式进行标注，或者是人脸识别，以图像中的面部特征的像素点坐标和像素值进行标注，或者如语料库中的语料，把各种表示语言特征的标签标注在相应的语言成分上，以便于计算机的识别和读取。标注的具体方式根据应用场景的不同而有所区别，原理上都是基于一定的逻辑，将待标注素材集中的素材的各个特征进行计算机可识别的标注。

确定已生成的算法模型。算法模型就是标注素材所参考的算法，后续的素材标注参考的算法模型都是上一次素材标注之后所确定出来的算法模型。算法模型需要经过分析训练集来得到，其中，算法模型根据生成时机的不同，大致分为初始算法模型和过渡算法模型两种。初始算法模型，也就是在本次素材标注中，第一个算法模型，这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型，与初始算法模型不同，过渡算法模型通常是持续变化的。

具体的，确定已生成的算法模型，可以包括：对初始素材集中的素材进行人工标注，生成初始训练集；基于初始训练集，训练生成初始算法模型；参考初始算法模型对待标注素材集中的素材进行标注，并基于标注结果更新初始算法模型，形成过渡算法模型；参考过渡算法模型对下一次待标注素材集中的素材进行标注，并基于标注结果更新过渡算法模型，如此迭代进行素材标注和算法模型的更新，确定算法模型。上述步骤示出了算法模型的通用生成方式，具体而言，算法模型是基于初始算法模型，经过若干次标注更新迭代之后所形成。而初始算法模型的生成方式，一种可选的方式为，首先，以人工标注的方式，对初始素材集中的素材进行标注。这里的人工标注没有可参考的算法模型，根据人为的认知来自行确定素材的各个特征如何标注。然后，在标注完成之后，以标注结果为参照，生成对应的初始训练集。训练集是训练生成算法模型的集合，训练集中往往有大量的对象，对这些对象进行训练就可以生成想要的算法模型，而初始训练集，就是最初的用于训练算法模型的训练集。然后，基于初始训练集进行训练，得到初始算法模型。此时，由于初始素材集是以人工标注的方式进行标注的，为了保证所得到的初始算法模型的可靠性，还可以进行校验，校验可由其他人来进行，相当于参考多个校验者来确定初始算法模型。

初始算法模型在确定之后，就作为第二次素材标注的算法模型，也就是下一次的算法模型的参考算法模型。而在参考初始算法模型对素材进行标注之后，此时会得到相应的标注结果，以及根据标注结果所生成的训练集；这是不同于初始训练集的新增的训练集，第二次的素材标注中的素材与第一次中的素材往往是不同的，那么，在结合相同的算法模型进行标注之后得到的训练集，作为初始算法模型的更新包更新初始算法模型，让初始算法模型可以囊括更多更详尽的算法模型。此时所得到的算法模型就不再是初始算法模型，而是算法模型中的过渡算法模型。初始算法模型只有一个，过渡算法模型则通常有多个，这多个过渡算法模型就是通过在每一次的算法模型对素材进行标注之后，得到的训练集再更新该算法模型所得，换言之，每一次的素材标注，所参考的都是上一次素材标注后所更新的算法模型，且本次素材标注之后，更新的算法模型又作为下一次的素材标注所参考的算法模型。如此下去，迭代的次数越多，算法模型的覆盖面就越广，涉及的素材类型和领域就越多，对于后续的素材标记的准确率也就越高。

S101中，根据算法模型对待标注素材集中的素材进行标注。这里的标注过程就是前一次素材集中的素材标注的下一个迭代；而具体的，根据算法模型对待标注素材集中的素材进行标注可以包括：确定待标注素材集中，与算法模型领域相同的第一素材，以及与算法模型领域不同的第二素材；直接通过算法模型对第一素材进行标注；以及，通过人工标注对第二素材进行标注。待标注的素材集中的素材，大致可以分为两类：一类是可直接通过算法模型进行标注的，这类的素材即与算法模型领域相同的第一素材；一类是不能直接通过算法模型进行标注的，这类的素材即与算法模型领域不同的第二素材。第一素材由于领域与算法模型一致，大都可以直接进行标注，当然也可能遇到领域相同但是领域之下的类别有所区别，导致部分不能直接标注的，也可以通过人工标注进行标注，也就是，对第一素材中，无法通过算法模型直接进行标注的部分，通过人工标注进行标注；第二素材由于领域与算法模型不同，不能直接标注，往往是直接采取人工标注的方式进行。其中，确定待标注素材集中的第一素材和第二素材的方式，一般是素材提供者事先明确的，在标注前往往已经知道了待标注素材所属的领域；如果素材提供者未明确提供，则可以是通过关键词筛选等等方式进行，或者是由人工参与进行判断，或者是直接假设都是相同领域的直接进行标注，对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。请参考图2，图2示出了一种素材标注示意图，其中，素材A作为初始素材，以人工标注的形式进行标注并生成训练集A，基于训练集A训练出了算法模型，此处即为初始算法模型；素材B作为与素材A领域相同的素材，也就是与算法模型领域一致的素材，可直接通过集成了该算法模型的自动化标注装置进行标注。其中，该自动化标注装置除了集成了算法模型之外，还具备一些标注所需的其他组成部分，比如工作流、权限控制等相关功能。尽管如此，素材B中还有领域之下的类别不同的素材B’，不能直接通过算法模型进行标注，而采用人工的方式进行标注；素材C是与素材A领域不同的素材，也就是与算法模型领域不一致的素材，直接通过人工标注的方式进行标注。不管是对素材B的标注，还是对素材B’的标注，还是对素材C的标注，最终均生成对应的训练集，通过训练集来更新算法模型，作为下一次的素材标注所参考的算法模型。

此外，还可以包括，根据在各次算法模型对待标注集中的素材进行标注时，第一素材在待标注素材集中的占比，和/或各次标注的准确率，评估算法模型对待标注素材的标注能力是否达标。在每一次的素材标注中，根据待标注素材的领域与算法模型的领域的相同与否，会对应产生相应的第一素材和第二素材，根据可以直接标注的第一素材在待标注素材集中的占比可以确定算法模型的标注能力；另外，每一次对于待标注素材集的标注之后，再经过校验就可以得知标注的准确率，根据准确率也可以确定算法模型的标注能力。在得知算法模型的标注能力之后，如果算法模型的标注能力较弱，或者是标注能力不达标，则可能需要继续借助素材集进行训练，逐步完善算法模型标注能力。

S102中，基于标注的结果，生成对应的训练集。生成训练集，就为生成算法模型，以及更新算法模型提供了可能，由于初始算法模型已经根据对初始素材的人工标注生成了，因此后续的训练集都是作为更新算法模型而用。

S103中，通过训练集更新算法模型，用于下一次的素材标注。下一次的素材标注一般都是参考上一次的素材标注更新后的算法模型来进行，而迭代的次数越多，覆盖的领域越广，因此需要人工参与的次数也越少，标注的准确率也越高。为了保证素材标注的可靠性，通过训练集更新算法模型可以包括：对训练集进行校验；在校验完成后，通过校验后的训练集对算法模型进行更新。具体的，基于标注的结果对训练集进行校验可以包括：以抽查的方式从训练集中随机抽取部分进行校验；或，以全量的方式，直接校验训练集中的所有内容。

本实施例提供了一种素材标注方法，确定已生成的算法模型，算法模型用于素材标注，根据算法模型对待标注素材集中的素材进行标注，基于标注结果生成对应的训练集，通过训练集更新算法模型，用于下一次素材标注。通过本实施例的实施，以每一次标注后的结果来更新算法模型，从而大大减少了人工标注的工作量，同时也提升了标注的一致性和准确性。

第二实施例

请参考图3，图3为本发明第二实施例提供的素材标注方法细化流程图。

S301、确定待标注的素材集；

素材可以包括智能问答系统中的语料，文本识别中的文本，以及音视频、图片等多媒体素材

S302、基于上一次素材标注后的算法模型，对待标注的素材集中的素材进行标注；

素材中往往包含了很多很丰富的内容，但是计算机可能不能直接的识别和读取，因此需要对这些素材进行标注，标注也就是对素材库中的素材进行加工，把素材中的各种特征以计算机可识别的方式进行标注。

算法模型根据迭代阶段的不同，大致可分为初始算法模型和过渡算法模型两类；初始算法模型，也就是在本次素材标注中，第一个算法模型，这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型，与初始算法模型不同，过渡算法模型通常是持续变化的。

S303、判断标注是否成功，若是，则转到S304，若否，则转到S307；

判断标注是否成功，也就是从素材中筛选出第一素材和第二素材的过程；而确定待标注素材集中的第一素材和第二素材的方式，可以是通过关键词筛选等等方式进行，或者是由人工参与进行判断，或者是直接假设都是相同领域的直接进行标注，对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。

S304、基于标注结果，生成训练集；

生成训练集，就为生成算法模型，以及更新算法模型提供了可能，由于初始算法模型已经根据对初始素材的人工标注生成了，因此后续的训练集都是作为更新算法模型而用。

S305、对训练集进行校验；

为了保证素材标注的可靠性，可对训练集进行校验，具体的校验方式可以包括：以抽查的方式从训练集中随机抽取部分进行校验；或，以全量的方式，直接校验训练集中的所有内容。

S306、通过校验后的训练集更新算法模型，并返回S401；

S307、通过人工标注对标注失败的素材进行标注。

第三实施例

请参考图4，图4为本发明第三实施例提供的素材标注方法的示意图，其中，本实施例中的素材标注方法以银行的业务语料为基础，通过训练相应的算法模型和循环迭代，来实现自动标注，其具体实现步骤如下：

S401、确定第一批银行A的业务语料；

S402、形成银行A的语料训练集；

S403、基于银行A的语料训练集训练生成算法模型，嵌入智能标注系统中；

S404、第二批银行B的业务语料需要进行标注时，判断银行A和银行B的业务语料同属于银行领域的语料，属于同一领域的不同子类，大部分业务用语、词汇相似，于是将银行B的业务语料输入智能标注系统中进行自动化标注。根据需要自动标注的语料规模，可考虑部署分布式智能标注系统。

S405、对于银行B的业务语料中，无法通过智能标注系统中的算法模型自动标注的部分，形成X语料’，人工对X语料’进行标注，此时大大降低了人工标注的工作量和耗时。人工标注的结果形成第二批训练集，再次执行步骤S402-S403，从而实现了算法模型的更新，智能标注系统得到第二次优化和扩充。

S406、当第三批银行X的业务语料需要标注时，重复步骤S404中的操作，从而实现了算法模型的更新，智能标注系统得到再一次优化和扩充。

S407、当第四批某电商的客服语料需要进行标注时，判断电商的客服语料和已人工标注过的银行语料不是同一领域的语料，用语、词汇差异很大，于是人工对某电商客服语料进行标注。形成第四批训练集，再次执行步骤S402-S403，从而实现了算法模型的更新，智能标注系统得到第四次优化和扩充。

S408、当第五批电商X的客服语料需要标注时，重复步骤S404中的操作，从而实现了算法模型的更新，智能标注系统得到第五次优化和扩充。

如果需要对同领域同子类型的素材进行标注，使用智能标注系统对这些素材进行自动化标注，如果智能标注系统已经过多轮迭代和优化扩充，这批语料理论上可以完全实现自动化标注且准确率达标。

分析只能标注系统对同领域不同子类、同领域相同子类新素材的自动化标注比例和准确率，可以判断是否需要收集更多更丰富的语料来继续训练算法模型。

第四实施例

请参考图5，图5为本发明第四实施例提供的一种素材标注装置组成示意图，包括：

素材标注模块501，用于根据预设的算法模型对待标注素材集中的素材进行标注；

训练生成模块502，用于基于标注的结果，生成对应的训练集；

算法训练模块503，用于通过训练集更新算法模型，用于下一次的素材标注。

具体的，确定已生成的算法模型，可以包括：对初始素材集中的素材进行人工标注，生成初始训练集；训练生成模块502基于初始训练集，训练生成初始算法模型；素材标注模块501参考初始算法模型对待标注素材集中的素材进行标注；算法训练模块503基于标注结果更新初始算法模型，形成过渡算法模型；素材标注模块501再参考过渡算法模型对下一次待标注素材集中的素材进行标注，算法训练模块503再基于标注结果更新过渡算法模型，如此迭代进行素材标注和算法模型的更新，确定算法模型。上述步骤示出了算法模型的通用生成方式，具体而言，算法模型是基于初始算法模型，经过若干次标注更新迭代之后所形成。而初始算法模型的生成方式，一种可选的方式为，首先，以人工标注的方式，对初始素材集中的素材进行标注。这里的人工标注没有可参考的算法模型，根据人为的认知来自行确定素材的各个特征如何标注。然后，在标注完成之后，以标注结果为参照，生成对应的初始训练集。训练集是训练生成算法模型的集合，训练集中往往有大量的对象，对这些对象进行训练就可以生成想要的算法模型，而初始训练集，就是最初的用于训练算法模型的训练集。然后，基于初始训练集进行训练，得到初始算法模型。此时，由于初始素材集是以人工标注的方式进行标注的，为了保证所得到的初始算法模型的可靠性，还可以进行校验，校验可由其他人来进行，相当于参考多个校验者来确定初始算法模型。

素材标注模块501用于根据算法模型对待标注素材集中的素材进行标注。这里的标注过程就是前一次素材集中的素材标注的下一个迭代；而具体的，根据算法模型对待标注素材集中的素材进行标注可以包括：确定待标注素材集中，与算法模型领域相同的第一素材，以及与算法模型领域不同的第二素材；直接通过算法模型对第一素材进行标注；以及，通过人工标注对第二素材进行标注。待标注的素材集中的素材，大致可以分为两类：一类是可直接通过算法模型进行标注的，这类的素材即与算法模型领域相同的第一素材；一类是不能直接通过算法模型进行标注的，这类的素材即与算法模型领域不同的第二素材。第一素材由于领域与算法模型一致，大都可以直接进行标注，当然也可能遇到领域相同但是领域之下的类别有所区别，导致部分不能直接标注的，也可以通过人工标注进行标注；第二素材由于领域与算法模型不同，不能直接标注，往往是直接采取人工标注的方式进行。其中，确定待标注素材集中的第一素材和第二素材的方式，可以是通过关键词筛选等等方式进行，或者是由人工参与进行判断，或者是直接假设都是相同领域的直接进行标注，对于无法直接标注的部分则分离出来作为不同领域的第二素材进行人工标注。请参考图2，图2示出了一种素材标注示意图，其中，素材A作为初始素材，以人工标注的形式进行标注并生成训练集A，基于训练集A训练出了算法模型，此处即为初始算法模型；素材B作为与素材A领域相同的素材，也就是与算法模型领域一致的素材，可直接通过该算法模型进行标注；尽管如此，素材B中还有领域之下的类别不同的素材B’，不能直接通过算法模型进行标注，而采用人工的方式进行标注；素材C是与素材A领域不同的素材，也就是与算法模型领域不一致的素材，直接通过人工标注的方式进行标注。不管是对素材B的标注，还是对素材B’的标注，还是对素材C的标注，最终均生成对应的训练集，通过训练集来更新算法模型，作为下一次的素材标注所参考的算法模型。

训练生成模块502用于基于标注的结果，生成对应的训练集。生成训练集，就为生成算法模型，以及更新算法模型提供了可能，由于初始算法模型已经根据对初始素材的人工标注生成了，因此后续的训练集都是作为更新算法模型而用。

算法训练模块503用于通过训练集更新算法模型，用于下一次的素材标注。下一次的素材标注一般都是参考上一次的素材标注更新后的算法模型来进行，而迭代的次数越多，覆盖的领域越广，因此需要人工参与的次数也越少，标注的准确率也越高。为了保证素材标注的可靠性，通过训练集更新算法模型可以包括：基于标注的结果对训练集进行校验；在校验完成后，通过校验后的训练集对算法模型进行更新。具体的，基于标注的结果对训练集进行校验可以包括：以抽查的方式从训练集中随机抽取部分进行校验；或，以全量的方式，直接校验训练集中的所有内容。

本实施例提供了一种素材标注装置，确定已生成的算法模型，算法模型用于素材标注，根据算法模型对待标注素材集中的素材进行标注，基于标注结果生成对应的训练集，通过训练集更新算法模型，用于下一次素材标注。通过本实施例的实施，以每一次标注后的结果来更新算法模型，从而大大减少了人工标注的工作量，同时也提升了标注的一致性和准确性。

第五实施例

请参考图6，图6为本发明第五实施例提供的一种终端的组成示意图，包括：

处理器601、存储器602和通信总线603；通信总线603用于实现处理器601和存储器602之间的连接通信；处理器601用于执行存储器602中存储的素材标注程序，以实现前述的素材标注方法的实施例，这里不再赘述。

此外，本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有一个或者多个计算机程序，计算机程序可被一个或者多个处理器执行，以实现前述的素材标注方法的实施例，这里不再赘述。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种素材标注方法，其特征在于，包括：

根据预设的算法模型对待标注素材集中的素材进行标注；

基于标注的结果，生成对应的训练集；

2.如权利要求1所述的素材标注方法，其特征在于，所述根据所述预设的算法模型对待标注素材集中的素材进行标注包括：

确定所述待标注素材集中，与所述算法模型领域相同的第一素材，以及与所述算法模型领域不同的第二素材；

直接通过所述算法模型对所述第一素材进行标注；以及，

通过人工标注对所述第二素材进行标注。

3.如权利要求2所述的素材标注方法，其特征在于，所述直接通过所述算法模型对所述第一素材进行标注包括：

对所述第一素材中，无法通过所述算法模型进行标注的部分，通过人工标注进行标注。

4.如权利要求1-3任一项所述的素材标注方法，其特征在于，还包括：

根据在各次根据所述算法模型对待标注素材集中的素材进行标注时，各次标注的准确率，评估所述算法模型对所述待标注素材的标注能力是否达标。

5.如权利要求1-3任一项所述的素材标注方法，其特征在于，所述通过所述训练集更新所述算法模型包括：

对所述训练集进行校验；

在校验完成后，通过校验后的训练集对所述算法模型进行更新。

6.如权利要求5所述的素材标注方法，其特征在于，所述对所述训练集进行校验包括：

以抽查的方式从所述训练集中随机抽取部分进行校验；或，以全量的方式，直接校验所述训练集中的所有内容。

7.一种素材标注装置，其特征在于，包括：

训练生成模块，用于基于标注的结果，生成对应的训练集；

8.如权利要求7所述的素材标注装置，其特征在于，所述素材标注模块具体用于：

直接通过所述算法模型对所述第一素材进行标注；以及，

通过人工标注对所述第二素材进行标注。

9.一种终端，其特征在于，包括处理器、存储器和通信总线；所述通信总线用于实现所述处理器和存储器之间的连接通信；所述处理器用于执行所述存储器中存储的素材标注程序，以实现如权利要求1-6任一项所述的素材标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有一个或者多个计算机程序，所述计算机程序可被一个或者多个处理器执行，以实现如权利要求1-6任一项所述的素材标注方法的步骤。