CN113761291A - 标签分类的处理方法和装置 - Google Patents

标签分类的处理方法和装置 Download PDF

Info

Publication number
CN113761291A
CN113761291A CN202110461702.XA CN202110461702A CN113761291A CN 113761291 A CN113761291 A CN 113761291A CN 202110461702 A CN202110461702 A CN 202110461702A CN 113761291 A CN113761291 A CN 113761291A
Authority
CN
China
Prior art keywords
label
initial
labels
classifier
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110461702.XA
Other languages
English (en)
Inventor
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110461702.XA priority Critical patent/CN113761291A/zh
Publication of CN113761291A publication Critical patent/CN113761291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种标签分类的处理方法和装置。该方法包括:获取待新增标签;基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,标签语义关系图是基于多个初始标签以及多个初始标签间的相关度构建得到的;确定相关标签对应的分类器参数;基于相关标签对应的分类器参数,得到待新增标签的分类器,待新增标签的分类器用于识别所输入的待识别内容是否属于待新增标签。采用该方法,提高了训练效率。

Description

标签分类的处理方法和装置
技术领域
本申请涉及机器学习技术领域,特别是涉及一种标签分类的处理方法和装置。
背景技术
标签分类是指给内容打上标签。其中,内容可以为图像、视频、新闻、音乐等等。标签分类能够用在内容理解和内容审核等应用场景。
在多标签分类的现实应用场景中,标签集可能随着任务的进行而不断扩展,比如原本多标签任务中定义了5个不同的类别进行标注,之后随着业务需求的演变,需要新增5个类别,从5个类别扩展为10个类别。这种情况下,一种直接也是业界常用的策略是对于新增的5个类别,收集足够的数据进行标注。随着标签集的不断扩大,使用这种直接的方式,需要不断收集属于新类别的样本同时进行大量的标注。随之而来的就是数据收集和数据标注的代价不断升高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低数据处理成本的标签分类的处理方法、装置、计算机设备和存储介质。
一种标签分类的处理方法,所述方法包括:
获取待新增标签;
基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
确定所述相关标签对应的分类器参数;
基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
一种标签分类的处理装置,所述装置包括:
待新增标签获取模块,用于获取待新增标签;
相关标签获取模块,用于基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
参数确定模块,用于确定所述相关标签对应的分类器参数;
分类器获取模块,用于基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待新增标签;
基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
确定所述相关标签对应的分类器参数;
基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待新增标签;
基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
确定所述相关标签对应的分类器参数;
基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
上述标签分类的处理方法、装置、计算机设备和存储介质,当需要新增标签时,获取待新增标签,基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签,基于相关标签对应的分类器参数,得到待新增标签的分类器参数。该方法通过利用预先基于多个初始标签及其相关度关系构建得到的标签语义关系图,在新增标签时,先确定与待新增标签相关的初始标签,然后基于该初始标签的分类器参数,即可得到可用于对待新增标签进行分类的分类器,当然为了得到性能更好的分类器,也只需要收集少量的待新增标签的数据进行训练即可,从而无需使用大量数据进行算法迭代,极大地节约数据收集和数据标注的成本,使得待新增标签的分类器的训练步骤减少,提高了训练效率。
附图说明
图1为一个实施例中标签分类的处理方法的应用环境图;
图2为一个实施例中标签分类的处理方法的流程示意图;
图3为一个实施例的标签语义关系图;
图4为一个实施例中构建初始标签的分类器的步骤的流程示意图;
图5为另一个实施例中标签分类的处理的过程示意图;
图6为一个实施例中标签分类的处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请提供的标签分类的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102通过与服务器104交互向服务器104发送内容。其中,基于应用场景的不同,终端102与服务器104的交互方式也不相同。服务器针对内容具有识别任务,例如,终端102上传一个视频时,服务器具有审核任务,则服务器104通过本申请的标签分类的处理方法,可实现对内容进行识别。
具体地,服务器获取待新增标签;基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,标签语义关系图是基于多个初始标签以及多个初始标签间的相关度构建得到的;确定相关标签对应的分类器参数;基于相关标签对应的分类器参数,得到待新增标签的分类器,待新增标签的分类器用于识别所输入的待识别内容是否属于待新增标签。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中多个服务器可组成为一区块链,而服务器为区块链上的节点。
在一个实施例中,如图2所示,提供了一种标签分类的处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待新增标签。
待新增标签是指在目标业务场景下初始标签集合中预先不包含的标签,是要增加的标签。目标业务场景下初始标签集合为根据目标应用场景确定的用于实现标签分类的标签的集合,具有初始标签,并可以在初始标签的基础上增加新的标签。
在多标签分类的现实应用场景中,一个目标业务场景的初始标签集合可能随着任务的进行而不断扩展,比如原本多标签任务中定义了5个不同的类别进行标注,则训练了五个初始标签。之后随着业务需求的演变,需要新增5个类别,从5个类别扩展为10个类别。新增的五个标签则为待新增标签。其中,初始标签集合根据标签分类的应用场景确定。不同应用场景和应用对象的初始标签集合不同。例如,对音乐进行分类的应用场景,其初始标签集合的标签通常为歌手名字以及歌曲类型。
步骤204,基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,标签语义关系图是基于多个初始标签以及多个初始标签间的相关度构建得到的。
在一些实施例中,标签语义关系图中的各初始标签可以是已经通过预先训练得到了分类器参数的。其中,一个初始标签的分类器能够识别所输入的待识别内容是否属于该初始标签。标签语义关系图是根据多个初始标签以及多个初始标签间的相关度构建的。
一个实施例中,标签语义关系图基于多个初始标签构建。其中,可以全部基于初始标签构建标签语义关系图,从而标签语义关系图中的各初始标签都已经预先训练好了分类器参数。在该实施例中,初始标签可以为日常生活中常见的类别,属于常用标签集。也就是说,可以将常用标签作为初始标签,预先训练好所有初始标签的分类器参数,并基于多个初始标签和初始标签间的相关度构建标签语义关系图。本实施例中,初始标签越多,构建的标签语义关系图越大,越能够反应常用标签之间的相关关系,能够添加的待新增标签的种类越多。
一个实施例中,可以基于初始标签和常用标签构建标签语义关系图。其中初始标签为目标业务场景的初始标签集合的初始标签,即已有标签。也就是说,基于已有标签和其它常用标签建构标签语义关系图。已有标签的分类器参数是已经训练了的。常用标签为日常生活中常见的类别。可以理解的是,初始标签可以是常用标签。本实施例中,预先训练好目标业务场景下初始标签集合的初始标签的分类器参数,基于初始标签和常用标签,以及各标签间的相关度构建标签语义关系图。
其中,预先定义了相关度条件,用于从标签语义关系图中筛选出待新增标签的相关标签。也就是说,待新增标签的相关标签为标签语义关系图与待新增标签的相关度满足相关度条件的初始标签。
在一种实施方式中,相关度是否满足相关度条件,可以通过将相关度与相关度阈值进行比较得到的结果来判断,例如,将与待新增标签的相关度大于相关度阈值的初始标签作为待新增标签的相关标签。在另一种实施方式中,相关度是否满足相关度条件,还可以通过对与待新增标签的相关度进行排序,根据相关度是否为前N个最高相关度来判断。例如,N为1,则根据排序结果,将最高相关度对应的初始标签,作为待新增标签的相关标签,即与待新增标签最相关的初始标签作为待新增标签的相关标签。又例如,N为3,则根据排序结果,将前3个最高相关度对应的初始标签,作为待新增标签的相关标签。
一种实施方式中,若标签语义关系图是基于多个初始标签构建的,则基于待新增标签的语义信息,在标签语义关系图中确定与待新增标签的相关度满足相关度条件的初始标签,即根据待新增标签的语义信息,在标签语义关系图中查找语义信息相关度满足相关度条件的初始标签,作为待新增标签的相关标签。在该实施方式中,可包括两种情况:一种情况是,用于构建标签语义关系图的多个初始标签中存在与待新增标签相同的初始标签(可理解为,此时待新增标签在标签语义关系图中),则此时查找到的相关标签包括了待新增标签自身。另一种情况是,用于构建标签语义关系图的多个初始标签中不存在与待新增标签相同的初始标签(可理解为,此时待新增标签不在标签语义关系图中),则根据待新增标签的语义信息,在标签语义关系图中查找语义信息相关度满足相关度条件的初始标签,作为相关标签。
一种实施方式中,若标签语义关系图是基于目标业务场景的初始集合的初始标签和常用标签构建的,可包括两种情况:一种情况是,待新增标签不在标签语义关系图中,则根据待新增标签的语义信息先查找到相似标签,相似标签为与待新增标签语义信息最匹配的标签,再查找到与相似标签的相关度满足相关度条件的初始标签作为相关标签。另一种情况是,待新增标签在标签语义关系图中,则标签语义关系图中直接查找与其相关度满足相关度条件的初始标签作为相关标签。
在一个实施例中,标签分类的处理方法还包括:获取多个初始标签,以各初始标签的语义信息为顶点,以各初始标签间的相关度表征各初始标签之间的连接关系,构建标签语义关系图。
其中,初始标签可以为常用标签。常用标签可根据标签的使用频率确定,通常包括了日常生活中常见的类别。
对于标签分类任务,在不同的应用场景有目标应用场景下对应的初始标签集,可将待识别内容归属于目标应用场景下对应的初始标签集中的初始标签。例如,某农业平台,初始标签集中的初始标签以植物名称为主,某音乐平台,初始标签集中的初始标签以音乐类型和歌手名字为主。因此,对于某个应用场景的初始标签集合而言,通常只用到了常用标签中较少的一部分。假设常用标签集合为Call,某个目标应用场景下对应的初始标签集合Ccurrent只用到了常用标签集合的少部分。一般情况下,某个目标应用场景下对应的初始标签集合Ccurrent中标签数量要远远小于常用标签集合Call的标签数量。
语义信息是标签的名称的语义信息,可通过对标签的名称进行词向量转换得到。常用标签集中的每个标签即是一个类别,根据标签名称的词向量得到标签的语义信息,语义信息为该类别的类别表达。例如,类别表达指的是在大规模语料库上预训练得到的word2vec向量。每个类别的名字对应唯一的word2vec向量,向量维度固定。
词向量可以反映标签在一般语义上的特性,比如猫(cat)、狗(dog)、公交车(bus)三个标签对应的词向量,猫(cat)和狗(dog)两个标签的词向量之间的余弦相似度,就比猫(cat)和公交车(bus)的词向量之间的余弦相似度更大。这反映了一般语义概念上,猫(cat)和狗(dog)是更加相似的类别,都属于宠物;而公交车(bus)属于交通工具,离这两个类别的距离更远。
本实施例中,构建标签语义关系图,标签语义关系图是一个图结构(Graph),语义关系图的表达为G={V,A}。其中V={v0,v1,…,vC-1}代表C个顶点,每个顶点对应着一个标签的类别表达。
A={a00,a01,…,a(c-1)(c-1)}是标签语义关系图的连接矩阵,代表C个顶点之间的连接关系。其中,aij表征两个类别表达vi、vj之间的相关度。其中,标签之间的连接关系可以由标签之间的相关度表征。具体地,连接关系与标签之间的相关度成正相关。标签之间的相关度越高,标签之间的连接关系越紧密。
其中,当相关度为语义相似度时,连接关系可以反应为标签之间的距离,相关度越高,连接关系越紧密,标签语义关系图中的标签之间的距离越短。在其它的实施例中,相关度为共生关系度时,或是共生关系度与语义相似度的加权数时,连接关系可以反应为标签之间的连接权重,相关度越高,则标签之间连接权重越大。如图3所示,初始标签包括:猪、猫、狗、公交车、旅游巴士、舞蹈,……,构建的标签语义关系图,以各标签的语义信息V为顶点,各顶点之间的连线表示初始标签之间相关度。
步骤206,确定相关标签对应的分类器参数。
如前面所提及的,初始标签的分类器参数可以是已预先训练好的。相关标签为初始标签,已预先训练好的初始标签的分类器参数存储在存储器中,通过根据相关标签的名称即可查找到对应的分类器参数。
步骤208,基于相关标签对应的分类器参数,得到待新增标签的分类器,待新增标签的分类器用于识别所输入的待识别内容是否属于待新增标签。
一个实施例中,若查找到的相关标签为其自身,则获取已训练的该标签的分类器参数,得到待新增标签的分类器参数。本实施例中,可预先训练常用标签的分类器参数,当需要对目标业务场景的初始标签集合新增待新增标签时,可直接获取待新增标签的分类器参数,提高了新增效率。
一个实施例中,若查找到的相关标签为相关度满足相关度条件的初始标签,则获取相关标签的分类器参数,以其作为待新增标签的初始参数,结合待新增标签的已有标签样本,对待新增标签的分类器进行训练,得到待新增标签的分类器。本实施例中,利用与待新增标签的相关标签的分类器参数,迁移到待新增标签,由于相关标签与待新增标签的相关度满足相关度条件,迁移到待新增标签时,也是比较可靠的,能得到比较可靠的待新增标签的分类器参数的映射关系,进而训练得到待新增标签的分类器参数。
待新增标签的分类器用于识别输入的待识别内容是否属于待新增标签,即用于标签分类。
上述的标签分类的处理方法,当需要新增标签时,获取待新增标签,基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签,基于相关标签对应的分类器参数,得到待新增标签的分类器参数。该方法通过利用预先基于多个初始标签及其相关度关系构建得到的标签语义关系图,在新增标签时,先确定与待新增标签相关的初始标签,然后基于该初始标签的分类器参数,即可得到可用于对待新增标签进行分类的分类器,当然为了得到性能更好的分类器,也只需要收集少量的待新增标签的数据进行训练即可,从而无需使用大量数据进行算法迭代,极大地节约数据收集和数据标注的成本,使得待新增标签的分类器的训练步骤减少,提高了训练效率。
在另一个实施例中,基于相关标签对应的分类器参数,得到待新增标签的分类器,包括:当相关标签包括待新增标签时,将相关标签对应的分类器参数作为待新增标签的分类器的分类器参数,得到待新增标签的分类器。
具体地,一种实施方式中,若标签语义关系图是基于全部初始标签构建的,则基于待新增标签的语义信息,在标签语义关系图中确定与待新增标签的相关度满足相关度条件的初始标签,即根据待新增标签的语义信息,在标签语义关系图中查找语义信息相关度满足相关度条件的初始标签,作为待新增标签的相关标签。在该实施方式中,包括两种情况,一种情况是,待新增标签在标签语义关系图中,查找到的相关标签包括了其自身。
若查找到的相关标签包括其自身,即相关标签包括待新增标签,则获取已训练的该标签的分类器参数,得到待新增标签的分类器参数。本实施例中,可预先常用标签的分类器参数,当需要对目标业务场景的初始标签集合新增待新增标签时,可直接获取待新增标签的分类器参数,提高了新增效率。
在另一个实施例中,基于相关标签对应的分类器参数,得到待新增标签的分类器,包括:当相关标签不包括待新增标签时,将相关标签对应的分类器参数作为待新增标签的分类器的分类器参数,基于标注有待新增标签的已有标注样本,对待新增标签的分类器进行训练,得到待新增标签的分类器。
具体地,当相关标签不包括待新增标签时,获取相关标签的分类器参数,以其作为待新增标签的初始参数,结合待新增标签的已有标签样本,对待新增标签的分类器进行训练,得到待新增标签的分类器。本实施例中,利用与待新增标签的相关标签的分类器参数,迁移到待新增标签,由于相关标签与待新增标签的相关度满足要求,迁移到待新增标签时,也是比较可靠的,能得到比较可靠的待新增标签的分类器的初始参数,进而训练得到待新增标签的分类器参数。
以相关标签为最相关标签为例,最相关标签为与待新增标签相关度最高的初始标签,获取最相关初始标签的语义信息。以图3所示的标签语义关系图为例,若待新增标签为猫,初始标签包括了猪和狗,从标签语义关系图获取到与标签猫相关度最高的初始标签为狗,则标签狗为标签猫的最相关初始标签,获取狗的语义信息。
其中,各初始标签的分类器参数是已预先训练得到。具体地,通过图卷积神经网络对初始标签的语义信息邻接关系图进行处理,得到从初始标签的语义信息与初始标签的分类器参数的映射关系,进而基于映射关系从标签特征学习分类器的参数。
本实施例中,只需要收集少量的待新增标签的训练样本。将相关标签对应的分类器参数作为待新增标签的分类器的分类器参数,基于标注有待新增标签的已有标注样本,对待新增标签的分类器进行训练,得到待新增标签的分类器。
初始标签的分类器参数是利用图卷积神经网络已经训练好的,在构建的标签语义关系图中,标识了各标间之间的相关度,根据相关度能够确定各标签间的相关程度。这就导致GCN学习到的,比较可靠的从最相关标签的分类器参数,迁移到待新增标签时,也是比较可靠的,能得到比较可靠的待新增标签的分类器参数,即将待新增标签的相关标签的分类器参数,作为待新增标签的分类器的分类器参数。
进而,可直接利用迁移的分类器参数,基于标注有待新增标签的已有标注样本,对待新增标签的分类器进行训练,得到待新增标签的分类器。构建待新增标签的分类器,以实现根据待新增标签的分类器,识别输入的待识别内容是否属于标签。
当多标签分类的目标业务场景下初始标签集发生变化需要进行扩展的时候,传统的策略只能针对新增的类别重新收集大量的数据进行标注。随着标签集的不断扩展,这种技术方案的数据收集和标注成本也会不断上升,增加了算法更新迭代的难度。本实施例的标签分类的处理方法,在扩展标签集时,由于可直接利用相关标签的分类器参数,作为待新增标签的分类器的初始参数,即初始参数是从待新增标签的相关标签的分类器参数迁移过来,具有了初始参数,可只需少量样本进行训练,无需使用大量数据进行算法迭代,极大地节约数据收集和数据标注的成本,使得待新增标签的分类器的训练步骤减少,提高了训练效率。
在一个实施例中,各初始标签间的相关度的确定方式,包括:针对多个初始标签中任意两个初始标签,获取两个初始标签间的语义相似度;根据两个初始标签间的语义相似度,确定两个初始标签间的相关度。
其中,语义相似度具体为初始标签的语义信息的相似程度。两个初始标签的语义信息vi、vj之间的余弦相似度,代表两个标签之间的语义相似程度。两个标签i,j越相似,那么两个类别之间语义信息(词向量)就越相似,那么相关度aij的取值也就越接近于1,代表这两个类别之间的联系关系越强。
在另一个实施例中,根据两个初始标签间的语义相似度,确定两个初始标签间的相关度,包括:当两个初始标签均有对应的已有标注样本时,获取两个初始标签间的共生关系度;基于两个初始标签间的语义相似度和两个初始标签间的共生关系度中的较大者,确定两个初始标签间的相关度。
具体地,标签之间的相关度可以从两个方面考量。一是两个标签的语义相似度,一个是两个标签的共生关系度。其中,初始标签的共生关系度可以是指两个初始标签均有对应的已有标注样本时,已有标注样本同时标注有这两个初始标签的概率,具体为一个已有标注样本(例如一个内容)在被标注为第i类的情况下,同时也被标注有第j类的概率。例如,在确定第i类和第j类这两个初始标签之间的共生关系度时,可获取这两个初始标签对应的所有已有标注样本,并从中确定同时标注有第j类和第j类的目标已有标注样本,将目标已有标注样本占这两个初始标签对应的所有已有标注样本的比例作为第i类和第j类这两个初始标签之间的共生关系度。
在一些实施例中,当两个初始标签均有对应的已有标注样本时,可以获取两个初始标签件的共生关系度,基于这两个初始标签间的语义相似度和共生关系度中的较大者,确定两个初始标签的相关度。
具体地,两个初始标签包括第一初始标签和第二初始标签,当两个初始标签均有对应的已有标注样本时,获取两个初始标签间的共生关系度,包括:在两个初始标签对应的已有标注样本集合中,确定同时标注有两个初始标签的目标已有标注样本;其中,两个初始标签对应的已有标注样本集合中至少包括标注有第一初始标签的已有标注样本以及标注有第二初始标签的已有标注样本;根据目标已有标注样本占已有标注样本集合中所有已有标注样本的比例,得到两个初始标签间的共生关系度。
具体地,两个初始标签对应的已有标注样本集合为包括有这两个初始标签的已有标签样本集合,可以为已训练有分类器参数的初始标签的已标签样本集合。
目标已有标注样本是已标注样本集合中同时标注有第一初始标签和第二初始标签的已有标注样本,即,目标已有标注样本同时被标注属于第一初始标签和第二初始标签。
根据目标已有标注样本占已有标注样本集合中所有已有标注样本的比例,得到两个初始标签间的共生关系度。例如,已有标注样本集合的样本数量为100,两个初始标签的目标已有标注样本数量为17个,则二者之间的共生关系度为17/100。共生关系度能够衡量两个标签在多标签分类中的共生程度,更好的体现多标签在内容上的相关性。若两个初始标签虽然不是非常相似,但是共生关系很强,总是在同一个内容中出现,这样的两个标签之间的关系也非常紧密。。
在实际应用时,常用标签集由于标签数量比较多,准备各初始标签的训练样本需要花费大量时间进行数据搜集和数据标注。而对于目标应用场景下的初始标签集合的初始标签来说,初始标签的训练样本是必须准备的,也就是对于共生关系度的计算而言,是无需刻意准备的。因此,为提高处理效率,可利用初始标签的训练样本,仅对初始标签计算共生关系度。具也就是说,本实施例中,只有在初始标签的训练样本集中,在同一个训练样本中同时出现的两个初始标签之间才具有共生关系。本实施例中,通过利用初始标签的训练样本计算初始标签之间的共生关系度,能够利用现有的训练样本的标注数据挖掘初始标签的关系,节约了数据处理时间和成本。
相关度为标签之间的相似度和共生关系度中的较大值。若标签之间不存在共生关系度,则以相似度作为相关度。相关度aij取相似度和共生关系度这两个值上取最大结果,取值范围在0~1之间。
在另一个实施例中,多个初始标签对应于至少一个业务场景,待新增标签属于至少一个业务场景中的目标业务场景,标签分类的处理方法还包括构建初始标签的分类器的步骤,可以理解的是,构建初始标签的分类器的步骤,可以是预先处理得到的,也可以是确定相关标签对应的分类器参数时确定的。如图4所示,该步骤包括:
步骤402,获取目标业务场景下的初始标签集合对应的目标已有标注样本集合;其中,目标已有标注样本集合包括目标已有标注样本,目标已有标注样本标注有目标业务场景下的初始标签集合中的初始标签。
具体地,目标已有标注样本为初始标签对应的标注样本,可以理解的是,对于目标业务场景下的初始标签集合中的各初始标签而言,不同的初始标签对应不同的目标已有标注样本。各初始标签的已有标注样本构成了目标已有标注样本集合。
步骤404,针对目标业务场景下的目标初始标签,通过图网络基于标签语义关系图确定目标初始标签的分类器参数;其中,目标初始标签为目标业务场景下的初始标签集合中的一个初始标签。
目标初始标签,为目标业务场景下的初始标签集合中的一个初始标签,本实施例的目的是为目标初始标签训练分类器。具体地,利用图网络基于标签语义关系图确定目标初始标签的分类器参数。
图卷积神经网络(Graph Convolutional Network),简称GCN。标签语义关系图的每个节点为初始标签的语义信息,GCN直接将语义信息映射到一组互相依赖的分类器上,这些分类器进一步又可直接应用于对待识别内容的分类。
具体地,预先通过利用图卷积神经网络,学习一个从标签的语义信息vi到分类器参数的映射关系:
wi=GCN(vi)
具体地,通过图网络基于标签语义关系图确定目标初始标签的分类器参数,包括:通过所述图网络,基于标签语义关系图中目标初始标签与邻接初始标签的相关度,更新目标初始标签的节点特征,根据目标初始标签的节点特征,得到目标初始标签的分类器参数;其中,标签语义关系图以多个初始标签的语义信息为节点,以各初始标签间的相关度为连接关系构建;其中,邻接初始标签为与所述目标初始标签存在连接关系的初始标签。
具体地,标签语义关系图是一个图结构(Graph),语义关系图的表达为G={V,A}。其中V={v0,v1,…,vC-1}代表C个顶点,每个顶点对应着一个标签的类别表达。A={a00,a01,…,a(c-1)(c-1)}是标签语义关系图的连接矩阵,代表C个顶点之间的连接关系。其中,连接关系与标签之间的相关度相关。
基于图网络对目标初始标签的分类器进行训练时,可基于标签语义关系图获取目标初始标签的邻接关系图,基于目标初始标签的语义邻接关系图进行训练,以提高训练效率。
其中,基于一个初始标签的邻接关系图可确定包括该初始标签的语义信息、与该初始标签的语义信息邻接的其它标签的语义信息,以及该初始标签与邻接的其他标签之间的相关度。基于标签语义关系图可确定与一个标签具有连接关系的其他标签的语义信息。例如,图3中的猪的语义信息与狗的语义信息之间存在连接关系。根据初始标签的语义信息的连接关系,能够在标签语义关系图中获取与初始标签的语义信息邻接的其它标签的语义信息。
在一种实施方式中,一个初始标签的邻接关系图是由标签语义关系图中以初始标签的语义信息为中心点,与初始标签的语义信息存在邻接关系的其它标签(可记为该初始标签的邻接标签或邻接节点)所组成的。其中,可根据需要只提取一个邻接层级,也可以提取更多的邻接层级得到邻接关系图。其中,在邻接关系图提取时,可只考虑相关度大于阈值的邻接节点。以阈值为0.6为例,以初始标签为猫为例,在标签语义关系图中,只提取相关度与猫的语义信息大于0.6的邻接标签,若一个邻接标签与猫的语义信息的相关度为0.5,则不会出现在猫的邻接关系图中。
通过图网络基于标签关系图进行训练时,每个GCN节点的最终输出都被设计成与标签相关的分类器。通过一个基于GCN的映射函数从标签特征学习分类器,其中每个GCN层I的输入都取前一层的节点特征作为输入,然后输出新的节点特征。第一层的输入是初始标签的语义信息,矩阵最后一层的输出是分类器。
使用GCN的好处在于,GCN在进行前向传播时,会融合初始标签的语义信息邻接关系图中一个节点以及其相邻节点的信息,信息融合的程度依赖于连接矩阵中两个节点之间连接关系aij的大小,如果连接关系较大,考虑这一相邻节点的信息程度就越大,反之,就几乎不考虑这一相邻节点的信息。这样的策略符合人类的认知直觉,对于识别任务来讲,能够考虑更多相似类别的特征,即每个GCN层I的输入都取前一层的节点特征作为输入,然后输出新的节点特征。GCN的目标是学习一个图G的函数。该函数的输入是特征描述和相关系数矩阵,从而把节点特征根据特征描述和相关系数矩阵更新。
步骤406,基于目标已有标注样本以及目标初始标签的分类器参数,得到目标已有标注样本的预测标签。
其中,目标已有标注样本可以为仅仅标注有目标初始标签的样本,也可以是全部目标已有标注样本。
具体地,如图5所示,在得到映射关系wi和目标已有标注样本的特征x之后,分类得分可以通过分类器参数和样本特征的内积得到:
Figure BDA0003042531200000161
然后使用sigmoid函数可以得到样本属于第c个标签的概率:
Figure BDA0003042531200000162
将概率最大的标签作为已有标注样本的预测标签。
步骤408,基于目标已有标注样本的预测标签和目标初始标签之间的差异,训练图网络,以调整目标初始标签的分类器参数。
在得到已有标注样本的预测标签,在训练阶段就可以使用标准的交叉墒损失函数进行模型训练,具体地根据预测标签与标注标签之间的差异进行反向传播,调整目标初始标签的分类器参数。
步骤410,基于调整后的目标初始标签的分类器参数,确定目标初始标签的分类器参数。
具体地,在迭代训练结束后,基于调整后的目标初始标签的分类器参数,确定目标初始标签的分类器参数。
上述的标签分类方法,通过学习分类器参数与标签的语义信息的映射关系,利用这种映射关系,根据初始标签的样本数据进行训练,所得到的分类器考虑了标签的语义信息。而映射关系是通过图卷积网络对标签语义关系图进行处理得到,能够融合标签及邻接标签的语义信息,使最终得到的分类器考虑了标签语义相近的其它标签的语义信息。利用该方法可得到多个标签的分类器,从而每个标签的分类器都考虑了标签语义相近的其它标签的语义信息,使得各个标签的分类器都考虑了其它相似标签的语义特征,在对内容进行多标签分类时,能够较好的体现多个标签在内容上的相关性,从而提高多标签分类的准确度。
在另一个实施例中,多个初始标签对应于至少一个业务场景,待新增标签属于至少一个业务场景中的目标业务场景,基于已构建的语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签,包括:基于已构建的语义关系图,从目标业务场景下的初始标签集合中,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,当相关标签不包括待新增标签时,基于相关标签对应的分类器参数,得到待新增标签的分类器之后,方法还包括:将待新增标签作为目标业务场景下的一个初始标签,更新目标业务场景下的初始标签集合,以使得更新后的目标业务场景下的初始标签集合包括待新增标签。
具体地,在得到待新增标签的分类器后,待新增标签作为目标业务场景下初始标签集合的扩展标签,更新初始标签集合中的初始标签,进而更新目标业务场景下的初始标签集合。也就是说,更新的初始标签集合包括了待新增标签和初始标签,通过该步骤,实现初始标签集合的更新。
在另一个实施例中,标签分类的处理方法还包括:获取目标业务场景下的待识别内容;基于目标业务场景下的初始标签集合中各初始标签的分类器,识别待识别内容是否属于目标业务场景下的初始标签集合中各初始标签,得到待识别内容的多标签分类结果。
具体地,根据目标业务场景下的初始标签集合的分类器,识别所输入的待识别内容是否属于目标业务场景下的初始标签集合的各初始标签,得到待识别内容的多标签分类结果。
其中,待识别内容的特征向量可利用预先训练的特征提取模型进行提取。不同的待识别内容类型,所适用的特征提取模型不同。例如文字类型的待识别内容,常见的特征提取模型为LSTM等。图片类型的待识别内容,常见的特征提取模型为CNN等。对于视频类型的待识别内容,常见的特征抽取网络有TSN、TSM、SlowFast等。以待识别内容为视频为例,获取待识别内容的特征向量,包括:获取视频,将视频分为N段,从每段中随机抽取一帧图片,组合得到视频序列;利用预先训练好的特征提取网络,提取视频序列的视频特征。
具体地,终端上传的是一段视频。视频的长度是不固定的,为了方便后续模型处理,将视频序列平均分成N段,然后从每一段中随机抽取一帧图片,组合起来就得到了一个固定的长度为N的视频序列。
之后使用特征抽取网络抽取视频序列的特征,特征抽取网络本身的结构没有限制,只要可以实现对于视频时空信息的有效抽取即可。对于视频序列,假设抽取得到的特征为x∈RD,D代表视频特征的维度,根据特征抽取网络的不同,D的具体取值也有区别。
然后,根据待识别内容的特征向量x与分类器参数wi得到待识别内容在该标签的得分。具体地,得分可以通过训练好的计算分类器参数和待识别内容特征的内积得到:
Figure BDA0003042531200000181
然后使用sigmoid函数可以得到内容属于第c个标签的概率:
Figure BDA0003042531200000182
根据概率值的大小,确定待识别内容具体所属的标签。根据待识别内容属于应用标签集中各标签的概率值,得到对象的多标签分类结果,从而实现对内容的多标签分类。
本申请的标签分类的处理方法,优势在于可扩展性。在标签集扩展之时,只需要收集少量的新类别的数据同时只利用这部分新类别数据,就可以得到性能良好的分类器,避免了大量的数据收集、标注以及重新训练的过程。
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种标签分类的处理装置600,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
待新增标签获取模块602,用于获取待新增标签。
相关标签获取模块604,用于基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的。
参数确定模块606,用于确定所述相关标签对应的分类器参数。
分类器获取模块608,用于基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
上述标签分类的处理装置,当需要新增标签时,获取待新增标签,基于已构建的标签语义关系图,确定与待新增标签的相关度满足相关度条件的初始标签作为相关标签,基于相关标签对应的分类器参数,得到待新增标签的分类器参数。该方法通过利用预先基于多个初始标签及其相关度关系构建得到的标签语义关系图,在新增标签时,先确定与待新增标签相关的初始标签,然后基于该初始标签的分类器参数,即可得到可用于对待新增标签进行分类的分类器,当然为了得到性能更好的分类器,也只需要收集少量的待新增标签的数据进行训练即可,从而无需使用大量数据进行算法迭代,极大地节约数据收集和数据标注的成本,使得待新增标签的分类器的训练步骤减少,提高了训练效率。
在另一个实施例中,分类器获取模块,用于当所述相关标签不包括所述待新增标签时,将所述相关标签对应的分类器参数作为所述待新增标签的分类器的分类器参数,基于标注有所述待新增标签的已有标注样本,对所述待新增标签的分类器进行训练,得到所述待新增标签的分类器。
在另一个实施例中,标签分类的处理装置,还包括:
相似度获取模块,用于针对所述多个初始标签中任意两个初始标签,获取所述两个初始标签间的语义相似度。
相关度获取模块,根据所述两个初始标签间的语义相似度,确定所述两个初始标签间的相关度。
其中,相关度获取模块,用于当所述两个初始标签均有对应的已有标注样本时,获取所述两个初始标签间的共生关系度;基于所述两个初始标签间的语义相似度和所述两个初始标签间的共生关系度中的较大者,确定所述两个初始标签间的相关度。
其中,两个初始标签包括第一初始标签和第二初始标签,在所述两个初始标签对应的已有标注样本集合中,确定同时标注有所述两个初始标签的目标已有标注样本;其中,所述两个初始标签对应的已有标注样本集合中至少包括标注有所述第一初始标签的已有标注样本以及标注有所述第二初始标签的已有标注样本;根据所述目标已有标注样本占所述已有标注样本集合中所有已有标注样本的比例,得到所述两个初始标签间的共生关系度。
在另一个实施例中,多个初始标签对应于至少一个业务场景,标签分类的处理装置,还包括:
样本获取模块,用于获取目标业务场景下的初始标签集合对应的目标已有标注样本集合;其中,所述目标已有标注样本集合包括目标已有标注样本,所述目标已有标注样本标注有所述目标业务场景下的初始标签集合中的初始标签。
训练模块,用于针对所述目标业务场景下的目标初始标签,通过图网络基于所述标签语义关系图确定所述目标初始标签的分类器参数;其中,所述目标初始标签为所述目标业务场景下的初始标签集合中的一个初始标签;
预测模块,用于基于所述目标已有标注样本以及所述目标初始标签的分类器参数,得到所述目标已有标注样本的预测标签;
调整模块,用于基于所述目标已有标注样本的预测标签和所述目标初始标签之间的差异,训练所述图网络,以调整所述目标初始标签的分类器参数;
分类器确定模块,用于基于调整后的所述目标初始标签的分类器参数,确定所述目标初始标签的分类器参数。
在另一个实施例中,训练模块,用于基于所述标签语义关系图中所述目标初始标签与邻接标签的相关度,更新所述目标初始标签的节点特征,根据所述目标初始标签的节点特征,得到所述目标初始标签的分类器参数;所述标签语义关系图以多个初始标签的语义信息为节点,以各初始标签间的相关度为连接关系构建;所述邻接初始标签为与所述目标初始标签存在连接关系的初始标签。
在另一个实施例中,所述多个初始标签对应于至少一个业务场景,相关标签获取模块,用于基于已构建的语义关系图,从所述目标业务场景下的初始标签集合中,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,
还包括更新模块,用于将所述待新增标签作为所述目标业务场景下的一个初始标签,更新所述目标业务场景下的初始标签集合,以使得更新后的所述目标业务场景下的初始标签集合包括所述待新增标签。
在另一个实施例中,标签分类的处理装置,还包括:
内容获取模块,用于获取所述目标业务场景下的待识别内容;
分类模块,用于基于所述目标业务场景下的初始标签集合中各初始标签的分类器,识别所述待识别内容是否属于所述目标业务场景下的初始标签集合中各初始标签,得到所述待识别内容的多标签分类结果。
关于标签分类的处理装置的具体限定可以参见上文中对于标签分类的处理方法的限定,在此不再赘述。上述标签分类的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备700包括通过系统总线连接的处理器702、存储器和网络接口704。其中,该计算机设备700的处理器702用于提供计算和控制能力。该计算机设备700的存储器包括非易失性存储介质706、内存储器708。该非易失性存储介质706存储有操作系统、计算机程序和数据库。该内存储器708为非易失性存储介质706中的操作系统和计算机程序的运行提供环境。该计算机设备700的数据库用于存储标签数据。该计算机设备700的网络接口704用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标签分类的处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。该计算机设备可以为图7所示的计算机设备。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种标签分类的处理方法,其特征在于,所述方法包括:
获取待新增标签;
基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
确定所述相关标签对应的分类器参数;
基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,包括:
当所述相关标签不包括所述待新增标签时,将所述相关标签对应的分类器参数作为所述待新增标签的分类器的分类器参数,基于标注有所述待新增标签的已有标注样本,对所述待新增标签的分类器进行训练,得到所述待新增标签的分类器。
3.根据权利要求2所述的方法,其特征在于,所述各初始标签间的相关度的确定方式,包括:
针对所述多个初始标签中任意两个初始标签,获取所述两个初始标签间的语义相似度;
根据所述两个初始标签间的语义相似度,确定所述两个初始标签间的相关度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述两个初始标签间的语义相似度,确定所述两个初始标签间的相关度,包括:
当所述两个初始标签均有对应的已有标注样本时,获取所述两个初始标签间的共生关系度;
基于所述两个初始标签间的语义相似度和所述两个初始标签间的共生关系度中的较大者,确定所述两个初始标签间的相关度。
5.根据权利要求3所述的方法,其特征在于,所述两个初始标签包括第一初始标签和第二初始标签,所述当所述两个初始标签均有对应的已有标注样本时,获取所述两个初始标签间的共生关系度,包括:
在所述两个初始标签对应的已有标注样本集合中,确定同时标注有所述两个初始标签的目标已有标注样本;其中,所述两个初始标签对应的已有标注样本集合中至少包括标注有所述第一初始标签的已有标注样本以及标注有所述第二初始标签的已有标注样本;
根据所述目标已有标注样本占所述已有标注样本集合中所有已有标注样本的比例,得到所述两个初始标签间的共生关系度。
6.根据权利要求1所述的方法,其特征在于,所述多个初始标签对应于至少一个业务场景,所述待新增标签属于所述至少一个业务场景中的目标业务场景,所述确定所述相关标签对应的分类器参数之前,所述方法还包括:
获取目标业务场景下的初始标签集合对应的目标已有标注样本集合;其中,所述目标已有标注样本集合包括目标已有标注样本,所述目标已有标注样本标注有所述目标业务场景下的初始标签集合中的初始标签;
针对所述目标业务场景下的目标初始标签,通过图网络基于所述标签语义关系图确定所述目标初始标签的分类器参数;其中,所述目标初始标签为所述目标业务场景下的初始标签集合中的一个初始标签;
基于所述目标已有标注样本以及所述目标初始标签的分类器参数,得到所述目标已有标注样本的预测标签;
基于所述目标已有标注样本的预测标签和所述目标初始标签之间的差异,训练所述图网络,以调整所述目标初始标签的分类器参数;
基于调整后的所述目标初始标签的分类器参数,确定所述目标初始标签的分类器参数。
7.根据权利要求6所述的方法,其特征在于,通过图网络基于所述标签语义关系图确定所述目标初始标签的分类器参数,包括:
通过所述图网络,基于所述标签语义关系图中所述目标初始标签与邻接标签的相关度,更新所述目标初始标签的节点特征,根据所述目标初始标签的节点特征,得到所述目标初始标签的分类器参数;所述标签语义关系图以多个初始标签的语义信息为节点,以各初始标签间的相关度为连接关系构建;所述邻接初始标签为与所述目标初始标签存在连接关系的初始标签。
8.根据权利要求1或2所述的方法,其特征在于,所述多个初始标签对应于至少一个业务场景,所述待新增标签属于所述至少一个业务场景中的目标业务场景,所述基于已构建的语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签,包括:
基于已构建的语义关系图,从所述目标业务场景下的初始标签集合中,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,
当所述相关标签不包括所述待新增标签时,所述基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器之后,所述方法还包括:
将所述待新增标签作为所述目标业务场景下的一个初始标签,更新所述目标业务场景下的初始标签集合,以使得更新后的所述目标业务场景下的初始标签集合包括所述待新增标签。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述目标业务场景下的待识别内容;
基于所述目标业务场景下的初始标签集合中各初始标签的分类器,识别所述待识别内容是否属于所述目标业务场景下的初始标签集合中各初始标签,得到所述待识别内容的多标签分类结果。
10.一种标签分类的处理装置,其特征在于,包括:
待新增标签获取模块,用于获取待新增标签;
相关标签获取模块,用于基于已构建的标签语义关系图,确定与所述待新增标签的相关度满足相关度条件的初始标签作为相关标签;其中,所述标签语义关系图是基于多个初始标签以及所述多个初始标签间的相关度构建得到的;
参数确定模块,用于确定所述相关标签对应的分类器参数;
分类器获取模块,用于基于所述相关标签对应的分类器参数,得到所述待新增标签的分类器,所述待新增标签的分类器用于识别所输入的待识别内容是否属于所述待新增标签。
CN202110461702.XA 2021-04-27 2021-04-27 标签分类的处理方法和装置 Pending CN113761291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110461702.XA CN113761291A (zh) 2021-04-27 2021-04-27 标签分类的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110461702.XA CN113761291A (zh) 2021-04-27 2021-04-27 标签分类的处理方法和装置

Publications (1)

Publication Number Publication Date
CN113761291A true CN113761291A (zh) 2021-12-07

Family

ID=78786906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110461702.XA Pending CN113761291A (zh) 2021-04-27 2021-04-27 标签分类的处理方法和装置

Country Status (1)

Country Link
CN (1) CN113761291A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN116665676A (zh) * 2023-07-31 2023-08-29 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN116665676A (zh) * 2023-07-31 2023-08-29 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法
CN116665676B (zh) * 2023-07-31 2023-09-22 枣庄福缘网络科技有限公司 一种用于智能语音外呼系统的语义识别方法

Similar Documents

Publication Publication Date Title
CN105210064B (zh) 使用深度网络将资源分类
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
Liu et al. Label to region by bi-layer sparsity priors
Li et al. Semi-supervised clustering with deep metric learning and graph embedding
RU2711125C2 (ru) Система и способ формирования обучающего набора для алгоритма машинного обучения
CN111914156A (zh) 自适应标签感知的图卷积网络跨模态检索方法、系统
US20170344822A1 (en) Semantic representation of the content of an image
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
Anitha et al. A framework to reduce category proliferation in fuzzy ARTMAP classifiers adopted for image retrieval using differential evolution algorithm
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112990378B (zh) 基于人工智能的场景识别方法、装置及电子设备
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
Tran A survey of machine learning and data mining techniques used in multimedia system
CN113761291A (zh) 标签分类的处理方法和装置
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
CN113704534A (zh) 图像处理方法、装置及计算机设备
Maihami et al. A genetic-based prototyping for automatic image annotation
Du et al. A general fine-grained truth discovery approach for crowdsourced data aggregation
CN111091198B (zh) 一种数据处理方法及装置
CN114548242A (zh) 用户标签识别方法、装置、电子设备和计算机可读存储介质
Yan et al. Unsupervised deep clustering for fashion images
Xie et al. Markov random field based fusion for supervised and semi-supervised multi-modal image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination