CN111831826B - 跨领域的文本分类模型的训练方法、分类方法以及装置 - Google Patents

跨领域的文本分类模型的训练方法、分类方法以及装置 Download PDF

Info

Publication number
CN111831826B
CN111831826B CN202010724195.XA CN202010724195A CN111831826B CN 111831826 B CN111831826 B CN 111831826B CN 202010724195 A CN202010724195 A CN 202010724195A CN 111831826 B CN111831826 B CN 111831826B
Authority
CN
China
Prior art keywords
text
sample
class
determining
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010724195.XA
Other languages
English (en)
Other versions
CN111831826A (zh
Inventor
曹禹
赵瑞辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010724195.XA priority Critical patent/CN111831826B/zh
Publication of CN111831826A publication Critical patent/CN111831826A/zh
Application granted granted Critical
Publication of CN111831826B publication Critical patent/CN111831826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种跨领域的文本分类模型的训练方法、分类方法以及装置,可适用于人工智能以及大数据等领域。该方法包括:获取训练数据;确定各第二文本样本对应的初始类别标签;根据各第一文本样本的样本类别和预测类别,确定分类损失值;根据文本样本确定类内差异损失值和类间差异损失值;根据分类损失值、类内差异损失值以及类间差异损失值,确定总损失值;根据总损失值对模型进行迭代训练,直至总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型。采用本申请实施例,可提升跨领域的文本分类的准确性,适用性高。

Description

跨领域的文本分类模型的训练方法、分类方法以及装置
技术领域
本申请涉及人工智能领域,尤其涉及跨领域的文本分类模型的训练方法、分类方法以及装置。
背景技术
随着人工智能的不断发展,在很多场景下都涉及到文本分类。如对于对用户输入的文本语句进行情感分类,基于文本类型对文本归类等。随着机器学习的发展,通过训练分类模型可使机器准确对文本进行分类,极大提升了信息处理效率。
目前的分类模型大多数只针对一个领域内的文本进行分类,部分分类模型虽然可实现跨领域的文本分类,但是由于在训练过程中不同类别之间的决策边界并不明显,因而导致了跨领域的文本分类的准确度有限。
因此,如何提升跨领域的文本分类的准确性成为亟需解决的问题。
发明内容
本申请实施例提供一种跨领域的文本分类模型的训练方法、分类方法以及装置,可提升跨领域的文本分类的准确性,适用性高。
第一方面,本申请实施例提供一种跨领域的文本分类模型的训练方法,该方法包括:
获取训练数据,所述训练数据包括第一训练集和第二训练集,其中,所述第一训练集中的各第一文本样本标注有样本标签,所述样本标签表征了所述第一文本样本的样本类别,所述第一训练集和所述第二训练集为不同领域的训练集;
确定所述第二训练集中的各第二文本样本对应的初始类别标签;
将所述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各所述第一文本样本的样本类别和预测类别,确定分类损失值;
根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;
根据所述分类损失值、所述类内差异损失值以及所述类间差异损失值,确定总损失值;
根据所述总损失值对模型进行迭代训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
其中,对于每次训练,若所述总损失值不满足所述训练结束条件,则根据各所述第二文本样本、以及各所述第二文本样本对应的预测类别,更新各所述第二文本样本对应的类别标签得到新的类别标签,以用于下一次训练。
第二方面,本申请实施例提供了一种分类方法,该方法包括:
获取待处理文本,上述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
将上述待处理文本输入至跨领域的文本分类模型中,根据上述跨领域的文本分类模型的输出确定上述待处理文本的分类类别;
其中,上述跨领域的文本分类模型是基于上述第一领域的第一训练集和上述第二领域的第二训练集,通过第一方面所示的跨领域的文本分类模型的训练方法训练得到的。
第三方面,本申请实施例提供了一种跨领域的文本分类模型的训练装置,该训练装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括第一训练集和第二训练集,其中,所述第一训练集中的各第一文本样本标注有样本标签,所述样本标签表征了所述第一文本样本的样本类别,所述第一训练集和所述第二训练集为不同领域的训练集;
标签确定模块,用于确定所述第二训练集中的各第二文本样本对应的初始类别标签;
损失确定模块,用于将所述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各所述第一文本样本的样本类别和预测类别,确定分类损失值;
所述损失确定模块,用于根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;
所述损失确定模块,用于根据所述分类损失值、所述类内差异损失值以及所述类间差异损失值,确定总损失值;
模型训练模块,用于根据所述总损失值对模型进行迭代训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
标签更新模块,用于对于每次训练,若所述总损失值不满足所述训练结束条件,则根据各所述第二文本样本、以及各所述第二文本样本对应的预测类别,更新各所述第二文本样本对应的类别标签得到新的类别标签,以用于下一次训练。
第四方面,本申请实施例提供了一种分类装置,该装置包括:
文本获取模块,用于获取待处理文本,所述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
文本分类模块,用于将所述待处理文本输入至跨领域的文本分类模型中,根据所述跨领域的文本分类模型的输出确定所述待处理文本的分类类别;
其中,所述跨领域的文本分类模型是基于所述第一领域的第一训练集和所述第二领域的第二训练集,通过第一方面所示的跨领域的文本分类模型的训练方法训练得到的。
第五方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行上述第一方面或第二方面任一可选实施方式所提供的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述第一方面和/或第二方面任一种可能的实施方式所提供的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面和/或第二方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过在包含标注有样本标签的第一训练集和不带标注的第二训练集对初始文本分类模型进行训练,可在一个领域的第一训练集的基础上学习对另一个领域的第二训练集中各文本样本的分类。并且基于同类别(包括同领域和不同领域的同类别)的文本样本之间的类内差异损失值,可使得同类别的文本样本之间的差异最小化。通过不同类别的文本样本之间的类间差异损失值,可使得不同类别的文本样本之间的差异最大化,从而降低不同类别的文本样本之间的相互影响,提升跨领域的文本分类的准确性。进一步的,通过确定第一训练集中各第一文本样本的样本类别和预测类别之间的分类损失值,可进而基于有分类损失值、类间差异损失值以及类内差异损失值确定的总损失值不断对模型参数进行更新训练,得到分类准确性高的跨领域的文本分类模型。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的跨领域的文本分类模型的训练方法的原理示意图;
图1b是本申请实施例提供的跨领域的文本分类模型的训练方法的场景示意图;
图2是本申请实施例提供的跨领域的文本分类模型的训练方法的流程示意图;
图3是本申请实施例提供的跨领域的文本分类场景对比示意图;
图4是本申请实施例提供的跨领域的文本分类模型的训练装置的结构示意图;
图5是本申请实施例提供的分类装置的结构示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的跨领域的文本分类模型的训练方法可适用于人工智能(Artificial Intelligence,,AI)的机器学习(Machine Learning,,ML)领域,以及云技术中的云计算、人工智能云服务领域,可训练得到可跨领域对文本进行分类的跨领域的文本分类模型。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
机器学习(Machine Learning,ML)是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。在本申请实施例中,通过本实施例提供的跨领域的文本分类模型的训练方法可使得机器具备跨领域的文本分类的能力,如对文本进行情感分类,对文本进行语言类型分类等等。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。本申请实施例所提供的跨领域的文本分类模型的训练方法可基于云技术中的云计算(cloud computing)实现。
云计算是指通过网络以按需、易扩展的方式获得所需资源,是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,AI即服务)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的人工智能服务进行拆分,并在云端提供独立或者打包的服务,如跨领域的智能文本分类服务、基于情感理解的人机交互服务等。
请参见图1a,图1a是本申请实施例提供的跨领域的文本分类模型的训练方法的原理示意图。跨领域的文本分类模型50的训练可采用多领域对应的训练集进行,图1a中的训练数据10包括第一训练集101和第二训练集102。其中,第一训练集101为一个领域内的文本样本的集合,第二训练集为另一个领域内的文本样本的集合。并且,第一训练集101中的文本样本均标注有用于表征其样本类别的样本标签,第二训练集102中的文本样本未进行标注。通过训练数据10对初始文本分类模型20进行训练得到模型输出的预测类别30,即第一训练集101的各文本样本对应预测类别301,以及第二训练集102的各文本样本对应预测类别302,基于模型的总损失值和训练数据10对模型进行不断的迭代训练,从而得到跨领域的文本分类模型50。
其中,上述训练过程为重复迭代训练的过程,当模型对应的总损失值40符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型50。
其中,上述跨领域的文本分类模型50所对应的分类类别的种类本申请实施例不做限定,可以是根据实际需求配置的,如可以是粗粒度的分类类别,也可以是细粒度的分类类别。
可选的,上述跨领域的文本分类模型50可以是情感分类模型,即该模型可以是进行情感分析的模型,相应的,情感分类模型对应的分类类别可以是消极和积极两种分类类别,也可以是褒义、中性和贬义等多种分类类别。
其中,情感分析是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。基于本申请实施例所提供的方法,能够得到跨领域情感分类模型50,通过该模型可以实现跨领域情感分析,即在已标记样本标签的第一训练集101的基础之上,推断未进行任何标注的第二训练集102中各文本样本的情感类别。
结合图1b进一步对图1a所示的训练方法的原理示意图进行说明,图1b是本申请实施例提供的跨领域的文本分类模型的训练方法的场景示意图。其中,该应用场景中的文本分类模型为文本的情感分类模型,即模型的分类类别为文本的情感类别。本示例中,以情感分类模型的分类类别包括积极情感和消极情感两大类。
如图1b中所示,图1b中存在第一训练集和第二训练集,第一训练集中的各文本样本为针对APP(应用程序)的用户评论语句,即第一训练集为应用程序领域的文本集,如文本样本A“APP卡死了”,文本样本E“这款APP的界面设计很不错”等等。第二训练集中的各文本样本为金融新闻领域的多个评论语句,如文本样本R“今天牛市,行情看涨”等等。
第一训练集中的各文本样本均标注有样本标签,以表征第一训练集中各文本样本的情感为积极情感或者消极情感。例如,文本样本B“这款APP乱收费”对应的样本标签表征的情感为消极情感,文本样本E“这款APP的界面设计很不错”对应的样本标签表征的情感为积极情感,也就是说,第一训练集中各文本样本的真实分类标签是已知的。而第二训练集中的所有文本样本均未进行标注。
基于本申请实施例所提供的方案,在基于第一训练集和第二训练集进行初始文本分类模型的训练时,可以首先基于第一训练数据集中的各文本样本以及各文本样本的样本标签来确定第二训练集中各文本样本的一个初始类别标签(具体实现方式会将下文的方案展开描述中进行说明,在此不再描述)。此时,第二训练集中的每个文本样本都会具有了一个初始类别标签,同样的,第二训练集中一个文本样本的类别标签(初始类别标签或者后文中的更新后的类别标签)表征了该文本样本的情感分类是积极情感还是消极情感。
基于第一训练集和第二训练集对初始文本分类模型进行迭代训练,直至模型的损失函数满足预设的训练结束条件,得到跨领域的文本情感分类模型。
具体的,在对上述文本分类模型(进行每一次的训练时,将第一训练集和第二训练集中的各文本样本输入至模型中,基于模型的输出得到各文本样本的预测情感类别。如图1b中所示的文本样本A的预测类别为消极情感,文本样本R的预测类别为积极情感。
对于第一训练集,由于其各文本样本是具有真实情感类别标签(即样本标签)的,因此,可以根据第一训练集中各文本样本的真实情感类别标签和预测情感类别计算模型的分类损失值。
为了使最终得到的跨领域的文本分类模型具有更好的泛化能力和分类的准确度,以实现跨领域的文本的准确情感分类,本申请提供的方法中,对于每次训练,还会计算模型对应的类内差异损失值和类间差异损失值,通过类内差异损失最小化以拉近类内样本的特征表示,而通过类间差异损失最大化以将拉大不同类别的样本的特征表示。通过分类损失值、类内差异损失值和类间差异损失值对模型进行训练,以保证了模型的分类准确性的前提下,使模型具有了更好的泛化能力,能够进行跨领域的文本的情感分类。
对于类内差异损失,可以包括同一领域的相同情感类别的文本样本之间的差异损失、以及不同领域的同类别的情感类别的文本样本之间的差异损失。具体的,通过计算上述应用程序领域的第一训练集中的同一类别(根据样本标签确定)的各文本样本之间的第一差异、上述金融新闻领域的第二训练集中同类别(根据类别标签确定)的各文本样本之间的第二差异、以及第一训练集和第二训练集之间的同类别文本样本间的第三差异,得到类内差异损失。如图1b中所示的第一训练集中的文本样本A和文本样本B之间的差异属于第一差异,文本样本A和第二训练集中类别标签同为消极情感的文本样本之间的差异属于第三差异。
同样的,可以计算类间差异损失,包括第一训练集中不同类别(根据样本标签确定)的各文本样本之间的第四差异、第二训练集中不同类别(根据类别标签确定)的各文本样本之间的第五差异、以及第一训练集和第二训练集之间的不同类别文本样本间的第六差异,得到类间差异损失。如图1b中所示的第一训练集中的文本样本A和文本样本E之间的差异属于第四差异,文本样本A和第二训练集中类别标签为积极情感的文本样本之间的差异属于第六差异。
对于每次训练,通过上述分类损失值、类内差异损失值和类间差异损失值得到模型的总损失值,如果该值满足训练结束条件,则将此时的分类模型可以作为跨领域的情感分类模型,如果不满足训练结束条件,则对模型的参数(权重、偏置)进行调整,并将上述各文本样输入至参数调整后的模型中,进行下一次训练。
其中,由于第二训练集中各样本的类别标签是相对不准确的,对于每次训练,可以此次训练时模型输出的第二训练集中各文本样本的预测类别对其类别标签进行更新(具体的可选方案详见后文中的描述)。
通过上述方案,可以得到具有很好的泛化能力的跨领域的情感分类模型,通过该跨领域的情感文本分类模型,可以准确的预测出金融新闻领域和针对应用程序的评论信息是积极情感还是消极情感。
请一并参见图2,图2是本申请实施例提供的跨领域的文本分类模型的训练方法的流程示意图,该方法可以由任一电子设备或者服务器执行。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
如图2所示,本申请实施例提供的跨领域的文本分类模型的训练方法可包括如下步骤:
步骤S1、获取训练数据。
在一些可行的实施方式中,训练数据包括多个训练集,每个训练集包括不同领域的文本样本。其中,上述领域包括但不限于金融领域、电子领域等行业领域,以及社交领域、学术领域等范围限定,具体领域的划分和选取可基于实际应用场景确定,在此不做限制。
为方便描述,本申请实施例中的训练数据包括第一训练集和第二训练集,其中,第一训练集中的文本样本称为第一文本样本,第二训练集中的文本样本称为第二文本样本。
对于第一训练集和第二训练集中的任一训练集,可获取某一领域中的各种类别的文本作为文本样本,如某一领域中用于表示积极情感、消极情感以及中性情感(无情感表示)等情感类别的文本。具体如购物网站中的积极评论、消极评论等,以及新闻文章中的批判新闻以及表扬文本等。。
进一步的,对于第一训练集,该第一训练集中的每个第一文本样本均标注有样本标签。其中,每个样本标签用于表征与其相对应的第一文本样本的样本类别。其中,第一文本样本的样本标签的标注方式本申请实施例不做限定,如可以是人工标注的。可选的,第一训练集可以是现有的带有标注的训练数据集,如分类模型为情感分类模型,第一训练集则可以是现有的某一领域带有标注的情感分类领域的训练数据集。第二训练集中的各第二文本样本是另一个领域的没有标注的样本。
为了描述方便,在下文的描述中,将第一训练集所对应的领域称为源域,将第二训练数据集对应的领域为目标域。
步骤S2、确定第二训练集中的各第二文本样本对应的初始类别标签。
其中,对于确定第二训练集中的各第二文本样本对应的初始类别标签的方式,本申请实施例不做限定。如可以根据分类模型所对应的各分类类别,为各第二文本样本随机生成一类别标签,或者根据其他预配置的测量确定各第二文本样本的初始类别标签。
本申请的可选实施例中,上述确定第二训练集中的各第二文本样本对应的初始类别标签,可以包括:
根据各第一文本样本及其对应的样本标签,确定每个类别对应的样本特征中心,即源域中的各样本特征中心;
对于任一第二文本样本,确定任一第二文本样本与源域中各样本特征中心的距离;
根据与任一第二文本样本最近的源域中的样本特征中心对应的样本类别,确定任一第二文本样本的初始类别标签。
其中,各第二文本样本对应的初始类别标签表征了各第二文本样本在进行跨领域的文本分类模型的训练之前的初始分类类别。也就是说,可以根据各第二文本样本与源域的各类别的样本特征中心的距离来确定各第二文本样本的初始分类类别。
具体的,源域中同类别的第一文本样本的样本特征中心,可通过以下公式确定:
Figure BDA0002601082990000101
其中,c表示各第一文本样本的任一样本类别,s表示第一训练集,Os,c表示第一训练集中样本类别为c的各第一文本样本的样本特征中心,i为第一文本样本的索引,
Figure BDA0002601082990000102
表示第一文本样本
Figure BDA0002601082990000103
的样本特征,
Figure BDA0002601082990000104
为第一文本样本
Figure BDA0002601082990000105
的样本特征
Figure BDA0002601082990000106
的模,
Figure BDA0002601082990000107
表示第一文本样本
Figure BDA0002601082990000108
对应的样本标签,ns表示第一训练集中第一文本样本的样本个数。
上述公式(1)示出了确定任一类别所对应的样本特征中心的一种可选方式,由公式可以看出,对于任一样本类别c,如果一个第一文本样本的类别(即样本标签表征的类别)是类别c,则上述
Figure BDA0002601082990000109
否则
Figure BDA00026010829900001010
由上述公式可以看出,对于一个类别的样本特征中心,可以通过该类别的各个文本样本的归一化特征向量(即归一化的样本特征)得到。
其中,对于第一训练集和第二训练集,任一训练集中的各文本样本的样本特征可采用基于神经网络的特征提取模型实现,神经网络包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆人工神经网络(Long Short-Term Memory,LSTM)以及门控循环单元(Gated Recurrent Unit,GRU)等,或者基于BERT(Bidirectional EncoderRepresentations from Transformers,基于transformer的双向编码器)模型以及基于XLnet(Extra-Long Net,长记忆网络)模型的特征提取模型等,具体可基于实际应用场景需求配置和选择,在此不做限制。
为方便描述,以下将第一训练集中同类别的第一文本样本的样本特征中心称为第一样本特征中心。
进一步的,对于任一第二文本样本,确定该第二文本样本与各第一样本特征中心的距离,并确定出与该第二文本样本距离最小的第一样本特征中心。从而根据最小距离对应的第一样本特征中心的样本类别,确定此时该第二文本样本的初始类别标签。换句话说,在确定出第一训练集中的各第一样本特征中心之后,对于任一第二文本样本,其距离最近的样本特征中心对应的样本类别即为该第二文本样本的分类类别。
其中,上述第二文本样本与各第一样本特征中心的距离包括但不限于欧式距离、余弦相似度、杰卡德距离以及曼哈顿距离等,具体可基于实际应用场景需求确定,在此不做限制。也就是说,在确定任一第二文本样本与各第一样本特征中心的距离时,可采用上述任一种距离所对应的计算方式确定。如,对于任一第二文本样本和任一第一样本特征中心之间的距离可用余弦相似度表示,具体表现为:
Figure BDA0002601082990000111
a为第二文本样本的样本特征,b为第一样本特征中心。
步骤S3、将训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各第一文本样本的样本类别和预测类别,确定分类损失值。
在一些可行的实施方式中,在基于训练数据对初始文本分类模型进行训练时,模型的输入包括各第一文本样本和各第二文本样本,模型的输出为各文本样本对应的预测类别,包括各第一文本样本对应的预测类别和各第二文本样本对应的预测类别。
进一步的,基于各第一文本样本的样本类别和预测列表,可确定训练过程中的分类损失值。其中,本申请实施例对于分类损失值的具体确定方式不做限定,如分类损失值可以是交叉熵分类损失。具体的,分类损失值可以表示为:
Figure BDA0002601082990000121
其中,在上述公式(2)中,
Figure BDA00026010829900001211
为分类损失值,ns为第一训练集中的第一文本样本的个数,i为第一文本样本的索引,
Figure BDA0002601082990000122
表示第一文本样本
Figure BDA0002601082990000123
的预测类别为其对应的样本标签
Figure BDA0002601082990000124
所表征的类别一致的概率(若一致,则为1,若不一致则为0)。通过上述公式可确定各第一文本样本的样本类别与相对应的预测类别之间的差异。
步骤S4、根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值。
在一些可行的实施方式中,本申请实施例的模型训练过程中还存在类内差异损失值和类间差异损失值。其中,类内差异损失值用于表征同类别的文本样本之间的差异,类间差异损失值用于保证不同类别的文本样本之间的差异。
具体的,类内差异损失值可根据同一领域同类别的文本样本,以及不同领域同类别的文本样本确定。
具体的,类内差异损失值D1可通过以下方式确定:
Figure BDA0002601082990000125
其中,M表示第一训练集和第二训练集中的样本类别的个数,即分类模型的分类类别的类别数量,e1为第一类内差异值,e2为第二类内差异值,e3为第三类内差异值。
其中,
Figure BDA0002601082990000126
s表示第一训练集,
Figure BDA0002601082990000127
分别为第一训练集中的不同第一文本样本对应的样本标签,
Figure BDA0002601082990000128
为判断函数,当样本标签
Figure BDA0002601082990000129
所表征的样本类别为c,且样本标签
Figure BDA00026010829900001210
表征的样本类别为c时,
Figure BDA0002601082990000131
的值为1,否则为0。换句话说,当样本标签
Figure BDA0002601082990000132
所表征的样本类别与样本标签
Figure BDA0002601082990000133
表征的样本类别为同一样本类别时,
Figure BDA0002601082990000134
的值为1,否则为0。
Figure BDA0002601082990000135
为第一文本样本
Figure BDA0002601082990000136
的样本特征,
Figure BDA0002601082990000137
为第一文本样本
Figure BDA0002601082990000138
的样本特征,
Figure BDA0002601082990000139
表征了第一训练集中的第一文本样本
Figure BDA00026010829900001310
和第一文本样本
Figure BDA00026010829900001311
之间的差异,具体可以为第一文本样本
Figure BDA00026010829900001312
和第一文本样本
Figure BDA00026010829900001313
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
其中,
Figure BDA00026010829900001314
s表示第一训练集,t表示第二训练集,
Figure BDA00026010829900001315
分别为第二训练集中的不同第二文本样本对应的类别标签,
Figure BDA00026010829900001316
为判断函数,当类别标签
Figure BDA00026010829900001317
所表征的样本类别为c,且类别标签
Figure BDA00026010829900001318
表征的样本类别为c时,
Figure BDA00026010829900001319
的值为1,否则为0。换句话说,当类别标签
Figure BDA00026010829900001320
所表征的样本类别与类别标签
Figure BDA00026010829900001321
表征的样本类别为同一类别时,
Figure BDA00026010829900001322
的值为1,否则为0。
Figure BDA00026010829900001323
为第二文本样本
Figure BDA00026010829900001324
的样本特征,
Figure BDA00026010829900001325
为第二文本样本
Figure BDA00026010829900001326
的样本特征,
Figure BDA00026010829900001327
表征了第二训练集中的第二文本样本
Figure BDA00026010829900001328
和第二文本样本
Figure BDA00026010829900001329
之间的差异,具体可以为第一文本样本
Figure BDA00026010829900001330
和第二文本样本
Figure BDA00026010829900001331
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
其中,
Figure BDA00026010829900001332
s表示第一训练集,t表示第二训练集,
Figure BDA00026010829900001333
为第一训练集中的第一文本样本对应的样本标签,
Figure BDA00026010829900001334
为第二训练集中第二文本样本对应的类别标签。
Figure BDA00026010829900001335
为判断函数,当样本标签
Figure BDA00026010829900001336
所表征的样本类别为c,且类别标签
Figure BDA00026010829900001337
表征的样本类别为c时,
Figure BDA00026010829900001338
的值为1,否则为0。换句话说,当样本标签
Figure BDA00026010829900001339
所表征的样本类别与类别标签
Figure BDA00026010829900001340
表征的样本类别为同一类别时,
Figure BDA00026010829900001341
的值为1,否则为0。
Figure BDA00026010829900001342
为第二文本样本
Figure BDA00026010829900001343
的样本特征,
Figure BDA00026010829900001344
为第二文本样本
Figure BDA00026010829900001345
的样本特征,
Figure BDA00026010829900001346
表征了第一训练集中的第一文本样本
Figure BDA00026010829900001347
和第二文本样本
Figure BDA00026010829900001348
之间的差异,具体可以为第一训练集中的第一文本样本
Figure BDA00026010829900001349
和第二文本样本
Figure BDA00026010829900001350
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
具体的,类间差异损失可根据同一领域不同类别的文本样本,以及不同领域不同类别的文本样本确定。
具体的,类间差异损失值D2可通过以下方式确定:
Figure BDA0002601082990000141
其中,M表示第一训练集和第二训练集中的样本类别的个数,即分类模型的分类类别的类别数量,e4为第一类间差异值,e5为第二类间差异值,e6为第三类间差异值。
其中,
Figure BDA0002601082990000142
s表示第一训练集,
Figure BDA0002601082990000143
分别为第一训练集中的不同第一文本样本对应的样本标签,
Figure BDA0002601082990000144
为判断函数,当样本标签
Figure BDA0002601082990000145
所表征的样本类别为c,且样本标签
Figure BDA0002601082990000146
表征的样本类别为c'时,
Figure BDA0002601082990000147
的值为1,否则为0。换句话说,当样本标签
Figure BDA0002601082990000148
所表征的样本类别与样本标签
Figure BDA0002601082990000149
表征的样本类别为不同样本类别时,
Figure BDA00026010829900001410
的值为1,否则为0。
Figure BDA00026010829900001411
表征了第一训练集中的第一文本样本
Figure BDA00026010829900001412
和第一文本样本
Figure BDA00026010829900001413
之间的差异,具体可以为第一文本样本
Figure BDA00026010829900001414
和第一文本样本
Figure BDA00026010829900001415
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
其中,
Figure BDA00026010829900001416
s表示第一训练集,t表示第二训练集,
Figure BDA00026010829900001417
分别为第二训练集中的不同第二文本样本对应的类别标签,
Figure BDA00026010829900001418
为判断函数,当类别标签
Figure BDA00026010829900001419
所表征的样本类别为c,且类别标签
Figure BDA00026010829900001420
表征的样本类别为c'时,
Figure BDA00026010829900001421
的值为1,否则为0。换句话说,当类别标签
Figure BDA00026010829900001422
所表征的样本类别与类别标签
Figure BDA00026010829900001423
表征的样本类别为不同类别时,
Figure BDA00026010829900001424
的值为1,否则为0。
Figure BDA00026010829900001425
表征了第二训练集中的第二文本样本
Figure BDA00026010829900001426
和第二文本样本
Figure BDA00026010829900001427
之间的差异,具体可以为第一文本样本
Figure BDA00026010829900001428
和第二文本样本
Figure BDA00026010829900001429
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
其中,
Figure BDA00026010829900001430
s表示第一训练集,t表示第二训练集,
Figure BDA0002601082990000151
为第一训练集中的第一文本样本对应的样本标签,
Figure BDA0002601082990000152
为第二训练集中第二文本样本对应的类别标签。
Figure BDA0002601082990000153
为判断函数,当样本标签
Figure BDA0002601082990000154
所表征的样本类别为c,且类别标签
Figure BDA0002601082990000155
表征的样本类别为c'时,
Figure BDA0002601082990000156
的值为1,否则为0。换句话说,当样本标签
Figure BDA0002601082990000157
所表征的样本类别与类别标签
Figure BDA0002601082990000158
表征的样本类别为不同类别时,
Figure BDA0002601082990000159
的值为1,否则为0。
Figure BDA00026010829900001510
表征了第一训练集中的第一文本样本
Figure BDA00026010829900001511
和第二文本样本
Figure BDA00026010829900001512
之间的差异,具体可以为第一训练集中的第一文本样本
Figure BDA00026010829900001513
和第二文本样本
Figure BDA00026010829900001514
之间的最大均值差异,或者为其他样本差异,具体可基于实际应用场景需求确定,在此不做限制。
基于类内差异损失值,可使同一类别内的第一文本样本和第二文本样本之间的差异最小化,进一步拉近同一类别的各文本样本的样本特征。另一方面,基于类间差异损失值,可使不同类别内的第一文本样本和第二文本样本之间的差异最大化,进一步使不同分类类别的各文本样本的样本特征互相远离,从而可使得不同分类类别的文本样本之间的边界更加明显,从而可准确进行跨领域的文本分类。
如图3所示,图3是本申请实施例提供的跨领域的文本分类场景对比示意图。图3出示了两个领域的文本样本,领域1(源域)包括第一类文本样本和第二类文本样本,领域2(目标域)同样包括第一类文本样本和第二类文本样本。在场景一中,在未考虑类同一领域同类别的文本样本之间的差异和不同领域同类别的文本样本之间的差异,以及同一领域不同类别的文本样本之间的差异和不同领域不同类别的文本样本之间的差异的情况下,在模型训练过程中的跨领域的文本分类结果如场景一所示。不难看出,不同领域的不同类别的文本样本之间的决策边界不明显,从而导致在模型训练过程中无法明确文本样本的类别,进而造成分类准确性降低。
在场景二在基于类内差异损失值和类间差异损失值对模型进行训练的过程中,由于将同一类的文本样本之间的差异最小化,将不同类的文本样本之间的差异最大化,可使得不同类别的文本样本之间具有清晰的决策边界,减小同类的文本样本的决策边界影响,进而提升跨领域的文本分类的准确性。
步骤S5、根据分类损失值、类内差异损失值以及类间差异损失值,确定总损失值。
具体的,模型对应的总损失值包括差异损失值和分类损失值,因此可获取分类损失值对应的第一权重,以及差异损失值对应的第二权重,从而根据分类损失值及其对应的第一权重,以及差异损失值及其对应的第二权重,确定出总损失值。即
Figure BDA0002601082990000169
其中,
Figure BDA00026010829900001610
为总损失值,
Figure BDA00026010829900001611
为分类损失值,D为差异损失值,α和β分别为上述第一权重和第二权重。其中,α和β可由具体的模型网络参数确定,也可基于预设权重确定,在此不做限制。其中,差异损失值由类内差异损失值和类间差异损失值确定,包括类内差异损失值和类间损失函数,即D=D1-D2
步骤S6、根据总损失值对模型进行迭代训练,直至总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型。
在一些可行的实施方式中,上述结束训练条件为总损失值达到最小值。即在模型的训练总损失值最小时,模型趋于稳定,此时可结束训练并将训练结束时的模型确定为跨领域的文本分类模型。
具体的,对于每一次模型训练,模型均会输出各第二文本样本对应的预测类别,从而根据第一文本样本及其对应的样本标签和预测类别确定分类损失值,根据第一文本样本及其对应的样本标签,以及第二文本样本及其对应的类别标签,确定差异损失值,并进一步基于分类损失值和差异损失值可确定出每次训练时模型对应的总损失值。当总损失值满足上述训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型。当总损失值不满足训练结束条件时,可根据第二文本样本及其对应的预测类别更新各第二文本样本对应的类别标签,以采用其新的类别标签再次对模型进行训练,直至某一训练过程中的总损失值满足训练结束条件时训练结束。
其中,每得到一次各第二文本样本对应的预测类别时,可基于各第二文本样本对应的预测类别得到此时同类别的第二文本样本的样本特征中心,对于任一类别的第二文本样本的样本特征中心,具体可基于以下方式确定:
Figure BDA0002601082990000161
其中,Ot,c的t表示第二训练集,c表示任一类别,
Figure BDA0002601082990000162
为第二文本样本
Figure BDA0002601082990000163
在对应的预测类别,
Figure BDA0002601082990000164
为第二文本样本
Figure BDA0002601082990000165
的样本特征,
Figure BDA0002601082990000166
为第二文本样本
Figure BDA0002601082990000167
的样本特征
Figure BDA0002601082990000168
的模,为方便描述,以下将第二文本样本的样本特征中心称为第二样本特征中心。
上述公式(5)示出了确定任一类别所对应的样本特征中心的一种可选方式,由公式可以看出,对于任一样本类别c,如果一个第二文本样本的类别(即类别本标签表征的类别)是类别c,则上述
Figure BDA0002601082990000171
否则
Figure BDA0002601082990000172
由上述公式可以看出,对于一个类别的样本特征中心,可以通过该类别的各个文本样本的归一化特征向量(即归一化的样本特征)得到。
进一步的,对于任一第二文本样本,根据该第二文本样本的样本特征,可确定该第二文本样本与各第二样本特征中心的距离。从而确定出与该第二文本样本距离最小的第二样本特征中心,并基于最小距离对应的第二样本特征中心的分类类别,将该第二文本样本的类别标签更新至于该第二样本特征中心相同的分类类别。当上述更新次数等于预设更新次数时,可得到各第二样本对应的最终的类别标签,并且预设更新次数可基于实际应用场景需求确定,在此不做限制。
其中,第二训练集中的任一第二文本样本的最终的类别标签,可通过公式
Figure BDA0002601082990000173
确定。其中,
Figure BDA0002601082990000174
表示第二文本样本
Figure BDA0002601082990000175
与样本中心Ot,c的距离,
Figure BDA0002601082990000176
表示第二文本样本
Figure BDA0002601082990000177
的样本特征。当第二文本样本
Figure BDA0002601082990000178
与样本中心Ot,c的距离最小使,根据样本中心Ot,c对应的分类类别确定为第二文本样本
Figure BDA0002601082990000179
最终的类别标签
Figure BDA00026010829900001710
换句话说,在最后一次确定各第二样本特征中心之后,距离任一第二文本样本最近的第二样本特征中心对应的样本类别即为该第二文本样本的最终的分类类别。需要特别说明的是,在第一次确定同类别的第二文本样本的第二样本特征中心时,各第二文本样本的类别标签为基于各第一文本样本得到的初始类别标签。
其中,上述第二文本样本与各第二样本特征中心的距离包括但不限于欧式距离、余弦相似度、杰卡德距离以及曼哈顿距离等,具体可基于实际应用场景需求确定,在此不做限制。
可选的,对于每次训练,模型可多次更新各第二文本样本的类别标签,直至更新次数达到预设次数时输出各第二文本样本的最终预测类别,同时基于各第二文本样本最终的预测类别得到总模型训练对应的损失值中。在对模型进行迭代训练的过程中,可根据总损失值以不断优化模型的模型参数,得到训练后的模型。进而重复上述过程得到各第二文本样本的新的最终预测类别,并进一步对模型进行训练,直至得到最终的跨领域的文本分类模型。
在一些可行的实施方式中,本申请实施例还提供了一种分类方法。具体包括:
获取待处理文本,将待处理文本输入至跨领域的文本分类模型中,根据跨领域的文本分类模型的输出确定待处理文本的分类类别。其中,该跨领域的文本分类模型为多领域的多训练集训练得到的,如基于上述第一领域的第一训练集和第二领域的第二训练集,通过步骤S1至S6所示的方式训练得到。
其中,上述待处理文本对应的领域为训练跨领域的文本分类模型时所采用的训练数据对应的多个领域中的任一领域。
其中,上述待处理文本可通过语音识别处理,将待分类语音转换为文本后得到,或者上述待处理文本可从网页获取,以及在人机交互过程中用户所输入的待处理文本等,具体可基于实际应用场景需求确定,在此不做限制。
在本申请实施例中,通过在包含标注有样本标签的第一训练集和不带标注的第二训练集对初始文本分类模型进行训练,可在一个领域的第一训练集的基础上学习对另一个领域的第二训练集中各文本样本的分类。并且基于同类别(包括同领域和不同领域的同类别)的文本样本之间的类内差异损失值,可使得同类别的文本样本之间的差异最小化。通过不同类别的文本样本之间的类间差异损失值,可使得不同类别的文本样本之间的差异最大化,从而降低不同类别的文本样本之间的相互影响,提升跨领域的文本分类的准确性。进一步的,通过确定第一训练集中各第一文本样本的样本类别和预测类别之间的分类损失值,可进而基于有分类损失值、类间差异损失值以及类内差异损失值确定的总损失值不断对模型参数进行更新训练,得到分类准确性高的跨领域的文本分类模型。
参见图4,图4是本申请实施例提供的跨领域的文本分类模型的训练装置的结构示意图。本申请实施例提供的训练装置1包括:
数据获取模块11,用于获取训练数据,上述训练数据包括第一训练集和第二训练集,其中,上述第一训练集中的各第一文本样本标注有样本标签,上述样本标签表征了上述第一文本样本的样本类别,上述第一训练集和上述第二训练集为不同领域的训练集;
标签确定模块12,用于确定上述第二训练集中的各第二文本样本对应的初始类别标签;
损失确定模块13,用于将上述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各上述第一文本样本的样本类别和预测类别,确定分类损失值;
上述损失确定模块13,用于根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;
上述损失确定模块13,用于根据上述分类损失值、上述类内差异损失值以及上述类间差异损失值,确定总损失值;
模型训练模块14,用于根据上述总损失值对模型进行迭代训练,直至上述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
标签更新模块15,用于对于每次训练,若上述总损失值不满足上述训练结束条件,则根据各上述第二文本样本、以及各上述第二文本样本对应的预测类别,更新各上述第二文本样本对应的类别标签得到新的类别标签,以用于下一次训练。
在一些可行的实施方式中,上述标签确定模块12,用于:
根据各上述第一文本样本及其对应的样本标签,确定每个类别所对应的第一样本特征中心;
对于任一第二文本样本,确定上述任一第二文本样本与各上述第一样本特征中心的距离;
根据与上述任一第二文本样本最近的第一样本特征中心对应的样本类别,确定上述任一第二文本样本的初始类别标签。
在一些可行的实施方式中,上述损失确定模块13,用于:
根据各上述第一文本样本及其对应的样本标签,确定每个类别的各第一文本样本之间的第一类内差异值;
根据各上述第二文本样本及其对应的类别标签,确定每个类别的各第二文本样本之间的第二类内差异值;
根据各上述第一文本样本及其对应的样本标签、以及上述各第二文本样本及其对应的类别标签,确定每个类别的各第一文本样本与各第二文本样本之间的第三类内差异值;
根据上述第一类内差异值、上述第二类内差异值以及上述第三类内差异值,确定类内差异损失值。
在一些可行的实施方式中,上述损失确定模块13,用于:
根据各上述第一文本样本及其对应的样本标签,确定不同类别的各第一文本样本之间的第一类间差异值;
根据各上述第二文本样本及其对应的类别标签,确定不同类别的各第二文本样本之间的第二类间差异值;
根据各上述第一文本样本及其对应的样本标签,以及各上述第二文本样本及其对应的类别标签,确定不同类别的各第一文本样本与各第二文本样本之间的第三类间差异值;
根据上述第一类间差异值、上述第二类间差异值以及上述第三类间差异值,确定类间差异损失值。
在一些可行的实施方式中,上述标签更新模块15,用于:
根据各上述第二文本样本及其对应的类别标签,确定每个类别所对应的第二样本特征中心;
对于任一第二文本样本,确定上述任一第二文本样本与各上述第二样本特征中心的距离;
根据与上述任一第二文本样本最近的第二样本中心对应的样本类别,更新上述任一第二文本样本对应的类别标签。
在一些可行的实施方式中,上述标签更新模块15,还用于:
确定各上述第二文本样本对应的类别标签的更新次数;
若上述更新次数等于预设次数,则将当次更新后的类别标签作为各上述第二文本样本最终的类别标签。
在一些可行的实施方式中,上述损失确定模块13,用于:
获取上述分类损失值对应的第一权重,以及差异损失值对应的第二权重,其中,上述差异损失值包括上述类内差异损失值和类间差异损失值;
根据上述分类损失值及其对应的第一权重,以及上述差异损失值及其对应的第二权重,确定总损失值。
在一些可行的实施方式中,上述训练结束条件为上述总损失值达到最小值。
具体实现中,上述装置1可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
参见图5,图5是本申请实施例提供的分类装置的结构示意图。本申请实施例提供的分类装置2包括:
文本获取模块21,用于获取待处理文本,上述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
文本分类模块22,用于将上述待处理文本输入至跨领域的文本分类模型中,根据上述跨领域的文本分类模型的输出确定上述待处理文本的分类类别;
其中,上述跨领域的文本分类模型是基于上述第一领域的第一训练集和上述第二领域的第二训练集,通过本申请实施例提供的跨领域的文本分类模型的训练方法训练得到的。
参见图6,图6是本申请实施例提供的电子设备的结构示意图。如图6所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取训练数据,上述训练数据包括第一训练集和第二训练集,其中,上述第一训练集中的各第一文本样本标注有样本标签,上述样本标签表征了上述第一文本样本的样本类别,上述第一训练集和上述第二训练集为不同领域的训练集;
确定上述第二训练集中的各第二文本样本对应的初始类别标签;
将上述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各上述第一文本样本的样本类别和预测类别,确定分类损失值;
根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;
根据上述分类损失值、上述类内差异损失值以及上述类间差异损失值,确定总损失值;
根据上述总损失值对模型进行迭代训练,直至上述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
其中,对于每次训练,若上述总损失值不满足上述训练结束条件,则根据各上述第二文本样本、以及各上述第二文本样本对应的预测类别,更新各上述第二文本样本对应的类别标签得到新的类别标签,以用于下一次训练。
在一些可行的实施方式中,上述处理器1001用于:
根据各上述第一文本样本及其对应的样本标签,确定每个类别所对应的第一样本特征中心;
对于任一第二文本样本,确定上述任一第二文本样本与各上述第一样本特征中心的距离;
根据与上述任一第二文本样本最近的第一样本特征中心对应的样本类别,确定上述任一第二文本样本的初始类别标签。
在一些可行的实施方式中,上述处理器1001用于:
根据各上述第一文本样本及其对应的样本标签,确定每个类别的各第一文本样本之间的第一类内差异值;
根据各上述第二文本样本及其对应的类别标签,确定每个类别的各第二文本样本之间的第二类内差异值;
根据各上述第一文本样本及其对应的样本标签、以及上述各第二文本样本及其对应的类别标签,确定每个类别的各第一文本样本与各第二文本样本之间的第三类内差异值;
根据上述第一类内差异值、上述第二类内差异值以及上述第三类内差异值,确定类内差异损失值。
在一些可行的实施方式中,上述处理器1001用于:
根据各上述第一文本样本及其对应的样本标签,确定不同类别的各第一文本样本之间的第一类间差异值;
根据各上述第二文本样本及其对应的类别标签,确定不同类别的各第二文本样本之间的第二类间差异值;
根据各上述第一文本样本及其对应的样本标签,以及各上述第二文本样本及其对应的类别标签,确定不同类别的各第一文本样本与各第二文本样本之间的第三类间差异值;
根据上述第一类间差异值、上述第二类间差异值以及上述第三类间差异值,确定类间差异损失值。
在一些可行的实施方式中,上述处理器1001用于:
根据各上述第二文本样本及其对应的类别标签,确定每个类别所对应的第二样本特征中心;
对于任一第二文本样本,确定上述任一第二文本样本与各上述第二样本特征中心的距离;
根据与上述任一第二文本样本最近的第二样本中心对应的样本类别,更新上述任一第二文本样本对应的类别标签。
在一些可行的实施方式中,上述处理器1001还用于:
确定各上述第二文本样本对应的类别标签的更新次数;
若上述更新次数等于预设次数,则将当次更新后的类别标签作为各上述第二文本样本最终的类别标签。
在一些可行的实施方式中,上述处理器1001用于:
获取上述分类损失值对应的第一权重,以及差异损失值对应的第二权重,其中,上述差异损失值包括上述类内差异损失值和类间差异损失值;
根据上述分类损失值及其对应的第一权重,以及上述差异损失值及其对应的第二权重,确定总损失值。
在一些可行的实施方式中,上述训练结束条件为上述总损失值达到最小值。
在一些可行的实施方式中,上述处理器1001用于:
获取待处理文本,上述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
将上述待处理文本输入至跨领域的文本分类模型中,根据上述跨领域的文本分类模型的输出确定上述待处理文本的分类类别;
其中,上述跨领域的文本分类模型是基于上述第一领域的第一训练集和上述第二领域的第二训练集,通过本申请实施例提供的跨领域模型的训练方法训练得到的。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过在包含标注有样本标签的第一训练集和不带标注的第二训练集对初始文本分类模型进行训练,可在一个领域的第一训练集的基础上学习对另一个领域的第二训练集中各文本样本的分类。并且基于同类别(包括同领域和不同领域的同类别)的文本样本之间的类内差异损失值,可使得同类别的文本样本之间的差异最小化。通过不同类别的文本样本之间的类间差异损失值,可使得不同类别的文本样本之间的差异最大化,从而降低不同类别的文本样本之间的相互影响,提升跨领域的文本分类的准确性。进一步的,通过确定第一训练集中各第一文本样本的样本类别和预测类别之间的分类损失值,可进而基于有分类损失值、类间差异损失值以及类内差异损失值确定的总损失值不断对模型参数进行更新训练,得到分类准确性高的跨领域的文本分类模型。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图2中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图2中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (12)

1.一种跨领域的文本分类模型的训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括第一训练集和第二训练集,其中,所述第一训练集中的各第一文本样本标注有样本标签,所述样本标签表征了所述第一文本样本的样本类别,所述第一训练集和所述第二训练集为不同领域的训练集;
确定所述第二训练集中的各第二文本样本对应的初始类别标签;
将所述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各所述第一文本样本的样本类别和预测类别,确定分类损失值;
根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;其中,所述类内差异损失值用于表示同一领域同类别的文本样本之间的差异以及不同领域的同类别的文本样本之间的差异;所述类间差异损失值用于表示同一领域不同类别的文本样本之间的差异以及不同领域的不同类别的文本样本之间的差异;根据所述分类损失值、所述类内差异损失值以及所述类间差异损失值,确定总损失值;
根据所述总损失值对模型进行迭代训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
其中,对于每次训练,若所述总损失值不满足所述训练结束条件,则根据各所述第二文本样本及其对应的类别标签,确定每个类别所对应的第二样本特征中心;对于任一第二文本样本,确定所述任一第二文本样本与各所述第二样本特征中心的距离;根据与所述任一第二文本样本最近的第二样本中心对应的样本类别,更新所述任一第二文本样本对应的类别标签,以用于下一次训练。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第二训练集中的各第二文本样本对应的初始类别标签,包括:
根据各所述第一文本样本及其对应的样本标签,确定每个类别所对应的第一样本特征中心;
对于任一第二文本样本,确定所述任一第二文本样本与各所述第一样本特征中心的距离;
根据与所述任一第二文本样本最近的第一样本特征中心对应的样本类别,确定所述任一第二文本样本的初始类别标签。
3.根据权利要求1所述的方法,其特征在于,所述根据同一领域同类别的各文本样本、以及不同领域同类别的各文本样本,确定类内差异损失值,包括:
根据各所述第一文本样本及其对应的样本标签,确定每个类别的各第一文本样本之间的第一类内差异值;
根据各所述第二文本样本及其对应的类别标签,确定每个类别的各第二文本样本之间的第二类内差异值;
根据各所述第一文本样本及其对应的样本标签、以及所述各第二文本样本及其对应的类别标签,确定每个类别的各第一文本样本与各第二文本样本之间的第三类内差异值;
根据所述第一类内差异值、所述第二类内差异值以及所述第三类内差异值,确定类内差异损失值。
4.根据权利要求1所述的方法,其特征在于,所述根据同一领域不同类别的各文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值,包括:
根据各所述第一文本样本及其对应的样本标签,确定不同类别的各第一文本样本之间的第一类间差异值;
根据各所述第二文本样本及其对应的类别标签,确定不同类别的各第二文本样本之间的第二类间差异值;
根据各所述第一文本样本及其对应的样本标签,以及各所述第二文本样本及其对应的类别标签,确定不同类别的各第一文本样本与各第二文本样本之间的第三类间差异值;
根据所述第一类间差异值、所述第二类间差异值以及所述第三类间差异值,确定类间差异损失值。
5.根据权利要求1所述的方法,其特征在于,在每次更新各所述第二文本样本对应的类别标签得到新的类别标签之后,所述方法还包括:
确定各所述第二文本样本对应的类别标签的更新次数;
若所述更新次数等于预设次数,则将当次更新后的类别标签作为各所述第二文本样本最终的类别标签。
6.根据权利要求1所述的方法,其特征在于,所述根据所述分类损失值、所述类内差异损失值以及所述类间差异损失值,确定总损失值,包括:
获取所述分类损失值对应的第一权重,以及差异损失值对应的第二权重,其中,所述差异损失值包括所述类内差异损失值和类间差异损失值;
根据所述分类损失值及其对应的第一权重,以及所述差异损失值及其对应的第二权重,确定总损失值。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述训练结束条件为所述总损失值达到最小值。
8.一种分类方法,其特征在于,所述方法包括:
获取待处理文本,所述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
将所述待处理文本输入至跨领域的文本分类模型中,根据所述跨领域的文本分类模型的输出确定所述待处理文本的分类类别;
其中,所述跨领域的文本分类模型是基于所述第一领域的第一训练集和所述第二领域的第二训练集,通过权利要求1至7任一项所述的方法训练得到的。
9.一种跨领域的文本分类模型的训练装置,其特征在于,所述训练装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括第一训练集和第二训练集,其中,所述第一训练集中的各第一文本样本标注有样本标签,所述样本标签表征了所述第一文本样本的样本类别,所述第一训练集和所述第二训练集为不同领域的训练集;
标签确定模块,用于确定所述第二训练集中的各第二文本样本对应的初始类别标签;
损失确定模块,用于将所述训练数据输入至初始文本分类模型中,得到各文本样本的预测类别,根据各所述第一文本样本的样本类别和预测类别,确定分类损失值;
所述损失确定模块,用于根据同一领域同类别的文本样本、以及不同领域同类别的文本样本,确定类内差异损失值,根据同一领域不同类别的文本样本、以及不同领域不同类别的文本样本,确定类间差异损失值;其中,所述类内差异损失值用于表示同一领域同类别的文本样本之间的差异以及不同领域的同类别的文本样本之间的差异;所述类间差异损失值用于表示同一领域不同类别的文本样本之间的差异以及不同领域的不同类别的文本样本之间的差异;
所述损失确定模块,用于根据所述分类损失值、所述类内差异损失值以及所述类间差异损失值,确定总损失值;
模型训练模块,用于根据所述总损失值对模型进行迭代训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为跨领域的文本分类模型;
标签更新模块,用于对于每次训练,若所述总损失值不满足所述训练结束条件,则根据各所述第二文本样本及其对应的类别标签,确定每个类别所对应的第二样本特征中心;对于任一第二文本样本,确定所述任一第二文本样本与各所述第二样本特征中心的距离;根据与所述任一第二文本样本最近的第二样本中心对应的样本类别,更新所述任一第二文本样本对应的类别标签,以用于下一次训练。
10.一种分类装置,其特征在于,所述分类装置包括:
文本获取模块,用于获取待处理文本,所述待处理文本为属于第一领域的文本,或者为属于第二领域的文本;
文本分类模块,用于将所述待处理文本输入至跨领域的文本分类模型中,根据所述跨领域的文本分类模型的输出确定所述待处理文本的分类类别;
其中,所述跨领域的文本分类模型是基于所述第一领域的第一训练集和所述第二领域的第二训练集,通过权利要求1至7任一项所述的方法训练得到的。
11.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行如权利要求1至7任一项所述的方法或者权利要求8所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的方法或者实现权利要求8所述的方法。
CN202010724195.XA 2020-07-24 2020-07-24 跨领域的文本分类模型的训练方法、分类方法以及装置 Active CN111831826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724195.XA CN111831826B (zh) 2020-07-24 2020-07-24 跨领域的文本分类模型的训练方法、分类方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724195.XA CN111831826B (zh) 2020-07-24 2020-07-24 跨领域的文本分类模型的训练方法、分类方法以及装置

Publications (2)

Publication Number Publication Date
CN111831826A CN111831826A (zh) 2020-10-27
CN111831826B true CN111831826B (zh) 2022-10-18

Family

ID=72925364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724195.XA Active CN111831826B (zh) 2020-07-24 2020-07-24 跨领域的文本分类模型的训练方法、分类方法以及装置

Country Status (1)

Country Link
CN (1) CN111831826B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766319A (zh) * 2020-12-31 2021-05-07 平安科技(深圳)有限公司 对话意图识别模型训练方法、装置、计算机设备及介质
CN112906810B (zh) * 2021-03-08 2024-04-16 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113178189B (zh) * 2021-04-27 2023-10-27 科大讯飞股份有限公司 一种信息分类方法及装置、信息分类模型训练方法及装置
CN115358392B (zh) * 2022-10-21 2023-05-05 北京百度网讯科技有限公司 深度学习网络的训练方法、文本检测方法及装置
CN116226382B (zh) * 2023-02-28 2023-08-01 北京数美时代科技有限公司 一种给定关键词的文本分类方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN108959265A (zh) * 2018-07-13 2018-12-07 深圳市牛鼎丰科技有限公司 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234689B2 (en) * 2009-07-21 2012-07-31 Bae Systems Information And Electronic Systems Integration Inc. System and method for generating target area information of a battlefield using information acquired from multiple classification levels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN108959265A (zh) * 2018-07-13 2018-12-07 深圳市牛鼎丰科技有限公司 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种改进模糊C均值聚类的图像标注方法;李长磊等;《小型微型计算机系统》;20180815(第08期);全文 *
跨领域文本情感分类研究进展;赵传君等;《软件学报》;20200608(第06期);全文 *

Also Published As

Publication number Publication date
CN111831826A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111897964A (zh) 文本分类模型训练方法、装置、设备及存储介质
CN110309514A (zh) 一种语义识别方法及装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
US20170185913A1 (en) System and method for comparing training data with test data
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN110727871A (zh) 基于卷积分解深度模型的多模态数据采集及综合分析平台
CN112131884B (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
WO2022262080A1 (zh) 一种对话关系处理方法、计算机及可读存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
Malhotra et al. An efficient fake news identification system using A-SQUARE CNN algorithm
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN114817697A (zh) 标签信息的确定方法、装置、电子设备以及存储介质
CN111767710A (zh) 印尼语的情感分类方法、装置、设备及介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030763

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant