CN115658903B - 文本分类方法、模型训练方法、相关装置及电子设备 - Google Patents

文本分类方法、模型训练方法、相关装置及电子设备 Download PDF

Info

Publication number
CN115658903B
CN115658903B CN202211357036.6A CN202211357036A CN115658903B CN 115658903 B CN115658903 B CN 115658903B CN 202211357036 A CN202211357036 A CN 202211357036A CN 115658903 B CN115658903 B CN 115658903B
Authority
CN
China
Prior art keywords
text
category
target
under
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211357036.6A
Other languages
English (en)
Other versions
CN115658903A (zh
Inventor
张鑫睿
骆金昌
陈坤斌
何伯磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211357036.6A priority Critical patent/CN115658903B/zh
Publication of CN115658903A publication Critical patent/CN115658903A/zh
Application granted granted Critical
Publication of CN115658903B publication Critical patent/CN115658903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本分类方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及智能搜索、深度学习技术领域。具体实现方案为:获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本;对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。

Description

文本分类方法、模型训练方法、相关装置及电子设备
技术领域
本公开涉及人工智能技术领域,尤其涉及智能搜索、深度学习技术领域,具体涉及一种文本分类方法、模型训练方法、相关装置及电子设备。
背景技术
随着人工智能技术的高速发展,深度学习技术得到了广泛的应用。在一应用中,可以通过深度学习模型进行文本分类。
目前,深度学习模型的训练中,深度学习通常需要带有标签的海量数据来进行训练。并且,在深度学习模型训练完成的情况下,是将预测文本输入至深度学习模型中进行分类处理,以输出文本所属的类别。
发明内容
本公开提供了一种文本分类方法、模型训练方法、相关装置及电子设备。
根据本公开的第一方面,提供了一种文本分类方法,包括:
获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;
分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;
基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。
根据本公开的第二方面,提供了一种模型训练方法,包括:
获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数。
根据本公开的第三方面,提供了一种文本分类装置,包括:
第一获取模块,用于获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
第一特征编码模块,用于对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;
第一确定模块,用于分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;
第二确定模块,用于基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。
根据本公开的第四方面,提供了一种模型训练装置,包括:
第二获取模块,用于获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
构造模块,用于基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
第二特征编码模块,用于将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
第三确定模块,用于基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
更新模块,用于基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中的任一项方法,或者实现第二方面中的任一项方法。
根据本公开的技术解决了相关技术中文本的分类效果比较差的问题,提高了文本的分类效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的文本分类方法的流程示意图;
图2是本公开提供的一具体示例的文本分类方法的流程示意图;
图3是根据本公开第二实施例的模型训练方法的流程示意图;
图4是本公开提供的一具体示例的模型训练方法的流程示意图;
图5是本公开提供的一具体示例的文本分类服务的流程示意图;
图6是根据本公开第三实施例的文本分类装置的结构示意图;
图7是根据本公开第四实施例的模型训练装置的结构示意图;
图8是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
如图1所示,本公开提供一种文本分类方法,包括如下步骤:
步骤S101:获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本。
其中,M和K均为大于1的整数。
本实施例中,文本分类方法涉及人工智能技术领域,尤其涉及智能搜索、深度学习技术领域,其可以广泛应用于智能搜索、平台管理场景下。本公开实施例的文本分类方法,可以由本公开实施例的文本分类装置执行。本公开实施例的文本分类装置可以配置在任意电子设备中,以执行本公开实施例的文本分类方法。
目标场景可以为对象系统下对于功能平台的搜索和归类,以实现平台管理场景,也可以为搜索引擎上的意图识别场景,还可以为多媒体平台上对于多媒体信息如资讯的主题分类场景。其中,对象系统可以为企业系统如企业办公系统,也可以为用户系统如终端系统。
比如,平台管理场景中,很多企业特别是大型企业,往往研发了各种各样针对内部员工办公、外部用户使用的功能平台,如前端工具、深度学习工具等。不同部门研发的功能平台可能存在部分冗余,并且比较分散,不易于平台管理。因此,可以基于功能平台的定义、介绍、名称等描述信息给不同的功能平台进行准确地归类,从而可以实现有效地治理,以便在功能平台众多的情况下进行高效管理。这样,可以赋能企业办公系统下的平台管理场景,帮助用户快速找到工作所需功能平台,最终提升企业员工的办公效率。
又比如,新闻资讯平台上可以包括各种主题类别的新闻资讯,可以基于新闻资讯的文本内容信息给不同的新闻资讯进行准确地分类,从而可以实现新闻资讯的分类管理。
第一文本可以为目标场景下的文本,比如,在平台管理场景中,第一文本可以为企业新研发的功能平台的定义、介绍、名称等描述信息,即可以通过获取该功能平台的定义、介绍、名称等描述信息,得到第一文本。也可以通过获取用户输入的文本信息来得到第一文本,该文本信息可以为已研发出的功能平台的定义、名称等,以用于用户在平台管理系统中进行功能平台的搜索。
另外,在其他场景如搜索引擎上的意图识别场景,可以获取在搜索引擎上用户输入的搜索,将其作为意图识别场景下的第一文本。
第一数据集可以为目标场景下的数据集,第一数据集中可以包括M个类别下的K个第二文本。M个类别可以为目标场景下预先规划的类别,比如,平台管理场景下,为适应企业各个部门的办公和研发,可以根据办公规划和研发需求制定功能平台的类别,从可以确定该平台管理场景下的M个类别,如该M个类别中可以包括用于办公的报表与数据分析的平台类别。
第二文本可以为目标场景下的历史文本,也可以为对应类别的定义、关键词等,亦或是上述各文本(如历史文本信息、定义、关键词)的任意组合。
比如,目标场景为平台管理场景,若类别下存在文本至该类别的映射,即企业办公系统下可以包括该类别下的功能平台,且该功能平台存在平台定义、介绍等描述信息,则该类别下的第二文本中可以包括该类别下功能平台的定义、介绍等。若类别下不存在文本至该类别的映射,则可以将该类别对应的描述信息作为该类别下的第二文本,该类别对应的描述信息可以包括该类别下的定义、关键词中的至少一项。
又比如,目标场景为搜索引擎上的意图识别场景,第二文本可以为用户在搜索引擎上输入的历史搜索信息。而M个类别可以为搜索引擎的知识库内可涵盖内容的所有意图类别。
M个类别下的K个第二文本可以用于对目标模型进行训练,目标模型可以用于进行目标场景下的不同文本之间的语义匹配。也就是说,目标模型所实现的是语义匹配任务,即输入至少两个文本,对这些文本进行语义编码,得到各个文本的语义特征,基于这些语义特征,确定这些文本是否相似。
在一可选实施方式中,目标模型可以直接基于第一数据集进行训练得到。
在另一可选实施方式中,可以基于第一数据集构造训练数据集,其中,训练数据集可以包括文本集,文本集可以包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,第一类别和第二类别均为M个类别中的任一类别,之后目标模型可以基于该训练数据集进行训练得到。
每个类别下对应至少一个所述第二文本,在一可选实施方式中,每个类别下对应的第二文本的数量可以小于或等于某一阈值,比如,每个类别下的第二文本数量均在20以内。在该场景下,对目标模型进行训练的场景可以称之为小样本学习(Few-shot Learning)场景。
步骤S102:对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征。
该步骤中,第一特征可以为第一文本的语义特征,第二特征可以为第一文本的语义特征,一个第二特征可以对应一个第二文本。
可以基于目标模型对第一文本进行特征编码,得到第一特征,以及可以基于该目标模型对K个第二文本分别进行特征编码,得到第二特征。
其中,目标模型可以为可实现语义匹配任务的模型,如Ernie-Sim模型,该模型以Ernie-Sim为编码器,Ernie-Sim模型是针对提升中文短文本语义匹配效果而训练的大模型。
步骤S103:分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度。
在一可选实施方式中,可以确定第一特征和每个第二特征之间的相似度,得到K个相似度。之后,将相同类别下的相似度进行均值计算,得到每个类别对应的第一相似度,从而得到M个类别对应的M个第一相似度。
在另一可选实施方式中,可以将相同类别下对应的第二特征进行均值计算,得到每个类别下的特征表达,即其中,embi表示类别为class下的第i个第二特征,embclsss为类别为class下的特征表达。之后,确定第一特征和每个类别下的特征表达之间的相似度,得到M个类别对应的M个第一相似度。
其中,类别对应的第一相似度表征第一文本与该类别下文本的相似度。
可以通过距离计算方式(如曼哈顿、殴几里得等)确定两个不同特征之间的相似度,也可以计算两个不同特征之间的余弦相似度确定这两个不同特征之间的相似度。
步骤S104:基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。
该步骤中,在一可选实施方式中,可以将M个第一相似度中最大相似度对应的类别确定为第一文本在目标场景下所属的类别。
比如,平台管理场景下存在43个类别,对应有43个第一相似度,其中,报表与数据分析的类别对应的第一相似度最大,为0.8,则将报表与数据分析的类别确定为第一文本在目标场景下所属的目标类别,即第一文本对应的功能平台为用于报表与数据分析的平台。
在另一可选实施方式中,可以将M个第一相似度中最大相似度与某一阈值进行比较,在最大相似度大于或等于该阈值的情况下,将M个类别中最大相似度对应的类别确定为第一文本在目标场景下所属的目标类别,而在最大相似度小于该阈值的情况下,可以获取针对第一文本进行标注的类别,将标注的类别确定为第一文本在所述目标场景下所属的目标类别。
比如,企业人员针对研发项目研发出了一款适应于项目的新功能平台,平台管理场景下之前已存在43个类别,对应有43个第一相似度,其中,报表与数据分析的类别对应的第一相似度最大,为0.5,若阈值设置为0.6,最大相似度小于该阈值,此时,可以输出提示信息,指示这43个类别下可能不存在第一文本对应功能平台所属的类别,用户可以针对第一文本对其对应功能平台进行类别标注,相应的,可以将用户所标注的新类别确定为第一文本对应功能平台所属的目标类别,并将第一文本对应功能平台纳入至企业系统,之后平台管理场景下需管理44个类别的功能平台。
本实施例中,通过将文本分类问题转换成语义匹配任务,预测文本与训练文本经过相同的编码器获得语义特征后,与训练文本的语义特征计算相似度,并基于相似度确定预测文本在目标场景下所属的目标类别。如此,通过转换问题模式,在仅有少量训练样本的场景下,也能获取较好地分类效果,提高文本分类的准确性。
可选的,所述步骤S101具体包括:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
本实施方式中,可以通过确定目标场景下预先规划的类别,来确定目标场景下的M个类别。
比如,平台管理场景下,为适应企业各个部门的办公和研发,可以根据办公规划和研发需求制定功能平台的类别,从可以确定该平台管理场景下的M个类别,如该M个类别中可以包括用于办公的报表与数据分析的平台类别。
又比如,目标场景为搜索引擎上的意图识别场景,M个类别可以为搜索引擎的知识库内可涵盖内容的所有意图类别。
第二文本可以为目标场景下根据预设映射关系确定的第一类型的类别对应的指定文本,也可以为类别对应的描述信息如定义、关键词等,亦或是上述各文本(如历史文本信息、定义、关键词)的任意组合。其中,预设映射关系指的是预先存储的样本至类别的映射关系,如功能平台至类别的映射关系,又如搜索信息至类别的映射关系,根据该预设映射关系,可以确定第一类型的类别对应的指定文本,如指定文本可以为功能平台的定义、介绍等。
比如,目标场景为平台管理场景,若类别下存在文本至该类别的映射,该类别为第一类型的类别,即企业办公系统下可以包括该第一类型的类别下的功能平台,且该功能平台存在平台定义、介绍等指定文本,则将该功能平台存在平台定义、介绍等指定文本确定为该第一类型的类别下的第二文本。若类别下不存在文本至该类别的映射,该类别为第二类型的类别,则可以将该第二类型的类别对应的定义、关键词等描述信息作为该类别对应的第二文本。
又比如,目标场景为搜索引擎上的意图识别场景,第二文本可以为用户在搜索引擎上输入的各意图下的历史搜索信息。若存在一些意图并未有历史搜索信息,则可以将该意图下的关键词等作为第二文本。
如此,通过融合类别下的关键词和定义等描述信息,不仅可以避免某些类别下出现零样本即Zero-Shot的情况,还可以丰富第一数据集中的文本信息,使得目标模型的训练和预测更加准确,进而可以进一步提升目标模型对于文本分类的准确率。
可选的,所述步骤S104具体包括:
在所述M个第一相似度中目标相似度大于或等于第一预设阈值的情况下,将所述M个类别中所述目标相似度对应的类别确定为所述第一文本在所述目标场景下所属的目标类别;
在所述目标相似度小于所述第一预设阈值的情况下,获取针对所述第一文本进行标注的类别,将所述标注的类别确定为所述第一文本在所述目标场景下所属的目标类别;
其中,所述目标相似度为所述M个第一相似度中最大的相似度。
本实施方式中,可以将M个第一相似度中最大相似度与第一预设阈值进行比较,在最大相似度大于或等于第一预设阈值的情况下,将M个类别中最大相似度对应的类别确定为第一文本在目标场景下所属的目标类别,而在最大相似度小于第一预设阈值的情况下,可以获取针对第一文本进行标注的类别,将标注的类别确定为第一文本在所述目标场景下所属的目标类别。
比如,用户在企业办公系统中搜索深度学习工具,平台管理场景下存在43个类别,这43个类别下包括深度学习工具的类别,可以获取该用户在平台管理场景中输入的某一深度学习工具的介绍信息即第一文本,并确定第一文本与这43个类别下的第二文本之间的相似度,得到43个第一相似度。其中,深度学习工具的类别对应的第一相似度最大,为0.8,第一预设阈值设置为0.6,0.8大于0.6,则第一文本对应的功能平台为深度学习工具平台。
又比如,企业人员针对研发项目研发出了一款适应于项目的新功能平台,平台管理场景下之前已存在43个类别,对应有43个第一相似度,其中,报表与数据分析的类别对应的第一相似度最大,为0.5,若第一预设阈值设置为0.6,最大相似度小于第一预设阈值,此时,可以输出提示信息,指示这43个类别下可能不存在第一文本对应功能平台所属的类别,用户可以针对第一文本对其对应功能平台进行类别标注,相应的,可以将用户所标注的新类别确定为第一文本对应功能平台所属的目标类别,并将第一文本对应功能平台纳入至企业系统,之后平台管理场景下需管理44个类别的功能平台。
其中,第一预设阈值可以根据实际情况进行设置,这里不做具体限定。
如此,可以适应于不同应用情况,提高文本分类的灵活性和准确性。
可选的,所述目标场景为给对象系统下的各个功能平台进行分类的场景,所述目标场景下的文本包括所述功能平台的描述信息。
目前,很多企业特别是大型企业,往往研发了各种各样针对内部员工办公、外部用户使用的功能平台,如前端工具、深度学习工具等。不同部门研发的功能平台可能存在部分冗余,并且比较分散,不易于平台管理。因此,针对平台管理场景即目标场景,可以给对象系统下的各个功能平台进行分类。其中,对象系统可以为企业系统如企业办公系统,也可以为用户系统如终端系统。
本实施方式可以很好地解决平台管理场景下的平台分类问题,可以基于功能平台的定义、介绍、名称等描述信息给不同的功能平台进行准确地归类,从而可以实现有效地治理,以便在功能平台众多的情况下进行高效管理。这样,可以赋能企业办公系统下的平台管理场景,帮助用户快速找到工作所需功能平台,最终提升企业员工的办公效率。
如报表和数据分析平台的介绍为:数据报表与分析平台主要负责规划通用报表可视化工具技术,通用数据分析与挖掘技术,通用产品分析技术等。
可选的,所述步骤S103具体包括:
基于所述K个第二特征,分别确定每个类别对应的特征表达,得到所述M个类别对应的M个第三特征;
确定所述第一特征与每个所述第三特征之间的相似度,得到所述M个类别对应的M个第一相似度。
本实施方式中,可以将相同类别下对应的第二特征进行均值计算,得到每个类别下的特征表达,即其中,embi表示类别为class下的第i个第二特征,embclass为类别为class下的特征表达。之后,确定第一特征和每个类别下的特征表达之间的相似度,得到M个类别对应的M个第一相似度。如此,通过第一文本和类别下文本的语义匹配,来进行第一文本的分类,从而可以进一步提高文本分类的准确性。
可选的,所述步骤S102具体包括:
将所述第一文本和所述K个第二文本分别输入至目标模型进行特征编码,得到所述第一特征和所述K个第二特征;
其中,所述目标模型基于所述第一数据集构造的训练数据集训练得到,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别。
本实施方式中,可以通过目标模型分别对第一文本和第二文本进行语义编码,得到第一特征和第二特征。
该目标模型可以为Ernie-Sim模型,其可以为预训练模型,是针对提升中文短文本语义匹配效果而训练的大模型,其中,该预训练模型可以作为网络主架构,并通过成对pairwise的文本匹配方式来训练该目标模型,该目标模型用于进行目标场景下的不同文本之间的语义匹配。
其中,训练数据集基于第一数据集构造得到,训练数据集包括文本集,该文本集为三元集,即三个第二文本,如第一类别下的第二文本A、第一类别下的第二文本B和第二类别下的第二文本C。这三个第二文本可以构造两个成对样本,分别为第二文本A和第二文本B的成对样本,以及第二文本A和第二文本C的成对样本。其中,第二类别相对于第一类别是不同的类别,其可以称之为第一类别下第二文本的负样本,而第一类别下的其中之一可以称之为原始样本,另一可以称之为该原始样本的正样本,如第二文本A可以为原始样本,第二文本B可以为该原始样本的正样本。所述第一类别和所述第二类别均为所述M个类别中的任一类别。
本实施方式中,通过将数据转换为成对pairwise格式,通过负采样,构建大量正负样本对,可以缓解小样本训练数据不足的问题,提高目标模型的训练效果,使得目标模型优化地更好,从而可以提高目标模型的特征编码能力,提高文本分类的准确性。
比如,企业办公系统的特点通常是功能平台的类别较多,且每个类别下的功能平台数量比较少,在平台管理场景下,通过将数据转换为成对pairwise格式,通过负采样,构建大量正负样本对,以进行数据增强,这样可以大量扩充训练数据,极大地提升小样本情况下的分类准确性。
另外,通过训练用于进行目标场景下的不同文本之间的语义匹配的目标模型,可以巧妙地文本分类问题转化成语义匹配问题,从而可以避免样本过少而导致的模型过拟合问题。
图2为一具体示例的文本分类方法的流程示意图,如图2所示,分别将第一文本和K个第二文本输入至目标模型进行特征编码,可以得到第一特征和K个第二特征,基于K个第二特征,确定每个类别下的特征表征,之后计算第一特征和每个类别下的特征表征之间的余弦相似度,从余弦相似度中确定最大的余弦相似度,这最大的余弦相似度对应的类别作为第一文本所属的目标类别,从而可以实现第一文本的分类。
第二实施例
如图3所示,本公开提供一种模型训练方法,包括如下步骤:
步骤S301:获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
步骤S302:基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
步骤S303:将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
步骤S304:基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
步骤S305:基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数。
本实施例中,在步骤S301中,目标场景、第一数据集、类别和第二文本的概念,以及第一数据集的获取方式已经在第一实施例中详细阐述,这里不进行赘述。
相关技术中,文本分类范式将<样本,类别>对作为输入数据,通过训练网络模型,学习到“f(x)→y”(即文本到类别)的映射,以此来达到文本分类的目的,<样本,类别>的文本分类范式如表1所示。此文本分类范式在训练数据充足时能够获得较好地效果。但是,在类别的样本数量过少的情况下,模型训练容易出现过拟合的问题。特别当类别数量比较多时,其文本分类的效果会更差。
表1<样本,类别>数据形式表
基于此,在步骤S302中,模型训练过程中,将分类任务变为成对pairwise匹配任务,通过负采样扩充训练数据,以此进行数据增强,可以极大地提升小样本情况下的分类准确率。
具体的,可以基于第一训练集构造目标模型的训练数据集,该目标模型可以为Ernie-Sim模型,其可以为预训练模型,是针对提升中文短文本语义匹配效果而训练的大模型,其中,该预训练模型可以作为网络主架构,并通过成对pairwise的文本匹配方式来训练该目标模型,该目标模型用于进行目标场景下的不同文本之间的语义匹配。
训练数据集可以包括文本集,该文本集为三元集,即三个第二文本,如第一类别下的第二文本A、第一类别下的第二文本B和第二类别下的第二文本C。这三个第二文本可以构造两个成对样本,分别为第二文本A和第二文本B的成对样本,以及第二文本A和第二文本C的成对样本。其中,第二类别相对于第一类别是不同的类别,其可以称之为第一类别下第二文本的负样本,而第一类别下的其中之一可以称之为原始样本,另一可以称之为该原始样本的正样本,如第二文本A可以为原始样本,第二文本B可以为该原始样本的正样本,<原始样本,正样本,负样本>数据形式如下表2所示。
表2<原始样本,正样本,负样本>数据形式表
在步骤S303中,将训练数据集中各个文本集分别输入至目标模型进行特征编码,得到文本集中各第二文本的第四特征,每个第二文本对应一个第四特征,得到三个第四特征。
在步骤S304中,该目标模型可以为单塔匹配模型,如图4所示,为一具体示例的模型训练方法的流程示意图,可知,本实施例是通过成对pairwise单塔文本匹配的方式进行目标模型的训练,具体是输入文本集(包括原始样本、正样本和负样本)进行特征编码,得到三个第四特征,基于这三个第四特征,通过一次文本匹配,分别确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度。
比如,文本集为<原始样本(如第二文本A),正样本(如第二文本B),负样本(如第二文本C)>时,可以确定原始样本和正样本之间的第二相似度,以及确定原始样本和负样本之间的第三相似度。具体可以对输入的第二文本分别经过Ernie-Sim模型编码后,对<query,doc+>即原始样本和正样本的匹配对和<query,doc->即原始样本和负样本之间的匹配对,采用余弦相似度计算语义匹配得分,分别用sim<query,doc+>和sim<query,doc->表示。其中,第二相似度和第三相似度的确定方式与第一实施例中确定两个不同特征之间的相似度的方式类似,这里不进行赘述。
另外,还可以计算正样本和负样本之间的第三相似度,即sim<doc+,doc->,即所确定的第三相似度的数量可以包括两个。
在步骤S305中,可以基于第二相似度和第三相似度,设计损失函数确定目标模型的网络损失值,基于该网络损失值,更新该目标模型的网络参数。
在一可选实施方式中,损失函数可以最大化第二相似度与第三相似度的差异值,来进行目标模型的网络参数的更新。在另一可选实施方式中,损失函数在最大化第二相似度与第三相似度的差异值的同时,还可以考虑第二相似度和第三相似度之间的关系,如需要满足第二相似度大于第三相似度,来进行目标模型的网络参数的更新。
本实施例中,通过将数据转换为成对pairwise格式,通过负采样,构建大量正负样本对,这样可以缓解小样本训练数据不足的问题,提高目标模型的训练效果,使得目标模型优化地更好,从而可以提高目标模型的特征编码能力,提高文本分类的准确性。
可选的,所述步骤302具体包括:
针对每个目标文本,将所述目标文本与所述第一类别下的第二文本中除所述目标文本之外的其他第二文本进行组合,得到至少一个二元文本组,所述二元文本组包括所述目标文本、以及所述第一类别下的第二文本中除所述目标文本之外的一个其他第二文本,所述目标文本为所述第一类别下的任一第二文本;
将所述二元文本组分别和每个所述第二类别下的第二文本进行笛卡尔积运算,得到所述训练数据集。
本实施方式中,其训练数据集具体构造流程如下:
初始化训练数据集train_data为空;
针对M个类别中类别标签i,执行以下步骤,其中,类别标签i为1,2…,M:
将第一数据集分为类别标签为i的数据Si和类别标签不为i的数据S≠i;比如,类别标签1中的文本为第二文本A和第二文本B;类别标签2中的文本为第二文本C和第二文本D;
将Si中的样本两两组合,形成正样本对poscombination,分别为<第二文本A,第二文本B>和<第二文本B,第二文本A>,其中,在<第二文本A,第二文本B>中,第二文本A为原始样本,第二文本B为正样本,<第二文本B,第二文本A>中,第二文本B为原始样本,第二文本A为正样本;
对poscombination和S≠i做笛卡尔积,产生数据集合dataproduct,分别为<第二文本A,第二文本B,第二文本C>、<第二文本A,第二文本B,第二文本D>、<第二文本B,第二文本A,第二文本C>和<第二文本B,第二文本A,第二文本D>;
将dataproduct注入至train_data中,得到训练数据集。
如此,正样本的成对匹配以及正样本对与负样本的三元匹配,可以大量扩充训练数据,从而进一步提高目标模型的训练效果。
可选的,所述步骤S304具体包括:
基于所述目标文本的第四特征和所述文本集中与所述目标文本同一类别的第二文本的第四特征,确定所述第二相似度;
基于所述目标文本的第四特征和所述文本集中与所述目标文本不同类别的第二文本的第四特征,确定所述第三相似度。
本实施方式中,是针对目标文本来构建文本集,目标文本称之为原始样本,第三相似度为原始样本与负样本之间的相似度。如此,可以避免不同类别下的两个第二文本之间的相似度计算的冗余,保证模型训练过程的简洁性。
可选的,所述步骤S305具体包括:
确定所述第二相似度和所述第三相似度之间的差异值;
将第二预设阈值与所述差异值进行比较,得到差异水平值,所述差异水平值指示所述第二预设阈值与所述差异值之间的差值大小;
将所述差异水平值与第三预设阈值进行比较,得到所述目标模型的网络损失值;
基于所述网络损失值,更新所述目标模型的网络参数。
本实施方式中,可以通过sim<query,doc+>-sim<query,doc->计算第二相似度和所述第三相似度之间的差异值,将第二预设阈值与差异值进行比较,得到差异水平值,用ξ-sim<query,doc+>+sim<query,doc->表示,其中,ξ为第二预设阈值,第二预设阈值可以根据实际情况进行设置,其设置为至少大于0的值,如设置为0.5。
差异水平值指示第二预设阈值与差异值之间的差值的大小,若差异水平值大于0,则表示第二相似度与第三相似度之间的差异值小于第二预设阈值,若差异水平值小于或等于0,则表示第二相似度与第三相似度之间的差异值大于或等于第二预设阈值。
将所述差异水平值与第三预设阈值进行比较,得到所述目标模型的网络损失值,其中,第三预设阈值可以设置为0。
在一可选实施方式中,可以通过margin损失函数计算目标模型的网络损失值,以此来优化网络参数。即网络损失值Lossmargin=max{0,ξ-sim<query,doc+>+sim<query,doc->}。在网络损失值收敛到0时,则确定该目标模型训练完成。
由于目标模型是以语义相似为核心进行训练的,在目标模型训练完成的情况下,该目标模型的语义匹配可以满足两个条件,分别为相同类别下的文本之间的相似度大于不同类别下的文本之间的相似度,且相同类别下的文本之间的相似度与不同类别下的文本之间的相似度的差异值大于或等于第二预设阈值。如此,在文本分类的预测阶段,通过目标模型对文本的语义匹配,可以准确地将语义匹配任务又转换至文本分类任务,提高文本分类的准确性。
可选的,所述步骤S301具体包括:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
本实施方式中,可以通过确定目标场景下预先规划的类别,来确定目标场景下的M个类别。
比如,平台管理场景下,为适应企业各个部门的办公和研发,可以根据办公规划和研发需求制定功能平台的类别,从可以确定该平台管理场景下的M个类别,如该M个类别中可以包括用于办公的报表与数据分析的平台类别。
又比如,目标场景为搜索引擎上的意图识别场景,M个类别可以为搜索引擎的知识库内可涵盖内容的所有意图类别。
第二文本可以为目标场景下的历史文本,也可以为对应类别的定义、关键词等,亦或是上述各文本(如历史文本信息、定义、关键词)的任意组合。
比如,目标场景为平台管理场景,若类别下存在文本至该类别的映射,即企业办公系统下可以包括该类别下的功能平台,且该功能平台存在平台定义、介绍等文本,则该类别下的第二文本中可以包括该类别下功能平台的定义、介绍等文本。
若类别下不存在文本至该类别的映射,即预先规划的部分类别可能没有对应的标注样本。则可以将该类别对应的描述信息如类别的定义、关键词等作为该类别下的第二文本。例如,“报表与数据分析”类对应的类别定义为“数据报表与分析主要负责规划通用报表可视化工具技术,通用数据分析与挖掘技术,通用产品分析技术等”。例如,类别“自然语言处理”对应的关键词为“自然语言处理、文本分类、智能问答、对话系统、情感分析、阅读理解、命名实体识别、时间抽取、关系抽取、实体抽取、事件抽取、翻译、分词等”。
又比如,目标场景为搜索引擎上的意图识别场景,第二文本可以为用户在搜索引擎上输入的各意图下的历史搜索信息。若存在一些意图并未有历史搜索信息,则可以将该意图下的关键词等作为第二文本。
如此,通过融合类别下的关键词和定义等描述信息,不仅可以避免某些类别下出现零样本即Zero-Shot的情况,还可以丰富第一数据集中的文本信息,使得目标模型的训练和预测更加准确,进而可以进一步提升目标模型对于文本分类的准确率。
可选的,每个类别下对应的第二文本的数量小于或等于第四预设阈值。其中,第四预设阈值可以根据实际情况进行设置,通常设置不是很大。如第四预设阈值为20,表示类别下对应的第二文本的数量在20内,在这种场景下,表示目标场景下的样本少。
本实施方式是通过少量样本进行学习,即小样本学习(Few-shot Learning),在小样本学习的场景下,若采用传统方式进行模型训练,其模型性能将严重下降。
本实施方式中,在样本较少时,通过模型任务转换,具体在模型训练时将文本分类任务转换为语义匹配任务,这样可以避免样本过少导致的模型过拟合问题,如此在预测时通过目标模型进行语义匹配以实现文本分类任务,可以提高文本分类的准确性。通过数据增强,具体将<样本,类别>数据形式转化<原始样本,正样本,负样本>数据形式,通过负采样操作,可以极大地扩充了训练数据,以便高效地训练目标模型。通过引入额外类别信息,如引入类别定义、关键词等描述信息,可以进一步提升分类的准确率。上述三者结合处理后,可以使得文本分类的准确率高,达到了实用的标准。
如此,可以在低资源场景(即小样本场景)下,降低对样本数量的要求,这样可以解决实际问题是一个迫切的需求,以解决训练资源匮乏场景下的模型训练,具有较强地实践意义。比如,企业办公系统中的功能平台数量少,给该企业办公系统中的功能平台进行归类的场景是一个小样本学习场景,通过本实施例的模型训练方法对模型进行训练,以使用训练好的模型对功能平台进行分类,可以赋能企业办公下的平台管理场景,帮助用户快速找到工作所需平台,提升企业员工的办公效率。
图5是一具体示例的文本分类服务的流程示意图,可以部署文本分类服务,以实现对企业办公系统下的功能平台进行高效管理。如图5所示,文本分类服务可以包括模型的离线训练和模型的在线预测,模型的离线训练方式可以采用第二实施例中的模型训练方法,而模型的在线预测可以采用第一实施例中的文本分类方法。需要说明的是,在目标模型训练完成的情况下,可以输出训练数据集中各个文本的特征表达,以用于模型的在线预测,这样可以避免模型的多次编码,提高文本分类的预测效率。
第三实施例
如图6所示,本公开提供一种文本分类装置,包括:
第一获取模块601,用于获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
第一特征编码模块602,用于对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;
第一确定模块603,用于分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;
第二确定模块604,用于基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。
可选的,所述第一获取模块601,具体用于:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
可选的,所述第二确定模块604,具体用于:
在所述M个第一相似度中目标相似度大于或等于第一预设阈值的情况下,将所述M个类别中所述目标相似度对应的类别确定为所述第一文本在所述目标场景下所属的目标类别;
在所述目标相似度小于所述第一预设阈值的情况下,获取针对所述第一文本进行标注的类别,将所述标注的类别确定为所述第一文本在所述目标场景下所属的目标类别;
其中,所述目标相似度为所述M个第一相似度中最大的相似度。
可选的,所述目标场景为给对象系统下的各个功能平台进行分类的场景,所述目标场景下的文本包括所述功能平台的描述信息。
可选的,所述第一确定模块603,具体用于:
基于所述K个第二特征,分别确定每个类别对应的特征表达,得到所述M个类别对应的M个第三特征;
确定所述第一特征与每个所述第三特征之间的相似度,得到所述M个类别对应的M个第一相似度。
可选的,所述第一特征编码模块602,具体用于:
将所述第一文本和所述K个第二文本分别输入至目标模型进行特征编码,得到所述第一特征和所述K个第二特征;
其中,所述目标模型基于所述第一数据集构造的训练数据集训练得到,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别。
本公开提供的文本分类装置600能够实现文本分类方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
第四实施例
如图7所示,本公开提供一种模型训练装置,包括:
第二获取模块701,用于获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
构造模块702,用于基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
第二特征编码模块703,用于将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
第三确定模块704,用于基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
更新模块705,用于基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数。
可选的,所述构造模块702,具体用于:
针对每个目标文本,将所述目标文本与所述第一类别下的第二文本中除所述目标文本之外的其他第二文本进行组合,得到至少一个二元文本组,所述二元文本组包括所述目标文本、以及所述第一类别下的第二文本中除所述目标文本之外的一个其他第二文本,所述目标文本为所述第一类别下的任一第二文本;
将所述二元文本组分别和每个所述第二类别下的第二文本进行笛卡尔积运算,得到所述训练数据集。
可选的,所述第三确定模块704,具体用于:
基于所述目标文本的第四特征和所述文本集中与所述目标文本同一类别的第二文本的第四特征,确定所述第二相似度;
基于所述目标文本的第四特征和所述文本集中与所述目标文本不同类别的第二文本的第四特征,确定所述第三相似度。
可选的,所述更新模块705,具体用于:
确定所述第二相似度和所述第三相似度之间的差异值;
将第二预设阈值与所述差异值进行比较,得到所述第二相似度和所述第三相似度之间的差异水平值;
将所述差异水平值与第三预设阈值进行比较,得到所述目标模型的网络损失值;
基于所述网络损失值,更新所述目标模型的网络参数。
可选的,所述第二获取模块701,具体用于:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
可选的,每个类别下对应的第二文本的数量小于或等于第四预设阈值。
本公开提供的模型训练装置700能够实现模型训练方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本分类方法或模型训练方法。例如,在一些实施例中,文本分类方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文本分类方法的一个或多个步骤,或者执行上文描述的模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本分类方法或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种模型训练方法,包括:
获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数;
所述基于所述第一数据集,构造目标模型的训练数据集,包括:
针对每个目标文本,将所述目标文本与所述第一类别下的第二文本中除所述目标文本之外的其他第二文本进行组合,得到至少一个二元文本组,所述二元文本组包括所述目标文本、以及所述第一类别下的第二文本中除所述目标文本之外的一个其他第二文本,所述目标文本为所述第一类别下的任一第二文本;
将所述二元文本组分别和每个所述第二类别下的第二文本进行笛卡尔积运算,得到所述训练数据集;
每个类别下对应的第二文本的数量小于或等于第四预设阈值。
2.根据权利要求1所述的方法,其中,所述基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度,包括:
基于所述目标文本的第四特征和所述文本集中与所述目标文本同一类别的第二文本的第四特征,确定所述第二相似度;
基于所述目标文本的第四特征和所述文本集中与所述目标文本不同类别的第二文本的第四特征,确定所述第三相似度。
3.根据权利要求1所述的方法,其中,所述基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数,包括:
确定所述第二相似度和所述第三相似度之间的差异值;
将第二预设阈值与所述差异值进行比较,得到差异水平值,所述差异水平值指示所述第二预设阈值与所述差异值之间的差值大小;
将所述差异水平值与第三预设阈值进行比较,得到所述目标模型的网络损失值;
基于所述网络损失值,更新所述目标模型的网络参数。
4.根据权利要求1所述的方法,其中,所述获取目标场景下的第一数据集,包括:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
5.根据权利要求1所述的方法,其中,所述基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数之后,所述方法还包括:
获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;
分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;
基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别;
所述对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征,包括:
将所述第一文本和所述K个第二文本分别输入至目标模型进行特征编码,得到所述第一特征和所述K个第二特征。
6.根据权利要求5所述的方法,其中,所述获取所述目标场景下的第一数据集,包括:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
7.根据权利要求5所述的方法,其中,所述基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别,包括:
在所述M个第一相似度中目标相似度大于或等于第一预设阈值的情况下,将所述M个类别中所述目标相似度对应的类别确定为所述第一文本在所述目标场景下所属的目标类别;
在所述目标相似度小于所述第一预设阈值的情况下,获取针对所述第一文本进行标注的类别,将所述标注的类别确定为所述第一文本在所述目标场景下所属的目标类别;
其中,所述目标相似度为所述M个第一相似度中最大的相似度。
8.根据权利要求5所述的方法,其中,所述目标场景为给对象系统下的各个功能平台进行分类的场景,所述目标场景下的文本包括所述功能平台的描述信息。
9.根据权利要求5所述的方法,其中,所述分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度,包括:
基于所述K个第二特征,分别确定每个类别对应的特征表达,得到所述M个类别对应的M个第三特征;
确定所述第一特征与每个所述第三特征之间的相似度,得到所述M个类别对应的M个第一相似度。
10.一种模型训练装置,包括:
第二获取模块,用于获取目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
构造模块,用于基于所述第一数据集,构造目标模型的训练数据集,所述目标模型用于进行所述目标场景下的不同文本之间的语义匹配,所述训练数据集包括文本集,所述文本集包括第一类别下不同的两个第二文本和与第一类别不同的第二类别下的一个第二文本,所述第一类别和所述第二类别为所述M个类别中的两个不同类别;
第二特征编码模块,用于将所述文本集输入至所述目标模型进行特征编码,得到所述文本集的三个第四特征;
第三确定模块,用于基于所述三个第四特征,确定相同类别下的两个第二文本之间的第二相似度和不同类别下的两个第二文本之间的第三相似度;
更新模块,用于基于所述第二相似度和所述第三相似度,更新所述目标模型的网络参数;
所述构造模块,具体用于:
针对每个目标文本,将所述目标文本与所述第一类别下的第二文本中除所述目标文本之外的其他第二文本进行组合,得到至少一个二元文本组,所述二元文本组包括所述目标文本、以及所述第一类别下的第二文本中除所述目标文本之外的一个其他第二文本,所述目标文本为所述第一类别下的任一第二文本;
将所述二元文本组分别和每个所述第二类别下的第二文本进行笛卡尔积运算,得到所述训练数据集;
每个类别下对应的第二文本的数量小于或等于第四预设阈值。
11.根据权利要求10所述的装置,其中,所述第三确定模块,具体用于:
基于所述目标文本的第四特征和所述文本集中与所述目标文本同一类别的第二文本的第四特征,确定所述第二相似度;
基于所述目标文本的第四特征和所述文本集中与所述目标文本不同类别的第二文本的第四特征,确定所述第三相似度。
12.根据权利要求10所述的装置,其中,所述更新模块,具体用于:
确定所述第二相似度和所述第三相似度之间的差异值;
将第二预设阈值与所述差异值进行比较,得到差异水平值,所述差异水平值指示所述第二预设阈值与所述差异值之间的差值大小;
将所述差异水平值与第三预设阈值进行比较,得到所述目标模型的网络损失值;
基于所述网络损失值,更新所述目标模型的网络参数。
13.根据权利要求10所述的装置,其中,所述第二获取模块,具体用于:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
14.根据权利要求10所述的装置,还包括:
第一获取模块,用于获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本,M和K均为大于1的整数;
第一特征编码模块,用于对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;
第一确定模块,用于分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;
第二确定模块,用于基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别;
所述第一特征编码模块,具体用于:
将所述第一文本和所述K个第二文本分别输入至目标模型进行特征编码,得到所述第一特征和所述K个第二特征。
15.根据权利要求14所述的装置,其中,所述第一获取模块,具体用于:
确定所述目标场景下的所述M个类别;
在所述M个类别中包括第一类型的类别的情况下,根据预设映射关系确定所述第一类型的类别对应的指定文本为所述第一类型的类别对应的第二文本,所述第一类型指示所述类别下存在文本至所述类别的映射;
在所述M个类别中包括第二类型的类别的情况下,将所述第二类型的类别对应的描述信息确定为所述第二类型的类别对应的第二文本,所述第二类型指示所述类别下不存在文本至所述类别的映射。
16.根据权利要求14所述的装置,其中,所述第二确定模块,具体用于:
在所述M个第一相似度中目标相似度大于或等于第一预设阈值的情况下,将所述M个类别中所述目标相似度对应的类别确定为所述第一文本在所述目标场景下所属的目标类别;
在所述目标相似度小于所述第一预设阈值的情况下,获取针对所述第一文本进行标注的类别,将所述标注的类别确定为所述第一文本在所述目标场景下所属的目标类别;
其中,所述目标相似度为所述M个第一相似度中最大的相似度。
17.根据权利要求14所述的装置,其中,所述目标场景为给对象系统下的各个功能平台进行分类的场景,所述目标场景下的文本包括所述功能平台的描述信息。
18.根据权利要求14所述的装置,其中,所述第一确定模块,具体用于:
基于所述K个第二特征,分别确定每个类别对应的特征表达,得到所述M个类别对应的M个第三特征;
确定所述第一特征与每个所述第三特征之间的相似度,得到所述M个类别对应的M个第一相似度。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
CN202211357036.6A 2022-11-01 2022-11-01 文本分类方法、模型训练方法、相关装置及电子设备 Active CN115658903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211357036.6A CN115658903B (zh) 2022-11-01 2022-11-01 文本分类方法、模型训练方法、相关装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211357036.6A CN115658903B (zh) 2022-11-01 2022-11-01 文本分类方法、模型训练方法、相关装置及电子设备

Publications (2)

Publication Number Publication Date
CN115658903A CN115658903A (zh) 2023-01-31
CN115658903B true CN115658903B (zh) 2023-09-05

Family

ID=84995423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211357036.6A Active CN115658903B (zh) 2022-11-01 2022-11-01 文本分类方法、模型训练方法、相关装置及电子设备

Country Status (1)

Country Link
CN (1) CN115658903B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117972097A (zh) * 2024-03-29 2024-05-03 长城汽车股份有限公司 文本的分类方法、分类装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN113705554A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 图像识别模型的训练方法、装置、设备及存储介质
CN114281936A (zh) * 2021-09-27 2022-04-05 腾讯科技(深圳)有限公司 分类方法、装置、计算机设备及存储介质
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114490923A (zh) * 2021-11-29 2022-05-13 腾讯科技(深圳)有限公司 相似文本匹配模型的训练方法、装置、设备及存储介质
CN114756677A (zh) * 2022-03-21 2022-07-15 马上消费金融股份有限公司 样本生成方法、文本分类模型的训练方法及文本分类方法
CN114911929A (zh) * 2022-04-11 2022-08-16 北京捷通华声科技股份有限公司 分类模型训练方法、文本挖掘方法、设备及存储介质
CN115130538A (zh) * 2022-04-20 2022-09-30 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本处理的方法、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN113705554A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 图像识别模型的训练方法、装置、设备及存储介质
CN114281936A (zh) * 2021-09-27 2022-04-05 腾讯科技(深圳)有限公司 分类方法、装置、计算机设备及存储介质
CN114490923A (zh) * 2021-11-29 2022-05-13 腾讯科技(深圳)有限公司 相似文本匹配模型的训练方法、装置、设备及存储介质
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114756677A (zh) * 2022-03-21 2022-07-15 马上消费金融股份有限公司 样本生成方法、文本分类模型的训练方法及文本分类方法
CN114911929A (zh) * 2022-04-11 2022-08-16 北京捷通华声科技股份有限公司 分类模型训练方法、文本挖掘方法、设备及存储介质
CN115130538A (zh) * 2022-04-20 2022-09-30 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本处理的方法、设备及介质

Also Published As

Publication number Publication date
CN115658903A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
US20220383190A1 (en) Method of training classification model, method of classifying sample, and device
EP4141733A1 (en) Model training method and apparatus, electronic device, and storage medium
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20230094730A1 (en) Model training method and method for human-machine interaction
CN113220835A (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN115658903B (zh) 文本分类方法、模型训练方法、相关装置及电子设备
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN116955561A (zh) 问答方法、装置、电子设备以及存储介质
CN117171296A (zh) 信息获取方法、装置和电子设备
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN112560466B (zh) 链接实体关联方法、装置、电子设备和存储介质
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN112784599A (zh) 诗句的生成方法、装置、电子设备和存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN113807099B (zh) 实体信息识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant