CN115080749A - 一种基于自监督训练的弱监督文本分类方法、系统和装置 - Google Patents

一种基于自监督训练的弱监督文本分类方法、系统和装置 Download PDF

Info

Publication number
CN115080749A
CN115080749A CN202210980845.6A CN202210980845A CN115080749A CN 115080749 A CN115080749 A CN 115080749A CN 202210980845 A CN202210980845 A CN 202210980845A CN 115080749 A CN115080749 A CN 115080749A
Authority
CN
China
Prior art keywords
training
text classification
model
self
supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210980845.6A
Other languages
English (en)
Other versions
CN115080749B (zh
Inventor
陈岱渊
杨非
钟昊文
杨羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210980845.6A priority Critical patent/CN115080749B/zh
Publication of CN115080749A publication Critical patent/CN115080749A/zh
Application granted granted Critical
Publication of CN115080749B publication Critical patent/CN115080749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置,包括如下步骤:S1:获取待标注文本数据和对应的类别标签集合;S2:获取预训练模型;S3:将预训练模型部分权重迁移至文本分类模型;S4:通过自监督伪标策略获得文本分类伪标签;本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。

Description

一种基于自监督训练的弱监督文本分类方法、系统和装置
技术领域
本发明涉及深度学习和文本分类技术领域,特别涉及一种基于自监督训练的弱监督文本分类方法、系统和装置。
背景技术
传统文本分类需要获取大量已标注数据进行深度模型训练,但人工标注过程会花费大量的人力、财力和时间成本。 弱监督文本分类方法区别于传统方法,仅需要待标注文本数据和对应的类别标签集合,就可实现对每个样本进行分类。得益于资源算力的极大提升,已学习到海量信息的大规模预训练自然语言模型逐渐成为弱监督文本分类场景方法的技术基础。并且,基于待标注文本数据对预训练模型进行迁移学习,使得预训练模型能够适应于待标注数据集完成文本分类任务。
发明内容
本发明的目的在于提供一种基于自监督训练的弱监督文本分类方法、系统和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于自监督训练的弱监督文本分类方法,包括如下步骤:
S1:获取待标注文本数据和对应的类别标签集合;
S2:获取预训练模型;
S3:将预训练模型部分权重迁移至文本分类模型;
S4:通过自监督伪标策略获得文本分类伪标签;
S5:通过自监督方法训练文本分类模型;
S6:判断文本分类模型是否收敛,若否,则重复步骤四至步骤六;
S7:获取文本分类模型,对待标注数据集进行分类。
作为优选的,所述预训练模型包括任意输入自然语言语料经掩码语言模型任务训练的已收敛的自然语言模型。
作为优选的,所述步骤S2根据实际场景选择若干个预训练模型,对分类结果求平均或求最大值或加权和方式,确定最终标注结果,所述实际场景包括可支持的算力大小,可接受的标注速度。
作为优选的,所述文本分类模型包括特征提取器和分类器,其中文本分类模型的特征提取器和预训练模型的特征提取器相同;通过迁移预训练模型的分类器中类别标签集合对应的权重至文本分类模型,进行文本分类模型的分类器初始化。
作为优选的,所述步骤S2获取的预训练模型的分类器的维度取决于初始训练模型所对应的字典包含的单词数量,所述文本分类模型的分类器的维度为实际文本分类场景类别数,所述字典包含的单词数量至少为实际文本分类场景类别数的100倍。
作为优选的,所述步骤S4的具体子步骤如下:
S41:基于文本分类模型的分类器的输出概率对输出特征做加权聚类,获得初始聚类中心;
S42:计算所有输出特征和每个聚类中心的余弦相似度,最小距离所对应的聚类中心为初始伪标注结果;
S43:基于所述初始伪标注结果通过减小类内差异,更新聚类中心和伪标注结果;
S44:获得自监督的伪标注结果后,利用交叉熵损失函数进行有监督训练。
作为优选的,所述步骤S5采用信息最大化损失函数,通过批次文本数据的分类输出概率的平均值,以近似逼近整体概率分布,使训练文本分类模型输出具体类别确定,且整体分布离散。
作为优选的,所述步骤S6的判断内容包括如下一项或多项结合:
P1:设置最大训练时间,达到最大训练时间则训练结束;
P2:设置最大训练迭代数,达到最大训练迭代数则训练结束;
P3:设置损失函数变化阈值,若损失函数变化小于阈值则训练结束。
本发明公开了一种基于自监督训练的弱监督文本分类系统,包括如下模块:
获取模块:用于获取用户输入的待标注文本数据和类别标签集合;
训练模块:首先用于通过获取模块输入信息确定预训练模型,然后通过权重迁移方法将预训练模型部分权重迁移至文本分类模型,接着根据自监督伪标策略获得文本分类伪标签,基于生成的伪标签,通过自监督方法训练初始化后的文本分类模型,通过迭代优化来更新文本分类模型参数,直至模型收敛,训练过程结束;
输出模块:用于获取已收敛的文本分类模型,并通过模型推理过程对待标注数据集进行标注。
本发明公开了一种基于自监督训练的弱监督文本分类装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于自监督训练的弱监督文本分类方法。
本发明的有益效果:
1、本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。
2、目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。
附图说明
图1是本发明实施例提供的一种基于自监督训练的弱监督文本分类方法的流程图;
图2是本发明实施例提供的一种基于自监督训练的弱监督文本分类系统的结构图;
图3是本发明实施例提供的一种基于自监督训练的弱监督文本分类装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明实施例提供的一种基于自监督训练的弱监督文本分类方法,包括如下步骤:
S1:获取待标注文本数据和对应的类别标签集合;
具体地,为了后文能具体详细阐述方法步骤,在此分别用N 和K 分别代表待标注文本大小和类别标签个数,用
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
分别表示待标注文本和类别标签集合。
S2:获取预训练模型;
可选地,所述预训练模型可以是任意输入大量自然语言语料经掩码语言模型(Masked Language Model)任务训练的已收敛的自然语言模型。常用的模型有:BERT,transformer-XL,XLNet,RoBERTa,ALBERT,ERNIE等。但这些模型均可抽象为由特征提取器E和分类器
Figure DEST_PATH_IMAGE003
两部分组成。
可选地,为了保证文本分类精度,可根据实际场景(可支持的算力大小,可接受的标注速度等)选择多个预训练模型,对分类结果求平均或求最大值或加权和方式,确定最终标注结果。
S3:将预训练模型部分权重迁移至文本分类模型;
具体地,文本分类模型由E和
Figure DEST_PATH_IMAGE004
组成,所述S2获取的模型由E和
Figure DEST_PATH_IMAGE005
组成。E代表特征提取器,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
都代表分类器,前者的维度主要取决于初始训练模型所对应的字典大小,后者的维度为实际文本分类场景类别数
Figure DEST_PATH_IMAGE008
,通常而言所述字典大小远远大于
Figure 411984DEST_PATH_IMAGE008
。文本分类模型的特征提取器和预训练模型的特征提取器相同,通过将每个
Figure DEST_PATH_IMAGE009
对应
Figure DEST_PATH_IMAGE010
权重迁移至分类模型,初始化
Figure DEST_PATH_IMAGE011
S4:通过自监督伪标策略获得文本分类伪标签;
具体地,特征提取器E的输出特征表示为:
Figure DEST_PATH_IMAGE012
,用
Figure DEST_PATH_IMAGE013
代表某个位置
Figure DEST_PATH_IMAGE014
对应的特征,分类器
Figure DEST_PATH_IMAGE015
的输出概率表示为:
Figure DEST_PATH_IMAGE016
S41:基于
Figure DEST_PATH_IMAGE017
对输出特征
Figure DEST_PATH_IMAGE018
做加权聚类,获得初始聚类中心:
Figure DEST_PATH_IMAGE019
S42:计算所有输出特征和每个聚类中心的余弦相似度,最小距离所对应的聚类中心为初始伪标注结果:
Figure DEST_PATH_IMAGE020
S43:基于所述初始伪标注结果通过减小类内差异,更新聚类中心和伪标注结果:
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
S44:获得自监督的伪标注结果
Figure DEST_PATH_IMAGE023
后,利用交叉熵损失函数进行有监督训练:
Figure DEST_PATH_IMAGE025
S5:通过自监督方法训练文本分类模型;
具体地,理想的分类输出概率应该是具有强确定性的,类似于独热编码;同时分类输出概率分布应该不仅集中于某些突出类别,应该较为均匀地分布于整个类别标签空间中。为了达到上述要求,采用信息最大化损失函数:
Figure DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE027
代表一个批次(batch)文本数据的
Figure DEST_PATH_IMAGE028
的平均值,以近似逼近整体概率分布。利用上述损失函数,使得训练文本分类模型输出具体类别确定,而整体分布离散。
S6:判断文本分类模型是否收敛,若否,则重复步骤四至步骤六;
进一步地,判断内容包括如下一项或多项结合:
1)设置最大训练时间,达到最大训练时间则训练结束;
2)设置最大训练迭代数,达到最大训练迭代数则训练结束;
3)设置损失函数变化阈值,若损失函数变化小于阈值则训练结束。
S7:获取文本分类模型,对待标注数据集进行分类。
如图2所示,本发明实施例提供的一种基于自监督训练的弱监督文本分类系统,包括如下模块:
1、获取模块S100,用于获取用户输入的待标注文本数据和类别标签集合。为了更加直观说明,图2中展示了部分待标注文本和类别标签集合。
具体地,S100应对获取到的所述数据进行合法性判定:1)待标注文本合法性。主要以文本数据中是否含有乱码,是否存在多余空格,是否拼写错误为主。2)类别标签合法性。需判断用户提供的类别标签集合的拼写正确性,以及类别标签集合大小应大于等于2。
以上判定过程中,若发现错误,则及时提示相应错误。直到获取过程结束为止。
2、训练模块S101,首先用于通过S100输入信息确定预训练模型。然后通过权重迁移方法将预训练模型部分权重迁移至文本分类模型。接着根据自监督伪标策略获得文本分类伪标签,基于生成的伪标签,通过自监督方法训练初始化后的文本分类模型,通过迭代优化来更新文本分类模型参数,直至模型收敛,训练过程结束。
3、输出模块S102,用于获取训练完后的已收敛的文本分类模型,以及通过模型推理过程对待标注数据集进行分类获得已标注数据集。
参见图3,本发明实施例还提供了一种基于自监督训练的弱监督文本分类装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于自监督训练的弱监督文本分类方法。
本发明一种基于自监督训练的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明一种基于自监督训练的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于自监督训练的弱监督文本分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自监督训练的弱监督文本分类方法,其特征在于:包括如下步骤:
S1:获取待标注文本数据和对应的类别标签集合;
S2:获取预训练模型;
S3:将预训练模型部分权重迁移至文本分类模型;
S4:通过自监督伪标策略获得文本分类伪标签;
S5:通过自监督方法训练文本分类模型;
S6:判断文本分类模型是否收敛,若否,则重复步骤四至步骤六;
S7:获取文本分类模型,对待标注数据集进行分类。
2.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述预训练模型包括任意输入自然语言语料经掩码语言模型任务训练的已收敛的自然语言模型。
3.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述步骤S2根据实际场景选择若干个预训练模型,对分类结果求平均或求最大值或加权和方式,确定最终标注结果,所述实际场景包括可支持的算力大小,可接受的标注速度。
4.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述文本分类模型包括特征提取器和分类器,其中文本分类模型的特征提取器和预训练模型的特征提取器相同;通过迁移预训练模型的分类器中类别标签集合对应的权重至文本分类模型,进行文本分类模型的分类器初始化。
5.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述步骤S2获取的预训练模型的分类器的维度取决于初始训练模型所对应的字典包含的单词数量,所述文本分类模型的分类器的维度为实际文本分类场景类别数,所述字典包含的单词数量至少为实际文本分类场景类别数的100倍。
6.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述步骤S4的具体子步骤如下:
S41:基于文本分类模型的分类器的输出概率对输出特征做加权聚类,获得初始聚类中心;
S42:计算所有输出特征和每个聚类中心的余弦相似度,最小距离所对应的聚类中心为初始伪标注结果;
S43:基于所述初始伪标注结果通过减小类内差异,更新聚类中心和伪标注结果;
S44:获得自监督的伪标注结果后,利用交叉熵损失函数进行有监督训练。
7.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述步骤S5采用信息最大化损失函数,通过批次文本数据的分类输出概率的平均值,以近似逼近整体概率分布,使训练文本分类模型输出具体类别确定,且整体分布离散。
8.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法,其特征在于:所述步骤S6的判断内容包括如下一项或多项结合:
P1:设置最大训练时间,达到最大训练时间则训练结束;
P2:设置最大训练迭代数,达到最大训练迭代数则训练结束;
P3:设置损失函数变化阈值,若损失函数变化小于阈值则训练结束。
9.一种基于自监督训练的弱监督文本分类系统,其特征在于,包括如下模块:
获取模块:用于获取用户输入的待标注文本数据和类别标签集合;
训练模块:首先用于通过获取模块输入信息确定预训练模型,然后通过权重迁移方法将预训练模型部分权重迁移至文本分类模型,接着根据自监督伪标策略获得文本分类伪标签,基于生成的伪标签,通过自监督方法训练初始化后的文本分类模型,通过迭代优化来更新文本分类模型参数,直至模型收敛,训练过程结束;
输出模块:用于获取已收敛的文本分类模型,并通过模型推理过程对待标注数据集进行标注。
10.一种基于自监督训练的弱监督文本分类装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述基于自监督训练的弱监督文本分类方法。
CN202210980845.6A 2022-08-16 2022-08-16 一种基于自监督训练的弱监督文本分类方法、系统和装置 Active CN115080749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980845.6A CN115080749B (zh) 2022-08-16 2022-08-16 一种基于自监督训练的弱监督文本分类方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980845.6A CN115080749B (zh) 2022-08-16 2022-08-16 一种基于自监督训练的弱监督文本分类方法、系统和装置

Publications (2)

Publication Number Publication Date
CN115080749A true CN115080749A (zh) 2022-09-20
CN115080749B CN115080749B (zh) 2022-11-08

Family

ID=83244314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980845.6A Active CN115080749B (zh) 2022-08-16 2022-08-16 一种基于自监督训练的弱监督文本分类方法、系统和装置

Country Status (1)

Country Link
CN (1) CN115080749B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN116304891A (zh) * 2023-05-24 2023-06-23 之江实验室 基于多源数据迁移学习的类别预测方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444342A (zh) * 2020-03-24 2020-07-24 湖南董因信息技术有限公司 一种基于多重弱监督集成的短文本分类方法
CN112966684A (zh) * 2021-03-15 2021-06-15 北湾科技(武汉)有限公司 一种注意力机制下的协同学习文字识别方法
CN113139651A (zh) * 2020-01-20 2021-07-20 北京三星通信技术研究有限公司 基于自监督学习的标签比例学习模型的训练方法和设备
CN113239924A (zh) * 2021-05-21 2021-08-10 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113673338A (zh) * 2021-07-16 2021-11-19 华南理工大学 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN113807171A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于半监督迁移学习的文本分类方法
WO2022037233A1 (zh) * 2020-08-18 2022-02-24 浙江大学 一种基于自监督知识迁移的小样本视觉目标识别方法
CN114090770A (zh) * 2021-10-19 2022-02-25 杭州电子科技大学 一种多阶段的无监督域适应因果关系识别方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139651A (zh) * 2020-01-20 2021-07-20 北京三星通信技术研究有限公司 基于自监督学习的标签比例学习模型的训练方法和设备
CN111444342A (zh) * 2020-03-24 2020-07-24 湖南董因信息技术有限公司 一种基于多重弱监督集成的短文本分类方法
WO2022037233A1 (zh) * 2020-08-18 2022-02-24 浙江大学 一种基于自监督知识迁移的小样本视觉目标识别方法
CN112966684A (zh) * 2021-03-15 2021-06-15 北湾科技(武汉)有限公司 一种注意力机制下的协同学习文字识别方法
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113239924A (zh) * 2021-05-21 2021-08-10 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113673338A (zh) * 2021-07-16 2021-11-19 华南理工大学 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN113807171A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于半监督迁移学习的文本分类方法
CN114090770A (zh) * 2021-10-19 2022-02-25 杭州电子科技大学 一种多阶段的无监督域适应因果关系识别方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRATIK DUTTA ET AL.: ""A Weak Supervision Technique with a Generative Model for Improved Gene Clustering"", 《CONGRESS ON EVOLUTIONARY COMPUTATION》 *
王震宇: ""基于深度学习的弱监督分类算法及应用"", 《万方数据知识服务平台》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN116127078B (zh) * 2023-04-19 2023-07-21 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN116304891A (zh) * 2023-05-24 2023-06-23 之江实验室 基于多源数据迁移学习的类别预测方法和装置
CN116304891B (zh) * 2023-05-24 2023-08-01 之江实验室 基于多源数据迁移学习的类别预测方法和装置

Also Published As

Publication number Publication date
CN115080749B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
US20220382553A1 (en) Fine-grained image recognition method and apparatus using graph structure represented high-order relation discovery
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN113837370B (zh) 用于训练基于对比学习的模型的方法和装置
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
JP7178513B2 (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
CN115700515A (zh) 文本多标签分类方法及装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN112348001B (zh) 表情识别模型的训练方法、识别方法、装置、设备及介质
CN112711652B (zh) 术语标准化方法及装置
CN114299304A (zh) 一种图像处理方法及相关设备
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN117994570A (zh) 基于模型无关适配器提高复杂多样数据分布的识别方法
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
CN113535947A (zh) 一种带有缺失标记的不完备数据的多标记分类方法及装置
Zheng et al. Generative semantic hashing enhanced via Boltzmann machines
Huang et al. Efficient optimization for linear dynamical systems with applications to clustering and sparse coding
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN113177406B (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN114818979A (zh) 一种基于最大化间隔机制的含噪多标记分类方法
CN110532384A (zh) 一种多任务字典单分类方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant