CN115080748B - 一种基于带噪标签学习的弱监督文本分类方法和装置 - Google Patents

一种基于带噪标签学习的弱监督文本分类方法和装置 Download PDF

Info

Publication number
CN115080748B
CN115080748B CN202210980591.8A CN202210980591A CN115080748B CN 115080748 B CN115080748 B CN 115080748B CN 202210980591 A CN202210980591 A CN 202210980591A CN 115080748 B CN115080748 B CN 115080748B
Authority
CN
China
Prior art keywords
label
text
model
classification
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210980591.8A
Other languages
English (en)
Other versions
CN115080748A (zh
Inventor
陈岱渊
杨非
钟昊文
杨羿
张奕鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210980591.8A priority Critical patent/CN115080748B/zh
Publication of CN115080748A publication Critical patent/CN115080748A/zh
Application granted granted Critical
Publication of CN115080748B publication Critical patent/CN115080748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于带噪标签学习的弱监督文本分类方法和装置,包括如下步骤:S1:获取待标注文本和类别标签集合;S2:确定预训练自然语言模型;S3:获得待标注文本伪标签;S4:初始化文本分类模型,基于伪标签计算分类损失函数;S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top‑N数据作为高置信度数据;本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。

Description

一种基于带噪标签学习的弱监督文本分类方法和装置
技术领域
本发明涉及人工智能、深度学习、自然语言处理技术领域,特别涉及一种基于带噪标签学习的弱监督文本分类方法和装置。
背景技术
弱监督文本分类场景区别于传统文本分类场景,仅要求用户提供待标注数据和类别标签集合,就可以在类别标签集合范围内对待标注数据进行逐一分类。因此该方法要求预训练深度模型具有丰富的先验知识,可以基于有限信息实现分类效果,进一步利用迁移学习方法,使得预训练深度模型可以很好地泛化到具体的待标注文本数据上,实现高精确度分类。提高迁移学习方法有效性的关键在于设计一种高效简易的算法,以达到在带噪标签(伪标签)中筛选出高置信度数据用于模型训练。
发明内容
本发明的目的在于提供一种基于带噪标签学习的弱监督文本分类方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于带噪标签学习的弱监督文本分类方法,包括如下步骤:
S1:获取待标注文本和类别标签集合;
S2:确定预训练自然语言模型;
S3:获得待标注文本伪标签;
S4:初始化文本分类模型,基于伪标签计算分类损失函数;
S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top-N数据作为高置信度数据;
S6:基于高置信度数据对文本分类模型进行迁移学习直至收敛;
S7:利用所述收敛的文本分类模型对全部待标注文本进行标注。
可选的,所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型,所述深度学习模型的模型结构均包含特征提取模块和分类模块。
可选的,所述步骤S3选择下述一种或多种方案相结合:
方案一:利用所述预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果;
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述预训练自然语言模型对全部待标注文本进行推理,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果;
方案三,根据实际业务场景,考虑标注速度、可支持算力因素,确定所述预训练自然语言模型,通过方案一或二得到若干个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
可选的,所述步骤S4文本分类模块的初始化通过如下任一方案:
方案一:根据实际分类场景,确定类别总数,随机初始化模型分类模块;
方案二:通过权重迁移方法,利用所述确定的预训练自然语言模型的模型分类模块中所述类别标签集合对应的可学习权重初始化模型分类模块。
可选的,所述步骤S4中基于伪标签计算分类损失函数,具体为:选择若干种损失函数通过普通加和、加权加和/或求平均方式,得到最终待筛选损失样本。
可选的,所述步骤S5中前top-N数据中的N,既表示绝对文本数量,也表示相对文本数量比例,是根据实际分类场景,考虑标注速度要求、准确度要求、标注算力条件因素,灵活确定。
可选的,所述步骤S6中收敛判断条件包括如下一项或多项的结合:
条件一:设置最长训练时间,达到最长训练时间则判断为收敛;
条件二:设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
条件三:设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
本发明还公开了一种基于带噪标签学习的弱监督文本分类装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于所述基于带噪标签学习的弱监督文本分类方法。
本发明的有益效果:本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。本发明考虑到通过一般文本分类方法得到的伪标签含有不可避免的噪声,这会极大影响文本分类模型迁移学习的精度,因此利用带噪标签损失筛选方法选择高置信度数据作为迁移学习的训练样本,减小了训练成本,提高了数据有效性和模型鲁棒性,保证了文本分类准确率。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例高置信度已标注文本选择策略示意图;
图3是本发明实施例装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明公开了一种基于带噪标签学习的弱监督文本分类方法,包括如下步骤:
S1. 获取待标注文本和类别标签集合;
详细地,为了后文能准确地说明方法步骤,在此分别用N和K分别代表待标注文本大小和类别标签个数,用
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
分别表示待标注文本和类别标签集合。
S2. 确定预训练自然语言模型;
详细地,所述预训练模型可以是任意输入大量自然语言语料经掩码语言模型(Masked Language Model)任务训练的已收敛的深度学习模型。常用的模型有:BERT,transformer-XL,XLNet,RoBERTa,ALBERT,ERNIE等。但这些模型都可以大致将模型结构拆分为特征提取模块E和分类模块
Figure DEST_PATH_IMAGE006
S3. 获得待标注文本伪标签;
特征提取器E的输出特征表示为:
Figure DEST_PATH_IMAGE008
,分类器
Figure DEST_PATH_IMAGE010
的输出概率表示为:
Figure DEST_PATH_IMAGE012
。最终取最大输出概率对应类别标签为单个预训练模型标注结果
Figure DEST_PATH_IMAGE014
。因预训练模型没有适应性地泛化到所述待标注文本数据,因此此时的
Figure DEST_PATH_IMAGE015
是带有较大噪声的。
所述步骤S3选择下述一种或多种方案相结合:
方案一:利用所述确定预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果。
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述确定预训练自然语言模型对全部待标注文本进行推理,可选地,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果。
方案三,根据实际业务场景,考虑标注速度,可支持算力因素,确定多个预训练自然语言模型,通过方案一或二得到多个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
S4. 初始化文本分类模型,基于伪标签计算分类损失函数;
具体地,文本分类模型由特征提取模块E和
Figure DEST_PATH_IMAGE016
组成,
Figure 731304DEST_PATH_IMAGE016
代表文本分类模型的分类模块。值得注意的是,
Figure DEST_PATH_IMAGE017
的维度取决于预训练模型训练过程中的字典大小,而
Figure DEST_PATH_IMAGE018
的维度为实际文本分类场景类别数
Figure DEST_PATH_IMAGE020
。因此从结构上来讲,预训练模型和文本分类模型的特征提取模块E结构相同,可以共享参数,但分类模块
Figure 935798DEST_PATH_IMAGE006
Figure 964803DEST_PATH_IMAGE018
结构不相同,不能直接共享参数。因此可参考如下任一方案对
Figure 594631DEST_PATH_IMAGE018
进行初始化:
方案1. 根据
Figure DEST_PATH_IMAGE021
,随机初始化模型分类模块;
方案2. 通过权重迁移方法,利用
Figure 284370DEST_PATH_IMAGE006
中所述类别标签集合对应的权重来初始化
Figure 356100DEST_PATH_IMAGE018
(通常而言,所述字典大小远远大于
Figure DEST_PATH_IMAGE022
)。
计算分类损失函数,选择多种损失函数通过普通加和、加权加和或求平均等方式,得到最终待筛选损失样本,过程如下:
Figure DEST_PATH_IMAGE024
S5. 通过带噪标签损失筛选方法得到高置信度数据;
带噪标签损失筛选方法基于学习能力强大的预训练模型对于带噪标签带有识别性,即损失函数越小代表分类置信度越高。因此所述带噪标签损失筛选方法是基于所述分类损失函数,将其按升序排列,筛选前top-N数据作为高置信度数据,如图2所示。
可选地,所述N既可以表示绝对文本数量,也可以表示相对文本数量比例。可根据实际分类场景,考虑标注速度要求,准确度要求,标注算力条件等多种因素,灵活确定。
S6. 基于高置信度数据对文本分类模型进行迁移学习直至收敛;
收敛判断条件包括如下一项或多项的结合:
设置最长训练时间,达到最长训练时间则判断为收敛;
设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
S7. 利用所述收敛的文本分类模型对全部待标注文本进行标注。
值得注意的,为了保证本发明提供的一种基于带噪标签学习的弱监督文本分类方法的有效性,针对所有标注结果,应进行规则合法性判断,包括标注结果拼写正确性,标注结果在步骤一所述类别标签集合内。
参见图3,本发明实施例还提供了一种基于带噪标签学习的弱监督文本分类装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。
本发明一种基于带噪标签学习的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明一种基于带噪标签学习的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于带噪标签学习的弱监督文本分类方法,其特征在于:包括如下步骤:
S1:获取待标注文本和类别标签集合;
S2:确定预训练自然语言模型;
S3:获得待标注文本伪标签;
S4:初始化文本分类模型,基于伪标签计算分类损失函数;
S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top-N数据作为高置信度数据;
S6:基于高置信度数据对文本分类模型进行迁移学习直至收敛;
S7:利用所述收敛的文本分类模型对全部待标注文本进行标注。
2.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型,所述深度学习模型的模型结构均包含特征提取模块和分类模块。
3.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述S3选择下述一种或多种方案相结合:
方案一:利用所述预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果;
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述预训练自然语言模型对全部待标注文本进行推理,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果;
方案三,根据实际业务场景,根据标注速度、可支持算力因素,确定所述预训练自然语言模型,通过方案一或二得到若干个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
4.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述S4中的文本分类模块的初始化通过如下任一方案:
方案一:根据实际分类场景,确定类别总数,随机初始化模型分类模块;
方案二:通过权重迁移方法,利用所述确定的预训练自然语言模型的模型分类模块中所述类别标签集合对应的可学习权重初始化模型分类模块。
5.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述S4中基于伪标签计算分类损失函数,具体为:选择若干种损失函数通过普通加和、加权加和/或求平均方式,得到最终待筛选损失样本。
6.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述S5中前top-N数据中的N,表示绝对文本数量或相对文本数量比例。
7.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述S6中收敛判断条件包括如下一项或多项的结合:
条件一:设置最长训练时间,达到最长训练时间则判断为收敛;
条件二:设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
条件三:设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
8.一种基于带噪标签学习的弱监督文本分类装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7任一项所述一种基于带噪标签学习的弱监督文本分类方法。
CN202210980591.8A 2022-08-16 2022-08-16 一种基于带噪标签学习的弱监督文本分类方法和装置 Active CN115080748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980591.8A CN115080748B (zh) 2022-08-16 2022-08-16 一种基于带噪标签学习的弱监督文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980591.8A CN115080748B (zh) 2022-08-16 2022-08-16 一种基于带噪标签学习的弱监督文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN115080748A CN115080748A (zh) 2022-09-20
CN115080748B true CN115080748B (zh) 2022-11-11

Family

ID=83244164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980591.8A Active CN115080748B (zh) 2022-08-16 2022-08-16 一种基于带噪标签学习的弱监督文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN115080748B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992034B (zh) * 2023-09-26 2023-12-22 之江实验室 一种智能事件打标方法、装置及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法
CN111428730A (zh) * 2019-01-09 2020-07-17 中国科学技术大学 弱监督细粒度物体分类方法
CN111507419A (zh) * 2020-04-22 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113191385A (zh) * 2021-03-25 2021-07-30 之江实验室 一种基于预训练标注数据不可知的图像分类自动标注方法
CN113283467A (zh) * 2021-04-14 2021-08-20 南京大学 一种基于平均损失和逐类选择的弱监督图片分类方法
CN113420707A (zh) * 2021-07-05 2021-09-21 神思电子技术股份有限公司 一种基于弱监督学习的视频目标检测方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114817307A (zh) * 2022-02-17 2022-07-29 东南大学 一种基于半监督学习和元学习的少样本nl2sql方法
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684478B (zh) * 2018-12-18 2023-04-07 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
US11544495B2 (en) * 2020-07-10 2023-01-03 Adobe Inc. Attributionally robust training for weakly supervised localization and segmentation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428730A (zh) * 2019-01-09 2020-07-17 中国科学技术大学 弱监督细粒度物体分类方法
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法
CN111507419A (zh) * 2020-04-22 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113191385A (zh) * 2021-03-25 2021-07-30 之江实验室 一种基于预训练标注数据不可知的图像分类自动标注方法
CN113283467A (zh) * 2021-04-14 2021-08-20 南京大学 一种基于平均损失和逐类选择的弱监督图片分类方法
CN113420707A (zh) * 2021-07-05 2021-09-21 神思电子技术股份有限公司 一种基于弱监督学习的视频目标检测方法
CN114817307A (zh) * 2022-02-17 2022-07-29 东南大学 一种基于半监督学习和元学习的少样本nl2sql方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Weakly Supervised Text Attention Network for Generating Text Proposals in Scene Images";Li Rong et al.;《International Conference on Document Analysis and Recognition》;20180129;全文 *
"基于LDA的弱监督文本分类方法";张金瑞 等;《计算机工程与设计》;20170323;全文 *

Also Published As

Publication number Publication date
CN115080748A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
US10504010B2 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
Mao et al. Explain images with multimodal recurrent neural networks
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN111566654A (zh) 集成知识和自然语言处理的机器学习
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN111522953B (zh) 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
CN110674642A (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN112307235B (zh) 前端页面元素的命名方法、装置及电子设备
CN114707518A (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN113836297A (zh) 文本情感分析模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant