CN115080748A - 一种基于带噪标签学习的弱监督文本分类方法和装置 - Google Patents
一种基于带噪标签学习的弱监督文本分类方法和装置 Download PDFInfo
- Publication number
- CN115080748A CN115080748A CN202210980591.8A CN202210980591A CN115080748A CN 115080748 A CN115080748 A CN 115080748A CN 202210980591 A CN202210980591 A CN 202210980591A CN 115080748 A CN115080748 A CN 115080748A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- model
- classification
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000002372 labelling Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 9
- 230000001174 ascending effect Effects 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013526 transfer learning Methods 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于带噪标签学习的弱监督文本分类方法和装置,包括如下步骤:S1:获取待标注文本和类别标签集合;S2:确定预训练自然语言模型;S3:获得待标注文本伪标签;S4:初始化文本分类模型,基于伪标签计算分类损失函数;S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top‑N数据作为高置信度数据;本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。
Description
技术领域
本发明涉及人工智能、深度学习、自然语言处理技术领域,特别涉及一种基于带噪标签学习的弱监督文本分类方法和装置。
背景技术
弱监督文本分类场景区别于传统文本分类场景,仅要求用户提供待标注数据和类别标签集合,就可以在类别标签集合范围内对待标注数据进行逐一分类。因此该方法要求预训练深度模型具有丰富的先验知识,可以基于有限信息实现分类效果,进一步利用迁移学习方法,使得预训练深度模型可以很好地泛化到具体的待标注文本数据上,实现高精确度分类。提高迁移学习方法有效性的关键在于设计一种高效简易的算法,以达到在带噪标签(伪标签)中筛选出高置信度数据用于模型训练。
发明内容
本发明的目的在于提供一种基于带噪标签学习的弱监督文本分类方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于带噪标签学习的弱监督文本分类方法,包括如下步骤:
S1:获取待标注文本和类别标签集合;
S2:确定预训练自然语言模型;
S3:获得待标注文本伪标签;
S4:初始化文本分类模型,基于伪标签计算分类损失函数;
S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top-N数据作为高置信度数据;
S6:基于高置信度数据对文本分类模型进行迁移学习直至收敛;
S7:利用所述收敛的文本分类模型对全部待标注文本进行标注。
可选的,所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型,所述深度学习模型的模型结构均包含特征提取模块和分类模块。
可选的,所述步骤S3选择下述一种或多种方案相结合:
方案一:利用所述预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果;
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述预训练自然语言模型对全部待标注文本进行推理,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果;
方案三,根据实际业务场景,考虑标注速度、可支持算力因素,确定所述预训练自然语言模型,通过方案一或二得到若干个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
可选的,所述步骤S4文本分类模块的初始化通过如下任一方案:
方案一:根据实际分类场景,确定类别总数,随机初始化模型分类模块;
方案二:通过权重迁移方法,利用所述确定的预训练自然语言模型的模型分类模块中所述类别标签集合对应的可学习权重初始化模型分类模块。
可选的,所述步骤S4中基于伪标签计算分类损失函数,具体为:选择若干种损失函数通过普通加和、加权加和/或求平均方式,得到最终待筛选损失样本。
可选的,所述步骤S5中前top-N数据中的N,既表示绝对文本数量,也表示相对文本数量比例,是根据实际分类场景,考虑标注速度要求、准确度要求、标注算力条件因素,灵活确定。
可选的,所述步骤S6中收敛判断条件包括如下一项或多项的结合:
条件一:设置最长训练时间,达到最长训练时间则判断为收敛;
条件二:设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
条件三:设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
本发明还公开了一种基于带噪标签学习的弱监督文本分类装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于所述基于带噪标签学习的弱监督文本分类方法。
本发明的有益效果:本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。本发明考虑到通过一般文本分类方法得到的伪标签含有不可避免的噪声,这会极大影响文本分类模型迁移学习的精度,因此利用带噪标签损失筛选方法选择高置信度数据作为迁移学习的训练样本,减小了训练成本,提高了数据有效性和模型鲁棒性,保证了文本分类准确率。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例高置信度已标注文本选择策略示意图;
图3是本发明实施例装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明公开了一种基于带噪标签学习的弱监督文本分类方法,包括如下步骤:
S1. 获取待标注文本和类别标签集合;
S2. 确定预训练自然语言模型;
详细地,所述预训练模型可以是任意输入大量自然语言语料经掩码语言模型(Masked Language Model)任务训练的已收敛的深度学习模型。常用的模型有:BERT,transformer-XL,XLNet,RoBERTa,ALBERT,ERNIE等。但这些模型都可以大致将模型结构拆分为特征提取模块E和分类模块。
S3. 获得待标注文本伪标签;
所述步骤S3选择下述一种或多种方案相结合:
方案一:利用所述确定预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果。
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述确定预训练自然语言模型对全部待标注文本进行推理,可选地,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果。
方案三,根据实际业务场景,考虑标注速度,可支持算力因素,确定多个预训练自然语言模型,通过方案一或二得到多个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
S4. 初始化文本分类模型,基于伪标签计算分类损失函数;
具体地,文本分类模型由特征提取模块E和组成,代表文本分类模型的分类模块。值得注意的是,的维度取决于预训练模型训练过程中的字典大小,而的维度为实际文本分类场景类别数。因此从结构上来讲,预训练模型和文本分类模型的特征提取模块E结构相同,可以共享参数,但分类模块和结构不相同,不能直接共享参数。因此可参考如下任一方案对进行初始化:
计算分类损失函数,选择多种损失函数通过普通加和、加权加和或求平均等方式,得到最终待筛选损失样本,过程如下:
S5. 通过带噪标签损失筛选方法得到高置信度数据;
带噪标签损失筛选方法基于学习能力强大的预训练模型对于带噪标签带有识别性,即损失函数越小代表分类置信度越高。因此所述带噪标签损失筛选方法是基于所述分类损失函数,将其按升序排列,筛选前top-N数据作为高置信度数据,如图2所示。
可选地,所述N既可以表示绝对文本数量,也可以表示相对文本数量比例。可根据实际分类场景,考虑标注速度要求,准确度要求,标注算力条件等多种因素,灵活确定。
S6. 基于高置信度数据对文本分类模型进行迁移学习直至收敛;
收敛判断条件包括如下一项或多项的结合:
设置最长训练时间,达到最长训练时间则判断为收敛;
设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
S7. 利用所述收敛的文本分类模型对全部待标注文本进行标注。
值得注意的,为了保证本发明提供的一种基于带噪标签学习的弱监督文本分类方法的有效性,针对所有标注结果,应进行规则合法性判断,包括标注结果拼写正确性,标注结果在步骤一所述类别标签集合内。
参见图3,本发明实施例还提供了一种基于带噪标签学习的弱监督文本分类装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。
本发明一种基于带噪标签学习的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明一种基于带噪标签学习的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于带噪标签学习的弱监督文本分类方法,其特征在于:包括如下步骤:
S1:获取待标注文本和类别标签集合;
S2:确定预训练自然语言模型;
S3:获得待标注文本伪标签;
S4:初始化文本分类模型,基于伪标签计算分类损失函数;
S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top-N数据作为高置信度数据;
S6:基于高置信度数据对文本分类模型进行迁移学习直至收敛;
S7:利用所述收敛的文本分类模型对全部待标注文本进行标注。
2.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型,所述深度学习模型的模型结构均包含特征提取模块和分类模块。
3.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述步骤S3选择下述一种或多种方案相结合:
方案一:利用所述预训练自然语言模型直接对全部待标注文本进行推理,取最大输出概率对应类别标签为单个预训练自然语言模型标注结果;
方案二,逐一对待标注文本进行预处理,增加符合待标注文本语义的引导序列,再利用所述预训练自然语言模型对全部待标注文本进行推理,利用引导序列对应词嵌套,或结合引导序列对应词嵌套和类别词嵌套,取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果;
方案三,根据实际业务场景,考虑标注速度、可支持算力因素,确定所述预训练自然语言模型,通过方案一或二得到若干个标注结果,通过取结果频次最大或置信度最大的方式确定最终标注结果。
4.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述步骤S4文本分类模块的初始化通过如下任一方案:
方案一:根据实际分类场景,确定类别总数,随机初始化模型分类模块;
方案二:通过权重迁移方法,利用所述确定的预训练自然语言模型的模型分类模块中所述类别标签集合对应的可学习权重初始化模型分类模块。
5.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述步骤S4中基于伪标签计算分类损失函数,具体为:选择若干种损失函数通过普通加和、加权加和/或求平均方式,得到最终待筛选损失样本。
6.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述步骤S5中前top-N数据中的N,既表示绝对文本数量,也表示相对文本数量比例,是根据实际分类场景,考虑标注速度要求、准确度要求、标注算力条件因素,灵活确定。
7.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法,其特征在于:所述步骤S6中收敛判断条件包括如下一项或多项的结合:
条件一:设置最长训练时间,达到最长训练时间则判断为收敛;
条件二:设置最大训练迭代数,达到最大训练迭代数则判断为收敛;
条件三:设置损失函数变化阈值,当损失函数变化小于阈值则判断为收敛。
8.一种基于带噪标签学习的弱监督文本分类装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7任一项所述一种基于带噪标签学习的弱监督文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980591.8A CN115080748B (zh) | 2022-08-16 | 2022-08-16 | 一种基于带噪标签学习的弱监督文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980591.8A CN115080748B (zh) | 2022-08-16 | 2022-08-16 | 一种基于带噪标签学习的弱监督文本分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115080748A true CN115080748A (zh) | 2022-09-20 |
CN115080748B CN115080748B (zh) | 2022-11-11 |
Family
ID=83244164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210980591.8A Active CN115080748B (zh) | 2022-08-16 | 2022-08-16 | 一种基于带噪标签学习的弱监督文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080748B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719906A (zh) * | 2023-06-19 | 2023-09-08 | 西北工业大学 | 基于弱监督深度学习的不平衡短评语义识别方法 |
CN116992034A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
CN119597914A (zh) * | 2024-11-06 | 2025-03-11 | 中国科学技术信息研究所 | 无监督文本分类方法、装置、设备、存储介质及产品 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN111291699A (zh) * | 2020-02-19 | 2020-06-16 | 山东大学 | 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法 |
CN111428730A (zh) * | 2019-01-09 | 2020-07-17 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN111507419A (zh) * | 2020-04-22 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法及装置 |
CN112861880A (zh) * | 2021-03-05 | 2021-05-28 | 江苏实达迪美数据处理有限公司 | 基于图像分类的弱监督rgbd图像显著性检测方法及系统 |
US20210216723A1 (en) * | 2018-12-18 | 2021-07-15 | Tencent Technology (Shenzhen) Company Limited | Classification model training method, classification method, device, and medium |
CN113191385A (zh) * | 2021-03-25 | 2021-07-30 | 之江实验室 | 一种基于预训练标注数据不可知的图像分类自动标注方法 |
CN113283467A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于平均损失和逐类选择的弱监督图片分类方法 |
CN113420707A (zh) * | 2021-07-05 | 2021-09-21 | 神思电子技术股份有限公司 | 一种基于弱监督学习的视频目标检测方法 |
US20220012530A1 (en) * | 2020-07-10 | 2022-01-13 | Adobe Inc. | Attributionally robust training for weakly supervised localization and segmentation |
CN114647732A (zh) * | 2022-05-23 | 2022-06-21 | 之江实验室 | 一种面向弱监督文本分类系统、方法和装置 |
CN114817307A (zh) * | 2022-02-17 | 2022-07-29 | 东南大学 | 一种基于半监督学习和元学习的少样本nl2sql方法 |
CN114880478A (zh) * | 2022-06-07 | 2022-08-09 | 昆明理工大学 | 基于主题信息增强的弱监督方面类别检测方法 |
-
2022
- 2022-08-16 CN CN202210980591.8A patent/CN115080748B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210216723A1 (en) * | 2018-12-18 | 2021-07-15 | Tencent Technology (Shenzhen) Company Limited | Classification model training method, classification method, device, and medium |
CN111428730A (zh) * | 2019-01-09 | 2020-07-17 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN111291699A (zh) * | 2020-02-19 | 2020-06-16 | 山东大学 | 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法 |
CN111507419A (zh) * | 2020-04-22 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法及装置 |
US20220012530A1 (en) * | 2020-07-10 | 2022-01-13 | Adobe Inc. | Attributionally robust training for weakly supervised localization and segmentation |
CN112861880A (zh) * | 2021-03-05 | 2021-05-28 | 江苏实达迪美数据处理有限公司 | 基于图像分类的弱监督rgbd图像显著性检测方法及系统 |
CN113191385A (zh) * | 2021-03-25 | 2021-07-30 | 之江实验室 | 一种基于预训练标注数据不可知的图像分类自动标注方法 |
CN113283467A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于平均损失和逐类选择的弱监督图片分类方法 |
CN113420707A (zh) * | 2021-07-05 | 2021-09-21 | 神思电子技术股份有限公司 | 一种基于弱监督学习的视频目标检测方法 |
CN114817307A (zh) * | 2022-02-17 | 2022-07-29 | 东南大学 | 一种基于半监督学习和元学习的少样本nl2sql方法 |
CN114647732A (zh) * | 2022-05-23 | 2022-06-21 | 之江实验室 | 一种面向弱监督文本分类系统、方法和装置 |
CN114880478A (zh) * | 2022-06-07 | 2022-08-09 | 昆明理工大学 | 基于主题信息增强的弱监督方面类别检测方法 |
Non-Patent Citations (2)
Title |
---|
LI RONG ET AL.: ""Weakly Supervised Text Attention Network for Generating Text Proposals in Scene Images"", 《INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 * |
张金瑞 等: ""基于LDA的弱监督文本分类方法"", 《计算机工程与设计》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719906A (zh) * | 2023-06-19 | 2023-09-08 | 西北工业大学 | 基于弱监督深度学习的不平衡短评语义识别方法 |
CN116992034A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
CN116992034B (zh) * | 2023-09-26 | 2023-12-22 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
CN119597914A (zh) * | 2024-11-06 | 2025-03-11 | 中国科学技术信息研究所 | 无监督文本分类方法、装置、设备、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN115080748B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115080748B (zh) | 一种基于带噪标签学习的弱监督文本分类方法和装置 | |
US10504010B2 (en) | Systems and methods for fast novel visual concept learning from sentence descriptions of images | |
Zeng et al. | Distant supervision for relation extraction via piecewise convolutional neural networks | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
Mao et al. | Explain images with multimodal recurrent neural networks | |
CN111767738B (zh) | 一种标签校验方法、装置、设备和存储介质 | |
CN110377714A (zh) | 基于迁移学习的文本匹配方法、装置、介质及设备 | |
CN111738003A (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN109117474B (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
CN113989549A (zh) | 一种基于伪标签的半监督学习图像分类优化方法及系统 | |
US10810467B2 (en) | Flexible integrating recognition and semantic processing | |
US11755671B2 (en) | Projecting queries into a content item embedding space | |
CN113762459B (zh) | 一种模型训练方法、文本生成方法、装置、介质及设备 | |
WO2020019102A1 (en) | Methods, systems, articles of manufacture and apparatus to train a neural network | |
CN111522953A (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
CN116263785A (zh) | 跨领域文本分类模型的训练方法、分类方法和装置 | |
CN114781611A (zh) | 自然语言处理方法、语言模型训练方法及其相关设备 | |
CN112651226B (zh) | 基于依存句法树的知识解析系统及方法 | |
CN108829675A (zh) | 文档表示方法及装置 | |
Davis et al. | Hierarchical semantic labeling with adaptive confidence | |
CN116450781A (zh) | 问答的处理方法及装置 | |
CN116204786B (zh) | 生成指定故障趋势数据的方法和装置 | |
Zhu et al. | Enhancing semi-supervised learning with cross-modal knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |