CN111723203A - 一种基于终生学习的文本分类方法 - Google Patents

一种基于终生学习的文本分类方法 Download PDF

Info

Publication number
CN111723203A
CN111723203A CN202010542045.7A CN202010542045A CN111723203A CN 111723203 A CN111723203 A CN 111723203A CN 202010542045 A CN202010542045 A CN 202010542045A CN 111723203 A CN111723203 A CN 111723203A
Authority
CN
China
Prior art keywords
neural network
task
deep neural
model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010542045.7A
Other languages
English (en)
Inventor
刘雨松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yinengtong Communication Technology Co ltd
Original Assignee
Suzhou Yinengtong Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yinengtong Communication Technology Co ltd filed Critical Suzhou Yinengtong Communication Technology Co ltd
Priority to CN202010542045.7A priority Critical patent/CN111723203A/zh
Publication of CN111723203A publication Critical patent/CN111723203A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种基于终生学习的文本分类方法,先将文本信息通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;再将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;如果不是训练模式则直接预测结果,如果为训练模式则进行网络参数更新;如果是首个任务,则进行常规的采用梯度下降法进行神经网络的参数更新,如果不是首个任务,是进行数据更新/版本迭代,本发明采用权值修改的方法进行神经网络参数更新,经验证,更新一条数据仅需要几秒钟、更新1‑2万条数据也只需要不到一小时的时间,大大的减少了深度神经网络模型版本迭代所需要的时间。

Description

一种基于终生学习的文本分类方法
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种基于终生学习的文本分类方法。
背景技术
互联网应用的大规模普及衍生出大量的非结构化文本数据,基于文本数据的自动分类系统在多个领域呈现出巨大的应用价值,如搜索引擎、数字图书馆、邮件分类等。传统的文本分类方法如K邻近分类、基于贝叶斯理论的朴素贝叶斯分类和支持向量机分类等算法对于现在基于大数据的任务,其推广性上存在一定的欠缺。基于这一问题,出现了深度网络模型,其对数据容纳的能力,计算能力和鲁棒性都要强于传统的文本分类方法。
从原理层面来看,一个完整的分类系统的制定与优化需要经历以下四个步骤:数据处理+模型选择+评价标准+迭代优化;分类系统的制定与业务也是息息相关的,我们需要分析不同的业务场景,处理不同业务数据,并根据当前的数据类型与任务目标选取合适的深度网络模型,另外制定评价标准来评判当前模型的好坏。待完成这三个步骤,整个分类系统就有了一个大致的框架,前期的制定任务算是已经完成。对于后续的优化任务,主要是针对数据层面的,在当前业务数据发生变化时,如一个对话系统需要不断地补充话术内容,我们需要重新训练模型,周而复始以完成迭代优化。
由于深度网络模型乃至神经网络都会有灾难性遗忘问题,所以当数据进行更新时,我们必须重新训练整个网络,哪怕是只增加一条数据。由于许多业务场景下的数据分布复杂,数据量巨大,甚至可以达到千万数量级,所以重新训练整个网络的成本是巨大的,有时候甚至会出现网络无法收敛的情况。例如,在四块GeForce GTX 1080 Ti GPU上并行训练一个数据量为一千万左右,参数量为五百万左右的深度网络模型,大约需要花费两天左右的时间,假设业务出现一个严重问题,急需补充数据,即使是一条数据更新,也需要约两天的时间来完成模型的训练,即每次更新都需要约两天的时间,这个周期对于紧急任务是不可接受的。
因此,本领域迫切需要一种能减少深度网络模型版本迭代所需时间的文本分类方法。
发明内容
本发明的目的在于,提供一种基于终生学习的文本分类方法,旨于让深度网络模型可以实现像人脑那样进行连续的学习,大大的减少了深度神经网络模型版本迭代所需要的时间。
本申请将文本信息通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;再将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;如果不是训练模式则直接预测结果,如果为训练模式则进行网络参数更新;如果是首个任务,则进行常规的采用梯度下降法进行神经网络的参数更新,例如:在四块GeForceGTX 1080 Ti GPU上并行训练一个数据量为一千万左右,参数量为五百万左右的深度网络模型,大约需要花费两天左右的时间;如果不是首个任务,是进行数据更新/版本迭代,本发明采用权值修改方法进行神经网络参数更新,经验证,更新一条数据仅需要几秒钟、更新1-2万条数据也只需要不到一小时的时间,大大的减少了深度神经网络模型版本迭代所需要的时间。本申请人在此基础上完成了本发明。
本申请提供了一种基于终生学习的文本分类方法,所述方法包括步骤:
S1,将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;
S2,将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;
S3,当进行版本迭代时,使用权值修改方法对深度神经网络的参数进行更新,以使深度神经网络实现终生学习。
在一些实施方式中,预训练语言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE、或ELMo中的一个。
在一些实施方式中,所述深度神经网络模型包括:TextCNN、LSTM、remove、或transformer模型中的一个;
进一步的,当所述深度神经网络模型为TextCNN模型时,具体步骤为:1.将所述中文单词的词向量输入到TextCNN模型的卷积层进行卷积处理,得到所述文本信息所对应的语义矩阵;2.将语义矩阵输入到TextCNN模型的池化层进行池化计算,得到所述文本信息的语义向量;3.最后将语义向量输入到TextCNN模型的softmax层进行分类处理,以确定所述待分类文本的分类结果。
进一步的,所述池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算、或者使用均值池(avg-pooling)算法来进行池化计算。
进一步的,当所述深度神经网络模型为transformer模型时,具体步骤为:将所述中文单词的词向量分别经过三种不同的线性变换,得到分别代表Query、Key、Value的Q,K,V矩阵;进而,经过公式,
Figure BDA0002539302960000031
可以得到transformer的输出结果进行文本分类。
进一步的,对于数据量比较小的任务我们可以使用TextCNN,其相对transformer来说比较方便快捷;对于数据量比较大的任务,我们可以使用transformer模型,因为其相对于TextCNN来说模型更复杂,所以更适用于数据量比较大的任务。
在一些实施方式中,所述权值修改的方法具体步骤为:
(1)将所述深度神经网络模型表示为fw(x),其中w为模型参数,x为输入的文本信息,在深度神经网络进行学习第一个任务之前假设其网络参数初始值为W0;
(2)在学习第一个任务时,经过深度神经网络的前向传播以及损失函数对网络参数进行求导之后可以得到当前任务所对应的梯度ΔW1,进而进行参数更新,即W1=W0+ΔW1;
(3)在学习第二个任务时,同理,可以得到ΔW2,此时将ΔW2投影到输入空间A的正交平面上得到ΔW2’=P·ΔW2,其中P为正交投影矩阵,P=I-A(A’A+αI)-1A’,其中A=[x1,x2,...,xn]为任务一的输入空间,在更新第二个任务对应的模型参数时,W2=W1+ΔW2’=W1+P·ΔW2,只要学习时更新权重的方向ΔW与原来的输入x都正交,就不会影响原来的解,以使深度神经网络实现终生学习。
由于本发明的权值修改方法,它的权值只能在正交于所有以前学习过的输入所形成子空间的方向上进行修改,这将确保新的学习过程不干扰以前学习任务,由于网络中的权重变化作为一个整体不与旧的输入交互,因此,可以帮助网络找到一个权重配置,保证学习任务性能不变的情况下,能够完成新的任务。
基于上述技术方案可知,本发明利用权重修改算法使得深度神经网络具备了强大的连续学习能力,有效地解决了灾难性遗忘问题,使得传统的基于深度网络模型的文本分类器能够实现终生学习,从而大大缩短了深度网络模型的迭代周期。
附图说明
图1:本发明的终生学习文本分类方法的整理流程图。
具体实施方式
描述以下实施例以辅助对本发明的理解。不意在且不应当以任何方式将实施例解释成为限制本发明的保护范围。
在以下描述中,本领域的技术人员将认识到,下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。
此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“输入”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。
实施例1:
一种基于终生学习的文本分类方法,所述方法包括步骤:
S1,将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;所述预训练语言模型为Bert。
S2,将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;
所述深度神经网络模型为TextCNN模型,具体步骤为:1.将所述中文单词的词向量输入到TextCNN模型的卷积层进行卷积处理,得到所述文本信息所对应的语义矩阵;2.将语义矩阵输入到TextCNN模型的池化层进行池化计算,得到所述文本信息的语义向量,所述池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算、或者使用均值池(avg-pooling)算法来进行池化计算;3.最后将语义向量输入到TextCNN模型的softmax层进行分类处理,以确定所述待分类文本的分类结果。
S3,当进行版本迭代时,使用权值修改方法对深度神经网络的参数进行更新,所述权值修改的方法具体步骤为:
将所述卷积神经网络模型表示为fw(x),其中w为模型参数,x为输入的文本信息,在卷积神经网络进行学习第一个任务之前假设其网络参数初始值为W0;
在学习第一个任务时,经过深度神经网络的前向传播以及损失函数对网络参数进行求导之后可以得到当前任务所对应的梯度ΔW1,进而进行参数更新,即W1=W0+ΔW1;
在学习第二个任务时,同理,可以得到ΔW2,此时将ΔW2投影到输入空间A的正交平面上得到ΔW2’=P·ΔW2,其中P为正交投影矩阵,P=I-A(A’A+αI)-1A’,其中A=[x1,x2,...,xn]为任务一的输入空间,在更新第二个任务对应的模型参数时,W2=W1+ΔW2’=W1+P·ΔW2,只要学习时更新权重的方向ΔW与原来的输入x都正交,就不会影响原来的解,以使深度神经网络实现终生学习。
实施例2:
一种基于终生学习的文本分类方法,所述方法包括步骤:
S1,将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;所述预训练语言模型为Word2Vec。
S2,将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;
所述深度神经网络模型为transformer模型,具体步骤为:将所述中文单词的词向量分别经过三种不同的线性变换,得到分别代表Query、Key、Value的Q,K,V矩阵;进而,经过公式,
Figure BDA0002539302960000061
可以得到transformer的输出结果进行文本分类。
S3,当进行版本迭代时,使用权值修改方法对深度神经网络的参数进行更新,所述权值修改的方法具体步骤为:
将所述深度神经网络模型表示为fw(x),其中w为模型参数,x为输入的文本信息,在深度神经网络进行学习第一个任务之前假设其网络参数初始值为W0;
在学习第一个任务时,经过深度神经网络的前向传播以及损失函数对网络参数进行求导之后可以得到当前任务所对应的梯度ΔW1,进而进行参数更新,即W1=W0+ΔW1;
在学习第二个任务时,同理,可以得到ΔW2,此时将ΔW2投影到输入空间A的正交平面上得到ΔW2’=P·ΔW2,其中P为正交投影矩阵,P=I-A(A’A+αI)-1A’,其中A=[x1,x2,...,xn]为任务一的输入空间,在更新第二个任务对应的模型参数时,W2=W1+ΔW2’=W1+P·ΔW2,只要学习时更新权重的方向ΔW与原来的输入x都正交,就不会影响原来的解,以使深度神经网络实现终生学习。
尽管本申请已公开了多个方面和实施方式,但是其它方面和实施方式对本领域技术人员而言将是显而易见的,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明,其并非旨在限制本申请,本申请的实际保护范围以权利要求为准。

Claims (8)

1.一种基于终生学习的文本分类方法,其特征在于,所述方法包括步骤:
S1,将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到所述文本信息中的各个中文单词的词向量;
S2,将所述中文单词的词向量输入深度神经网络模型,得到文本分类结果;
S3,当进行版本迭代时,使用权值修改方法对深度神经网络的参数进行更新,以使深度神经网络实现终生学习。
2.如权利要求1所述的方法,其特征在于,所述权值修改方法具体步骤为:
(1)将所述深度神经网络模型表示为fw(x),其中w为模型参数,x为输入的文本信息,在深度神经网络进行学习第一个任务之前假设其网络参数初始值为W0;
(2)在学习第一个任务时,经过深度神经网络的前向传播以及损失函数对网络参数进行求导之后可以得到当前任务所对应的梯度ΔW1,进而进行参数更新,即W1=W0+ΔW1;
(3)在学习第二个任务时,同理,可以得到ΔW2,此时将ΔW2投影到输入空间A的正交平面上得到ΔW2’=P·ΔW2,其中P为正交投影矩阵,P=I-A(A’A+αI)-1A’,其中A=[x1,x2,...,xn]为任务一的输入空间,在更新第二个任务对应的模型参数时,W2=W1+ΔW2’=W1+P·ΔW2,只要学习时更新权重的方向ΔW与原来的输入x都正交,就不会影响原来的解,以使深度神经网络实现终生学习。
3.如权利要求1所述的方法,其特征在于,所述预训练语言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE、或ELMo中的一个。
4.如权利要求1所述的方法,其特征在于,所述深度神经网络模型包括:TextCNN、LSTM、remove、或transformer模型中的一个。
5.如权利要求4所述的方法,其特征在于,所述TextCNN模型的具体步骤为:
将所述中文单词的词向量输入到TextCNN模型的卷积层进行卷积处理,得到所述文本信息所对应的语义矩阵;
将语义矩阵输入到TextCNN模型的池化层进行池化计算,得到所述文本信息的语义向量;
最后将语义向量输入到TextCNN模型的softmax层进行分类处理,以确定所述待分类文本的分类结果。
6.如权利要求5所述的方法,其特征在于,所述池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算、或者使用均值池(avg-pool ing)算法来进行池化计算。
7.如权利要求4所述的方法,其特征在于,所述transformer模型的具体步骤为:
将所述中文单词的词向量分别经过三种不同的线性变换,得到分别代表Query、Key、Value的Q,K,V矩阵;
进而,经过公式,
Figure FDA0002539302950000021
可以得到transformer的输出结果进行文本分类。
8.如权利要求7所述的方法,其特征在于,进一步的,所述深度神经网络模型,数据量比较小的任务使用TextCNN,数据量比较大的任务使用transformer模型。
CN202010542045.7A 2020-06-15 2020-06-15 一种基于终生学习的文本分类方法 Pending CN111723203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010542045.7A CN111723203A (zh) 2020-06-15 2020-06-15 一种基于终生学习的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010542045.7A CN111723203A (zh) 2020-06-15 2020-06-15 一种基于终生学习的文本分类方法

Publications (1)

Publication Number Publication Date
CN111723203A true CN111723203A (zh) 2020-09-29

Family

ID=72568097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010542045.7A Pending CN111723203A (zh) 2020-06-15 2020-06-15 一种基于终生学习的文本分类方法

Country Status (1)

Country Link
CN (1) CN111723203A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN113299315A (zh) * 2021-07-27 2021-08-24 中国科学院自动化研究所 一种无需原始数据存储的持续性学习生成语音特征的方法
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161267A1 (en) * 2009-07-28 2011-06-30 Georgia Tech Research Corporation Systems and methods for training neural networks based on concurrent use of current and recorded data
CN109328362A (zh) * 2016-05-20 2019-02-12 渊慧科技有限公司 渐进式神经网络
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
US20190188568A1 (en) * 2017-12-20 2019-06-20 Salesforce.Com, Inc. Hybrid training of deep networks
CN109934343A (zh) * 2019-02-25 2019-06-25 中国科学院自动化研究所 基于正交投影矩阵的人工神经网络优化方法、系统、装置
CN110532383A (zh) * 2019-07-18 2019-12-03 中山大学 一种基于强化学习的专利文本分类方法
CN110866113A (zh) * 2019-09-30 2020-03-06 浙江大学 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN110991513A (zh) * 2019-11-27 2020-04-10 佛山科学技术学院 一种具有类人连续学习能力的图像目标识别系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161267A1 (en) * 2009-07-28 2011-06-30 Georgia Tech Research Corporation Systems and methods for training neural networks based on concurrent use of current and recorded data
CN109328362A (zh) * 2016-05-20 2019-02-12 渊慧科技有限公司 渐进式神经网络
US20190188568A1 (en) * 2017-12-20 2019-06-20 Salesforce.Com, Inc. Hybrid training of deep networks
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN109934343A (zh) * 2019-02-25 2019-06-25 中国科学院自动化研究所 基于正交投影矩阵的人工神经网络优化方法、系统、装置
CN110532383A (zh) * 2019-07-18 2019-12-03 中山大学 一种基于强化学习的专利文本分类方法
CN110866113A (zh) * 2019-09-30 2020-03-06 浙江大学 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN110991513A (zh) * 2019-11-27 2020-04-10 佛山科学技术学院 一种具有类人连续学习能力的图像目标识别系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUANGXIONG ZENG等: "Continual learning of context-dependent processing in neural networks", 《NATURE MACHINE INTELLIGENCE》 *
余传明;王曼怡;林虹君;朱星宇;黄婷婷;安璐;: "基于深度学习的词汇表示模型对比研究", 数据分析与知识发现 *
刘建伟;赵会丹;罗雄麟;许鋆;: "深度学习批归一化及其相关算法研究进展", 自动化学报 *
张仕良: "基于深度神经网络的语音识别模型研究", 《中国博士学位论文全文数据库(信息科技辑)》 *
范长德: "基于稀疏表示模型的行为识别研究", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN113299315A (zh) * 2021-07-27 2021-08-24 中国科学院自动化研究所 一种无需原始数据存储的持续性学习生成语音特征的方法
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113688237B (zh) * 2021-08-10 2024-03-05 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置

Similar Documents

Publication Publication Date Title
EP3711000B1 (en) Regularized neural network architecture search
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
US11544536B2 (en) Hybrid neural architecture search
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
EP3295381B1 (en) Augmenting neural networks with sparsely-accessed external memory
CN111723203A (zh) 一种基于终生学习的文本分类方法
CN109948149B (zh) 一种文本分类方法及装置
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110674305A (zh) 一种基于深层特征融合模型的商品信息分类方法
US11347995B2 (en) Neural architecture search with weight sharing
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
CN111651576B (zh) 一种基于迁移学习的多轮阅读理解方法
US11915120B2 (en) Flexible parameter sharing for multi-task learning
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
KR20240034804A (ko) 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가
CN115329075A (zh) 基于分布式机器学习的文本分类方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
Tao et al. Efficient incremental training for deep convolutional neural networks
CN115066689A (zh) 细粒度的随机神经架构搜索
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
Thonglek et al. Automated quantization and retraining for neural network models without labeled data
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929