CN112256867A - 文本分类模型的训练方法、系统及相关设备 - Google Patents
文本分类模型的训练方法、系统及相关设备 Download PDFInfo
- Publication number
- CN112256867A CN112256867A CN202011035101.4A CN202011035101A CN112256867A CN 112256867 A CN112256867 A CN 112256867A CN 202011035101 A CN202011035101 A CN 202011035101A CN 112256867 A CN112256867 A CN 112256867A
- Authority
- CN
- China
- Prior art keywords
- tensor
- target
- word vector
- tensor network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 264
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000013145 classification model Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 421
- 230000009467 reduction Effects 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 45
- 230000008602 contraction Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000002775 capsule Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 201000007116 gestational trophoblastic neoplasm Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005631 quantum field theories Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种文本分类模型的训练方法、系统及相关设备,其中,所述方法包括:采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;根据所述目标纠缠熵计算得到第二超参数;采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。采用本申请实施例,能够极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本分类模型的训练方法、系统及相关设备。
背景技术
在现有技术中,通常神经网络模型实现文本分类任务,例如:第一,使用卷积神经网络(CNN)结构实现情感、问答等句子级别的分类任务;第二,提出了层次凝聚聚类算法(HAC)模型,利用深层CNN的中间信息形成分层结构特征(对应单词、短语和从句等),然后模型利用胶囊模块和注意力(attention)机制充分进行特征聚合;第三,模型基于注意力机制学习文本特征,不仅可以用于文本分类,还可用于机器翻译等自然语言处理(NaturalLanguage Process,NLP)任务;第四,使用限制递归神经网络,通过预设权重矩阵集使得模型训练对虚词降低权重,提高文本情绪分类的准确率。
然而,目前采用神经网络模型虽然能够取得较好的文本分类结果,但是神经网络模型的输入和输出之间具有不可解释性,在训练时需要通过不可解释的复杂调参过程才能获取可用于实现文本分类任务的文本分类模型,其训练过程相对复杂,需要进行大量调试,训练难度大、成本高。其次,深度学习中的文本分类模型使用大量参数去学习文本特征,可能导致过拟合现象的产生,使得参数冗余、计算效率降低。
发明内容
本申请实施例公开了一种文本分类模型的训练方法、系统及相关设备,通过采用张量网络训练文本分类模型,能够极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
本申请实施例第一方面公开了一种文本分类模型的训练方法,所述方法由计算机装置执行,所述方法包括:采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;根据所述目标纠缠熵计算得到第二超参数;采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
其中,第一超参和第二超参是对于同一任务的超参的不同取值。应理解,一轮迭代训练包括多次迭代,也即在一轮迭代中,多个样本词向量序列多次输入到张量网络中进行训练,每一次训练结束后,计算得到本次训练的损失,根据本次训练的损失调整张量网络的模型参数,得到下一次训练的张量网络模型,然后进行下一次的训练,直至模型收敛。
应理解,该多个样本词向量序列是由多个文本经过转换得到的。就其中一个文本转换成样本词向量序列来说,其具体转换过程为:将文本中的每个词转换成词向量,得到多个词向量,再由该多个词向量组成一个序列,得到该样本词向量序列。其中,由多个词向量组成一个样本词向量序列时,可以按照词向量对应的词在文本中的顺序来对该多个词向量进行排序,从而得到该样本词向量序列。
可以看出,在本实施例中,采用初始的超参数(也即第一超参数)和多个样本词向量序列对张量网络进行第一轮迭代训练,并且每迭代一次计算一个第一纠缠熵,将第一纠缠熵收敛时的值作为目标纠缠熵的值;然后根据目标纠缠熵计算得到的超参数(也即第二超参数);再采用该第二超参数和该多个样本词向量序列对该张量网络进行第二轮迭代训练,并且每迭代一次计算一个第二纠缠熵,将第二纠缠熵收敛时的张量网络模型作为需要的文本分类模型,用于文本分类;由于本申请实施例只需要进行一次预训练就可以直接计算出模型的超参数,将计算出的超参数带入再次训练即可输出可用于实现文本分类任务的模型,极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
在一种示例性的实施方式中,所述张量网络包括判别式张量网络(Discriminative Tensor Network,DTN)和r个生成式张量网络(Generative TensorNetwork,GTN),所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;其中,所述r为正整数。
其中,该r个生成式张量网络用于对样本词向量序列进行降维处理,该判别式张量网络用于对降维后的词向量序列进行文本分类。
可见,在本示例中,用于文本分类模型训练的张量网络包括判别式张量网络和r个生成式张量网络,该r个生成式张量网络的输出为该判别式张量网络的输入,该r个生成式张量网络用于对输入的样本词向量序列进行降维,再将降维后的词向量序列输入该判别式张量网络进行句子建模以及文本分类,由于降低了训练时的样本维度,有利于降低模型训练的难度和成本。
在一种示例性的实施方式中,所述迭代训练包括:对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;当所述第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至所述第三纠缠熵收敛;当所述第三纠缠熵收敛时,若所述迭代训练为所述第一轮迭代训练,则所述目标纠缠熵为所述第三纠缠熵;若所述迭代训练为所述第二轮迭代训练,则所述文本分类模型为所述张量网络模型Mt+1;其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
应理解,当t=1时,所述张量网络模型Mt为初始张量网络模型,该初始张量网络模型为对该张量网络配置了初始模型参数后的张量网络模型。
可见,在本示例中,在对张量网络进行迭代训练的每一次迭代中,对于多个样本词向量序列中的每个样本词向量序列,依次先将其输入到r个生成式张量网络进行降维处理,降维后再输入到判别式张量网络进行文本分类,从而得到该多个样本词向量序列对应的预测标签;然后根据该多个样本词向量序列对应的预测标签和该多个样本词向量序列对应的真实标签计算损失值,并根据该损失值调整模型参数,得到下一次迭代的模型,以及根据下一次迭代的模型中的参数计算第三纠缠熵;当第三纠缠熵不收敛时,重复上述步骤进行下一次迭代,直至第三纠缠熵收敛;当第三纠缠熵收敛时,若为第一轮迭代训练,则可以根据第三纠缠熵计算超参数;若为第二轮迭代训练,则该下一次迭代的模型为需要的文本分类模型,可以用于文本分类任务。
在一种示例性的实施方式中,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,包括:对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
其中,在对词向量进行特征映射时,可以将词向量映射到希尔伯特(Hilbert)高维空间。将第一词向量映射到希尔伯特高维空间(即进行了向量每个维度间的张量积运算)后得到的是一个高阶张量。
应理解,只有通过对词向量的每个维度进行张量积运算映射到高维的希尔伯特空间才可以输入到生成式张量网络中进行缩并运算。
可见,在本示例中,先将输入模型中的样本词向量序列中的每个第一词向量映射到高维空间,进行升维处理,得到第一张量;再采用张量网络模型中的r个生成式张量网络对第一张量进行降维处理,得到第二词向量,其中,第二词向量的维度低于第一词向量;先对第一词向量进行升维处理,便于词向量的特征提取;再对词向量进行降维处理,将降维处理后的词向量序列输入判别式张量网络中进行预测,有利于提高词向量对单词表达的效率,降低模型训练的成本。
在一种示例性的实施方式中,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列,包括:对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;根据所述r个目标概率值得到第二词向量;所述n个第二词向量构成所述第二目标词向量序列。
其中,该第一权重参数可以是生成式张量网络的张量网络态,目标概率值可以理解为当前单词对于模型做出分类的某些决策的重要程度。
可见,在本示例中,在将高维的第一张量降维为低维的第二词向量时,就一个第一张量而言,将r个生成式张量网络的张量网络态分别与该第一张量进行张量缩并运算,得到r个张量缩并运算结果;然后根据该r个张量缩并运算结果得到r个目标概率值,其中,该r个目标概率值的和为1,目标概率值可以理解为当前单词对于模型做出分类的某些决策的重要程度;再根据该r个目标概率值得到第二词向量,从而使得第二词向量满足概率的特性,也即第二词向量有r个维度,该r个维度对应该r个目标概率值,有利于判别式张量网络对词向量序列做出文本分类结果。
在一种示例性的实施方式中,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt,包括:对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;根据所述多个交叉熵损失计算得到所述损失值Lt。
应理解,传统的判别式张量网络仅选择张量缩并操作中某一个节点处的预测结果进行训练,即只对一个函数进行预测训练,这样导致了学习过程无法对句子建模过程中所有的特征进行学习。因此,本示例在训练过程中设计了全函数(All-function)学习算法,也即对于判别式张量网络中的每个节点的预测结果进行训练。具体地,将词向量序列输入判别式张量网络后,判别式张量网络中的每个节点都输出一个预测标签,对每个节点输出的预测标签求加权平均,将该加权平均后的结果作为该词向量序列的预测标签。
可见,在本示例中,在训练时,将词向量序列输入判别式张量网络后,判别式张量网络中的每个节点都输出一个预测标签,对每个节点输出的预测标签求加权平均,将该加权平均后的结果作为该词向量序列的预测标签;从而利用多个词向量序列对应的加权平均后的预测标签和对应的真实标签计算得到多个交叉损失,再根据该多个交叉损失求得一次迭代的损失值,并根据该损失值调整模型参数,可以提高模型的训练稳定性与预测的准确率。
在一种示例性的实施方式中,所述根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵,包括:对所述张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,所述n为所述张量网络模型Mt+1中的判别式张量网络的节点数,所述n为正整数;对所述目标节点进行奇异值分解(Singular Value Decomposition,SVD),得到k个奇异值,其中,所述k为正整数;根据所述k个奇异值计算得到所述第三纠缠熵。
其中,目标节点也即第j个节点和第j+1个节点进行张量缩并运算合成的节点。
可见,在本示例中,通过对判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,将第j个节点和第j+1个节点合成一个节点,其中,n为判别式张量网络的节点数,n为正整数;然后对合成的节点进行奇异值分解,得到k个奇异值;再采用该k个奇异值计算纠缠熵,从而有利于依据该纠缠熵计算超参数,实现模型训练中的超参数可计算。
本申请实施例第二方面公开了一种文本分类模型的训练系统,所述系统包括文本张量网络模块和超参数计算模块;所述文本张量网络模块,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练;所述超参数计算模块,用于在所述第一轮迭代训练的每一次迭代训练结束后,计算第一纠缠熵,以得到目标纠缠熵,以及根据所述目标纠缠熵计算得到第二超参数,其中,所述目标纠缠熵的值为所述第一纠缠熵收敛时的值;所述文本张量网络模块,还用于采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练;所述超参数计算模块,还用于在所述第二轮迭代训练的每一次迭代训练结束后,计算第二纠缠熵;其中,所述第二纠缠熵收敛时的张量网络模型为所述文本分类模型。
在一种示例性的实施方式中,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;其中,所述r为正整数。
在一种示例性的实施方式中,所述文本张量网络模块,用于:对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;并将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;以及根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;以及根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;所述超参数计算模块,用于:根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;若为所述第一轮迭代训练,则所述第三纠缠熵为所述第一纠缠熵;若为所述第二轮迭代训练,则所述第三纠缠熵为所述第二纠缠熵;其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
在一种示例性的实施方式中,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述文本张量网络模块,用于:对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
在一种示例性的实施方式中,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述文本张量网络模块,用于:对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;根据所述r个目标概率值得到第二词向量;所述n个第二词向量构成所述第二目标词向量序列。
在一种示例性的实施方式中,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述文本张量网络模块,用于:对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;根据所述多个交叉熵损失计算得到所述损失值Lt。
在一种示例性的实施方式中,所述超参数计算模块,用于:对所述张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,所述n为所述张量网络模型Mt+1中的判别式张量网络的节点数,所述n为正整数;对所述目标节点进行奇异值分解,得到k个奇异值,其中,所述k为正整数;根据所述k个奇异值计算得到所述第三纠缠熵。
本申请实施例第三方面公开了一种文本分类模型的训练装置,所述装置包括:训练单元,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;计算单元,用于根据所述目标纠缠熵计算得到第二超参数;所述训练单元,还用于采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
在一种示例性的实施方式中,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;其中,所述r为正整数。
在一种示例性的实施方式中,所述训练单元,用于:对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;当所述第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至所述第三纠缠熵收敛;当所述第三纠缠熵收敛时,若所述迭代训练为所述第一轮迭代训练,则所述目标纠缠熵为所述第三纠缠熵;若所述迭代训练为所述第二轮迭代训练,则所述文本分类模型为所述张量网络模型Mt+1;其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
在一种示例性的实施方式中,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述训练单元,用于:对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
在一种示例性的实施方式中,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述训练单元,用于:对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;根据所述r个目标概率值得到第二词向量;所述n个第二词向量构成所述第二目标词向量序列。
在一种示例性的实施方式中,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述训练单元,用于:对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;根据所述多个交叉熵损失计算得到所述损失值Lt。
在一种示例性的实施方式中,所述训练单元,用于:对所述张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,所述n为所述张量网络模型Mt+1中的判别式张量网络的节点数,所述n为正整数;对所述目标节点进行奇异值分解,得到k个奇异值,其中,所述k为正整数;根据所述k个奇异值计算得到所述第三纠缠熵。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请实施例第一方面的内容应同步适配于本申请实施例第二方面和第三方面,此处不再赘述。
本申请实施例第四方面公开了一种计算机装置,包括处理器、存储器、通信接口,以及一个或多个程序,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行如上述第一方面中任一项所述的方法中的步骤的指令。
本申请实施例第五方面公开了一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有上述芯片的设备执行如上述第一方面中任一项上述的方法。
本申请实施例第六方面公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如上述第一方面中任一项所述的方法。
本申请实施例第七方面公开了一种计算机程序产品,上述计算机程序产品使得计算机执行如上述第一方面中任一项所述的方法。
附图说明
以下对本申请实施例用到的附图进行介绍。
图1是本申请实施例提供的一种文本分类模型的训练系统的架构示意图;
图2是本申请实施例提供的一种文本张量网络的架构示意图;
图3是本申请实施例提供的一种全函数学习算法的示意图;
图4是本申请实施例提供的DMRG算法中超参数的示意图;
图5是本申请实施例提供的一种文本分类模型的训练方法的流程示意图;
图6是本申请实施例提供的一种文本分类模型训练过程中纠缠熵与迭代次数的关系图;
图7是本申请实施例提供的一种预测准确率和纠缠熵与超参数的关系图;
图8是本申请实施例提供的一种文本分类模型的训练装置的结构示意图;
图9是本申请实施例提供的一种计算机装置的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
为了便于本领域技术人员理解本申请,首先在此对本申请实施例中的部分用语进行解释说明,以及对本申请实施例涉及的相关技术知识进行介绍。
张量网络:张量网络是一种稀疏数据结构,用于高效地表示和操作高维数据,目前已在统计力学、量子场论以及机器学习中得到了很大的发展和应用。
文本分类:文本分类是使用计算机算法对文本集按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。
超参数:超参数一般定义关于模型的更高层次的概念,不能直接从模型训练过程中学习而得,需要预先定义。实践上,可以通过设置不同的超参数值,训练不同的模型和选择最好的测试值来决定。
文本分类是一项传统的机器学习任务,其旨在通过计算机算法自动对文本集按照一定的分类体系进行分类标记。文本分类任务通常需要使用一个已经被标注了分类标签的训练文档集合进行学习,较早期的技术手段是基于规则的,学习过程可以认为是总结训练集合的基本规律,并使用这些规律对新输入的文本进行类别标记。随后,使用机器学习的技术进行文本分类,将该任务转变为从训练集合中学习一个统计数学意义上的函数,通常称为模型;其中,构建模型与最终使用模型进行预测,都要首先对输入的文本进行特征选择,常用的特征选择方法即选取文本中重要的词或词组,并以这些词或词组出现的频次等相关值作为特征值。近几年来,随着深度神经网络技术的发展,深度学习神经网络模型不断刷新文本分类任务的精度。但是,目前基于深度神经网络的方法都普遍存在诸如模型需要进行大量调参及过拟合等问题,主要原因是神经网络的黑盒结构,模型训练过程不可控,这一缺陷限制了神经网络文本分类模型的进一步优化,导致训练深度神经网络的成本过高。
张量网络是一种稀疏数据结构,用于高效地表示和操作高维数据,目前已在统计力学、量子场论以及机器学习中得到了很大的发展和应用。张量网络在机器学习领域中的应用具有强大的理论解释优势,近年来在图像领域取得大量进展。然而在拥有广泛应用范围的文本领域,张量网络仍缺乏有效的技术装置,且其理论优势未能真正应用于模型的训练过程,模型仍需要通过多次调参得到最优的分类效果。
使用张量网络进行文本分类的应用目前仍处于相对空白状态,但是在图像处理领域已经可以看到一些使用张量网络进行图像分类的工作,具体如下:使用张量网络结构建模图像分类任务,其模型基于MPS结构;使用分层树张量网络态学习图像特征,进行图像识别;基于MPS无监督生成模型,针对不同的类别分别生成MPS结构,利用无监督训练后的MPS对手写体识别(MNIST)任务进行分类。张量网络模型具有强大的理论可解释性,但这种理论优势并未体现在实际训练中,即张量网络要想获取最好的分类精度,仍然依赖于无目的的调参过程。模型效果方面,张量网络的图像分类精度仍未超过经典的神经网络模型(如CNN等),需要对张量网络结构进行进一步优化。与此同时以上提到的张量网络模型架构并不能直接用于文本分类任务。
在文本分类领域,当前主流的深度神经网络的方法取得了不错的效果,但是深度神经网络可解释性差,训练过程完全是黑盒的,模型的超参数往往需要靠设置一个候选集合,通过多次训练并验证来确定取值。而最近在机器学习领域崭露头角的张量网络,具有较好的可解释性,在图像处理领域已经取得了一定应用,但是目前还没有可以适用于自然语言处理任务的架构。
综上可知,本申请要解决的技术问题即设计并实现一个可用于自然语言处理任务的基于张量网络的文本分类架构,该架构一方面要实现在文本分类任务上精度不低于深度神经网络,保证其可用性;另一方面,充分发挥张量网络的可解释性特点,推导对网络的超参数进行计算的理论公式,从而在实践中降低模型训练的难度;最终实现一套可计算超参数的张量网络文本分类方法与装置。具体地,本申请提出了一种可用于文本分类的文本张量网络架构,该文本张量网络(Text Tensor Network,TextTN)架构由若干个单词级生成式张量网络(word-GTNs)和一个句子级判别式张量网络(sentence-DTN)组成。文本分类的句子通过转换成由单词对应的向量构成的词向量序列,输入到若干个单词级生成式张量网络中,从而得到降维后的由单词对应的向量构成的词向量序列;再将降维后的由单词对应的向量构成的词向量序列表示的文本分类句子输入到句子级判别式张量网络中,可以获得句子的表示向量,同时输出分类的标签。在实际的网络训练过程中,按照上述工程对训练集的文本进行一次文本张量网络的预训练,单词训练结束后使用超参计算公式计算出超参数;再使用计算出来的超参数值设置文本张量网络的超参数,重新训练一次文本张量网络,得到的就是可用于实现文本分类任务的网络模型。本申请可以采用多种编程语言实现,可以部署到通用的计算机或者其它能够提供计算能力的设备上。
请参阅图1,图1是本申请实施例提供的一种文本分类模型的训练系统的架构示意图。如图1所示,该系统包括文本张量网络(TextTN)模块和超参数计算模块;文本张量网络模块,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练;超参数计算模块,用于在第一轮迭代训练的每一次迭代训练结束后,计算第一纠缠熵,以得到目标纠缠熵,以及根据目标纠缠熵计算得到第二超参数,其中,目标纠缠熵的值为第一纠缠熵收敛时的值;文本张量网络模块,还用于采用第二超参数和多个样本词向量序列对张量网络进行第二轮迭代训练;超参数计算模块,还用于在第二轮迭代训练的每一次迭代训练结束后,计算第二纠缠熵;其中,第二纠缠熵收敛时的张量网络模型为文本分类模型。
具体地,该文本分类模型的训练系统包含两大主模块和两条作业流程。
其中,两大主模块包括文本张量网络(TextTN)模块和超参数计算模块。文本张量网络模块是一个张量网络的架构,其第一层是单词级生成式张量网络(word-GTNs),用来对输入的词向量序列表征的文本进行词向量的降维;第二层是一个句子级判别式张量网络(sentence-DTN),用来对降维后的词向量序列组成的句子进行建模,并输出最终的分类标签。超参数计算模块通过理论推导,可以使用公式直接计算出文本张量网络中的超参数,也即计算出第二超参数。
其中,两条作业流程分别为预训练过程(图1中实线标号作业流程)与最终训练过程(图1中虚线标号作业流程)。对于预训练过程,也即第一轮迭代训练,先将训练样本(也即文本)转换为词向量序列,然后将词向量序列直接输入到文本张量网络(TextTN)中,并使用随机初始的第一超参数进行一轮训练;第一轮迭代训练中,每进行一次迭代训练后,超参数计算模块会计算一次纠缠熵,也即计算第一纠缠熵;随着迭代训练的次数的增加,超参数计算模块推导出来的计算量——第一纠缠熵会逐渐趋于收敛,超参数计算模块就可以计算得到超参数,也即超参数计算模块使用该第一纠缠熵的收敛值计算出第二超参数。对于最终训练过程,也即第二轮迭代训练,与预训练过程基本一致,只是不再使用随机初始的第一超参数进行训练,而是需要重置超参数,也即将预训练流程中计算得到的第二超参数配置于文本张量网络(TextTN)中;然后经过一轮训练即可得到可用于实现文本分类任务的文本分类模型,并输出该文本分类模型用于文本分类的预测;其中,在第二轮训练中,超参数计算模块推导出来的计算量——第二纠缠熵趋于收敛时的张量网络模型为该文本分类模型。
在一种示例性的实施方式中,该张量网络包括判别式张量网络和r个生成式张量网络,r个生成式张量网络的输出数据为判别式张量网络的输入数据;其中,r为正整数。
在一种示例性的实施方式中,该文本张量网络模块,用于:对多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,多个样本词向量序列与多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,第一目标词向量序列为多个样本词向量序列中的任意一个,t为迭代次数;并将第二目标词向量序列输入张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,目标文本为与第一目标词向量序列对应的文本;以及根据多个第一预测标签和多个样本词向量序列对应的真实标签计算损失值Lt;以及根据损失值Lt调整张量网络模型Mt中的参数,以得到张量网络模型Mt+1;该超参数计算模块,用于:根据张量网络模型Mt+1中的参数计算得到第三纠缠熵;若为第一轮迭代训练,则第三纠缠熵为第一纠缠熵;若为第二轮迭代训练,则第三纠缠熵为第二纠缠熵;其中,当t=1时,张量网络模型Mt为初始张量网络模型。
在一种示例性的实施方式中,第一目标词向量序列包括n个第一词向量,其中,n为正整数,该文本张量网络模块,用于:对n个第一词向量分别进行特征映射,得到n个第一张量,其中,第一张量为第一词向量的张量表示;采用张量网络模型Mt中的r个生成式张量网络对n个第一张量中的每个第一张量进行降维处理,得到第二目标词向量序列。
在一种示例性的实施方式中,张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,该文本张量网络模块,用于:对n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,n个第二词向量与n个第一张量相对应:将r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,第二张量为n个第一张量中的任意一个第一张量;根据r个张量缩并运算结果得到r个目标概率值,其中,r个目标概率值的和为1;根据r个目标概率值得到第二词向量;n个第二词向量构成第二目标词向量序列。
在一种示例性的实施方式中,张量网络模型Mt中的判别式张量网络包括n个节点,每个第一预测标签包括n个第二预测标签,n个第二预测标签分别由n个节点输出,其中,n为正整数,该文本张量网络模块,用于:对多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,第一目标标签为多个第一预测标签中的任意一个;根据第三预测标签和第二目标标签计算得到交叉熵损失,其中,第二目标标签为第四目标词向量序列对应的真实标签,第四目标词向量序列为第一目标标签对应的样本词向量序列;根据多个交叉熵损失计算得到损失值Lt。
在一种示例性的实施方式中,该超参数计算模块,用于:对张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,n为张量网络模型Mt+1中的判别式张量网络的节点数,n为正整数;对目标节点进行奇异值分解,得到k个奇异值,其中,k为正整数;根据k个奇异值计算得到第三纠缠熵。
下面介绍本申请实施例提供的文本张量网络模块和超参数计算模块的具体实现。
一、文本张量网络模块
请参阅图2,图2是本申请实施例提供的一种文本张量网络的架构示意图。其中,该文本张量网络包括两层张量网络,其第一层是生成式张量网络(GTNs),称其为word-GTNs或w-GTNs,它们的张量网络参数是共享的,其作用是对输入到文本张量网络的词向量序列中的每一个词向量进行降维,其中,有r个生成式张量网络就能将词向量降到r维;其第二层是一个判别式张量网络(DTN),称其为sentence-DTN或s-DTN,其作用是对降维后的词向量序列进行句子建模,同时输出分类的类别。下面分别介绍这两层网络结构。
(1)word-GTNs子模块
在图2中,w1、w2、......、wn表示词向量;Φ(w1)、Φ(w2)......、Φ(wn)表示词向量在希尔伯特(Hilbert)高维空间中的张量表示形式;v1、v2、......、vn表示降维后的词向量;x1、x2、......、xn分别表示词向量w1、w2、......、wn经过正余弦变换后所得到的中间输入;Φ(X)表示输入的词向量进行张量积后得到的高阶张量。
输入word-GTNs的是由词向量序列表示的句子,假设句子中的每个词所对应的词向量wi=(θ1,θ2,…,θm)T是一个m维的向量,通常m的取值在几十到几百之间,每一个word-GTN所要做的操作包括如下两步:
第一步,对词向量进行特征映射,映射到希尔伯特高维空间,即对词向量每个维度的数值进行正余弦变换,然后求张量积,得到Φ(wi),其中,Φ(wi)是一个m阶的张量。具体计算过程如公式(1)所示。
应理解,只有通过对词向量的每个维度进行张量积运算映射到高维的希尔伯特空间才可以输入到生成式张量网络中进行缩并运算。
第二步,初始化r个word-GTNs网络对高维特征映射的单词进行表示降维,也即将初始模型参数配置到网络中,然后进行词向量降维计算,具体计算过程如公式(2)所示。
在公式(2)中,W1、W2、......、Wr分别是r个word-GTNs的张量网络态,当第一次迭代时W1、W2、......、Wr是初始的张量网络态;·是张量缩并运算;pi 1、pi 2、......、pi r可以理解为当前单词对于模型做出分类的某些决策的重要程度,其满足约束条件pi 1+pi 2+......+pi r=1。
其中,r的取值可以根据实际需求进行调整。例如,当r=2时,文本张量网络中有2个word-GTNs时,公式(2)可以简化为公式(3)。
此时,在公式(3)中,W1和W2是两个word-GTNs的张量网络态;·是张量缩并运算;pi 1和pi 2表示当前单词对于模型做出分类决策是重要还是不重要的概率,其满足约束条件pi 1+pi 2=1。
(2)sentence-DTN子模块
在图2中,As1、As2、....、Asn分别表示节点;l表示输出预测标签,As2 l表示多个节点的输出的预测标签合成后从As2节点处输出,其中从As2节点处输出仅是示例性的,可以是从任一个节点输出;α1、α2、....、αn-1分别表示各相邻节点之间的连接键。
由上可知,输入sentence-DTN的是经过word-GTNs降维后的句子的单词向量序列S=(v1,v2,…,vn),当文本张量网络中有r个word-GTNs时,单词向量序列S=(v1,v2,…,vn)是由n个向量组成的序列,其中的每个向量的维度为r维;当文本张量网络中有2个word-GTNs时,单词向量序列S=(v1,v2,…,vn)是由n个向量组成的序列,其中的每个向量的维度为2维。其中,sentence-DTN进行文本分类预测的具体计算过程如公式(4)所示。
f(S)=Wl·Φ(S) (4)
其中,缩并运算是张量间的运算,就是公式(4)里中间那个点“·”,也就是说Wl和Φ(S)都是张量,Φ(S)是词向量的张量积,其是n阶张量,因为它是由n个向量做张量积计算而来的;Wl是比Φ(S)更高一阶的张量,这样Wl与Φ(S)做缩并以后会只剩下一条“腿”(即分类的类别标签对应的维度);具体地,如图2所示,DTN中节点As1、As2、....、Asn分别有一条输出的“腿”,表示Φ(S)是n阶张量,而是Wl是n+1阶的张量,Wl与Φ(S)做缩并以后为一阶张量,因此节点As1、As2、....、Asn的输出合并为一条“腿”输出,也即图2中的l。
传统的判别式张量网络仅选择张量缩并操作中某一个节点处的预测结果进行训练,即只对一个函数进行预测训练,这样导致了学习过程无法对句子建模过程中所有的特征进行学习。因此,本申请在训练过程中设计了全函数(All-function)学习算法,也即对于判别式张量网络中的每个节点的预测结果进行训练,可以提高模型的训练稳定性与预测的准确率。
请参阅图3,图3是本申请实施例提供的一种全函数学习算法的示意图。如图3所示,对于一个词向量序列S的输入,张量网络中的各节点的输出分别为f1(X)、f2(X)、......、fn(X),再根据各节点对应的权重ε1、ε2、......、εn对各节点的输出f1(X)、f2(X)、......、fn(X)求加权平均,得到该张量网络的输出f(X)。全函数学习算法也即即张量缩并操作中的每一节点处的预测结果都参与到学习过程中,故全函数学习算法的损失函数可以定义为:
在公式(5)中,L(Wl,ε)表示损失值;N是样本数量;CE表示交叉熵(cross entropy)损失;εi是一个向量,每个维度上的取值对应每个输出的权重;Φ(S)是句子中单词向量的张量积,也即li表示sentence-DTN的节点输出位置;Wli表示各节点对应的网络参数;yr表示真实标签向量。
二、超参数计算模块
张量网络一般使用DMRG(Density Matrix Renormalization Group)算法进行优化,DMRG算法涉及的超参数为节点之间的连接键(bond-dimension)的维度。
请一并参阅图4,图4是本申请实施例提供的DMRG算法中超参数的示意图。如图4所示,第j个节点和第j+1个节点一共有三条向外伸出的“腿”,其中,第j个节点是整个张量网络的输出节点,因此有两条“腿”,第j+1个节点有一条“腿”;对第j个节点和第j+1个节点进行张量缩并运算后,合并成一个节点,该合并后的节点也有三条“腿”;再对合并后的节点进行奇异值分解,得到三个节点,分别为Usj、S、Vl sj+1,其中,节点Usj有一条“腿”,节点S没有“腿”,节点Vl sj+1为输出节点、有两条“腿”。超参数即节点S与节点Usj或节点Vl sj+1的连接键的维度,也即奇异值分解后中间菱形节点连接圆形节点的边所对应的维度。
计算超参数可以分为如下的两个步骤:
第一步,在文本张量网络进行网络训练的过程中,每一轮迭代结束后,在sentence-DTN结构中节点数的(n-1)/2向下取整位置处计算网络中的纠缠熵,其中n表示张量网络的节点数,纠缠熵的计算公式如公式(6)所示。
其中,gh是sentence-DTN结构在(n-1)/2向下取整位置处SVD分解得到的奇异值,k是奇异值的个数。
第二步,计算平衡的张量网络超参数——连接键的维度,具体计算公式如公式(7)所示。
其中,E是第一步计算得到的纠缠熵,求得幂指数后向下取整。
下面结合具体实施方式对本申请提供的技术方案进行详细的介绍。
请参见图5,图5是本申请实施例提供的一种文本分类模型的训练方法的流程示意图,该方法可以应用于图1所示的系统,该方法由计算机装置执行,该方法包括但不限于如下步骤:
步骤501、采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值。
应理解,一轮迭代训练包括多次迭代,也即在一轮迭代中,多个样本词向量序列多次输入到张量网络中进行训练,每一次训练结束后,计算得到本次训练的损失,根据本次训练的损失调整张量网络的模型参数,得到下一次训练的张量网络模型,然后进行下一次的训练,直至模型收敛。
应理解,该多个样本词向量序列是由多个文本经过转换得到的。就其中一个文本转换成样本词向量序列来说,其具体转换过程为:将文本中的每个词转换成词向量,得到多个词向量,再由该多个词向量组成一个序列,得到该样本词向量序列。其中,由多个词向量组成一个样本词向量序列时,可以按照词向量对应的词在文本中的顺序来对该多个词向量进行排序,从而得到该样本词向量序列。
具体地,对文本分类的训练数据进行预处理,包括分词、过滤停用词等操作,并将训练数据的每个样本(句子)转换为词向量,再组成词向量序列,词向量的构建包括但不限于使用word2vec等词向量的工具。
其中,该张量网络可以是图2所示的文本张量网络。第一轮迭代训练的具体过程为:将训练数据的词向量序列输入到文本张量网络中,并使用随机初始的超参数在训练数据集上进行一轮训练,训练过程中每一次的迭代都使用上述公式(6)计算纠缠熵并输出,迭代至纠缠熵的变化趋于收敛时停止本轮训练。
步骤502、根据所述目标纠缠熵计算得到第二超参数。
其中,第一超参和第二超参是对于同一任务的超参的不同取值。
具体地,根据第一轮迭代训练收敛时的纠缠熵取值,使用上述公式(7)计算出文本张量网络的超参数。
步骤503、采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
具体地,将文本张量网络中的超参数设置为第二超参数,重新进行一轮训练,迭代至纠缠熵的变化趋于收敛时停止本轮训练,此时得到的模型即为需要的文本分类模型。
在图5所描述的文本分类模型的训练方法中,采用初始的超参数(也即第一超参数)和多个样本词向量序列对张量网络进行第一轮迭代训练,并且每迭代一次计算一个第一纠缠熵,将第一纠缠熵收敛时的值作为目标纠缠熵的值;然后根据目标纠缠熵计算得到的超参数(也即第二超参数);再采用该第二超参数和该多个样本词向量序列对该张量网络进行第二轮迭代训练,并且每迭代一次计算一个第二纠缠熵,将第二纠缠熵收敛时的张量网络模型作为需要的文本分类模型,用于文本分类;由于本申请实施例只需要进行一次预训练就可以直接计算出模型的超参数,将计算出的超参数带入再次训练即可输出可用于实现文本分类任务的模型,极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
在一种示例性的实施方式中,张量网络包括判别式张量网络(DiscriminativeTensor Network,DTN)和r个生成式张量网络(Generative Tensor Network,GTN),r个生成式张量网络的输出数据为判别式张量网络的输入数据;其中,r为正整数。
其中,该r个生成式张量网络用于对样本词向量序列进行降维处理,该判别式张量网络用于对降维后的词向量序列进行文本分类。
可见,在本示例中,用于文本分类模型训练的张量网络包括判别式张量网络和r个生成式张量网络,该r个生成式张量网络的输出为该判别式张量网络的输入,该r个生成式张量网络用于对输入的样本词向量序列进行降维,再将降维后的词向量序列输入该判别式张量网络进行句子建模以及文本分类,由于降低了训练时的样本维度,有利于降低模型训练的难度和成本。
在一种示例性的实施方式中,迭代训练包括:对多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,多个样本词向量序列与多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,第一目标词向量序列为多个样本词向量序列中的任意一个,t为迭代次数;将第二目标词向量序列输入张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,目标文本为与第一目标词向量序列对应的文本;根据多个第一预测标签和多个样本词向量序列对应的真实标签计算损失值Lt;根据损失值Lt调整张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据张量网络模型Mt+1中的参数计算得到第三纠缠熵;当第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至第三纠缠熵收敛;当第三纠缠熵收敛时,若迭代训练为第一轮迭代训练,则目标纠缠熵为第三纠缠熵;若迭代训练为第二轮迭代训练,则文本分类模型为张量网络模型Mt+1;其中,当t=1时,张量网络模型Mt为初始张量网络模型。
应理解,当t=1时,张量网络模型Mt为初始张量网络模型,该初始张量网络模型为对该张量网络配置了初始模型参数后的张量网络模型。
具体地,对于输入文本张量网络的词向量序列,每个词一般都以几十至几百维的向量表示,首先将词向量的每一维的数值带入上述公式(1)进行张量积计算,从而实现向Hilbert高维空间的特征映射;然后初始化r个word-GTNs,也即将初始模型参数配置到r个word-GTNs中,并使用上述公式(2)对词向量在Hilbert高维空间的映射进行降维,得到r维的词向量;初始化sentence-DTN,也即将初始模型参数配置到sentence-DTN中,其中,配置到r个word-GTNs中的初始模型参数与配置到sentence-DTN中初始模型参数为不同的模型参数;具体地,配置到r个word-GTNs中的模型参数分别为W1、W2、......、Wr,配置到sentence-DTN中的模型参数为Wl;将降维后得到的句子的n维词向量序列输入到sentence-DTN中进行句子建模,同时输出分类结果,具体地,使用上述公式(4)计算得到预测标签;以输出的分类结果与训练数据中标注好的类别标签(也即真实标签)按照公式上述(5)计算误差,并根据误差调整模型参数W1、W2、......、Wr以及Wl的取值,得到下一次迭代训练的模型,进而进行下一次迭代训练。
可见,在本示例中,在对张量网络进行迭代训练的每一次迭代中,对于多个样本词向量序列中的每个样本词向量序列,依次先将其输入到r个生成式张量网络进行降维处理,降维后再输入到判别式张量网络进行文本分类,从而得到该多个样本词向量序列对应的预测标签;然后根据该多个样本词向量序列对应的预测标签和该多个样本词向量序列对应的真实标签计算损失值,并根据该损失值调整模型参数,得到下一次迭代的模型,以及根据下一次迭代的模型中的参数计算第三纠缠熵;当第三纠缠熵不收敛时,重复上述步骤进行下一次迭代,直至第三纠缠熵收敛;当第三纠缠熵收敛时,若为第一轮迭代训练,则可以根据第三纠缠熵计算超参数;若为第二轮迭代训练,则该下一次迭代的模型为需要的分类模型,可以用于文本分类任务。
在一种示例性的实施方式中,第一目标词向量序列包括n个第一词向量,其中,n为正整数,采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,包括:对n个第一词向量分别进行特征映射,得到n个第一张量,其中,第一张量为第一词向量的张量表示;采用张量网络模型Mt中的r个生成式张量网络对n个第一张量中的每个第一张量进行降维处理,得到第二目标词向量序列。
其中,在对词向量进行特征映射时,可以将词向量映射到希尔伯特(Hilbert)高维空间。
应理解,只有通过对词向量的每个维度进行张量积运算映射到高维的希尔伯特空间才可以输入到生成式张量网络中进行缩并运算。
可见,在本示例中,先将输入模型中的样本词向量序列中的每个第一词向量映射到高维空间,进行升维处理,得到第一张量;再采用张量网络模型中的r个生成式张量网络对第一张量进行降维处理,得到第二词向量,其中,第二词向量的维度低于第一词向量;先对第一词向量进行升维处理,便于词向量的特征提取;再对词向量进行降维处理,将降维处理后的词向量序列输入判别式张量网络中进行预测,有利于提高词向量对单词表达的效率,降低模型训练的成本。
在一种示例性的实施方式中,张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,采用张量网络模型Mt中的r个生成式张量网络对n个第一张量中的每个第一张量进行降维处理,得到第二目标词向量序列,包括:对n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,n个第二词向量与n个第一张量相对应:将r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,第二张量为n个第一张量中的任意一个第一张量;根据r个张量缩并运算结果得到r个目标概率值,其中,r个目标概率值的和为1;根据r个目标概率值得到第二词向量;n个第二词向量构成第二目标词向量序列。
其中,该第一权重参数可以是生成式张量网络的张量网络态,目标概率值可以理解为当前单词对于模型做出分类的某些决策的重要程度。
可见,在本示例中,在将高维的第一张量降维为低维的第二词向量时,就一个第一张量而言,将r个生成式张量网络的张量网络态分别与该第一张量进行张量缩并运算,得到r个张量缩并运算结果;然后根据该r个张量缩并运算结果得到r个目标概率值,其中,该r个目标概率值的和为1,目标概率值可以理解为当前单词对于模型做出分类的某些决策的重要程度;再根据该r个目标概率值得到第二词向量,从而使得第二词向量满足概率的特性,也即第二词向量有r个维度,该r个维度对应该r个目标概率值,有利于判别式张量网络对词向量序列做出文本分类结果。
在一种示例性的实施方式中,张量网络模型Mt中的判别式张量网络包括n个节点,每个第一预测标签包括n个第二预测标签,n个第二预测标签分别由n个节点输出,其中,n为正整数,根据多个第一预测标签和多个样本词向量序列对应的真实标签计算损失值Lt,包括:对多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,第一目标标签为多个第一预测标签中的任意一个;根据第三预测标签和第二目标标签计算得到交叉熵损失,其中,第二目标标签为第四目标词向量序列对应的真实标签,第四目标词向量序列为第一目标标签对应的样本词向量序列;根据多个交叉熵损失计算得到损失值Lt。
应理解,传统的判别式张量网络仅选择张量缩并操作中某一个节点处的预测结果进行训练,即只对一个函数进行预测训练,这样导致了学习过程无法对句子建模过程中所有的特征进行学习。因此,本示例在训练过程中设计了全函数(All-function)学习算法,也即对于判别式张量网络中的每个节点的预测结果进行训练。具体地,将词向量序列输入判别式张量网络后,判别式张量网络中的每个节点都输出一个预测标签,对每个节点输出的预测标签求加权平均,将该加权平均后的结果作为该词向量序列的预测标签。
可见,在本示例中,在训练时,将词向量序列输入判别式张量网络后,判别式张量网络中的每个节点都输出一个预测标签,对每个节点输出的预测标签求加权平均,将该加权平均后的结果作为该词向量序列的预测标签;从而利用多个词向量序列对应的加权平均后的预测标签和对应的真实标签计算得到多个交叉损失,再根据该多个交叉损失求得一次迭代的损失值,并根据该损失值调整模型参数,可以提高模型的训练稳定性与预测的准确率。
在一种示例性的实施方式中,根据张量网络模型Mt+1中的参数计算得到第三纠缠熵,包括:对张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,n为张量网络模型Mt+1中的判别式张量网络的节点数,n为正整数;对目标节点进行奇异值分解(Singular Value Decomposition,SVD),得到k个奇异值,其中,k为正整数;根据k个奇异值计算得到第三纠缠熵。
其中,目标节点也即第j个节点和第j+1个节点进行张量缩并运算合成的节点。
可见,在本示例中,通过对判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,将第j个节点和第j+1个节点合成一个节点,其中,n为判别式张量网络的节点数,n为正整数;然后对合成的节点进行奇异值分解,得到k个奇异值;再采用该k个奇异值计算纠缠熵,从而有利于依据该纠缠熵计算超参数,实现模型训练中的超参数可计算。
下面结合具体示例对本申请提供的技术方案进行详细的介绍。
按照图5所示方法流程的对文本张量网络进行训练,以一个具体的示例加以说明。
(1)收集文本分类训练语料,以英文情感分类的语料为例。其中一个句子如下所示:
“it's a terrible movie in every regard,and utterly painful to watch1”。
其中,该句英文文本被标记了标签1,表示负面的情感极性。
训练语料就是以这样的格式整合在一起的大量文本,首先对文本进行分词等预处理,并使用word2vec词向量工具获取每个单词的词向量,从而将上述的文本转换为由词向量构成的词向量序列。
(2)将训练数据的词向量序列输入到文本张量网络中,并使用随机初始的超参数在训练数据集上进行一轮训练,训练过程中每一次的迭代都使用上述公式(6)计算纠缠熵,并输出每次计算的纠缠熵;将计算所得纠缠熵的值与迭代次数一并画在了一个坐标系中,如图6所示,图6是本申请实施例提供的一种文本分类模型训练过程中纠缠熵与迭代次数的关系图,通过图6中曲线的走势可以判断纠缠熵的变化是否趋于收敛了,当纠缠熵收敛时,停止本轮训练。
(3)由图6可知,纠缠熵的变化趋于收敛时的纠缠熵取值为4.40,根据上述公式(7)计算出文本张量网络的超参数——连接键的维度为21,也即其中,在图6中,Entanglement Entropy表示纠缠熵,Epoch表示迭代次数。
(4)将文本张量网络中的连接键的维度设置为21,重新进行一轮训练,输出训练过程中每一次迭代计算得到的纠缠熵,待纠缠熵趋于收敛后停止训练。
(5)训练结束后得到的模型就是需要的文本分类模型,可以用于实现文本分类的预测任务。
本申请实施例在构建文本分类模型时,仅通过一次预训练就可以计算出超参数的取值,带入计算得到的超参数进行再次训练即可获得可用于实现文本分类任务的模型。然而,按照传统的机器学习的模型训练方法,超参数——连接键的维度需要通过设置若干的取值,每个取值训练一个模型,并验证每个模型的效果,根据模型效果的峰值来确定超参数,如图7所示;其中,在图7中,Accuracy(Acc)表示准确率,Entanglement Entropy表示纠缠熵,Bond Dimension表示连接键的维度。本申请实施例可计算模型的超参数,充分发挥了张量网络的可解释性优势,减小了模型调参的难度。
此外,本申请实施例训练得到的文本分类模型表现在公开的文本分类数据集上的实验,也到达了与深度神经网络基本持平的效果,部分数据集的效果优于传统的神经网络模型,证明了本申请实施例训练得到的文本分类模型并没有精度的损失。具体比对结果如表1所示。
表1模型效果比对结果
模型(Model) | MR | CR | Subj | MPQA |
CNN[1] | 81.5 | 85.5 | 93.4 | 89.6 |
Capsule-B[2] | 82.3 | 85.1 | 93.8 | -- |
HAC[3] | 83.3 | 86.4 | 95.1 | 89.8 |
HCapsNet[4] | 83.5 | -- | 94.2 | -- |
GTNs* | 77.8 | 79.0 | 90.6 | 88.0 |
TextTN* | 80.5 | 85.7 | 94.2 | 89.8 |
其中,表1中的比对指标为准确率(Accuracy);公开的文本分类数据集分别为:
(1)TREC:数据集涉及六种问题类型(实体、人员、缩写、描述、位置和数值);在训练集中,有5452个问题,测试集中有500个问题。
(2)MR:电影评论每条评论只有一个句子,分为正面和负面两类;正数据集的大小为5331,负数据集的大小为5331。
(3)CR:客户评论数据集包含3775个样本,其任务是预测正面或负面的产品评论。
(4)SUBJ:主观性数据集,目标是将文本分类为主观或客观,共10000个样本。
(5)MPQA:意见极性检测子任务,含10606个样本,是二分类任务。
其中,测试准确率(test accuracy)是这些数据集的评估指标。
其中,与本申请实施例训练得到的文本分类模型进行比对的对比模型分别为:
CNN:[1]Yoon Kim.Convolutional neural networks for sentenceclassification.(EMNLP),pages 1746–1751,2014.
Capsule-B:[2]Min Yang,Wei Zhao,Jianbo Ye,Zeyang Lei,Zhou Zhao,andSoufei Zhang.Investigating capsule networks402with dynamic routing for textclassification.(EMNLP),pages3110–3119,2018.
HAC:[3]Hai Wan Chuan Chen Wanshan Zheng,Zibin Zheng,Hai Wan,and ChuanChen.Dynamically route405hierarchical structure representation to attentivecapsule for text classification.pages 5464–5470.AAAI Press,2019.
HCapsNet:[4]Chunning Du,Haifeng Sun,Jingyu Wang,Qi Qi,Jianxin Liao,Chun Wang,and Bing Ma.Investigating326capsule network and semantic feature onhyperplanes for text classification(EMNLP),pages 456–465,2019.
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图8,图8是本申请实施例提供的一种文本分类模型的训练装置800的结构示意图,该文本分类模型的训练装置800可以包括训练单元801和计算单元802,其中,各个单元的详细描述如下:
训练单元801,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,目标纠缠熵的值为在进行第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;
计算单元802,用于根据目标纠缠熵计算得到第二超参数;
训练单元801,还用于采用第二超参数和多个样本词向量序列对张量网络进行第二轮迭代训练,得到文本分类模型,其中,文本分类模型为在进行第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
在一种示例性的实施方式中,张量网络包括判别式张量网络和r个生成式张量网络,r个生成式张量网络的输出数据为判别式张量网络的输入数据;其中,r为正整数。
在一种示例性的实施方式中,训练单元801,用于:对多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,多个样本词向量序列与多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,第一目标词向量序列为多个样本词向量序列中的任意一个,t为迭代次数;将第二目标词向量序列输入张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,目标文本为与第一目标词向量序列对应的文本;根据多个第一预测标签和多个样本词向量序列对应的真实标签计算损失值Lt;根据损失值Lt调整张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据张量网络模型Mt+1中的参数计算得到第三纠缠熵;当第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至第三纠缠熵收敛;当第三纠缠熵收敛时,若迭代训练为第一轮迭代训练,则目标纠缠熵为第三纠缠熵;若迭代训练为第二轮迭代训练,则文本分类模型为张量网络模型Mt+1;其中,当t=1时,张量网络模型Mt为初始张量网络模型。
在一种示例性的实施方式中,第一目标词向量序列包括n个第一词向量,其中,n为正整数,训练单元,用于:对n个第一词向量分别进行特征映射,得到n个第一张量,其中,第一张量为第一词向量的张量表示;采用张量网络模型Mt中的r个生成式张量网络对n个第一张量中的每个第一张量进行降维处理,得到第二目标词向量序列。
在一种示例性的实施方式中,12、根据权利要求11的装置,其特征在于,张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,训练单元,用于:对n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,n个第二词向量与n个第一张量相对应:将r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,第二张量为n个第一张量中的任意一个第一张量;根据r个张量缩并运算结果得到r个目标概率值,其中,r个目标概率值的和为1;根据r个目标概率值得到第二词向量;n个第二词向量构成第二目标词向量序列。
在一种示例性的实施方式中,张量网络模型Mt中的判别式张量网络包括n个节点,每个第一预测标签包括n个第二预测标签,n个第二预测标签分别由n个节点输出,其中,n为正整数,训练单元801,用于:对多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:根据第一目标标签中的n个第二预测标签和n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,第一目标标签为多个第一预测标签中的任意一个;根据第三预测标签和第二目标标签计算得到交叉熵损失,其中,第二目标标签为第四目标词向量序列对应的真实标签,第四目标词向量序列为第一目标标签对应的样本词向量序列;根据多个交叉熵损失计算得到损失值Lt。
在一种示例性的实施方式中,训练单元801,用于:对张量网络模型Mt+1中的判别式张量网络中的第j个节点和第j+1个节点进行张量缩并运算,得到目标节点,其中,n为张量网络模型Mt+1中的判别式张量网络的节点数,n为正整数;对目标节点进行奇异值分解,得到k个奇异值,其中,k为正整数;根据k个奇异值计算得到第三纠缠熵。
需要说明的是,各个单元的实现还可以对应参照图5所示的方法实施例的相应描述。当然,本申请实施例提供的文本分类模型的训练装置800包括但不限于上述单元模块,例如:该文本分类模型的训练装置800还可以包括存储单元803,存储单元803可以用于存储该文本分类模型的训练装置800的程序代码和数据。
在图8所描述的文本分类模型的训练装置800中,采用初始的超参数(也即第一超参数)和多个样本词向量序列对张量网络进行第一轮迭代训练,并且每迭代一次计算一个第一纠缠熵,将第一纠缠熵收敛时的值作为目标纠缠熵的值;然后根据目标纠缠熵计算得到的超参数(也即第二超参数);再采用该第二超参数和该多个样本词向量序列对该张量网络进行第二轮迭代训练,并且每迭代一次计算一个第二纠缠熵,将第二纠缠熵收敛时的张量网络模型作为需要的文本分类模型,用于文本分类;由于本申请实施例只需要进行一次预训练就可以直接计算出模型的超参数,将计算出的超参数带入再次训练即可输出可用于实现文本分类任务的模型,极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
请参见图9,图9是本申请实施例提供的一种计算机装置910的结构示意图,该计算机装置910包括处理器911、存储器912和通信接口913,上述处理器911、存储器912和通信接口913通过总线914相互连接。
存储器912包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器912用于相关计算机程序及数据。通信接口913用于接收和发送数据。
处理器911可以是一个或多个中央处理器(central processing unit,CPU),在处理器911是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
该计算机装置910中的处理器911用于读取上述存储器912中存储的计算机程序代码,执行以下操作:采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,目标纠缠熵的值为在进行第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;根据目标纠缠熵计算得到第二超参数;采用第二超参数和多个样本词向量序列对张量网络进行第二轮迭代训练,得到文本分类模型,其中,文本分类模型为在进行第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
需要说明的是,各个操作的实现还可以对应参照图5所示的方法实施例的相应描述。
在图9所描述的计算机装置910中,采用初始的超参数(也即第一超参数)和多个样本词向量序列对张量网络进行第一轮迭代训练,并且每迭代一次计算一个第一纠缠熵,将第一纠缠熵收敛时的值作为目标纠缠熵的值;然后根据目标纠缠熵计算得到的超参数(也即第二超参数);再采用该第二超参数和该多个样本词向量序列对该张量网络进行第二轮迭代训练,并且每迭代一次计算一个第二纠缠熵,将第二纠缠熵收敛时的张量网络模型作为需要的文本分类模型,用于文本分类;由于本申请实施例只需要进行一次预训练就可以直接计算出模型的超参数,将计算出的超参数带入再次训练即可输出可用于实现文本分类任务的模型,极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
本申请实施例还提供一种芯片,上述芯片包括至少一个处理器,存储器和接口电路,上述存储器、上述收发器和上述至少一个处理器通过线路互联,上述至少一个存储器中存储有计算机程序;上述计算机程序被上述处理器执行时,图5所示的方法流程得以实现。
本申请实施例还提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,图5所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当上述计算机程序产品在计算机上运行时,图5所示的方法流程得以实现。
综上,通过实施本申请实施例,采用初始的超参数(也即第一超参数)和多个样本词向量序列对张量网络进行第一轮迭代训练,并且每迭代一次计算一个第一纠缠熵,将第一纠缠熵收敛时的值作为目标纠缠熵的值;然后根据目标纠缠熵计算得到的超参数(也即第二超参数);再采用该第二超参数和该多个样本词向量序列对该张量网络进行第二轮迭代训练,并且每迭代一次计算一个第二纠缠熵,将第二纠缠熵收敛时的张量网络模型作为需要的文本分类模型,用于文本分类;由于本申请实施例只需要进行一次预训练就可以直接计算出模型的超参数,将计算出的超参数带入再次训练即可输出可用于实现文本分类任务的模型,极大程度地降低模型训练的难度和成本以及过拟合现象的产生。
应理解,本申请实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还应理解,本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所示方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (25)
1.一种文本分类模型的训练方法,其特征在于,所述方法由计算机装置执行,所述方法包括:
采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;
根据所述目标纠缠熵计算得到第二超参数;
采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
2.根据权利要求1所述的方法,其特征在于,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;
其中,所述r为正整数。
3.根据权利要求2所述的方法,其特征在于,所述迭代训练包括:
对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:
采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;
将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;
根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;
根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;
当所述第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至所述第三纠缠熵收敛;当所述第三纠缠熵收敛时,若所述迭代训练为所述第一轮迭代训练,则所述目标纠缠熵为所述第三纠缠熵;若所述迭代训练为所述第二轮迭代训练,则所述文本分类模型为所述张量网络模型Mt+1;
其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
4.根据权利要求3所述的方法,其特征在于,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,包括:
对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;
采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
5.根据权利要求4所述的方法,其特征在于,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列,包括:
对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:
将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;
根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;
根据所述r个目标概率值得到第二词向量;
所述n个第二词向量构成所述第二目标词向量序列。
6.根据权利要求3所述的方法,其特征在于,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt,包括:
对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:
根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;
根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;
根据所述多个交叉熵损失计算得到所述损失值Lt。
8.一种文本分类模型的训练系统,其特征在于,所述系统包括文本张量网络模块和超参数计算模块;
所述文本张量网络模块,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练;
所述超参数计算模块,用于在所述第一轮迭代训练的每一次迭代训练结束后,计算第一纠缠熵,以得到目标纠缠熵,以及根据所述目标纠缠熵计算得到第二超参数,其中,所述目标纠缠熵的值为所述第一纠缠熵收敛时的值;
所述文本张量网络模块,还用于采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练;
所述超参数计算模块,还用于在所述第二轮迭代训练的每一次迭代训练结束后,计算第二纠缠熵;
其中,所述第二纠缠熵收敛时的张量网络模型为所述文本分类模型。
9.根据权利要求8所述的系统,其特征在于,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;
其中,所述r为正整数。
10.根据权利要求9所述的系统,其特征在于,
所述文本张量网络模块,用于:对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;并将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;以及根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;以及根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;
所述超参数计算模块,用于:根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;
若为所述第一轮迭代训练,则所述第三纠缠熵为所述第一纠缠熵;若为所述第二轮迭代训练,则所述第三纠缠熵为所述第二纠缠熵;
其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
11.根据权利要求10所述的系统,其特征在于,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述文本张量网络模块,用于:
对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;
采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
12.根据权利要求11所述的系统,其特征在于,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述文本张量网络模块,用于:
对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:
将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;
根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;
根据所述r个目标概率值得到第二词向量;
所述n个第二词向量构成所述第二目标词向量序列。
13.根据权利要求10所述的系统,其特征在于,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述文本张量网络模块,用于:
对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:
根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;
根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;
根据所述多个交叉熵损失计算得到所述损失值Lt。
15.一种文本分类模型的训练装置,其特征在于,所述装置包括:
训练单元,用于采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;
计算单元,用于根据所述目标纠缠熵计算得到第二超参数;
所述训练单元,还用于采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
16.根据权利要求15所述的装置,其特征在于,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;
其中,所述r为正整数。
17.根据权利要求16所述的装置,其特征在于,所述训练单元,用于:
对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:
采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;
将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;
根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;
根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;
当所述第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至所述第三纠缠熵收敛;当所述第三纠缠熵收敛时,若所述迭代训练为所述第一轮迭代训练,则所述目标纠缠熵为所述第三纠缠熵;若所述迭代训练为所述第二轮迭代训练,则所述文本分类模型为所述张量网络模型Mt+1;
其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
18.根据权利要求17所述的装置,其特征在于,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述训练单元,用于:
对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;
采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
19.根据权利要求18所述的装置,其特征在于,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述训练单元,用于:
对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:
将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;
根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;
根据所述r个目标概率值得到第二词向量;
所述n个第二词向量构成所述第二目标词向量序列。
20.根据权利要求17所述的装置,其特征在于,所述张量网络模型Mt中的判别式张量网络包括n个节点,每个所述第一预测标签包括n个第二预测标签,所述n个第二预测标签分别由所述n个节点输出,其中,所述n为正整数,所述训练单元,用于:
对所述多个第一预测标签中的每个第一预测标签执行以下操作,得到多个交叉熵损失:
根据第一目标标签中的n个第二预测标签和所述n个节点对应的第二权重参数进行乘累加计算,得到第三预测标签,其中,所述第一目标标签为所述多个第一预测标签中的任意一个;
根据所述第三预测标签和第二目标标签计算得到交叉熵损失,其中,所述第二目标标签为第四目标词向量序列对应的真实标签,所述第四目标词向量序列为所述第一目标标签对应的样本词向量序列;
根据所述多个交叉熵损失计算得到所述损失值Lt。
22.一种计算机装置,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
23.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1-7中任一项所述的方法。
24.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7中任一项所述的方法。
25.一种计算机程序产品,所述计算机程序产品使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035101.4A CN112256867B (zh) | 2020-09-27 | 2020-09-27 | 文本分类模型的训练方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035101.4A CN112256867B (zh) | 2020-09-27 | 2020-09-27 | 文本分类模型的训练方法、系统及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256867A true CN112256867A (zh) | 2021-01-22 |
CN112256867B CN112256867B (zh) | 2024-09-20 |
Family
ID=74233917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035101.4A Active CN112256867B (zh) | 2020-09-27 | 2020-09-27 | 文本分类模型的训练方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256867B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836049A (zh) * | 2021-01-28 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种文本分类方法、装置、介质和计算设备 |
CN113077001A (zh) * | 2021-04-07 | 2021-07-06 | 西南大学 | 一种基于生成型张量网络的医学图像分类系统 |
CN113344060A (zh) * | 2021-05-31 | 2021-09-03 | 哈尔滨工业大学 | 文本分类模型训练方法、诉讼状分类方法及装置 |
CN116310473A (zh) * | 2022-11-11 | 2023-06-23 | 青岛理工大学 | 一种基于误差缓解的量子神经网络的图像分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388651A (zh) * | 2018-02-28 | 2018-08-10 | 北京理工大学 | 一种基于图核和卷积神经网络的文本分类方法 |
JP6481794B1 (ja) * | 2018-04-20 | 2019-03-13 | 富士通株式会社 | 学習用データ生成方法、学習用データ生成プログラム |
CN110472010A (zh) * | 2019-07-18 | 2019-11-19 | 天津大学 | 一种实现文本匹配的可解释神经网络的方法 |
-
2020
- 2020-09-27 CN CN202011035101.4A patent/CN112256867B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388651A (zh) * | 2018-02-28 | 2018-08-10 | 北京理工大学 | 一种基于图核和卷积神经网络的文本分类方法 |
JP6481794B1 (ja) * | 2018-04-20 | 2019-03-13 | 富士通株式会社 | 学習用データ生成方法、学習用データ生成プログラム |
CN110472010A (zh) * | 2019-07-18 | 2019-11-19 | 天津大学 | 一种实现文本匹配的可解释神经网络的方法 |
Non-Patent Citations (1)
Title |
---|
何伟: "基于张量空间模型的文本分类研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 1 - 43 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836049A (zh) * | 2021-01-28 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种文本分类方法、装置、介质和计算设备 |
CN113077001A (zh) * | 2021-04-07 | 2021-07-06 | 西南大学 | 一种基于生成型张量网络的医学图像分类系统 |
CN113344060A (zh) * | 2021-05-31 | 2021-09-03 | 哈尔滨工业大学 | 文本分类模型训练方法、诉讼状分类方法及装置 |
CN116310473A (zh) * | 2022-11-11 | 2023-06-23 | 青岛理工大学 | 一种基于误差缓解的量子神经网络的图像分类方法 |
CN116310473B (zh) * | 2022-11-11 | 2024-08-20 | 青岛理工大学 | 一种基于误差缓解的量子神经网络的图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112256867B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | Chinese named entity recognition method based on BERT | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
US11176328B2 (en) | Non-factoid question-answering device | |
CN112256867B (zh) | 文本分类模型的训练方法、系统及相关设备 | |
CN107516110A (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
KR20180062321A (ko) | 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
Wang et al. | A short text classification method based on convolutional neural network and semantic extension | |
Yonglan et al. | [Retracted] English‐Chinese Machine Translation Model Based on Bidirectional Neural Network with Attention Mechanism | |
CN111723572A (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
Wang et al. | Distant supervised relation extraction with position feature attention and selective bag attention | |
Yang et al. | Adaptive syncretic attention for constrained image captioning | |
CN118170668A (zh) | 一种测试用例生成方法、装置、存储介质和设备 | |
CN112948588B (zh) | 一种用于情报快速整编的中文文本分类方法 | |
CN111259147A (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN110991193A (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
Vashistha et al. | Active learning for neural machine translation | |
Wang et al. | Predicting the Chinese poetry prosodic based on a developed BERT model | |
Li et al. | TransExplain: Using neural networks to find suitable explanations for Chinese phrases | |
CN113177120B (zh) | 一种基于中文文本分类的情报快速整编方法 | |
Alemayehu et al. | A submodular optimization framework for imbalanced text classification with data augmentation | |
KR20230093797A (ko) | 분류 모델에 기반하여 바꿔 쓰기 모델을 학습하는 방법, 바꿔 쓰기 모델을 이용한 텍스트 데이터의 증강 방법 및 이를 이용한 텍스트 처리 장치 | |
Wang et al. | Bert-Pair-Networks for Sentiment Classification | |
Juliet | A Comparative Study on Optimizers for Automatic Image Captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |