CN113869458A - 文本分类模型的训练方法、文本分类方法及相关装置 - Google Patents

文本分类模型的训练方法、文本分类方法及相关装置 Download PDF

Info

Publication number
CN113869458A
CN113869458A CN202111228374.5A CN202111228374A CN113869458A CN 113869458 A CN113869458 A CN 113869458A CN 202111228374 A CN202111228374 A CN 202111228374A CN 113869458 A CN113869458 A CN 113869458A
Authority
CN
China
Prior art keywords
sentence
text
vector
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111228374.5A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shulian Cloud Computing Technology Co ltd
Original Assignee
Chengdu Shulian Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shulian Cloud Computing Technology Co ltd filed Critical Chengdu Shulian Cloud Computing Technology Co ltd
Priority to CN202111228374.5A priority Critical patent/CN113869458A/zh
Publication of CN113869458A publication Critical patent/CN113869458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提出一种文本分类模型的训练方法、文本分类方法及相关装置,涉及自然语言处理技术领域。该方法利用预先构建的文本分类模型的词特征提取网络对训练文本进行处理得到词特征融合向量;词特征融合向量由训练文本的句子中各个单词对应的词向量和词特征向量拼接得到;将词特征融合向量输入词注意力层获得句子对应的句向量;将句向量输入句特征提取网络获得训练文本中句子对应的句特征融合向量;句特征融合向量由句向量与句特征向量拼接得到;将句特征融合向量输入句注意力层,获得结果向量;根据结果向量和训练文本对应的标签值更新该文本分类模型的参数。使训练后的文本分类模型能够更有效地提取文本特征,提高文本分类精确度。

Description

文本分类模型的训练方法、文本分类方法及相关装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本分类模型的训练方法、文本分类方法及相关装置。
背景技术
文本分类任务是自然语言处理领域中的经典任务,基于深度学习理论的文本分类任务是近年来的热门研究方向,目前HAN模型将注意力机制应用于文本分类任务中,从而能够注意到文本中不同词对于分类的重要程度。
但现有技术中HAN模型使用层次注意力的方式进行特征提取,在进行文本分类时并不能精确地提取特征,从而导致分类不精确。
发明内容
有鉴于此,本申请的目的在于提供一种文本分类模型的训练方法、文本分类方法及相关装置,以精确提取文本特征,实现文本的精确分类。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供一种文本分类模型的训练方法,所述方法包括:
将训练文本输入预先构建的文本分类模型,利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量;所述词特征融合向量由所述训练文本的句子中各个单词对应的词向量和词特征向量拼接得到;
将所述词特征融合向量输入所述文本分类模型的词注意力层,获得所述句子对应的句向量;
将所述句向量输入所述文本分类模型的句特征提取网络,获得所述训练文本中所述句子对应的句特征融合向量;所述句特征融合向量由所述句向量与句特征向量拼接得到;
将所述句特征融合向量输入所述文本分类模型的句注意力层,获得结果向量;
根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数。
在可选的实施方式中,所述词特征提取网络包括词嵌入层、第一双向循环神经网络和词特征融合网络,所述利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量,包括:
利用所述词嵌入层对所述训练文本进行处理,得到所述训练文本的句子中各个单词对应的词向量;
将所述训练文本的句子中各个单词对应的词向量输入所述第一双向循环神经网络,得到所述训练文本的句子中各个单词对应的词特征向量;
利用所述词特征融合网络对所述训练文本的句子中各个单词对应的词向量和词特征向量进行拼接,得到词特征融合向量。
在可选的实施方式中,所述句特征提取网络包括第二双向循环神经网络和句特征融合网络,所述将所述句向量输入所述文本分类模型的句特征向量提取网络,获得所述训练文本中所述句子对应的句特征融合向量,包括:
将所述句向量输入所述第二双向循环神经网络,得到所述训练文本中所述句子对应的句特征向量;
利用所述句特征融合网络对所述训练文本的所述句子对应的句向量和句特征向量进行拼接,获得所述训练文本中所述句子对应的句特征融合向量。
在可选的实施方式中,所述根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数,包括:
根据所述结果向量和所述训练文本对应的标签值计算层内损失值和层间损失值;
根据所述层内损失值和所述层间损失值更新所述文本分类模型的参数。
第二方面,本申请提供一种文本分类方法,所述方法包括:
获取待分类文本;
将所述待分类文本输入如前述实施方式任一项所述的方法训练得到的所述文本分类模型,得到所述待分类文本对应的结果向量;
根据所述结果向量确定所述待分类文本对应的类别。
在可选的实施方式中,所述结果向量包括各类别所对应的分类向量值,所述根据所述结果向量确定所述待分类文本对应的类别,包括:
获取所述结果向量中的分类向量值中的最大分类向量值;
将所述最大分类向量值对应的类别确定为所述待分类文本对应的类别。
第三方面,本申请提供一种文本分类模型的训练装置,所述装置包括:
词特征融合模块,用于将训练文本输入预先构建的文本分类模型,利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量;所述词特征融合向量由所述训练文本的句子中各个单词对应的词向量和词特征向量拼接得到;
句向量获取模块,用于将所述词特征融合向量输入所述文本分类模型的词注意力层,获得所述句子对应的句向量;
句特征融合模块,用于将所述句向量输入所述文本分类模型的句特征提取网络,获得所述训练文本中所述句子对应的句特征融合向量;所述句特征融合向量由所述句向量与句特征向量拼接得到;
结果输出模块,用于将所述句特征融合向量输入所述文本分类模型的句注意力层,获得结果向量;
参数更新模块,用于根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数。
第四方面,本申请提供一种文本分类装置,所述装置包括:
获取模块,用于获取待分类文本;
处理模块,用于将所述待分类文本输入如前述实施方式的文本分类的训练装置训练好的文本分类模型,得到所述待分类文本对应的结果向量;
分类模块,用于根据所述结果向量确定所述待分类文本对应的类别。
第五方面,本申请提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如前述实施方式任一项所述的文本分类模型的训练方法的步骤,或者实现如前述实施方式所述的文本分类方法的步骤。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如前述实施方式任一项所述的文本分类模型的训练方法的步骤,或者实现如前述实施方式所述的文本分类方法的步骤。
本申请实施例提供的文本分类模型的训练方法、文本分类方法及相关装置,根据训练文本和其对应的标签值对预先构建的文本分类模型进行训练,通过词特征提取网络和句特征提取网络获得词特征融合向量和句特征融合向量,并通过词注意力层和句注意力层分别对上述词特征融合向量和句特征融合向量进行处理,获得句向量和结果向量,根据结果向量和训练文本对应的标签值更新文本分类模型的参数,以获得训练好的文本分类模型。由于词特征融合向量是由词向量和词特征向量进行拼接得到的,句特征融合向量是由句向量与句特征向量拼接得到的,因此可在深度学习中将浅层特征直接传到深层特征层,使浅层特征与深层特征更好地进行融合,从而使训练后的文本分类模型能够更有效地提取文本特征,提高文本分类精确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了文本层次分类示意图。
图2示出了本申请实施例提供的文本分类模型的训练方法的一种流程图。
图3示出了文本分类模型的一种结构示意图。
图4示出了文本分类模型的另一种结构示意图。
图5示出了本申请实施例提供的文本分类模型的训练方法的另一种流程图。
图6示出了文本分类模型的又一种结构示意图。
图7示出了文本分类模型的再一种结构示意图。
图8示出了本申请实施例提供的文本分类方法的一种流程图。
图9示出了本申请实施例提供的文本分类方法的另一种流程图。
图10示出了本申请实施例提供的文本分类模型的训练装置的功能模块图。
图11示出了本申请实施例提供的文本分类装置的功能模块图。
图12示出了本申请实施例提供的电子设备的硬件结构框图。
图标:100-文本分类模型;110-词特征提取网络;111-词嵌入层;112-第一双向循环神经网络;113-词特征融合网络;120-词注意力层;130-句特征提取网络;131-第二双向循环神经网络;132-句特征融合网络;140-句注意力层;200-文本分类模型的训练装置;210-词特征融合模块;220-句向量获取模块;230-句特征融合模块;240-结果输出模块;250-参数更新模块;300-文本分类装置;310-获取模块;320-处理模块;330-分类模块;400-电子设备;410-存储器;420-处理器;430-通信模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现如今,文本分类任务使自然语言处理领域中的经典任务,在将注意力机制从图像领域迁移到文本分类任务中后,一般采用HAN模型对文本进行特征提取,从而对文本进行分类。但HAN模型在特征提取的时候,一般是在数据从模型的浅层到深层的前向传播过程中将浅层特征和深层特征相融合,该方式需要一层层进行传播才能使浅层特征与深层特征融合,由于无法跳过某些层,因此通过该种方式无法使浅层特征与深层特征更好地融合,且无法防止数据前向传播时产生的网络退化和梯度消失问题。
此外,请参照图1,为文本的层次分类示意图,其中,第一层为M类别,第二层为更为细化的M1、M2等分类类别,例如,第一层为“花”,则第二层可细分为“玫瑰花”、“百合花”等类别,而HAN模型在对文本进行分类时,一般只应用于单层分类,无法直接应用于更细化的层次文本分类任务,若将其直接应用于第二层的细化分类,则会在模型训练中丢失一定的约束信息,从而使得文本分类模型出现分类不准确的问题。
基于上述发现,发明人对现有的层次分类模型进行改进,提出一种文本分类模型的训练方法,首先,通过将词向量和词特征向量进行拼接、将句向量和句特征融合向量进行拼接,得到词级的特征融合向量和句级的特征融合向量,可跳过某些层直接将浅层特征传到深层特征层,从而使浅层特征更好的与深层特征相融合,同时可防止网络退化、缓解梯度消失。其次,利用结果向量和训练文本对应的标签值计算层间损失和层内损失,利用该层间损失与层内损失值更新文本分类模型的参数,从而为文本分类模型增加约束,使其可直接应用于层次分类任务,并实现准确分类。
下面将对本申请实施例提供的一种文本分类模型的训练方法进行说明,请参阅图2,为本申请实施例提供的一种文本分类模型的训练方法的流程图,下面,将对该方法包括的各个步骤进行详细阐述。
步骤S21,将训练文本输入预先构建的文本分类模型,利用文本分类模型的词特征提取网络对训练文本进行处理,得到词特征融合向量;词特征融合向量由训练文本的句子中各个单词对应的词向量和词特征向量拼接得到。
请参阅图3,为文本分类模型100的结构示意图,该文本分类模型100包括:词特征提取网络110、词注意力层120、句特征提取网络130以及句注意力层140。
在本实施例中,在将训练文本输入至预先构建的文本分类模型之前,还需要获取并预处理训练文本,对训练文本进行预处理时,需要获取该训练文本的标题和文本内容,将该文本内容拆分成多个句子,并采用预先设置的符号将其分隔开,将文本标题也作为一个句子,与文本内容拆分出来的句子结合,共同构成预处理后的训练样本数据。将该预处理后的训练样本数据输入至预先构建的文本分类模型,利用该文本分类模型中的词特征提取网络对训练文本进行处理,得到训练文本数据的每个句子中的各个单词对应的词向量和词特征向量拼接之后得到的词特征融合向量。
步骤S22,将词特征融合向量输入文本分类模型的词注意力层,获得句子对应的句向量。
在本实施例中,该词注意力层采用词注意力机制对输入的词特征融合向量进行处理,从而获得每个句子对应的句向量。
步骤S23,将句向量输入文本分类模型的句特征提取网络,获得训练文本中句子对应的句特征融合向量;句特征融合向量由句向量与句特征向量拼接得到。
步骤S24,将句特征融合向量输入文本分类模型的句注意力层进行训练,获得结果向量。
在本实施例中,句注意力层采用句注意力机制对输入的句特征融合向量进行处理,从而获得结果向量。
步骤S25,根据结果向量和训练文本对应的标签值更新文本分类模型的参数。
在本实施例中,通过训练文本和其对应的标签值对预先构建的文本分类模型进行训练,将预处理后的训练文本输入预先构建的文本分类模型,利用该文本分类模型的词特征提取网络对该训练文本进行处理,获得训练文本的每个句子中各个单词对应的词向量和词特征向量拼接得到的词特征融合向量,将该词特征融合向量输入到文本分类模型的词注意力层,利用词注意力机制对该词特征融合向量进行处理,从而获得每个句子对应的句向量,将该句向量输入至文本分类模型的句特征提取网络进行训练,获得句向量与句特征向量拼接得到的句特征融合向量,再将该句特征融合向量输入至文本分类模型的句注意力层,利用句注意力机制对该句特征融合向量进行处理,从而获得结果向量。最后对文本分类模型进行优化,根据结果向量和训练文本对应的标签值更新该文本分类模型的参数,最终获得训练后的文本分类模型。
本申请实施例提供的文本分类模型的训练方法,根据训练文本和其对应的标签值对预先构建的文本分类模型进行训练,通过词特征提取网络和句特征提取网络获得词特征融合向量和句特征融合向量,并通过词注意力层和句注意力层分别对上述词特征融合向量和句特征融合向量进行处理,获得句向量和结果向量,根据结果向量和训练文本对应的标签值更新文本分类模型的参数,以获得训练好的文本分类模型。由于词特征融合向量是由词向量和词特征向量进行拼接得到的,句特征融合向量是由句向量与句特征向量拼接得到的,因此可在深度学习中将浅层特征直接传到深层特征层,使浅层特征与深层特征更好地进行融合,从而使训练后的文本分类模型能够更有效地提取文本特征,提高文本分类精确度。
可选地,为了获得训练文本数据中每个句子中各个单词的词特征融合向量,还需要对该训练文本数据中的每个句子中的各个单词进行映射并对其进行处理,基于此,请参照图4,该词特征提取网络110包括词嵌入层111、第一双向循环神经网络112和词特征融合网络113,上述步骤S21中的利用文本分类模型的词特征提取网络对训练文本进行处理,得到词特征融合向量,还可通过如下过程实现:
利用词嵌入层对训练文本进行处理,得到训练文本的句子中各个单词对应的词向量;将训练文本的句子中各个单词对应的词向量输入第一双向循环神经网络,得到训练文本的句子中各个单词对应的词特征向量;利用词特征融合网络对训练文本的句子中各个单词对应的词向量和词特征向量进行拼接,得到词特征融合向量。
在本实施例中,该词嵌入层可对预处理后的训练文本数据进行词向量映射处理,从而将该训练文本中每个句子中的各个单词映射为词向量,该第一双向循环神经网络可对词向量进行双向特征提取,从而获得该训练文本的句子中各个单词对应的词特征向量,该词特征向量为双向词特征向量,在得到训练文本中每个句子中的各个单词对应的词向量和词特征向量之后,可通过词特征融合网络将各个单词对应的词向量和词特征向量进行拼接,从而得到词特征融合向量。
可选地,该词嵌入层可为word2Vec等能够将单词映射为词向量的模型,该第一双向循环网络可以是长短时记忆网络(LSTM)、门控循环单元(GRU)等网络,将各个单词对应的词向量和词特征向量进行拼接的操作为向量拼接。
本申请实施例提供的文本分类模型的训练方法,通过将训练文本中每个单词对应的词向量和词特征向量进行拼接,从而获得词特征融合向量,实现了词级的特征融合,因此在对该词特征融合向量进行词注意力处理时可更有效地提取特征,以提高分类精确度。
可选地,请继续参照图4,为了获得句特征融合向量,该句特征提取网络130可包括第二双向循环神经网络131和句特征融合网络132,基于此,上述步骤S23中的,将句向量输入文本分类模型的句特征向量提取网络,获得训练文本中句子对应的句特征融合向量,还可通过如下过程实现:
将句向量输入第二双向循环神经网络,得到训练文本中句子对应的句特征向量。利用句特征融合网络对训练文本的句子对应的句向量和句特征向量进行拼接,获得训练文本中句子对应的句特征融合向量。
在本实施例中,将经由词注意力层进行处理得到的句向量输入第二双向循环神经网络,从而可获得训练文本中句子对应的句特征向量,其中,该句特征向量为双向的,再由句特征融合网络对该训练文本的句子对应的句特征向量和句向量进行拼接,从而获得训练文本中句子对应的句特征融合向量。
可选地,该第二双向循环神经网络可以是长短时记忆网络(LSTM)、门控循环单元(GRU)等网络,该拼接操作可以为向量拼接。
本申请实施例提供的文本分类模型的训练方法,通过将训练文本中每个句子对应的句向量和句特征向量进行拼接,从而获得句特征融合向量,实现了句级的特征融合,在对该句特征融合向量进行句注意力处理时可更有效地提取特征,以提高分类精确度。
可选地,考虑到HAN模型在对文本分类进行如上述图1所示的层次细化分类时,容易出现丢失约束从而造成分类不准确的问题,例如将一篇有关于玫瑰花的文章分类为向日葵,虽然二者均为“花”的类别,但细化分类还是存在不同,基于此,为了保证训练后的文本分类模型具有较精确的细化分类效果,还需要在获得结果向量后对文本分类模型进行优化,基于此,请参照图5,上述步骤S25还可以包括如下子步骤:
步骤S251,根据结果向量和训练文本对应的标签值计算层内损失值和层间损失值。
步骤S252,根据层内损失值和层间损失值更新文本分类模型的参数。
在本实施例中,在优化文本分类模型时,经由句注意力层处理获得的结果向量还可以通过全连接层变换进行维度映射,从而获得维度变换后的结果向量,该结果向量中的每个向量值分别对应一个文本类别,因此可根据该结果向量和训练文本对应的分类标签值计算层内损失值和层间损失值,并结合该层内损失值和层间损失值计算总损失值,根据该总损失值对分类模型进行反向传播,更新文本分类模型的参数,从而对整个文本分类模型进行优化。其中,该层内损失值表征每一层树状分类类别的损失值,该层间损失值表征各树状层之间进行细化的层间损失。
可选地,请参照图6,为两层层次分类结构下的层内损失和层间损失的模块图,该层内损失值和层间损失值可通过如下方式获得:
用v表征经由全连接层变换获得的结果向量,在计算层内损失值时采用计算交叉熵损失的方式,该计算公式表示如下:
Figure BDA0003315067790000111
其中,llossl为第l层树状层的层内损失,ylj为第l层的第j类对应的标签值,
Figure BDA0003315067790000113
为输出结果向量v经过softmax后的预测值,表征第l层的第j类对应的预测概率值。
则层间损失函数的计算公式如下:
Figure BDA0003315067790000112
其中,dlossl为第l层树状层和第l-1层的层间损失,Dl用于衡量第l层的预测值是第l-1层的子类,Il用于衡量第l层的预测值是否正确,Il_1用于衡量第l-1层的预测值是否正确,plossl以及ploss(l-1)为针对每一层设置的常数。
且Dl与Il表示如下:
Figure BDA0003315067790000121
Figure BDA0003315067790000122
其中,
Figure BDA0003315067790000123
表示预测的类别,
Figure BDA0003315067790000124
yl表示真实的标签值。
则总损失值可通过如下公式获得:
Figure BDA0003315067790000125
其中,loss为总损失值,llossi为第i层的层内损失值,dlossi为第i层与第i-1层的层间损失值,αiβi为针对每一层层内损失和层间损失预设的超参数。
本申请实施例提供的文本分类模型的训练方法,通过将训练文本输入文本分类模型后输出的结果向量和该训练文本对应的标签值计算树状层次分类的层内损失值和层间损失值,结合该层内损失值和层间损失值更新文本分类模型的参数,从而防止该文本分类模型在对文本进行层次分类时丢失约束信息,使该文本分类模型可直接应用于文本分类任务,并获得更为准确的分类结果。
下面将结合图7对本申请实施例提供的文本分类模型的训练过程做详细阐述。若一个训练文本包括L个句子,每个句子包括Ti个单词,该Ti表征第i个句子中的单词数量,在一个示例中,针对该训练文本中的第i个句子,其包含的各个单词可表示为:
Figure BDA0003315067790000126
其中,i∈[1,L],t∈[1,Ti],ai1表征该第i个句子中的第一个单词,ait表征该第i个句子中的第t个单词,以此类推。通过词特征提取网络中的词嵌入层111对上述第i个句子中的所有单词处理,可得到该第i句中各个单词所对应的词向量:
Figure BDA0003315067790000127
其中,i∈[1,L],t∈[1,Ti],wi1表征该第i个句子中的第一个单词的词向量,wit表征该第i个句子中的第t个单词的词向量,以此类推。之后将上述获得的词向量输入该词特征提取网络中的第一双向循环神经网络112,可得到该第i句中所有单词对应的词特征向量:
Figure BDA0003315067790000131
其中,i∈[1,L],t∈[1,Ti],
Figure BDA0003315067790000132
表征该第i个句子中的第一个单词的词特征向量,
Figure BDA0003315067790000133
表征该第i个句子中的第t个单词的词向量,以此类推。之后由该词特征提取网络中的词特征融合网络113根据该第i个句子中的各个单词对应的词向量和词特征向量进行拼接,从而得到该第i个句子中的各个单词对应的词特征融合向量:
Figure BDA0003315067790000134
最后将获得的该第i个句子中的各个单词的词特征融合向量输入词注意力层120进行处理,从而获得该第i个句子的句向量si,则通过该词注意力层的处理,可获得该训练文本中所有句子对应的句向量:
{s1,s2,...,si,...,sL}
其中,i∈[1,L],s1表征该训练文本中的第一个句子的句向量,sj表征该训练文本中第i个句子的句向量,以此类推。针对该训练文本中的每个句子,将其句向量输入至句特征提取网络中的第二双向循环神经网络131,则可获得该训练文本中每个句子对应的句特征向量:
Figure BDA0003315067790000135
其中,i∈[1,L],
Figure BDA0003315067790000136
表征该训练文本中第一个句子的句特征向量,
Figure BDA0003315067790000137
表征该训练文本中第i个句子的句特征向量,以此类推。再通过句特征提取网络中的句特征融合网络132对该训练文本中的每个句子对应的句向量和句特征向量进行拼接,则可获得该训练文本中的每个句子对应的句特征融合向量:
Figure BDA0003315067790000141
最后将该句特征融合向量输入至句注意力层140进行处理,则可获得结果向量v′。由于该结果向量v′的维度很可能与分类维度不相匹配,因此可对该结果向量v′进行全连接层变换从而获得变换了特征维度后的结果向量v。
根据该结果向量v和训练文本对应的标签值,结合上述介绍的层内损失和层间损失计算公式计算层内损失和层间损失,根据获得的层内损失值和层间损失值计算总损失值,并根据该总损失值更新该文本分类模型的参数,从而实现该文本分类模型的优化,获得训练好的文本分类模型。
请参阅图8,为本申请实施例提供的一种文本分类方法的流程图,以下将对该方法包括的各个步骤进行详细阐述。
步骤S71,获取待分类文本。
步骤S72,将待分类文本输入由上述文本分类模型的训练方法训练得到的文本分类模型,得到待分类文本对应的结果向量。
步骤S73,根据结果向量确定待分类文本对应的类别。
在本实施例中,将待分类文本输入到根据上述训练方法训练得到的文本分类模型中,通过该文本分类模型的词特征提取网络中的词嵌入层对该待分类文本进行处理,从而获得该待分类文本中每个句子中各个单词对应的词向量,将该词向量输入第一双向循环神经网络中,从而可获得带训练文本中每个句子所对应的词特征向量,再通过词特征融合网络对该词向量和词特征向量进行拼接,并将拼接后得到的词特征融合向量输入词注意力层进行处理,则可获得该待分类文本中的每个句子对应的句向量。利用该训练模型的句特征提取网络中的第二双向循环神经网络对该句向量进行处理,可获得待分类文本中每个句子对应的句特征向量,利用句特征融合网络对句向量和句特征向量进行拼接,并将拼接后得到的句特征融合向量输入句注意力层,则可获得结果向量。最后可根据该结果向量确定待分类文本对应的类别。
本申请实施例提供的文本分类方法,将待分类文本输入至训练好的文本分类模型中,根据该文本分类模型输出的结果向量确定待分类文本对应的类别。由于通过以上方法训练得到的文本分类模型能够更有效地提取文本特征,因此,通过该文本分类模型确定待分类文本的类别可提高文本分类的精确度。
可选地,该结果向量中包括各类别对应的分类向量值,请参阅图9,可通过以下步骤根据该结果向量确定分类文本对应的类别,上述步骤S73可包括如下子步骤:
步骤S731,获取结果向量中的分类向量值中的最大分类向量值。
步骤S732,将最大分类向量值对应的类别确定为待分类文本对应的类别。
在本实施例中,可对结果向量中包含的各向量值取最大,该获得的最大分类向量值所对应的类别即为待分类文本对应的类别。
可选地,还可以将获得的结果向量输入至softmax中获得该待分类文本属于各分类类别所对应的概率,取最大概率值对应的类别为该待分类文本所对应的类别。
请参阅图10,为本申请实施例提供的一种文本分类模型的训练装置200的功能模块图,该文本分类模型的训练装置200包括词特征融合模块210、句向量获取模块220、句特征融合模块230、结果输出模块240、参数更新模块250。
该词特征融合模块210,用于将训练文本输入预先构建的文本分类模型,利用文本分类模型的词特征提取网络对训练文本进行处理,得到词特征融合向量;词特征融合向量由训练文本的句子中各个单词对应的词向量和词特征向量拼接得到。
可以理解,该词特征融合模块210可以用于执行上述步骤S21。
该句向量获取模块220,用于将词特征融合向量输入文本分类模型的词注意力层,获得句子对应的句向量。
可以理解,该句向量获取模块220可以用于执行上述步骤S22。
该句特征融合模块230,用于将句向量输入文本分类模型的句特征向量提取网络,获得训练文本中句子对应的句特征融合向量;句特征融合向量由句向量与句特征向量拼接得到。
可以理解,该句特征融合模块230可以用于执行上述步骤S23。
该结果输出模块240,用于将句特征融合向量输入文本分类模型的句注意力层,获得结果向量。
可以理解,该结果输出模块240可以用于执行上述步骤S24。
该参数更新模块250,用于根据结果向量和训练文本对应的标签值更新文本分类模型的参数。
可以理解,该参数更新模块250可以用于执行上述步骤S25。
可选地,该词特征融合模块210还可以用于利用词嵌入层对训练文本进行处理,得到训练文本的句子中各个单词对应的词向量;将训练文本的句子中各个单词对应的词向量输入第一双向循环神经网络,得到训练文本的句子中各个单词对应的词特征向量;利用词特征融合网络对训练文本的句子中各个单词对应的词向量和词特征向量进行拼接,得到词特征融合向量。
可选地,该句特征融合模块230,还可以用于将句向量输入第二双向循环神经网络,得到训练文本中句子对应的句特征向量;利用句特征融合网络对训练文本的句子对应的句向量和句特征向量进行拼接,获得训练文本中所述句子对应的句特征融合向量。
可选地,该参数更新模块250,还可以用于根据结果向量和训练文本对应的标签值计算层内损失值和层间损失值;根据层内损失值和层间损失值更新文本分类模型的参数。
可以理解,该句特征融合模块230可以用于执行上述步骤S251和步骤S252。
本申请实施例提供的文本分类模型的训练装置,该词特征融合模块210将训练文本输入预先构建的文本分类模型,利用文本分类模型的词特征提取网络对训练文本进行处理,得到词特征融合向量;词特征融合向量由训练文本的句子中各个单词对应的词向量和词特征向量拼接得到;该句向量获取模块220将词特征融合向量输入文本分类模型的词注意力层,获得句子对应的句向量;该句特征融合模块230将句向量输入文本分类模型的句特征向量提取网络,获得训练文本中句子对应的句特征融合向量;句特征融合向量由句向量与句特征向量拼接得到;该结果输出模块240将句特征融合向量输入文本分类模型的句注意力层,获得结果向量;该参数更新模块250根据结果向量和训练文本对应的标签值更新文本分类模型的参数。通过词特征提取网络和句特征向量提取网络获得词特征融合向量和句特征融合向量,并且根据结果向量和训练文本对应的标签值更新文本分类模型的参数,从而使训练后的文本分类模型能够更有效地提取文本特征,提高文本分类精确度。
请参阅图11,为本申请实施例提供的一种文本分类装置300的功能模块图,该文本分类装置300包括获取模块310、处理模块320、分类模块330。
该获取模块310,用于获取待分类文本。
可以理解,该获取模块310可以用于执行上述步骤S71。该处理模块320,用于将待分类文本输入由上述文本分类模型的训练装置训练好的文本分类模型,得到待分类文本对应的结果向量。
可以理解,该处理模块320可以用于执行上述步骤S72。
该分类模块330,用于根据结果向量确定待分类文本对应的类别。
可以理解,该分类模块330可以用于执行上述步骤S73。
可选地,该分类模块330,还可以用于获取结果向量中的分类向量值中的最大分类向量值;将最大分类向量值对应的类别确定为待分类文本对应的类别。
可以理解,该分类模块330可以用于执行上述步骤S731和步骤S732。
本申请实施例提供的文本分类装置,该获取模块310获取待分类文本;该处理模块320将待分类文本输入由上述文本分类模型的训练装置训练好的文本分类模型,得到待分类文本对应的结果向量;该分类模块330根据结果向量确定待分类文本对应的类别。由于通过以上方法训练得到的文本分类模型能够更有效地提取文本特征,因此,通过该文本分类模型确定待分类文本的类别可提高文本分类的精确度。
请参照图12,是本申请实施例提供的可以实现上述文本分类模型的训练方法、文本分类方法的电子设备400的硬件结构框图。所述电子设备400包括存储器410、处理器420及通信模块430。所述存储器410、处理器420以及通信模块430各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器410用于存储程序或者数据。所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器420用于读/写存储器中存储的数据或程序,并执行相应地功能。
通信模块430用于通过所述网络建立所述服务器与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图11所示的结构仅为服务器的结构示意图,所述服务器还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。图11中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本分类模型的训练方法和文本分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本分类模型的训练方法,其特征在于,所述方法包括:
将训练文本输入预先构建的文本分类模型,利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量;所述词特征融合向量由所述训练文本的句子中各个单词对应的词向量和词特征向量拼接得到;
将所述词特征融合向量输入所述文本分类模型的词注意力层,获得所述句子对应的句向量;
将所述句向量输入所述文本分类模型的句特征提取网络,获得所述训练文本中所述句子对应的句特征融合向量;所述句特征融合向量由所述句向量与句特征向量拼接得到;
将所述句特征融合向量输入所述文本分类模型的句注意力层,获得结果向量;
根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述词特征提取网络包括词嵌入层、第一双向循环神经网络和词特征融合网络,所述利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量,包括:
利用所述词嵌入层对所述训练文本进行处理,得到所述训练文本的句子中各个单词对应的词向量;
将所述训练文本的每个句子中各个单词对应的词向量输入所述第一双向循环神经网络,得到所述训练文本的句子中各个单词对应的词特征向量;
利用所述词特征融合网络对所述训练文本的句子中各个单词对应的词向量和词特征向量进行拼接,得到词特征融合向量。
3.根据权利要求1所述的方法,其特征在于,所述句特征提取网络包括第二双向循环神经网络和句特征融合网络,所述将所述句向量输入所述文本分类模型的句特征向量提取网络,获得所述训练文本中所述句子对应的句特征融合向量,包括:
将所述句向量输入所述第二双向循环神经网络,得到所述训练文本中所述句子对应的句特征向量;
利用所述句特征融合网络对所述训练文本的所述句子对应的句向量和句特征向量进行拼接,获得所述训练文本中所述句子对应的句特征融合向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数包括:
根据所述结果向量和所述训练文本对应的标签值计算层内损失值和层间损失值;
根据所述层内损失值和所述层间损失值更新所述文本分类模型的参数。
5.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本;
将所述待分类文本输入如权利要求1-4任一项所述的方法训练得到的所述文本分类模型,得到所述待分类文本对应的结果向量;
根据所述结果向量确定所述待分类文本对应的类别。
6.根据权利要求5所述的方法,其特征在于,所述结果向量包括各类别所对应的分类向量值,所述根据所述结果向量确定所述待分类文本对应的类别,包括:
获取所述结果向量中的分类向量值中的最大分类向量值;
将所述最大分类向量值对应的类别确定为所述待分类文本对应的类别。
7.一种文本分类模型的训练装置,其特征在于,所述装置包括:
词特征融合模块,用于将训练文本输入预先构建的文本分类模型,利用所述文本分类模型的词特征提取网络对所述训练文本进行处理,得到词特征融合向量;所述词特征融合向量由所述训练文本的每个句子中各个单词对应的词向量和词特征向量拼接得到;
句向量获取模块,用于将所述词特征融合向量输入所述文本分类模型的词注意力层,获得所述句子对应的句向量;
句特征融合模块,用于将所述句向量输入所述文本分类模型的句特征提取网络,获得所述训练文本中所述句子对应的句特征融合向量;所述句特征融合向量由所述句向量与句特征向量拼接得到;
结果输出模块,用于将所述句特征融合向量输入所述文本分类模型的句注意力层,获得结果向量;
参数更新模块,用于根据所述结果向量和所述训练文本对应的标签值更新所述文本分类模型的参数。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本;
处理模块,用于将所述待分类文本输入如权利要求7所述的文本分类模型的训练装置训练得到的文本分类模型,得到所述待分类文本对应的结果向量;
分类模块,用于根据所述结果向量确定所述待分类文本对应的类别。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的文本分类模型的训练方法的步骤,或者实现如权利要求5-6所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本分类模型的训练方法的步骤,或者实现如权利要求5-6所述的文本分类方法的步骤。
CN202111228374.5A 2021-10-21 2021-10-21 文本分类模型的训练方法、文本分类方法及相关装置 Pending CN113869458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111228374.5A CN113869458A (zh) 2021-10-21 2021-10-21 文本分类模型的训练方法、文本分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111228374.5A CN113869458A (zh) 2021-10-21 2021-10-21 文本分类模型的训练方法、文本分类方法及相关装置

Publications (1)

Publication Number Publication Date
CN113869458A true CN113869458A (zh) 2021-12-31

Family

ID=78996988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111228374.5A Pending CN113869458A (zh) 2021-10-21 2021-10-21 文本分类模型的训练方法、文本分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN113869458A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN117421641A (zh) * 2023-12-13 2024-01-19 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN114638222B (zh) * 2022-05-17 2022-08-16 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN117421641A (zh) * 2023-12-13 2024-01-19 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质
CN117421641B (zh) * 2023-12-13 2024-04-16 深圳须弥云图空间科技有限公司 一种文本分类的方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN110377759B (zh) 事件关系图谱构建方法及装置
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN111191092B (zh) 标签确定方法和标签确定模型训练方法
CN111126396B (zh) 图像识别方法、装置、计算机设备以及存储介质
CN112836120A (zh) 一种基于多模态知识图谱的电影推荐方法、系统及终端
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
WO2019232772A1 (en) Systems and methods for content identification
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113869458A (zh) 文本分类模型的训练方法、文本分类方法及相关装置
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN112861518B (zh) 文本纠错方法、装置和存储介质及电子装置
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN110597956A (zh) 一种搜索方法、装置及存储介质
CN114661861A (zh) 文本匹配方法及装置、存储介质、终端
CN116452263A (zh) 一种信息推荐方法、装置、设备及存储介质、程序产品
CN115374845A (zh) 商品信息推理方法和装置
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN114707041A (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN116680481B (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN112905787B (zh) 文本信息处理方法、短信处理方法、电子设备及可读介质
US20230281826A1 (en) Panoptic segmentation with multi-database training using mixed embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination