CN115344699A - 文本分类模型的训练方法、装置、计算机设备及介质 - Google Patents

文本分类模型的训练方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN115344699A
CN115344699A CN202211082544.8A CN202211082544A CN115344699A CN 115344699 A CN115344699 A CN 115344699A CN 202211082544 A CN202211082544 A CN 202211082544A CN 115344699 A CN115344699 A CN 115344699A
Authority
CN
China
Prior art keywords
text
vector
coding
classification model
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211082544.8A
Other languages
English (en)
Inventor
黄海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202211082544.8A priority Critical patent/CN115344699A/zh
Publication of CN115344699A publication Critical patent/CN115344699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于人工智能技术领域,尤其涉及一种文本分类模型的训练方法、装置、计算机设备及介质。本发明通过对文本样本中的词项进行编码并将词编码向量进行拼接得到文本编码向量,将文本编码向量输入至词项类别概率预测模型得到词项类别概率向量,将所有词项类别概率向量进行拼接得到文本平滑向量,根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作得到文本混合向量,并将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。在训练样本较少的情况下,通过获得的文本编码向量对文本样本数据进行增强,提高了文本分类模型的准确率。

Description

文本分类模型的训练方法、装置、计算机设备及介质
技术领域
本发明适用于人工智能技术领域,尤其涉及一种文本分类模型的训练方法、装置、计算机设备及介质。
背景技术
在文本分类场景下,一般在保持标签不变的基础上,使用语言模型对原始文本中的词项进行词替换来实现文本数据增强,扩充文本分类模型的训练样本,从而提高训练好的文本分类模型的分类准确率,但是词替换的方式需要保证用于替换的词属于自然语言,在保证标签不变的情况下,用于替换的词极其有限,在训练样本较少的情况下无法提供足够多的增强样本来提高文本分类模型的准确率,导致文本分类模型的准确率较低。
因此,在文本分类技术领域,如何在训练样本较少的情况下提高文本分类模型的准确率成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种文本分类模型的训练方法、装置、计算机设备及介质,以解决在训练样本较少的情况下,文本分类模型的准确率较低的问题。
第一方面,本发明实施例提供一种文本分类模型的训练方法,所述文本分类模型的训练方法包括:
获取已知实际类别的文本样本,对所述文本样本中的至少两个词项进行编码,得到对应词项的词编码向量;
将所有词项的词编码向量进行拼接,得到所述文本样本的文本编码向量;
将所述文本编码向量输入至训练好的词项类别概率预测模型,得到所述文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量;
根据预设的融合系数对所述文本编码向量和所述文本平滑向量进行融合操作,得到文本混合向量;
将所述文本编码向量和所述文本混合向量输入至文本分类模型,得到所述文本样本的预测类别,根据所述预测类别和所述实际类别对所述文本分类模型进行训练,得到训练好的文本分类模型。
第二方面,本发明实施例提供一种文本分类模型的训练装置,所述文本分类模型的训练装置包括:
词项编码模块,用于获取已知实际类别的文本样本,对所述文本样本中的至少两个词项进行编码,得到对应词项的词编码向量;
向量拼接模块,用于将所有词项的词编码向量进行拼接,得到所述文本样本的文本编码向量;
概率预测模块,用于将所述文本编码向量输入至训练好的词项类别概率预测模型,得到所述文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量;
向量混合模块,用于根据预设的融合系数对所述文本编码向量和所述文本平滑向量进行融合操作,得到文本混合向量;
模型训练模块,用于将所述文本编码向量和所述文本混合向量输入至文本分类模型,得到所述文本样本的预测类别,根据所述预测类别和所述实际类别对所述文本分类模型进行训练,得到训练好的文本分类模型。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本分类模型的训练方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本分类模型的训练方法。
本发明实施例与现有技术相比存在的有益效果是:通过对获取的已知实际类别的文本样本中的至少两个词项进行编码,得到对应词项的词编码向量,然后将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量,并将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量,进一步根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量,最终将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。在训练样本较少的情况下,通过获得的文本编码向量对文本样本数据进行增强,得到平滑文本向量并作为文本分类模型的输入,提高了文本分类模型的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种文本分类模型的训练方法的一应用环境示意图;
图2是本发明实施例一提供的一种文本分类模型的训练方法的流程示意图;
图3是本发明实施例二提供的一种文本分类模型的训练装置的结构示意图;
图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种文本分类模型的训练方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端计算机设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明实施例一提供的一种文本分类模型的训练方法的流程示意图,上述训练方法可以应用于图1中的客户端,该训练方法可以包括以下步骤:
步骤S201,获取已知实际类别的文本样本,对文本样本中的至少两个词项进行编码,得到对应词项的词编码向量。
其中,文本样本可以是一句话、一段话或者一篇文章等多种形式的文本内容,通过对文本样本进行拆分,可以得到组成该文本样本的至少两个词项。
实际类别可以根据对文本样本的实际分类需求情况进行设定,例如,当需要根据文本样本中的韵律感情对文本样本进行分类时,实际类别可以是平、仄、疏、密、急、缓等表示文本韵律情感的类别,当需要根据文本样本中蕴含的感情对文本样本进行分类时,实际类别可以是正面情感、负面情感、肯定情感、否定情感、积极情感、消极情感等表示文本蕴含情感的类别。
具体地,获取已知实际类别的文本样本后,为了便于计算机对文本样本进行处理,需要将文本样本数字化,由于文本样本是由若干个词项组成的,为了提高编码的效率,降低编码难度,在本实施例中,首先对文本样本进行拆分,得到组成该文本样本的至少两个词项,并对各个词项进行编码,将各个词项数字化,得到各个词项的词编码向量,以便于计算机对文本样本进行处理。
可选的是,对文本样本中的至少两个词项进行编码,得到对应词项的词编码向量,包括:
对文本样本进行分词处理,得到文本样本中的N个词项,其中,N为大于2的整数;
对各个词项进行编码,得到各个词项的词编码向量。
其中,由于文本样本是由若干个词项组成的,在本实施例中,为了提高编码的效率,降低编码难度,首先通过文本分词方法对文本样本进行分词处理,得到组成该文本样本的N个词项,N为大于2的整数。其中,文本分词方法,例如,最短路径法、字符串匹配分词算法和最小分词法等。
然后,为了便于计算机对文本样本进行处理,在本实施例中,对于得到的各个词项进行独热编码,得到对应词项的词编码向量,具体地,在进行独热编码过程中,将预设词库中的预设词项数量记为M,通过字符匹配算法确定与各个词项一致的预设词项,通过将与各个词项一致的预设词项对应位置的向量元素置为1,将其他位置的向量元素置为0,得到对应词项的M*1维的词编码向量。
举例说明,预设词库中包括预设词项A′、预设词项B′和预设词项C′,预设词项数量为3,且按照[A′,B′,C′]T的顺序排列,文本样本中包括词项A和词项B,且根据字符匹配算法可知词项A与预设词项A′一致,词项B与预设词项B′一致,则该词项A对应的词项编码向量为[1,0,0]T,该词项B对应的词项编码向量为[0,1,0]T,即可得到3*1维的词编码向量。
上述获取已知实际类别的文本样本,对文本样本中的至少两个词项进行编码,得到对应词项的词编码向量,通过对已知实际类别的文本样本进行分词,提高了编码效率,降低了编码难度,提高对词项进行编码处理,将文本内容数字化,便于计算机对文本样本进行后续处理,提高了文本分类的效率。
步骤S202,将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量。
其中,在编码过程中,为了提高编码效率和降低编码难度,首先对文本样本作了分词处理和词项编码处理,得到了组成文本样本的各个词项的词编码向量。
然后,在对文本样本进行分类时,需要对文本样本进行整体分析,在本实施例中,为了保证文本样本的编码向量的完整性,进一步将组成文本样本的所有词项的词编码向量进行拼接,得到文本样本的文本编码向量,用于后续文本样本的分类,以提高文本分类的准确率。
可选的是,将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量,包括:
根据N个词项在文本样本中的顺序,对对应的N个词编码向量进行排序;
按照排序结果将N个词编码向量拼接成预设维度的文本编码向量。
其中,在进行分词处理时,首先确定得到的N个词项在文本样本中的顺序,对组成文本样本的N个词编码向量进行排序,然后按照排序结果将N个词编码向量拼接成预设维度的文本编码向量,其中,当各个词编码向量的维度是M*1时,N个词编码向量拼接成的文本编码向量的维度即为预设维度M*N。
举例说明,文本样本中包括词项A和词项B,N的数量为2,且词项A的排序序号为1,词项A的词项编码向量为[1,0,0]T,词项B的排序序号为2,该词项B的词项编码向量为[0,1,0]T,则根据词项A的词项编码向量和该词项B的词项编码向量拼接成的文本编码向量的预设维度为3*2,且该文本编码向量为[[1,0,0]T,[0,1,0]T]。
上述将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量的步骤,保证了文本样本的编码向量的完整性,作为后续文本样本分类的基础,提高了文本分类的准确率。
步骤S203,将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量。
其中,词项类别概率向量与词项编码向量的维度一致,词项类别概率向量中的各个概率值表示该词项是该概率值对应位置的预设词项的概率。举例说明,词项A的词项类别概率向量为[0.7,0.1,0.2]T,三个概率值0.7、0.1和0.2对应位置的预设词项分别是预设词项A′、预设词项B′和预设词项C′,则概率值0.7表示该词项A是预设词项A′的概率为0.7,概率值0.1表示该词项A是预设词项B′的概率为0.1,概率值0.2表示该词项A是预设词项C′的概率为0.2。
在训练样本比较少的情况下,为了提高文本分类模型的准确率,本实施例通过将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,且该文本编码向量仍然能够表示文本样本的语义信息,据此来对文本样本数据进行增强。
然后,在得到各个词项对应的词项类别概率向量后,进一步将所有词项类别概率向量进行拼接,得到文本平滑向量,用来保证文本样本的文本平滑向量的完整性,从而可以更大限度地利用文本分类模型的能力,提高文本分类模型的准确率。
举例说明,文本样本中包括词项A和词项B,词项A的词项类别概率向量为[0.7,0.1,0.2]T,词项B的词项类别概率向量为[0.25,0.7,0.05]T,则将词项A的词项类别概率向量和词项B的词项类别概率向量按照对应顺序进行拼接后,即可得到文本平滑向量[[0.7,0.1,0.2]T,[0.25,0.7,0.05]T]。
可选的是,词项类别概率预测模型包括第一编码器和第一解码器,以文本编码向量为训练样本,以文本样本为训练标签;
词项类别概率预测模型的训练过程包括:
将文本编码向量输入至第一编码器进行特征提取,得到第一文本编码特征;
将第一文本编码特征输入至第一解码器,得到文本编码向量中各个词项的词项类别概率向量;
确定所有词项类别概率向量构成的向量为文本平滑向量,采用归一化指数函数对文本平滑向量中的进行处理,得到预测样本;
根据预测样本和对应文本样本计算第一损失函数,根据梯度下降法反向修正第一编码器和第一解码器的参数,直至第一损失函数收敛,得到训练好的词项类别概率预测模型。
其中,词项类别概率预测模型的训练样本是大量文本编码向量,训练标签是文本编码向量对应的文本样本,用于对词项类别概率预测模型得到的词项类别概率向量进行评价,使得可以根据评价结果对该词项类别概率预测模型进行训练,以得到训练好的词项类别概率预测模型。
在词项类别概率预测模型的训练过程中,首先将文本编码向量输入至第一编码器进行特征提取,得到第一文本编码特征,然后将第一文本编码特征输入至第一解码器,得到文本编码向量中各个词项的词项类别概率向量,并确定所有词项类别概率向量构成的向量为文本平滑向量,然后采用归一化指数函数对文本平滑向量中的进行处理,得到预测样本。
然后,根据预测样本和对应文本样本计算第一损失函数,当第一损失函数较小时,表示根据词项类别概率预测模型得到的预测样本与对应文本样本之间的差距较小,表示该词项类别概率预测模型的准确率较高,当第一损失函数较大时,表示根据词项类别概率预测模型得到的预测样本与对应文本样本之间的差距较大,表示该词项类别概率预测模型的准确率较低,需要根据梯度下降法反向修正第一编码器和第一解码器的参数,直至第一损失函数收敛,得到训练好的词项类别概率预测模型。
可选的是,根据预测样本和对应文本样本计算第一损失函数,包括:
根据词向量技术将预测样本转换为预测样本向量,根据词向量技术将文本样本转换为文本样本向量;
计算预测样本向量和文本样本向量之间的文本相似度,根据文本相似度计算第一损失函数。
其中,词向量技术将文本表示成一系列能够表达文本语义的向量,例如,word2vec(一种词向量模型),预测样本向量和文本样本向量之间的文本相似度越大,表示根据词项类别概率预测模型得到的预测样本与对应文本样本之间的差距较小,则对应的第一损失函数越小。
因此,通过计算预测样本向量和文本样本向量之间的余弦相似度,作为预测样本向量和文本样本向量之间的文本相似度,则该文本相似度的取值范围为[0,1],则将该文本相似度与数值1之间的差值作为第一损失函数,用来表示该词项类别概率预测模型的准确率。
上述将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量的步骤,通过计算各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接得到文本平滑向量,来对文本样本数据进行增强,更大限度地利用了文本分类模型的能力,提高了文本分类模型的准确率。
步骤S204,根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量。
其中,文本编码向量和文本平滑向量的向量维度一致,文本编码向量包含文本样本的类别信息,文本平滑向量包含文本增强后的文本样本的语义信息,则通过将文本编码向量或者文本平滑向量分别输入至文本分类模型中,均可完成对文本样本的分类。在本实施例中,为了提高文本分类的准确率,根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量,则文本混合向量既包含文本样本的类别信息和语义信息,用来提高文本分类模型的准确率。
其中,融合系数可根据实际情况进行设定,本实施例中,由于文本平滑向量是对文本样本数据进行增强后得到的,将文本编码向量的融合系数设为0.4,将文本平滑向量的融合系数设为0.6。
可选的是,根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量,包括:
根据文本编码向量中各个编码向量值的向量坐标,以及文本平滑向量中各个平滑向量值的向量坐标,确定具有相同向量坐标的编码向量值和平滑向量值;
根据各个编码向量值、各个编码向量值的第一预设融合系数,以及与各个编码向量值具有相同向量坐标的平滑向量值、平滑向量值的第二预设融合系数,计算融合向量值;
根据各个融合向量值和各个融合向量值的向量坐标,得到文本混合向量;融合向量值的向量坐标为编码向量值和平滑向量值之间具有的相同向量坐标。
其中,文本编码向量是由所有词项的词编码向量拼接得到的,文本平滑向量是由所有词项类别概率向量拼接得到的,文本编码向量和文本平滑向量的向量维度一致,且文本编码向量中的编码向量值和文本平滑向量中的平滑向量值一一对应。
因此,在本实施例中,在对文本编码向量和文本平滑向量进行融合操作时,首先根据文本编码向量中各个编码向量值的向量坐标,以及文本平滑向量中各个平滑向量值的向量坐标,确定具有相同向量坐标的编码向量值和平滑向量值,然后,根据各个编码向量值、各个编码向量值的第一预设融合系数,以及与各个编码向量值具有相同向量坐标的平滑向量值、平滑向量值的第二预设融合系数,计算融合向量值,其中,第一预设融合系数和第二预设融合系数可根据实际情况进行设定,本实施例中,将第一预设融合系数设为0.4,将第二预设融合系数设为0.6。
然后,根据各个融合向量值和各个融合向量值的向量坐标,得到文本混合向量,其中,融合向量值的向量坐标为编码向量值和平滑向量值之间具有的相同向量坐标。
举例说明,词项数量为N,预设词项数量为M,第一预设融合系数为α1=0.4,第二预设融合系数为α2=0.6,文本编码向量中第i(i=1,…,M)行第j列(j=1,…,N)的编码向量值为xij,文本平滑向量中第i行第j列的平滑向量值为yij,则编码向量值xij和平滑向量值yij相对应。
则计算编码向量值xij与第一预设融合系数α1相乘的乘积,以及平滑向量值yij与第二预设融合系数α2相乘的乘积,将两个乘积的和作为对应第i行第j列的融合向量值rij,即第i行第j列的融合向量值rij为:
rij=α1xij2yij
式中,α1为第一预设融合系数,xij为第i行第j列的编码向量值,α2为第二预设融合系数,yij为第i行第j列的平滑向量值。
则通过确定各个融合向量值和各个融合向量值的向量坐标,即可得到文本混合向量。
上述根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量的步骤,通过将包含文本样本的类别信息的文本编码向量和包含增强后的文本样本的语义信息的文本平滑向量进行融合得到文本混合向量,提高了文本分类模型的准确率。
步骤S205,将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。
其中,文本分类模型用于对输入的文本编码向量和文本混合向量对应的文本样本进行分类。具体地,将文本编码向量和文本混合向量输入至文本分类模型中,对文本编码向量和文本混合向量进行特征提取和特征映射后,得到文本样本的预测类别,同时,为了提高文本分类模型的准确率,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。
可选的是,文本分类模型包括第二编码器、第三编码器和全连接层,以文本编码向量和文本混合向量为训练样本,以训练样本的实际类别为训练标签,对文本分类模型进行训练,得到训练好的文本分类模型。
其中,文本分类模型包括第二编码器,用于对文本编码向量进行特征提取,包括第三编码器,用于对文本混合向量进行特征提取,以及包括全连接层,用于对提取到的特征进行映射,得到文本样本的预测类别。
训练样本为大量文本编码向量和文本混合向量,训练标签为文本编码向量和文本混合向量对应文本样本的实际类别,用于对文本分类型得到的预测类别进行评价,使得可以根据评价结果对该文本分类模型进行训练,以得到训练好的文本分类模型。
可选的是,文本分类模型的训练过程包括:
将文本编码向量输入至第二编码器进行特征提取,得到第二文本编码特征;
将文本混合向量输入至第三编码器进行特征提取,得到文本混合特征;
将第二文本编码特征和文本混合特征进行特征融合,得到文本融合特征,将文本融合特征输入至全连接层,得到预测类别;
根据预测类别和对应实际类别计算第二损失函数,根据梯度下降法反向修正第二编码器、第三编码器和全连接层的参数,直至第二损失函数收敛,得到训练好的文本分类模型。
其中,在文本分类模型的训练过程中,将文本编码向量和文本混合向量输入至不同的编码器提取不同的特征,以全面提取对应文本样本的内容特征。具体地,分别将文本编码向量输入至第二编码器进行特征提取,得到第二文本编码特征,将文本混合向量输入至第三编码器进行特征提取,得到文本混合特征,并将提取到的第二文本编码特征和文本混合特征进行特征融合,得到文本融合特征,从而将文本融合特征输入至全连接层,得到预测类别。
然后,根据预测类别和对应实际类别计算第二损失函数,当第二损失函数较小时,表示根据文本分类模型得到的预测类别与实际类别之间的差距较小,表示该文本分类模型的准确率较高,反之,当第二损失函数较大时,表示根据文本分类模型得到的预测类别与实际类别之间的差距较大,表示该文本分类模型的准确率较低,需要根据梯度下降法反向修正第二编码器、第三编码器和全连接层的参数,直至第二损失函数收敛,得到训练好的文本分类模型。
上述将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型的步骤,通过对文本编码向量和文本混合向量提取不同的文本特征,全面地提取了对应文本样本的内容特征,并根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型,提高了文本分类模型的准确率。
本发明实施例通过对获取的已知实际类别的文本样本中的至少两个词项进行编码,得到对应词项的词编码向量,然后将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量,并将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量,进一步根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量,最终将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。在训练样本较少的情况下,通过获得的文本编码向量对文本样本数据进行增强,得到平滑文本向量并作为文本分类模型的输入,提高了文本分类模型的准确率。
对应于上文实施例的训练方法,图3给出了本发明实施例二提供的文本分类模型的训练装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该文本分类模型的训练装置包括:
词项编码模块31,用于获取已知实际类别的文本样本,对文本样本中的至少两个词项进行编码,得到对应词项的词编码向量;
向量拼接模块32,用于将所有词项的词编码向量进行拼接,得到文本样本的文本编码向量;
概率预测模块33,用于将文本编码向量输入至训练好的词项类别概率预测模型,得到文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量;
向量混合模块34,用于根据预设的融合系数对文本编码向量和文本平滑向量进行融合操作,得到文本混合向量;
模型训练模块35,用于将文本编码向量和文本混合向量输入至文本分类模型,得到文本样本的预测类别,根据预测类别和实际类别对文本分类模型进行训练,得到训练好的文本分类模型。
可选的是,上述词项编码模块31包括:
文本分词子模块,用于对文本样本进行分词处理,得到文本样本中的N个词项;
词项编码子模块,用于对各个词项进行编码,得到各个词项的词编码向量。
可选的是,上述向量拼接模块32包括:
向量排序子模块,用于根据N个词项在文本样本中的顺序,对对应的N个词编码向量进行排序;
向量拼接子模块,用于按照排序结果将N个词编码向量拼接成预设维度的文本编码向量。
可选的是,上述概率预测模块33包括:
预测模模型确定子模块,用于确定词项类别概率预测模型包括第一编码器和第一解码器,以文本编码向量为训练样本,以文本样本为训练标签;
第一特征提取子模块,用于将文本编码向量输入至第一编码器进行特征提取,得到第一文本编码特征;
概率向量预测子模块,用于将第一文本编码特征输入至第一解码器,得到文本编码向量中各个词项的词项类别概率向量;
预测样本确定子模块,用于确定所有词项类别概率向量构成的向量为文本平滑向量,采用归一化指数函数对文本平滑向量中的进行处理,得到预测样本;
第一参数修正子模块,用于根据预测样本和对应文本样本计算第一损失函数,根据梯度下降法反向修正第一编码器和第一解码器的参数,直至第一损失函数收敛,得到训练好的词项类别概率预测模型。
可选的是,上述向量混合模块34包括:
向量值匹配子模块,用于据文本编码向量中各个编码向量值的向量坐标,以及文本平滑向量中各个平滑向量值的向量坐标,确定具有相同向量坐标的编码向量值和平滑向量值;
向量值计算子模块,用于根据各个编码向量值、各个编码向量值的第一预设融合系数,以及与各个编码向量值具有相同向量坐标的平滑向量值、平滑向量值的第二预设融合系数,计算融合向量值;
向量混合子模块,用于根据各个融合向量值和各个融合向量值的向量坐标,得到文本混合向量;融合向量值的向量坐标为编码向量值和平滑向量值之间具有的相同向量坐标。
可选的是,上述模型训练模块35包括:
模型训练子模块,用于确定文本分类模型包括第二编码器、第三编码器和全连接层,以文本编码向量和文本混合向量为训练样本,以训练样本的实际类别为训练标签,对文本分类模型进行训练,得到训练好的文本分类模型。
可选的是,上述模型训练子模块包括:
第二特征提取单元,用于将文本编码向量输入至第二编码器进行特征提取,得到第二文本编码特征;
第三特征提取单元,用于将文本混合向量输入至第三编码器进行特征提取,得到文本混合特征;
类别预测单元,用于将第二文本编码特征和文本混合特征进行特征融合,得到文本融合特征,将文本融合特征输入至全连接层,得到预测类别;
第二参数修正单元,用于根据预测类别和对应实际类别计算第二损失函数,根据梯度下降法反向修正第二编码器、第三编码器和全连接层的参数,直至第二损失函数收敛,得到训练好的文本分类模型。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个训练方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本分类模型的训练方法,其特征在于,所述文本分类模型的训练方法包括:
获取已知实际类别的文本样本,对所述文本样本中的至少两个词项进行编码,得到对应词项的词编码向量;
将所有词项的词编码向量进行拼接,得到所述文本样本的文本编码向量;
将所述文本编码向量输入至训练好的词项类别概率预测模型,得到所述文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量;
根据预设的融合系数对所述文本编码向量和所述文本平滑向量进行融合操作,得到文本混合向量;
将所述文本编码向量和所述文本混合向量输入至文本分类模型,得到所述文本样本的预测类别,根据所述预测类别和所述实际类别对所述文本分类模型进行训练,得到训练好的文本分类模型。
2.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述对所述文本样本中的至少两个词项进行编码,得到对应词项的词编码向量,包括:
对所述文本样本进行分词处理,得到所述文本样本中的N个词项,其中,N为大于2的整数;
对各个所述词项进行编码,得到各个所述词项的词编码向量。
3.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述将所有词项的词编码向量进行拼接,得到所述文本样本的文本编码向量,包括:
根据N个所述词项在所述文本样本中的顺序,对对应的N个所述词编码向量进行排序;
按照排序结果将N个所述词编码向量拼接成预设维度的文本编码向量。
4.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述词项类别概率预测模型包括第一编码器和第一解码器,以所述文本编码向量为训练样本,以所述文本样本为训练标签;
所述词项类别概率预测模型的训练过程包括:
将所述文本编码向量输入至所述第一编码器进行特征提取,得到第一文本编码特征;
将所述第一文本编码特征输入至所述第一解码器,得到所述文本编码向量中各个所述词项的词项类别概率向量;
确定所有词项类别概率向量构成的向量为所述文本平滑向量,采用归一化指数函数对所述文本平滑向量中的进行处理,得到预测样本;
根据所述预测样本和对应所述文本样本计算第一损失函数,根据梯度下降法反向修正所述第一编码器和所述第一解码器的参数,直至所述第一损失函数收敛,得到训练好的词项类别概率预测模型。
5.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述根据预设的融合系数对所述文本编码向量和所述文本平滑向量进行融合操作,得到文本混合向量,包括:
根据所述文本编码向量中各个编码向量值的向量坐标,以及所述文本平滑向量中各个平滑向量值的向量坐标,确定具有相同向量坐标的所述编码向量值和所述平滑向量值;
根据各个所述编码向量值、各个所述编码向量值的第一预设融合系数,以及与各个所述编码向量值具有相同向量坐标的所述平滑向量值、所述平滑向量值的第二预设融合系数,计算融合向量值;
根据各个所述融合向量值和各个所述融合向量值的向量坐标,得到文本混合向量;所述融合向量值的向量坐标为所述编码向量值和平滑向量值之间具有的所述相同向量坐标。
6.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述文本分类模型包括第二编码器、第三编码器和全连接层,以所述文本编码向量和所述文本混合向量为训练样本,以训练样本的实际类别为训练标签,对所述文本分类模型进行训练,得到训练好的文本分类模型。
7.根据权利要求6所述的文本分类模型的训练方法,其特征在于,所述文本分类模型的训练过程包括:
将所述文本编码向量输入至所述第二编码器进行特征提取,得到第二文本编码特征;
将所述文本混合向量输入至所述第三编码器进行特征提取,得到文本混合特征;
将所述第二文本编码特征和所述文本混合特征进行特征融合,得到文本融合特征,将所述文本融合特征输入至所述全连接层,得到预测类别;
根据所述预测类别和对应所述实际类别计算第二损失函数,根据梯度下降法反向修正所述第二编码器、所述第三编码器和所述全连接层的参数,直至所述第二损失函数收敛,得到训练好的文本分类模型。
8.一种文本分类模型的训练装置,其特征在于,所述文本分类模型的训练装置包括:
词项编码模块,用于获取已知实际类别的文本样本,对所述文本样本中的至少两个词项进行编码,得到对应词项的词编码向量;
向量拼接模块,用于将所有词项的词编码向量进行拼接,得到所述文本样本的文本编码向量;
概率预测模块,用于将所述文本编码向量输入至训练好的词项类别概率预测模型,得到所述文本编码向量中各个词项对应的词项类别概率向量,将所有词项类别概率向量进行拼接,得到文本平滑向量;
向量混合模块,用于根据预设的融合系数对所述文本编码向量和所述文本平滑向量进行融合操作,得到文本混合向量;
模型训练模块,用于将所述文本编码向量和所述文本混合向量输入至文本分类模型,得到所述文本样本的预测类别,根据所述预测类别和所述实际类别对所述文本分类模型进行训练,得到训练好的文本分类模型。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本分类模型的训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本分类模型的训练方法。
CN202211082544.8A 2022-09-06 2022-09-06 文本分类模型的训练方法、装置、计算机设备及介质 Pending CN115344699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211082544.8A CN115344699A (zh) 2022-09-06 2022-09-06 文本分类模型的训练方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211082544.8A CN115344699A (zh) 2022-09-06 2022-09-06 文本分类模型的训练方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN115344699A true CN115344699A (zh) 2022-11-15

Family

ID=83955973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211082544.8A Pending CN115344699A (zh) 2022-09-06 2022-09-06 文本分类模型的训练方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN115344699A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质
CN116992033A (zh) * 2023-09-25 2023-11-03 北京中关村科金技术有限公司 文本分类的阈值确定方法、分类方法及相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质
CN116644183B (zh) * 2023-07-27 2024-01-12 深圳大学 文本分类方法、装置及存储介质
CN116992033A (zh) * 2023-09-25 2023-11-03 北京中关村科金技术有限公司 文本分类的阈值确定方法、分类方法及相关装置
CN116992033B (zh) * 2023-09-25 2023-12-08 北京中关村科金技术有限公司 文本分类的阈值确定方法、分类方法及相关装置

Similar Documents

Publication Publication Date Title
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN111858843B (zh) 一种文本分类方法及装置
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
CN112860919B (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111324738B (zh) 一种确定文本标签的方法和系统
CN112182167B (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN113836929B (zh) 命名实体识别方法、装置、设备及存储介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN117611285A (zh) 一种基于多平台的保险产品推荐方法、装置、设备及介质
CN116844573A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN116680385A (zh) 基于人工智能的对话问答方法、装置、计算机设备及介质
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN113705692B (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN114925175A (zh) 基于人工智能的摘要生成方法、装置、计算机设备及介质
CN118132733B (zh) 一种试题检索方法、系统、存储介质及电子设备
CN115292465A (zh) 基于人工智能的问答方法、装置、计算机设备及介质
CN115730601A (zh) 基于人工智能的命名实体识别方法、装置、设备及介质
CN115983283A (zh) 基于人工智能的情绪分类方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination