CN114416984A - 基于人工智能的文本分类方法、装置、设备及存储介质 - Google Patents

基于人工智能的文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114416984A
CN114416984A CN202210033719.XA CN202210033719A CN114416984A CN 114416984 A CN114416984 A CN 114416984A CN 202210033719 A CN202210033719 A CN 202210033719A CN 114416984 A CN114416984 A CN 114416984A
Authority
CN
China
Prior art keywords
text
text classification
word
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210033719.XA
Other languages
English (en)
Inventor
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210033719.XA priority Critical patent/CN114416984A/zh
Publication of CN114416984A publication Critical patent/CN114416984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,揭示了一种基于人工智能的文本分类方法、装置、设备及存储介质,其中方法包括:将所述目标文本输入预设的文本分类模型进行文本分类预测得到所述目标文本对应的目标文本分类结果;所述文本分类模型通过如下步骤得到:采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;将训练结束的所述初始模型作为所述文本分类模型。实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效缓解Bert模型的两个训练阶段的差异性,增加训练得到的模型的鲁棒性。

Description

基于人工智能的文本分类方法、装置、设备及存储介质
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于人工智能的文本分类方法、装置、设备及存储介质。
背景技术
随着Bert(Bidirectional Encoder Representations from Transformers)模型在自然语言处理(NLP)领域的广泛应用,现阶段的NLP任务通常基于Bert模型来实现,通过将现有的NLP任务在预训练模型的基础上微调训练(fine-tuning)即可达到较好的效果。
Bert模型的预训练任务为MLM(masked language model),该任务主要通过在模型的输入阶段masked(掩码)部分token(词语),而在模型的输出阶段预测这些被masked的token。而基于Bert模型的文本分类任务在微调训练阶段,则抛弃MLM任务,主要是首先将文本输入到模型,然后在输出阶段通过利用[CLS](标志符)位置的信息做最终的分类预测。这种传统的微调训练利用自注意力虽然可以有效的提高最终分类的准确率,但是两个阶段的训练方法发生重大转变,前者是预测masked的token,后者是获得[CLS]的信息进行分类预测,导致微调训练得到的模型鲁棒性较低。
发明内容
本申请的主要目的为提供一种基于人工智能的文本分类方法、装置、设备及存储介质,旨在解决现有技术的Bert预训练阶段采用MLM训练方法和微调训练阶段获取标志位的输出进行分类预测训练,因两个阶段的训练方法发生重大转变,导致微调训练得到的模型鲁棒性较低的技术问题。
为了实现上述发明目的,本申请提出一种基于人工智能的文本分类方法,所述方法包括:
获取目标文本;
将所述目标文本输入预设的文本分类模型进行文本分类预测;
获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
其中,所述文本分类模型通过如下步骤得到:
采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,其中,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;
将训练结束的所述初始模型作为所述文本分类模型。
进一步的,所述将所述目标文本输入预设的文本分类模型进行文本分类预测的步骤之前,还包括:
获取多个所述训练样本;
从各个所述训练样本中依次获取所述训练样本作为待训练样本;
从所述待训练样本的初始文本样本中按照预设比例获取词语,得到待替换词语集,并将所述待替换词语集作为词语标定值;
采用所述情感词词典判断所述待替换词语集中的每个词语是否为情感词,得到情感词集和非情感词集;
根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本;
将所述目标文本样本输入所述初始模型分别进行掩码位置的词语预测和文本分类预测,得到词语预测值和文本分类预测值;
根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型;
重复执行确定所述待训练样本的步骤,直至达到预设的训练目标;
将达到所述训练目标的所述初始模型作为所述文本分类模型。
进一步的,所述根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本的步骤,包括:
采用所述掩码符,对所述待训练样本的所述初始文本样本中的与所述非情感词集对应的各个词语进行替换,得到待处理文本样本;
采用所述同义词词典,对所述待处理文本样本中的与所述情感词集对应的各个词语进行替换,得到所述目标文本样本。
进一步的,所述根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型的步骤,包括:
将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值;
根据所述目标损失值对所述初始模型的网络参数进行更新。
进一步的,所述将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
将所述待训练样本的所述词语标定值和所述词语预测值输入预设的词语预测损失函数进行损失值计算,得到第一损失值;
将所述待训练样本的所述文本分类标定值和所述文本分类预测值输入预设的文本分类预测损失函数进行损失值计算,得到第二损失值;
将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述词语预测损失函数和所述文本分类预测损失函数均采用交叉熵损失函数。
进一步的,所述获取多个所述训练样本的步骤之前,还包括:
获取多个商品评论文本;
对每个所述商品评论文本分别进行空白字符删除和重复标点符号删除处理,得到已预处理文本;
根据每个所述已预处理文本生成所述训练样本。
进一步的,所述根据每个所述已预处理文本生成所述训练样本的步骤,包括:
获取与每个所述已预处理文本对应的正负面分类预测结果;
将所述已预处理文本作为所述训练样本的初始文本样本,并且将所述正负面分类预测结果作为所述训练样本的文本分类标定值。
本申请还提出了一种基于人工智能的文本分类装置,所述装置包括:
文本获取模块,用于获取目标文本;
文本分类模块,用于将所述目标文本输入预设的文本分类模型进行文本分类预测;
目标文本分类结果确定模块,用于获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
模型训练模块,用于采用获取的多个训练样本、预设的情感词词典和预设的同义词词典对初始模型进行掩码训练,将训练结束的所述初始模型作为所述文本分类模型,其中,所述初始模型包括:Bert模型和文本分类层,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于人工智能的文本分类方法、装置、设备及存储介质,其中方法首先基于Bert模型和分类预测层得到初始模型,然后通过所述情感词词典和所述同义词词典对所述训练样本中的初始文本样本进行词语替换,最后将替换后的训练样本对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效的缓解了Bert模型的两个训练阶段的差异性,增加了训练得到的模型的鲁棒性,也使训练得到的模型更适用于具体的应用场景;通过在微调阶段将掩码训练和文本分类预测训练同时进行得到的模型进行文本分类预测,提高了文本分类预测的准确性。
附图说明
图1为本申请一实施例的基于人工智能的文本分类方法的流程示意图;
图2为本申请一实施例的基于人工智能的文本分类装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种基于人工智能的文本分类方法,所述方法包括:
S1:获取目标文本;
S2:将所述目标文本输入预设的文本分类模型进行文本分类预测;
S3:获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
其中,所述文本分类模型通过如下步骤得到:
采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,其中,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;
将训练结束的所述初始模型作为所述文本分类模型。
本实施例首先基于Bert模型和分类预测层得到初始模型,然后通过所述情感词词典和所述同义词词典对所述训练样本中的初始文本样本进行词语替换,最后将替换后的训练样本对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效的缓解了Bert模型的两个训练阶段的差异性,增加了训练得到的模型的鲁棒性,也使训练得到的模型更适用于具体的应用场景;通过在微调阶段将掩码训练和文本分类预测训练同时进行得到的模型进行文本分类预测,提高了文本分类预测的准确性。
对于S1,可以获取用户输入的目标文本,也可以获取第三方应用系统发送的目标文本,还可以从数据库中获取目标文本。
目标文本,是需要进行分类预测的文本。
对于S3,获取所述文本分类模型输出的文本分类结果,将获取的文本分类结果作为所述目标文本对应的目标文本分类结果。
其中,采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行。
所述训练样本包括:初始文本样本和文本分类标定值。文本分类标定值是对初始文本样本对于的分类标签的准确标定结果。
可选的,初始文本样本是对商品评论文本进行预处理后得到的文本。可以理解的是,初始文本样本还可以根据其他文本生成,在此不做限定。
其中,所述初始模型是基于Bert模型和分类预测层得到的模型,分类预测层用于对Bert模型针对标志位输出的信息进行分类预测。
标志位表述为:[CLS]。
所述情感词词典,用于判断掩码位置的原始词语是否为情感词,根据判断结果确定对掩码位置的替换策略。根据替换策略、所述同义词词典和预设的掩码符,对初始文本样本中的掩码位置进行替换。
掩码符为:[MASK]。
在一个实施例中,上述将所述目标文本输入预设的文本分类模型进行文本分类预测的步骤之前,还包括:
S21:获取多个所述训练样本;
S22:从各个所述训练样本中依次获取所述训练样本作为待训练样本;
S23:从所述待训练样本的初始文本样本中按照预设比例获取词语,得到待替换词语集,并将所述待替换词语集作为词语标定值;
S24:采用所述情感词词典判断所述待替换词语集中的每个词语是否为情感词,得到情感词集和非情感词集;
S25:根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本;
S26:将所述目标文本样本输入所述初始模型分别进行掩码位置的词语预测和文本分类预测,得到词语预测值和文本分类预测值;
S27:根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型;
S28:重复执行确定所述待训练样本的步骤,直至达到预设的训练目标;
S29:将达到所述训练目标的所述初始模型作为所述文本分类模型。
本实施例首先从初始文本样本中确定待替换词语集和词语标定值,采用情感词词典对掩码位置的原始词语进行是否情感词判断,然后根据情感词判断的结果、所述同义词词典和预设的掩码符,对掩码位置进行替换,最后根据替换后的文本样本实现掩码训练和分类预测训练同时进行。
对于S21,可以获取用户输入的多个所述训练样本,也可以获取第三方应用系统发送的多个所述训练样本,还可以从数据库中获取多个所述训练样本。
对于S22,从各个所述训练样本中获取任一个所述训练样本,将获取的所述训练样本作为待训练样本。
对于S23,从所述待训练样本的初始文本样本中按照预设比例获取词语,将获取的各个词语作为待替换词语集。也就是说,待替换词语集中每个词语在所述待训练样本的所述初始文本样本对应的位置就是掩码位置。
可选的,将待替换词语集的词语数量乘以替换比例得到乘积结果,乘积结果为整数时,将乘积结果作为待替换词语集的词语数量。
可选的,将待替换词语集的词语数量乘以替换比例得到乘积结果,乘积结果不为整数时,对乘积结果进行向上整,将向上取整得到的数量作为待替换词语集的词语数量。
可选的,将待替换词语集的词语数量乘以替换比例得到乘积结果,乘积结果不为整数时,对乘积结果进行向下整,将向下取整得到的数量作为待替换词语集的词语数量。
替换比例可以设置为5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%中的任一个。
所述待替换词语集是各个掩码位置的原始词语,因此,可以直接将所述待替换词语集作为所述词语标定值。
对于S24,分别将所述待替换词语集中的每个词语,在所述情感词词典中进行查找,将查找成功的词语对应的情感词判断结果确定为情感词,将查找失败的词语对应的情感词判断结果确定为非情感词。也就是说,情感词判断结果和所述待替换词语集中的词语一一对应。
将所述待替换词语集,按照所述情感词判断结果进行集合划分,得到情感词集和非情感词集,也就是说,情感词集中包括了所述待替换词语集中的所述情感词判断结果为情感的所有词语,非情感词集中包括了所述待替换词语集中的所述情感词判断结果为非情感的所有词语。
对于S25,确定情感词集和非情感词集对应的每个掩码位置的替换策略,根据替换策略、预设的掩码符、所述同义词词典、所述待替换词语集,对所述待训练样本的所述初始文本样本进行词语替换,将完成替换的所述初始文本样本作为目标文本样本。
对于S26,将所述目标文本样本输入所述初始模型,所述初始模型的Bert模型针对掩码位置进行词语预测,将词语预测得到的结果作为词语预测值,所述初始模型的分类预测层针对所述初始模型的Bert模型输出的与标志位对应的信息的文本分类预测,将文本分类预测得到的数据作为所述文本分类预测值。
对于S27,根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值计算目标损失值,根据目标损失值更新所述初始模型的网络参数。
根据目标损失值更新所述初始模型的网络参数的方法步骤在此不做赘述。
对于S28,重复执行确定所述待训练样本的步骤,也就是重复执行步骤S22至步骤S28,直至达到预设的训练目标。
所述训练目标包括:所述目标损失值达到第一收敛条件或者所述初始模型的迭代次数达到第二收敛条件。
所述第一收敛条件是指相邻两次计算所述目标损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述迭代次数是指所述初始模型的损失值的计算次数,也就是说,被计算一次,迭代次数增加1。
第二收敛条件是具体数值。
对于S29,达到所述训练目标的所述初始模型,是达到预期要求的模型,因此直接将达到所述训练目标的所述初始模型作为所述文本分类模型。
在一个实施例中,上述根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本的步骤,包括:
S251:采用所述掩码符,对所述待训练样本的所述初始文本样本中的与所述非情感词集对应的各个词语进行替换,得到待处理文本样本;
S252:采用所述同义词词典,对所述待处理文本样本中的与所述情感词集对应的各个词语进行替换,得到所述目标文本样本。
本实施例对情感词集对应的掩码位置采用所述同义词词典进行替换,对非情感词集对应的掩码位置采用掩码符进行替换,从而保持了初始文本样本和目标文本样本之间的情感倾向的一致性,提高了模型训练的准确性,提高了文本分类预测的准确性。
对于S251,将所述待训练样本的所述初始文本样本中的与所述非情感词集对应的各个词语替换为所述掩码符,将完成替换的所述初始文本样本作为所述待处理文本样本。
对于S252,将所述情感词集的任一个词语作为目标词语;将所述目标词语,从所述同义词词典匹配同同义词,将匹配得到的同义词,对所述待处理文本样本中的与所述目标词语对应的掩码位置的词语进行替换;重复执行所述将所述情感词集的任一个词语作为目标词语的步骤,直至完成对所述情感词集的每个词语对应的掩码位置的替换。
在一个实施例中,上述根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型的步骤,包括:
S271:将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值;
S272:根据所述目标损失值对所述初始模型的网络参数进行更新。
本实施例将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,从而实现作为微调阶段根据词语预测的损失和文本分类预测的损失更新初始模型的网络参数,从而实现了在微调阶段将掩码训练和文本分类预测训练同时进行。
对于S271,将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,其中,目标损失函数是基于基于交叉熵损失函数得到的函数。
对于S272,根据所述目标损失值对所述初始模型的网络参数进行更新,将更新后的所述初始模型用于下一次计算所述词语预测值和所述文本分类预测值,从而实现了所述初始模型的网络参数的迭代更新。
在一个实施例中,上述将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
S2711:将所述待训练样本的所述词语标定值和所述词语预测值输入预设的词语预测损失函数进行损失值计算,得到第一损失值;
S2712:将所述待训练样本的所述文本分类标定值和所述文本分类预测值输入预设的文本分类预测损失函数进行损失值计算,得到第二损失值;
S2713:将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述词语预测损失函数和所述文本分类预测损失函数均采用交叉熵损失函数。
本实施例采用交叉熵损失函数计算词语预测的损失,采用交叉熵损失函数计算文本分类预测的损失,将词语预测的损失和文本分类预测的损失进行加权求和作为目标损失函数,从而根据词语预测的损失和文本分类预测的损失同时更新所述初始模型的网络参数。
对于S2711,将所述待训练样本的所述词语标定值和所述词语预测值输入预设的词语预测损失函数进行损失值计算,将计算得到的损失值作为第一损失值。
对于S2712,将所述待训练样本的所述文本分类标定值和所述文本分类预测值输入预设的文本分类预测损失函数进行损失值计算,将计算得到的损失值作为第二损失值。
对于S2713,将所述第一损失值和所述第二损失值进行加权求和,将加权求和得到的数据作为所述目标损失值。
其中,将所述第一损失值和所述第二损失值进行加权求和时,所述第二损失值占所述目标损失值的比例的取值范围为:0%至50%,可以包括0%,也可以包括50%。
可选的,所述第二损失值占所述目标损失值的比例设置为30%。
在一个实施例中,上述获取多个所述训练样本的步骤之前,还包括:
S211:获取多个商品评论文本;
S212:对每个所述商品评论文本分别进行空白字符删除和重复标点符号删除处理,得到已预处理文本;
S213:根据每个所述已预处理文本生成所述训练样本。
本实施例通过对商品评论文本进行空白字符删除和重复标点符号删除处理得到已预处理文本,根据已预处理文本生成训练样本,从而提高了生成的训练样本的准确性。
对于S211,可以获取用户输入的多个商品评论文本,也可以获取第三方应用系统发送的多个商品评论文本,还可以从数据库中获取多个商品评论文本。
所述商品评论文本,是用户对商品的评论的文本。
对于S212,采用正则表达式,对所述商品评论文本分别进行空白字符删除和重复标点符号删除处理,将完成空白字符删除和重复标点符号删除处理后的所述商品评论文本作为已预处理文本。
对于S213,根据所述已预处理文本确定标定值,然后根据所述已预处理文本和确定的标定值生成一个所述训练样本。也就是说,所述已预处理文本与所述训练样本一一对应。
标定值可以是情绪的分类预测结果,还可以是商品满意度的分类预测结果。
在一个实施例中,上述根据每个所述已预处理文本生成所述训练样本的步骤,包括:
S2131:获取与每个所述已预处理文本对应的正负面分类预测结果;
S2132:将所述已预处理文本作为所述训练样本的初始文本样本,并且将所述正负面分类预测结果作为所述训练样本的的文本分类标定值。
本实施例通过将正负面分类预测结果作为文本分类标定值,从而使所述训练样本训练出的模型适用于正负情绪的分类预测。
对于S2131,获取用户发送的与所述已预处理文本对应的正负面分类预测结果。
对于S2132,将所述已预处理文本作为所述训练样本的所述初始文本样本,并且将所述正负面分类预测结果作为所述训练样本的的所述文本分类标定值,从而生成了训练样本。
参照图2,本申请还提出了一种基于人工智能的文本分类装置,所述装置包括:
文本获取模块100,用于获取目标文本;
文本分类模块200,用于将所述目标文本输入预设的文本分类模型进行文本分类预测;
目标文本分类结果确定模块300,用于获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
模型训练模块400,用于采用获取的多个训练样本、预设的情感词词典和预设的同义词词典对初始模型进行掩码训练,将训练结束的所述初始模型作为所述文本分类模型,其中,所述初始模型包括:Bert模型和文本分类层,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换。
本实施例首先基于Bert模型和分类预测层得到初始模型,然后通过所述情感词词典和所述同义词词典对所述训练样本中的初始文本样本进行词语替换,最后将替换后的训练样本对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效的缓解了Bert模型的两个训练阶段的差异性,增加了训练得到的模型的鲁棒性,也使训练得到的模型更适用于具体的应用场景;通过在微调阶段将掩码训练和文本分类预测训练同时进行得到的模型进行文本分类预测,提高了文本分类预测的准确性。
在一个实施例中,上述模型训练模块400还包括:训练样本获取子模块、掩码子模块和训练子模块;
所述训练样本获取子模块,用于获取多个所述训练样本;
所述掩码子模块,用于从各个所述训练样本中获取一个所述训练样本作为待训练样本,从所述待训练样本的所述初始文本样本中获取词语,得到待替换词语集和词语标定值,采用所述情感词词典,对所述待替换词语集中的每个词语进行是否情感词判断,得到情感词判断结果,根据预设的掩码符、所述同义词词典、所述待替换词语集和各个所述情感词判断结果,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本;
所述训练子模块,用于将所述目标文本样本输入所述初始模型分别进行掩码位置的词语预测和文本分类预测,得到词语预测值和文本分类预测值,根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型,重复执行确定所述待训练样本的步骤,直至达到预设的训练目标,将达到所述训练目标的所述初始模型作为所述文本分类模型。
在一个实施例中,上述掩码子模块包括:待替换词语集确定单元和词语标定值确定单元;
所述待替换词语集确定单元,用于采用预设的替换比例,从所述待训练样本的所述初始文本样本中随机获取词语,得到待替换词语集;
所述词语标定值确定单元,用于将所述待替换词语集作为所述词语标定值。
在一个实施例中,上述掩码子模块还包括:集合划分单元、第一掩码单元和第二掩码单元;
所述集合划分单元,用于将所述待替换词语集,按照所述情感词判断结果进行集合划分,得到情感词集和非情感词集;
所述第一掩码单元,用于采用所述掩码符,对所述待训练样本的所述初始文本样本中的与所述非情感词集对应的各个词语进行替换,得到待处理文本样本;
所述第二掩码单元,用于采用所述同义词词典,对所述待处理文本样本中的与所述情感词集对应的各个词语进行替换,得到所述目标文本样本。
在一个实施例中,上述训练子模块包括:目标损失值计算单元和网络参数更新单元;
所述目标损失值计算单元,用于将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值;
所述网络参数更新单元,用于根据所述目标损失值对所述初始模型的网络参数进行更新,将更新后的所述初始模型用于下一次计算所述词语预测值和所述文本分类预测值。
在一个实施例中,上述目标损失值计算单元包括:第一损失值计算子单元、第二损失值计算子单元和加权求和子单元;
所述第一损失值计算子单元,用于将所述待训练样本的所述词语标定值和所述词语预测值输入预设的词语预测损失函数进行损失值计算,得到第一损失值;
所述第二损失值计算子单元,用于将所述待训练样本的所述文本分类标定值和所述文本分类预测值输入预设的文本分类预测损失函数进行损失值计算,得到第二损失值;
所述加权求和子单元,用于将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述词语预测损失函数和所述文本分类预测损失函数均采用交叉熵损失函数。
在一个实施例中,上述训练样本获取子模块包括:商品评论文本获取单元和训练样本生成单元;
所述商品评论文本获取单元,用于获取多个商品评论文本;
所述训练样本生成单元,用于对每个所述商品评论文本分别进行空白字符删除和重复标点符号删除处理,得到已预处理文本,获取与每个所述已预处理文本对应的正负面分类预测结果,将所述已预处理文本作为所述训练样本的所述初始文本样本,并且将所述正负面分类预测结果作为所述训练样本的的所述文本分类标定值。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的文本分类方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的文本分类方法。所述基于人工智能的文本分类方法,包括:获取目标文本;将所述目标文本输入预设的文本分类模型进行文本分类预测;获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;其中,所述文本分类模型通过如下步骤得到:采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,其中,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;将训练结束的所述初始模型作为所述文本分类模型。
本实施例首先基于Bert模型和分类预测层得到初始模型,然后通过所述情感词词典和所述同义词词典对所述训练样本中的初始文本样本进行词语替换,最后将替换后的训练样本对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效的缓解了Bert模型的两个训练阶段的差异性,增加了训练得到的模型的鲁棒性,也使训练得到的模型更适用于具体的应用场景;通过在微调阶段将掩码训练和文本分类预测训练同时进行得到的模型进行文本分类预测,提高了文本分类预测的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于人工智能的文本分类方法,包括步骤:获取目标文本;将所述目标文本输入预设的文本分类模型进行文本分类预测;获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;其中,所述文本分类模型通过如下步骤得到:采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,其中,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;将训练结束的所述初始模型作为所述文本分类模型。
上述执行的基于人工智能的文本分类方法,首先基于Bert模型和分类预测层得到初始模型,然后通过所述情感词词典和所述同义词词典对所述训练样本中的初始文本样本进行词语替换,最后将替换后的训练样本对初始模型进行掩码训练,从而实现在微调阶段将掩码训练和文本分类预测训练同时进行,有效的缓解了Bert模型的两个训练阶段的差异性,增加了训练得到的模型的鲁棒性,也使训练得到的模型更适用于具体的应用场景;通过在微调阶段将掩码训练和文本分类预测训练同时进行得到的模型进行文本分类预测,提高了文本分类预测的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于人工智能的文本分类方法,其特征在于,所述方法包括:
获取目标文本;
将所述目标文本输入预设的文本分类模型进行文本分类预测;
获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
其中,所述文本分类模型通过如下步骤得到:
采用获取的多个训练样本、情感词词典和同义词词典对初始模型进行掩码训练,其中,所述初始模型是基于Bert模型和分类预测层得到的模型,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换;
将训练结束的所述初始模型作为所述文本分类模型。
2.根据权利要求1所述的基于人工智能的文本分类方法,其特征在于,所述将所述目标文本输入预设的文本分类模型进行文本分类预测的步骤之前,还包括:
获取多个所述训练样本;
从各个所述训练样本中依次获取所述训练样本作为待训练样本;
从所述待训练样本的初始文本样本中按照预设比例获取词语,得到待替换词语集,并将所述待替换词语集作为词语标定值;
采用所述情感词词典判断所述待替换词语集中的每个词语是否为情感词,得到情感词集和非情感词集;
根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本;
将所述目标文本样本输入所述初始模型分别进行掩码位置的词语预测和文本分类预测,得到词语预测值和文本分类预测值;
根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型;
重复执行确定所述待训练样本的步骤,直至达到预设的训练目标;
将达到所述训练目标的所述初始模型作为所述文本分类模型。
3.根据权利要求2所述的基于人工智能的文本分类方法,其特征在于,所述根据预设的掩码符、所述同义词词典、所述待替换词语集、所述情感词集和所述非情感词集,对所述待训练样本的所述初始文本样本进行词语替换,得到目标文本样本的步骤,包括:
采用所述掩码符,对所述待训练样本的所述初始文本样本中的与所述非情感词集对应的各个词语进行替换,得到待处理文本样本;
采用所述同义词词典,对所述待处理文本样本中的与所述情感词集对应的各个词语进行替换,得到所述目标文本样本。
4.根据权利要求2所述的基于人工智能的文本分类方法,其特征在于,所述根据所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值训练所述初始模型的步骤,包括:
将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值;
根据所述目标损失值对所述初始模型的网络参数进行更新。
5.根据权利要求4所述的基于人工智能的文本分类方法,其特征在于,所述将所述待训练样本的文本分类标定值、所述词语标定值、所述词语预测值和所述文本分类预测值输入预设的目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
将所述待训练样本的所述词语标定值和所述词语预测值输入预设的词语预测损失函数进行损失值计算,得到第一损失值;
将所述待训练样本的所述文本分类标定值和所述文本分类预测值输入预设的文本分类预测损失函数进行损失值计算,得到第二损失值;
将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述词语预测损失函数和所述文本分类预测损失函数均采用交叉熵损失函数。
6.根据权利要求2所述的基于人工智能的文本分类方法,其特征在于,所述获取多个所述训练样本的步骤之前,还包括:
获取多个商品评论文本;
对每个所述商品评论文本分别进行空白字符删除和重复标点符号删除处理,得到已预处理文本;
根据每个所述已预处理文本生成所述训练样本。
7.根据权利要求6所述的基于人工智能的文本分类方法,其特征在于,所述根据每个所述已预处理文本生成所述训练样本的步骤,包括:
获取与每个所述已预处理文本对应的正负面分类预测结果;
将所述已预处理文本作为所述训练样本的初始文本样本,并且将所述正负面分类预测结果作为所述训练样本的文本分类标定值。
8.一种基于人工智能的文本分类装置,其特征在于,所述装置包括:
文本获取模块,用于获取目标文本;
文本分类模块,用于将所述目标文本输入预设的文本分类模型进行文本分类预测;
目标文本分类结果确定模块,用于获取所述文本分类模型输出的文本分类结果作为所述目标文本对应的目标文本分类结果;
模型训练模块,用于采用获取的多个训练样本、预设的情感词词典和预设的同义词词典对初始模型进行掩码训练,将训练结束的所述初始模型作为所述文本分类模型,其中,所述初始模型包括:Bert模型和文本分类层,所述情感词词典和所述同义词词典用于对所述训练样本中的初始文本样本进行词语替换。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210033719.XA 2022-01-12 2022-01-12 基于人工智能的文本分类方法、装置、设备及存储介质 Pending CN114416984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210033719.XA CN114416984A (zh) 2022-01-12 2022-01-12 基于人工智能的文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210033719.XA CN114416984A (zh) 2022-01-12 2022-01-12 基于人工智能的文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114416984A true CN114416984A (zh) 2022-04-29

Family

ID=81273001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210033719.XA Pending CN114416984A (zh) 2022-01-12 2022-01-12 基于人工智能的文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114416984A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329784A (zh) * 2022-10-12 2022-11-11 之江实验室 基于预训练模型的句子复述生成系统
CN116049400A (zh) * 2023-01-04 2023-05-02 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及其装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329784A (zh) * 2022-10-12 2022-11-11 之江实验室 基于预训练模型的句子复述生成系统
CN116049400A (zh) * 2023-01-04 2023-05-02 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及其装置

Similar Documents

Publication Publication Date Title
CN114416984A (zh) 基于人工智能的文本分类方法、装置、设备及存储介质
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN112380840A (zh) 文本纠错方法、装置、设备及介质
CN113704476B (zh) 目标事件抽取数据处理系统
CN110162681B (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN112131890A (zh) 一种会话意图智能识别模型的构建方法、装置及设备
CN112016300B (zh) 预训练模型处理、下游任务处理方法、装置及存储介质
CN112732892B (zh) 课程推荐方法、装置、设备及存储介质
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN113792682A (zh) 基于人脸图像的人脸质量评估方法、装置、设备及介质
CN113326379A (zh) 文本分类预测方法、装置、设备及存储介质
CN112016319A (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN113468433A (zh) 目标事件抽取数据处理系统
CN112836762A (zh) 模型蒸馏方法、装置、设备及存储介质
CN113270103A (zh) 基于语义增强的智能语音对话方法、装置、设备及介质
CN114595158A (zh) 基于人工智能的测试用例生成方法、装置、设备及介质
CN112800748B (zh) 适用于多音字的音素预测方法、装置、设备及存储介质
CN113268564B (zh) 相似问题的生成方法、装置、设备及存储介质
CN113935315A (zh) 句子向量生成方法、装置、设备及存储介质
CN111933125A (zh) 联合模型的语音识别方法、装置和计算机设备
CN113724688B (zh) 语音识别的后处理方法、装置和计算机设备
CN113722462B (zh) 目标论元信息抽取数据处理系统
CN115374278A (zh) 文本处理模型蒸馏方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination