CN112328787A - 文本分类模型训练方法、装置、终端设备及存储介质 - Google Patents

文本分类模型训练方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN112328787A
CN112328787A CN202011217113.9A CN202011217113A CN112328787A CN 112328787 A CN112328787 A CN 112328787A CN 202011217113 A CN202011217113 A CN 202011217113A CN 112328787 A CN112328787 A CN 112328787A
Authority
CN
China
Prior art keywords
text
vocabulary
sample
classification model
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011217113.9A
Other languages
English (en)
Other versions
CN112328787B (zh
Inventor
饶刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011217113.9A priority Critical patent/CN112328787B/zh
Publication of CN112328787A publication Critical patent/CN112328787A/zh
Application granted granted Critical
Publication of CN112328787B publication Critical patent/CN112328787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种文本分类模型训练方法、装置、终端设备及存储介质,该方法包括:对样本文本进行卡方检验,根据卡方检验结果构建不同类别下的特征词汇表;根据特征词汇表提取样本文本与文本分类模型之间的词汇特征;对样本文本进行文本特征提取得到文本特征,对文本特征和词汇特征进行特征拼接得到文本拼接特征;根据文本拼接特征对文本分类模型进行模型训练,直至文本分类模型收敛。本申请通过文本拼接特征对文本分类模型进行模型训练,而文本拼接特征包括文本特征和词汇特征,也即由于文本分类模型训练时的特征更多,使得基于文本拼接特征进行模型训练后的文本分类模型分类准确性高,此外,本申请还涉及区块链技术。

Description

文本分类模型训练方法、装置、终端设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种文本分类模型训练方法、装置、终端设备及存储介质。
背景技术
文本分类是自然语言处理研究领域中的一个重要应用方向。文本分类是指利用分类器对包含文本的数据进行分类,从而确定每个文本所属的类别,使得用户能够方便的获取需要的文本。
其中,分类器又称为文本分类模型,是通过使用大量的带有类别标记的样本数据,对分类准则或模型参数进行训练而得到的。利用训练得到的分类器对未知类别的文本数据进行识别,从而实现对大规模文本数据的自动分类。因此,分类模型训练的优劣直接影响到文本分类的最终效果。
但现有的文本分类模型训练过程中,仅是基于样本文本的文本特征进行模型的训练,使得文本分类模型训练效果差,进而导致训练后的文本分类模型分类准确性低下。
发明内容
有鉴于此,本申请实施例提供了一种文本分类模型训练方法、装置、终端设备及存储介质,以解决现有技术的文本分类模型训练过程中,由于仅基于样本文本的文本特征进行模型训练,所导致的文本分类模型训练效果差的问题。
本申请实施例的第一方面提供了一种文本分类模型训练方法,包括:
对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,所述特征词汇表包括不同所述类别之间的关键词;
根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,所述词汇特征为所述样本文本与所述文本分类模型中目标类别之间的关键词特征;
对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征;
根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
进一步地,所述对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,包括:
对所述样本文本进行分词,得到分词词汇,并分别获取每个所述分词词汇在对应所述类别下出现的次数,得到词汇次数;
根据所述词汇次数进行卡方检验计算,得到卡方检验得分,并根据所述卡方检验得分对所述分词词汇进行排序,得到不同所述类别对应的词汇排序表;
根据预设排序数量对所述词汇排序表进行词汇筛选,并将词汇筛选后的所述词汇排序表设置为对应所述类别下的所述特征词汇表。
进一步地,所述根据所述词汇次数进行卡方检验计算所采用的计算公式为:
Figure BDA0002760764490000021
Ai是第i个所述分词词汇的观察次数,Ei是第i个所述分词词汇的期望次数,n是第i个所述分词词汇的所述词汇次数,pi是第i个所述分词词汇的期望频率,X2是第i个所述分词词汇对应的所述卡方检验得分。
进一步地,所述根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,包括:
将所述样本文本输入所述文本分类模型中,并将所述文本分类模型中目标类别与不同所述类别进行匹配;
根据匹配到的所述类别对应的所述特征词汇表对所述样本文本进行词汇提取,得到样本词汇;
计算所述样本词汇在对应所述样本文本中的词频,并根据所述词频计算对应所述样本词汇的逆文档频率;
根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征,并根据所述词频频率特征对所述样本词汇进行排序,得到所述词汇特征。
进一步地,所述计算所述样本词汇在对应所述样本文本中的词频所采用的计算公式为:
TFa=S/Q
TFa是第a个所述样本词汇对应的所述词频,S是第a个所述样本词汇在所述样本文本中的出现次数,Q是所述样本文本的总词数;
所述根据所述词频计算对应所述样本词汇的逆文档频率所采用的计算公式为:
IDFa=log(H/(Da+1))
IDFa是第a个所述样本词汇对应的所述逆文档频率,H是所述样本词汇的总样本数,Da是包含第a个所述样本词汇的所述样本文本的文档数;
所述根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征所采用的计算公式为:
TF-IDFa=TFa*IDFa
TF-IDFa是第a个所述样本词汇对应的所述词频频率特征。
进一步地,所述对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征,包括:
将所述样本文本输入所述文本分类模型中的卷积神经网络,并根据所述卷积神经网络中的卷积层对所述样本文本进行特征提取;
根据所述卷积神经网络中的池化层对所述卷积层提取到的特征进行特征拼接,得到所述文本特征;
根据所述文本分类模型中的全连接层对所述文本特征和所述词汇特征进行向量组合,得到所述文本拼接特征。
进一步地,所述根据所述文本拼接特征对所述文本分类模型进行模型训练,包括:
根据所述文本分类模型中对所述文本拼接特征进行分类预测,并根据分类预测结果计算所述文本分类模型的模型损失值;
根据所述模型损失值对所述全连接层、所述卷积层和所述池化层进行权值更新;
若所述文本分类模型的模型损失值小于损失阈值,则判定所述文本分类模型收敛。
本申请实施例的第二方面提供了一种文本分类模型训练装置,包括:
特征词汇表构建单元,用于对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,所述特征词汇表包括不同所述类别之间的关键词;
词汇特征提取单元,用于根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,所述词汇特征为所述样本文本与文本分类模型中目标类别之间的关键词特征;
特征拼接单元,用于对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征;
模型训练单元,用于根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的文本分类模型训练方法的各步骤。
本申请实施例的第四方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的文本分类模型训练方法的各步骤。
实施本申请实施例提供的一种文本分类模型训练方法、装置、终端设备及存储介质具有以下有益效果:
本申请实施例提供的一种文本分类模型训练方法,由于卡方检验能有效的检验到样本文本与不同类别之间的关键词,因此,通过对样本文本进行卡方检验得到特征词汇表,并根据特征词汇表对样本文本进行特征提取,能有效的提取到不同类别下能表征样本文本的关键词,基于样本文本与不同类别之间的关键词,能有效的提取到样本文本与文本分类模型中目标类别之间的词汇特征,由于文本分类模型的模型训练是基于文本拼接特征,而文本拼接特征包括文本特征和词汇特征,也即由于文本分类模型训练时的特征更多,提高了文本分类模型学习到的特征,使得基于文本拼接特征进行模型训练后的文本分类模型分类准确性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本分类模型训练方法的实现流程图;
图2是图1实施例提供的文本分类模型的模型结构示意图;
图3是本申请另一实施例提供的一种文本分类模型训练方法的实现流程图;
图4是本申请再一实施例提供的一种文本分类模型训练方法的实现流程图;
图5是本申请实施例提供的一种文本分类模型训练装置的结构框图;
图6是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的文本分类模型训练方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种文本分类模型训练方法的实现流程图,包括:
步骤S10,对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表。
其中,该特征词汇表包括样本文本与不同类别之间的关键词,该步骤中,每个类别下均至少设置有一个样本文本,不同类别之间的样本文本可以相同,该卡方检验用于提取不同类别下样本文本与对应类别之间的关键词。
例如,本实施例中包括类别a1、类别a2和类别a3,类别a1下设置有样本文本b1、样本文本b2和样本文本b3,类别a2下设置有样本文本b2和样本文本b3,类别a3下设置有样本文本b1,则分别对类别a1、类别a2和类别a3下的样本文本进行卡方检验,以得到样本文本b1、样本文本b2、样本文本b3与类别a1之间的关键词,并根据样本文本b1、样本文本b2、样本文本b3与类别a1之间的关键词构建类别a1对应的特征词汇表c1,根据样本文本b2、样本文本b3与类别a2之间的关键词构建类别a2对应的特征词汇表c2,根据样本文本b1与类别a3之间的关键词构建类别a3对应的特征词汇表c3。
步骤S20,根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征。
其中,该词汇特征为样本文本与文本分类模型中目标类别之间的关键词特征,该目标类别是针对文本分类模型预先设置的类别,该文本分类模型用于对输入的待分类文本进行分析,以判断该待分类文本是否属于目标类别。
具体的,该步骤中,基于步骤S10获取到的不同类别对应的特征词汇表,能有效的获取到文本分类模型中目标类别对应的特征词汇表,根据该文本分类模型中目标类别对应的特征词汇表对样本文本进行特征提取,以得到样本文本与文本分类模型中目标类别之间的词汇特征。
步骤S30,对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征。
其中,可以基于卷积神经网络的方式对该样本文本进行文本特征提取,得到样本文本对应的文本特征。
具体的,该步骤中,所述对所述样本文本进行文本特征提取,得到文本特征包括:对样本文本进行分词,根据样本文本的分词结果统计每一类别文本中所有出现的词语及其频率,并剔除停用词和单字词,统计每一类别内出现词语的总词频,并取若干个频率更高的词汇作为对应类别的特征词集,去除每一类别中都出现的词,并合并所有类别的特征词集,形成总特征词集,并根据文本分类模型中的目标类别对该总特征词集进行类别筛选,得到该文本特征。
可选的,该步骤中,所述对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征,包括:
将所述样本文本输入所述文本分类模型中的卷积神经网络,并根据所述卷积神经网络中的卷积层对所述样本文本进行特征提取;
根据所述卷积神经网络中的池化层对所述卷积层提取到的特征进行特征拼接,得到所述文本特征;
根据所述文本分类模型中的全连接层对所述文本特征和所述词汇特征进行向量组合,得到所述文本拼接特征。
步骤S40,根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
可选的,该步骤中,所述根据所述文本拼接特征对所述文本分类模型进行模型训练,包括:
根据所述文本分类模型中对所述文本拼接特征进行分类预测,并根据分类预测结果计算所述文本分类模型的模型损失值;
根据所述模型损失值对所述全连接层、所述卷积层和所述池化层进行权值更新;
若所述文本分类模型的模型损失值小于损失阈值,则判定所述文本分类模型收敛;
其中,该损失阈值可以根据需求进行设置,该损失阈值用于检测文本分类模型对文本拼接特征进行分类预测得到的预测结果是否小于预测误差,若文本分类模型的模型损失值小于损失阈值,则判定该文本分类模型输出的分类预测结果小于预测误差,该文本分类模型收敛。
请参阅图2,是图1实施例提供的文本分类模型的模型结构示意图,该文本分类模型采用深度神经网络(Deep Neural Networks,DNN)的网络结构,该文本分类模型用于对文本特征和词汇特征进行联合训练,通过反向传播更新卷积神经网络的数据,并更新与词汇特征的连接权重,该文本分类模型通过根据特征词汇表对样本文本与文本分类模型中目标类别之间的特征提取,得到词汇特征,并将该词汇特征输入卷积神经网络中的卷积层进行卷积处理,并将卷积层的输出结果输入池化层进行池化处理,得到文本特征,并根据文本分类模型中的全连接层将文本特征和步骤S20得到的词汇特征进行特征拼接,得到文本拼接特征。
本实施例中,由于卡方检验能有效的检验到样本文本与不同类别之间的关键词,因此,通过对样本文本进行卡方检验得到特征词汇表,并根据特征词汇表对样本文本进行特征提取,能有效的提取到不同类别下能表征样本文本的关键词,基于样本文本与不同类别之间的关键词,能有效的提取到样本文本与文本分类模型中目标类别之间的词汇特征,由于文本分类模型的模型训练是基于文本拼接特征,而文本拼接特征包括文本特征和词汇特征,也即由于文本分类模型训练时的特征更多,提高了文本分类模型学习到的特征,使得基于文本拼接特征进行模型训练后的文本分类模型分类准确性高。
请参阅图3,图3是本申请另一实施例提供的一种文本分类模型训练方法的实现流程图。相对于图1对应的实施例,本实施例提供的文本分类模型训练方法是对图1对应的实施例中步骤S10的进一步细化,包括:
步骤S11,对所述样本文本进行分词,得到分词词汇,并分别获取每个所述分词词汇在对应所述类别下出现的次数,得到词汇次数。
其中,本实施例预存储有分词词汇表,通过将该样本文本中的词汇与分词词汇表进行匹配,并根据样本文本中的词汇与分词词汇表之间的匹配对样本文本进行分词,得到该分词词汇。
具体的,该步骤中,通过分别获取不同类别下对应样本文本中不同分词词汇出现的次数,以得到不同类别下不同分词词汇的词汇次数,即得到了每个分词词汇在不同类别下出现的次数,例如,针对类别a1和类别a2,类别a1下设置有样本文本b1、样本文本b2和样本文本b3,类别a21下设置有样本文本b4,分别对样本文本b1、样本文本b2和样本文本b3进行分词,得到分词词汇集合e1,该分词词汇集合e1是样本文本b1、样本文本b2和样本文本b3进行分词后得到的分词词汇的集合,对样本文本b4进行分词,得到分词词汇集合e2,分别获取分词词汇集合e1中不同词汇在类别a1下出现的次数,得到词汇次数集合f1,分别获取分词词汇集合e2中不同词汇在类别a2下出现的次数,得到词汇次数集合f2。
步骤S12,根据所述词汇次数进行卡方检验计算,得到卡方检验得分,并根据所述卡方检验得分对所述分词词汇进行排序,得到不同所述类别对应的词汇排序表。
其中,根据该词汇次数集合中不同分词词汇对应的词汇次数进行卡方检验计算,以得到不同分词词汇对应的卡方检验得分,该卡方检验得分用于表征分词词汇与对应类别之间的关联度,即卡方检验得分越大,则该卡方检验得分对应的分词词汇与当前类别之间的关联度越大,例如,针对类别a1,分词词汇“篮球”对应的卡方检验得分为X1 2,分词词汇“杯子”对应的卡方检验得分为X2 2,且X1 2大于X2 2,则分词词汇“篮球”与类别a1之间的关联度大于分词词汇“杯子”与类别a1之间的关联度。
该步骤中,所述根据所述词汇次数进行卡方检验计算所采用的计算公式为:
Figure BDA0002760764490000101
Ai是第i个所述分词词汇的观察次数,Ei是第i个所述分词词汇的期望次数,n是第i个所述分词词汇的所述词汇次数,pi是第i个所述分词词汇的期望频率,X2是第i个所述分词词汇对应的所述卡方检验得分。
步骤S13,根据预设排序数量对所述词汇排序表进行词汇筛选,并将词汇筛选后的所述词汇排序表设置为对应所述类别下的所述特征词汇表。
其中,该预设排序数量可以根据需求进行设置,例如,该预设排序数量可以设置为100、200或1500等,当该预设排序数量为1500时,则保留该词汇排序表中排序在前1500的卡方检验得分对应的分词词汇,并将词汇排序表中其余的分词词汇进行删除,以得到对应类别下的特征词汇表。
可选的,该步骤中,还可以基于得分阈值对该词汇排序表进行词汇筛选,若词汇排序表中任一分词词汇对应的卡方检验得分小于得分阈值,则在该词汇排序表中删除对应的分词词汇,并将分词词汇删除后的词汇排序表设置为对应类别下的特征词汇表。
本实施例中,通过分别获取每个分词词汇在对应类别下出现的次数得到词汇次数,并根据词汇次数进行卡方检验计算,以计算不同分词词汇与对应类别之间的关联度,通过根据卡方检验得分对分词词汇进行排序得到不同类别对应的词汇排序表,并根据预设排序数量对词汇排序表进行词汇筛选,以删除该词汇排序表中与对应类别关联度较低的分词词汇,进而提高了特征词汇表设置的准确性,提高了样本文本与文本分类模型中目标类别之间词汇特征提取的准确性。
请参阅图4,图4是本申请另一实施例提供的一种文本分类模型训练方法的实现流程图。相对于图1对应的实施例,本实施例提供的文本分类模型训练方法是对图1对应的实施例中步骤S20的进一步细化,包括:
步骤S21,将所述样本文本输入所述文本分类模型中,并将所述文本分类模型中目标类别与不同所述类别进行匹配。
其中,通过将该文本分类模型中目标类别的类别名称分别与不同类别的类别名称进行匹配,以查询文本分类模型中目标类别与不同类别之间的相同类别。
步骤S22,根据匹配到的所述类别对应的所述特征词汇表对所述样本文本进行词汇提取,得到样本词汇。
其中,步骤S10获取到了不同类别对应的特征词汇表,因此,该步骤中,可直接获取到匹配到的类别对应的特征词汇表,并根据匹配到的类别对应的特征词汇表对样本文本进行词汇提取,能有效的获取到样本文本与文本分类模型中目标类别之间的样本词汇。
步骤S23,计算所述样本词汇在对应所述样本文本中的词频,并根据所述词频计算对应所述样本词汇的逆文档频率;
该步骤中,所述计算所述样本词汇在对应所述样本文本中的词频所采用的计算公式为:
TFa=S/Q
TFa是第a个样本词汇对应的词频,S是第a个样本词汇在样本文本中的出现次数,Q是样本文本的总词数。
所述根据所述词频计算对应所述样本词汇的逆文档频率所采用的计算公式为:
IDFa=log(H/(Da+1))
IDFa是第a个样本词汇对应的逆文档频率,H是样本词汇的总样本数,Da是包含第a个样本词汇的样本文本的文档数。
步骤S24,根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征,并根据所述词频频率特征对所述样本词汇进行排序,得到所述词汇特征。
该步骤中,所述根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征所采用的计算公式为:
TF-IDFa=TFa*IDFa
TF-IDFa是第a个样本词汇对应的词频频率特征(tf-idf特征)。
本实施例中,通过计算样本词汇在对应样本文本中的词频,根据词频计算对应样本词汇的逆文档频率,并根据逆文档频率和词频计算对应样本词汇的词频频率特征,以采用词频频率特征的方式表征该词汇特征,由于该词频频率特征为向量特征,因此,本实施例中采用向量特征的方式进行词汇特征的传输,有效的方便了词汇特征与文本特征之间的特征拼接。
在本申请的所有实施例中,基于文本拼接特征对训练得到收敛后的文本分类模型,具体来说,收敛后的文本分类模型由文本拼接特征对文本分类模型进行模型训练得到。将收敛后的文本分类模型上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该数收敛后的文本分类模型,以便查证收敛后的文本分类模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图5,图5是本申请实施例提供的一种文本分类模型训练装置100的结构框图。本实施例中该文本分类模型训练装置100包括的各单元用于执行图1、图3、图4对应的实施例中的各步骤。具体请参阅图1、图3、图4以及图1、图3、图4所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图5,文本分类模型训练装置100包括:特征词汇表构建单元10、词汇特征提取单元11、特征拼接单元12和模型训练单元13,其中:
特征词汇表构建单元10,用于对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,所述特征词汇表包括不同所述类别之间的关键词。
其中,特征词汇表构建单元10还用于:对所述样本文本进行分词,得到分词词汇,并分别获取每个所述分词词汇在对应所述类别下出现的次数,得到词汇次数;
根据所述词汇次数进行卡方检验计算,得到卡方检验得分,并根据所述卡方检验得分对所述分词词汇进行排序,得到不同所述类别对应的词汇排序表;
根据预设排序数量对所述词汇排序表进行词汇筛选,并将词汇筛选后的所述词汇排序表设置为对应所述类别下的所述特征词汇表。
可选的,所述根据所述词汇次数进行卡方检验计算所采用的计算公式为:
Figure BDA0002760764490000131
Ai是第i个所述分词词汇的观察次数,Ei是第i个所述分词词汇的期望次数,n是第i个所述分词词汇的所述词汇次数,pi是第i个所述分词词汇的期望频率,X2是第i个所述分词词汇对应的所述卡方检验得分。
词汇特征提取单元11,用于根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,所述词汇特征为所述样本文本与文本分类模型中目标类别之间的关键词特征。
其中,词汇特征提取单元11还用于:将所述样本文本输入所述文本分类模型中,并将所述文本分类模型中目标类别与不同所述类别进行匹配;
根据匹配到的所述类别对应的所述特征词汇表对所述样本文本进行词汇提取,得到样本词汇;
计算所述样本词汇在对应所述样本文本中的词频,并根据所述词频计算对应所述样本词汇的逆文档频率;
根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征,并根据所述词频频率特征对所述样本词汇进行排序,得到所述词汇特征。
可选的,所述计算所述样本词汇在对应所述样本文本中的词频所采用的计算公式为:
TFa=S/Q
TFa是第a个所述样本词汇对应的所述词频,S是第a个所述样本词汇在所述样本文本中的出现次数,Q是所述样本文本的总词数。
所述根据所述词频计算对应所述样本词汇的逆文档频率所采用的计算公式为:
IDFa=log(H/(Da+1))
IDFa是第a个所述样本词汇对应的所述逆文档频率,H是所述样本词汇的总样本数,Da是包含第a个所述样本词汇的所述样本文本的文档数;
所述根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征所采用的计算公式为:
TF-IDFa=TFa*IDFa
TF-IDFa是第a个所述样本词汇对应的所述词频频率特征。
特征拼接单元12,用于对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征。
其中,特征拼接单元12还用于:将所述样本文本输入所述文本分类模型中的卷积神经网络,并根据所述卷积神经网络中的卷积层对所述样本文本进行特征提取;
根据所述卷积神经网络中的池化层对所述卷积层提取到的特征进行特征拼接,得到所述文本特征;
根据所述文本分类模型中的全连接层对所述文本特征和所述词汇特征进行向量组合,得到所述文本拼接特征。
模型训练单元13,用于根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
其中,模型训练单元13还用于:根据所述文本分类模型中对所述文本拼接特征进行分类预测,并根据分类预测结果计算所述文本分类模型的模型损失值;
根据所述模型损失值对所述全连接层、所述卷积层和所述池化层进行权值更新;
若所述文本分类模型的模型损失值小于损失阈值,则判定所述文本分类模型收敛。
以上可以看出,由于卡方检验能有效的检验到样本文本与不同类别之间的关键词,因此,通过对样本文本进行卡方检验得到特征词汇表,并根据特征词汇表对样本文本进行特征提取,能有效的提取到不同类别下能表征样本文本的关键词,基于样本文本与不同类别之间的关键词,能有效的提取到样本文本与文本分类模型中目标类别之间的词汇特征,由于文本分类模型的模型训练是基于文本拼接特征,而文本拼接特征包括文本特征和词汇特征,也即由于文本分类模型训练时的特征更多,提高了文本分类模型学习到的特征,使得基于文本拼接特征进行模型训练后的文本分类模型分类准确性高。
图6是本申请另一实施例提供的一种终端设备2的结构框图。如图6所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如文本分类模型训练方法的程序。处理器20执行所述计算机程序23时实现上述各个文本分类模型训练方法各实施例中的步骤,例如图1所示的S10至S40,或者图3所示的S11至S13,或者图4所示的S21至S24。或者,所述处理器20执行所述计算机程序22时实现上述图5对应的实施例中各单元的功能,例如,图5所示的单元10至13的功能,具体请参阅图6对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成特征词汇表构建单元10、词汇特征提取单元11、特征拼接单元12和模型训练单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图6仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本分类模型训练方法,其特征在于,包括:
对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,所述特征词汇表包括不同所述类别之间的关键词;
根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,所述词汇特征为所述样本文本与所述文本分类模型中目标类别之间的关键词特征;
对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征;
根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
2.根据权利要求1所述的文本分类模型训练方法,其特征在于,所述对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,包括:
对所述样本文本进行分词,得到分词词汇,并分别获取每个所述分词词汇在不同所述类别下出现的次数,得到词汇次数;
根据所述词汇次数进行卡方检验计算,得到卡方检验得分,并根据所述卡方检验得分对所述分词词汇进行排序,得到不同所述类别对应的词汇排序表;
根据预设排序数量对所述词汇排序表进行词汇筛选,并将词汇筛选后的所述词汇排序表设置为对应所述类别下的所述特征词汇表。
3.根据权利要求2所述的文本分类模型训练方法,其特征在于,所述根据所述词汇次数进行卡方检验计算所采用的计算公式为:
Figure FDA0002760764480000011
Ai是第i个所述分词词汇的观察次数,Ei是第i个所述分词词汇的期望次数,n是第i个所述分词词汇的所述词汇次数,pi是第i个所述分词词汇的期望频率,X2是第i个所述分词词汇对应的所述卡方检验得分。
4.根据权利要求1所述的文本分类模型训练方法,其特征在于,所述根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,包括:
将所述样本文本输入所述文本分类模型中,并将所述文本分类模型中目标类别与不同所述类别进行匹配;
根据匹配到的所述类别对应的所述特征词汇表对所述样本文本进行词汇提取,得到样本词汇;
计算所述样本词汇在对应所述样本文本中的词频,并根据所述词频计算对应所述样本词汇的逆文档频率;
根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征,并根据所述词频频率特征对所述样本词汇进行排序,得到所述词汇特征。
5.根据权利要求4所述的文本分类模型训练方法,其特征在于,所述计算所述样本词汇在对应所述样本文本中的词频所采用的计算公式为:
TFa=S/Q
TFa是第a个所述样本词汇对应的所述词频,S是第a个所述样本词汇在所述样本文本中的出现次数,Q是所述样本文本的总词数;
所述根据所述词频计算对应所述样本词汇的逆文档频率所采用的计算公式为:
IDFa=log(H/(Da+1))
IDFa是第a个所述样本词汇对应的所述逆文档频率,H是所述样本词汇的总样本数,Da是包含第a个所述样本词汇的所述样本文本的文档数;
所述根据所述逆文档频率和所述词频计算对应所述样本词汇的词频频率特征所采用的计算公式为:
TF-IDFa=TFa*IDFa
TF-IDFa是第a个所述样本词汇对应的所述词频频率特征。
6.根据权利要求1所述的文本分类模型训练方法,其特征在于,所述对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征,包括:
将所述样本文本输入所述文本分类模型中的卷积神经网络,并根据所述卷积神经网络中的卷积层对所述样本文本进行特征提取;
根据所述卷积神经网络中的池化层对所述卷积层提取到的特征进行特征拼接,得到所述文本特征;
根据所述文本分类模型中的全连接层对所述文本特征和所述词汇特征进行向量组合,得到所述文本拼接特征。
7.根据权利要求6所述的文本分类模型训练方法,其特征在于,所述根据所述文本拼接特征对所述文本分类模型进行模型训练,包括:
根据所述文本分类模型中对所述文本拼接特征进行分类预测,并根据分类预测结果计算所述文本分类模型的模型损失值;
根据所述模型损失值对所述全连接层、所述卷积层和所述池化层进行权值更新;
若所述文本分类模型的模型损失值小于损失阈值,则判定所述文本分类模型收敛。
8.一种文本分类模型训练装置,其特征在于,包括:
特征词汇表构建单元,用于对样本文本进行卡方检验,并根据卡方检验结果构建不同类别下的特征词汇表,所述特征词汇表包括不同所述类别之间的关键词;
词汇特征提取单元,用于根据所述特征词汇表提取所述样本文本与文本分类模型之间的特征,得到词汇特征,所述词汇特征为所述样本文本与文本分类模型中目标类别之间的关键词特征;
特征拼接单元,用于对所述样本文本进行文本特征提取,得到文本特征,并对所述文本特征和所述词汇特征进行特征拼接,得到文本拼接特征;
模型训练单元,用于根据所述文本拼接特征对所述文本分类模型进行模型训练,直至所述文本分类模型收敛。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202011217113.9A 2020-11-04 2020-11-04 文本分类模型训练方法、装置、终端设备及存储介质 Active CN112328787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011217113.9A CN112328787B (zh) 2020-11-04 2020-11-04 文本分类模型训练方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011217113.9A CN112328787B (zh) 2020-11-04 2020-11-04 文本分类模型训练方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328787A true CN112328787A (zh) 2021-02-05
CN112328787B CN112328787B (zh) 2024-02-20

Family

ID=74323764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011217113.9A Active CN112328787B (zh) 2020-11-04 2020-11-04 文本分类模型训练方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328787B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358539A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110688481A (zh) * 2019-09-02 2020-01-14 贵州航天计量测试技术研究所 一种基于卡方统计量和idf的文本分类特征选取方法
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358539A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110688481A (zh) * 2019-09-02 2020-01-14 贵州航天计量测试技术研究所 一种基于卡方统计量和idf的文本分类特征选取方法
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质

Also Published As

Publication number Publication date
CN112328787B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Bruni et al. Distributional semantics from text and images
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN111177375B (zh) 一种电子文档分类方法及装置
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN107729917A (zh) 一种标题的分类方法及装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN110019776A (zh) 文章分类方法及装置、存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN110781673A (zh) 文档验收方法、装置、计算机设备及存储介质
CN112052154A (zh) 一种测试用例的处理方法、装置
CN112163090A (zh) 一种法律裁判文书的案由分类方法和终端
CN111241271A (zh) 文本情感分类方法、装置及电子设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114281983B (zh) 分层结构的文本分类方法、系统、电子设备和存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN107908649B (zh) 一种文本分类的控制方法
CN109325099A (zh) 一种自动检索的方法和装置
CN111611781B (zh) 数据标注方法、问答方法、装置及电子设备
Viggiato et al. Leveraging the OPT Large Language Model for Sentiment Analysis of Game Reviews
CN112417147A (zh) 训练样本的选取方法与装置
CN114202038B (zh) 一种基于dbm深度学习的众包缺陷分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant