CN115982349A - 一种基于改进tf-idf的客户用电安全智能分类方法 - Google Patents
一种基于改进tf-idf的客户用电安全智能分类方法 Download PDFInfo
- Publication number
- CN115982349A CN115982349A CN202211525623.1A CN202211525623A CN115982349A CN 115982349 A CN115982349 A CN 115982349A CN 202211525623 A CN202211525623 A CN 202211525623A CN 115982349 A CN115982349 A CN 115982349A
- Authority
- CN
- China
- Prior art keywords
- idf
- word
- text
- model
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于改进TF‑IDF的客户用电安全智能分类方法,包括如下步骤:①预处理:将用检工单中的文本内容分为多个类别,并预处理为隐患内容文本数据集;②计算权重:通过改进TF‑IDF方法计算每一个词语的权重;③矩阵化;④建表;⑤生成表示向量;⑥分类;⑦验证。本发明通过提出针对于文本分类的改进TF‑IDF,并与word2vec词向量结合,既能保留语义又可以体现词语的重要性,在输入层和卷积层之间引入了注意力机制,利用注意力机制处理文本向量得到注意力矩阵,具有良好的泛化能力,可以达到更好的分类结果。
Description
技术领域
本发明涉及一种基于改进TF-IDF的客户用电安全智能分类方法。
背景技术
当前,在文本分类任务中,深度学习的兴起,解决了传统机器学习分类方法人工成本高、适用性差以及分类精度低等问题,但其仍有不足之处。传统的TF-IDF算法没有重视类别区分度高的特征项,如果特征项均匀分布在某一类文档中,说明这个特征项更能代表类中文档主题;如果特征项只分布在某一类的一个文档中,说明这个特征项不具有普遍性,不能代表这个类中文档主题。而传统的TF-IDF算法忽略了这一点,传统的TF-IDF算法未考虑特征项的位置因素,特征项在一篇文档中首次出现的位置、最后出现的位置也包含很多有效信息,通过提取首尾特征项位置相关信息可以反应特征项在文档中的出现范围,更加准确地表示特征项的重要程度。
典型如申请号为CN202110200765.X的中国发明专利公开的一种基于自然语言处理的单细胞相关技术数据分析方法,未考虑特征项的位置因素,难以足够准确地表示特征项的重要程度。
发明内容
为解决上述技术问题,本发明提供了一种基于改进TF-IDF的客户用电安全智能分类方法,该基于改进TF-IDF的客户用电安全智能分类方法通过提出针对于文本分类的改进TF-IDF,并与word2vec词向量结合,既能保留语义又可以体现词语的重要性。
本发明通过以下技术方案得以实现。
本发明提供的一种基于改进TF-IDF的客户用电安全智能分类方法,包括如下步骤:
①预处理:将用检工单中的文本内容分为多个类别,并预处理为隐患内容文本数据集;
②计算权重:通过改进TF-IDF方法计算每一个词语的权重;
③矩阵化:用word2vec模型将原始文本转换为向量矩阵;
④建表:基于向量矩阵建立词汇-索引映射表,并和训练的词向量文件进行组合形成.npz文件;
⑤生成表示向量:将训练数据集中的每个词语用词向量表示,并拼接生成文本表示向量;
⑥分类:以文本表示向量作为输入,用卷积神经网络分类模型进行文本分类;
⑦验证:在验证集上运用准确率和F1值作为评估指标,验证模型的有效性。
所述步骤①中,将每一个类别作为一个整体进行非结构化处理后,再进行预处理。
所述步骤①中,预处理包括:
1)分词:对用检工单中的每一类的隐患内容进行分词处理,对文本内容进行分词之后,将长文本内容划分为词级的单元;
2)去停用词:对用检工单中的隐患内容的分词结果进行进一步处理,将其中重要程度低的词去掉,筛选出对文本分类结果重要性高的关键词;
3)划分数据集:对预处理之后的数据集进行数据集划分,将其划分为训练集、验证集以及测试集,比例为7:2:1。
所述改进TF-IDF方法是TF-IDF-ICP,在TF-IDF的基础上引入类内因子InterC和词距离因子DS,计算公式为:
TF-IDF-ICP=TFi*IDFi*inteCi*DSi
式中,TF为平均词频,IDF为逆向文件频率。
所述TF-IDF-ICP的具体计算步骤为:
1)计算类内因子,首先统计某一类j中特征项i在文档d中出现的次数,进而计算特征项i在类别j的标准差,最后对标准差求倒数表示特征项在类内的分布均匀程度;
2)计算词距离因子,统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差,然后求差与特征项个数的比值;
3)计算特征项在文档中的平均词频TF,即统计特征项i在类别j所包含文档中出现的总次数;
4)计算逆向文件频率IDF,由总文件数除以包含该词语的文件的数目,再将得到的商取对数得到;
5)将以上计算的类内因子,词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP。
所述步骤③之后,还包括步骤:
结合:将所述步骤②中得到的每一个词语的权重,和所述步骤③中得到的向量矩阵,相结合形成词嵌入。
所述卷积神经网络分类模型,在卷积层之前和卷积层之后,均引入注意力机制。
所述步骤⑦之后,还包括步骤:
后处理:基于验证结果,评估模型是否达到预期模型效果,若达到,则进行后续的模型预测,若未达到,则通过调整指标体系和调整模型参数的操作对模型进行调优处理。
所述模型预测,具体为:在测试集上运用训练模型结果对测试集数据进行文本类型分类预测,获取最后的客户用电安全智能分类结果集。
所述调整指标体系和调整模型参数,分别为:
调整指标体系:根据现有的指标,通过业务专家经验或者统计学统计方法计算衍生变量,丰富指标体系,提供更多的对目标变量具有重要影响的变量,提高模型的准确率;
调整模型参数:通过调整模型参数的数值组合,根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值。
本发明的有益效果在于:通过提出针对于文本分类的改进TF-IDF,并与word2vec词向量结合,既能保留语义又可以体现词语的重要性,在输入层和卷积层之间引入了注意力机制,利用注意力机制处理文本向量得到注意力矩阵,具有良好的泛化能力,可以达到更好的分类结果。
附图说明
图1是本发明至少一种实施方式的流程示意图;
图2是本发明中计算特征项权重的至少一种实施方式的流程示意图;
图3是本发明中卷积神经网络分类模型的模型结构示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
实施例1
如图1~3所示的一种基于改进TF-IDF的客户用电安全智能分类方法,包括如下步骤:
①预处理:将用检工单中的文本内容分为多个类别,并预处理为隐患内容文本数据集;
②计算权重:通过改进TF-IDF方法计算每一个词语的权重;
③矩阵化:用word2vec模型将原始文本转换为向量矩阵;
④建表:基于向量矩阵建立词汇-索引映射表,并和训练的词向量文件进行组合形成.npz文件;
⑤生成表示向量:将训练数据集中的每个词语用词向量表示,并拼接生成文本表示向量;
⑥分类:以文本表示向量作为输入,用卷积神经网络分类模型进行文本分类;
⑦验证:在验证集上运用准确率和F1值作为评估指标,验证模型的有效性。
实施例2
基于实施例1,所述步骤①中,将每一个类别作为一个整体进行非结构化处理后,再进行预处理。
实施例3
基于实施例1,所述步骤①中,预处理包括:
1)分词:对用检工单中的每一类的隐患内容进行分词处理,对文本内容进行分词之后,将长文本内容划分为词级的单元;
2)去停用词:对用检工单中的隐患内容的分词结果进行进一步处理,将其中重要程度低的词去掉,筛选出对文本分类结果重要性高的关键词;
3)划分数据集:对预处理之后的数据集进行数据集划分,将其划分为训练集、验证集以及测试集,比例为7:2:1。
实施例4
基于实施例1,所述改进TF-IDF方法是TF-IDF-ICP,在TF-IDF的基础上引入类内因子InterC和词距离因子DS,计算公式为:
TF-IDF-ICP=TFi*IDFi*inteCi*DSi
式中,TF为平均词频,IDF为逆向文件频率。
实施例5
基于实施例4,所述TF-IDF-ICP的具体计算步骤为:
1)计算类内因子,首先统计某一类j中特征项i在文档d中出现的次数,进而计算特征项i在类别j的标准差,最后对标准差求倒数表示特征项在类内的分布均匀程度;
2)计算词距离因子,统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差,然后求差与特征项个数的比值;
3)计算特征项在文档中的平均词频TF,即统计特征项i在类别j所包含文档中出现的总次数;
4)计算逆向文件频率IDF,由总文件数除以包含该词语的文件的数目,再将得到的商取对数得到;
5)将以上计算的类内因子,词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP。
实施例6
基于实施例1,所述步骤③之后,还包括步骤:
结合:将所述步骤②中得到的每一个词语的权重,和所述步骤③中得到的向量矩阵,相结合形成词嵌入。
实施例7
基于实施例1,所述卷积神经网络分类模型,在卷积层之前和卷积层之后,均引入注意力机制。
实施例8
基于实施例1,所述步骤⑦之后,还包括步骤:
后处理:基于验证结果,评估模型是否达到预期模型效果,若达到,则进行后续的模型预测,若未达到,则通过调整指标体系和调整模型参数的操作对模型进行调优处理。
实施例9
基于实施例8,所述模型预测,具体为:在测试集上运用训练模型结果对测试集数据进行文本类型分类预测,获取最后的客户用电安全智能分类结果集。
实施例10
基于实施例8,所述调整指标体系和调整模型参数,分别为:
调整指标体系:根据现有的指标,通过业务专家经验或者统计学统计方法计算衍生变量,丰富指标体系,提供更多的对目标变量具有重要影响的变量,提高模型的准确率;
调整模型参数:通过调整模型参数的数值组合,根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值。
实施例11
基于上述实施例,具体包括以下步骤:
步骤一、对用检工单中的文本内容分为若干类别,将每一个类作为一个整体进行非结构化处理,预处理隐患内容文本数据集,如分词、去停用词等;
1)分词:对用检工单中的每一类的隐患内容进行分词处理,对文本内容进行分词之后,将长文本内容划分为词级的单元;
2)去停用词:对用检工单中的隐患内容的分词结果进行进一步处理,将其中重要程度低的词去掉,筛选出对文本分类结果重要性高的关键词;
3)对预处理之后的数据集进行数据集划分,将其划分为训练集、验证集以及测试集,比例为7:2:1;
步骤二、通过改进的TF-IDF方法TF-IDF-ICP计算每一个词语的权重,这一方法在传统TF-IDF的基础上引入类内因子InterC和词距离因子DS来优化传统方法的缺陷,计算方式如下所示:
TF-IDF-ICP=TFi*IDFi*inteCi*DSi
1)计算类内因子,首先统计某一类j中特征项i在文档d中出现的次数,进而计算特征项i在类别j的标准差,最后对标准差求倒数表示特征项在类内的分布均匀程度;
2)计算词距离因子,统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差,然后求差与特征项个数的比值;
3)计算特征项在文档中的平均词频TF,即统计特征项i在类别j所包含文档中出现的总次数;
4)计算逆向文件频率IDF,由总文件数除以包含该词语的文件的数目,再将得到的商取对数得到;
5)将以上计算的类内因子,词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP;
步骤三、运用word2vec模型将原始文本转换为向量矩阵;
步骤四、基于改进的TF-IDF算法TF-IDF-ICP计算的每个词语的权重与word2vec模型转换的词向量进行结合形成词嵌入,既可保留语义又可体现词语的重要性;
步骤五、词向量模型训练完成后是以字典形式存在的,键是词语,值是这个词的词向量,为了方便模型词向量的查询,需要建立词汇-索引映射表,然后和训练的词向量文件进行组合形成.npz文件;
步骤六、利用改进TF-IDF算法和word2vec模型训练形成的词嵌入层,然后将训练数据集中的每个词语用词向量表示,并拼接生成文本表示向量,将拼接生成的文本表示向量作为基于注意力机制的卷积神经网络分类模型的输入;
步骤七、在输入层和卷积层之间引入了注意力机制,利用注意力机制处理文本向量得到的注意力矩阵,提高文本中重要词语的权重进而增加这些词语对文本分类的影响力,同时减小不重要词语的权重,降低不重要词语对文本分类的影响;
1)初始化向量q,w,b;
2)计算v,其中打分函数为为加代模型v=tanh(wx+b);
3)计算相似度匹配得分,exps=vq;
4)归一化获得权重系数,计算公式为a=exps/sum(exps);
5)将权重系数和输入序列加权求和获得attention数值;
步骤八、将经过注意力层的文本向量输入至卷积层,卷积层之后再次引入注意力机制,然后进行池化操作,池化操作是一种特殊的卷积操作,进一步降低模型的复杂程度,使用不同尺寸的卷积核卷积池化后得到特征向量进行拼接,提取局部特征,最后通过softmax层得到文本的分类结果;
步骤七、在验证集上运用准确率(Accuracy,acc)和F1值作为评估指标,验证模型的有效性,公式如下所示:
其中n为类别数,acci为各类别准确率,F1i为各类别F1值;
步骤八、针对验证集验证结果,评估模型是否达到预期模型效果,若达到,则进行下一步模型预测,若未达到,则通过调整指标体系和模型参数等对模型的调优处理,
1)调整指标体系:根据现有的指标,通过业务专家经验或者统计学统计方法计算衍生变量,丰富指标体系,提供更多的对目标变量具有重要影响的变量,提高模型的准确率;
2)调整模型参数:通过调整模型参数的数值组合,根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值;
步骤九、在测试集上运用训练模型结果对测试集数据进行文本类型分类预测。
由此,本发明针对用电检查执行过程中形成的包含具体检查内容与结果等非结构化的文本数据,结合深度学习算法,研究用电检查工单文本解析技术,依托自然语言处理技术、改进TF-IDF算法计算每个词语的权重并与word2vec词向量结合,既能保留语义又可以体现词语的重要性,并拼接生成文本表示向量。将拼接生成的文本表示向量作为基于注意力机制的卷积神经网络文本分类模型的输入,在输入层和卷积层之间引入了注意力机制,利用注意力机制处理文本向量得到注意力矩阵,提高文本中重要词语的权重进而增加这些词语对文本分类的影响力,同时可以减小不重要词语的权重,降低不重要词语对文本分类的影响,实现客户用电安全智能分类。
Claims (10)
1.一种基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:包括如下步骤:
①预处理:将用检工单中的文本内容分为多个类别,并预处理为隐患内容文本数据集;
②计算权重:通过改进TF-IDF方法计算每一个词语的权重;
③矩阵化:用word2vec模型将原始文本转换为向量矩阵;
④建表:基于向量矩阵建立词汇-索引映射表,并和训练的词向量文件进行组合形成.npz文件;
⑤生成表示向量:将训练数据集中的每个词语用词向量表示,并拼接生成文本表示向量;
⑥分类:以文本表示向量作为输入,用卷积神经网络分类模型进行文本分类;
⑦验证:在验证集上运用准确率和F1值作为评估指标,验证模型的有效性。
2.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述步骤①中,将每一个类别作为一个整体进行非结构化处理后,再进行预处理。
3.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述步骤①中,预处理包括:
1)分词:对用检工单中的每一类的隐患内容进行分词处理,对文本内容进行分词之后,将长文本内容划分为词级的单元;
2)去停用词:对用检工单中的隐患内容的分词结果进行进一步
处理,将其中重要程度低的词去掉,筛选出对文本分类结果重要性高的关键词;
3)划分数据集:对预处理之后的数据集进行数据集划分,将其划分为训练集、验证集以及测试集,比例为7:2:1。
4.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述改进TF-IDF方法是TF-IDF-ICP,在TF-IDF的基础上引入类内因子InterC和词距离因子DS,计算公式为:
TF-IDF-ICP=TFi*IDFi*inteCi*DSi
式中,TF为平均词频,IDF为逆向文件频率。
5.如权利要求4所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述TF-IDF-ICP的具体计算步骤为:
1)计算类内因子,首先统计某一类j中特征项i在文档d中出现的次数,进而计算特征项i在类别j的标准差,最后对标准差求倒数表示特征项在类内的分布均匀程度;
2)计算词距离因子,统计文本中特征项个数并求出特征词最后出现和首次出现的位置序号之差,然后求差与特征项个数的比值;
3)计算特征项在文档中的平均词频TF,即统计特征项i在类别j所包含文档中出现的总次数;
4)计算逆向文件频率IDF,由总文件数除以包含该词语的文件的数目,再将得到的商取对数得到;
5)将以上计算的类内因子,词距离因子、词频和逆词频数值相乘获得特征项权重TF-IDF-ICP。
6.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述步骤③之后,还包括步骤:
结合:将所述步骤②中得到的每一个词语的权重,和所述步骤③中得到的向量矩阵,相结合形成词嵌入。
7.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述卷积神经网络分类模型,在卷积层之前和卷积层之后,均引入注意力机制。
8.如权利要求1所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述步骤⑦之后,还包括步骤:
后处理:基于验证结果,评估模型是否达到预期模型效果,若达到,则进行后续的模型预测,若未达到,则通过调整指标体系和调整模型参数的操作对模型进行调优处理。
9.如权利要求8所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述模型预测,具体为:在测试集上运用训练模型结果对测试集数据进行文本类型分类预测,获取最后的客户用电安全智能分类结果集。
10.如权利要求8所述的基于改进TF-IDF的客户用电安全智能分类方法,其特征在于:所述调整指标体系和调整模型参数,分别为:
调整指标体系:根据现有的指标,通过业务专家经验或者统计学统计方法计算衍生变量,丰富指标体系,提供更多的对目标变量具有重要影响的变量,提高模型的准确率;
调整模型参数:通过调整模型参数的数值组合,根据现有的指标体系以及数据量大小选取最优的模型参数个数以及参数数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525623.1A CN115982349A (zh) | 2022-11-30 | 2022-11-30 | 一种基于改进tf-idf的客户用电安全智能分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525623.1A CN115982349A (zh) | 2022-11-30 | 2022-11-30 | 一种基于改进tf-idf的客户用电安全智能分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982349A true CN115982349A (zh) | 2023-04-18 |
Family
ID=85963730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211525623.1A Pending CN115982349A (zh) | 2022-11-30 | 2022-11-30 | 一种基于改进tf-idf的客户用电安全智能分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982349A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932072A (zh) * | 2024-03-20 | 2024-04-26 | 华南理工大学 | 一种基于特征向量稀疏性的文本分类方法 |
-
2022
- 2022-11-30 CN CN202211525623.1A patent/CN115982349A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932072A (zh) * | 2024-03-20 | 2024-04-26 | 华南理工大学 | 一种基于特征向量稀疏性的文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948165B (zh) | 基于混合注意力网络的细粒度情感极性预测方法 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN109472024A (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN110750645B (zh) | 基于对抗训练的跨领域虚假评论识别方法 | |
CN108595602A (zh) | 基于浅层模型与深度模型结合的问句文本分类方法 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN111309871B (zh) | 一种基于文本语义分析需求与输出成果之间匹配度的方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
US20220319233A1 (en) | Expression recognition method and apparatus, electronic device, and storage medium | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN112215696A (zh) | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
CN115982349A (zh) | 一种基于改进tf-idf的客户用电安全智能分类方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN116956940A (zh) | 一种基于多向式遍历与提示学习的文本事件抽取方法 | |
Bouman et al. | Multispectral image segmentation using a multiscale model | |
CN106844596A (zh) | 一种基于改进的svm中文文本分类方法 | |
CN111488448B (zh) | 一种机器阅读标注数据的生成方法和装置 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
Sufikarimi et al. | Speed up biological inspired object recognition, HMAX | |
CN114880465A (zh) | 基于粒子群算法优化正则化极限学习机的文本情感分析方法 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |