CN113657106A - 基于归一化词频权重的特征选择方法 - Google Patents

基于归一化词频权重的特征选择方法 Download PDF

Info

Publication number
CN113657106A
CN113657106A CN202110758265.8A CN202110758265A CN113657106A CN 113657106 A CN113657106 A CN 113657106A CN 202110758265 A CN202110758265 A CN 202110758265A CN 113657106 A CN113657106 A CN 113657106A
Authority
CN
China
Prior art keywords
feature
word
class
documents
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110758265.8A
Other languages
English (en)
Other versions
CN113657106B (zh
Inventor
周红芳
李想
王晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
It's Also A Pleasure For Youpeng Beijing Technology Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110758265.8A priority Critical patent/CN113657106B/zh
Publication of CN113657106A publication Critical patent/CN113657106A/zh
Application granted granted Critical
Publication of CN113657106B publication Critical patent/CN113657106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于归一化词频权重的特征选择方法,提取特征词在每篇文档中的词频并使用对率函数对其进行归一化处理,实现文档频率层面的词频加权。与此同时,本发明使用反正切归一化方法对MMR算法中最大最小比率部分进行处理,避免出现全局得分过大、与特征词的实际类别分辨能力不符的问题。实验结果显示本发明性能良好,提高了学习算法的执行效率以及分类结果的正确率,是可靠的特征选择算法。

Description

基于归一化词频权重的特征选择方法
技术领域
本发明属于应用自然语言处理技术领域,涉及基于归一化词频权重的特征选择方法。
背景技术
随着信息化技术的不断更新,大量非结构化文本数据在网络上涌现。如何在混杂的数据中提取有价值的信息成为人们关注的焦点。仅仅依赖传统的人工方法处理海量数据不仅效率低下,同时耗费大量的人力、物力和财力,造成资源的浪费。自动文本分类技术的应用很好地解决了上述问题,它将数据集中的每一篇文档进行类别的划分,使人们从中获取有价值的信息,筛选掉无用信息,提高了信息处理的效率。
由于文本类型数据的特征空间维数常常达到几千甚至上万数量级,其中含有大量不相关以及冗余特征,严重影响着分类的效率与准确率,因此在分类前完成特征选择是必要的。特征选择根据一定的判别准则,通过选取与类别高度相关且具有较低冗余性的特征,加快数据挖掘算法的执行效率,提高了分类算法的性能。特征选择通常分为四种类型:过滤式、包装式、嵌入式以及混合式。过滤式特征选择算法使用独立的评价函数,由于其完全独立于机器学习算法,具有低成本、高效率的计算特点,常常应用于自动文本分类中。
大部分过滤式特征选择算法基于文档频率来评估特征词所携带的分类信息量的大小,却忽略了词频(即特征词在一篇文档中具体出现的次数)的影响。基于最大最小比率度量的特征选择算法(MMR)是经典的基于文档频率的算法,尽管拥有较好的对具有高相关性的特征词的筛选能力,却忽略了词频所带来的微观层面的影响。
发明内容
本发明的目的是提供一种基于归一化词频权重的特征选择方法,具有不仅考虑特征词在对应类别中出现的文档数量,同时考虑其在一篇文档内出现的具体次数即词频所带来的影响,最终选择出与类别相关性更大的特征词的特点。
本发明所采用的技术方案是,基于归一化词频权重的特征选择方法,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行预处理并划分训练集和测试集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。
本发明的特点还在于:
步骤1中预处理为剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除;划分数据集采用十折交叉验证法。
步骤2具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,完成对训练集和测试集数据的降维操作。
步骤2.1具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
Figure BDA0003148056490000031
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
Figure BDA0003148056490000041
Figure BDA0003148056490000042
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti
Figure BDA0003148056490000043
类中的加权假正率wfpr,
Figure BDA0003148056490000044
Figure BDA0003148056490000045
其中,
Figure BDA0003148056490000046
用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时
Figure BDA0003148056490000047
为1,反之为0。
步骤2.2具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
Figure BDA0003148056490000048
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
Figure BDA0003148056490000051
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量。
步骤2.3具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
Figure BDA0003148056490000052
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,atanfac值为1。
步骤2.5中对训练集文档和测试集文档进行处理,具体为,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词。
本发明的有益效果是:本发明基于归一化词频权重的特征选择方法在计算特征词的重要性时将特征词在每篇文档中出现的次数考虑在内,使用对率函数对特征词在每篇文档中的词频进行归一化处理,避免出现数值过大影响全局得分的情况。除此之外,由于本发明是基于MMR算法进行改进的,本发明使用反正切归一化方法对最大最小比率部分进行处理,解决了当min(wtpr,wfpr)无限接近0时造成整个比值过大,进而导致全局得分过大,与特征词的实际类别辨别能力不符的问题。本发明可以准确地评估特征词的类别分辨能力,与原有算法相比较性能有一定程度的提高。
附图说明
图1是本发明基于归一化词频权重的特征选择方法的流程图;
图2a-图2d是本发明基于归一化词频权重的特征选择方法与现有技术在K1a数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图3a-图3d是本发明与现有技术在R8数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图4a-图4d是本发明与现有技术在RE1数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图5a-图5d是本发明与现有技术在RE0数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图6a-图6d是本发明与现有技术在WAP数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于归一化词频权重的特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除,并采用十折交叉验证法处理未划分训练集和测试集的数据集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
Figure BDA0003148056490000071
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
Figure BDA0003148056490000081
Figure BDA0003148056490000082
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti
Figure BDA0003148056490000083
类中的加权假正率wfpr,
Figure BDA0003148056490000084
Figure BDA0003148056490000085
其中,
Figure BDA0003148056490000086
用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时
Figure BDA0003148056490000087
为1,反之为0;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski;具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
Figure BDA0003148056490000091
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
Figure BDA0003148056490000092
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量;
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
Figure BDA0003148056490000093
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,AtanfAc值为1;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词,完成对训练集和测试集数据的降维操作;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估,Macro-F1和Micro-F1分数越高,则证明分类的效果越好,进而证明特征选择算法性能越好。
在对比实验中,使用K1a、R8、RE1、RE0、WAP五种数据集进行测试。其中,K1a,RE1,RE0,WAP是从明尼苏达大学Karypis实验室获取的文本类型数据集,R8由经典的文本类型数据集Reuters21578经过处理后获得,其中包含大量的经济新闻。
为了验证基于归一化词频权重的特征选择算法的性能,将本发明与最大最小比率(MMR)、卡方检验(CHI)、基尼系数(GINI)、泊松偏离度测量(DP)、信息增益(IG)、词频逆文档频率(TFIDF)六种算法进行对比。从图2a-图2d可以看到,在K1a数据集上,本发明的性能表现在超过半数的对比点处均优于对比算法,取得较好的Macro-F1、Micro-F1得分。从图3a-图3d可以看到在R8数据集上,当使用Macro-F1指标进行度量时,本发明在较低维度范围取得最高值,在高维度范围内性能不如其它算法。当使用Micro-F1指标进行度量时,本发明在多个对比点处表现较差,仅在4个对比点处取得最高得分。从图4a-图4d可以看出对于RE1数据集,本发明在低维度范围取得最高的Macro-F1得分,而在高维度点上表现不如其他算法,对于Micro-F1而言,本发明均在50到200维度范围内取得最高值。从图5a-图5d可以看到在RE0数据集上,本发明在大部分对比点处均取得最大值,当使用NB分类器时,本发明的Micro-F1得分不如其它算法。从图6a-图6d可以看到对于WAP数据集,本发明的整体性能稳定,在多数对比点处性能均优于其它对比算法。

Claims (7)

1.基于归一化词频权重的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行预处理并划分出训练集和测试集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。
2.根据权利要求1所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤1中预处理为剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除;划分数据集采用十折交叉验证法。
3.根据权利要求1所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,完成对训练集和测试集数据的降维操作。
4.根据权利要求3所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2.1具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
Figure FDA0003148056480000021
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
Figure FDA0003148056480000022
Figure FDA0003148056480000023
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti
Figure FDA0003148056480000031
类中的加权假正率wfpr,
Figure FDA0003148056480000032
Figure FDA0003148056480000033
其中,
Figure FDA0003148056480000034
用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时
Figure FDA0003148056480000035
为1,反之为0。
5.根据权利要求3所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2.2具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
Figure FDA0003148056480000036
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
Figure FDA0003148056480000037
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量。
6.根据权利要求3所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2.3具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
Figure FDA0003148056480000041
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,atanfac值为1。
7.根据权利要求3所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2.5中对训练集文档和测试集文档进行处理,具体为,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词。
CN202110758265.8A 2021-07-05 2021-07-05 基于归一化词频权重的特征选择方法 Active CN113657106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758265.8A CN113657106B (zh) 2021-07-05 2021-07-05 基于归一化词频权重的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758265.8A CN113657106B (zh) 2021-07-05 2021-07-05 基于归一化词频权重的特征选择方法

Publications (2)

Publication Number Publication Date
CN113657106A true CN113657106A (zh) 2021-11-16
CN113657106B CN113657106B (zh) 2024-06-21

Family

ID=78477929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758265.8A Active CN113657106B (zh) 2021-07-05 2021-07-05 基于归一化词频权重的特征选择方法

Country Status (1)

Country Link
CN (1) CN113657106B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034197A (zh) * 2022-06-30 2022-09-09 联想(北京)有限公司 数据处理方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136410A1 (en) * 2004-12-17 2006-06-22 Xerox Corporation Method and apparatus for explaining categorization decisions
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
EP2570970A1 (en) * 2011-09-16 2013-03-20 Technische Universität Berlin Method and system for the automatic analysis of an image of a biological sample
KR101363335B1 (ko) * 2012-09-19 2014-02-19 숭실대학교산학협력단 문서 분류모델 생성장치 및 방법
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
WO2018028065A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种短信息分类方法、装置及计算机存储介质
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN111382273A (zh) * 2020-03-09 2020-07-07 西安理工大学 一种基于吸引因子的特征选择的文本分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136410A1 (en) * 2004-12-17 2006-06-22 Xerox Corporation Method and apparatus for explaining categorization decisions
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
EP2570970A1 (en) * 2011-09-16 2013-03-20 Technische Universität Berlin Method and system for the automatic analysis of an image of a biological sample
KR101363335B1 (ko) * 2012-09-19 2014-02-19 숭실대학교산학협력단 문서 분류모델 생성장치 및 방법
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
WO2018028065A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种短信息分类方法、装置及计算机存储介质
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN111382273A (zh) * 2020-03-09 2020-07-07 西安理工大学 一种基于吸引因子的特征选择的文本分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034197A (zh) * 2022-06-30 2022-09-09 联想(北京)有限公司 数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN113657106B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN108647729B (zh) 一种用户画像获取方法
CN108766464B (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN113657106B (zh) 基于归一化词频权重的特征选择方法
CN105894032A (zh) 一种针对样本性质提取有效特征的方法
CN117454873A (zh) 一种基于知识增强神经网络模型的讽刺检测方法及系统
CN113792141B (zh) 基于协方差度量因子的特征选择方法
CN113704464B (zh) 基于网络新闻的时评类作文素材语料库的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240409

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

Country or region before: China

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240524

Address after: Room 304, 3rd Floor, Building 21, Zone 2, Tiantong Zhongyuan, Dongxiaokou Town, Changping District, Beijing, 100000

Applicant after: It's Also A Pleasure For Youpeng (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant