CN111062212B - 一种基于优化tfidf的特征提取方法及系统 - Google Patents
一种基于优化tfidf的特征提取方法及系统 Download PDFInfo
- Publication number
- CN111062212B CN111062212B CN202010189034.5A CN202010189034A CN111062212B CN 111062212 B CN111062212 B CN 111062212B CN 202010189034 A CN202010189034 A CN 202010189034A CN 111062212 B CN111062212 B CN 111062212B
- Authority
- CN
- China
- Prior art keywords
- text
- distribution factor
- variance
- words
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于优化TFIDF的特征提取方法及系统,其中方法包括对文本进行分词处理并计算TF和IDF值,还包括以下步骤:记录所有类文档总数和一个类的文档总数,计算类别分布因子;记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子;分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子;对所述TF和IDF值的权重值、所述类别分布因子、所述类间分布因子和所述方差分布因子进行归一化计算,得到优化后的权重值。本发明提出的基于优化TFIDF的特征提取方法及系统,基于词频分布信息和TFIDF类别分布信息提出三个分布因子,三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量,同时每个因子的值和权重成正相关,以乘积的形式计算最终值。
Description
技术领域
本发明涉及文本词特征提取的技术领域,特别是一种基于优化TFIDF的特征提取方法及系统。
背景技术
随着互联网的普及和迅猛发展,网络上产生了海量的文本信息。为满足用户在海量数据背景下对信息的多样化需求,需要对文本数据进行有效分类。文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类通常把文本信息转换为特征向量。由于文本集中的任何单词项都可能成为特征词,因此会造成最终的特征向量维度过高进而影响分类结果。常用的特征空间降维方法是特征提取。
TFIDF(Term Frequency and Inverted Document Frequency)算法是较为常用的文本特征提取方法。目前针对TFIDF算法已经出现许多改进方法。2017年9月的北京理工大学学报第37卷第9期公开了赵胜辉、李吉月、徐碧和孙博研的《基于TFIDF的社区问答系统问句相似度改进算法》的文章,该文针对社区问答系统,按照用户的查询意图对问句进行分类后,根据特征词在类别中的分布对权值进行调整。2013年的计算机工程与应用第49期公开了郭红钰的《基于信息熵理论的特征权重算法研究》考虑到特征词在文档中出现的频率及该特征词在训练集中的集中度和在各个类别中的分散度提出了基于信息熵理论的特征权重算法。2018年的Advances in Intelligent Systems and Computing, vol 905.公开了Yanpeng Wang、Dehai Zhang和Ye Yuan的《Research and Improvement of TF-IDFAlgorithm Based on Information Theory》提出一种以信息论中的信息熵和相对熵为计算因子的TFIDF改进算法。2016年的Pattern Recognition Letters 上公开了 Chien-Hsing Chen的《Improved TFIDF in big news retrieval: An empirical study》提出一种新的基于距离的特征词加权方法,此算法在新闻分类和聚类方面表现更加突出。以上算法都考虑了分类文本集中的特征词关于类别间的优化计算,但是在单个文本具有大量词汇的不平衡数据集中,以上算法不能有效计算出精准权重。
发明内容
为了解决上述的技术问题,本发明提出的基于优化TFIDF的特征提取方法及系统,基于词频分布信息和TFIDF类别分布信息提出三个分布因子,三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量,同时每个因子的值和权重成正相关,以乘积的形式计算最终值。
本发明的第一目的是提供一种基于优化TFIDF的特征提取方法,包括对文本进行分词处理并计算TF和IDF值的权重值,还包括以下步骤:
优选的是,所述对文本进行分词处理并计算TF和IDF值步骤包括以下子步骤:
步骤01:选择数据集并使用结巴分词对文本进行分词处理;
步骤02:读取停用词文件,去除停用词;
步骤03:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值,所述TF和IDF值的权重值的计算公式为
其中,为特征词在文本中的权重值,,为特征词在文本中出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本中特征词出现的次数,表示文本中第k个特征词出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j为文本编号。
本发明的第二目的是提供一种基于优化TFIDF的特征提取系统,包括用于对文本进行分词处理并计算TF和IDF值的权重值的文本处理模块,还包括以下模块:
所述系统采用如第一目的所述的方法进行特征提取。
优选的是,所述文本处理模块包括以下子模块:
分词处理子模块:用于选择数据集并使用结巴分词对文本进行分词处理;
停用词处理子模块:用于读取停用词文件,去除停用词;
计算子模块:用于读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。
在上述任一方案中优选的是,所述TF和IDF值的的权重值计算公式为
其中,为特征词在文本中的权重值,,为特征词在文本中出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本中特征词出现的次数,表示文本中第k个特征词出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j为文本编号。
本发明提出了一种基于优化TFIDF的特征提取方法及系统,通过对大量文本文件进行计算、测试和比较,打破了传统TFIDF的局限性,在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用,能够很好地提升了原算法计算权重的精准度。
附图说明
图1为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的流程图。
图1A为按照本发明的基于优化TFIDF的特征提取方法的如图1所示实施例的分词处理及权重值计算方法流程图。
图2为按照本发明的基于优化TFIDF的特征提取系统的一优选实施例的模块图。
图3为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的算法准确率对比示意图。
图4为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法F度量值对比示意图。
图5为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法召回率对比示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,对文本进行分词处理并计算TF和IDF值的权重值。如图1A所示,执行步骤101,选择数据集并使用结巴分词对文本进行分词处理。执行步骤102,读取停用词文件,去除停用词。执行步骤103,读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为
其中,为特征词在文本中的权重值,,为特征词在文本中出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本中特征词出现的次数,表示文本中第k个特征词出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j为文本编号。对所述TF和IDF值的权重值进行归一化处理,公式为。
执行步骤130,分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子,方差分布因子的计算公式为 ,其中,表示特征词在第个文本中的方差值,m表示文本总个数。总体方差的计算公式为,其中,表示特征词在文档中出现的位置,表示总体均值,n3表示特征词在文档中出现的总个数。
执行步骤140,对所述TF和IDF值的权重值、所述类别分布因子、所述类间分布因子和所述方差分布因子进行归一化计算,得到优化后的权重值。根据所述类别分布因子、所述类间分布因子和所述方差分布因子,计算得到改进权重TFIDF-CV,公式为
实施例二
如图2所示,一种基于优化TFIDF的特征提取系统,包括文本处理模块200、类别分布因子计算模块210、类间分布因子计算模块220、方差分布因子计算模块230和归一化计算模块240。
文本处理模块200用于对文本进行分词处理并计算TF和IDF值的权重值。文本处理模块200包括分词处理子模块、停用词处理子模块和计算子模块。分词处理子模块用于选择数据集并使用结巴分词对文本进行分词处理。停用词处理子模块用于读取停用词文件,去除停用词。计算子模块用于读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为
其中,为特征词在文本中的权重值,,为特征词在文本中出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本中特征词出现的次数,表示文本中第k个特征词出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j为文本编号。对所述TF和IDF值的权重值进行归一化处理,公式为。
类间分布因子计算模块220用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子,类间分布因子的计算公式为,其中,为类中包含特征词的文本个数,为所有包含特征词的文本个数。
方差分布因子计算模块230用于分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子,方差分布因子的计算公式为 ,其中,表示特征词在第个文本中的方差值,m表示文本总个数。总体方差的计算公式为,其中,表示特征词在文档中出现的位置,表示总体均值,n3表示特征词在文档中出现的总个数。
归一化计算模块240用于对所述TF和IDF值的权重值、所述类别分布因子、所述类间分布因子和所述方差分布因子进行归一化计算,得到优化后的权重值。根据所述类别分布因子、所述类间分布因子和所述方差分布因子,计算得到改进权重TFIDF- CF,公式为
实施例三
针对单个文本具有大量词汇的不平衡数据集的文本特征提取问题,本文提出一种TFIDF-CV(Class Variance–Term Frequency and Inverted Document Frequency)算法。算法考虑到单个文本内的特征词的分布状态,特征词权值依据特征词分布情况不同而改变。例如平均分布在一篇文章的特征词比集中在一个段落的特征词权重高。另外算法还定义了类分布因子,用以调整数据集中文档数量少的类中的特征词权重计算。
1传统TFIDF算法
TFIDF是一种特征加权算法,它结合词频(Term Frequency,TF)和逆文档频率(Inverted Document Frequency ,IDF)来计算文本中特征词的权重。基本思想是文本中特征词的权重与其在当前文本中出现的频率成正比,并且与文本集中包含特征词的文本个数成反比。其计算公式如下:
其中,为特征词在文本中的权重值,,为特征词在文本中出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本中特征词出现的次数,表示文本中第k个特征词出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j为文本编号。为了使最终结果被限定在0~1之间,要对算法做出归一化处理。公式如下:
TFIDF算法的优点是算法易于理解、在大任务分类中具有较高的准确率,因此得到了广泛的应用。不过在数据集中文档数量少的类中,当特征词主要存在于这个类时,理应获得高权重来反映文本特征,但是由于文档频率小于给定阈值而被删除。在分类文本集中,无论是不同类别之间、单个类别之内还是某个文本文件中该算法都未考虑特征词在文本的位置分布情况。例如:在不同类别之间,若某个特征词在某个类频繁出现,而在其他类中出现较少,这个特征词的特征权重明显是高的,而在算法中无法体现。同样在单个文本文件之中,特征词集中在某一部分与分散在整篇文章的价值明显是不一样的,但计算结果是一样的。
2基于词频分布的TFIDF改进
在具有类别分布的不平衡数据集中,传统的特征选择算法通常倾向于选择大类别中的特征词。同时类别间词频和单个文本中词频的分布差异都将导致最终特征的不同权重。因此本文基于词频分布信息和TFIDF类别分布信息提出三个分布因子。三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量。同时每个因子的值和权重成正相关,所以以乘积的形式计算最终值。
三个分布因子都采用对数的计算方式来缓冲分布因子计算结果过大问题。
2.1分布因子设计
2.1.1类别分布因子
类别分布因子反映了文档类别的分布信息。该因子所针对的是特征词所在的不同类中每个类的文本数量占所有类的文本数量的大小这一情况,目的是缓解逆文档频率计算权重倾向大类别忽略小类别的局限性。它可以通过计算数据集中文档N的总数与类中所有文档的数量之间的商的对数来获得。当类中所有文档的数量占文档N总数的小部分时,表明该类文档数量少,属于小类。为避免传统算法倾向大类别忽略小类别的局限性,通过求文档总数与类文档数量的商值来平衡大类和小类。类别分布因子计算公式为:
2.1.2类间分布因子
类间分布因子反映了文档类间的分布信息。该因子对特征词在所有类中的分布情况进行考虑,弥补了逆文档频率没能处理多个类别的局限。它可以通过计算数据集类中包含特征词的文本个数与数据集中所有包含特征词的个数的商的对数来获得。通过求类间特征词的占比来反映特征词分布状况对类的重要程度。当类中特征词的文本个数占所有包含特征词的文本个数的主要部分时,表明此特征词主要分布在一个类中,进而表明该特征词能够很好地区分不同类别,应获得更高的权重。类间分布因子计算公式为:
2.1.3方差分布因子
该因子针对一个文本中的特征词分布情况,是对词频的进一步完善,并由方差来体现。方差能够衡量一组数据的离散程度。文档中一个特征词的分布情况可以由方差来表现。方差越大说明特征词在一个文档中分布越分散,分布越分散区分文档能力越强。方差越小说明特征词在一个文档中分布越集中,分布越集中表明该特征词主要集中在一个部分或一个段落,区分文档类别的能力弱。方差计算公式为:
其中,表示总体方差,表示特征词在文档中出现的位置(数字形式表示),表示总体均值(的计算方法为求每个特征词出现位置的总值的平均值),n3表示特征词在文档中出现的总个数。为避免方差值过大影响权重计算,同时考虑到一个特征词在多个文本中有多个方差值,特做如下处理:
对数的底数设为二(三个分布因子的最终计算结果以乘积的形式计算最终权重值。由于最终权重值按照大小排序比较,所以每次计算的底数需保持一致,对底数值无特别要求,只要保持三个分布因子底数相同。)真数为底数二加上各分布因子计算结果,避免对数结果出现零及小于零的问题。
2.2改进的TFIDF算法
基于以上公式(3)(4)(6),得到改进的权重公式TFIDF-CV为:
上述的三个分布因子能够很好地反映特征词的重要性。在一个不平衡分类数据集中,若特征词所在类文档个数越小,其值越大。若特征词主要存在于一个类中,其值更大。若特征词均匀分散在一个文档中,得到的值更大。、、的值越大其权重的最终结果越大。基于以上分析,可以看出改进的权重计算公式打破了传统TFIDF的局限性,在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用。
2.3改进算法的计算过程
该改进算法使用python语言实现。算法的具体实现流程图如下:
Step0:选择数据集并使用结巴分词对文本进行分词处理。
Step1:读取停用词文件,去除停用词。
Step2:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,根据公式(1)分别求TF和IDF值。
Step6:根据公式(7)进行归一化计算,得到优化后的权重值。
3 特征选择及分类策略
3.1特征选择
在文本分类过程中,会对数据集中的文本进行分词处理和去除停用词处理。在得到的特征词集合中特征词的数量大,所以处理时特征空间维数大,也会影响到文本分类过程。特征选择过程就是降维过程。常用的特征选择方法有信息增益(IG:InformationGain)、互信息(MI:Mutual Information)、统计量 (CHI:Chi-square)等。
其中,N表示语料中的文档总数,A表示属于类C且包含词条t的文档数,B表示不属于类C但包含词条t的文档数,D表示属于类C但不包含词条t的文档数,E表示不属于类C且不包含词条t的文档数。
3.2分类策略—K最邻近方法
K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中的方法之一。该方法的思路是:在特征空间中如果一个样本的k个最相似(即特征空间中最邻近)样本大多数属于某一个类别,则该样本也属于这个类别。它输入基于实例的学习,即KNN没有显式的学习过程。其中数据集事先已有了分类和特征值,待收到新样本后直接进行处理。KNN是通过测量不同特征值之间的距离进行分类。关于距离的度量方法,常用的有:欧几里得距离、弦值,相关度,曼哈顿距离或其他。这里使用欧几里得距离,公式如下:
该公式表示n维空间中两个点之间的真实距离,在二维和三维空间中的欧氏距离就是两点之间的实际距离。
本文从类别和词频两个角度对TFIDF算法进行了改进,提出了三个分布因子,进而提出了TFIDF-CV算法。该算法的设计前提是数据集属于单个文本具有大量词汇的不平衡数据集。通过对大量文本文件进行计算、测试和比较两个算法,能够得出改进算法很好地提升了原算法计算权重的精准度。
实施例四
在本实施例中,对本发明提出的基于优化TFIDF的特征提取方法进行实验,实验结果及分析如下:
1、实验数据集
为了验证本文方法的有效性,通过爬虫爬取网易新闻数据。通过对数据标签归类拿到数量最多的五个类(金融、体育、、文化医药和汽车),按照训练集和测试集2:1的比例把数据集随机划分为训练集和测试集两部分,进而建立语料库。语料库选用样本集样本多,平均每个文档字数1000左右,同时也存在数据不平衡现象,符合针对单个文本具有大量词汇的不平衡数据集。每个类别文档具体个数如表1所示:
表1各类别训练集和测试集文本个数
2、评价指标
分类器模型的评价指标主要有召回率R、精确率P和F度量值。分别表示为:
其中, TP表示实际属于该类别且预测正确的个数,FP表示实际不属于该类别并预测正确的个数,FN表示实际属于该类但预测错误的个数。召回率R、精确率P指标有时候会出现的矛盾的情况,这样就需要F度量值加权调和平均另外两个参数,当时,就是最常见的F 1。可知FN综合了P和R的结果,当FN较高时则能说明试验方法比较有效。本实验中将调整为0.414。
3、实验结果分析
本实验使用Python语言在PyCharm平台编写测试,测试对比算法除了原始算法和所写的改进算法外还有文献《基于信息增益的特征词权重调整算法研究》所提出的TFIDF-IG算法。在训练集执行完后得到不同类别最终权重结果。根据权重值大小排序,选取前17个特征词作为测试对照词。同时在测试集使用CHI平方统计特征选择方法在每个文档中分别选择30个特征。最后在K最邻近分类器下执行分类测试。测试结果展示了准确率P和F度量值,如下表所示:
表2 三种算法对比测试结果
TFIDF与TFIDF-CV算法的准确率、F度量值和召回率的对比结果如图3、图4、图5所示,准确率由算法中的类别分布因子和类间分布因子共同支持,用以区别不同类别。准确率高则其他类别误判的情况就小。召回率由方差分布因子支撑,用以找到类中真正具有类别特点的特征词。召回率高说明特征词选择更精确。
由表2和图3、图4、图5可以看出,改进的TFIDF-CV算法的准确率在医药方面与原始算法相差不多,在其他类别有明显提高。同时改进算法提取特征词的F度量值在各方面都明显优于传统算法,对于TFIDF-IG来说,改进算法总的来讲略有提高。通过实验表明改进算法所包含的三个分布因子在各自作用域起到了不同程度的优化作用。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (7)
1.一种基于优化TFIDF的特征提取方法,包括对文本进行分词处理并计算TF和IDF值的权重值,其特征在于,还包括以下步骤:
2.如权利要求1所述的基于优化TFIDF的特征提取方法,其特征在于,所述对文本进行分词处理并计算TF和IDF值的权重步骤包括以下子步骤:
步骤01:选择数据集并使用结巴分词对文本进行分词处理;
步骤02:读取停用词文件,去除停用词;
步骤03:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值,所述TF和IDF值的权重值的计算公式为
7.一种基于优化TFIDF的特征提取系统,包括用于对文本进行分词处理并计算TF和IDF值的权重值的文本处理模块,其特征在于,还包括以下模块:
类间分布因子计算模块:用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子,所述类间分布因子的计算公式为,其中,为类中包含特征词的文本个数,为所有包含特征词的文本个数;
方差分布因子计算模块:用于分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子,所述方差分布因子的计算公式为,其中,表示特征词在第个文本中的方差值,m表示文本总个数;
所述系统采用如权利要求1所述的方法进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189034.5A CN111062212B (zh) | 2020-03-18 | 2020-03-18 | 一种基于优化tfidf的特征提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189034.5A CN111062212B (zh) | 2020-03-18 | 2020-03-18 | 一种基于优化tfidf的特征提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062212A CN111062212A (zh) | 2020-04-24 |
CN111062212B true CN111062212B (zh) | 2020-06-30 |
Family
ID=70307938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010189034.5A Active CN111062212B (zh) | 2020-03-18 | 2020-03-18 | 一种基于优化tfidf的特征提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062212B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200259A (zh) * | 2020-10-19 | 2021-01-08 | 哈尔滨理工大学 | 一种基于分类与筛选的信息增益文本特征选择方法及分类装置 |
CN113515623B (zh) * | 2021-04-28 | 2022-12-06 | 西安理工大学 | 基于词频差值因子的特征选择方法 |
CN115878818B (zh) * | 2023-02-21 | 2023-05-30 | 创意信息技术股份有限公司 | 一种地理知识图谱构建方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014225074A (ja) * | 2013-05-15 | 2014-12-04 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 番組情報表示装置 |
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
-
2020
- 2020-03-18 CN CN202010189034.5A patent/CN111062212B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014225074A (ja) * | 2013-05-15 | 2014-12-04 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 番組情報表示装置 |
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062212A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062212B (zh) | 一种基于优化tfidf的特征提取方法及系统 | |
US20220138423A1 (en) | Deep learning based text classification | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
US7444279B2 (en) | Question answering system and question answering processing method | |
Zheng et al. | Fast image retrieval: Query pruning and early termination | |
CN108304371B (zh) | 热点内容挖掘的方法、装置、计算机设备及存储介质 | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
CN110427483B (zh) | 文本摘要评测方法、装置、系统及评测服务器 | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
CN111709439B (zh) | 基于词频偏差率因子的特征选择方法 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN109948125A (zh) | 改进的Simhash算法在文本去重中的方法及系统 | |
US20230147941A1 (en) | Method, apparatus and device used to search for content | |
Han | Personalized news recommendation and simulation based on improved collaborative filtering algorithm | |
CN111125366B (zh) | 文本分类方法及装置 | |
CN112732914A (zh) | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 | |
CN113961823B (zh) | 新闻推荐方法、系统、存储介质及设备 | |
Yuan et al. | Utilizing related samples to enhance interactive concept-based video search | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN116245139B (zh) | 图神经网络模型训练方法和装置、事件检测方法和装置 | |
KR102405867B1 (ko) | 인공지능 모델을 이용한 특허문서의 중요도 판단 방법, 장치 및 시스템 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN106970924B (zh) | 一种话题排序方法及装置 | |
Chen et al. | Fast multi-class sample reduction for speeding up support vector machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |