CN109299263B - 文本分类方法、电子设备 - Google Patents

文本分类方法、电子设备 Download PDF

Info

Publication number
CN109299263B
CN109299263B CN201811180163.7A CN201811180163A CN109299263B CN 109299263 B CN109299263 B CN 109299263B CN 201811180163 A CN201811180163 A CN 201811180163A CN 109299263 B CN109299263 B CN 109299263B
Authority
CN
China
Prior art keywords
text
texts
jmx
sample
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811180163.7A
Other languages
English (en)
Other versions
CN109299263A (zh
Inventor
唐海龙
张岩
杨柳
方蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201811180163.7A priority Critical patent/CN109299263B/zh
Publication of CN109299263A publication Critical patent/CN109299263A/zh
Application granted granted Critical
Publication of CN109299263B publication Critical patent/CN109299263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例中提供了一种文本分类方法、电子设备及计算机程序产品。采用本申请中的方案,从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。本申请中的方案在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。

Description

文本分类方法、电子设备
技术领域
本申请涉及自然语言处理技术,具体地,涉及一种文本分类方法、电子设备。
背景技术
文本分类问题是自然语言处理领域中一个非常经典的问题,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。
伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。文本分类的分类器中,常用的方法有KNN (k-NearestNeighbor,邻近算法),朴素贝叶斯,支撑向量机,神经网络,决策树,Rocchio等等。
发明内容
本申请实施例中提供了一种文本分类方法、电子设备。
根据本申请实施例的第一个方面,提供了一种文本分类方法,包括:
从样本文本中获取中心文本;
根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;
确定各相似中心文本的权重;
根据各相似中心文本的权重确定待分类文本所属类别。
可选地,从样本文本中获取中心文本,包括:
确定每个样本文本的特征词,其中,每个样本文本属于一个类别;
计算每个特征词在各样本文本中的权重;
根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;
将每类中的样本文本合并成一个中心文本。
可选地,计算每个特征词在各样本文本中的权重,包括:
根据如下公式计算任一特征词t在任一样本文本
Figure 249353DEST_PATH_IMAGE001
中的权重:
Figure 313124DEST_PATH_IMAGE002
其中,
Figure 43183DEST_PATH_IMAGE003
为t在
Figure 977641DEST_PATH_IMAGE001
中的权重,
Figure 767742DEST_PATH_IMAGE004
为t出现在
Figure 787651DEST_PATH_IMAGE001
中的次数,N为样本文本总数, ni为所有样本文本中出现t的样本文本个数,
Figure 321400DEST_PATH_IMAGE005
为t出现在
Figure 877409DEST_PATH_IMAGE001
所属类别c中的次数,
Figure 838412DEST_PATH_IMAGE006
为t出现在
Figure 345616DEST_PATH_IMAGE001
所属类别c以外的类别中的次数,
Figure 151898DEST_PATH_IMAGE007
为在
Figure 326528DEST_PATH_IMAGE001
所属类别c以外的类 别中,t出现在非
Figure 192853DEST_PATH_IMAGE001
样本文本的次数。
可选地,确定每个样本文本的特征词,包括:
在预设的分词方法中,确定每个样本文本对应的分词方法;
按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;
去除每个样本文本的特征词中的停用词;
将每个样本文本去除后的特征词确定为每个样本文本的特征词。
可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:
对于任一样本文本,根据如下公式计算分布概率最大的分词方法:
J=argmaxP(Aj1,Aj2,…,Ajmx);
其中,J为分布概率最大的分词方法标识,mx为任一分词方法j对所述任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对所述任一样本文本进行分词后得到的词,arg max P(Aj1,Aj2,…,Ajmx)为函数,所述函数用于得到使得P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J,P(Aj1,Aj2,…,Ajmx)为分布概率,P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1),P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1)为条件概率,P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在所述标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在所述标准语料库中出现的次数,P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在所述标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在所述标准语料库中出现的次数,P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在所述标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在所述标准语料库中出现的次数;
将分布概率最大的分词方法确定为任一样本文本对应的分词方法。
可选地,确定各相似中心文本的权重,包括:
按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;
根据如下公式确定各相似中心文本的权重:
Figure 187353DEST_PATH_IMAGE008
其中,b和b’均为相似中心文本在序列中的位置标识,Wb为位置为b的相似中心文本的权重,Wb-1为位置为b-1的相似中心文本的权重,Wb'为位置为 b’的相似中心文本的权重,k为预设数量。
可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:
确定各相似中心文本所属类别;
按类别将相似中心文本分类;
确定每一类中相似中心文本的权重之和以及相似中心文本的数量;
将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;
将加权频率最大的类作为待分类文本的所属类别。
可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:
对于任一中心文本,
确定任一中心文本与待分类文本相同的特征词;
将相同的特征词在任一中心文本中的权重,形成第一权重向量;
将相同的特征词在待分类文本中的权重,形成第二权重向量;
将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。
根据本申请实施例的第二个方面,提供了一种电子设备,所述电子设备包括:显示器,存储器,一个或多个处理器;以及一个或多个模块,所述一个或多个模块被存储在所述存储器中,并被配置成由所述一个或多个处理器执行,所述一个或多个模块包括用于执行上述第一个方面任一所述方法中各个步骤的指令。
根据本申请实施例的第三个方面,提供了一种计算机程序产品,所述计算机程序产品对用于执行一种过程的指令进行编码,所述过程包括上述第一个方面中任一项所述的方法。
采用本申请实施例中提供的方法,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的一种文本分类方法的流程示意图;
图2为本申请一实施例提供的一种文本分类方法的实现结构图;
图3为本申请一实施例提供的一种电子设备结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现,现有的文本分类方法中存在一个样本数据(如样本文本)集合,也称为训练样本集,并且样本集中每个数据都存在标签,即知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。
然而上述方法在应用于数量不平衡的样本中时,预测偏差较大,同时还存在计算复杂性高,计算量大的问题。因此,在训练文本较多的情况下,如何提高分类准确率,减小计算量,提高分类速度是几个关键性问题。
为了解决上述问题,本提案提供一种文本分类方法,该方法从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。该方法选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以处理文本分类中类别不平衡问题,提升文本分类的准确性,提高算法效率。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参见图1,本实施例所示的文本分类方法的实现流程如下:
S101,从样本文本中获取中心文本。
本步骤在实现时可以采用如下的方式:
步骤1.1,确定每个样本文本的特征词。
其中,每个样本文本属于一个类别。
通过本步骤会对每个样本文本进行拆词处理,拆出的每个词均是一个特征词,这样即可得到每个样本文本的特征向量。其中特征向量为特征词组成的向量。
具体的,实现方案包括但不限于:
步骤1.1.1,在预设的分词方法中,确定每个样本文本对应的分词方法。
对于任一样本文本,1)根据如下公式计算分布概率最大的分词方法:
J=argmaxP(Aj1,Aj2,…,Ajmx);
其中,J为分布概率最大的分词方法标识,mx为任一分词方法j对所述任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对所述任一样本文本进行分词后得到的词,arg max P(Aj1,Aj2,…,Ajmx)为函数,所述函数用于得到使得P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J,P(Aj1,Aj2,…,Ajmx)为分布概率,P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1),P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1)为条件概率,P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在所述标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在所述标准语料库中出现的次数,P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在所述标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在所述标准语料库中出现的次数,P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在所述标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在所述标准语料库中出现的次数;
2)将分布概率最大的分词方法确定为任一样本文本对应的分词方法。
例如,对于由N个样本文本组成的训练数据集T:{t1,t2,…tN}中的每一个样本文本,有nj种预设的分词方法,任一种分词方法对任一个样本文本进行分词后会得到mx个词。
如对任一样本文本,每种分词方法与对应词的关系如表1所示:
表1
分词方法标识 对应的词
1 A<sub>11</sub>,A<sub>12</sub>,…,A<sub>1mx</sub>
2 A<sub>21</sub>,A<sub>22</sub>,…,A<sub>2mx</sub>
...... ......
j A<sub>j1</sub>,A<sub>j2</sub>,…,A<sub>jmx</sub>
...... ......
nj A<sub>nj1</sub>,A<sub>nj2</sub>,…,A<sub>njmx</sub>
其中,每种分词方法对同一样本文本进行分词之后得到的词的数量可以相同也可以不同,本实施例不进行限定。
另外,本实施例不对预设的分词方法具体指何种方法进行限定,只要能够对文本进行分词即可,如正最大匹配法、逆向最大匹配法、双向匹配分词法、基于神经网络的分词器等。
将对应统计分布概率最大的分词方法确定为该样本文档的最优分词方法,将其确定为对应样本文本的分词方法。
对任一样本文本,各分词方法的统计分布概率通过如下公式计算:
J=argmaxP(Aj1,Aj2,…,Ajmx)。
其中,argmaxP(Aj1,Aj2,…,Ajmx)为一个函数(可简化为argmaxf(x))。设函数 y=f(x),x0=argmaxf(x)的意思就是参数x0满足f(x0)为f(x)的最大值。换句话说就是argmaxf(x)是使得f(x)取得最大值所对应的变量x。arg即argument,意为“自变量”。也就是说,argmaxP(Aj1,Aj2,…,Ajmx)函数用于得到使得 P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J。P(Aj1,Aj2,…,Ajmx)为分布概率,J为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对任一样本文本进行分词后得到的词。
为了兼顾计算简化和分词精确度,本实施例采用马尔科夫假设,使每一个分词出现的概率和前一个分词有关,即:
P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1)
通过预设的标准语料库,则可以近似的计算出所有分词之间的二元条件概率,例如任意两个词w1和w2的条件概率分布可以近似的表示为:
P(w2|w1)=P(w1,w2)/P(w1)≈freq(w1,w2)/freq(w1);
P(w1|w2)=P(w2,w1)/P(w2)≈freq(w1,w2)/freq(w2)。
其中freq(w1,w2)表示w1和w2在语料库中相邻一起出现的次数,freq(w1)和freq(w2)分别表示w1和w2在语料库中出现的统计次数。
对于本例子,P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1) 为条件概率,P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在标准语料库中出现的次数, P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在标准语料库中出现的次数,P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在标准语料库中出现的次数。
步骤1.1.2,按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词。
步骤1.1.3,去除每个样本文本的特征词中的停用词。
步骤1.1.3可以通过加载预先存储的停用词表,去除常见停用词。
步骤1.1.4,将每个样本文本去除后的特征词确定为每个样本文本的特征词。
通过步骤1.1,可以为每一个样本文本选择合适的分词方法进行分词,保证了分词的准确性和分词方法对样本文本的针对性。
另外,在得到每个样本文本的特征词之后,还可以根据语料库建立词典。
步骤1.2,计算每个特征词在各样本文本中的权重。
本实施例通过引进类别的信息,提高特征词的权重,因此,步骤1.2的计算方法为:
根据如下公式计算任一特征词t在任一样本文本
Figure 797326DEST_PATH_IMAGE001
中的权重:
Figure 826462DEST_PATH_IMAGE002
其中,
Figure 365153DEST_PATH_IMAGE003
为t在
Figure 846950DEST_PATH_IMAGE001
中的权重,
Figure 260614DEST_PATH_IMAGE004
为t出现在
Figure 144256DEST_PATH_IMAGE001
中的次数,N为样本文本总数, ni为所有样本文本中出现t的样本文本个数,
Figure 617963DEST_PATH_IMAGE005
为t出现在
Figure 321477DEST_PATH_IMAGE001
所属类别c中的次数,
Figure 273252DEST_PATH_IMAGE006
为t出现在
Figure 276980DEST_PATH_IMAGE001
所属类别c以外的类别中的次数,
Figure 656009DEST_PATH_IMAGE009
为在
Figure 846819DEST_PATH_IMAGE001
所属类别c以外的类 别中,t出现在非
Figure 92031DEST_PATH_IMAGE001
样本文本的次数。
通过以上公式更能反映特征词汇的重要程度。
步骤1.3,根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类。
本实施例不对步骤1.3中的聚类算法进行限定,例如k-means方法等,只要可以实现聚类即可。
由于每个样本文本属于一个类别,因此,可以得到每个类别对应的样本文本。例 如,由N个样本文本组成的训练数据集T:{t1,t2,…tN}共涉及C个类别,任一个类别有cl个样 本文本,对每个类设置初始中心点个数为k’,采用 K-means方法,基于各样本中各词的权重
Figure 950266DEST_PATH_IMAGE003
计算各样本文件之间的相似度,再根据相似度进行聚类,将cl个样本文本中有较大 相似度的样本文本合并成一个簇,共形成k’个簇,则整个训练数据集有C*k’个簇。
步骤1.4,将每类中的样本文本合并成一个中心文本。
对步骤1.3的聚类结果形成的簇,可以看成为一个合并的新文本,对这k’个新文本重新建立向量空间模型,由此构建对分类模型中只存在语义中心文本。具体来讲,是将多个样本文本合并成一个“中心文本”,这样后续需要搜索的中心文本数就减少了若干倍,而训练集的规模仍然不变。
具体合并方案,包括但不限于:将每类中的样本文本的特征词进行合并。
S102,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本。
在本步骤之前会先计算每个中心文本与待分类文本之间的相似度,基于该相似度再选择预设数量个中心文本作为相似中心文本。
对于计算中心文本与待分类文本之间的相似度的过程,包括但不限于:
对于任一中心文本,如该任一中心文本的特征词为A1,B1,C1,D1。
步骤2.1,确定任一中心文本与待分类文本相同的特征词。
其中,待分类文本的特征词确定方法与步骤1.1确定每个样本文本的特征词的方法相似,仅将任一样本文本替换为待分类文本即可。如:1)对于待分类文本,计算分布概率最大的分词方法。2)将分布概率最大的分词方法确定为待分类文本对应的分词方法。3)按对应的分词方法对待分类文本进行分词处理,得到待分类文本的特征词。4)去除待分类文本的特征词中的停用词。5) 将去除后的特征词确定为待分类文本的特征词。
具体实现方法参见步骤1.1,此处不再赘述。
例如,待分类文本的特征词为A1,B2,C1,D2。
则该任一中心文本与待分类文本相同的特征词为A1和C1。
步骤2.2,将相同的特征词在任一中心文本中的权重,形成第一权重向量。
步骤1.2中会得到相同的特征词在该任一样本文本中的权重,形成的权重向量为(
Figure 765775DEST_PATH_IMAGE010
,
Figure 709461DEST_PATH_IMAGE011
)。
步骤2.3,将相同的特征词在待分类文本中的权重,形成第二权重向量。
相同的特征词在待分类文本中的权重的计算方法可以与步骤1.2类似,仅将任一样本文本替换为待分类文本即可。具体实现方法详见步骤1.2,此处不再赘述。
其中第一权重向量和第二权重向量中各权重对应的特征词相同。即按相同的特征词顺序构建第一权重向量和第二权重向量。
步骤2.4,将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。
假设第一权重向量
Figure 3039DEST_PATH_IMAGE012
,第二权重向量
Figure 715780DEST_PATH_IMAGE013
, 其中R为相同的特征词的数量。第一权重向量和第二权重向量的余弦为:
Figure 702190DEST_PATH_IMAGE014
通过每一个中心文本与待分类文本之间相同的特征词及其权重,并按照相同特征 词的顺序,重新构造两个特征词都相同的特征向量对应的权重向量
Figure 133172DEST_PATH_IMAGE015
Figure 731905DEST_PATH_IMAGE016
,通过这种处理方法,不必每次都计算待分类文本与每一个样本 文本的相似度,只需比较通过一次计算得到的特征向量的权值相似度,从而大大减轻计算 量。
除此之外,还可以将第一权重向量和第二权重向量的欧式距离确定为任一中心文本与待分类文本之间的相似度。
假设第一权重向量
Figure 33574DEST_PATH_IMAGE017
…,
Figure 190886DEST_PATH_IMAGE018
,第二权重向量
Figure 109163DEST_PATH_IMAGE019
…,
Figure 744544DEST_PATH_IMAGE020
,其中R为相同的特征词的数量。第一权重向量和第二权重向量的欧式距离为:
Figure 431877DEST_PATH_IMAGE021
在得到每个中心文本与待分类文本之间的相似度之后,会选根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本。
具体可以选择余弦值最大的预设数量(如k)个中心文本作为相似中心文本。
若在执行步骤102之后,统计相似中心文本所属类别,将属于同一类别的相似中心文本最多的那个类别确定为待分类文本所属类别。此种方法在类别不平衡样本中,k值的选取对分类结果影响很大,若k值选择过小,则模型太复杂。k值选取的太大,则会导致分类模糊。因此,本实施例不采用该种方式,而是通过添加一个权值系数(和该样本距离小的邻居权值大)来对该算法进行改进。详见S103和S104。
S103,确定各相似中心文本的权重。
本步骤的实现过程包括但不限于:
步骤3.1,按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序。
步骤3.2,根据如下公式确定各相似中心文本的权重:
Figure 494511DEST_PATH_IMAGE008
其中,b和b’均为相似中心文本在序列中的位置标识,Wb为位置为b的相似中心文本的权重,Wb-1为位置为b-1的相似中心文本的权重,Wb'为位置为 b’的相似中心文本的权重,k为预设数量。
当b或b’取值越小(越靠近测试样本)时,通过上述权重公式可以取得越大的权值。通过这种方法,可以在k值较大时,提高离测试样本较近的训练样本的影响,防止分类模糊。
S104,根据各相似中心文本的权重确定待分类文本所属类别。
本步骤的实现过程可以为:
步骤4.1,确定各相似中心文本所属类别。
步骤4.2,按类别将相似中心文本分类。
步骤4.3,确定每一类中相似中心文本的权重之和以及相似中心文本的数量。
步骤4.4,将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率。
步骤4.5,将加权频率最大的类作为待分类文本的所属类别。
例如,相似中心文本有5个,分别为相似中心文本1、相似中心文本2、相似中心文本3、相似中心文本4、相似中心文本5。其中,相似中心文本1 属于类别C1,相似中心文本2属于C2,相似中心文本3属于C2,相似中心文本4属于C3,相似中心文本5属于C2。
虽然属于C2的相似中心文本数量最多,但待分类文本不一定属于C2。
需要计算每类中的相似文本权重和与相似文本数量的积。
如相似中心文本1的权重*1=Z1,(相似中心文本2的权重+相似中心文本 3的权重+相似中心文本5的权重)*3=Z2,相似中心文本5的权重*1=Z3。
若Z3>Z2>Z1,则待分类文本属于C3。
本实施例提供的上述方法,可以通过图2所示的过程实现。
在训练过程中执行S101进行训练库文本(即样本文本)预处理、训练库中文本特征词提取、训练库中文本计算特征词权重形成特征向量。在获得测试文本(即待分类文本)表示成的特征向量后,进行分类过程,通过分类算法实现S102、S103和S104,最后输出分类结果。
本实施例提供的方法,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。
基于同一发明构思,本实施例提供了一种电子设备,参见图3,包括存储器301、处理器302、总线303以及存储在存储器301上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现如下步骤。
从样本文本中获取中心文本;
根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;
确定各相似中心文本的权重;
根据各相似中心文本的权重确定待分类文本所属类别。
可选地,从样本文本中获取中心文本,包括:
确定每个样本文本的特征词,其中,每个样本文本属于一个类别;
计算每个特征词在各样本文本中的权重;
根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;
将每类中的样本文本合并成一个中心文本。
可选地,计算每个特征词在各样本文本中的权重,包括:
根据如下公式计算任一特征词t在任一样本文本
Figure 634505DEST_PATH_IMAGE001
中的权重:
Figure 339156DEST_PATH_IMAGE002
其中,
Figure 382461DEST_PATH_IMAGE003
为t在
Figure 881575DEST_PATH_IMAGE001
中的权重,
Figure 243286DEST_PATH_IMAGE004
为t出现在
Figure 220470DEST_PATH_IMAGE001
中的次数,N为样本文本总数, ni为所有样本文本中出现t的样本文本个数,
Figure 882395DEST_PATH_IMAGE005
为t出现在
Figure 552411DEST_PATH_IMAGE001
所属类别c中的次数,
Figure 666997DEST_PATH_IMAGE006
为t出现在
Figure 447872DEST_PATH_IMAGE001
所属类别c以外的类别中的次数,
Figure 465769DEST_PATH_IMAGE009
为在
Figure 306686DEST_PATH_IMAGE001
所属类别c以外的类 别中,t出现在非
Figure 908568DEST_PATH_IMAGE001
样本文本的次数,
可选地,确定每个样本文本的特征词,包括:
在预设的分词方法中,确定每个样本文本对应的分词方法;
按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;
去除每个样本文本的特征词中的停用词;
将每个样本文本去除后的特征词确定为每个样本文本的特征词。
可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:
对于任一样本文本,根据如下公式计算分布概率最大的分词方法:
J=argmaxP(Aj1,Aj2,…,Ajmx);
其中,J为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxP(Aj1,Aj2,…,Ajmx)为函数,函数用于得到使得 P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J,P(Aj1,Aj2,…,Ajmx)为分布概率, P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1),P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1)为条件概率, P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在标准语料库中出现的次数,P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在标准语料库中出现的次数, P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在标准语料库中出现的次数;
将分布概率最大的分词方法确定为任一样本文本对应的分词方法。
可选地,确定各相似中心文本的权重,包括:
按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;
根据如下公式确定各相似中心文本的权重:
Figure 493133DEST_PATH_IMAGE008
其中,b和b’均为相似中心文本在序列中的位置标识,Wb为位置为b的相似中心文本的权重,Wb-1为位置为b-1的相似中心文本的权重,Wb'为位置为 b’的相似中心文本的权重,k为预设数量。
可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:
确定各相似中心文本所属类别;
按类别将相似中心文本分类;
确定每一类中相似中心文本的权重之和以及相似中心文本的数量;
将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;
将加权频率最大的类作为待分类文本的所属类别。
可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:
对于任一中心文本,
确定任一中心文本与待分类文本相同的特征词;
将相同的特征词在任一中心文本中的权重,形成第一权重向量;
将相同的特征词在待分类文本中的权重,形成第二权重向量;
将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。
本实施例提供的电子设备,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。
基于同一发明构思,本实施例提供了一种计算机存储介质,其上存储有计算机程序所述程序被处理器执行时实现如下步骤。
从样本文本中获取中心文本;
根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;
确定各相似中心文本的权重;
根据各相似中心文本的权重确定待分类文本所属类别。
可选地,从样本文本中获取中心文本,包括:
确定每个样本文本的特征词,其中,每个样本文本属于一个类别;
计算每个特征词在各样本文本中的权重;
根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;
将每类中的样本文本合并成一个中心文本。
可选地,计算每个特征词在各样本文本中的权重,包括:
根据如下公式计算任一特征词t在任一样本文本
Figure 864072DEST_PATH_IMAGE001
中的权重:
Figure 875890DEST_PATH_IMAGE002
其中,
Figure 699490DEST_PATH_IMAGE003
为t在
Figure 87746DEST_PATH_IMAGE001
中的权重,
Figure 80235DEST_PATH_IMAGE004
为t出现在
Figure 794113DEST_PATH_IMAGE001
中的次数,N为样本文本总数, ni为所有样本文本中出现t的样本文本个数,
Figure 370588DEST_PATH_IMAGE005
为t出现在
Figure 923054DEST_PATH_IMAGE001
所属类别c中的次数,
Figure 862060DEST_PATH_IMAGE006
为t出现在
Figure 904096DEST_PATH_IMAGE001
所属类别c以外的类别中的次数,
Figure 30184DEST_PATH_IMAGE009
为在
Figure 996129DEST_PATH_IMAGE001
所属类别c以外的类 别中,t出现在非
Figure 196166DEST_PATH_IMAGE001
样本文本的次数。
可选地,确定每个样本文本的特征词,包括:
在预设的分词方法中,确定每个样本文本对应的分词方法;
按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;
去除每个样本文本的特征词中的停用词;
将每个样本文本去除后的特征词确定为每个样本文本的特征词。
可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:
对于任一样本文本,根据如下公式计算分布概率最大的分词方法:
J=argmaxP(Aj1,Aj2,…,Ajmx);
其中,J为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxP(Aj1,Aj2,…,Ajmx)为函数,函数用于得到使得 P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J,P(Aj1,Aj2,…,Ajmx)为分布概率, P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1),P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1)为条件概率, P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在标准语料库中出现的次数,P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在标准语料库中出现的次数,P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在标准语料库中出现的次数;
将分布概率最大的分词方法确定为任一样本文本对应的分词方法。
可选地,确定各相似中心文本的权重,包括:
按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;
根据如下公式确定各相似中心文本的权重:
Figure 986267DEST_PATH_IMAGE008
其中,b和b’均为相似中心文本在序列中的位置标识,Wb为位置为b的相似中心文本的权重,Wb-1为位置为b-1的相似中心文本的权重,Wb'为位置为 b’的相似中心文本的权重,k为预设数量。
可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:
确定各相似中心文本所属类别;
按类别将相似中心文本分类;
确定每一类中相似中心文本的权重之和以及相似中心文本的数量;
将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;
将加权频率最大的类作为待分类文本的所属类别。
可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:
对于任一中心文本,
确定任一中心文本与待分类文本相同的特征词;
将相同的特征词在任一中心文本中的权重,形成第一权重向量;
将相同的特征词在待分类文本中的权重,形成第二权重向量;
将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。
本实施例提供的计算机存储介质,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (5)

1.一种文本分类方法,其特征在于,包括:
从样本文本中获取中心文本;
根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;
确定各相似中心文本的权重;以及
根据各相似中心文本的权重确定所述待分类文本所属类别,
其中,所述根据各相似中心文本的权重确定所述待分类文本所属类别,包括:
确定各相似中心文本所属类别;
按类别将所述相似中心文本分类;
确定每一类中相似中心文本的权重之和以及相似中心文本的数量;
将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;
将加权频率最大的类作为所述待分类文本的所属类别,
所述从样本文本中获取中心文本包括:
确定每个样本文本的特征词,其中,每个样本文本属于一个类别;
计算每个特征词在各样本文本中的权重;
根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;
将每类中的样本文本合并成一个中心文本,其中,
所述计算每个特征词在各样本文本中的权重包括:
根据如下公式计算任一特征词t在任一样本文本
Figure FDA0002573961770000011
中的权重:
Figure FDA00025739617700000113
其中,
Figure FDA0002573961770000014
为t在
Figure FDA0002573961770000015
中的权重,
Figure FDA0002573961770000013
为t出现在
Figure FDA0002573961770000012
中的次数,N为样本文本总数,ni为所有样本文本中出现t的样本文本个数,
Figure FDA00025739617700000110
为t出现在
Figure FDA00025739617700000111
所属类别c中的次数,
Figure FDA0002573961770000019
为t出现在
Figure FDA0002573961770000016
所属类别c以外的类别中的次数,
Figure FDA00025739617700000112
为在
Figure FDA0002573961770000018
所属类别c以外的类别中,t出现在非
Figure FDA0002573961770000017
样本文本的次数,
所述确定各相似中心文本的权重包括:
按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;
根据如下公式确定各相似中心文本的权重:
Figure FDA0002573961770000021
其中,b和b’均为相似中心文本在序列中的位置标识,Wb为位置为b的相似中心文本的权重,Wb-1为位置为b-1的相似中心文本的权重,Wb'为位置为b’的相似中心文本的权重,k为预设数量。
2.根据权利要求1所述的方法,其特征在于,所述确定每个样本文本的特征词,包括:
在预设的分词方法中,确定每个样本文本对应的分词方法;
按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;去除每个样本文本的特征词中的停用词;
将每个样本文本去除后的特征词确定为每个样本文本的特征词。
3.根据权利要求2所述的方法,其特征在于,所述在预设的分词方法中,确定每个样本文本对应的分词方法,包括:
对于任一样本文本,根据如下公式计算分布概率最大的分词方法:
J=arg max P(Aj1,Aj2,…,Ajmx);
其中,J为分布概率最大的分词方法标识,mx为任一分词方法j对所述任一样本文本进行分词后得到的词个数,Aj1,Aj2,…,Ajmx为任一分词方法j对所述任一样本文本进行分词后得到的词,arg max P(Aj1,Aj2,…,Ajmx)为函数,所述函数用于得到使得P(Aj1,Aj2,…,Ajmx)取得最大值所对应的J,P(Aj1,Aj2,…,Ajmx)为分布概率,P(Aj1,Aj2,…,Ajmx)=P(Aj1)P(Aj2|Aj1)P(Aj3|Aj2)…P(Ajmx|Ajmx-1),P(Aj1)为词Aj1在预设的标准语料库中出现的概率,P(Aj2|Aj1)为条件概率,P(Aj2|Aj1)=freq(Aj1,Aj2)/freq(Aj1),freq(Aj1,Aj2)为词Aj1和Aj2在所述标准语料库中相邻出现的次数,freq(Aj1)为词Aj1在所述标准语料库中出现的次数,P(Aj3|Aj2)为条件概率,P(Aj3|Aj2)=freq(Aj2,Aj3)/freq(Aj2),freq(Aj2,Aj3)为词Aj2和Aj3在所述标准语料库中相邻出现的次数,freq(Aj2)为词Aj2在所述标准语料库中出现的次数,P(Ajmx|Ajmx-1)为条件概率,P(Ajmx|Ajmx-1)=freq(Ajmx-1,Ajmx)/freq(Ajmx-1),freq(Ajmx-1,Ajmx)为词Ajmx-1和Ajmx在所述标准语料库中相邻出现的次数,freq(Ajmx-1)为词Ajmx-1在所述标准语料库中出现的次数;
将分布概率最大的分词方法确定为所述任一样本文本对应的分词方法。
4.根据权利要求1所述的方法,其特征在于,所述根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:
对于任一中心文本,
确定所述任一中心文本与待分类文本相同的特征词;
将相同的特征词在所述任一中心文本中的权重,形成第一权重向量;
将相同的特征词在所述待分类文本中的权重,形成第二权重向量;
将所述第一权重向量和第二权重向量的余弦确定为所述任一中心文本与待分类文本之间的相似度。
5.一种电子设备,其特征在于,所述电子设备包括:显示器,存储器,一个或多个处理器;以及一个或多个模块,所述一个或多个模块被存储在所述存储器中,并被配置成由所述一个或多个处理器执行,所述一个或多个模块包括用于执行权利要求1-4中任一所述方法中各个步骤的指令。
CN201811180163.7A 2018-10-10 2018-10-10 文本分类方法、电子设备 Active CN109299263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811180163.7A CN109299263B (zh) 2018-10-10 2018-10-10 文本分类方法、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811180163.7A CN109299263B (zh) 2018-10-10 2018-10-10 文本分类方法、电子设备

Publications (2)

Publication Number Publication Date
CN109299263A CN109299263A (zh) 2019-02-01
CN109299263B true CN109299263B (zh) 2021-01-05

Family

ID=65162198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811180163.7A Active CN109299263B (zh) 2018-10-10 2018-10-10 文本分类方法、电子设备

Country Status (1)

Country Link
CN (1) CN109299263B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694948B (zh) * 2019-03-12 2024-05-17 北京京东尚科信息技术有限公司 文本的分类方法及系统、电子设备、存储介质
CN110287328B (zh) * 2019-07-03 2021-03-16 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111221959A (zh) * 2019-09-27 2020-06-02 武汉创想外码科技有限公司 一种wnlp文本溯源模型
CN111400445B (zh) * 2020-03-10 2023-09-19 中国人民大学 一种基于相似文本的案件繁简分流方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836061B1 (en) * 2007-12-29 2010-11-16 Kaspersky Lab, Zao Method and system for classifying electronic text messages and spam messages
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN107122382A (zh) * 2017-02-16 2017-09-01 江苏大学 一种基于说明书的专利分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836061B1 (en) * 2007-12-29 2010-11-16 Kaspersky Lab, Zao Method and system for classifying electronic text messages and spam messages
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN107122382A (zh) * 2017-02-16 2017-09-01 江苏大学 一种基于说明书的专利分类方法

Also Published As

Publication number Publication date
CN109299263A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299263B (zh) 文本分类方法、电子设备
Zhang et al. Discovering new intents with deep aligned clustering
Zhang et al. Improving crowdsourced label quality using noise correction
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
Li et al. Linear time complexity time series classification with bag-of-pattern-features
CN114049505B (zh) 一种商品的匹配与识别方法、装置、设备和介质
CN110929028A (zh) 一种日志分类方法及装置
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
Bassiou et al. Greek folk music classification into two genres using lyrics and audio via canonical correlation analysis
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN117131868A (zh) 一种基于“表格-图”两阶段的面向文档级别实体关系联合抽取方法及装置
CN115345158A (zh) 基于无监督学习的新词发现方法、装置、设备及存储介质
Packiam et al. A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data
US11537647B2 (en) System and method for decision driven hybrid text clustering
CN116049414B (zh) 基于话题描述的文本聚类方法、电子设备和存储介质
CN115310564B (zh) 一种分类标签更新方法及系统
EP4418141A1 (en) Document clustering using natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant