CN105574105A - 一种文本分类模型的确定方法 - Google Patents

一种文本分类模型的确定方法 Download PDF

Info

Publication number
CN105574105A
CN105574105A CN201510924971.XA CN201510924971A CN105574105A CN 105574105 A CN105574105 A CN 105574105A CN 201510924971 A CN201510924971 A CN 201510924971A CN 105574105 A CN105574105 A CN 105574105A
Authority
CN
China
Prior art keywords
sample data
word
described sample
text
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510924971.XA
Other languages
English (en)
Other versions
CN105574105B (zh
Inventor
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201510924971.XA priority Critical patent/CN105574105B/zh
Publication of CN105574105A publication Critical patent/CN105574105A/zh
Application granted granted Critical
Publication of CN105574105B publication Critical patent/CN105574105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类模型的确定方法,包括:获取包含多个文本的样本数据,并对所述样本数据进行预处理;对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息;根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。本发明解决样本数据在时间维度上分布不均匀时导致的文本分类性能下降的问题。

Description

一种文本分类模型的确定方法
技术领域
本发明涉及电子组织归类领域,尤其涉及一种文本分类模型的确定方法。
背景技术
文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。在现有技术中,文本分类通常采用基于统计的自动分类方法,所述的方法包括:S110:获取大规模的样本数据,并对样本数据进行预处理;S120:在预处理后的样本数据中提取特征词;S130:采用分类算法、提取的特征词和样本数据训练分类模型;S140:将待分类文本输入文本分类器中,通过文本分类器调用训练分类模型,判断待分类文本的类别。
现有技术中,分类模型的质量依赖于获取的大规模样本数据。如果样本数据在时间维度上分布不均匀,会导致文本分类的性能下降。例如,如果样本数据仅集中在一个时间段的范围内,会导致训练出的分类模型产生过拟合现象,不能反映真实环境的情况,从而影响文本分类的性能。
发明内容
有鉴于此,本发明实施例提供一种文本分类模型的确定方法,以解决样本数据在时间维度上分布不均匀时导致的文本分类性能下降的问题。
本发明实施例提供了一种文本分类模型的确定方法,包括:
获取包含多个文本的样本数据,并对所述样本数据进行预处理;
对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息;
根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;
根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。
本发明实施例提供的一种文本分类模型的确定方法,通过样本数据中各个词的时间密度分数提取样本数据中的特征词,通过提取的特征词、样本数据以及分类算法确定分类模型,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题,提高分类模型的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种文本分类模型的确定方法流程图;
图2是本发明实施例二提供的一种文本分类模型的确定方法流程图;
图3是本发明实施例三提供的一种文本分类模型的确定装置结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1是本发明实施例一提供的一种文本分类模型的确定方法流程图,本发明实施例的技术方案可由文本分类模型的确定装置来执行,该装置可以采用硬件和/或软件的方式来实现,所述的装置可设于计算机、智能终端等设备的内部。如图1所示,所述的方法包括:
S101:获取包含多个文本的样本数据,并对所述样本数据进行预处理。
在本实施例中,所述样本数据中的文本为已经进行类别划分的文本。获取包含多个文本的样本数据的方式有多种,可以从互联网上采集,也可以从数据库中进行读取。
在本实施例中,在所述样本数据进行预处理包括:对样本数据进行去噪音、编码转换、分词等。
S102:对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息。
在本实施例中,对样本数据中各个词进行时间密度的分数计算优选包括:获取样本数据中的各个文本在时间维度的分布数据;获取样本数据中的各个词在时间维度的分布数据;根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据,获取样本数据中各个词的时间密度分数。
示例性的,所述获取样本数据中文本在时间维度的分布数据优选包括:
将样本数据的生成时间进行等间隔划分,并统计每个时间间隔内文本的数量;采用如下的公式进行分别计算样本数据中的各个文本在时间维度的分布数据:
其中,f为所述样本数据中的文本;DF(f)为文本f在时间维度的分布数据。当计算样本数据中目标文本在时间维度的分布数据时,将目标文本作为f文本代入到计算DF(f)的公式中。f可以为样本数据中的任意文本。样本数据的生成时间为:样本数据中一个最早文本发布时间至另一个最晚文本发布时间之间的时间。例如,样本数据中最早的一个文本发布的时间为9:00,最晚的另一个文本发布的时间为9:59,那么,其他文本的发布时间均在9:00到9:59之间。样本数据的生成时间为9:00-9:59之间的时间。
另外,DF(f)能够评估文本f是否在时间维度上均匀分布的,如,将生成时间9:00-9:59之间的时间每隔10分钟划分为一个时间间隔,共有6个时间间隔,如果样本数据中文本的数量为6000个,若文本f所在的时间间隔内文本的数量均为1000个,DF(f)值为1/6,则表示文本f在时间维度上是均匀分布的。
在本实施例中,所述获取样本数据中的各个词在时间维度的分布数据优选包括:将样本数据的生成时间进行等间隔划分,统计各个词在每个时间间隔内出现的次数;采用如下的公式分别计算样本数据中的各个词在时间维度的分布数据:
其中,w为样本数据中的词,Dw(w)为样本数据中的词w在时间维度的分布数据。同理,DW(w)可以评估词w在时间维度上是否是均匀分布的。
示例性的,根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据,获取样本数据中各个词的时间密度分数包括:
采用样本数据中各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据,通过如下的公式获取样本数据中各个词的时间密度分数:
d(w)=αΣfDF(f)·δ(wf)+(1-α)DW(w)
其中,f为样本数据中的文本,DF(f)为样本数据中文本f在时间维度的分布数据;Dw(w)为样本数据中词w在时间维度的分布数据;d(w)为样本数据中词w的时间密度分数;当文本f在包含词w时,δ(w,f)=1,否则δ(w,f)=0;α为权重系数。
S103:根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词。
在本实施例中,根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词优选包括:根据所述样本数据中各个词的时间密度分数与各个词的相关参数,提取所述样本数据中的特征词。其中,可以将样本数据中各个词的时间密度的分数以及相关参数按照预设的关系进行组合,根据组合后得到的数据,提取所述样本数据中的特征词。各个词的相关参数为已知的参数或容易获得的参数,例如,各个词的相关参数可以为各个词的权重值,也可以为各个词的其他形式的参数。
S104:根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。
示例性的,根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型优选包括:根据所述样本数据中的文本是否出现提取的特征词,生成所述样本数据的文本向量;采用分类算法对所述样本数据的文本向量进行训练,获取用于判断待分类文本类别的分类模型。
举例说明,如果提取的特征词为1000个,特征词有[中国,人民,北京,人口,网络,安全,股市…],在样本数据中的一个文本中,如果出现了北京、网络、安全三个特征词,其他特征词没有出现,则该文本生成特征向量的过程中,如果出现的特征词用1表示,未出现的特征词用0表示。所以该文本生成的特征向量为[0,0,1,0,1,1,0…],由特征向量可以看出,该文本中仅仅出现北京、网络和安全三个特征词。由此类推,其他的文本均可以采用相同的方法生成对应的特征向量。如果样本数据中有2000个文本,可以生成2000个特征向量。将样本数据生成的特征向量按照分类算法进行训练,获取用于判断待分类文本类别的分类模型。其中,分类算法可以为支持向量机(SVM)算法、贝叶斯算法等。
在获得上述的分类模型之后,通过上述的分类模型对待分类文本进行分类。
本实施例提供了一种文本分类模型的确定方法,通过样本数据中各个词的时间密度分数提取样本数据中的特征词,通过提取的特征词、样本数据以及分类算法确定分类模型,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题,提高分类模型的性能。
实施例二
图2是本发明实施例二提供的一种文本分类模型的确定方法流程图,在上述实施例的基础上,在对所述样本数据中各个词进行密度分数计算之前,还执行如下的操作:
通过特征提取算法获取所述样本数据中各个词的第一权重值。
进一步的,根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词优选包括:
根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值;
根据获取的所述样本数据中各个词的第二权重值,提取所述样本数据中的特征词。
由此,通过样本数据中各个词的时间密度的分数以及样本数据中各个词的第一权重值,提取样本数据中的特征词,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题。
进一步的,在确定所述分类模型之后,还执行如下的操作:
对待分类文本进行预处理,根据待分类文本中是否出现样本数据中提取的特征词,生成待分类文本向量;
将待分类文本向量输入到文本分类器中,通过文本分类器调用所述的分类模型对待分类文本进行分类,获得分类结果。
基于上述的优化,本实施例提供的技术方案具体如下:
S201:获取包含多个文本的样本数据,并对所述样本数据进行预处理。
S202:通过特征提取算法获取所述样本数据中各个词的第一权重值。
在本实施例中,将预处理后的样本数据输入到特征提取算法中,就可以获取样本数据中各个词的第一权重值,其中各个词的第一权重值表征了各个词在样本数据中出现的次数或重要程度。
S203:对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息。
S204:根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值。
在本实施例中,根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值,优选包括:将所述样本数据中各个词的第一权重值和时间密度的分数按照预设的关系分别进行线性组合,获取所述样本数据中各个词的第二权重值。
具体的,采用样本数据中各个词的第一权重值和时间密度的分数获取样本数据中各个词的第二权重值的公式或函数可以采用如下的形式:m=λ1a+λ2b,其中m表示样本数据中各个词的第二权重值,λ1、λ2为分别为常数,a为各个词的第一权重值,b为各个词的时间密度的分数。其中,获取第二权重值的公式或函数也可以是其他的形式。
S205:根据获取的所述样本数据中各个词的第二权重值,提取所述样本数据中的特征词。
在本实施例中,所述根据所述样本数据中各个词的第二权重值,对所述样本数据的特征词进行提取优选包括:在所述样本数据的各个词中,按照第二权重值从大到小的顺序选取预设数量的词,将选取的词作为所述样本数据的特征词。
举例说明,如果样本数据中包含10000个词,通过计算分别可以得到各个词的第二权重值,按照第二权重值从大到小的顺序将样本数据中的10000个词进行排列,可以选取前1000个词作为样本数据的特征词。其中,特征词选取的数量可自行设置。
对于特征词的选取也可以采用如下的形式:如果样本数据的某些词的第二权重值达到了预设值,将第二权重值达到预设值的词作为样本数据的特征词。例如,如果预设值为c,第二权重值达到c的值作为样本数据的特征词。其中,可以通过预设值的大小来限制特征词的数量。
S206:根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。
S207:对待分类文本进行预处理,根据待分类文本中是否出现样本数据中提取的特征词,生成待分类文本向量。
S208:将待分类文本向量输入到文本分类器中,通过文本分类器调用所述的分类模型对待分类文本进行分类,获得分类结果。
采用上述的分类模型对待分类的文本进行类别判断时,进行举例说明,样本数据中提取的特征词为[中国,人民,北京,人口,网络,安全,股市…],待分类文本中仅仅出现了中国、人口和股市三个特征词,则待分类文本生成的特征向量为[1,0,0,1,0,0,1,…]。将待分类文本的特征向量输入到文本分类器中,通过文本分类器调用分类模型,将待分类文本生成的特征向量进行计算与分析,输出分类结果。
需要说明的是,虽然流程图中将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。如,本实施例示例性的将S203的操作放置在了S202操作之后,但是S203的操作可以在S202操作之前,并不影响分类模型的确定。
本发明实施例提供了一种分类模型的确定方法,通过样本数据中各个词的时间密度分数以及各个词的第一权重值来提取样本数据中的特征词,通过提取的特征词、样本数据以及分类算法确定分类模型,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题,提高分类模型的性能。
实施例三
图3是本发明实施例三提供的一种文本分类模型的确定装置,如图3所示,所述的装置包括:预处理模块301、时间密度分数获取模块302、特征词提取模块303和分类模型确定模块304。
预处理模块301,用于获取包含多个文本的样本数据,并对所述样本数据进行预处理;
时间密度分数获取模块302,用于对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息;
特征词提取模块303,用于根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;
分类模型确定模块304,用于根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。
进一步的,所述的装置还包括:词的第一权重值获取模块305,用于通过特征提取算法获取所述样本数据中各个词的第一权重值。
进一步的,特征词提取模块303,包括:
词的第二权重值获取单元3031,用于根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值;
特征词提取单元3032,用于根据获取的所述样本数据中各个词的第二权重值,提取所述样本数据中的特征词。
进一步的,时间密度分数获取模块302包括:
文本分布获取单元3021,用于获取样本数据中的各个文本在时间维度的分布数据;
词分布获取单元3022,用于获取样本数据中的各个词在时间维度的分布数据;
词时间密度分数获取单元3023,用于根据样本数据中的各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据,获取样本数据中各个词的时间密度分数。
进一步的,文本分布获取单元3021,具体用于:
将样本数据的生成时间进行等间隔划分,并统计每个时间间隔内文本的数量;
采用如下的公式进行分别计算样本数据中的各个文本在时间维度的分布数据:
其中,f为样本数据中的文本;DF(f)为文本f在时间维度的分布数据;
进一步的,词分布获取单元3022,具体用于:
将样本数据的生成时间进行等间隔划分,统计各个词在每个时间间隔内出现的次数;
采用如下的公式分别计算样本数据中的各个词在时间维度的分布数据:
其中,w为样本数据中的词,Dw(w)为样本数据中的词w在时间维度的分布数据。
进一步的,词时间密度分数获取单元3023,具体用于
采用样本数据中各个文本在时间维度的分布数据和样本数据中的各个词在时间维度的分布数据,通过如下的公式获取样本数据中各个词的时间密度分数:
d(w)=αΣfDF(f)·δ(w,f)+(1-α)DW(w)
其中,f为样本数据中的文本,DF(f)为样本数据中文本f在时间维度的分布数据;Dw(w)为样本数据中词w在时间维度的分布数据;d(w)为样本数据中词w的时间密度分数;当文本f在包含词w时,δ(w,f)=1,否则δ(w,f)=0;α为权重系数。
进一步的,词的第二权重值获取单元3031,具体用于:将所述样本数据中各个词的第一权重值和时间密度的分数按照预设的关系分别进行线性组合,获取所述样本数据中各个词的第二权重值。
进一步的,特征词提取单元3032,具体用于:
在所述样本数据的各个词中,按照第二权重值从大到小的顺序选取预设数量的词,将选取的词作为所述样本数据的特征词。
进一步的,分类模型确定模块304,具体用于:
根据所述样本数据中的文本是否出现提取的特征词,生成所述样本数据的文本向量;
采用分类算法对所述样本数据的文本向量进行训练,获取用于判断待分类文本类别的分类模型。
进一步的,所述的装置还包括:分类结果获得模块306,用于对待分类文本进行预处理,根据待分类文本中是否出现样本数据中提取的特征词,生成待分类文本向量;
将待分类文本向量输入到文本分类器中,通过文本分类器调用所述的分类模型对待分类文本进行分类,获得分类结果。
本发明实施例提供的一种文本分类模型的确定装置,通过样本数据中各个词的时间密度分数以及各个词的第一权重值来提取样本数据中的特征词,通过提取的特征词、样本数据以及分类算法确定分类模型,能够解决样本数据在时间维度上分布不均匀导致的文本分类性能下降的问题,提高分类模型的性能。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本分类模型的确定方法,其特征在于,包括:
获取包含多个文本的样本数据,并对所述样本数据进行预处理;
对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应词的文本在时间维度上的分布与对应词在时间维度上的分布的综合信息;
根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词;
根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型。
2.根据权利要求1所述的方法,其特征在于,在对所述样本数据中各个词进行时间密度的分数计算之前,包括:
通过特征提取算法获取所述样本数据中各个词的第一权重值。
3.根据权利要求2所述的方法,其特征在于,根据所述样本数据中各个词的时间密度的分数,提取所述样本数据中的特征词包括:
根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值;
根据获取的所述样本数据中各个词的第二权重值,提取所述样本数据中的特征词。
4.根据权利要求1所述的方法,其特征在于,对所述样本数据中各个词进行时间密度的分数计算包括:
获取所述样本数据中的各个文本在时间维度的分布数据;
获取所述样本数据中的各个词在时间维度的分布数据;
根据所述样本数据中的各个文本在时间维度的分布数据和所述样本数据中的各个词在时间维度的分布数据,获取所述样本数据中各个词的时间密度分数。
5.根据权利要求4所述的方法,其特征在于,获取所述样本数据中文本在时间维度的分布数据包括:
将所述样本数据的生成时间进行等间隔划分,并统计每个时间间隔内文本的数量;
采用如下的公式进行分别计算所述样本数据中的各个文本在时间维度的分布数据:
其中,f为所述样本数据中的文本;DF(f)为文本f在时间维度的分布数据;
获取所述样本数据中的各个词在时间维度的分布数据包括:
将所述样本数据的生成时间进行等间隔划分,统计各个词在每个时间间隔内出现的次数;
采用如下的公式分别计算所述样本数据中的各个词在时间维度的分布数据:
其中,w为所述样本数据中的词,Dw(w)为所述样本数据中的词w在时间维度的分布数据。
6.根据权利要求5所述的方法,其特征在于,根据所述样本数据中的各个文本在时间维度的分布数据和所述样本数据中的各个词在时间维度的分布数据,获取所述样本数据中各个词的时间密度分数包括:
采用所述样本数据中各个文本在时间维度的分布数据和所述样本数据中的各个词在时间维度的分布数据,通过如下的公式获取所述样本数据中各个词的时间密度分数:
d(w)=αΣfDF(f)·δ(w,f)+(1-α)DW(w)
其中,f为所述样本数据中的文本,DF(f)为所述样本数据中文本f在时间维度的分布数据;Dw(w)为所述样本数据中词w在时间维度的分布数据;d(w)为所述样本数据中词w的时间密度分数;当文本f在包含词w时,δ(w,f)=1,否则δ(w,f)=0;α为权重系数。
7.根据权利要求3所述的方法,其特征在于,根据所述样本数据中各个词的时间密度的分数以及获取的所述样本数据中各个词的第一权重值,获取样本数据中各个词的第二权重值,包括:
将所述样本数据中各个词的第一权重值和时间密度的分数按照预设的关系分别进行线性组合,获取所述样本数据中各个词的第二权重值。
8.根据权利要求3所述的方法,其特征在于,所述根据所述样本数据中各个词的第二权重值,对所述样本数据的特征词进行提取包括:
在所述样本数据的各个词中,按照第二权重值从大到小的顺序选取预设数量的词,将选取的词作为所述样本数据的特征词。
9.根据权利要求1所述的方法,其特征在于,所述根据预设的分类算法、提取的特征词及所述样本数据,确定用于判断待分类文本类别的分类模型包括:
根据所述样本数据中的文本是否出现提取的特征词,生成所述样本数据的文本向量;
采用分类算法对所述样本数据的文本向量进行训练,获取用于判断待分类文本类别的分类模型。
10.根据权利要求1所述的方法,其特征在于,在确定所述分类模型之后,还包括:
对待分类文本进行预处理,根据待分类文本中是否出现样本数据中提取的特征词,生成待分类文本向量;
将待分类文本向量输入到文本分类器中,通过文本分类器调用所述的分类模型对待分类文本进行分类,获得分类结果。
CN201510924971.XA 2015-12-14 2015-12-14 一种文本分类模型的确定方法 Active CN105574105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510924971.XA CN105574105B (zh) 2015-12-14 2015-12-14 一种文本分类模型的确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510924971.XA CN105574105B (zh) 2015-12-14 2015-12-14 一种文本分类模型的确定方法

Publications (2)

Publication Number Publication Date
CN105574105A true CN105574105A (zh) 2016-05-11
CN105574105B CN105574105B (zh) 2019-05-28

Family

ID=55884236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510924971.XA Active CN105574105B (zh) 2015-12-14 2015-12-14 一种文本分类模型的确定方法

Country Status (1)

Country Link
CN (1) CN105574105B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766360A (zh) * 2016-08-17 2018-03-06 北京神州泰岳软件股份有限公司 一种视频热度预测方法和装置
CN108629365A (zh) * 2017-03-15 2018-10-09 株式会社岛津制作所 分析数据解析装置以及分析数据解析方法
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN113535930A (zh) * 2021-09-16 2021-10-22 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115228A1 (ja) * 2005-04-21 2006-11-02 Intellectual Property Bank Corp. 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115228A1 (ja) * 2005-04-21 2006-11-02 Intellectual Property Bank Corp. 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766360A (zh) * 2016-08-17 2018-03-06 北京神州泰岳软件股份有限公司 一种视频热度预测方法和装置
CN108629365A (zh) * 2017-03-15 2018-10-09 株式会社岛津制作所 分析数据解析装置以及分析数据解析方法
CN108629365B (zh) * 2017-03-15 2022-06-03 株式会社岛津制作所 分析数据解析装置以及分析数据解析方法
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110334209B (zh) * 2019-05-23 2024-05-07 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN113535930A (zh) * 2021-09-16 2021-10-22 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN105574105B (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN107341270B (zh) 面向社交平台的用户情感影响力分析方法
CN101166159B (zh) 一种确定垃圾信息的方法及系统
CN102253937B (zh) 获取网页中的感兴趣信息的方法及相关装置
CN105005594B (zh) 异常微博用户识别方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN102096703B (zh) 短消息的过滤方法和设备
Vogel et al. Robust language identification in short, noisy texts: Improvements to liga
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN101710333A (zh) 基于遗传算法的网络文本分割方法
CN103176962B (zh) 文本相似度的统计方法及系统
CN101630312A (zh) 一种用于问答平台中问句的聚类方法及系统
CN102193936A (zh) 一种数据分类的方法及装置
CN105574105A (zh) 一种文本分类模型的确定方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN102033964A (zh) 基于块划分及位置权重的文本分类方法
CN109978020B (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN103294664A (zh) 开放领域新词发现的方法及系统
CN111159404B (zh) 文本的分类方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Pilehvar et al. Inducing embeddings for rare and unseen words by leveraging lexical resources
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN106681986A (zh) 一种多维度情感分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of determining text classification model

Effective date of registration: 20210705

Granted publication date: 20190528

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: Run Technologies Co.,Ltd. Beijing

Registration number: Y2021990000579

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190528

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2021990000579

PC01 Cancellation of the registration of the contract for pledge of patent right