CN109670182B - 一种基于文本哈希向量化表示的海量极短文本分类方法 - Google Patents

一种基于文本哈希向量化表示的海量极短文本分类方法 Download PDF

Info

Publication number
CN109670182B
CN109670182B CN201811573017.0A CN201811573017A CN109670182B CN 109670182 B CN109670182 B CN 109670182B CN 201811573017 A CN201811573017 A CN 201811573017A CN 109670182 B CN109670182 B CN 109670182B
Authority
CN
China
Prior art keywords
classification
text
word segmentation
hash
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811573017.0A
Other languages
English (en)
Other versions
CN109670182A (zh
Inventor
胡学钢
周明
朱毅
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811573017.0A priority Critical patent/CN109670182B/zh
Publication of CN109670182A publication Critical patent/CN109670182A/zh
Application granted granted Critical
Publication of CN109670182B publication Critical patent/CN109670182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本哈希向量化表示的海量极短文本分类方法,其步骤包括:1数据集向量化的前期分词预处理;2模型设计和实现;3应用Signed Hash Trick算法映射得到的包含文本词频特征的稀疏矩阵;4特征提取完后,用随机森林分类模型在训练集上训练分类器;5用训练集上的分类器在测试集上做分类预测;6完成在测试集上的分类,得到最终文本分类的准确度。本发明解决现有极短文本分类中存在的分类精度低、分类时间过长的问题,从而能提高极短文本的分类效果,并降低硬件的内存消耗,具有较高的鲁棒性和实用性。

Description

一种基于文本哈希向量化表示的海量极短文本分类方法
技术领域
本发明涉及极短文本的分词、文本向量化表示、特征提取和分类建模领域,具体是一种基于文本哈希向量化表示的海量极短文本分类方法。
背景技术
短文本通常是指长度在160字以下的文本形式,这一类文本分类问题的研究对象主要集中在微博、新闻标题、文献摘要和时事评论上。其主要目的是将输入的文本内容自动处理,得到有价值的分类输出。一般而言短文本数据可能会存在上下文语义,分类时可根据包含语义的向量化操作提取文本特征进行分类。但税务数据和常规短文本数据的区别在于税务数据库中物品名称均为孤立的极短文本,不存在上下文的语义信息,字数绝大多数在25个字以下,极端情况甚至有单字的名称表示由此带来的特征稀疏问题也给分类造成了极大的困难。同时文本间无规律可循,涉及各个行业和领域,涵盖了医疗、日用、生化、服务、食品、电气等各个行业的商品。而且因为一些不同领域的商品名称可能会包含相同的成分性词汇,因此实际上并不能用提取关键词的方式进行分类。,比如“乙醇”,对于"2-(2,4-二氨基苯氧基)乙醇-二盐酸"和“92号车用乙醇汽油(E10)”两种商品而言是两个完全不同的类别。再者,税务数据的分类详细,类别众多,仅现有的数据库中包含的税务类别就已经高达4200多类。因此常规针对短文本的分类方式难以适用于税务数据的极短文本。对于这样的极短文本,建立的分类框架首先必须要满足大数据规模下的分类需求,进而,针对税务数据所呈现出的数据特征,减小分类误差,如何提高分类准确度也是重要目标之一。
通常文本的向量化的表示方法诸如word2vec、sen2vec在提取文本特征时会包含词义、上下文等诸多信息,对于税务数据而言这些特征信息对分类操作来说则为冗余信息,增加了算法计算量的同时也不会提升最终的分类准确度。同时传统的哈希方法可能会造成在海量数据下特征维度过高以及大量特征映射到同一个位置造成的哈希碰撞问题。
在分类器的构建上,无论是朴素贝叶斯、最近邻分类器KNN、支持向量机SVM等机器学习分类器还是近年来使用广泛的神经网络和深度学习在文本分类的问题上均有应用。但神经网络并不适用于向量化表示后高维稀疏且特征弱化的文本表示,而深度学习更适用于图像、语音等有局部相关性的连续稠密型数据形式。常用的机器学习分类模型也均有不足。Bayes分类方法无法处理基于特征组合所产生的变化结果。SVM应用在数据量巨大的多类文本分类时计算复杂度过高的问题难以克服。KNN算法时间复杂度高、可解释性差,也无法解决当样本分布不平衡时分类结果偏差较大的问题。Ridge Classifier没有特征选择功能。随机梯度下降分类SGD Classifier虽然适用于大规模稀疏文本,但是对于特征归一化非常敏感,且迭代更新过于依赖批数据导致分类结果十分不稳定。感知器Perceptron仅对于线性可分的数据集效果良好。PA的容噪能力稍弱,并且在大数据条件下需要文本极高维度的向量化表示才能有良好的分类准确度,这无疑对实际应用中的内存大小有着较为严苛的要求。
有关短文本的分类研究中,已有的方法大多针对社交文本、新闻数据等,这些文本内容类别较少,文字含有语义信息,而针对税务数据这种词组型极短文本的分类的研究工作很少。随机森林是针对文本分类的同时避免过度拟合的有效手段之一,但是随机森林应用在短文本上还存在着一些问题,常见问题有:
(a)文本分词过程中区别于英文文本,没有空格作为词间隔,同时分词需要适应特定文本内容;
(b)不关心语义信息的短文本数据特征稀疏问题;
(c)数据量巨大时,高维度的特征表示可能使实际中内存难以承受。如果不能很好地解决这些问题,必然会对极短文本分类的准确性带来不利影响。
发明内容
本发明为克服现有技术的不足之处,提供一种基于文本哈希向量化表示的海量极短文本分类方法,以期能解决现有极短文本分类中存在的分类精度低、分类时间过长的问题,从而能提高极短文本的分类效果,并降低硬件的内存消耗,具有较高的鲁棒性和实用性。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种基于文本哈希向量化表示的海量极短文本分类方法的特点包括以下步骤:
步骤1、对数据库中有类别的标记数据集S进行分词预处理,得到分词数组;
步骤1.1、将所述标记数据集S记为数组[X1,Y1],[X2,Y2],...,[Xn,Yn],...,[XN,YN],其中,N表示所述标记数据集S中极短文本的总数,[Xn,Yn]表示第n个极短文本及其分类所构成一个数组;Xn表示第n个极短文本,Yn表示第n个极短所对应的分类,n=1,2,…,N,N表示不同的分类种数;
步骤1.2、设置自定义词库、停用词和正则表达式并作为匹配条件;在jieba_fast分词方法中的精准模式下采用匹配条件对第n个极短文本Xn进行分词,得到第n个极短文本Xn的分词结果
Figure BDA0001916036230000021
其中,xn,d表示第n个分词结果Fn中第d个词,d=1,2,…,Dn,Dn表示第n个分词结果Fn中的词总数;从而得到N个极短文本的分词结果并构成分词数组[F1,F2,…,Fn,…,FN];
步骤2、基于分词结果采用词袋模型的Signed Hash Trick方法训练所有词的哈希文本向量,并提取文本词频特:
步骤2.1、定义维度为β的哈希表;将所述第n个分词结果Fn中第d个词xn,d用哈希函数h(xn,d)=j映射到所述哈希表中的第j个位置;从而将第n个分词结果Fn中所有的词分别映射到哈希表中,得到哈希向量化后的稀疏矩阵;
步骤2.2、设置用于扰乱原始映射位置的参数α;并利用带有参数α的叠加函数ξ(xn,d)使得第j个位置的映射次数小于阈值;
步骤2.3、利用式(1)得到第j个位置上的词频
Figure BDA0001916036230000031
从而得到哈希表中所有位置上的词频并存储在稀疏矩阵中,得到哈希向量化后的稀疏矩阵:
Figure BDA0001916036230000032
式(1)中,τ表示分词数组中所有词的总数;
步骤3、采用随机森林的分类模型对所述哈希向量化后的稀疏矩阵进行分类建模,得到CART决策树:
步骤3.1、定义抽样次数为t,并初始化t=1;定义最大抽样次数为tmax
步骤3.2、用Bootstrap抽样方法从N个极短文本中第t次随机且有放回地抽取m个样本
Figure BDA0001916036230000033
其中
Figure BDA0001916036230000034
表示第t次抽取的第m个极短文本,m=1,2,…,M;
步骤3.2、在第t次抽取的m个样本
Figure BDA0001916036230000035
的M个分词结果中随机选取K个词所对应的词频;且所述K个词属于s个样本;1≤s≤m;
步骤3.3、利用所述K个词所对应的词频第t次计算所述s个样本所对应的s个类别的基尼系数;并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点,从而第t棵CART决策树;
步骤3.3、将t+1赋值给t,并判断t≥tmax并是否成立,若成立,则表示得到tmax棵CART决策树,并集成为随机森林;否则,返回步骤3.2执行;
步骤3.4、将新的极短文本输入所述随机森林中,得到tmax个分类结果,并将tmax个分类结果中出现次数最多的类别作为新的极短文本所属分类。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过采用结合jieba_fast分词、Signed Hash Trick文本向量化以及随机森林建模的方法来对海量极短文本进行分类,从极短文本数据特征出发,将开源的jieba_fast分词算法结合自定义词库,对极短文本数据进行针对性的精准切分,通过Signed Hash Trick将高维稀疏的分词结果映射到固定维度的低维空间,提取了文本词频特征的同时提升了算法的时间空间性能,构建了随机森林分类器,基于基尼系数选择最优特征建立决策树,最后利用多棵决策树的决策结果投票决定最终分类,与传统的文本分类算法相比较,提高了表示分类的准确性,减少了分类时间,并平衡了实际中的硬件内存消耗和分类结果的准确度。
2、本发明方法的分词阶段在常规的正则匹配项基础上增加了领域性自定义词库和停用词,在该阶段可以根据当前的特定文本内容进行精准切分,减少了误切、漏切和重复切分。
3、本发明对分词结果使用Signed Hash Trick的向量化映射来提取词频特征,首先避免了大量特征映射到同一位置的哈希碰撞,其次将海量极短文本呈现的高维稀疏特征映射到自定义维度的低维特征空间,控制了对应的硬件内存消耗、提高了时间性能,与此同时可以保证对于原始特征的代表性,确保了在后面分词建模阶段中文本特征的可用性。
4、本发明针对哈希向量化后的文本特征,随机的样本和属性选择确保了分类的平衡性,基于基尼系数最小化原则选择最优特征作为节点建立决策树,多颗决策树集成的随机森林通过投票法保证了分类的准确度,极大的减少了分类的泛化误差。
5、本发明解决了极短文本分类这一重要实际问题,研究成果可以直接应用在海量的极短文本的分类中,并可以拓展应用到其他包含极短文本的分类建模工作中,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
附图说明
图1为本发明方法流程图;
图2为本发明分词遍历过程示意图;
图3为本发明随机森林分类建模示意图;
图4为本发明税务字数分布统计图表。
具体实施方式
本实施例中,一种基于文本哈希向量化表示的海量极短文本分类方法是从税务领域的分类问题进行研究,并对海量极短文本进行分词预处理,针对性切割数据集中的文本内容;然后利用Signed Hash Trick方法将高维的文本特征映射到自定义维度的特征空间中,避免了哈希碰撞的基础上将词频特征映射存储在稀疏矩阵中;再利用两次随机过程抽取文本样本和特征,根据基尼指数最小化原则选择最优特征作为结点建立决策树,重复建立过程得到多颗决策树集成为随机森林,最终根据随机森林的投票结果产生文本的分类结果。具体流程如图1所示,该分类方法包括以下步骤:
步骤1、从税务数据所呈现极短文本数据特征出发,对税务数据库中有类别的标记数据集S进行分词预处理,得到分词数组,有标记的数据形式如表1所示,(HMWC列表示物品名称,U_CODE表示对应的税务编码);
表1数据内容及格式示意表
Figure BDA0001916036230000051
步骤1.1、将标记数据集S记为数组[X1,Y1],[X2,Y2],...,[Xn,Yn],...,[XN,YN],其中,N表示标记数据集S中极短文本的总数,[Xn,Yn]表示第n个极短文本及其分类所构成一个数组;Xn表示第n个极短文本,Yn表示第n个极短所对应的分类,n=1,2,…,N,N表示不同的分类种数,当前数据库中文本的字数90%分布在1~25个字之间,具体分布如图4;
步骤1.2、设置自定义词库、停用词使得一些固定的商品名称不被切分以及去掉一些在文本分析中不需要的词,同时增强分词的歧义纠错能力。以及同时使用正则表达式“u4e00-”和“u9fa5_a-zA-Z”并作为匹配条件;在jieba_fast分词方法中的精准模式下采用匹配条件对第n个极短文本Xn进行分词,此时基于前缀词典实现高效的词图扫描,扫描过程如图2所示,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),之后寻找最佳切分方案。假设有词形如“男女服饰上衣衬衫”在分词时构造的DAG结果为{0:[0],1:[1],2:[2,3],3:[3],4:[4,5],5:[5],6:[6,7],7:[7]},紧接着用Route存储最佳分词位置及评估分数,分数越大越好。使用动态规划查找最大概率路径,以找出基于词频的最大切分组合,其实就是从末尾开始遍历,遍历到某个节点时,计算以该节点为起始位置,以最后一个节点为结束位置,这之间为字符串的最佳分词方案,从而第n个极短文本得到Xn的分词结果
Figure BDA0001916036230000061
其中,xn,d表示第n个分词结果Fn中第d个词,d=1,2,…,Dn,Dn表示第n个分词结果Fn中的词总数;从而得到N个极短文本的分词结果并构成分词数组[F1,F2,…,Fn,…,FN],分词后的示例如表2;
表2分词后物品名称样例表
Figure BDA0001916036230000062
步骤2、传统的哈希方法可能会造成在海量数据下特征维度过高以及哈希碰撞的问题,因此基于分词结果采用词袋模型的Signed Hash Trick方法训练所有词的哈希文本向量,在此过程中提取文本词频特征,不考虑词义和上下文,具体操作依次包含以下步骤:
步骤2.1、为了方便接下来哈希向量化的矩阵计算,将文本中的空值统一替换为“NaN”,这是一种变量类型为float的空值数值,在计算时没有实际含义,起到占位作用。使用“shuffle()”函数打乱分词结果,打乱后按照词长进行索引排列。定义维度为β的哈希表,默认值是220,在默认值的条件下,该维度在实际情况的计算中同样存在时间复杂度过高和内存溢出的问题。因此在避免哈希碰撞的基础上将该值固定为29;将第n个分词结果Fn中第d个词xn,d用哈希函数h(xn,d)=j映射到哈希表中的第j个位置;从而将第n个分词结果Fn中所有的词分别映射到哈希表中,得到哈希向量化后的稀疏矩阵;
步骤2.2、设置用于扰乱原始映射位置的参数α;并利用带有参数α的叠加函数ξ(xn,d)使得第j个位置的映射次数小于阈值;
步骤2.3、利用式(1)得到第j个位置上的词频
Figure BDA0001916036230000071
从而得到哈希表中所有位置上的词频并存储在稀疏矩阵中,得到哈希向量化后的稀疏矩阵,哈希后的特征仍然是一个无偏的估计,而且也不会导致某些哈希位置的值过大。在实际应用中,由于文本的高稀疏性,这种降维的哈希映射方式可以很好的代表哈希前的文本特征:
Figure BDA0001916036230000072
式(1)中,τ表示分词数组中所有词的总数,通过该映射方式后,数据被抽象化为如下形式:
Figure BDA0001916036230000073
Figure BDA0001916036230000081
Signed Hash Trick降维后的特征无法它代表的特征名字和意义,没有可解释性。
步骤3、采用随机森林的分类模型对哈希向量化后的稀疏矩阵进行分类建模,得到CART决策树。随机森林是基于集成学习学习的思想,该分类算法将集成学习的思想运用在决策树的基础上并加以改良,与此同时具有其算法基础原型决策树所不具备的优势,比如无需调整过度参数、极少出现过度拟合、适用于含有大量特征的数据等。目前根据个体学习器的生成方式,集成学习方法可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法;以及个体学习器间不存在强依赖关系,可同时生成的并行化方法。前者的代表是Boosting,后者的代表是Bagging和随机森林。同一批数据,用同样的算法只能产生一棵树,这时Bagging策略可以产生不同的数据集。随机森林则在Bagging的基础上更进了一步,通过随机选择节点上的一部分样本特征,这个数字小于特征总数,然后在这些随机选择的个样本特征中,选择一个最优的特征来做决策树的左右子树划分。继而进一步增强了模型的泛化能力。具体步骤如下:
步骤3.1、在开始建模之前,首先将向量化后的名称列转换为float的数值类型,方便接下来的计算,采用StratifiedShuffleSplit函数划分训练集和测试集。其中参数n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10,这里设置为1。再用参数test_size和train_size来设置train/test对中train和test所占的比例。假设有10个数据,设置train_size=0.8,test_size=0.2,则进行划分以后8个是训练数据,2个是测试数据。为了交叉验证的准确性,这里设置参数random_state将样本数据随机打乱。
定义抽样次数为t,并初始化t=1;定义最大抽样次数为tmax
步骤3.2、用Bootstrap抽样方法(基于Bagging策略)从N个极短文本中第t次随机且有放回地抽取m个样本
Figure BDA0001916036230000082
其中
Figure BDA0001916036230000083
表示第t次抽取的第m个极短文本,m=1,2,…,M;
步骤3.2、在第t次抽取的m个样本
Figure BDA0001916036230000091
的M个分词结果中随机选取K个词所对应的词频;且K个词属于s个样本;1≤s≤m;
步骤3.3、利用K个词所对应的词频第t次计算s个样本所对应的s个类别的基尼系数;并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点,从而第t棵CART决策树;
步骤3.3、将t+1赋值给t,并判断t≥tmax并是否成立,若成立,则表示得到tmax棵CART决策树,这里决策树树量设置为15,并集成为随机森林;否则,返回步骤3.2执行。决策树的max_depth为None,即会扩展节点,直到所有的叶子是纯净的,或者直到所有叶子包含少于min_sample_split的样本,min_sample_split为分割内部节点所需要的最小样本数量,默认为2。为了提高算法时间性能,增加参数n_jobs=-1,将处理器并行作业量最大化,随机森林的建模过程如图3所示;
步骤3.4、将新的极短文本输入随机森林中,得到tmax个分类结果,并将tmax个分类结果中出现次数最多的类别作为新的极短文本所属分类。

Claims (1)

1.一种基于文本哈希向量化表示的海量极短文本分类方法,其特征包括以下步骤:
步骤1、对数据库中有类别的标记数据集S进行分词预处理,得到分词数组;
步骤1.1、将所述标记数据集S记为数组[X1,Y1],[X2,Y2],...,[Xn,Yn],...,[XN,YN],其中,N表示所述标记数据集S中极短文本的总数,[Xn,Yn]表示第n个极短文本及其分类所构成一个数组;Xn表示第n个极短文本,Yn表示第n个极短所对应的分类,n=1,2,…,N,N表示不同的分类种数;
步骤1.2、设置自定义词库、停用词和正则表达式并作为匹配条件;在jieba_fast分词方法中的精准模式下采用匹配条件对第n个极短文本Xn进行分词,得到第n个极短文本Xn的分词结果
Figure FDA0001916036220000011
其中,xn,d表示第n个分词结果Fn中第d个词,d=1,2,…,Dn,Dn表示第n个分词结果Fn中的词总数;从而得到N个极短文本的分词结果并构成分词数组[F1,F2,…,Fn,…,FN];
步骤2、基于分词结果采用词袋模型的Signed Hash Trick方法训练所有词的哈希文本向量,并提取文本词频特:
步骤2.1、定义维度为β的哈希表;将所述第n个分词结果Fn中第d个词xn,d用哈希函数h(xn,d)=j映射到所述哈希表中的第j个位置;从而将第n个分词结果Fn中所有的词分别映射到哈希表中,得到哈希向量化后的稀疏矩阵;
步骤2.2、设置用于扰乱原始映射位置的参数α;并利用带有参数α的叠加函数ξ(xn,d)使得第j个位置的映射次数小于阈值;
步骤2.3、利用式(1)得到第j个位置上的词频
Figure FDA0001916036220000012
从而得到哈希表中所有位置上的词频并存储在稀疏矩阵中,得到哈希向量化后的稀疏矩阵:
Figure FDA0001916036220000013
式(1)中,τ表示分词数组中所有词的总数;
步骤3、采用随机森林的分类模型对所述哈希向量化后的稀疏矩阵进行分类建模,得到CART决策树:
步骤3.1、定义抽样次数为t,并初始化t=1;定义最大抽样次数为tmax
步骤3.2、用Bootstrap抽样方法从N个极短文本中第t次随机且有放回地抽取m个样本
Figure FDA0001916036220000021
其中
Figure FDA0001916036220000022
表示第t次抽取的第m个极短文本,m=1,2,…,M;
步骤3.2、在第t次抽取的m个样本
Figure FDA0001916036220000023
的M个分词结果中随机选取K个词所对应的词频;且所述K个词属于s个样本;1≤s≤m;
步骤3.3、利用所述K个词所对应的词频第t次计算所述s个样本所对应的s个类别的基尼系数;并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点,从而第t棵CART决策树;
步骤3.3、将t+1赋值给t,并判断t≥tmax并是否成立,若成立,则表示得到tmax棵CART决策树,并集成为随机森林;否则,返回步骤3.2执行;
步骤3.4、将新的极短文本输入所述随机森林中,得到tmax个分类结果,并将tmax个分类结果中出现次数最多的类别作为新的极短文本所属分类。
CN201811573017.0A 2018-12-21 2018-12-21 一种基于文本哈希向量化表示的海量极短文本分类方法 Active CN109670182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811573017.0A CN109670182B (zh) 2018-12-21 2018-12-21 一种基于文本哈希向量化表示的海量极短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811573017.0A CN109670182B (zh) 2018-12-21 2018-12-21 一种基于文本哈希向量化表示的海量极短文本分类方法

Publications (2)

Publication Number Publication Date
CN109670182A CN109670182A (zh) 2019-04-23
CN109670182B true CN109670182B (zh) 2023-03-24

Family

ID=66145855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811573017.0A Active CN109670182B (zh) 2018-12-21 2018-12-21 一种基于文本哈希向量化表示的海量极短文本分类方法

Country Status (1)

Country Link
CN (1) CN109670182B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100453B (zh) * 2019-06-18 2024-05-28 深信服科技股份有限公司 一种字符串分布统计方法、系统、设备及计算机存储介质
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN111241240B (zh) * 2020-01-08 2023-08-15 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN112257416A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种稽查新词发现方法及系统
CN112861506B (zh) * 2021-03-12 2023-11-24 云知声智能科技股份有限公司 一种提升训练数据生成速度的方法和设备
CN115994217B (zh) * 2022-11-29 2024-01-23 南京审计大学 一种财务报告舞弊检测方法及系统
CN116186628B (zh) * 2023-04-23 2023-07-07 广州钛动科技股份有限公司 App应用自动打标方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107562728A (zh) * 2017-09-12 2018-01-09 电子科技大学 基于结构和文本信息的社交媒体短文本过滤方法
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037320B2 (en) * 2014-06-30 2018-07-31 Microsoft Technology Licensing, Llc Context-aware approach to detection of short irrelevant texts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107562728A (zh) * 2017-09-12 2018-01-09 电子科技大学 基于结构和文本信息的社交媒体短文本过滤方法
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
词向量与LDA相融合的短文本分类方法;张群等;《现代图书情报技术》;20161225(第12期);全文 *

Also Published As

Publication number Publication date
CN109670182A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670182B (zh) 一种基于文本哈希向量化表示的海量极短文本分类方法
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Qamar et al. Similarity learning for nearest neighbor classification
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN109165383B (zh) 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110727839A (zh) 自然语言查询的语义解析
Gurjar et al. Learning deep representations for word spotting under weak supervision
CN109657061B (zh) 一种针对海量多词短文本的集成分类方法
CN106599072B (zh) 一种文本聚类方法及装置
CN111309920B (zh) 一种文本分类方法、终端设备及计算机可读存储介质
van Oosten et al. Separability versus prototypicality in handwritten word-image retrieval
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
Deniz et al. Effects of various preprocessing techniques to Turkish text categorization using n-gram features
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
Lumbanraja et al. Abstract classification using support vector machine algorithm (case study: abstract in a Computer Science Journal)
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Imad et al. Automated Arabic News Classification using the Convolutional Neural Network.
Bassiou et al. Greek folk music classification into two genres using lyrics and audio via canonical correlation analysis
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Huang et al. Keyword spotting in unconstrained handwritten Chinese documents using contextual word model
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Kaysar et al. Word sense disambiguation of Bengali words using FP-growth algorithm
Preetham et al. Comparative Analysis of Research Papers Categorization using LDA and NMF Approaches
CN111914108A (zh) 基于语义保持的离散监督跨模态哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant