CN113486176A - 一种基于二次特征放大的新闻分类方法 - Google Patents

一种基于二次特征放大的新闻分类方法 Download PDF

Info

Publication number
CN113486176A
CN113486176A CN202110781669.9A CN202110781669A CN113486176A CN 113486176 A CN113486176 A CN 113486176A CN 202110781669 A CN202110781669 A CN 202110781669A CN 113486176 A CN113486176 A CN 113486176A
Authority
CN
China
Prior art keywords
word
vector
category
news text
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110781669.9A
Other languages
English (en)
Other versions
CN113486176B (zh
Inventor
张文辉
方兴
王子辰
林镇源
罗鸿豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110781669.9A priority Critical patent/CN113486176B/zh
Publication of CN113486176A publication Critical patent/CN113486176A/zh
Application granted granted Critical
Publication of CN113486176B publication Critical patent/CN113486176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于二次特征放大的新闻分类方法,结合改进TF‑IDF算法和Word2vec算法,在对新闻预测时,对待预测文本的特征进行二次特征放大,可有效增大文本特征,从而进一步增加预测准确率。

Description

一种基于二次特征放大的新闻分类方法
技术领域
本发明涉及技术领域,具体涉及一种基于二次特征放大的新闻分类方法。
背景技术
随着互联网技术的迅猛发展,网络已经成为人们获取新闻的重要平台,网络中的新闻文本数量呈现出爆炸式的增长趋势。针对新闻种类较多、新闻的内容层次参差不齐问题,对新闻进行科学的分类既能够方便不同的阅读群体根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求。
TF-IDF(词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术,其通过统计字词在文本中出现的次数和整个语料中出现的文档频率来评判某个字词的在整个语料和文本中的重要程度。但是当文档数量过多的时候,不同单词的数量非常大,而单个文档使用的单词数量远远少于总体词袋单词个数,此时所表示的特征向量是非常稀疏的。仅以“词频”度量词的重要性,后续构成文档的特征值序列,词之间各自独立,无法反映序列信息,且易受数据集偏斜的影响,如某一类别的文档偏多,会导致IDF(逆文本频率)低估,进而影响新闻分类的准确性。
发明内容
本发明针对利用TF-IDF进行新闻分类时所存在的准确性不高的问题,提出一种基于二次特征放大的新闻分类方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于二次特征放大的新闻分类方法,包括步骤如下:
步骤1、将带有类别标签的新闻文本通过Word2vec算法进行分词处理后去除停用词,得到训练集;
步骤2、先分别统计训练集中各个类别中词频排名前m位的词,并通过Word2vec算法计算这些词的词向量bij;再利用每个类别的词向量构造该类别的中心向量,得到每个类别的中心向量ci
步骤3、将训练集中各个类别的词向量bij和对应的类别标签送入gensim.models.word2vec模型进行训练,得到训练好的类别识别模型;
步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词,并得到待测新闻文本,并通过Word2vec计算待测新闻文本中每个词的词向量dk;
步骤5、计算待测新闻文本的每个词的词向量dk与步骤2所得的训练集的每个词的词向量bij的余弦相似度cos(dk,bij);
步骤6、基于余弦相似度cos(dk,bij)对待测新闻文本中每个词的词向量dk进行特征放大,得到每个词的放大词向量d′k
步骤7、基于每个词的放大词向量d′k,计算待测新闻文本的每个类别的初始特征表征向量Ti
步骤8、计算待测新闻文本的每个类别的初始特征表征向量Ti与步骤2所得的训练集的每个类别的中心向量ci的余弦相似度cos(Ti,ci);
步骤9、基于余弦相似度cos(Ti,ci)对待测新闻文本的每个类别的初始特征表征向量Ti行特征放大,得到每个类别的放大初始特征表征向量T′i
步骤10、基于每个类别的放大初始特征表征向量T′j,计算待测新闻文本的每个类别的最终特征表征向量T″j
步骤11、将待测新闻文本的每个类别的最终特征表征向量T″j中模最大的那个类别的最终特征表征向量作为待测新闻文本的最终特征表征向量;
步骤12、将待测新闻文本的最终特征表征向量送入到步骤3训练好的类别识别模型中,得到待测新闻文本的类别;
上述i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
上述步骤5中,待测新闻文本的第k个词的词向量dk与训练集的第i个类别的第j个词的词向量bij的余弦相似度cos(dk,bij)为:
Figure BDA0003153562930000021
式中,dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量;符号.表示点乘,符号| |表示取模。
上述步骤6中,待测新闻文本的第k个词的放大词向量d′k为:
d′k=dk×TFk×IDFk×SCV1
式中,SCV1为第一放大函数,
Figure BDA0003153562930000022
当余弦相似度cos(dk,bij)<θ1时,第一放大调参值a1i取1,当余弦相似度cos(dk,bij)≥θ1时,第一放大调参值a1i取大于1的设定值;dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;TFk为待测新闻文本的第k个词的词频;IDFk为待测新闻文本的第k个词逆文本频率;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
上述步骤7中,待测新闻文本的第i个类别的初始特征表征向量Ti为:
Figure BDA0003153562930000023
式中,SCV1为第一放大函数,
Figure BDA0003153562930000024
当余弦相似度cos(dk,bij)<θ1时,第一放大调参值a1i取1,当余弦相似度cos(dk,bij)≥θ1时,第一放大调参值a1i取大于1的设定值;dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;d′k为待测新闻文本的第k个词的放大词向量;TFk为待测新闻文本的第k个词的词频;IDFk为待测新闻文本的第k个词逆文本频率;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
上述步骤8中,待测新闻文本的第i个类别的初始特征表征向量Ti与训练集的第i个类别的中心向量ci的余弦相似度cos(Ti,ci)为:
Figure BDA0003153562930000031
式中,Ti为待测新闻文本的第i个类别的初始特征表征向量;ci为训练集的第i个类别的中心向量;i=1,2,…,n,n代表类别数量;符号·表示点乘,符号| |表示取模。
上述步骤9中,待测新闻文本的第i个类别的放大初始特征表征向量T′i为:
T′i=Ti×SCV2
式中,SCV2为第二放大函数,
Figure BDA0003153562930000032
当余弦相似度cos(Ti,ci)<θ1时,第二放大调参值a2i取1,当余弦相似度cos(Ti,ci)≥θ1时,第二放大调参值a2i取大于1的设定值;Ti为待测新闻文本的第i个类别的初始特征表征向量;ci为训练集的第i个类别的中心向量;i=1,2,…,n,n代表类别数量。
上述步骤10中,待测新闻文本的第i个类别的最终特征表征向量T″i为:
Figure BDA0003153562930000033
式中,Ti为待测新闻文本的第i个类别的初始特征表征向量;T′i为待测新闻文本的第i个类别的放大初始特征表征向量;i=1,2,…,n,n代表类别数量;符号| |表示取模。
与现有技术相比,本发明提出一种基于TF-IDF和Word2vec的二次特征放大新闻分类方法,结合改进TF-IDF算法和Word2vec算法,在对新闻预测时,对待预测文本的特征进行二次特征放大,可有效增大文本特征,从而进一步增加预测准确率。
附图说明
图1为一种基于二次特征放大的新闻分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种基于二次特征放大的新闻分类方法,如图1所示,包括步骤如下:
步骤1、将带有类别标签的新闻文本通过Word2vec算法进行分词处理后去除停用词,得到训练集。
Word2vec又叫词向量,也叫词嵌入,其可以解决TF-IDF方法的稀疏性问题,它的核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级。这几百维的特征向量是稠密的,向量中的每一个成员值都是非0的。
步骤2、先分别统计训练集中各个类别中词频排名前m位的词,并通过Word2vec算法计算这些词的词向量bij;再利用每个类别的词向量构造该类别的中心向量,得到每个类别的中心向量ci。其中i=1,2,…,n,n代表类别数量。j=1,2,…,m,m代表设定的词频排名位数。
步骤3、将训练集中各个类别的词向量bij和对应的类别标签送入gensim.models.word2vec模型进行训练,得到训练好的类别识别模型M_Word2vec待后续使用。
gensim是一款开源的第三方Python工具包,gensim.models.word2vec是gensim的一个子模块,可以用来实现可扩展的统计语义、分析语义结构的纯文本和检索语义上类似的文本三大功能。
步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词,并得到待测新闻文本,并通过Word2vec计算待测新闻文本中每个词的词向量dk。其中k=1,2,…,l,l代表待测新闻文本的词数量。
步骤5、计算待测新闻文本的每个词的词向量dk与步骤2所得的训练集的每个词的词向量bij的余弦相似度cos(dk,bij)。
余弦相似度cos(dk,bij)为:
Figure BDA0003153562930000041
式中,符号| |表示向量的模,符号.表示向量点乘。
步骤6、基于余弦相似度cos(dk,bij)对待测新闻文本中每个词的词向量dk进行特征放大,得到每个词的放大词向量d′k
每个词的放大词向量d′k为:
d′k=dk×TFk×IDFk×SCV1 (2)
其中:
第k个词的词频TFk为:
Figure BDA0003153562930000042
第k个词逆文本频率IDFk为:
Figure BDA0003153562930000043
第一放大函数SCV1为:
Figure BDA0003153562930000051
式中,a1i为第一放大调参值,当cos(dk,bij)<θ1时,a1i=1,当cos(dk,bij)≥θ1时,α1取大于1的任意值,可依据需求随意调整放大倍数。
步骤7、基于每个词的放大词向量d′k,计算待测新闻文本的每个类别的初始特征表征向量Ti
每个类别的初始特征表征向量Ti为:
Figure BDA0003153562930000052
步骤8、计算待测新闻文本的每个类别的初始特征表征向量Ti与步骤2所得的训练集的每个类别的中心向量ci的余弦相似度cos(Ti,ci)。
余弦相似度cos(Ti,ci)为:
Figure BDA0003153562930000053
步骤9、基于余弦相似度cos(Ti,ci)对待测新闻文本的每个类别的初始特征表征向量Ti进行特征放大,得到每个类别的放大初始特征表征向量T′i
每个类别的放大初始特征表征向量T′i为:
T′i=Ti×SCV2 (8)
第二放大函数SCV2为:
Figure BDA0003153562930000054
式中,a2i为第二放大调参值,当cos(Ti,ci)<θ1时,a2i=1,当cos(Ti,ci)≥θ1时,a2i取大于1的任意值,可依据需求随意调整放大倍数。
步骤10、基于每个类别的放大初始特征表征向量T′i,计算待测新闻文本的每个类别的最终特征表征向量T″i
每个类别的最终特征表征向量T″j为:
Figure BDA0003153562930000055
步骤11、将待测新闻文本的每个类别的最终特征表征向量T″j中模最大的那个类别的最终特征表征向量maxi{|T″i|}作为待测新闻文本的最终特征表征向量。
步骤12、将待测新闻文本的最终特征表征向量送入到步骤3训练好的类别识别模型中,得到待测新闻文本的类别。
本发明基于TF-IDF和Word2vec的二次特征放大新闻分类方法,结合改进TF-IDF算法和Word2vec算法,在对新闻预测时,对待预测文本的特征进行二次特征放大,可有效增大文本特征,从而进一步增加预测准确率。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (7)

1.一种基于二次特征放大的新闻分类方法,其特征是,包括步骤如下:
步骤1、将带有类别标签的新闻文本通过Word2vec算法进行分词处理后去除停用词,得到训练集;
步骤2、先分别统计训练集中各个类别中词频排名前m位的词,并通过Word2vec算法计算这些词的词向量bij;再利用每个类别的词向量构造该类别的中心向量,得到每个类别的中心向量ci
步骤3、将训练集中各个类别的词向量bij和对应的类别标签送入gensim.models.word2vec模型进行训练,得到训练好的类别识别模型;
步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词,并得到待测新闻文本,并通过Word2vec计算待测新闻文本中每个词的词向量dk
步骤5、计算待测新闻文本的每个词的词向量dk与步骤2所得的训练集的每个词的词向量bij的余弦相似度cos(dk,bij);
步骤6、基于余弦相似度cos(dk,bij)对待测新闻文本中每个词的词向量dk进行特征放大,得到每个词的放大词向量d′k
步骤7、基于每个词的放大词向量d′k,计算待测新闻文本的每个类别的初始特征表征向量Ti
步骤8、计算待测新闻文本的每个类别的初始特征表征向量Ti与步骤2所得的训练集的每个类别的中心向量ci的余弦相似度cos(Ti,ci);
步骤9、基于余弦相似度cos(Ti,ci)对待测新闻文本的每个类别的初始特征表征向量Ti行特征放大,得到每个类别的放大初始特征表征向量T′i
步骤10、基于每个类别的放大初始特征表征向量Ti′,计算待测新闻文本的每个类别的最终特征表征向量Ti″;
步骤11、将待测新闻文本的每个类别的最终特征表征向量Ti″中模最大的那个类别的最终特征表征向量作为待测新闻文本的最终特征表征向量;
步骤12、将待测新闻文本的最终特征表征向量送入到步骤3训练好的类别识别模型中,得到待测新闻文本的类别;
上述i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
2.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤5中,待测新闻文本的第k个词的词向量dk与训练集的第i个类别的第j个词的词向量bij的余弦相似度cos(dk,bij)为:
Figure FDA0003153562920000011
式中,dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量;符号·表示点乘,符号||表示取模。
3.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤6中,待测新闻文本的第k个词的放大词向量d′k为:
d′k=dk×TFk×IDFk×SCV1
式中,SCV1为第一放大函数,
Figure FDA0003153562920000021
当余弦相似度cos(dk,bij)<θ1时,第一放大调参值a1i取1,当余弦相似度cos(dk,bij)≥θ1时,第一放大调参值a1i取大于1的设定值;dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;TFk为待测新闻文本的第k个词的词频;IDFk为待测新闻文本的第k个词逆文本频率;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
4.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤7中,待测新闻文本的第i个类别的初始特征表征向量Ti为:
Figure FDA0003153562920000022
式中,SCV1为第一放大函数,
Figure FDA0003153562920000023
当余弦相似度cos(dk,bij)<θ1时,第一放大调参值a1i取1,当余弦相似度cos(dk,bij)≥θ1时,第一放大调参值a1i取大于1的设定值;dk为待测新闻文本的第k个词的词向量;bij为训练集的第i个类别的第j个词的词向量;d′k为待测新闻文本的第k个词的放大词向量;TFk为待测新闻文本的第k个词的词频;IDFk为待测新闻文本的第k个词逆文本频率;i=1,2,…,n,n代表类别数量;j=1,2,…,m,m代表设定的词频排名位数;k=1,2,…,l,l代表待测新闻文本的词数量。
5.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤8中,待测新闻文本的第i个类别的初始特征表征向量Ti与训练集的第i个类别的中心向量ci的余弦相似度cos(Ti,ci)为:
Figure FDA0003153562920000024
式中,Ti为待测新闻文本的第i个类别的初始特征表征向量;ci为训练集的第i个类别的中心向量;i=1,2,…,n,n代表类别数量;符号·表示点乘,符号||表示取模。
6.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤9中,待测新闻文本的第i个类别的放大初始特征表征向量Ti′为:
T′i=Ti×SCV2
式中,SCV2为第二放大函数,
Figure FDA0003153562920000031
当余弦相似度cos(Ti,ci)<θ1时,第二放大调参值a2i取1,当余弦相似度cos(Ti,ci)≥θ1时,第二放大调参值a2i取大于1的设定值;Ti为待测新闻文本的第i个类别的初始特征表征向量;ci为训练集的第i个类别的中心向量;i=1,2,…,n,n代表类别数量。
7.根据权利要求1所述的一种基于二次特征放大的新闻分类方法,其特征是,步骤10中,待测新闻文本的第i个类别的最终特征表征向量Ti″为:
Figure FDA0003153562920000032
式中,Ti为待测新闻文本的第i个类别的初始特征表征向量;Ti′为待测新闻文本的第i个类别的放大初始特征表征向量;i=1,2,…,n,n代表类别数量;符号||表示取模。
CN202110781669.9A 2021-07-08 2021-07-08 一种基于二次特征放大的新闻分类方法 Active CN113486176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781669.9A CN113486176B (zh) 2021-07-08 2021-07-08 一种基于二次特征放大的新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781669.9A CN113486176B (zh) 2021-07-08 2021-07-08 一种基于二次特征放大的新闻分类方法

Publications (2)

Publication Number Publication Date
CN113486176A true CN113486176A (zh) 2021-10-08
CN113486176B CN113486176B (zh) 2022-11-04

Family

ID=77938534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781669.9A Active CN113486176B (zh) 2021-07-08 2021-07-08 一种基于二次特征放大的新闻分类方法

Country Status (1)

Country Link
CN (1) CN113486176B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN109960799A (zh) * 2019-03-12 2019-07-02 中南大学 一种面向短文本的优化分类方法
CN110188047A (zh) * 2019-06-20 2019-08-30 重庆大学 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110348497A (zh) * 2019-06-28 2019-10-18 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
US20200012673A1 (en) * 2018-07-03 2020-01-09 University Of Waterloo System, method and computer program product for query clarification
CN111090811A (zh) * 2019-12-24 2020-05-01 北京理工大学 一种海量新闻热点话题提取方法和系统
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN113011533A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
US20200012673A1 (en) * 2018-07-03 2020-01-09 University Of Waterloo System, method and computer program product for query clarification
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN109960799A (zh) * 2019-03-12 2019-07-02 中南大学 一种面向短文本的优化分类方法
CN110188047A (zh) * 2019-06-20 2019-08-30 重庆大学 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110348497A (zh) * 2019-06-28 2019-10-18 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN111090811A (zh) * 2019-12-24 2020-05-01 北京理工大学 一种海量新闻热点话题提取方法和系统
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法
CN113011533A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD YOUNAS 等: "An Automated Approach for Identification of Non-Functional Requirements using Word2Vec Model", 《INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS》 *
YANG WEI 等: "Context Vector Model for Document Representation: A Computational Study", 《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 *
ZHE ZHANG 等: "Improving Online Clustering of Chinese Technology Web News With Bag-of-Near-Synonyms", 《IEEE ACCESS》 *
周婉婷: "基于词向量的文本倾向分析的向量表示方法研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 *
张京: "面向抄袭检测的检索模型研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
胡建洪: "基于上下文感知的移动新闻推荐研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN113486176B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US10296846B2 (en) Adapted domain specific class means classifier
US9031331B2 (en) Metric learning for nearest class mean classifiers
US20150331936A1 (en) Method and system for extracting a product and classifying text-based electronic documents
Luo et al. Evaluation of two systems on multi-class multi-label document classification
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
Champ et al. A comparative study of fine-grained classification methods in the context of the LifeCLEF plant identification challenge 2015
CN111611807A (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
Gao et al. Automatic image annotation through multi-topic text categorization
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
US10970488B2 (en) Finding of asymmetric relation between words
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
CN113486176B (zh) 一种基于二次特征放大的新闻分类方法
Nock et al. Boosting k-NN for categorization of natural scenes
US8768941B2 (en) Document data processing device
CN111125304A (zh) 一种基于word2vec的专利文本自动分类方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Zhang et al. Efficient indexing of binary LSH for high dimensional nearest neighbor
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN111090743B (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN115017267A (zh) 无监督的语义检索方法、装置及计算机可读存储介质
Sunagar et al. Feature extraction and selection techniques for text classification: a survey
Lu et al. Automatic image annotation based-on model space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant