CN103605702A - 一种基于词相似度的网络文本分类方法 - Google Patents

一种基于词相似度的网络文本分类方法 Download PDF

Info

Publication number
CN103605702A
CN103605702A CN201310552098.7A CN201310552098A CN103605702A CN 103605702 A CN103605702 A CN 103605702A CN 201310552098 A CN201310552098 A CN 201310552098A CN 103605702 A CN103605702 A CN 103605702A
Authority
CN
China
Prior art keywords
classification
text
vector
word
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310552098.7A
Other languages
English (en)
Inventor
陆月明
马晶
陈贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310552098.7A priority Critical patent/CN103605702A/zh
Publication of CN103605702A publication Critical patent/CN103605702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明一种基于词相似度的网络文本分类方法,包括网络文本预处理模块、文本分词模块、词袋模型模块、文本空间向量表示模块、分类结果计算模块五个模块。本发明能够实现对网络文本进行规范化预处理、去除无意义停用词及标点符号、分类类别确定、特征词-类别相关度计算、组成词袋模型、文本转换为空间向量、计算文本所属类别等功能,完成文本类别特征的抽取和量化分析,对语料库处理、自动文摘、信息过滤以及信息检索等具有重要的作用。

Description

一种基于词相似度的网络文本分类方法
技术领域
本发明涉及一种基于词相似度的网络文本分类方法,本发明采用计算词与类别相关度技术实现对文本的分类或文本的主题挖掘,应用于语料库处理、自动文摘、信息过滤以及信息检索和数据挖掘等领域,属于信息领域和自然语言处理领域。 
背景技术
随着万维网上及企业内部的可用信息的不断增长,人们越来越希望能更好的搜索、过滤、管理这些信息资源。文本分类简单来说,就是根据内容把自然语言文本划分到预先定义的类别中去的过程。它作为某些信息组织与管理的一个重要组成部分,也因此引起人们的关注与研究。 
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。那么如何通过有效的计算机辅助手段来对网络上海量文本信息量按照一定的主题类别进行自动分类和主题挖掘是我们关注的焦点。 
目前的文本分类方法大多是基于Salton等人在70年代提出的向量空间模型(VSM),这种方法计算简单有效,因此得到了广泛应用,但这种方法在文本表示时向量空间维数会达到上千维,大量的计算使分类器效率难以提高。另外, 向量空间模型往往结合一些机器学习算法来解决文本自动分类问题,常用的算法有:决策树、人工神经网络、KNN法、SVM法、Boosting方法、Bayes法和基于规则的方法等等。但是这些算法需要使用大量语料进行训练来得到分类模型,由于网络文本数据浩大,结构千差万别,因此该方式往往存在时间复杂度和空间复杂度较大的缺点。针对上述的问题,我们提出了一种基于词相似度的网络文本分类方法,能有效应对海量网络文本处理过程中的效率问题。 
本专利提出将计算词与类别相关度技术应用于对网络文本的自动分类,我们首先利用词向量空间模型WVSM理论,将词表示成空间向量,即将m个类别组成m维的欧式空间,例如若有m个类别C1,C2,…,Cm,则每一特征词Ti可表示成一m维向量(W1,W2,…,Wm),其中Wj为词Ti与类别j的相关度。通过对已标识类别样本进行训练生成特征词-类别相关度矩阵A,矩阵中每一个元素aij表示特征词Ti对类别Cj的支持度(相关度),取得最大的支持度maxj Cj及其对应类别j,组成词袋模型。下面以二维向量做详细说明。 
若类别C={体育,军事},训练文本集经处理后得到特征词集T={(T1:足球),(T2:飞机)},T1、T2的向量分别为(0.9000,0.0200),(0.0100,0.8000),比较后可以看出特征词T1趋向于类C1,T2趋向于类C2。因此我们将足球和0.9000写入词袋模型中的“体育”类别下,将飞机和0.8000写入“军事”类别下。 
下面实现对位置类别文本的自动分类,我们将所获取的网络文本进行过滤和分词后,根据文本中是否出现词袋模型中的词项将文本转换为空间向量,用W={w1,w2,…,wn}表示,其中n代表该文本可被划分为n个类别,Wi代表该文本关于第i类的特征向量,且
Figure BDA0000410433110000021
m代表对于第i类,文本中共有m个词袋中出现的词项,kj代表第j个特征词与类别i的相关度。(例如 某个文本对于“体育”这个类别,有“田径”这个相关词,并且该词与“体育”的相关度为0.8,因此我们就将0.8写入到代表“体育”维度的向量中)。最后对每个维度向量求加权和记为W={w1,w2,…,wn},其中
Figure BDA0000410433110000031
并取最大值maxi wi所对应的类别i作为该文本所属类别及其主题。 
发明内容
本发明“一种基于词相似度的网络文本分类方法”旨在提供一种基于计算词与类别关联度技术实现网络文本分类的方法,该方法包括五个模块:文本预处理模块、文本分词模块、词袋模型模块、文本向量表示模块、分类结果计算模块。该方法改善了现有文本分类方法中准确度不高、效率低下的问题。下面详细介绍本发明的结构和组成部分、词袋模型和向量表示、分类结果计算、各执行步骤。 
1.本发明的结构和组成部分
本发明“一种基于词相似度的网络文本分类方法”的结构和模块组成如错误!未找到引用源。所示,本发明包括五个模块:文本预处理模块、文本分词模块、词袋模型模块、文本向量表示模块、文本分类结果计算模块。下面就各模块作具体说明: 
(1)文本预处理模块:该模块将网络文本(例如网页、文档和微博等)进行规 范化预处理,去除格式不规范的HTML符号等冗余文本信息。 
(2)文本分词模块:该模块对文本进行分词处理,英文分词可直接根据空格符分割,中文分词需要借助专用的分词软件,分词后过滤无意义的停用词以及标点符号等无意义成分。 
(3)词袋模型模块:通过对已标识类别样本进行训练生成特征词-类别相关度矩阵,通过比较取得每个特征词与类别相关度的最大值及类别,并将所有特征词及其类别相关度组成词袋模型。 
(4)文本向量表示模块:该模块通过分类别使用词袋模型,检索待分类文本词项,若对于某个类别,文本中存在词袋模型中的词项,则将该词项的类别相关度写入文本空间向量的对应维度。 
(5)分类结果计算模块:该模块通过分析文本空间向量,取得向量中加权数值最大的维度,该维度对应的类别即为文本分类的输出结果。 
2.本发明的词袋模型和文本向量表示
本发明“一种基于词相似度的网络文本分类方法”的词袋模型组成如图3所示。对于特定文本,根据文本来源、范围等方面确定文本分类的范围,如政治、体育、经济、农业、环境、航天、艺术、体育、医药、交通;或者矿业、军事、计算机、电子、通信、能源、哲学、历史、法律、文学;等等其他的分类方式。 
通过对已标识类别样本进行训练生成特征词-类别相关度矩阵A,从而将词表示成空间向量,即若有m个类别,则每个特征词可表示为m维向量,每个维度代表该特征词与每个类别的相关度。取m维向量中的最大值及其所对应的类 别,从而得到所有特征词所属类别及其类别相关度,并组成词袋模型。如对于“通信”类别,得到特征相关词有{中国联通:0.93;中国移动:0.97;中国电信:0.95;网络容量:0.83;天线:0.89;信号:0.91;…} 
文本向量表示是指将实际的文本内容变成机器内部表示结构,可以用字、词、短语、n-Gram等形成向量或树等结构。文本表示方法可以使用VSM(vector space model),若文本中出现词袋中某类别的词项,则将该词项的相关度写入空间向量。 
3.本发明的分类结果计算
本发明“一种基于次相似度的网络文本分类方法”在输出最终的分类结果时,需要分析得到的空间向量,找出向量中最突出的类别。对于一个n维的空间向量W={w1,w2,…,wn},
Figure BDA0000410433110000051
我们将每个类别对应的向量归一化令
Figure BDA0000410433110000052
得到加权值wi,从而将该多维空间向量转换成横向量W={w1,w2,…,wn},比较找出横向量中的最大wi值所对应的维度,该维度即为文本所属的类别。例如,待分类文本的分类范围是:艺术、历史、数学,对于某一文本的空间向量:W={w1,w2,w3},其中
Figure BDA0000410433110000053
Figure BDA0000410433110000054
将其转换为横向量为:W={0.9+0.7+0.8,0,0.6}即W={2.4,0,0.6}。该横向量中最大值为2.4,所对应的类别为第一个类别,故该文本输出类别为“艺术”。 
本发明的有益效果是,能比较准确并有效地得到网络文本的分类以及主题。 而且该方法的时间复杂度和空间复杂度都比较小。 
4.本发明各步骤的执行流程
本发明“一种基于词相似度的网络文本分类方法”各步骤的执行流程分五步骤,各步骤的执行编号如图2所示。下面详细解释五步骤的执行情况: 
(1)文本预处理:文本预处理该模块将网络文本(例如网页、微博、文档文件等文本)进行规范化预处理,该模块去除格式不规范的网络符号、HTML标记等冗余文本信息。 
(2)网络文本分词:对预处理后的文本进行分词,对于得到的分词结果去除无意义的停用词以及标点符号等,针对文本的来源、用途等信息,确定分类范围。 
(3)词袋模型组成:通过对已标识类别样本进行训练生成特征词-类别相关度矩阵,比较得到每个特征词与类别的最大相关度及其类别,并将结果保存为词袋模型。 
(4)文本空间向量表示:将文本转换为空间向量,向量维度由文本待划分类别决定,对于每一个类别,通过词袋模型,以类别关键词出现与否为特征,以关键词的类别相关度为特征值,得到文本的空间向量。 
(5)分类结果计算:分类结果模块依次处理空间向量的每个维度,将每个类别向量归一化,求得加权值,并取得加权值最大类别对应的类别,将此类别作为分类的输出结果。 
附图说明
下面结合附图和实施例对本发明进一步说明。 
图1本发明的结构和模块组成 
图2本发明的执行流程标号 
图3本发明的词袋组成流程 
图4本发明各步骤的执行流程 
图5网络文本分类系统验证 
5.具体实施方式
下面将结合本发明实施例中的附图,给出几个实例,具体分析展示本发明的技术要点。显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
例如,对于得到的大量网络文本,我们首先根据其来源及用途等方面确定其分类范围:{经济农业环境艺术体育医药交通哲学历史法律航天军事},即我们的最终目的是将这大量文本语料自动归为这12类。然后将该文本语料进行分词以及去除无意义的冗余信息操作,对已标注类别的样本进行训练得到特征词-类别相关度矩阵,通过比较组成词袋模型,例如:对于“艺术”这一类别,得到部分词袋表如下: 
艺术:1.0巴洛克:0.796哥特式:0.684古典:0.874维也纳:0.794装饰:0.691风格:0.703设计:0.821美术:0.846… 
然后则根据词袋模型将文本语料转换为向量并归类,下面则举例说明文本转换为向量以及文本归类的过程。 
(1)例子:羽毛球是一项隔着球网,使用长柄网状球拍击打平口端扎有一圈羽毛 的半球状软木的室内运动。依据参与的人数,可以分为单打与双打。相较于性质相近的网球运动,羽毛球运动对选手的体格要求并不很高,却比较讲究耐力,极适合东方人发展。自1992年起,羽毛球成为奥运会的正式比赛项目。 
本发明的执行流程实例为: 
对于“体育”这一类别来说,该文本含有词袋模型中的词项及其相关度有:羽毛球1.0球拍0.97击打0.54运动1.0单打0.98双打0.98网球1.0选手0.95体格0.65耐力0.55奥运会0.99比赛1.0同理对于“”哲学“类别,则含有:性质0.74讲究0.42东方人0.36对于“环境”类别,含有:室内0.69,对于其他几个类别,则并不含有相关词项。依据该特征,设该文本的特征向量为:W={w1,w2,…,w1,…,w12}其中wi表示第i个类别的特征向量,下面依次将权重写入向量,即代表“体育”类别的向量为: 
w 5 T = 1.0 0.97 0.54 1.0 0.98 0.98 1.0 0.95 0.65 0.55 0.99 1.0 . 代表:“哲学”类别的向量为:
Figure BDA0000410433110000082
代表:“环境”类别的向量为:
Figure BDA0000410433110000083
而其他几个类别的空间向量均为0,然后将各个类别的向量加权求和,得到横向量为:W={0,0,0.69,0,10.61,0,0,1.52,0,0,0,0},比较该横向量数值,找到最大值10.61所对应的类别为“体育”,因此输出归类结果为“体育”。 
(2)文森特·威廉·梵高,荷兰后印象派画家。他是表现主义的先驱,并深深影响了二十世纪艺术,尤其是野兽派与表现主义。梵高的作品,如《星夜》、《向日葵》与《有乌鸦的麦田》等,现已跻身于全球最著名、广为人知与珍贵的艺术作品的行列。1890年7月29日,因精神疾病的困扰,在法国瓦兹河开 枪自杀,时年37岁。 
本发明的执行流程实例为: 
对于“艺术”这一类别来说,该文本含有词袋模型中的词项及其相关度有:梵高0.98印象派0.97画家0.97表现主义0.89先驱0.78艺术1.0野兽派0.94作品0.95著名0.69珍贵0.69同理对于“历史”类别,则含有:世纪0.74。对于“农业”类别,含有:向日葵0.68麦田0.78;对于“医药”类别,含有:精神疾病0.91;对于“交通”类别,含有:法国0.61;而对于其他几个类别,则并不含有相关词项。依据该特征,依次将权重写入向量,即代表“艺术”类别的向量为: 
w 4 T = 0.98 0.97 0.97 0.89 0.78 1.0 0.94 0.95 0.69 0.69 . 代表“历史”类别的向量为:
Figure BDA0000410433110000092
代表“农业”类别的向量为:
Figure BDA0000410433110000093
代表“医药”类别的向量为:
Figure BDA0000410433110000094
代表“交通”类别的向量为:而其他几个类别的空间向量均为0,然后将各个类别的向量加权求和,得到横向量为:W={0,1.46,0,8.86,0,0.91,0.61,0,0.74,0,0,0},比较该横向量数值,找到最大值8.86所对应的类别为“艺术”,因此输出归类结果为“艺术”。该文本的情感分析系统结果参见图5。 
(3)秦始皇即嬴政(公元前259年—公元前210年),出生于赵国首都邯郸。中国历史上著名的政治家、战略家、改革家,首位完成华夏大一统的铁腕政治人物,是古今中外第一个称皇帝的封建王朝君主。 
本发明的执行流程实例为: 
经济农业环境艺术体育医药交通哲学历史法律航天军事对于“历史”这一类别来说,该文本含有词袋模型中的词项及其相关度有:秦始皇0.98嬴政0.98公元前0.99赵国0.79历史1.0古今中外1.0皇帝0.99封建0.87王朝0.95君主0.98华夏0.79;同理对于“法律”类别,则含有:政治家0.79改革家0.65政治0.91。对于“交通”类别,含有:邯郸0.54中国0.78;对于“军事”类别,含有:战略家0.86;对于“艺术”类别,含有:著名0.69;而对于其他几个类别,则并不含有相关词项。依据该特征,依次将权重写入向量,即代表“历史”类别的向量为: 
w 9 T = 0.98 0.98 0.99 0.79 1.0 1.0 0.99 0.87 0.95 0.98 0.79 . 代表“法律”类别的向量为:
Figure BDA0000410433110000102
代表“交通”类别的向量为: 
Figure BDA0000410433110000103
代表“军事”类别的向量为:
Figure BDA0000410433110000104
代表“艺术“类别的向量为:而其他几个类别的空间向量均为0,然后将各个类别的向量加权求和,得到横向量为: 
W={0,0,0,0.69,0,0,1.32,0,10.32,2.35,0,0.86},比较该横向量数值,找到最大值10.32所对应的类别为“历史”,因此输出归类结果为“历史”。 
6.本发明的优势
本发明提出的一种基于词相关度的网络文本分类方法,通过计算网络文本中特征词与的类别的相关度,组成词袋模型,得到文本类别方面的空间向量,并计算出文本所属类别和主题。 
本发明的优点主要有: 
(1)该方法基于词向量空间模型,特征向量维数大幅下降,一般只有十几维或几十维;特征向量数目相对稳定,不会随着训练和待分文档数目的增加而增加,因为组成无限多文本的特征词数量是相对稳定的。 
(2)基于词袋模型,仅提取与类别相关的特征,将文本转换为低维空间向量,计算简便,空间复杂度较低。 
(3)将网络文本语料按照来源、用途等特征确定分类范围,较传统的模糊分类方法更为准确。 

Claims (2)

1.本发明涉及应用于网络文本分类的方法,并基于词空间向量模型计算特征词-类别相关度,由五个模块组成:网络文本预处理模块、文本分词模块、词袋模型模块、文本空间向量表示模块、分类结果计算模块。
2.本发明的主要特点有:
(1)基于词向量空间模型,特征向量维数大幅下降且特征向量数目相对稳定,能够大大降低时间复杂度和空间复杂度。
(2)基于词袋模型,将网络文本转换为低维空间向量。可以有效提取网络文本中与类别相关的特征,能够大大提高分类结果的准确度并降低计算成本。
CN201310552098.7A 2013-11-08 2013-11-08 一种基于词相似度的网络文本分类方法 Pending CN103605702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310552098.7A CN103605702A (zh) 2013-11-08 2013-11-08 一种基于词相似度的网络文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310552098.7A CN103605702A (zh) 2013-11-08 2013-11-08 一种基于词相似度的网络文本分类方法

Publications (1)

Publication Number Publication Date
CN103605702A true CN103605702A (zh) 2014-02-26

Family

ID=50123925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310552098.7A Pending CN103605702A (zh) 2013-11-08 2013-11-08 一种基于词相似度的网络文本分类方法

Country Status (1)

Country Link
CN (1) CN103605702A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核系统工程有限公司 一种基于改进的knn文本分类方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106095758A (zh) * 2016-06-17 2016-11-09 北京理工大学 一种基于词向量模型的文学作品竞猜方法
WO2016180270A1 (zh) * 2015-05-08 2016-11-17 广州市动景计算机科技有限公司 网页分类方法和装置、计算设备以及机器可读存储介质
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106776559A (zh) * 2016-12-14 2017-05-31 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107798113A (zh) * 2017-11-02 2018-03-13 东南大学 一种基于聚类分析的文档数据分类方法
CN108427720A (zh) * 2018-02-08 2018-08-21 中国科学院计算技术研究所 系统日志分类方法
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN112016830A (zh) * 2020-08-27 2020-12-01 广东电网有限责任公司 一种专利文件评估任务分配方法及装置
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
X. CHEN ET AL.: "Feature selection for Chinese online reviews sentiment classification", 《INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROBLEM-SOLVING》 *
胡学钢 等: "基于词向量空间模型的中文文本分类方法", 《合肥工业大学学报》 *
赵俊杰 等: "基于文本分类的文档相似度计算", 《技术交流》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核系统工程有限公司 一种基于改进的knn文本分类方法
CN104408095B (zh) * 2014-11-15 2017-12-05 北京广利核系统工程有限公司 一种基于改进的knn文本分类方法
WO2016180270A1 (zh) * 2015-05-08 2016-11-17 广州市动景计算机科技有限公司 网页分类方法和装置、计算设备以及机器可读存储介质
US10997256B2 (en) 2015-05-08 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN104834735B (zh) * 2015-05-18 2018-01-23 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106095758B (zh) * 2016-06-17 2018-12-04 北京理工大学 一种基于词向量模型的文学作品竞猜方法
CN106095758A (zh) * 2016-06-17 2016-11-09 北京理工大学 一种基于词向量模型的文学作品竞猜方法
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106354872B (zh) * 2016-09-18 2020-02-07 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106776559A (zh) * 2016-12-14 2017-05-31 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN106776559B (zh) * 2016-12-14 2020-08-11 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107122451B (zh) * 2017-04-26 2020-01-21 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107798113A (zh) * 2017-11-02 2018-03-13 东南大学 一种基于聚类分析的文档数据分类方法
CN107798113B (zh) * 2017-11-02 2021-11-12 东南大学 一种基于聚类分析的文档数据分类方法
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN110096695B (zh) * 2018-01-30 2023-01-03 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN108427720B (zh) * 2018-02-08 2020-12-29 中国科学院计算技术研究所 系统日志分类方法
CN108427720A (zh) * 2018-02-08 2018-08-21 中国科学院计算技术研究所 系统日志分类方法
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
CN112016830A (zh) * 2020-08-27 2020-12-01 广东电网有限责任公司 一种专利文件评估任务分配方法及装置
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Similar Documents

Publication Publication Date Title
CN103605702A (zh) 一种基于词相似度的网络文本分类方法
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
Schmitz Inducing ontology from flickr tags
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN103207860B (zh) 舆情事件的实体关系抽取方法和装置
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN101599071B (zh) 对话文本主题的自动提取方法
CN102750316B (zh) 基于语义共现模型的概念关系标签抽取方法
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN107133213A (zh) 一种基于算法的文本摘要自动提取方法与系统
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
CN103177024A (zh) 一种话题信息展现方法和装置
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN107122382A (zh) 一种基于说明书的专利分类方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN104484380A (zh) 个性化搜索方法及装置
CN110472052A (zh) 一种基于深度学习的中文社交平台情感分析方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140226

WD01 Invention patent application deemed withdrawn after publication