CN103324628A - 一种针对发布文本的行业分类方法和系统 - Google Patents

一种针对发布文本的行业分类方法和系统 Download PDF

Info

Publication number
CN103324628A
CN103324628A CN2012100765644A CN201210076564A CN103324628A CN 103324628 A CN103324628 A CN 103324628A CN 2012100765644 A CN2012100765644 A CN 2012100765644A CN 201210076564 A CN201210076564 A CN 201210076564A CN 103324628 A CN103324628 A CN 103324628A
Authority
CN
China
Prior art keywords
classification
word
level
employment
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100765644A
Other languages
English (en)
Other versions
CN103324628B (zh
Inventor
叶莎妮
姚伶伶
朱鉴
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210076564.4A priority Critical patent/CN103324628B/zh
Publication of CN103324628A publication Critical patent/CN103324628A/zh
Application granted granted Critical
Publication of CN103324628B publication Critical patent/CN103324628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对发布文本的行业分类方法和系统,方法包括:进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;根据两级的层次类别体系,对发布文本进行一级行业和二级行业分类。通过本发明,能够提高针对发布文本的行业分类的准确率和召回率。

Description

一种针对发布文本的行业分类方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种针对发布文本的行业分类方法和系统。
背景技术
目前,对搜索检索串(query)、以及信息检索系统中用户提交的搜索词和发布文本进行行业分类,实质上是一种短文本分类技术。基于信息检索系统的应用场景,通常需要人工标注分类体系。现有技术中常见的文本分类方法有:朴素贝叶斯(Bayes)、神经网络(Nnet)、支持向量机(SVM,Support VectorMachine)、k最邻近(kNN,k-Nearest Neighbor)等统计分类算法以及基于人工推理规则的分类方法。
受限于信息检索系统的应用场景,以及发布文本短小、内容较少(短的只有几个字,长的也不过几十个字)的特征,现有技术中常用的基于SVM模型的文本分类方法处理效果不好,文本分类的准确率只有70%左右,而召回率则更低。
另外,现有技术是基于人工标注的训练集进行模型训练,抽取特征,而训练样本的数量有限,无法自动挖掘出高质量的特征词库,这使得分类模型的区分能力有限;而且人工标注的训练集也需要消耗大量的人力资源。基于人工标注的训练集对于信息检索系统中的搜索词以及发布文本的覆盖很有限,召回率一般都很低。此外,现有技术无法根据信息检索的行业应用特点,很好的覆盖各个行业的搜索词以及发布文本,很难达到实用的标准。
发明内容
有鉴于此,本发明的主要目的在于提供一种针对发布文本的行业分类方法和系统,以解决现有信息检索系统中的文本行业分类方法准确率和召回率不高的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种针对发布文本的行业分类方法,该方法包括:
进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;
根据所述两级的层次类别体系,对发布文本进行一级行业和二级行业分类。
所述一级行业类别特征词集合挖掘具体为:
基于人工标注的初始的一级行业类别特征词集合,采用全文匹配的分类方式,对不同来源的网页进行分类;
对拥有分类属性的网页进行全文切词,抽取类别特征词,并计算抽取的类别特征词对所属类别的权重向量;
将抽取的类别特征词合并入所述一级行业类别特征词集合。
所述一级行业类别特征词集合以哈希表的形式建立,所述哈希表以类别特征词作为关键字,以类别特征词对于一级行业类别的权重向量作为键值。
所述二级行业分类模型训练具体为:
对每个一级行业采用最大熵模型作为分类器,对已标注样例集进行学习得到初步分类模型;
通过选择算法利用上一环节训练的分类器对未标注样例进行分类,选择置信度低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代。
所述对发布文本进行一级行业分类,具体为:
对发布文本进行切词,得到词序列;
根据切词后的每个词查询一级行业类别特征词集合,得到每个词对应的键值;
对所述词序列对应的相同的类别权重进行叠加并归一化;
选取类别权重最大的至少一个类别作为一级行业类别结果。
所述对发布文本进行二级行业分类,具体为:
在进行一级行业分类之后,在具体的一级行业类目中加载相应的最大熵模型文件,采用最大熵模型进行二级行业分类。
本发明还提供了一种针对发布文本的行业分类系统,该系统包括:
层次类别体系构建模块,用于进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;
分类模块,用于根据所述两级的层次类别体系,对发布文本进行一级行业和二级行业分类。
所述层次类别体系构建模块进一步包括:
一级行业类别特征词集合挖掘子模块,用于基于人工标注的初始的一级行业类别特征词集合,采用全文匹配的分类方式,对不同来源的网页进行分类;对拥有分类属性的网页进行全文切词,抽取类别特征词,并计算抽取的类别特征词对所属类别的权重向量;将抽取的类别特征词合并入所述一级行业类别特征词集合。
所述一级行业类别特征词集合以哈希表的形式建立,所述哈希表以类别特征词作为关键字,以类别特征词对于一级行业类别的权重向量作为键值。
所述层次类别体系构建模块进一步包括:
二级行业分类模型训练子模块,用于对每个一级行业采用最大熵模型作为分类器,对已标注样例集进行学习得到初步分类模型;通过选择算法利用上一环节训练的分类器对未标注样例进行分类,选择置信度低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代。
所述分类模块进一步包括:一级行业分类子模块,用于对发布文本进行切词,得到词序列;根据切词后的每个词查询一级行业类别特征词集合,得到每个词对应的键值;对所述词序列对应的相同的类别权重进行叠加并归一化;选取类别权重最大的至少一个类别作为一级行业类别结果。
所述分类模块进一步包括:二级行业分类子模块,用于在所述一级行业分类子模块进行一级行业分类之后,二级行业分类子模块在具体的一级行业类目中加载相应的最大熵模型文件,采用最大熵模型进行二级行业分类。
本发明所提供的一种针对发布文本的行业分类方法和系统,提高了针对发布文本的行业分类的准确率和召回率。
附图说明
图1为本发明实施例的一种针对发布文本的行业分类方法的流程图;
图2为本发明实施例的一级行业类别特征词集合挖掘的流程图;
图3为本发明实施例的二级行业分类模型训练的示意图;
图4为本发明实施例的一级行业自动分类的流程图;
图5为本发明实施例的一种针对发布文本的行业分类系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明将繁杂的行业类别组织成一个两级的层次类别体系,对一级行业和二级行业分别采用不同的方法进行自动分类,从而使每个行业类别的准确率和召回率都达到最优的状态。
一级行业的分类方法主要包括:基于人工标注的初始的一级行业类别特征词集合(该集合中包括少量的人工标注的一级行业类别特征词),对数以亿计的网页采用全文匹配的分类方式,对每个网页进行分类;对于拥有分类属性的网页进行全文切词,抽取类别特征词,计算抽取的类别特征词对于所属类别的权重贡献(即权重向量),然后将这些从网页中抽取的类别特征词合并入一级行业类别特征词集合中;待全部网页特征词抽取完毕,就自动得到了一个全面的一级行业类别特征词集合,从而构建得到一级行业类别特征词词典。根据该词典再对query(搜索检索串)、搜索词、发布文本进行线性分类。
二级行业的分类方法主要包括:基于上述得到的一级行业类别特征词集合,从中挑出特定一级行业下属的二级行业对应的特征词,作为初始的标注样例集合;采用主动学习方法与最大熵分类器,分类器对已标注样例集合进行学习,而选择算法则选择一个未标注的样例进行标注,再将标注后的样例加人到已标注样例集中;学习器和选择算法交替工作,经过多次循环,分类器的性能逐渐提高,可以使二级行业分类的准确率平均达到95%以上;并且在进行二级行业分类时,不用担心召回覆盖的不足,大大节省了人力,使二级行业分类达到了实用的标准。
由此可以看出,一级行业的分类方法主要包括两个流程:一级行业类别特征词集合自动挖掘流程(即通过离线训练,构建分类所需的一级行业类别特征词词典)和一级行业自动分类流程。二级行业的分类方法也主要包括两个流程:二级行业类别特征词集合迭代挖掘流程和二级行业自动分类流程。
下面首先介绍一级行业类别特征词集合挖掘流程,参见图2所示,该流程主要包括:
步骤201,网页先验赋权:对不同的网页来源赋予不同的先验权重。
所述不同的网页来源包括:随机自然网页数据(如新闻网页、blog网页等等)和信息发布着陆页数据。所谓信息发布着陆页(landingpage),是指信息检索系统中用户提交的发布文本对应的实际着陆页面。其中,信息发布着陆页数据可以赋予较高的先验权重,随机自然网页数据可以赋予较低的先验权重。
步骤202,对每个网页分别进行特征词抽取,主要包括:
1、网页切词:取出网页的标题和主体内容,进行大小写、全半角归一化处理;对于长度过短(<1000字节)或过长(>500000字节)的网页进行过滤,也即只对标题和主体内容的长度在1000字节到500000字节之间的网页进行特征词抽取的处理;对网页进行全文匹配,也即对网页的标题和主体内容进行切词处理,并将所得切词与人工标注的一级行业类别特征词集合进行匹配,匹配成功的切词记为类别特征词;
2、网页类别计算:针对每个网页,对该网页中所有出现的类别特征词按分类进行权值相加,其中网页标题(title)可以配置加权,最后分别取权值最高的两个一级类别作为该网页的类别属性;
3、类别特征词抽取:从有特定一级类别的网页中抽取具有代表性的词,扩充该类别的特征词文件,参加下一轮的迭代训练。本方法对数以亿计的网页进行特征词抽取,这个过程使用hadoop平台,开发map-reduce程序来提高处理性能。
4、单个页面类别特征词权重计算:从特定一级类别的网页中抽取具有代表性的特征词wordi在网页pagek中的权重为:
Figure BDA0000145701660000061
其中,pos_wj表示特征词在当前网页j位置的权重,出现在网页标题这些重要位置上时,权重较高;如果特征词在网页中出现n次,则将每个位置的权重叠加即得到特征词在当前网页中的权重。
步骤203,类别特征词全局权重计算:对数以亿计的网页完成上述步骤202之后,按照网页的类别将网页进行聚合,对于同一类别网页抽取特征词,计算特征词对当前类别的权重。如属于Cidj(例如医疗行业Cid33)的网页总共有N个,挖掘到的特征词集合为{word1,word2,......,wordn},特征词wordi对于当前类别Cidj的权重为: word i _ cid j - w = Σ k = 1 N wo rd i _ page k _ w N * word i _ idf . 也即某个词对于某个类别的隶属程度设定为:某类别网页中某特征词的单网页权重之和*该特征词的idf权值/该类别的网页数量。其中,idf(inverse documentfrequency,反文档频率)权值是一个词语普遍重要性的度量。
步骤204,后处理去噪声:本方法采用数以亿计的网页作为训练语料,鉴于网页这种资源的特殊性,需要对分类没有特殊贡献的通用词进行过滤或降权;同时要对地名这类没有类别倾向性的特征词进行降权。
步骤205,一级行业类别特征词词典构建:将一级行业类别特征词集合构建成一个哈希表(Hash table),以特征词的签名作为哈希表的关键字,以特征词与一级行业类别的权重向量作为键值。
特征词wordi与一级行业类别集合{Cid1,Cid2,......,CidM}的权重向量为{wordi_cid1_w,wordi_cid2_w,......,wordi_cidM_w},其中每一个wordi_cidj_w由步骤203训练计算得出,并且在这里做归一化处理,即wordj_Cidj_w=1n(wordi_Cidj_w*1000),即类别特征词全局权重*1000后取自然对数。wordi_Cidj_w小于0则不计入权重向量。
二级行业类别特征词集合挖掘流程主要包括:对每个一级行业单独训练二级行业分类模型文件。基于主动学习方法来构建二级行业训练语料。通过主动选择要学习的样例从而有效地降低学习算法的样本复杂度,通过选择标记样例使得用更少的标记样例达到更高的预测精度。主动学习方法一般由分类器和选择算法两个部分组成,分类器对已标注样例集进行学习,而选择算法选择一个未标注的样例进行标注,再将标注后的样例加入到已标注样例集中;分类器和选择算法交替工作,经过多次循环,分类器的性能逐渐提高,当满足预设条件时(例如准确率达到90%),整个过程终止。
图3所示为本发明实施例的二级行业分类模型训练的示意图。本发明采用最大熵模型作为分类器,对已标注样例集进行学习得到一个初步分类模型,而选择算法则利用上一环节训练的分类器对未标注样例进行分类,选择置信度较低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代,直至满足分类准确率要求。迭代过程的示例如下:
Figure BDA0000145701660000071
Figure BDA0000145701660000081
其中初始的训练集合,可以很方便的从对应的一级行业特征词中进行自动挑选,无需人工费力去构建。二级行业分类模型借助主动学习框架,可以不断的增大训练集合,得到每个二级类目特定的训练集合。在有了训练集合之后,对每个一级行业采用最大熵分类器进行单独训练,就得到了相应二级行业分类模型文件,即相应的二级行业类别特征词集合。
在经过一级行业类别特征词集合挖掘、以及二级行业类别特征词集合迭代挖掘过程后,本发明的实施例得到的二级的层次行业类别体系如下表所示:
Figure BDA0000145701660000091
Figure BDA0000145701660000101
Figure BDA0000145701660000111
表1
在构建完两级的层次行业类别体系后,一级行业自动分类流程如图4所示,主要包括:
步骤401,对搜索检索串(query)或搜索词进行切词,得到词序列{word1,word2,......,wordn};
步骤402,根据切词后的每个词wordi查询一级行业类别特征词词典(即步骤205构建的哈希表),得到词wordi对应的键值,即wordi与一级行业类别特征词集合{Cid1,Cid2,......,CidM}对应的权重向量{wordi_cid1_w,wordi_cid2_w,......,wordi_cidM_w};
步骤403,对检索串的词序列对应的相同的类别权重进行叠加并归一化,即 query _ cid j _ w = Σ i = 1 n word i _ cid j _ w / n ;
步骤404,选取最终类别权重最大的一个或多个类别,作为一级行业类别结果,即取query_cidj_w最大的类别Cidj
需要说明的是,对于一级行业类别区分度很低或者没有对应类别的搜索词,采用搜索的摘要对拍卖词进行适当语义扩展,然后再参与一级行业分类,以减少短串表意的歧义性,增加行业分类的准确率。
在进行一级行业分类之后,在具体的一级行业类目中,加载相应的最大熵模型文件,采用最大熵模型(Maximum Entropy Model)进行二级行业分类。
对应上述针对发布文本的行业分类方法,本发明还提供了一种针对发布文本的行业分类系统,如图5所示,主要包括:层次类别体系构建模块10和分类模块20。
其中,层次类别体系构建模块10,用于进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;
分类模块20,用于根据所述两级的层次类别体系,对发布文本进行一级行业和二级行业分类。
较佳的,层次类别体系构建模块10可进一步包括:一级行业类别特征词集合挖掘子模块11,用于基于人工标注的初始的一级行业类别特征词集合,采用全文匹配的分类方式,对不同来源的网页进行分类;对拥有分类属性的网页进行全文切词,抽取类别特征词,并计算抽取的类别特征词对所属类别的权重向量;将抽取的类别特征词合并入所述一级行业类别特征词集合。
其中,一级行业类别特征词集合可以以哈希表的形式建立,所述哈希表以类别特征词作为关键字,以类别特征词对于一级行业类别的权重向量作为键值。
较佳的,层次类别体系构建模块10可进一步包括:二级行业分类模型训练子模块12,用于对每个一级行业采用最大熵模型作为分类器,对已标注样例集进行学习得到初步分类模型;通过选择算法利用上一环节训练的分类器对未标注样例进行分类,选择置信度低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代。
较佳的,分类模块20进一步包括:一级行业分类子模块21,用于对发布文本进行切词,得到词序列;根据切词后的每个词查询一级行业类别特征词集合,得到每个词对应的键值;对所述词序列对应的相同的类别权重进行叠加并归一化;选取类别权重最大的至少一个类别作为一级行业类别结果。
分类模块20进一步包括:二级行业分类子模块22,用于在一级行业分类子模块21进行一级行业分类之后,二级行业分类子模块22在具体的一级行业类目中加载相应的最大熵模型文件,采用最大熵模型进行二级行业分类。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种针对发布文本的行业分类方法,其特征在于,该方法包括:
进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;
根据所述两级的层次类别体系,对发布文本进行一级行业和二级行业分类。
2.根据权利要求1所述针对发布文本的行业分类方法,其特征在于,所述一级行业类别特征词集合挖掘具体为:
基于人工标注的初始的一级行业类别特征词集合,采用全文匹配的分类方式,对不同来源的网页进行分类;
对拥有分类属性的网页进行全文切词,抽取类别特征词,并计算抽取的类别特征词对所属类别的权重向量;
将抽取的类别特征词合并入所述一级行业类别特征词集合。
3.根据权利要求2所述针对发布文本的行业分类方法,其特征在于,所述一级行业类别特征词集合以哈希表的形式建立,所述哈希表以类别特征词作为关键字,以类别特征词对于一级行业类别的权重向量作为键值。
4.根据权利要求1所述针对发布文本的行业分类方法,其特征在于,所述二级行业分类模型训练具体为:
对每个一级行业采用最大熵模型作为分类器,对已标注样例集进行学习得到初步分类模型;
通过选择算法利用上一环节训练的分类器对未标注样例进行分类,选择置信度低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代。
5.根据权利要求1至4任一项所述针对发布文本的行业分类方法,其特征在于,所述对发布文本进行一级行业分类,具体为:
对发布文本进行切词,得到词序列;
根据切词后的每个词查询一级行业类别特征词集合,得到每个词对应的键值;
对所述词序列对应的相同的类别权重进行叠加并归一化;
选取类别权重最大的至少一个类别作为一级行业类别结果。
6.根据权利要求5所述针对发布文本的行业分类方法,其特征在于,所述对发布文本进行二级行业分类,具体为:
在进行一级行业分类之后,在具体的一级行业类目中加载相应的最大熵模型文件,采用最大熵模型进行二级行业分类。
7.一种针对发布文本的行业分类系统,其特征在于,该系统包括:
层次类别体系构建模块,用于进行一级行业类别特征词集合挖掘和二级行业分类模型训练,并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系;
分类模块,用于根据所述两级的层次类别体系,对发布文本进行一级行业和二级行业分类。
8.根据权利要求7所述针对发布文本的行业分类系统,其特征在于,所述层次类别体系构建模块进一步包括:
一级行业类别特征词集合挖掘子模块,用于基于人工标注的初始的一级行业类别特征词集合,采用全文匹配的分类方式,对不同来源的网页进行分类;对拥有分类属性的网页进行全文切词,抽取类别特征词,并计算抽取的类别特征词对所属类别的权重向量;将抽取的类别特征词合并入所述一级行业类别特征词集合。
9.根据权利要求8所述针对发布文本的行业分类系统,其特征在于,所述一级行业类别特征词集合以哈希表的形式建立,所述哈希表以类别特征词作为关键字,以类别特征词对于一级行业类别的权重向量作为键值。
10.根据权利要求7所述针对发布文本的行业分类系统,其特征在于,所述层次类别体系构建模块进一步包括:
二级行业分类模型训练子模块,用于对每个一级行业采用最大熵模型作为分类器,对已标注样例集进行学习得到初步分类模型;通过选择算法利用上一环节训练的分类器对未标注样例进行分类,选择置信度低的样例提交人工标注,再将人工标注后的样例加人到已标注样例集中进行再次训练,如此迭代。
11.根据权利要求7至10任一项所述针对发布文本的行业分类系统,其特征在于,所述分类模块进一步包括:一级行业分类子模块,用于对发布文本进行切词,得到词序列;根据切词后的每个词查询一级行业类别特征词集合,得到每个词对应的键值;对所述词序列对应的相同的类别权重进行叠加并归一化;选取类别权重最大的至少一个类别作为一级行业类别结果。
12.根据权利要求11所述针对发布文本的行业分类系统,其特征在于,所述分类模块进一步包括:二级行业分类子模块,用于在所述一级行业分类子模块进行一级行业分类之后,二级行业分类子模块在具体的一级行业类目中加载相应的最大熵模型文件,采用最大熵模型进行二级行业分类。
CN201210076564.4A 2012-03-21 2012-03-21 一种针对发布文本的行业分类方法和系统 Active CN103324628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210076564.4A CN103324628B (zh) 2012-03-21 2012-03-21 一种针对发布文本的行业分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210076564.4A CN103324628B (zh) 2012-03-21 2012-03-21 一种针对发布文本的行业分类方法和系统

Publications (2)

Publication Number Publication Date
CN103324628A true CN103324628A (zh) 2013-09-25
CN103324628B CN103324628B (zh) 2016-06-08

Family

ID=49193376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210076564.4A Active CN103324628B (zh) 2012-03-21 2012-03-21 一种针对发布文本的行业分类方法和系统

Country Status (1)

Country Link
CN (1) CN103324628B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544310A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种基于分类器实现的导购类网页的信息分类方法
CN104899215A (zh) * 2014-03-06 2015-09-09 北京搜狗科技发展有限公司 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN104933044A (zh) * 2014-03-17 2015-09-23 北京奇虎科技有限公司 应用卸载原因的分类方法及分类装置
CN105787025A (zh) * 2016-02-24 2016-07-20 腾讯科技(深圳)有限公司 网络平台公共账号分类方法及装置
CN106875134A (zh) * 2017-03-30 2017-06-20 携程计算机技术(上海)有限公司 Ota的民宿客栈挖掘方法
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107291902A (zh) * 2017-06-23 2017-10-24 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107368526A (zh) * 2017-06-09 2017-11-21 北京因果树网络科技有限公司 一种数据处理方法及装置
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN108520041A (zh) * 2018-04-03 2018-09-11 有米科技股份有限公司 文本的行业分类方法、系统、计算机设备和存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置
CN109684472A (zh) * 2018-12-20 2019-04-26 深圳价值在线信息科技股份有限公司 一种证券资讯的行业分类方法及系统
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN110457702A (zh) * 2019-08-12 2019-11-15 北京亚鸿世纪科技发展有限公司 基于高频词汇的物联网流量识别与数据提取系统
CN110674297A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110930022A (zh) * 2019-11-20 2020-03-27 携程计算机技术(上海)有限公司 酒店静态信息的检测方法、系统、电子设备及存储介质
CN112104656A (zh) * 2020-09-16 2020-12-18 杭州安恒信息安全技术有限公司 一种网络威胁数据获取方法、装置、设备及介质
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN113342984A (zh) * 2021-07-05 2021-09-03 深圳云谷星辰信息技术有限公司 一种园区企业分类方法、系统、智能终端及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360267A (zh) * 2002-01-30 2002-07-24 北京大学 文件分类查找方法
US20050083935A1 (en) * 2003-10-20 2005-04-21 Kounavis Michael E. Method and apparatus for two-stage packet classification using most specific filter matching and transport level sharing
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统
CN101449264A (zh) * 2006-07-12 2009-06-03 柯法克斯公司 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
CN101984435A (zh) * 2010-11-17 2011-03-09 百度在线网络技术(北京)有限公司 一种对文本进行分发的方法和装置
US20110078127A1 (en) * 2009-09-27 2011-03-31 Alibaba Group Holding Limited Searching for information based on generic attributes of the query
CN102184412A (zh) * 2011-05-09 2011-09-14 东南大学 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360267A (zh) * 2002-01-30 2002-07-24 北京大学 文件分类查找方法
US20050083935A1 (en) * 2003-10-20 2005-04-21 Kounavis Michael E. Method and apparatus for two-stage packet classification using most specific filter matching and transport level sharing
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101449264A (zh) * 2006-07-12 2009-06-03 柯法克斯公司 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统
US20110078127A1 (en) * 2009-09-27 2011-03-31 Alibaba Group Holding Limited Searching for information based on generic attributes of the query
CN101984435A (zh) * 2010-11-17 2011-03-09 百度在线网络技术(北京)有限公司 一种对文本进行分发的方法和装置
CN102184412A (zh) * 2011-05-09 2011-09-14 东南大学 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖雪等: "《基于向量空间模型的中文文本层次分类方法研究》", 《计算机应用》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544310A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种基于分类器实现的导购类网页的信息分类方法
CN103544310B (zh) * 2013-11-04 2017-08-08 北京中搜云商网络技术有限公司 一种基于分类器实现的导购类网页的信息分类方法
CN104899215A (zh) * 2014-03-06 2015-09-09 北京搜狗科技发展有限公司 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN104933044A (zh) * 2014-03-17 2015-09-23 北京奇虎科技有限公司 应用卸载原因的分类方法及分类装置
CN104933044B (zh) * 2014-03-17 2019-05-31 北京奇虎科技有限公司 应用卸载原因的分类方法及分类装置
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN105787025A (zh) * 2016-02-24 2016-07-20 腾讯科技(深圳)有限公司 网络平台公共账号分类方法及装置
CN105787025B (zh) * 2016-02-24 2021-07-09 腾讯科技(深圳)有限公司 网络平台公共账号分类方法及装置
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN108287850B (zh) * 2017-01-10 2021-09-21 创新先进技术有限公司 文本分类模型的优化方法及装置
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN106875134A (zh) * 2017-03-30 2017-06-20 携程计算机技术(上海)有限公司 Ota的民宿客栈挖掘方法
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107368526A (zh) * 2017-06-09 2017-11-21 北京因果树网络科技有限公司 一种数据处理方法及装置
CN107291902B (zh) * 2017-06-23 2020-05-08 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107291902A (zh) * 2017-06-23 2017-10-24 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107368592B (zh) * 2017-07-26 2020-09-25 成都科来网络技术有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107944480B (zh) * 2017-11-16 2020-11-24 广州探迹科技有限公司 一种企业行业分类方法
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN108536800B (zh) * 2018-04-03 2022-04-19 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108520041B (zh) * 2018-04-03 2021-01-05 有米科技股份有限公司 文本的行业分类方法、系统、计算机设备和存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108520041A (zh) * 2018-04-03 2018-09-11 有米科技股份有限公司 文本的行业分类方法、系统、计算机设备和存储介质
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置
CN109684472A (zh) * 2018-12-20 2019-04-26 深圳价值在线信息科技股份有限公司 一种证券资讯的行业分类方法及系统
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN110457702A (zh) * 2019-08-12 2019-11-15 北京亚鸿世纪科技发展有限公司 基于高频词汇的物联网流量识别与数据提取系统
CN110457702B (zh) * 2019-08-12 2023-06-06 北京亚鸿世纪科技发展有限公司 基于高频词汇的物联网流量识别与数据提取系统
CN110674297A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110674297B (zh) * 2019-09-24 2022-04-29 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110930022A (zh) * 2019-11-20 2020-03-27 携程计算机技术(上海)有限公司 酒店静态信息的检测方法、系统、电子设备及存储介质
CN112104656A (zh) * 2020-09-16 2020-12-18 杭州安恒信息安全技术有限公司 一种网络威胁数据获取方法、装置、设备及介质
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN112435714B (zh) * 2020-11-03 2021-07-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN113342984A (zh) * 2021-07-05 2021-09-03 深圳云谷星辰信息技术有限公司 一种园区企业分类方法、系统、智能终端及存储介质

Also Published As

Publication number Publication date
CN103324628B (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104573046B (zh) 一种基于词向量的评论分析方法及系统
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN109739978A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN105512289A (zh) 基于深度学习和哈希的图像检索方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN101021838A (zh) 文本处理方法和系统
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN106156163B (zh) 文本分类方法以及装置
KR20190135129A (ko) 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
CN102955857A (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN103488637B (zh) 一种基于动态社区挖掘进行专家检索的方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant