CN100583101C - 基于领域知识的文本分类特征选择及权重计算方法 - Google Patents
基于领域知识的文本分类特征选择及权重计算方法 Download PDFInfo
- Publication number
- CN100583101C CN100583101C CN200810058517A CN200810058517A CN100583101C CN 100583101 C CN100583101 C CN 100583101C CN 200810058517 A CN200810058517 A CN 200810058517A CN 200810058517 A CN200810058517 A CN 200810058517A CN 100583101 C CN100583101 C CN 100583101C
- Authority
- CN
- China
- Prior art keywords
- field
- feature
- text
- speech
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000012706 support-vector machine Methods 0.000 claims abstract description 9
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000005303 weighing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 239000003814 drug Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,特别是一种基于领域知识的文本分类特征选择及权重计算方法。该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机学习算法,建立领域文本分类模型,实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了4个百分点。
Description
技术领域
本发明涉及人工智能技术领域,特别是一种基于领域知识的文本分类特征选择及权重计算方法。
背景技术
文本分类是当前自然语言处理研究的热点问题,如何识别一个文本是否属于某一特定领域文本问题,是当前垂直搜索引擎、问答系统等研究的关键问题。通常在文本分类中,特征选择是最重要的一个部分,其直接影响文本分类的准确率。常规的特征选择方法大多采用各种评估函数如文档频率(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Informa-tion,MI)、统计(CHI)等进行特征提取。这些特征选择方法都是基于统计学算法,在获取特征空间时通常采用大量的语料,经过统计计算和降维处理选择特征空间。这些特征选取方法可能会导致选择出来的一些统计特征对分类贡献较小,反而会降低分类的准确率;而对于领域文本分类来说,文本中经常会出现一些领域术语,这些领域术语对领域文本分类的区分度较高,然而利用常规的特征选择方法,这些对分类效果有重要作用的特征可能获得较低的权重,甚至被作为噪声被去掉,这样将大大影响了分类的准确率。
发明内容
本发明的目的在于提供一种基于领域知识关系的领域文本分类特征选择及权重计算方法。
本发明提出了并实现了一种基于领域知识关系的领域文本分类特征选择及权重计算方法,该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重,并采用支持向量机学习算法,建立领域文本分类模型,实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明,该方法分类准确率比改进TFIDF方法提高4个百分点。
发明技术方案如下:
基于领域知识的文本分类特征选择及权重计算方法进行文本分类的步骤:
(1)实验语料收集:
收集领域文本和非领域文本作为训练语料和测试语料,实验采用从网络随机搜索的云南旅游领域文档700篇作为领域训练文本,复旦大学语料库文档700篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各70篇)作为非领域训练文本,测试语料采用从网络随机搜索的云南旅游领域的文档200篇作为领域测试文本,复旦大学语料库文档200篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各20篇)作为非领域测试文本。
(2)文本预处理:
文本的预处理包括,分词,去除停用词(stop words),词频统计,文档频率统计等。首先对文本进行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库,进行领域词分词处理,并进行领域词标识。文本分词完成后,去掉文本中经常出现的“了”、“呢”、“的”、“怎样”等停用词。然后扫描文档,统计出每个词的词频、领域内文档频率及非领域内文档频率。
(3)TFIDF特征权重计算方法:
在文本预处理完成后,初步利用文档频率(DF)去掉低频词,选取1000个特征词,构成分类特征空间。特征词的权重计算采用重庆大学计算机学院张玉芳副教授等2006年发表在《计算机工程》上的“基于文本分类TFIDF方法的改进与应用”中提出的改进后的TFIDF方法,TFIDF=TF×log(m÷(m+k)×N),其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领域内文档频率,N表示全部文档数。
(4)扩展领域术语特征选取及特征权重计算方法(DTFIDF):
扩展领域术语特征选取权重计算方法(DTFIDF)是将领域词库中出现的所有领域术语直接扩展到分类特征空间中,并采用改进TFIDF方法进行特征权重计算。
(5)借助领域知识的特征选取及特征权重计算方法(WTFIDF):通过DF方法获取特征空间后,利用领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词权重进行调整进而改进文本分类效果。
权重调整方法采用了中国科学院计算所刘群教授等发表在《第三届中文词汇语义学研讨会》上的“基于《知网》的词汇语义相似度计算”中提出的基于《知网》的词汇语义相似度计算方法,
特征词的权重计算方法采用以下公式进行计算:
其中TFIDF表示没有经过权值调整时特征空间中特征词的权重,TFn表示文本中出现的第n个与特征词相似度大于γ的领域词的词频,m表示文本中出现的领域词的领域内文档频率,k表示文本中出现的领域词的非领域内文档频率,N表示全部文档数,Sim(S1,S2)表示领域词和特征词的相似度。
(6)领域文本分类模型构建:
分类算法SVM:
采用了支持向量机(SVM)算法进行领域文本分类,SVM是基于统计的机器学习模型,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,由于SVM的特点,其在小样本分类问题上的效果已经在文本分类、手写体识别、自然语言处理等方面得到了验证。
SVM的原理是通过事先选择的非线性映射(核函数)将输入向量X映射到一个高维特征空间,在这个空间构造最优分类超平面,以将两类样本无错误地分开,而且要使两类的分类空隙最大,前者保证经验风险最小,后者使推广性的界中的置信范围最小(即分类器的结构风险最小),这样可使在原始空间非线性可分的问题变为高维空间中线性可分的问题。
文本向量表示与分类:
对文档进行训练和分类前,把文档表示成计算机可以处理的形式。文本被表示成<label><index1>:<value1><index2>:<value2>...的格式。其中<label>是训练数据集的目标值,对于分类,它是标识某类的整数,在实验中领域文本即云南旅游领域文本的目标值设为+1,非领域文本包括复旦大学语料库中十个类别的文本的目标值设为-1;<index>是以1开始的整数,可以是不连续的,表示在一篇文档中出现第几个特征项;<value>为实数,在此设为该特征项的权重。通过以上几种方法可以对每个训练和测试文本构建出一个表示文本的特征向量,并通过国立台湾大学LIBSVM接口实现训练和分类。
用本发明的方法对云南旅游领域与非旅游领域文本分类实验结果表明,采用基于领域知识关系的领域文本分类特征选择及权重计算方法进行文本分类的准确率比改进TFIDF方法提高4个百分点。
附图说明
图1是本发明的基于领域知识的文本分类特征选择及权重计算方法的流程图。
具体实施方式
针对提出的以上方法在云南旅游领域进行了实验验证,具体步骤如图1:
步骤a1:实验训练语料选取了云南旅游领域文档700篇作为领域训练文本,复旦大学语料库文档700篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各70篇)作为非领域训练文本。测试语料采用了云南旅游领域的文档200篇作为领域测试文本,复旦大学语料库文档200篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各20篇)作为非领域测试文本。
步骤a2:文本预处理,包括,分词,去除停用词(stop words),词频统计,文档频率统计等。首先对文本进行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库,进行领域词分词处理,并进行领域词标识。文本分词完成后,去掉文本中经常出现的“了”、“呢”、“的”、“怎样”等停用词。然后扫描文档,统计出每个词的词频、领域内文档频率及非领域内文档频率。
步骤a3:分别采用3种特征空间选择及特征权重计算方法进行特征空间选择及特征权重计算。
(1)TFIDF特征权重计算方法:初步利用文档频率(DF)去掉低频词,选取1000个特征词,构成分类特征空间。特征词的权重计算采用重庆大学计算机学院张玉芳副教授改进后的TFIDF方法,TFIDF=TF×log(m÷(m+k)×N),其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领域内文档频率,N表示全部文档数。
采用该方法一些出现频率较低的对领域文本分类却有较强的区分度领域术语,在特征选择和权值计算的时候很可能被忽略或者赋予一个很小的权值。
(2)扩展领域术语特征选取及特征权重计算方法(DTFIDF):
扩展领域术语特征选取权重计算方法(DTFIDF)是将领域词库中出现的所有领域术语直接扩展到分类特征空间中。
这样特征空间的构成就是利用文档频率(DF)去掉低频词后获取的特征词与领域词库中的领域术语合并得到,特征词权重计算采用TFIDF方法。这种方法在特征空间选取时,不会将类别区分度高的领域术语去掉,但会增大特征空间的维数,导致数据稀疏,可能会在一定程度上影响分类效果。
(3)借助领域知识的特征选取及特征权重计算方法(WTFIDF):
利用文档频率(DF)去掉低频词获取特征空间后,利用领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词权重进行调整进而改进文本分类效果。
在此方法中特征词权重的调整是借助于“知网”来计算特征词与领域术语之间的相似度来实现。“知网”HowNet是一部通用常识资源,其描述了汉语和英语的词语所代表的概念,揭示概念与概念之间以及概念所具有的属性和属性之间的关系。采用“知网”的概念描述语言KDML规则,对云南旅游领域的2012个概念进行了精确描述,如:概念“玉龙雪山”和“丽江”的精确描述如下:
NO.=141008
W_C=玉龙雪山
G_C=N
E_C=很漂亮
W_E=Yulongxueshan
G_E=N
E_E=~is a beautiful place
DEF=PLACE|地方,PROPERNAME|专,(SCENE|景区),(LIJIANG|丽江),(YUNNAN|云南);
NO.=141001
W_C=丽江
G_C=N
E_C=~很漂亮
W_E=Lijiang
G_E=N
E_E=~is beautiful place
DEF=PLACE|地方,PROPERNAME|专,CITY|市,(YUNNAN|云南);
通过“知网”概念描述方法,将领域词汇在“知网”中建立联系。将没有被选择作为特征词的低频领域术语,对文本分类的贡献体现于特征空间中和这些领域术语有相关性的特征词的权重上。如将“玉龙雪山”等这些没有被选择作为特征词的领域术语,对文本分类的贡献体现于“丽江”等等这些经过权重调整的特征词。权重调整方法采用了中国科学院计算所刘群教授等发表在《第三届中文词汇语义学研讨会》上的“基于《知网》的词汇语义相似度计算”中提出的基于《知网》的词汇语义相似度计算方法,
特征词的权重计算方法采用以下公式进行计算:
其中TFIDF表示没有经过权值调整时特征空间中特征词的权重,TFn表示文本中出现的第n个与特征词相似度大于γ的领域词的词频,m表示文本中出现的领域词的领域内文档频率,k表示文本中出现的领域词的非领域内文档频率,N表示全部文档数,Sim(S1,S2)表示领域词和特征词的相似度。
步骤a4:领域文本分类模型构建
对文档进行训练和分类前,把文档表示成计算机可以处理的形式。文本被表示成<label><index1>:<value1><index2>:<value2>...的格式。其中<label>是训练数据集的目标值,对于分类,它是标识某类的整数,在实验中领域文本即云南旅游领域文本的目标值设为+1,非领域文本包括复旦大学语料库中十个类别的文本的目标值设为-1;<index>是以1开始的整数,可以是不连续的,表示在一篇文档中出现第几个特征项;<value>为实数,在此设为该特征项的权重。通过以上几种方法可以对每个训练和测试文本构建出一个表示文本的特征向量,并通过国立台湾大学LIBSVM接口实现训练和分类。
步骤a5:针对云南旅游领域利用文本分类模型进行实验。
实验采用DF方法选择特征空间,选取了文档频率较大的前1000个词做为特征空间。分别采用改进TFIDF、DTFIDF方法、WTFIDF方法进行特征空间选择和特征权重计算。
实验训练了一个两类分类器,实现领域文本和非领域文本分类,
表1为分别采用3种特征空间及特征权重计算方法的文本分类实验结果
以上数据可以看出,采用TFIDF方法,领域内文本分类准确率为90.5%,采用DTFIDF方法,领域内文本分类准确率比TFIDF方法提高了3%,所有文本的分类准确率比改进TFIDF方法提高了1.75%,采用WTFIDF方法,领域内文本分类准确率比TFIDF方法提高了7.5%,所有文本的分类准确率比改进TFIDF提高了4%。但是非领域文本的准确率没有很明显的提高。以上数据说明提出的借助领域知识的文本分类特征选择及权重计算方法对领域文本分类的准确率的改进是很大的。
通过以上实验和实例数据分析,仅采用TFIDF方法选择特征词进行实验,旅游领域的一些低频特征词并没有被选择,一些含有领域词的文本被表示为向量形式后一些具有强的类别区分能力的维就被忽略,文本分类结果不太理想。采用DTFIDF方法,含有领域词的文本中的具有类别区分能力的维被体现出来,分类的效果有了改善。但是引入领域词后,特征空间维数变大,造成数据稀疏,分类性能也受到一定的影响。采用WTFIDF方法,特征空间维数限定的情况下,没有出现在特征空间中的领域词,对文本分类的贡献体现于与领域词具有相关性的特征词的权重中。分类准确率有了一定的提高。说明这种基于领域知识的文本分类特征选择及权重计算方法在领域文本和非领域文本的分类中是可实用的。
Claims (4)
1.一种基于领域知识的文本分类特征选择及权重计算方法,其特征在于按以下步骤进行:
(1)收集领域文本和非领域文本作为训练语料和测试语料;
(2)文本的预处理:分词,去除停用词,词频统计,文档频率统计;首先对文本进行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库,进行领域词分词处理,并进行领域词标识,文本分词完成后,去掉文本中经常出现的“了”、“呢”、“的”、“怎样”停用词,然后扫描文档,统计出每个词的词频、领域内文档频率及非领域内文档频率;
(3)在文本预处理完成后,初步利用文档频率去掉低频词,选取1000个特征词,构成分类特征空间;特征词的权重计算采用改进TFIDF=TF×log(m÷(m+k)×N)方法,其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领域内文档频率,N表示全部文档数;
(4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间,形成分类特征空间并采用改进TFIDF方法进行特征权重计算;即将领域词库中出现的所有领域术语直接扩展到分类特征空间中;
(5)在步骤(3)的基础上选取分类特征空间,并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整;即通过文档频率DF方法获取特征空间后,利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词权重进行调整进而改进文本分类效果;
(6)利用特征空间选择及特征权重计算方法,用支持向量机SVM机器学习算法,训练文本分类器,构建领域文本分类模型,并对领域文本进行文本分类实验验证。
2.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法,其特征在于,步骤(5)中所述的利用改进TFIDF方法结合领域知识关系对文本中出现而特征空间中没有出现的领域术语与特征空间中的特征词进行相似度计算,对相似度大于一定阈值的特征词权重进行调整。
3.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法,其特征在于步骤(5)中所述的利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整,词汇语义相似度计算方法:
其中,Sim为相似度,S1、S2为两个概念语意表达式,βi(1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4
特征词的权重计算方法采用以下公式进行计算:
其中TFIDF表示没有经过权值调整时特征空间中特征词的权重,TFn表示文本中出现的第n个与特征词相似度大于γ的领域术语的词频,m表示文本中出现的领域术语的领域内文档频率,k表示文本中出现的领域术语的非领域内文档频率,N表示全部文档数,Sim(S1,S2)表示领域术语和特征词的相似度。
4.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法,其特征在于,在步骤(6)所述的训练文本分类器中,分别对步骤(3)、(4)、(5)中提到的三种特征空间选择及特征权重计算方法进行了领域文本分类模型的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810058517A CN100583101C (zh) | 2008-06-12 | 2008-06-12 | 基于领域知识的文本分类特征选择及权重计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810058517A CN100583101C (zh) | 2008-06-12 | 2008-06-12 | 基于领域知识的文本分类特征选择及权重计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101290626A CN101290626A (zh) | 2008-10-22 |
CN100583101C true CN100583101C (zh) | 2010-01-20 |
Family
ID=40034884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810058517A Expired - Fee Related CN100583101C (zh) | 2008-06-12 | 2008-06-12 | 基于领域知识的文本分类特征选择及权重计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100583101C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798B (zh) * | 2009-02-17 | 2011-01-05 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN101609472B (zh) * | 2009-08-13 | 2011-08-17 | 腾讯科技(深圳)有限公司 | 一种基于问答平台的关键词评价方法和装置 |
CN102054006B (zh) * | 2009-11-10 | 2015-01-14 | 深圳市世纪光速信息技术有限公司 | 一种从海量数据中提取有效信息的方法及装置 |
CN102081601B (zh) * | 2009-11-27 | 2013-01-09 | 北京金山软件有限公司 | 一种领域词识别方法和装置 |
CN102135961B (zh) * | 2010-01-22 | 2013-03-20 | 北京金山软件有限公司 | 一种领域特征词确定方法和装置 |
CN102200981B (zh) * | 2010-03-25 | 2013-07-17 | 三星电子(中国)研发中心 | 面向多层文本分类的特征选择方法和装置 |
CN101819601B (zh) * | 2010-05-11 | 2012-02-08 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN102411583B (zh) * | 2010-09-20 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
CN102033964B (zh) * | 2011-01-13 | 2012-05-09 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN102184402A (zh) * | 2011-05-17 | 2011-09-14 | 哈尔滨工程大学 | 一种特征选择方法 |
CN102955791A (zh) * | 2011-08-23 | 2013-03-06 | 句容今太科技园有限公司 | 网络信息搜索与分类服务系统 |
CN102279890A (zh) * | 2011-09-02 | 2011-12-14 | 苏州大学 | 基于微博的情感词提取收集方法 |
CN102332012B (zh) * | 2011-09-13 | 2014-10-22 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102289522B (zh) * | 2011-09-19 | 2014-08-13 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102360383B (zh) * | 2011-10-15 | 2013-07-31 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN102662952B (zh) * | 2012-03-02 | 2015-04-15 | 成都康赛信息技术有限公司 | 一种基于层次的中文文本并行数据挖掘方法 |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及系统 |
CN102929860B (zh) * | 2012-10-12 | 2015-05-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN103902570B (zh) * | 2012-12-27 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN103106275B (zh) * | 2013-02-08 | 2016-02-10 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN103226578B (zh) * | 2013-04-02 | 2015-11-04 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
CN103324692B (zh) * | 2013-06-04 | 2016-05-18 | 北京大学 | 分类知识获取方法和装置 |
CN104809131B (zh) * | 2014-01-27 | 2021-06-25 | 董靖 | 电子文档的自动分类系统和方法 |
CN104035996B (zh) * | 2014-06-11 | 2017-06-16 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104182463A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本分类方法 |
CN104268144B (zh) * | 2014-08-12 | 2017-08-29 | 华东师范大学 | 一种电子病历查询语句的构造方法 |
CN106156083B (zh) * | 2015-03-31 | 2020-02-21 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN104794187A (zh) * | 2015-04-13 | 2015-07-22 | 西安理工大学 | 一种基于词条分布的特征选择方法 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
CN106445907A (zh) * | 2015-08-06 | 2017-02-22 | 北京国双科技有限公司 | 一种领域词典的生成方法及装置 |
CN105045913B (zh) * | 2015-08-14 | 2018-08-28 | 北京工业大学 | 基于WordNet以及潜在语义分析的文本分类方法 |
CN106569993A (zh) * | 2015-10-10 | 2017-04-19 | 中国移动通信集团公司 | 一种挖掘领域术语间上下位关系的方法及装置 |
CN105224689A (zh) * | 2015-10-30 | 2016-01-06 | 北京信息科技大学 | 一种东巴文献分类方法 |
CN106649253B (zh) * | 2015-11-02 | 2019-03-22 | 涂悦 | 基于后验证的辅助控制方法及系统 |
CN105760471B (zh) * | 2016-02-06 | 2019-04-19 | 北京工业大学 | 基于组合凸线性感知器的两类文本分类方法 |
CN105787004A (zh) * | 2016-02-22 | 2016-07-20 | 浪潮软件股份有限公司 | 一种文本分类方法及装置 |
CN106326458A (zh) * | 2016-06-02 | 2017-01-11 | 广西智度信息科技有限公司 | 一种基于文本分类的城市管理案件分类方法 |
CN106095949A (zh) * | 2016-06-14 | 2016-11-09 | 东北师范大学 | 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统 |
CN107704929B (zh) * | 2016-08-08 | 2020-10-23 | 华为技术有限公司 | 一种模型更新方法和装置 |
CN106649563B (zh) * | 2016-11-10 | 2022-02-25 | 新华三技术有限公司 | 一种网站分类字典的构建方法及装置 |
CN106844424B (zh) * | 2016-12-09 | 2020-11-03 | 宁波大学 | 一种基于lda的文本分类方法 |
CN108268457A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于svm的文本分类方法及装置 |
CN107145560B (zh) * | 2017-05-02 | 2021-01-29 | 北京邮电大学 | 一种文本分类方法及装置 |
CN107292193A (zh) * | 2017-05-25 | 2017-10-24 | 北京北信源软件股份有限公司 | 一种实现数据泄露防护的方法和系统 |
CN107480126B (zh) * | 2017-07-10 | 2021-04-13 | 华联世纪工程咨询股份有限公司 | 一种工程材料类别智能识别方法 |
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN107861939B (zh) * | 2017-09-30 | 2021-05-14 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN110751285B (zh) * | 2018-07-23 | 2024-01-23 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
CN109408642B (zh) * | 2018-08-30 | 2021-07-16 | 昆明理工大学 | 一种基于距离监督的领域实体属性关系抽取方法 |
CN111090753B (zh) * | 2018-10-24 | 2020-11-20 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
CN109947939B (zh) * | 2019-01-30 | 2022-07-05 | 中兴飞流信息科技有限公司 | 文本分类方法、电子设备和计算机可读存储介质 |
US11727312B2 (en) | 2019-09-03 | 2023-08-15 | International Business Machines Corporation | Generating personalized recommendations to address a target problem |
CN111444310A (zh) * | 2019-12-02 | 2020-07-24 | 北京中科院软件中心有限公司 | 一种构建制造领域术语库的方法及系统 |
CN110765781B (zh) * | 2019-12-11 | 2023-07-14 | 沈阳航空航天大学 | 一种领域术语语义知识库人机协同构建方法 |
CN111177389A (zh) * | 2019-12-30 | 2020-05-19 | 佰聆数据股份有限公司 | 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质 |
CN111324722B (zh) * | 2020-05-15 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种训练词语权重模型的方法和系统 |
US11321527B1 (en) | 2021-01-21 | 2022-05-03 | International Business Machines Corporation | Effective classification of data based on curated features |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1154358A2 (en) * | 2000-05-12 | 2001-11-14 | Applied Psychology Research Limited | Automatic text classification system |
CN1701324A (zh) * | 2001-11-02 | 2005-11-23 | Dba西方集团西方出版社 | 用于分类文档的系统,方法和软件 |
US6990496B1 (en) * | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
CN1307579C (zh) * | 1998-06-23 | 2007-03-28 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
-
2008
- 2008-06-12 CN CN200810058517A patent/CN100583101C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1307579C (zh) * | 1998-06-23 | 2007-03-28 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
EP1154358A2 (en) * | 2000-05-12 | 2001-11-14 | Applied Psychology Research Limited | Automatic text classification system |
US6990496B1 (en) * | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
CN1701324A (zh) * | 2001-11-02 | 2005-11-23 | Dba西方集团西方出版社 | 用于分类文档的系统,方法和软件 |
Non-Patent Citations (2)
Title |
---|
基于特定领域的Web文本信息获取系统的研究. 赵栓柱,陈俊杰.太原理工大学学报,第37卷第2期. 2006 |
基于特定领域的Web文本信息获取系统的研究. 赵栓柱,陈俊杰.太原理工大学学报,第37卷第2期. 2006 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101290626A (zh) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN109960799B (zh) | 一种面向短文本的优化分类方法 | |
Song et al. | A comparative study on text representation schemes in text categorization | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106528642A (zh) | 一种基于tf‑idf特征提取的短文本分类方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN103886108A (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN107463715A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN106203508A (zh) | 一种基于Hadoop平台的图像分类方法 | |
CN102411592A (zh) | 一种文本分类方法和装置 | |
Greensmith et al. | An artificial immune system approach to semantic document classification | |
CN103268346A (zh) | 半监督分类方法及系统 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN109344331A (zh) | 一种基于在线社会网络的用户情感分析方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100120 Termination date: 20120612 |