CN107844553A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN107844553A CN107844553A CN201711044663.3A CN201711044663A CN107844553A CN 107844553 A CN107844553 A CN 107844553A CN 201711044663 A CN201711044663 A CN 201711044663A CN 107844553 A CN107844553 A CN 107844553A
- Authority
- CN
- China
- Prior art keywords
- participle
- text
- class categories
- feature
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本分类方法及装置,其中,所述方法,包括:确定至少两个分类类别所分别对应的至少一个特征词;利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;从待分类文本中提取至少一个特征分词;将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。通过本发明的技术方案,可更为快速的确定大量文本分别所属的分类类别。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种文本分类方法及装置。
背景技术
随着互联网技术的发展,互联网上的文本数量也越来越多,大量的文本给用户提供方便的同时也给用户从大量文本中查找符合用户需求的文本带来了很大的不便。
目前,主要通过人工处理的方式确定文本所属的分类类别,以便用户根据文本所属的分类类别确定该文本是否符合用户的需求。
但是,当文本的数量较大时,则很难通过人工处理的方式快速确定各个文本所属的分类类别。
发明内容
本发明实施例提供了一种文本分类方法及装置,可更为快速的确定大量文本分别所属的分类类别。
第一方面,本发明提供了一种文本分类方法,包括:
预先确定至少两个分类类别所分别对应的至少一个特征词;
利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;还包括:
从待分类文本中提取至少一个特征分词;
将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
优选地,
所述确定至少两个分类类别所分别对应的至少一个特征词,包括:
获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
优选地,
所述计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,包括:
通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、 TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、 nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
优选地,
所述针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词,包括:
针对于每一个所述参考文本,执行:
对当前所述参考文本进行分词处理以获取至少两个分词;
去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;
从所述至少两个特征分词中提取至少一个备选分词。
优选地,
所述从所述至少两个特征分词中提取至少一个备选分词,包括:
通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;
将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
第二方面,本发明实施例提供了一种文本分类装置,包括:
特征词确定模块,用于预先确定至少两个分类类别所分别对应的至少一个特征词;
训练模块,用于利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;
特征词提取模块,用于从待分类文本中提取至少一个特征分词;
处理模块,用于将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
分类模块,用于将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
优选地,
所述特征词确定模块,包括:样本确定单元、分词处理单元、计算单元和特征词确定单元;其中,
所述样本确定单元,用于获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
所述分词处理单元,用于针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
所述计算单元,用于计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
所述特征词确定单元,用于根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
优选地,
所述计算单元,用于通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、 TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、 nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
优选地,
所述分词处理单元,用于针对于每一个所述参考文本,执行:
对当前所述参考文本进行分词处理以获取至少两个分词;
去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;
从所述至少两个特征分词中提取至少一个备选分词。
优选地,
所述分词处理单元,用于通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
本发明实施例提供了一种文本分类方法及装置,该方法通过预先确定至少两个分类类别所分别对应的至少一个特征词,并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器,当后续过程中需要确定其他待分类文本所属的分类类别时,则可从待分类文本中提取至少一个特征分词,然后将至少一个特征分词输入目标分类器,并接收所述目标分类器根据至少一个特征分词输出的当前分类类别,后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见,在得到目标分类器之后,仅需要在确定出待分类文本的至少一个特征分词,将其输入训练得到的分类器,即可得到分类器输出的待分类文本所述的分类类别,无需过多的人工干预,可更为快速的确定大量文本分别所述的分类类别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种文本分类方法的流程图;
图2是本发明一实施例提供的另一种文本分类方法的流程图;
图3是本发明一实施例提供的一种文本分类装置的结构示意图;
图4是本发明一实施例提供的另一种文本分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种文本分类方法,包括:
步骤101,预先确定至少两个分类类别所分别对应的至少一个特征词;
步骤102,利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;
步骤103,从待分类文本中提取至少一个特征分词;
步骤104,将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
步骤105,将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
如图1所示的实施例,通过预先确定至少两个分类类别所分别对应的至少一个特征词,并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器,当后续过程中需要确定其他待分类文本所属的分类类别时,则可从待分类文本中提取至少一个特征分词,然后将至少一个特征分词输入目标分类器,并接收所述目标分类器根据至少一个特征分词输出的当前分类类别,后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见,在得到目标分类器之后,仅需要在确定出待分类文本的至少一个特征分词,将其输入训练得到的分类器,即可得到分类器输出的待分类文本所述的分类类别,无需过多的人工干预,可更为快速的确定大量文本分别所述的分类类别。
传统的文本分类方法通常将每一个参考文本分别作为一个整体来考虑,并没有考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况,这可能导致从各个备选分词中选择出各个分类类别所分别对应的至少一个特征词时,确定出的对应于某一个指定分类类别的至少一个特征词并不能清楚、准确的表征该指定分类类别,因此,为了更为准确的确定出每一个分类类别所分别对应的至少一个特征词,本发明一个实施例中,步骤101包括:
获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
具体地,本发明上述实施例中,所述计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,包括:
通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、 TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、 nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
本发明上述实施例中,同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况,某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比,与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比,因此,通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值,一个指定备选分词与一个指定分类类别之间对应的第一权重值越大,则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀),在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀),则说明该指定备选分词越能代表该指定类别。如此,根据每一个备选分词与各个分类类别之间所分别对应的第一权重值,从各个当前备选分词中确定出每一个分类类别所分别对应的至少一个特征词时,确定出的对应于某一个指定分类类别的至少一个特征词能够更为清楚、准确的表征该指定分类类别。
这里,常数L为经验值,可以是100,避免上述两个公式的分母或分子为0导致不能准确确定各个分类类别所分别对应的至少一个特征词。
进一步的,为了减小计算量,取出各个参考文本中并不能用于表征其所属分类类别的各个分词,本发明一个实施例中,所述针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词,包括:针对于每一个所述参考文本,执行:对当前所述参考文本进行分词处理以获取至少两个分词;去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;从所述至少两个特征分词中提取至少一个备选分词。比如,可根据相应的预设规则去除各个分词中的语气助词、副词、介词、连词、低频词、停用词等。
具体地,本发明一个实施例中,所述从所述至少两个特征分词中提取至少一个备选分词,包括:通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
本发明上述实施例中,如果把所有的特征分词都作为备选次,那么特征词的数量将会非常之大,需要消耗大量的计算资源,影响文本的处理速度。通过TF-IDF算法计算各个特征分词的第二权重值,一个指定特征分词在指定参考文本内出现的频次(即TF,词频)可用于衡量该指定特征分词表征指定参考文本的能力,频次越高,则其表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比;一个指定特征分词在其他参考文档中出现的频次(即IDF,反文档频率)越小,则表明该指定特征分词表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比;然后对所有特征分词的分别对应的第二权重值进行排序,仅选择权值大于某一阈值的特征分词 (即更能表征其所在参考文本的特征分词)作为备选分词,降低了备选分词的数量,从而降低计算量,提高文本的处理速度。
为了更加清楚的说明本发明的技术方案及优点,本发明实施例提供了另一种文本分类方法,如图2所示,具体可以包括如下各个步骤:
步骤201,获取至少两个参考文本,并确定每一个参考文本所分别对应的分类类别。
这里,可以从搜狗实验室新闻数据语料库获取至少两个参考文本,搜狗实验室新闻数据语料库包含有财经、互联网、健康、教育、军事、旅游、体育、文化、招聘等9个分类类别,每个分类类别分别对应有近2000篇参考文本。
步骤202,针对于每一个参考文本,对当前参考文本进行分词处理以获取至少两个分词。
这里,可以通过Lucene或IKAnalyzer等方法对各个参考文本进行分词处理以获取到每一个参考文本所分别对应的至少两个分词。
步骤203,针对于每一个参考文本,去除其对应的至少两个分词中不符合预设规则的分词以得到至少两个特征分词,并计算每一个分词在各个参考文本中出现的次数。
这里,可以,可根据相应的预设规则去除各个分词中的语气助词、副词、介词、连词、低频词、停用词等。
步骤203具体可以通过如下代码实现:
步骤204,通过TF-IDF算法计算每一个特征分词所分别对应的第二权重值。
本发明实施例中,通过TF-IDF算法计算各个特征分词的第二权重值,一个指定特征分词在指定参考文本内出现的频次(即TF,词频)可用于衡量该指定特征分词表征指定参考文本的能力,频次越高,则其表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比;一个指定特征分词在其他参考文档中出现的频次(即IDF,反文档频率)越小,则表明该指定特征分词表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比。
步骤205,将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
本发明实施例中,对所有特征分词的分别对应的第二权重值进行排序,仅选择权值大于某一阈值的特征分词(即更能表征其所在参考文本的特征分词)作为备选分词,降低了备选分词的数量,从而降低计算量,提高文本的处理速度。
步骤204和步骤205可以通过如下代码实现:
步骤206,计算每一个备选分词与各个分类类别之间所分别对应的第一权重值。
步骤206中,可以通过如下公式计算每一个备选分词与各个分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、 TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、 nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
本发明上述实施例中,同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况,某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比,与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比,因此,通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值,一个指定备选分词与一个指定分类类别之间对应的第一权重值越大,则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀),在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀),则说明该指定备选分词越能代表该指定类别。
常数L为经验值,可以是100,避免上述两个公式的分母或分子为0导致不能准确确定各个分类类别所分别对应的至少一个特征词。
步骤206可以通过如下代码实现:
步骤207,根据每一个备选分词与各个分类类别之间所分别对应的第一权重值,从各个当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
步骤208,利用每一个分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器。
步骤209,从待分类文本中提取至少一个特征分词。
这里,可以通过Lucene或IKAnalyzer等方法对待分类文本进行分词处理以提取至少一个特征分词。
步骤210,将至少一个特征分词输入所述目标分类器,并接收目标分类器根据至少一个特征分词输出的当前分类类别。
步骤211,将接收的当前分类类别确定为待分类文本所属的分类类别。
通过本发明实施例的上述各个步骤,在得到目标分类器之后,仅需要在确定出待分类文本的至少一个特征分词,将其输入训练得到的分类器,即可得到分类器输出的待分类文本所述的分类类别,无需过多的人工干预,可更为快速的确定大量文本分别所述的分类类别。
如图3所示,本发明实施例提供了一种文本分类装置,包括:
特征词确定模块301,用于预先确定至少两个分类类别所分别对应的至少一个特征词;
训练模块302,用于利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;
特征词提取模块303,用于从待分类文本中提取至少一个特征分词;
处理模块304,用于将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
分类模块305,用于将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
如图4所示,本发明一个实施例中,所述特征词确定模块301,包括:样本确定单元3011、分词处理单元3012、计算单元3013和特征词确定单元 3014;其中,
所述样本确定单元3011,用于获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
所述分词处理单元3012,用于针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
所述计算单元3013,用于计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
所述特征词确定单元3014,用于根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
本发明一个实施例中,所述计算单元,用于通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、 TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、 nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
本发明一个实施例中,所述分词处理单元,用于针对于每一个所述参考文本,执行:
对当前所述参考文本进行分词处理以获取至少两个分词;
去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;
从所述至少两个特征分词中提取至少一个备选分词。
本发明一个实施例重,所述分词处理单元,用于通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明各个实施例至少具有如下有益效果:
1、本发明一实施例中,该方法通过预先确定至少两个分类类别所分别对应的至少一个特征词,并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器,当后续过程中需要确定其他待分类文本所属的分类类别时,则可从待分类文本中提取至少一个特征分词,然后将至少一个特征分词输入目标分类器,并接收所述目标分类器根据至少一个特征分词输出的当前分类类别,后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见,在得到目标分类器之后,仅需要在确定出待分类文本的至少一个特征分词,将其输入训练得到的分类器,即可得到分类器输出的待分类文本所述的分类类别,无需过多的人工干预,可更为快速的确定大量文本分别所述的分类类别。
2、本发明一实施例中,同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况,某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比,与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比,因此,通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值,一个指定备选分词与一个指定分类类别之间对应的第一权重值越大,则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀),在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀),则说明该指定备选分词越能代表该指定类别。如此,根据每一个备选分词与各个分类类别之间所分别对应的第一权重值,从各个当前备选分词中确定出每一个分类类别所分别对应的至少一个特征词时,确定出的对应于某一个指定分类类别的至少一个特征词能够更为清楚、准确的表征该指定分类类别。
3、本发明一实施例中,通过TF-IDF算法计算各个特征分词的第二权重值,一个指定特征分词在指定参考文本内出现的频次(即TF,词频)可用于衡量该指定特征分词表征指定参考文本的能力,频次越高,则其表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比;一个指定特征分词在其他参考文档中出现的频次(即IDF,反文档频率)越小,则表明该指定特征分词表征其所在的指定参考文本的能力越强,与其对应的第二权重值成正比;然后对所有特征分词的分别对应的第二权重值进行排序,仅选择权值大于某一阈值的特征分词(即更能表征其所在参考文本的特征分词)作为备选分词,降低了备选分词的数量,从而降低计算量,提高文本的处理速度。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
预先确定至少两个分类类别所分别对应的至少一个特征词;
利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;还包括:
从待分类文本中提取至少一个特征分词;
将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
2.根据权利要求1所述的文本分类方法,其特征在于,
所述确定至少两个分类类别所分别对应的至少一个特征词,包括:
获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
3.根据权利要求2所述的文本分类方法,其特征在于,
所述计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,包括:
通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
4.根据权利要求2所述的文本分类方法,其特征在于,
所述针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词,包括:
针对于每一个所述参考文本,执行:
对当前所述参考文本进行分词处理以获取至少两个分词;
去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;
从所述至少两个特征分词中提取至少一个备选分词。
5.根据权利要求4所述的文本分类方法,其特征在于,
所述从所述至少两个特征分词中提取至少一个备选分词,包括:
通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;
将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
6.一种文本分类装置,其特征在于,包括:
特征词确定模块,用于预先确定至少两个分类类别所分别对应的至少一个特征词;
训练模块,用于利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器,以形成目标分类器;
特征词提取模块,用于从待分类文本中提取至少一个特征分词;
处理模块,用于将所述至少一个特征分词输入所述目标分类器,并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别;
分类模块,用于将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。
7.根据权利要求6所述的文本分类装置,其特征在于,
所述特征词确定模块,包括:样本确定单元、分词处理单元、计算单元和特征词确定单元;其中,
所述样本确定单元,用于获取至少两个参考文本,并确定每一个所述参考文本所分别对应的分类类别;
所述分词处理单元,用于针对于每一个所述参考文本,从当前所述参考文本中提取至少一个备选分词;
所述计算单元,用于计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值;
所述特征词确定单元,用于根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值,从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。
8.根据权利要求7所述的文本分类装置,其特征在于,
所述计算单元,用于通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值:
其中,Wj,k是第j个备选分词tj与第k个分类类别之间对应的第一权重值、TF(tj,k)是备选分词tj在第k个分类类别所对应的各个参考文本中出现的频次、nk是在第k个分类类别所对应的各个参考文本的第一文本数量、nj是各个参考文本中所有包含备选分词tj的第二文本数量、L为常数。
9.根据权利要求7所述的文本分类装置,其特征在于,
所述分词处理单元,用于针对于每一个所述参考文本,执行:
对当前所述参考文本进行分词处理以获取至少两个分词;
去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词;
从所述至少两个特征分词中提取至少一个备选分词。
10.根据权利要求9所述的文本分类装置,其特征在于,
所述分词处理单元,用于通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值;将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711044663.3A CN107844553B (zh) | 2017-10-31 | 2017-10-31 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711044663.3A CN107844553B (zh) | 2017-10-31 | 2017-10-31 | 一种文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107844553A true CN107844553A (zh) | 2018-03-27 |
CN107844553B CN107844553B (zh) | 2021-07-27 |
Family
ID=61682219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711044663.3A Active CN107844553B (zh) | 2017-10-31 | 2017-10-31 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844553B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226761A (zh) * | 2022-12-27 | 2023-06-06 | 北京关键科技股份有限公司 | 一种基于深度神经网络的演训数据分类编目方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071152A1 (en) * | 2003-09-29 | 2005-03-31 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN106503254A (zh) * | 2016-11-11 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 语料分类方法、装置及终端 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN107122382A (zh) * | 2017-02-16 | 2017-09-01 | 江苏大学 | 一种基于说明书的专利分类方法 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107291723A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
-
2017
- 2017-10-31 CN CN201711044663.3A patent/CN107844553B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071152A1 (en) * | 2003-09-29 | 2005-03-31 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN107291723A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN106503254A (zh) * | 2016-11-11 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 语料分类方法、装置及终端 |
CN107122382A (zh) * | 2017-02-16 | 2017-09-01 | 江苏大学 | 一种基于说明书的专利分类方法 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226761A (zh) * | 2022-12-27 | 2023-06-06 | 北京关键科技股份有限公司 | 一种基于深度神经网络的演训数据分类编目方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107844553B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
TWI735543B (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN102332028B (zh) | 一种面向网页的不良Web内容识别方法 | |
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN104598532A (zh) | 一种信息处理方法及装置 | |
CN109558587B (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN105893533A (zh) | 一种文本匹配方法及装置 | |
CN106557508A (zh) | 一种文本关键词提取方法和装置 | |
CN107871144A (zh) | 发票商品名分类方法、系统、设备及计算机可读存储介质 | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN105630975B (zh) | 一种信息处理方法和电子设备 | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
CN105045913B (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN108052500A (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN108108346B (zh) | 文档的主题特征词抽取方法及装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106776566A (zh) | 情感词汇的识别方法及装置 | |
CN108363694A (zh) | 关键词提取方法及装置 | |
CN103577587A (zh) | 一种新闻主题分类方法 | |
CN106779455A (zh) | 一种翻译项目的风险评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210702 Address after: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong Applicant after: INSPUR GENERAL SOFTWARE Co.,Ltd. Address before: 250100 No. 2877 Kehang Road, Sun Village Town, Jinan High-tech District, Shandong Province Applicant before: SHANDONG INSPUR GENESOFT INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |