CN107329999A - 文档分类方法及装置 - Google Patents
文档分类方法及装置 Download PDFInfo
- Publication number
- CN107329999A CN107329999A CN201710433079.0A CN201710433079A CN107329999A CN 107329999 A CN107329999 A CN 107329999A CN 201710433079 A CN201710433079 A CN 201710433079A CN 107329999 A CN107329999 A CN 107329999A
- Authority
- CN
- China
- Prior art keywords
- mrow
- weight
- vocabulary
- sample
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文档分类方法及装置,所述方法包括:获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域,本发明无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高。
Description
技术领域
本发明涉及数据分析技术领域,特别涉及一种文档分类方法及装置。
背景技术
随着时代的发展科技的进步,人们生活水平的不断提高,互联网使信息采集与传播的速度和规模达到空前水平,但与之而来的问题是,迅速而准确地获取自己最需要的信息变得日益困难。特别是信息管理人员,常常需要在海量杂乱的信息里,对非本专业的文章进行归类整理。由于缺乏足够的专业知识,在文章分类过程中难免效率低下,出错率高。同时,随着互联网的日益普及,数字信息以PB量级不断膨胀,靠人工来进行分类几乎已成为不可能完成的任务,进而文档分类方法孕育而生。
现有的文档分类方法通过预先建立好的模型数据,以使对文档进行是否归类的判断。
现有的文档分类方法只能对单一领域的文档进行分类,进而导致对不同领域的文档进行分类时必须建立多个模型数据,加大了人员的工作量且灵活性低,且现有的文档分类方法由于采用模型数据的方法进行归类的判断,使得分类结果精准度低且分类效率低下。
发明内容
基于此,本发明实施例的目在于提供一种分类效率高的文档分类方法及装置。
一种文档分类方法,所述方法包括:
获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;
将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
上述文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
进一步地,所述将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重的步骤包括:
对所述高频权重进行降纬计算,以得到所述高频权重对应的最终权重;
将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
进一步地,所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
进一步地,flag的取值步骤包括:
获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
进一步地,所述降纬计算采用的公式为:
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
进一步地,所述对比公式为:
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
一种文档分类装置,包括:
第一计算模块,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
第二计算模块,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重;
第三计算模块,包括第一子计算模块,用于根据所述第一计算模块和所述第二计算模块的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
第四计算模块,用于根据所述第三计算模块的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
上述文档分类装置,通过所述第一计算模块和所述第二计算模块的设计,可分别对所述样本文档和所述目标文档进行所述权重计算,通过所述第三计算模块的设计,可对所述目标权重和所述高频权重进行所述对比计算,以得到所述全文权重,并通过阈值判断设计以判断是否将所述目标文档归类,所述文档分类装置可以对不同技术领域的文档进行分类灵活性高无需建立多个数据模型,且通过所述权重计算和所述对比计算的设计,使得所述文档分类装置的分类效率高且精度准。
进一步地,所述第三计算模块还包括:
第二子计算模块,用于对所述高频权重进行降纬计算,以得到所述样本文档对应的最终权重;
第三子计算模块,用于根据所述第二子计算模块的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
进一步地,所述第一计算模块和所述第二计算模块均包括:
第一运行模块,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;
查询模块,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
进一步地,所述第二子计算模块包括:
第二运行模块,用于运行降纬公式,所述降纬公式为:
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
附图说明
图1为本发明第一实施例提供的文档分类方法的流程图;
图2为本发明第二实施例提供的文档分类方法的流程图;
图3为本发明第三实施例提供的文档分类装置的结构示意图;
图4为本发明第四实施例提供的文档分类装置的结构示意图;
主要元素符号说明
文档分类装置 | 100,100a | 第一计算模块 | 10 |
第一运行模块 | 11 | 查询模块 | 12 |
第二计算模块 | 20 | 第三计算模块 | 30,30a |
第一子计算模块 | 31 | 第三运行模块 | 311 |
第二子计算模块 | 32 | 第二运行模块 | 321 |
第三子计算模块 | 33 | 第四计算模块 | 40 |
获取模块 | 50 |
具体实施方式
为了便于更好地理解本发明,下面将结合相关实施例附图对本发明进行进一步地解释。附图中给出了本发明的实施例,但本发明并不仅限于上述的优选实施例。相反,提供这些实施例的目的是为了使本发明的公开面更加得充分。
请参阅图1,为本发明第一实施例提供的文档分类方法的流程图,包括步骤S10至S30。
步骤S10,获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇;
其中,所述样本文档的所述预设篇数为10篇,通过对所述样本词汇进行所述权重计算,以得到了所述高频权重及所述高频权重对应的所述样本词汇,所述前第一预设位数的数量为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
步骤S20,获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇;
其中,通过对所述目标词汇进行所述权重计算,以得到了所述目标权重,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
步骤S30,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
其中,通过所述对比计算的设计,以得到了所述全文权重,并通过判断所述全文权重与所述预设的权重阈值的大小的设计,以使判断是否要将所述目标文档归类,本实施例中文档领域可为任意的技术领域,例如医学文档领域、电子文档领域和文学文档领域等。
本实施例的文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
请参阅图2,为本发明第二实施例提供的文档分类方法的流程图,所述方法包括步骤S11至S41。
步骤S11,获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇;
其中,所述样本文档的所述预设篇数为10篇,通过对所述样本词汇进行所述权重计算,以得到了所述高频权重,所述前第一预设位数的数量为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
步骤S21,分别对所述高频权重对应的所述样本词汇进行降纬计算,以得到所述高频权重对应的所述样本词汇的最终权重,获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词汇;
其中,所述前第三预设位数为10位,即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇,由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个,进而当所述高频权重对应的所述样本词汇不重复时,总所述样本词汇的数量为100个,导致分类过程会较为复杂,进而本实施例中通过所述降纬计算的设计,以使将总所述样本词汇的数量降为10个,提高了所述文档分类方法的分类效率和分类的精准度;
步骤S31,获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇;
其中,通过对所述目标词汇进行所述权重计算,以得到了所述目标权重,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
步骤S41,将将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重,并判断所述全文权重是否大于所述预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域;
其中,通过将所述目标权重和所述最终权重进行所述对比计算,以得到了所述全文权重,并通过判断所述全文权重与所述预设的权重阈值的大小的设计,以使判断是否要将所述目标文档归类。
所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k为关键字权重增益,k的值取常数,本实施例中k的值取20,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
本实施例中,flag的取值步骤包括:
获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1,若否,则将flag的值取为0,通过flag的取值设计当所述当前词汇为关键词时提高了所述当前词汇对应的权重。
所述降纬计算采用的公式为:
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,当100个所述样本词汇都不相同时,R的值取1,可以理解的当所述当前样本词汇中有相同的词汇时,R的值为所述当前样本词汇的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
所述对比公式为:
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例的文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
请参阅图3,为本发明第三实施例提供的文档分类装置100的结构示意图,所述文档分类装置100包括:
第一计算模块10,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,所述预设篇数的数量为10篇;
获取模块50,用于根据所述第一计算模块10的计算结果,分别获取所述样本文档中前第一预设位数的高频权重和所述高频权重对应的所述样本词汇,所述前第一预设位数为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
第二计算模块20,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重及所述目标权重对应的所述目标词汇,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
第三计算模块30,包括第一子计算模块31,用于根据所述第一计算模块10和所述第二计算模块20的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
第四计算模块40,用于根据所述第三计算模块30的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
所述第一计算模块10和所述第二计算模块20均包括:
第一运行模块11,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k为关键字权重增益,k的值取常数,本实施例中k的值取20,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
查询模块12,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1,若否,则将flag的值取为0,通过flag的取值设计当所述当前词汇为关键词时提高了所述当前词汇对应的权重。
所述第一子计算模块31包括:
第三运行模块311,用于运行对比公式,所述对比公式为:
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例通过所述第一计算模块10和所述第二计算模块20的设计,可分别对所述样本文档和所述目标文档进行所述权重计算,通过所述第三计算模块30的设计,可对所述目标权重和所述高频权重进行所述对比计算,以得到所述全文权重,并通过阈值判断设计以判断是否将所述目标文档归类,所述文档分类装置100可以对不同技术领域的文档进行分类灵活性高,且通过所述权重计算和所述对比计算的设计,使得所述文档分类装置100的分类效率高且精度准。
请参阅图4,为本发明第四实施例提供的文档分类装置100a的结构示意图,该第四实施例与第三实施例的结构大抵相同,其区别在于,本实施例中所述第三计算模块30a还包括:
第二子计算模块32,用于对所述高频权重进行降纬计算,以得到所述样本文档对应的最终权重,并获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词,所述前第三预设位数为10位,即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇,由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个,进而当所述高频权重对应的所述样本词汇不重复时,总所述样本词汇的数量为100个,导致分类过程会较为复杂,进而本实施例中通过所述降纬计算的设计,以使将总所述样本词汇的数量降为10个,提高了所述文档分类方法的分类效率和分类的精准度。
第三子计算模块33,用于根据所述第二子计算模块32的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
所述第二子计算模块32包括:
第二运行模块321,用于运行降纬公式,所述降纬公式为:
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,当100个所述样本词汇都不相同时,R的值取1,可以理解的当所述当前样本词汇中有相同的词汇时,R的值为所述当前样本词汇的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
所述第三子计算模块33包括:
第三运行模块311,用于运行对比公式,所述对比公式为:
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例通过所述第二子计算模块32和所述第三子计算模块33的设计,将计算的数量从100个降低至了10个进而简化了后续所述对比计算的计算流程,且提高了所述文档分类装置100a的分类效率和分类的精准度。
上述实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,而不能以任何方式解释为本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其他具体实施方式,这些方式都将落入本发明的保护范围内。
Claims (10)
1.一种文档分类方法,其特征在于,所述方法包括:
获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;
将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
2.根据权利要求1所述的文档分类方法,其特征在于,所述将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重的步骤包括:
对所述高频权重进行降纬计算,以得到所述高频权重对应的最终权重;
将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
3.根据权利要求1所述的文档分类方法,其特征在于,所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
4.根据权利要求3所述的文档分类方法,其特征在于,flag的取值步骤包括:
获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
5.根据权利要求1所述的文档分类方法,其特征在于,所述降纬计算采用的公式为:
<mrow>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>R</mi>
<mo>&times;</mo>
<msup>
<mi>k</mi>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mi>R</mi>
<mo>&times;</mo>
<mn>0.2</mn>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>&times;</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>R</mi>
</munderover>
<mrow>
<mo>(</mo>
<mrow>
<mi>T</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>I</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>I</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
6.根据权利要求1所述的文档分类方法,其特征在于,所述对比公式为:
<mrow>
<mi>W</mi>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>W</mi>
<mi>T</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>W</mi>
<mi>C</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mo>*</mo>
<msub>
<mi>W</mi>
<mi>C</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
7.一种文档分类装置,其特征在于,包括:
第一计算模块,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
第二计算模块,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重;
第三计算模块,包括第一子计算模块,用于根据所述第一计算模块和所述第二计算模块的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
第四计算模块,用于根据所述第三计算模块的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
8.根据权利要求7所述的文档分类装置,其特征在于,所述第三计算模块还包括:
第二子计算模块,用于对所述高频权重进行降纬计算,以得到所述样本文档对应的最终权重;
第三子计算模块,用于根据所述第二子计算模块的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
9.根据权利要求7所述的文档分类装置,其特征在于,所述第一计算模块和所述第二计算模块均包括:
第一运行模块,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;
查询模块,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
10.根据权利要求8所述的文档分类装置,其特征在于,所述第二子计算模块包括:
第二运行模块,用于运行降纬公式,所述降纬公式为:
<mrow>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>R</mi>
<mo>&times;</mo>
<msup>
<mi>k</mi>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mi>R</mi>
<mo>&times;</mo>
<mn>0.2</mn>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>&times;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>R</mi>
</munderover>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mi>F</mi>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>I</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>I</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710433079.0A CN107329999B (zh) | 2017-06-09 | 2017-06-09 | 文档分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710433079.0A CN107329999B (zh) | 2017-06-09 | 2017-06-09 | 文档分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107329999A true CN107329999A (zh) | 2017-11-07 |
CN107329999B CN107329999B (zh) | 2020-10-20 |
Family
ID=60194727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710433079.0A Active CN107329999B (zh) | 2017-06-09 | 2017-06-09 | 文档分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107329999B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100063948A1 (en) * | 2008-09-10 | 2010-03-11 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data |
CN102214233A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种对文本进行分类的方法及装置 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
US20140122495A1 (en) * | 2003-07-25 | 2014-05-01 | Fti Technology Llc | Computer-Implemented System And Method For Clustering Documents Based On Scored Concepts |
CN105787004A (zh) * | 2016-02-22 | 2016-07-20 | 浪潮软件股份有限公司 | 一种文本分类方法及装置 |
-
2017
- 2017-06-09 CN CN201710433079.0A patent/CN107329999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122495A1 (en) * | 2003-07-25 | 2014-05-01 | Fti Technology Llc | Computer-Implemented System And Method For Clustering Documents Based On Scored Concepts |
US20100063948A1 (en) * | 2008-09-10 | 2010-03-11 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data |
CN102214233A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种对文本进行分类的方法及装置 |
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN105787004A (zh) * | 2016-02-22 | 2016-07-20 | 浪潮软件股份有限公司 | 一种文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
石慧: "基于特征选择和特征加权算法的文本分类研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110390094B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN107329999B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389480B (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN102298646B (zh) | 一种主观文本和客观文本分类方法及装置 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN110442722A (zh) | 分类模型训练的方法及装置、数据分类的方法及装置 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
CN103324758B (zh) | 一种新闻分类方法和系统 | |
CN107169086A (zh) | 一种文本分类方法 | |
CN107292785A (zh) | 一种出题方法及系统 | |
CN106897844A (zh) | 一种电力企业项目的审核方法及系统 | |
CN107085572A (zh) | 对在时间上逐一到达的输入数据进行分类的方法和系统 | |
CN108280164A (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN101882136A (zh) | 文本情感倾向性分析方法 | |
CN104809104A (zh) | 一种微博文本情绪识别方法及系统 | |
CN107545038A (zh) | 一种文本分类方法与设备 | |
CN108090503A (zh) | 多分类器的在线调整方法、装置、存储介质及电子设备 | |
CN104794241A (zh) | 一种基于情绪倾向性的新闻分类方法及系统 | |
CN104598648A (zh) | 一种微博用户交互式性别识别方法及装置 | |
CN106502881B (zh) | 一种商品排序规则的测试方法和装置 | |
CN108491390A (zh) | 一种干线物流货物名称自动识别分类方法 | |
CN110489753A (zh) | 改进特征选择的神经结构对应学习跨领域情感分类方法 | |
CN107329999A (zh) | 文档分类方法及装置 | |
CN103473356A (zh) | 一种篇章级情感分类方法及装置 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN103345525B (zh) | 文本分类方法、装置及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |