CN106528615B - 分类方法、装置及服务器 - Google Patents

分类方法、装置及服务器 Download PDF

Info

Publication number
CN106528615B
CN106528615B CN201610868233.2A CN201610868233A CN106528615B CN 106528615 B CN106528615 B CN 106528615B CN 201610868233 A CN201610868233 A CN 201610868233A CN 106528615 B CN106528615 B CN 106528615B
Authority
CN
China
Prior art keywords
article
keyword
score
qualified
distribution caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610868233.2A
Other languages
English (en)
Other versions
CN106528615A (zh
Inventor
崔鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201610868233.2A priority Critical patent/CN106528615B/zh
Publication of CN106528615A publication Critical patent/CN106528615A/zh
Application granted granted Critical
Publication of CN106528615B publication Critical patent/CN106528615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分类方法、装置以及服务器。所述方法包括:获取分类标题对应的k个合格的关键词;根据k个合格的关键词对信息库中的文章进行过滤,获得分类标题对应的m篇文章,其中,分类标题是预先设置的,分类标题对应的k个合格的关键词是预先设置的;判断m的数值是否大于第一数量阈值;如果m的数量大于第一数量阈值,使用分类标题对应的m篇文章对分类机器进行训练;通过训练好的分类机器对从信息库的文章中继续选择出分类至分类标题的文章。上述方法能够解决在文章数量不多时,分类机器没法正确分类的问题。

Description

分类方法、装置及服务器
技术领域
本发明涉及终端技术,尤其涉及一种分类方法、装置以及服务器。
背景技术
在分类领域中,通过分类机器对文章进行分类是比较普遍的做法。分类机器本身存在一个缺陷,就是必须有足够的样本文章对分类机器进行训练才能够保证分类机器的准确性,如果样本文章的数量不足,则分类机器的准确度不高,甚至没法进行分类。当有突发新闻发生的时候,关于突发新闻的文章往往不多,但确是热点文章,本应及时推送给用户以获得大量的阅读量。但是,通过分类机器进行分类时,却会因为这些关于突发新闻的文章数量不多,导致分类机器没有正确分类,进而导致这些文章没有及时被推送给用户,导致阅读量的损失。
发明内容
本发明实施例公开了一种分类方法、装置以及服务器,能够解决在文章数量不多时,分类机器没法正确分类的问题。
第一方面,提供了一种分类方法,包括:
获取分类标题对应的k个合格的关键词;
根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的;
判断m的数值是否大于第一数量阈值;
如果m的数量大于第一数量阈值,使用所述分类标题对应的m篇文章对分类机器进行训练;
通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
结合第一方面,第一方面的第一种可能的实施方式中,所述获取分类标题对应的合格的关键词之前包括:
根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,i≥j;
判断j的数值是否大于第二数量阈值;
如果j的数值大于所述第二阈值,则将所述k个预设的关键词设置为k个合格的关键词。
结合第一方面的第一种可能的实施方式,第一方面的第二种可能的实施方式中,如果j的数值小于或者等于第二阈值,则,
根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章;从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
判断j的数值是否大于所述第二数量阈值;
如果j的数值大于所述第二阈值,则将所述k个重选的关键词设置为k个合格的关键词。
结合第一方面的第一种可能的实施方式,第一方面的第三种可能的实施方式中,所述根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,包括:
根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
如果大于第一分数阈值,则将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
结合第一方面,第一方面的第四种可能的实施方式中,所述根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,包括:
根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
如果大于第二分数阈值,则将第二得分大于第二分数阈值的文章分类至所述分类标题,获得所述分类标题对应的m篇文章。
第二方面,提供了一种分类装置,包括:获取模块、第一判断模块以及选择模块,
所述获取模块用于获取分类标题对应的k个合格的关键词;
根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的;
所述第一判断模块用于判断m的数值是否大于第一数量阈值;
所述选择模块用于在m的数量大于第一数量阈值时,使用所述分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
结合第二方面,第一方面的第一种可能的实施方式中,所述装置还包括过滤模块、第二判断模块,以及设置模块,
所述过滤模块用于根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,i≥j;
所述第二判断模块用于判断j的数值是否大于第二数量阈值;
所述设置模块用于在j的数值大于所述第二阈值时,将所述k个预设的关键词设置为k个合格的关键词。
结合第二方面的第一种可能的实施方式,第一方面的第二种可能的实施方式中,在j的数值小于或者等于第二阈值时,
所述过滤模块用于根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章,从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
所述第二判断模块用于判断j的数值是否大于所述第二数量阈值;
所述设置模块用于在j的数值大于所述第二阈值时,将所述k个重选的关键词设置为k个合格的关键词。
结合第二方面的第一种可能的实施方式,第二方面的第三种可能的实施方式中,所述过滤模块包括第一计算单元、第一判断单元以及过滤单元,
所述第一计算单元用于根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
所述第一判断单元用于判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
所述过滤单元用于在大于第一分数阈值时,将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
结合第二方面,第二方面的第四种可能的实施方式中,所述获取模块包括第二计算单元、第二判断单元以及分类单元,
所述第二计算单元用于根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
所述第二判断单元用于判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
所述分类单元用于在大于第二分数阈值时,将第二得分大于第二分数阈值的文章分类至所述分类标题从而获得所述分类标题对应的m篇文章。
第三方面,一种服务器,其特征在于,包括:处理器、存储器、通信接口和总线;所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一种分类方法;其中,所述方法为第一方面任一项所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储了计算设备所执行的用于主题推荐的程序代码。所述程序代码包括用于执行在第一方面中任一项的方法的指令。
第五方面,本发明提供了一种应用程序,所述应用程序包括用于实现横幅展示方法的程序代码,所述程序代码包括用于执行在第一方面中任一项的方法的指令。
上述方法,能够在文章的数量不多时,获取分类标题对应的k个合格的关键词,并根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章,并在m的数值是否大于第一数量阈值,才使用分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从信息库的文章中继续选择出分类至分类标题的文章。通过这种方式,在文章数量不多时,用合格的关键词过滤分类标题对应的m篇文章的准确性比较高,能够避免在文章数量不多时,使用分类机器没法正确分类的问题。而且,分类器件分类的效率比较高,所以,在文章的数量足够多时,使用这些文章对分类机器进行训练,并用训练好的分类机器对信息库中的文章进行分类。由于这里有足够的文章样本,所以,能够保证分类机器分类的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种分类方法的流程图;
图2是本发明实施例提供的另一种分类方法的流程图;
图3是本发明实施例提供的一种分类装置的结构示意图;
图4是本发明实施例提供的另一种分类装置的结构示意图;
图5是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,图1是本发明实施例提供的一种分类方法的流程图。本实施例的分类方法包括:
110:获取分类标题对应的k个合格的关键词。
在本发明实施例中,当出现突发事情时,可以人工根据突发事情设置分类标题,并且,设置该分类标题对应的k个合格的关键词。例如,当G20会议开幕时,可以设置分类标题为“G20”,并且,通过设置该分类标题“G20”对应的k个合格的关键词分别为:“杭州”、“首脑会议”、“峰会”等等。
120:根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章。
在本发明实施例中,在突发事情的初期,信息库中该分类标题对应的文章的数量不多时,没有足够的样本文章对分类机器进行训练,此时,使用分类机器对信息库中的文章进行分类的准确率十分低,甚至并不能使用分类机器对信息库中的文章进行分类,所以,并不适用使用分类机器对该分类标题对信息库中的文章进行分类。此时,可以根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章。
130:判断m的数值是否大于第一数量阈值。
在本发明实施例中,第一数量阈值可以根据实际使用的情况人为设置其数值。当分类标题对应的文章的数量小于或者等于第一数量阈值时,认为该分类标题对应的文章的数量还不足够多,则返回步骤120以采用根据k个合格的关键词对信息库中的文章进行过滤的方式进行分类;当分类标题对应的文章的数量大于第一数量阈值时,认为该分类标题对应的文章的数量已经足够多,可以采用分类机器的方式进行分类,并进入步骤140。
140:使用分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从信息库的文章中继续选择出分类至分类标题的文章。
在本发明实施例中,当m的数值大于第一数量阈值时,则可以认为分类标题对应的文章的数量已经足够多,可以将这些分类标题对应的文章作为样本文章训练分类机器。由于样本文章的数量足够多,分类机器的准确性将很高,并且,分类机器的分类效率远高于根据k个合格的关键词对信息库中的文章进行过滤的方式,所以,将分类的方式从根据k个合格的关键词对信息库中的文章进行过滤的方式切换回用分类机器进行分类的方式,以从信息库的文章中继续选择出分类至分类标题的文章。
参阅图2,图2是本发明实施例提供的另一种分类方法的流程图。本实施例的分类方法包括:
210:根据k个预设的关键词对信息库中的文章进行过滤,从而获得i篇文章,以从i篇文章中人工确定分类标题对应的j篇文章,其中,i≥j。
在本发明实施例中,当出现突发事情时,可以人工根据突发事情设置分类标题,并且,人工或者自动获取热点词的方式设置该分类标题对应的k个预设的关键词。例如,当G20会议开幕时,可以设置分类标题为“G20”,并且,通过设置该分类标题“G20”对应的k个关键词分别为:“杭州”、“首脑会议”、“峰会”等等。
根据k个预设的关键词对信息库中的文章进行过滤,从而获得i篇文章可以是:保留信息库的文章中同时包括k个预设的关键词的文章,从而获得i篇文章,或者,保留信息库的文章中至少包括k个预设的关键词中的任意一个关键词的文章,从而获得i篇文章。
为了提高准确性,根据k个预设的关键词对信息库中的文章进行过滤,从而获得i篇文章可以是:为k个预设的关键词中的每个关键词设置对应的权值,其中,每个关键词的权值的大小可以人为进行设置。例如,“峰会”的权值设置为1,“杭州”的权值设置为0.5等等。然后,根据k个预设的关键词以及k个预设的关键词中每个预设的关键词对应的权值,计算信息库中每篇文章的第一得分。判断信息库中每篇文章的第一得分是否大于第一分数阈值;如果大于第一分数阈值,则将第一得分大于第一分数阈值的文章,分类至分类标题从而获得i篇文章。
在获得i篇文章之后,人工从i篇文章中选择出确实属于分类标题的j篇文章,并将不属于分类标题的i-j篇文章删去。
220:判断j的数值是否大于第二数量阈值。
在本发明实施例中,第二数量阈值可以根据实际使用的情况人为设置其数值。当j小于或者等于第二数量阈值时,说明k个预设的关键词和分类标题的相关度不大,不是合格的关键词,所以,重新设置k个预设的关键词,并将返回步骤210。如此重复,直到j的数值大于第二数量阈值。如果j的数值大于第二数量阈值,则可以认为这k个预设的关键词与分类标题的相关度比较大,这k个预设的关键词为合格的关键词,并进入步骤230。
230:将k个预设的关键词设置为k个合格的关键词。
240:获取分类标题对应的k个合格的关键词。
250:根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章。
在本发明实施例中,在突发事情的初期,信息库中该分类标题对应的文章的数量不多时,没有足够的样本文章对分类机器进行训练,此时,使用分类机器对信息库中的文章进行分类的准确率十分低,甚至并不能使用分类机器对信息库中的文章进行分类,所以,并不适用使用分类机器对该分类标题对信息库中的文章进行分类。此时,可以根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章。
根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章的具体方式可以是:由于k个合格的关键词是根据k个预设的关键词得到的,所以,k个合格的关键词对应的权值可以沿用之前的权值。然后,根据k个合格的关键词以及k个合格的关键词中每个合格的关键词对应的权值,计算信息库中每篇文章的第二得分。判断信息库中每篇文章的第二得分是否大于第二分数阈值;如果大于第二分数阈值,则将第二得分大于第二分数阈值的文章分类至分类标题从而获得分类标题对应的m篇文章。
260:判断m的数值是否大于第一数量阈值。
在本发明实施例中,第一数量阈值可以根据实际使用的情况人为设置其数值。当分类标题对应的文章的数量小于或者等于第一数量阈值时,认为该分类标题对应的文章的数量还不足够多,则返回步骤250以采用根据k个合格的关键词对信息库中的文章进行过滤的方式进行分类;当分类标题对应的文章的数量大于第一数量阈值时,认为该分类标题对应的文章的数量已经足够多,可以采用分类机器的方式进行分类,并进入步骤270。
270:使用分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从信息库的文章中继续选择出分类至分类标题的文章。
在本发明实施例中,当m的数值大于第一数量阈值时,则可以认为分类标题对应的文章的数量已经足够多,可以将这些分类标题对应的文章作为样本文章训练分类机器。由于样本文章的数量足够多,分类机器的准确性将很高,并且,分类机器的分类效率远高于根据k个合格的关键词对信息库中的文章进行过滤的方式,所以,将分类的方式从根据k个合格的关键词对信息库中的文章进行过滤的方式切换回用分类机器进行分类的方式,以从信息库的文章中继续选择出分类至分类标题的文章。
上述详细阐述了本发明实施例的方法,下面为了便于更好地实施本发明实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。
参阅图3,图3是本发明实施例提供的一种分类装置的结构示意图。本实施例的分类装置包括:获取模块310、第一判断模块320以及选择模块330。
所述获取模块310用于获取分类标题对应的k个合格的关键词;根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的。
所述第一判断模块320用于判断m的数值是否大于第一数量阈值。
所述选择模块330用于在m的数量大于第一数量阈值时,使用所述分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
本发明实施例的分类装置30能够实现如图1所示的分类方法,具体请参阅图1以及相关实施例,此处不再重复赘述。
参阅图4,图4是本发明实施例公开的另一种分类装置的结构示意图。本实施例的分类装置40是对图3所示的分类装置的进一步优化,本实施例的分类装置40与图3所示的分类装置30的不同之处在于,还包括:过滤模块340、第二判断模块350,以及设置模块360。
所述过滤模块340用于根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,i≥j。
所述第二判断模块350用于判断j的数值是否大于第二数量阈值。
所述设置模块360用于在j的数值大于所述第二阈值时,将所述k个预设的关键词设置为k个合格的关键词。
可选地,在j的数值小于或者等于第二阈值时,
所述过滤模块340用于根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章,从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
所述第二判断模块350用于判断j的数值是否大于所述第二数量阈值;
所述设置模块360用于在j的数值大于所述第二阈值时,将所述k个重选的关键词设置为k个合格的关键词。
更进一步地,过滤模块340包括第一计算单元341、第一判断单元342以及过滤单元343,
所述第一计算单元341用于根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
所述第一判断单元342用于判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
所述过滤单元343用于在大于第一分数阈值时,将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
可选地,所述获取模块310包括第二计算单元311、第二判断单元312以及分类单元313,
所述第二计算单元311用于根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
所述第二判断单元312用于判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
所述分类单元313用于在大于第二分数阈值时,将第二得分大于第二分数阈值的文章分类至所述分类标题从而获得所述分类标题对应的m篇文章。
本发明实施例的分类装置40能够实现如图2所示的分类方法,具体请参阅图2以及相关实施例,此处不再重复赘述。
请参见图5,图5为本发明实施例公开的一种服务器的结构示意图。本实施例的服务器包括:至少一个处理器601、通信接口602、用户接口603和存储器604,处理器601、通信接口602、用户接口603和存储器604可通过总线或者其它方式连接,本发明实施例以通过总线605连接为例。其中,
处理器601可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)。
通信接口602可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与其他终端或网站进行通信。本发明实施例中,通信接口602具体用于将目标推荐对象推荐给终端的用户。
用户接口603具体可为触控面板,包括触摸屏和触控屏,用于检测触控面板上的操作指令,用户接口603也可以是物理按键或者鼠标。用户接口603还可以为显示屏,用于输出、显示图像或数据。
存储器604可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器604还可以包括上述种类的存储器的组合。存储器604用于存储一组程序代码,处理器601用于调用存储器604中存储的程序代码,执行如下操作:
获取分类标题对应的k个合格的关键词;
根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的;
判断m的数值是否大于第一数量阈值;
如果m的数量大于第一数量阈值,使用所述分类标题对应的m篇文章对分类机器进行训练;
通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
可选地,根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,i≥j;
判断j的数值是否大于第二数量阈值;
如果j的数值大于所述第二阈值,则将所述k个预设的关键词设置为k个合格的关键词。
可选地,如果j的数值小于或者等于第二阈值,则,
根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章;从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
判断j的数值是否大于所述第二数量阈值;
如果j的数值大于所述第二阈值,则将所述k个重选的关键词设置为k个合格的关键词。
可选地,所述根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章具体为:
根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
如果大于第一分数阈值,则将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
可选地,所述根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章包括:
根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
如果大于第二分数阈值,则将第二得分大于第二分数阈值的文章分类至所述分类标题,获得所述分类标题对应的m篇文章。
上述方法,能够在文章的数量不多时,获取分类标题对应的k个合格的关键词,并根据k个合格的关键词对信息库中的文章进行过滤,从而获得分类标题对应的m篇文章,并在m的数值是否大于第一数量阈值,才使用分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从信息库的文章中继续选择出分类至分类标题的文章。通过这种方式,在文章数量不多时,用合格的关键词过滤分类标题对应的m篇文章的准确性比较高,能够避免在文章数量不多时,使用分类机器没法正确分类的问题。而且,分类器件分类的效率比较高,所以,在文章的数量足够多时,使用这些文章对分类机器进行训练,并用训练好的分类机器对信息库中的文章进行分类。由于这里有足够的文章样本,所以,能够保证分类机器分类的准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only另外,本发明还提供了一种应用程序,该应用程序包括用于实现横幅展示方法的程序代码,所述程序代码包括用于执行上述分类方法的指令。
以上对本发明实施例公开的进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种分类方法,其特征在于,包括:
根据k个预设的关键词对信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定分类标题对应的j篇文章,其中,i≥j;
判断j的数值是否大于第二数量阈值;
如果j的数值大于所述第二数量阈值,则将所述k个预设的关键词设置为k个合格的关键词;
获取分类标题对应的k个合格的关键词;
根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的;
判断m的数值是否大于第一数量阈值;
如果m的数量大于第一数量阈值,使用所述分类标题对应的m篇文章对分类机器进行训练;
通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
2.根据权利要求1所述的方法,其特征在于,如果j的数值小于或者等于第二数量阈值,则,
根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章;
从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
判断j的数值是否大于所述第二数量阈值;
如果j的数值大于所述第二数量阈值,则将所述k个重选的关键词设置为k个合格的关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据k个预设的关键词对所述信息库中的文章进行过滤,获得i篇文章,包括:
根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
如果大于第一分数阈值,则将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
4.根据权利要求1所述的方法,其特征在于,所述根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,包括:
根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
如果大于第二分数阈值,则将第二得分大于第二分数阈值的文章分类至所述分类标题,获得所述分类标题对应的m篇文章。
5.一种分类装置,其特征在于,包括:过滤模块、第二判断模块、设置模块、获取模块、第一判断模块以及选择模块,
所述过滤模块用于根据k个预设的关键词对信息库中的文章进行过滤,获得i篇文章,以从所述i篇文章中人工确定分类标题对应的j篇文章,其中,i≥j;
所述第二判断模块用于判断j的数值是否大于第二数量阈值;
所述设置模块用于在j的数值大于所述第二数量阈值时,将所述k个预设的关键词设置为k个合格的关键词;
所述获取模块用于获取分类标题对应的k个合格的关键词;根据所述k个合格的关键词对信息库中的文章进行过滤,获得所述分类标题对应的m篇文章,其中,所述分类标题是预先设置的,所述分类标题对应的k个合格的关键词是预先设置的;
所述第一判断模块用于判断m的数值是否大于第一数量阈值;
所述选择模块用于在m的数量大于第一数量阈值时,使用所述分类标题对应的m篇文章对分类机器进行训练,并通过训练好的分类机器对从所述信息库的文章中继续选择出分类至所述分类标题的文章。
6.根据权利要求5所述的装置,其特征在于,在j的数值小于或者等于第二数量阈值时,
所述过滤模块用于根据k个重选的关键词对所述信息库中的文章进行过滤,获得i篇文章,从所述i篇文章中人工确定所述分类标题对应的j篇文章,其中,k个重选的关键词中的关键词与所述k个预设的关键词中的关键词中至少有一个不相同;
所述第二判断模块用于判断j的数值是否大于所述第二数量阈值;
所述设置模块用于在j的数值大于所述第二数量阈值时,将所述k个重选的关键词设置为k个合格的关键词。
7.根据权利要求5所述的装置,其特征在于,所述过滤模块包括第一计算单元、第一判断单元以及过滤单元,
所述第一计算单元用于根据k个预设的关键词以及所述k个预设的关键词中每个预设的关键词对应的权值,计算所述信息库中每篇文章的第一得分,其中,所述k个预设的关键词中每个预设的关键词对应的权值是预先设置的;
所述第一判断单元用于判断所述信息库中每篇文章的第一得分是否大于第一分数阈值;
所述过滤单元用于在大于第一分数阈值时,将第一得分大于第一分数阈值的文章分类至所述分类标题从而获得i篇文章。
8.根据权利要求5所述的装置,其特征在于,所述获取模块包括第二计算单元、第二判断单元以及分类单元,
所述第二计算单元用于根据所述k个合格的关键词以及所述k个合格的关键词中每个合格的关键词对应的权值,计算所述信息库中每篇文章的第二得分,其中,所述k个合格的关键词中每个合格的关键词对应的权值是预先设置的;
所述第二判断单元用于判断所述信息库中每篇文章的第二得分是否大于第二分数阈值;
所述分类单元用于在大于第二分数阈值时,将第二得分大于第二分数阈值的文章分类至所述分类标题从而获得所述分类标题对应的m篇文章。
9.一种服务器,其特征在于,包括:处理器、存储器、通信接口和总线;所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一种分类方法;其中,所述方法如权利要求1至4任一权利要求所述的方法。
CN201610868233.2A 2016-09-29 2016-09-29 分类方法、装置及服务器 Active CN106528615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610868233.2A CN106528615B (zh) 2016-09-29 2016-09-29 分类方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610868233.2A CN106528615B (zh) 2016-09-29 2016-09-29 分类方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN106528615A CN106528615A (zh) 2017-03-22
CN106528615B true CN106528615B (zh) 2019-08-06

Family

ID=58344698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610868233.2A Active CN106528615B (zh) 2016-09-29 2016-09-29 分类方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN106528615B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置

Also Published As

Publication number Publication date
CN106528615A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
Vaish et al. Twitch crowdsourcing: crowd contributions in short bursts of time
CN104657423B (zh) 应用间内容分享方法及其装置
CN104717124B (zh) 一种好友推荐方法、装置及服务器
US10002182B2 (en) System and method for computerized identification and effective presentation of semantic themes occurring in a set of electronic documents
CN105005429B (zh) 一种终端展示图片的方法及终端
CN103425257B (zh) 一种生僻字符信息的提示方法和装置
CN109690529A (zh) 按事件将文档编译到时间线中
JP2014532217A5 (zh)
CN113778295B (zh) 一种书籍推荐方法、装置、计算机设备及存储介质
CN106649334B (zh) 关联词语集合的处理方法及装置
KR100457375B1 (ko) 특허 데이터베이스로 부터 대상 특허의 가계 경로를 빠른시간내에 분석하여 제공하는 방법
CN104217008A (zh) 互联网人物视频交互式标注方法及系统
CN107145513A (zh) 一种信息显示方法及装置、终端
CN111176517A (zh) 用于场景设置的方法、装置及手机
CN109472021A (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN109299290A (zh) 一种基于知识图谱的配乐推荐方法及电子设备
CN107749164A (zh) 一种车辆聚集分析方法及装置
CN103500158A (zh) 批注电子文档的方法和装置
CN106156111A (zh) 专利文件检索方法、装置和系统
CN104536663A (zh) 一种翻页方法
US8881007B2 (en) Method and system for visual cues to facilitate navigation through an ordered set of documents
CN104462083B (zh) 用于内容比较的方法、装置和信息处理系统
CN107704341A (zh) 文件恢复方法、装置及电子设备
CN104142952B (zh) 报表展示方法和装置
CN106528615B (zh) 分类方法、装置及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant