CN108228555A - 基于栏目主题的文章处理方法和装置 - Google Patents

基于栏目主题的文章处理方法和装置 Download PDF

Info

Publication number
CN108228555A
CN108228555A CN201611153482.XA CN201611153482A CN108228555A CN 108228555 A CN108228555 A CN 108228555A CN 201611153482 A CN201611153482 A CN 201611153482A CN 108228555 A CN108228555 A CN 108228555A
Authority
CN
China
Prior art keywords
column
article
vocabulary
prebuild
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611153482.XA
Other languages
English (en)
Inventor
曹志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611153482.XA priority Critical patent/CN108228555A/zh
Publication of CN108228555A publication Critical patent/CN108228555A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于栏目主题的文章处理方法和装置。其中,该方法包括:对待判断文章进行分词,得到分词结果;从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比;判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果;根据判断结果确定待判断文章是否与所述栏目主题相符。本发明解决了现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的技术问题。

Description

基于栏目主题的文章处理方法和装置
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种基于栏目主题的文章处理方法和装置。
背景技术
目前,网站的栏目归属错误是指一篇文章被发布到了和语义不相关的主题下,比如,将一篇篮球的新闻发布到了足球的栏目下,这是一种很常见的网站内容错误,虽然这种错误相比于其他错误出现的概率要小,但是对于某些类型的网站,比如政务网站,文章栏目归属错误属于网站质量的一种评价指标,这种错误会对网站带来不好的声誉,再比如一些论坛,由于网民的无组织性,栏目里出现不相关的文章甚至推销广告内容的概率就大很多,直接影响网站的流量。
在现有技术中,针对文章栏目归属错误,最常见的处理手段为网站提供人工反馈机制,在网民发现网站的内容与其栏目不相关,并主动告知网站站主后,网站站主才能去处理有问题的文章,这种处理方式较为被动,而且寄希望于网民的积极性,很多情况下,网民即使发现有栏目归属错误的现象,也不会反馈;从另一个角度来看,在有网民反馈的情况下,可能栏目归属错误的问题已经造成了不好的影响,因此具有滞后性。
针对现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于栏目主题的文章处理方法和装置,以至少解决现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的技术问题。
根据本发明实施例的一个方面,提供了一种基于栏目主题的文章处理方法,包括:对待判断文章进行分词,得到分词结果,其中,分词结果至少包括:分词词汇和每一个分词词汇的词频;从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比;判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果;根据判断结果确定待判断文章是否与栏目主题相符。
根据本发明实施例的另一方面,还提供了一种基于栏目主题的文章处理装置,包括:分词模块,用于对待判断文章进行分词,得到分词结果,其中,分词结果至少包括:分词词汇和每一个分词词汇的词频;计算模块,用于从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比;判断模块,用于判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果;确定模块,用于根据判断结果确定待判断文章是否与栏目主题相符。
在本发明实施例中,采用通过对待判断文章进行分词,得到分词结果,从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比;判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果;根据判断结果确定待判断文章是否与栏目主题相符的方法,达到把栏目看作以分词词汇为代表的主题的目的,从而实现了确定待判断文章与栏目的主题是否相符的技术效果,进而解决了现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例1的一种基于栏目主题的文章处理方法的示意图;
图2是根据本发明实施例2的一种基于栏目主题的文章处理装置的结构图;
图3是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;
图4是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;
图5是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;
图6是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;
图7是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;
图8是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图;以及
图9是根据本发明实施例2的一种可选的基于栏目主题的文章处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种基于栏目主题的文章处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种基于栏目主题的文章处理方法,如图1所示,该方法包括如下步骤:
步骤S102,对待判断文章进行分词,得到分词结果,其中,分词结果至少包括:分词词汇和每一个分词词汇的词频。
具体地,在上述步骤S102中,分词词汇是指在待判断文章中出现的词汇,词频是指分词词汇在待判断文章中的频率。其中,可以借助一些公开或开源的分词器对判断文章进行分词,例如,使用IkAnalyzer开源的分词器使用字符匹配法对待判断文章进行分词。
可选的,在对待判断文章进行分词时,可以采用长词优先的分词策略,比如将“兰州拉面”看做一个词,而不是“兰州”和“拉面”两个词。
步骤S104,从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比。
具体地,在上述步骤中,首先需要确定分词结果中是否存在属于预构建的栏目主题词库的分词词汇,在存在的情况下,将属于预构建的栏目主题词库的分词词汇筛选出来,根据步骤S102,已经得知每一个分词词汇的词频,因此可以直接将属于预构建的栏目主题词库的分词词汇中所有分词词汇的词频相加,得到属于预构建的栏目主题词库的分词词汇在待判断文章中的词频;并计算属于预构建的栏目主题词库的分词词汇在待判断文章分词后的所有分词词汇中占的比例。
一种可选的实施例中,假如从分词结果中筛选出属于预构建的栏目主题词库的分词词汇有“兰州拉面”和“上海云吞面”,其中,“兰州拉面”在待判断文章中的词频为0.1,“上海云吞面”在待判断文章中的词频为0.2,则“兰州拉面”和“上海云吞面”在待判断文章中的词频为0.3。假设待判断文章分词后的所有分词词汇一共有1000个,则“兰州拉面”和“上海云吞面”在待判断文章分词后的所有分词词汇中占的比例为(2/1000)×100%=0.2%。
步骤S106,判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果。
具体地,在步骤S106中,在计算出属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比之后,可以对属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比分别设置比对数据进行比对,根据比对结果来确定属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件。
步骤S108,根据判断结果确定待判断文章是否与栏目主题相符。
具体地,在步骤S108中,如果属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比满足预设条件,则判断结果为待判断文章与栏目主题相符,如果属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比不满足预设条件,则判断结果为待判断文章与栏目主题不相符。
在本发明上述步骤S102至步骤S108所公开的方案中,通过对待判断文章进行分词,得到分词结果,从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比,并判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果,最后根据判断结果确定待判断文章是否与栏目主题相符,从而实现了确定待判断文章与栏目的主题是否相符的技术效果,进而解决了现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的技术问题。
在一种可选的实施例中,在步骤S102之前,包括步骤202:构建栏目主题词库;其中,构建栏目主题词库的方式包括至少如下之一:
方式一:从栏目的历史文章中选择出现概率满足预设第一条件的词汇,构成栏目主题词库。
方式二:获取与栏目的网站属于同种类型的网站,从同种类型的网站下的同种栏目的文章中选择出现概率满足预设第二条件的词汇,构成栏目主题词库。
方式三:获取已有的与栏目主题匹配的词汇库,构成栏目主题词库。
具体地,在上述步骤中,预设的第一条件和第二条件为用户自定义条件;其中,方式一适用于栏目的历史文章数量较多的情况;方式二适用于栏目的历史文章数量较少的情况,由于栏目的历史文章数量较少,不足以构成完整的具备参考意义的主题词库,为了构建可靠的主题词库,可以借鉴与栏目的网站属于同种类型的网站下的同种栏目的文章;方式三在栏目的历史文章数量较多或较少的情况下均适用,也可以配合方式一和方式二使用,由于可能已经存在与栏目主题匹配的词汇库,因此可以直接使用。
需要说明的是,上述三个方式可以单独使用,也可以两个或多个一起使用,通过上述三个方式,均能够实现构建栏目主题词库的目的。
在一种可选的实施例中,在采用方式一时,可以通过TD-IDF的方法从栏目的历史文章中选择出现概率满足预设第一条件的词汇构成栏目主题词库,具体的,可以采用如下步骤S2020:从栏目的历史文章中选择TD-IDF值满足预设第一数值的词汇构成栏目主题词库。
其中,TF-IDF方法中TF表示词频(Term Frequency),即词条在文档中出现的频率,IDF表示逆向文件频率(Inverse Document Frequency);TF词频(Term Frequency)表示为;,如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力;TF-IDF方法是一种用评估一字词对于一个文件集或者一个语料库中的其中一份文件的重要程度;字词的重要性随着字词在文件中出现的次数成正比增加,但同时会随着字词在语料库中出现的频率成反比下降。
在一种可选的实施例中,上述预设第一数值为用户自定义,例如,假设预设第一数值为1%,可以从栏目的历史文章中选择TD-IDF值满足出现概率大于1%的词汇构成栏目主题词库。
在一种可选的实施例中,在采用方式二时,也可以通过TD-IDF的方法从同种类型的网站下同种栏目的文章中选择出现概率满足预设第二条件的词汇构成栏目主题词库,具体的,可以采用如下步骤S2022:从同种类型的网站下同种栏目的文章中选择TD-IDF值满足预设第二数值的词汇构成栏目主题词库。
在一种可选的实施例中,上述预设第二数值为用户自定义,例如,假设预设第二数值为1.5%,可以从同种类型的网站下同种栏目文章中选择TD-IDF值满足出现概率大于1.5%的词汇构成栏目主题词库。
在一种可选的实施例中,在步骤S104计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频中,包括步骤S302:将属于预构建的栏目主题词库的分词词汇中所有分词词汇的词频相加,得到属于预构建的栏目主题词库的分词词汇在待判断文章中的词频。
通过上述实施例,实现了计算出构建的栏目主题词库的分词词汇在待判断文章中的词频的目的。
在一种可选的实施例中,在步骤S106判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件中,包括步骤S402:判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频是否大于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比是否大于预设占比。
具体的,预设条件可以指属于预构建的栏目主题词库的分词词汇在待判断文章中的词频是否大于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比是否大于预设占比,其中,预设词频可以指预构建的栏目主题词库的分词词汇在待判断文章中的最小词频;预设占比可以指预构建的栏目主题词库的分词词汇在所有分词词汇中的最小占比,其中,预设词频和预设占比可以根据实际情况进行自定义设置,本发明对预设词频和预设占比的数值不做具体限制
通过上述实施例,实现了判断预构建的栏目主题词库的分词词汇与待判断文章的相关性的目的。
在一种可选的实施例中,在步骤S108根据判断结果确定待判断文章是否与栏目主题相符中,包括:
步骤S502:在属于预构建的栏目主题词库的分词词汇在待判断文章中的词频大于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比大于预设占比的情况下,确定待判断文章与栏目的主题相符。
步骤S504:在属于预构建的栏目主题词库的分词词汇在待判断文章中的词频小于等于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比小于等于预设占比的情况下,确定待判断文章与栏目的主题不相符。
在一种可选的实施例中,假设预设词频为1%,预设占比为1%,预构建的栏目主题词库的分词词汇在待判断文章中的词频为2%,预构建的栏目主题词库的分词词汇在所有分词词汇中的占比为2.2%,通过比较可以得知属于预构建的栏目主题词库的分词词汇在待判断文章中的词频大于预设词频,同时属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比大于预设占比,因此可以确定待判断文章与栏目的主题相符。
通过上述步骤S502至步骤S504,实现了确定待判断文章是否与栏目主题相符的目的。
实施例2
根据本发明实施例,还提供了一种基于栏目主题的文章处理装置的产品实施例。本发明实施例1中的基于栏目主题的文章处理的处理方法可以在本发明实施例2的处理装置中执行。
图2是根据本发明实施例的一种基于栏目主题的文章处理装置的结构示意图,该装置包括:分词模块101、计算模块103、判断模块105和确定模块107。
其中,分词模块101,用于对待判断文章进行分词,得到分词结果;计算模块103,用于从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比;判断模块105,用于判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果;确定模块107,用于根据判断结果确定待判断文章是否与栏目主题相符。
在本发明上述实施例所公开的方案中,通过分词模块101对待判断文章进行分词,得到分词结果,计算模块103从分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比,判断模块105判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频以及在所有分词词汇中的占比是否满足预设条件,得到判断结果,最后由确定模块107根据判断结果确定待判断文章是否与栏目主题相符,从而实现了确定待判断文章与栏目的主题是否相符的技术效果,进而解决了现有技术中在处理栏目中的文章与栏目主题不相关的问题时,产生的被动性和滞后性的技术问题。
此处需要说明的是,上述分词模块101、计算模块103、判断模块105和确定模块107对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选的,如图3所示,装置还包括构建模块109,用于构建所述栏目主题词库,如图4所示,构建模块109包括,第一构建单元201,用于从栏目的历史文章中选择出现概率满足预设第一条件的词汇,构成栏目主题词库;第二构建单元203,用于获取与所述栏目的网站属于同种类型的网站,从同种类型的网站下的同种栏目的文章中选择出现概率满足预设第二条件的词汇,构成栏目主题词库;第三构建单元205,用于获取已有的与栏目主题匹配的词汇库,构成栏目主题词库。
需要注意的是,构建模块109中第一构建单元201、第二构建单元203和第三构建单元205可以单独使用,也可以两个或多个一起使用,通过上述三个单元,能够实现构建栏目主题词库的目的。
此处需要说明的是,上述构建模块109对应于实施例1中的步骤S202,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选的,如图5所示,第一构建单元201包括第一构建子单元301,用于通过TD-IDF的方法,从栏目的历史文章中选择TD-IDF值满足预设第一数值的词汇构成栏目主题词库。
可选的,如图6所示,第二构建单元203包括第二构建子单元401,用于通过TD-IDF的方法,从同种类型的网站下同种栏目的文章中选择TD-IDF值满足预设第二数值的词汇构成栏目主题词库。
此处需要说明的是,上述第一构建子单元301和第二构建子单元401对应于实施例1中的步骤S2020和步骤S2022,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选的,如图7所示,计算模块103包括计算单元501,用于将属于预构建的栏目主题词库的分词词汇中所有分词词汇的词频相加,得到属于预构建的栏目主题词库的分词词汇在待判断文章中的词频。
通过计算单元501,实现了计算出构建的栏目主题词库的分词词汇在待判断文章中的词频的目的。
此处需要说明的是,上述计算单元501对应于实施例1中的步骤S302,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选的,如图8所示,判断模块105包括判断单元601,用于判断属于预构建的栏目主题词库的分词词汇在待判断文章中的词频是否大于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比是否大于预设占比。
通过判断单元601,实现了判断预构建的栏目主题词库的分词词汇与待判断文章的相关性的目的。
此处需要说明的是,上述判断单元601对应于实施例1中的步骤S402,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选的,如图9所示,确定模块107包括第一确定单元701和第二确定单元703。其中第一确定单元701,用于在属于预构建的栏目主题词库的分词词汇在待判断文章中的词频大于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比大于预设占比的情况下,确定待判断文章与栏目的主题相符;第二确定单元703,用于在属于预构建的栏目主题词库的分词词汇在待判断文章中的词频小于等于预设词频,以及属于预构建的栏目主题词库的分词词汇在所有分词词汇中的占比小于等于预设占比的情况下,确定待判断文章与栏目的主题不相符。
通过上述第一确定单元701和第二确定单元703,实现了确定待判断文章是否与栏目主题相符的目的。
此处需要说明的是,上述第一确定单元701和第二确定单元703对应于实施例1中的步骤S502至步骤S504,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于栏目主题的文章处理方法,其特征在于,包括:
对待判断文章进行分词,得到分词结果,其中,所述分词结果至少包括:分词词汇和每一个所述分词词汇的词频;
从所述分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频以及在所有所述分词词汇中的占比;
判断所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频以及在所有所述分词词汇中的占比是否满足预设条件,得到判断结果;
根据所述判断结果确定所述待判断文章是否与所述栏目主题相符。
2.根据权利要求1所述的方法,其特征在于,在对待判断文章进行分词,得到分词结果之前,包括:
构建所述栏目主题词库;
其中,构建所述栏目主题词库的方式包括至少如下之一:
从所述栏目的历史文章中选择出现概率满足预设第一条件的词汇,构成所述栏目主题词库;
获取与所述栏目的网站属于同种类型的网站,从所述同种类型的网站下的同种栏目的文章中选择出现概率满足预设第二条件的词汇,构成所述栏目主题词库;
获取已有的与所述栏目主题匹配的词汇库,构成所述栏目主题词库。
3.根据权利要求2所述的方法,其特征在于,从所述栏目的历史文章中选择出现概率满足预设第一条件的词汇构成所述栏目主题词库,包括:通过TD-IDF的方法,从所述栏目的历史文章中选择TD-IDF值满足预设第一数值的词汇构成所述栏目主题词库;
从所述同种类型的网站下同种栏目的文章中选择出现概率满足预设第二条件的词汇构成所述栏目主题词库,包括:通过TD-IDF的方法,从所述同种类型的网站下同种栏目的文章中选择TD-IDF值满足预设第二数值的词汇构成所述栏目主题词库。
4.根据权利要求1所述的方法,其特征在于,计算所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频,包括:
将所述属于预构建的栏目主题词库的分词词汇中所有所述分词词汇的词频相加,得到所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频。
5.根据权利要求1所述的方法,其特征在于,判断所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频以及在所有所述分词词汇中的占比是否满足预设条件,包括:
判断所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频是否大于预设词频,以及所述属于预构建的栏目主题词库的分词词汇在所有所述分词词汇中的占比是否大于预设占比。
6.根据权利要求5所述的方法,其特征在于,根据所述判断结果确定所述待判断文章是否与所述栏目主题相符,包括:
在所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频大于所述预设词频,以及所述属于预构建的栏目主题词库的分词词汇在所有所述分词词汇中的占比大于所述预设占比的情况下,确定所述待判断文章与所述栏目的主题相符;
在所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频小于等于所述预设词频,以及所述属于预构建的栏目主题词库的分词词汇在所有所述分词词汇中的占比小于等于所述预设占比的情况下,确定所述待判断文章与所述栏目的主题不相符。
7.一种基于栏目主题的文章处理装置,其特征在于,包括:
分词模块,用于对待判断文章进行分词,得到分词结果,其中,所述分词结果至少包括:分词词汇和每一个所述分词词汇的词频;
计算模块,用于从所述分词结果中筛选出属于预构建的栏目主题词库的分词词汇,并计算所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频以及在所有所述分词词汇中的占比;
判断模块,用于判断所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频以及在所有所述分词词汇中的占比是否满足预设条件,得到判断结果;
确定模块,用于根据所述判断结果确定所述待判断文章是否与所述栏目主题相符。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建模块,用于构建所述栏目主题词库;其中,所述构建模块包括:
第一构建单元,用于从所述栏目的历史文章中选择出现概率满足预设第一条件的词汇,构成所述栏目主题词库;
第二构建单元,用于获取与所述栏目的网站属于同种类型的网站,从所述同种类型的网站下的同种栏目的文章中选择出现概率满足预设第二条件的词汇,构成所述栏目主题词库;
第三构建单元,用于获取已有的与所述栏目主题匹配的词汇库,构成所述栏目主题词库。
9.根据权利要求8所述的装置,其特征在于,所述第一构建单元包括:第一构建子单元,用于通过TD-IDF的方法,从所述栏目的历史文章中选择TD-IDF值满足预设第一数值的词汇构成所述栏目主题词库;
所述第二构建单元包括:第二构建子单元,用于通过TD-IDF的方法,从所述同种类型的网站下同种栏目的文章中选择TD-IDF值满足预设第二数值的词汇构成所述栏目主题词库。
10.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
计算单元,用于将所述属于预构建的栏目主题词库的分词词汇中所有所述分词词汇的词频相加,得到所述属于预构建的栏目主题词库的分词词汇在所述待判断文章中的词频。
CN201611153482.XA 2016-12-14 2016-12-14 基于栏目主题的文章处理方法和装置 Pending CN108228555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611153482.XA CN108228555A (zh) 2016-12-14 2016-12-14 基于栏目主题的文章处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611153482.XA CN108228555A (zh) 2016-12-14 2016-12-14 基于栏目主题的文章处理方法和装置

Publications (1)

Publication Number Publication Date
CN108228555A true CN108228555A (zh) 2018-06-29

Family

ID=62638343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611153482.XA Pending CN108228555A (zh) 2016-12-14 2016-12-14 基于栏目主题的文章处理方法和装置

Country Status (1)

Country Link
CN (1) CN108228555A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871433A (zh) * 2019-02-21 2019-06-11 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质
CN109918662A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种电子资源的标签确定方法、装置和可读介质
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113743086A (zh) * 2021-08-31 2021-12-03 北京阅神智能科技有限公司 一种中文作文句评输出方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901245A (zh) * 2010-01-15 2010-12-01 莱克斯科技(北京)有限公司 一种基于云语义库的网页审计方法
US20110246486A1 (en) * 2010-04-01 2011-10-06 Institute For Information Industry Methods and Systems for Extracting Domain Phrases
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901245A (zh) * 2010-01-15 2010-12-01 莱克斯科技(北京)有限公司 一种基于云语义库的网页审计方法
US20110246486A1 (en) * 2010-04-01 2011-10-06 Institute For Information Industry Methods and Systems for Extracting Domain Phrases
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871433A (zh) * 2019-02-21 2019-06-11 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质
CN109871433B (zh) * 2019-02-21 2021-07-23 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质
CN109918662A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种电子资源的标签确定方法、装置和可读介质
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113743086A (zh) * 2021-08-31 2021-12-03 北京阅神智能科技有限公司 一种中文作文句评输出方法

Similar Documents

Publication Publication Date Title
CN108228555A (zh) 基于栏目主题的文章处理方法和装置
CN104462364B (zh) 搜索推荐方法及装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN108090091A (zh) 网页爬取方法和装置
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN108282450A (zh) 异常域名的检测方法及装置
CN106815208A (zh) 法律裁判文书的解析方法及装置
CN107563193A (zh) 基于sql模板的数据库访问控制方法及系统
CN109885828A (zh) 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN106874165A (zh) 网页检测方法和装置
CN106951796A (zh) 一种数据隐私保护的脱敏方法及其装置
CN106649371A (zh) 用于爬虫的数据处理方法及装置
CN105653563B (zh) 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN108880879A (zh) 用户身份识别方法、装置、设备及计算机可读存储介质
CN106815265A (zh) 裁判文书的搜索方法及装置
CN108241612A (zh) 标点符号处理方法和装置
CN110347789A (zh) 文本意图智能分类方法、装置及计算机可读存储介质
CN104572932B (zh) 一种兴趣标签的确定方法及装置
CN106888201A (zh) 一种校验方法及装置
CN106933878A (zh) 一种信息处理方法及装置
CN108255803A (zh) 文档情感的判断方法和装置
CN105247481A (zh) 网页输出选择
CN112765450A (zh) 推荐内容确定方法、装置及存储介质
CN109359274B (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
CN106649367A (zh) 检测关键词推广程度的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication