CN109815337B - 确定文章类别的方法及装置 - Google Patents

确定文章类别的方法及装置 Download PDF

Info

Publication number
CN109815337B
CN109815337B CN201910121925.4A CN201910121925A CN109815337B CN 109815337 B CN109815337 B CN 109815337B CN 201910121925 A CN201910121925 A CN 201910121925A CN 109815337 B CN109815337 B CN 109815337B
Authority
CN
China
Prior art keywords
category
target
article
target article
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910121925.4A
Other languages
English (en)
Other versions
CN109815337A (zh
Inventor
周文娟
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Apas Technology Co ltd
Original Assignee
Zhuhai Tianyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Tianyan Technology Co ltd filed Critical Zhuhai Tianyan Technology Co ltd
Priority to CN201910121925.4A priority Critical patent/CN109815337B/zh
Publication of CN109815337A publication Critical patent/CN109815337A/zh
Application granted granted Critical
Publication of CN109815337B publication Critical patent/CN109815337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种确定文章类别的方法及装置,该方法包括:根据目标文章的标题确定目标文章所属的类别;基于预设的检测策略检测是否需要对目标文章的类别进行校正;若是,则从目标文章所对应的URL所包含的多个字段中提取表征目标文章的类别的目标字段;根据目标字段对目标文章所属的类别进行校正。本申请实施例,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了确定文章类别的效率和准确性,并且,对于英文文章,也不会存在语言识别障碍。

Description

确定文章类别的方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种确定文章类别的方法及装置。
背景技术
近年来,随着信息技术的快速发展,机器学习算法不断发展壮大并在海内市场和海外市场均得到了广泛的应用。例如,可以通过机器学习算法对中文或外文文章进行分类等。
通常的,在使用机器学习算法对文章进行分类时,需要大量的样本文章进行分类模型的训练。为了提高分类模型的精准度,一般需要准备大量精准分类的样本文章。现有技术中,为了得到精准分类的样本文章,通常的做法则是采用人工方式对文章的类别进行标注。由于在进行分类训练时需要获取大量的样本文章,因此,采用人工分类的方式工作量较大,需要耗费大量的人力和时间。并且,采用人工进行分类,可能会存在一些错误或者理解偏差,从而导致类别标注的准确性较低。并且,在对一些外文类的文章,如英文文章进行类别标注时,可能会存在语言识别障碍等问题。
因此,有必要提出一种技术方案,以解决现有技术中,通过人工标注文章类别需要耗费大量的人力、时间,效率和准确率均较低,并且对英文文章进行分类时可能还会存在语言识别障碍的问题。
发明内容
本申请实施例的目的是提供一种确定文章类别的方法及装置,以解决现有技术中通过人工标注文章类别需要耗费大量的人力、时间,效率和准确率均较低,并且对英文文章进行分类时可能还会存在语言识别障碍的问题。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供了一种确定文章类别的方法,包括:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例还提供了一种确定文章类别的装置,包括:
第一确定模块,用于根据目标文章的标题确定所述目标文章所属的类别;
检测模块,用于基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
提取模块,用于若需要对所述目标文章的类别进行校正,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
校正模块,用于根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例提供了一种确定文章类别的设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例提供的确定文章类别的方法及装置,根据文章的标题和文章所对应的URL中能够表征文章的类别的目标字段确定文章的类别,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,对于英文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的确定文章类别的方法的流程图之一;
图2为本申请实施例提供的确定文章类别的方法的流程图之二;
图3为本申请实施例提供的确定文章类别的方法的流程图之三;
图4为本申请实施例提供的确定文章类别的模块组成示意图;
图5为本申请实施例提供的确定文章类别的设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例的思想在于,基于目标文章的标题和目标文章所对应的URL中能够表征目标文章的类别的目标字段确定目标文章的类别,实现了自动化的确定目标文章的类别,避免了通过人工方式确定目标文章的类别,节省了大量的人力和时间,效率和准确性均较高,对于英文文章,也不会存在语言识别障碍。基于此,本申请实施例提供了一种确定文章类别的方法、装置、设备及存储介质,下述将一一详细进行论述。
其中,本申请实施例中所提及到的文章一般指的是发表在网站上的网络文章,例如,可以是在各个网站上发表的新闻文章、娱乐文章、科技文章等。
上述文章的类别则可以理解为文章的主题类别,例如,本申请中的类别可以为娱乐、体育、教育等,或者,还可以对每个类别进行进一步细分,如体育可以分为足球、篮球、羽毛球等。当然,此处只是对本申请实施例中所提及到的文章类别进行举例说明,并不构成对本申请实施例的限定。
另外,需要说明的是,由于URL基本上都是由英文字符或者数字构成的,而URL中表征目标文章的类别的目标字段为英文字符,因此,在具体实施时,本申请实施例提供的确定文章类别的方法一般适用于对英文文章,即本申请实施例所提及到的目标文章均为英文类文章,后续在出现目标文章时则不再一一进行说明。
图1为本申请实施例提供的确定文章类别的方法的流程图之一,图1所示的方法,至少包括如下步骤:
步骤102,根据目标文章的标题确定目标文章所属的类别。
一般的,文章的标题则为可以表明文章或者作品内容的简短语句,即文章的标题可以理解为文章内容的概述,因此,对于某篇文章而言,该篇文章所对应的标题中会包含一些可以表征该篇文章内容的字词,当然,在文章的标题中,除了包含表征该篇文章内容的字词外,可能还会包含一些没有实际意义的停用词。例如,“a”、“the”、“of”、“一种”、“的”等字词。
本申请实施例中,上述步骤102在具体实施时,可以只提取出目标文章的标题中可以表征目标文章的文章内容的特征字词,并基于所提取的特征字词确定文章所属的类别;或者,在另外的实施方式中,也可以依据目标文章的标题中所有的字词确定目标文章所属的类别,目标文章的标题中的停用词由于不具备实际意义,因此,在确定目标文章的类别时,即使将这些停用词考虑在内,对所确定为目标文章的类别也不会产生影响。当然,上述只是列举了依据目标文章的标题确定目标文章所属类别的两种具体实现方式,除此之外,还可以通过其他方式实现,当然,此处只是示例性说明,并不构成对本申请实施例的限定。
当然,在某些情况下,通过题目所确定出的目标文章所属的类别可能会存在偏差,即准确性较低。例如,若是题目中存在一些在两个或者三个类别中容易混淆的字词,可能导致通过题目确定出的类别不准确。
为便于理解上述情况,下述将以其中可能出现的某种情况为例举例进行说明。
例如,某篇文章的标题包含有词语“棒棒糖”,由于“棒棒糖”既可以为可食用的产品,也可以为艺名,因此,在根据题目确定该文章所属的类型时,可能会将该篇文章的类别确定为娱乐类,也可能会确定为食品类。因此,在这种情况下,若是只通过文章的标题确定文章所属的类别,所确定出的类别的准确性较低。
当然,上述举例是以中文标题为例进行说明的,对于英文文章而言,同样会出现上述情况,在英文文章中,上述情况同样会导致基于文章的标题确定的文章所属的类别的准确性较低。
上述只是列举了可能会导致基于目标文章的标题确定的目标文章所属的类别的准确性较低的其中一种情况,除此之外,还存在其他情况也会导致基于标题确定的目标文章所属的类别的准确性较低的情况,例如,所采用的基于标题确定目标文章所属的类别的具体实现方法等,此处不再一一列举。
步骤104,基于预设的检测策略检测是否需要对目标文章的类别进行校正;若是,则执行步骤106。
在本申请实施例中,在某些情况下,通过目标文章的标题所确定出的目标文章所属的类别的准确性较低,因此,需要进一步判断是否需要对目标文章的类别进行校正。
例如,在具体实施时,对于一些类别本身而言,该类别所对应的一些类别关键词可能与其他类别所对应的类别关键词存在交叉现象,在这种情况下,如果基于目标文章的标题确定目标文章所属的类别则会使得所确定出的类别存在偏差。因此,在上述步骤104中,上述预设的检测策略可以基于可以根据所确定出的目标文章的类别进行设定。
具体的,在本申请实施例中,若是通过上述步骤104检测出需要对目标文章的类别进行校正,则执行后续对目标文章的类别进行校正的步骤;若是检测出不需要对目标文章的类别进行校正,则直接将通过标题确定出的类别作为目标文章所属的类别。
步骤106,从目标文章所对应的URL所包含的多个字段中提取表征目标文章的类别的目标字段。
由于本申请实施例中所提及到的目标文章为网络文章,即发表在各个网站的各个频道上的文章,因此,每篇文章均对应一个统一资源定位符(Uniform Resource Locator,URL),URL为文章所在网页的地址。URL通常由多部分组成,并且不同部分之间采用“/”进行划分,在本申请实施例中,可以将URL中的每个组成部分称为一个字段。例如,某篇文章所对应的URL为:
https://timesofindia.indiatimes.com/sports/west-indies-in-india/kohli-becomes-first-indian-to-hit-three-odi-tons-on-the-trot/articleshow/66397652.cms
在该URL中,将“/”和“/”之间的部分作为一个字段。
一般的,在URL中,通常会包含目标文章在该网站上的频道的字段,而目标文章所在的频道可以反映出目标文章所属的类别,因此,上述步骤106中,所提取的表征目标文章的类别的目标字段实际上为该URL中所包含的频道名称。
需要说明的是,一般情况下,对于一个URL而言,该URL中的第二部分为频道名称。所以,在本申请实施例中,在从目标文章所对应的URL中提取目标文章的目标字段时,可以按照该URL中的“/”将该URL拆分成多个部分,然后,将拆分出的第二部分作为该目标文章所对应的目标字段。
为便于理解,下述将举例进行说明。
例如,某篇文章所对应的URL为:
https://timesofindia.indiatimes.com/sports/west-indies-in-india/kohli-becomes-first-indian-to-hit-three-odi-tons-on-the-trot/articleshow/66397652.cms
针对上述URL而言,该篇URL中的第二部分为“sports”,因此,从该URL中提取出的表征目标文章的类别的目标字段则为“sports”。
当然,上述只是通常情况下提取目标字段的一种通常实现方式,除此之外,在某些情况下,某些网站可能对频道划分的更细致,例如,某网站中的“sports”频道,进一步细分为“basketball”、“football”、“cricket”等,在这种情况下,可能URL中的第三部分仍然为频道名称,在这种情况下,可以根据当前对类别的实际需求,提取该URL中的第二部分或者第三部分作为上述目标字段。
步骤108,根据目标字段对目标文章所属的类别进行校正。
在本申请实施例中,在根据目标字段对目标文章所属的类别进行校正时,可以根据目标字段重新确定目标文章所属的类别,并替换掉通过目标文章的标题所确定的类别。
例如,在具体实施时,通过目标字段确定出的目标文章所属的类别为类别A,而通过目标文章的标题确定出目标文章所属的类别为类别B,则在对目标文章所述的类别进行校正时,则直接使用类别A替换掉类别B。
本申请实施例提供的确定文章类别的方法,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,因此,对于英文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
为便于理解本申请实施例提供的方法,下述将一一详细介绍上述各个步骤的具体实现过程。
具体的,在上述步骤102中,根据目标文章的标题确定目标文章所属的类别,具体包括如下步骤一和步骤二;
步骤一、提取上述标题中表征目标文章的文章内容的特征字词;
步骤二、将上述特征字词与预先建立的类别关键词列表进行匹配,以确定目标文章所属的类别;其中,类别关键词列表中存储有不同类别所对应的类别关键词。
上述步骤一在具体实施时,可以基于语义将目标文章的标题进行划分,划分成多个字词,从所划分得到的多个字词中筛选出可以表征目标文章的文章内容的特征字词。在具体实施时,可以通过筛除掉题目中的“一种”、“的”、“方法”、“a”、“the”等没有实际含义的停用词的方式确定表征文章内容的特征字词,筛除停用词之后标题中剩下的字词则为可以表征目标文章的文章内容的特征字词。
在本申请实施例中,可以预先建立类别关键词列表,在类别关键词类别中存储有各个类别所对应的类别关键词。其中,一种可能的类别关键词列表如表1所示。
表1
Figure BDA0001972201680000071
当然,表1只是以体育(physicaleducation)和健康(health)为例进行说明,当然,所生成的类别关键词列表中还可以包含其他类别,并且每个类别所对应的类别关键词也并不局限于表1。上述表1只是示例性说明,并不构成对本申请实施例中所建立的类别关键列表的限定。
另外,需要说明的是,在表1所示的类别关键词列表中只是列出了各个类别所对应的关键词,在某些具体实施方式中,还可以先设置每个类别所对应的一级类别关键词,再列举每个一级类别关键词所对应的二级类别关键词,此处不再列举。
上述步骤二在具体实施时,则是分别将从标题中所提取的特征字词一一与类别关键词类别中的类别关键词进行匹配,确定出与特征字词相匹配的类别关键词,并将与特征字词相匹配的类别关键字词所对应的类别确定为目标文章所属的类别。
当然,在某些情况下,从标题中所提取的特征字词可能会有多个,并且基于多个特征字词在确定目标文章所属的类别时可能会出现确定出多个类别的情况,为了避免这种情况的发生,使得基于标题确定出的目标文章所属的类别具有唯一性,在本申请实施例中,可以基于标题中的特征字词按照预设规则与类别关键词列表进行匹配。
在一种具体实施方式中,可以为类别关键词列表中所包含的各个类别设置类别优先级。在将特征字词与类别关键词列表进行匹配时,可以依次按照类别的优先级从高到低的顺序将特征字词依次与每个类别所对应的类别关键词进行匹配,若是确定出该特征字词中存在某个类别所对应的类别关键字词,则将该类别确定为目标文章所属的类别。
为便于理解,下述将举例进行说明。
例如,若是在类别关键词列表中包含三个类别,分别记为类别A、类别B和类别C,且类别A的优先级最高,类别B的优先级第二,类别C的优先级最低,在根据标题中的关键字词和该类别关键词列表确定目标文章所属的类别时,可以先将该特征字词与类别A所对应的类别关键字词进行匹配,若是有存在一致的字词,则不再进行后续的匹配,直接将类别A确定为目标文章所属的类别。若是该特征字词与类别A所对应的类别关键字词均不匹配,则将该特征字词与类别B所对应的类别关键字词进行匹配,以此类推,直至确定出目标文章所属的类别。
另外,需要说明的时,在本申请实施例中,上述所提及到的相匹配可以理解为在类别关键字词列表中存在与特征字词相一致的关键字词,也可以理解为在类别关键字词类别中存在与特征字词的相似度达到设定阈值的关键字词,具体的,可以根据实际应用场景进行设置,本申请实施例并不对此进行限定。
在本申请实施例中,通过预先建立类别关键词列表,并将目标文章的标题中的特征字词与类别关键词类别进行匹配的方式确定目标文章所属的类别,确定目标文章所属类别的方式简单方便、便于操作。
当然,除此之外,还可以直接通过对目标文章的标题进行语义分析的方式确定目标文章所属的类别,本说明书实施例并不对上述通过标题确定目标文章所属类别的具体实现方式进行限定。
在本申请实施例中,当通过目标文章的标题确定出目标文章所属的类别后,为了提高对文章分类的准确性,还需要基于目标文章所对应的URL中目标字段对目标文章所属的类别进行校正。
当然,若是对每个目标文章所属的类别进行校正,这样会导致生成文章样本的工作量较大,因此,在基于目标文章所对应的URL中的目标字段对目标文章所属的类别进行校正时,可以先基于预设的检测策略检测是都需要对目标文章的类别进行校正。
具体的,在本申请实施例中,上述步骤104中,基于预设的检测策略检测是否需要对目标文章的类别进行校正,具体包括:
判断目标文章所属的类别是否包含在预先建立的特定类别列表中;其中,上述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;若是,则确定需要对目标文章的类别进行校正。
其中,上述特定类别列表为预先建立的,具体的,可以在通过本申请实施例提供的方法之前建立的,并且,在采用本申请实施例提供的方法对文章进行分类的过程中,可以不断扩充或者调整上述特定类别列表。
在具体实施时,可以通过人为的方式收集满足上述要求的特定类别,其中,满足上述要求的类别可以为与其他类别存在交叉类别关键字词的类别;当然,在具体实施时,还可以将其它可以满足上述要求的类别收集在特定类别列表中,本申请实施例不再一一赘述包含在特定类别列表中的特定类别。
在本申请实施例中,若是判断出目标文章所属的类别包含在上述特定类别列表中,则认为需要对目标文章的类别进行校正,这时则需要从目标文章所对应的URL所包含的多个字段中提取表征目标文章的类别的字段。
具体的,在本说明书实施例中,可以直接将URL中某一部分中的字段确定为表征目标文章的类别的目标字段,但是,在某些情况下,URL所包含的字段中可能会包含两个或者多个表征类别的字段,这种情况下,若是仍然直接将URL中某一部分中的字段确定为目标字段,可能所确定的目标字段的准确性较低。
因此,针对该种情况,在一种具体实施方式中,从目标文章所对应的URL所包含的多个字段中提取表征目标文章的类别的目标字段,具体包括:
确定各个表征类别的字段所对应的目标网站的页面的级别;其中,目标网站为目标文章所属的网站;根据上述页面的级别从各个表征类别的字段中确定表征目标文章的类别的目标字段。
其中,上述页面的级别则指的是该页面为目标网站上的第几级页面,例如,针对某个网站而言,该网站的首页则为一级页面,当用户点击网站首页上的某个频道(如新闻)后,则进入的页面为二级页面,用户再点击二级页面上的某个频道(如娱乐新闻)后,则进入的页面为三级页面等等。
对于网站的不同级别的页面,对应着URL上不同部分的字段。为便于理解,下述将举例进行说明。
例如,某目标文章所对应的URL为:
http://sports.sina.com.cn/others/trampoline/2019-02-12/doc-ihrfqzka5080975.s html?cre=tianyi&mod=pcspth&loc=5&r=0&rfunc=46&tj=none&tr=1
该URL则为新浪网上的一篇文章所对应的URL,具体的,该文章位于新浪网上的新浪体育-综合体育-体操-蹦床-正文页面,上述URL中http://sports.sina.com.cn对应着新浪网的首页(新浪体育),即一级页面,“others”对应着新浪网的综合体育页面,即二级页面,“trampoline”对应着新浪网的体操-蹦床页面,即三级页面。
上述URL中可以表征类别的字段有sports和trampoline,而通过分析可知,该文章中表征目标文章类别的目标字段则为trampoline,而不是sports,针对该种情况而言,则是将级别最高的页面所对应的字段确定为目标字段。但是,并不是所有情况下,都将级别最高的页面所对应的字段确定为目标字段。
在具体实施时,上述根据页面的级别从各个表征类别的字段中确定表征目标文章的类别的目标字段,具体包括如下几种情况:将最高级别的页面所对应的字段确定为表征目标文章的类别的目标字段;将最高级别的前一级别或者前几级别的页面所对应的字段确定为表征目标文章的类别的目标字段;或者,将所有表征类别的字段均确定为表征目标文章类别的字段;或者,还可以根据各个表征类别的字段组合目标文章所对应的目标字段等等。具体如何确定目标字段,可以根据实际应用场景进行设置。
另外,在具体实施时,还可以结合页面的级别及各级所对应字段的含义确定目标字段。
为便于理解上述内容,下述将举例进行说明。
在具体实施时,具体如何根据页面的级别确定表征目标文章的类别的目标字段,可以根据实际应用场景进行确定。例如,若是在某URL中,不同级别页面所对应的字段所表征含义存在差异或者页面级别最高的字段所表征的含义比页面级别较低的字段所表征的含义类别更精确,这时,为了保证所确定的目标字段的准确性,可以将最高级别的页面所对应的字段确定为目标字段。
例如,基于沿用上例,trampoline属于sports中的某一类,其所表征的类别更精准,这时,为了提高所确定出的目标字段的准确性,则将trampoline确定为目标字段。
还例如,某URL为:
http://bj.leju.com/news/2019-02-11/20216500700215367217960.shtml#wt_sou rce=pc_sy_ljzx
则在上述URL中,表征类别的字段有“leju”和“news”,而上述文章则为与二手房相关的文章,如果使用“news”则无法表征出二手房的含义,但是,“leju”所代表的都是二手房相关信息,因此,可以将“leju”确定为目标字段。
还例如,在某些情况下,预先建立的类别关键词列表中分别存储有各类别所对应的多级关键词,这时,若是该URL所对应的各字段所表征的含义相差不大,则可以将多个字段均确定为目标字段,这样,在确定目标文章所属的类别时,可以使用多级目标字段与类别关键词类别进行匹配。
在上述步骤108中,对目标文章所属的类别进行校正的步骤。
具体的,在上述步骤108中,根据目标字段对目标文章所属的类别进行校正,具体包括:
将目标字段与预先建立的类别映射表进行匹配,以确定目标字段所对应的类别;其中,上述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
针对不同的网站,在对该网站的各个频道进行命名时,对于同一类别而言,可能不同网站所命名的频道名称不同。例如,针对娱乐新闻而言,某些网站可能会将其归于生活服务频道下,有的网站可能会将其归于娱乐新闻频道下,因此,为了提高根据URL中的目标字段对目标文章所属类别进行校正的准确性,可以预先建立类别映射表,在该映射表中存储有各个网站中的目标字段(频道名称)与相应类别的映射关系。
在本申请实施例中,当确定出目标文章所对应的URL中的目标字段后,首先从上述类别映射表中确定出目标字段所对应的类别,并使用该类别替换掉通过标题确定出的目标文章所属的类别。
图2为本申请实施例提供的确定文章类别的方法的流程图之二,图2所示的方法,至少包括如下步骤:
步骤202,获取目标文章的标题,并提取目标文章的标题中表征目标文章的文章内容的特征字词。
步骤204,将上述特征字词与预先建立的类别关键词列表进行匹配,以确定目标文章所属的类别。
步骤206,基于预设的检测策略检测是否需要对目标文章的类别进行校正;若是,则执行步骤208;
步骤208,将上述目标字段与预先建立的类别映射表相匹配,确定目标字段所对应的类别。
其中,在上述类别映射表中存储有多个网站中的各目标字段与类别名称的映射关系。
步骤210,使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
其中,图2所对应实施例中各个步骤的具体实现方式可参考图1所对应实施例中各步骤的具体实现过程,此处不再赘述。
当然,上述所介绍的情况则是针对预先建立的类别映射表中一个目标字段对应一个类别而言,但是对于英文而言,经常会存在一词多义的情况,因此,针对该英文字段的不同含义,在预先建立的类别映射表中可能会存在一个目标字段对应两个或多个类别的情况。例如,针对英文词语arm,所对应的词义可以为手臂或者武器,针对arm的不同含义,在预先建立的类别映射表中arm可能会对应着不同的类别,在该种情况下,若是所确定的表征目标文章类别的目标字段为arm,则通过与预先建立的类别映射表进行匹配的方式,可能会确定出两个类别,这时,若是单纯的与预先建立的类别映射表进行匹配,则无法确定出目标文章所属的类别。因此,在本说明书实施例中,针对该种情况,上述根据目标字段对目标文章所属的类别进行校正,具体包括如下步骤:
将目标字段与类别映射表进行匹配,得到目标字段所对应的两个或多个类别;根据URL中的其他字段,从目标字段所对应的两个或多个类别中确定目标文章所属的类别;使用目标文章的类别替换通过目标文章的标题所确定的目标文章的类别。
其中,上述所提及到的URL中的其他字段,则为URL中除了目标字段之外可以表征类别的字段。具体的,在具体实施时,可以根据其他字段的含义,从目标字段所对应的两个或多个类别中确定目标文章所属的类别。例如,可以考虑其他字段的含义与目标字段的哪个含义相匹配,则将与其他字段的含义相匹配的目标字段的含义所属的类别确定为目标文章所属的类别。
继续沿用上例,若是在其他级别的页面所对应的字段所表征的含义均为与武器相关的含义,则可以确定arm在该情况下应该取“武器”这一含义,因此,可以确定目标文章所属的类别则为与武器相关的那个类别。
在本申请实施例中,在对目标文章所属的类别进行校正时,将其它字段的含义考虑在内,可以有效解决英文中常见的一词多义现象所带来的困扰,从而可以进一步提高所确定的文章类别的准确性。
在本申请实施例中,通过上述方法可以确定出每个文章所对应的类别,从而得到训练分类模型所需的文章样本。具体的,在本申请实施例中,为了进一步提高所确定的文章类别的准确性,在通过本申请实施例提供的方法还包括如下步骤:
若检测到需要对目标文章的类别进行校正,则对校正后的目标文章所属的类别的准确性进行校验;
若检测到不需要对目标文章的类别进行校正,则对基于目标文章的标题所确定的目标文章所属的类别的准确性进行校验。
需要说明的是,在本申请实施例中,若是检测出需要对目标文章的类别进行校正,则以校正后所得到的类别确定为目标文章所属的类别;若是检测出不需要对目标文章的类别进行校验,则就将基于标题所确定出的类别作为目标文章所属的类别。
其中,上述对目标文章所属的类别的准确性进行校验,在具体实施时,可以使用通过本申请实施例所确定的标注有类别的文章进行分类模型的训练,在完成分类模型的训练后,基于该分类模型对样本文章进行分类,从而确定出基于该分类模型所确定的文章类别与通过本申请实施例所确定的文章类别是否一致,若是不一致,则通过人工方式对本申请实施例中确定目标文章类别的各个环节进行检验,以提高本申请实施例中确定文章类别的准确性。
其中,上述所训练的分类模型可以为Fasttext模型等。
另外,在本申请实施例中,为了实现可以根据目标文章的标题确定目标文章所属的类别,在执行本申请实施例提供的方法之前还需要建立类别关键词列表。具体的,在本申请实施例中,可以基于各网上的各篇文章所对应的URL中的路径部分建立上述类别关键词列表。
在本申请实施例中,具体的,可以通过如下步骤(1)、步骤(2)和步骤(3)建立上述类别关键词类别:
步骤(1)、收集多个网站上的各篇文章所对应的URL;
步骤(2)、针对所收集的每个URL,从该URL所包含的多个字段中确定表征文章路径的路径字段;
步骤(3)、基于每个URL中的路径字段,建立上述类别关键词列表。
在本申请实施例中,为了使得所建立的类别关键词列表中包含比较全面的类别及其类别关键词,可以尽可能收集较多的网站上各篇文章所对应的URL。
一般的,URL中的路径部分,为URL中的第三部分,因此,在本申请实施例中,可以参考上述确定频道名称字段的方法确定上述路径字段。当然,若是针对频道名称字段存在更细致划分的情况,URL中路径部分也可能位于第四部分,具体的,可以认为URL中的路径部分位于频道部分的后面。
为便于理解上述路径字段,下述将举例进行说明。
例如,继续沿用上例,某篇文章所对应的URL为:
https://timesofindia.indiatimes.com/sports/west-indies-in-india/kohli-becomes-first-indian-to-hit-three-odi-tons-on-the-trot/articleshow/66397652.cms
上述URL中的第三部分为:
west-indies-in-india/kohli-becomes-first-indian-to-hit-three-odi-tons-on-the-tro t/articleshow
即上述第三部分则为URL中的路径字段。
在本申请实施例中,当确定出URL中的路径字段后,则基于所确定出的路径字段,建立上述类别关键词列表。
具体的,在本申请实施例中,上述基于每个URL中的路径字段,建立上述类别关键词列表,具体包括如下过程:
筛选出上述路径字段中表征URL所对应文章内容的特征字词;对上述特征字词进行筛选,并从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
在具体实施时,可以将上述路径字段按照其中所包含的“-”字符进行拆分,得到该路径字段中所对应的多个字词。例如,继续沿用上例,将上述路径字段按照该方式进行拆分后,可以得到如下字词:
west、indies、in、india、kohli、becomes、first、indian、to、hit、three、odi、tons、on、the、trot、articleshow
另外,在某些URL的路径部分中,可能会包含有hash码、插件名称等,因此,在上述筛选表征URL所对应文章内容的特征字词时,可以筛除该路径字段中的hash码、插件名称等,将剩余的部分作为表征URL所对应文章内容的特征字词。
当然,在某些实施方式中,还可以基于整个URL建立上述类别关键词类别,本申请实施例不再赘述。
具体的,上述得到上述特征字词后,在这些特征字词中可能还会包含一些不具有实际含义、或者出现频率不高的字词,因此,还需要对上述特征字词进行筛选,具体包括:
筛除上述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在相应类别所对应的特征词库中的词频。
在具体实施时,由于本申请实施例所提供的方法适用于英文文章,且从URL的路径字段中获取的特征字词也为英文单词,因此,在筛除特征字词中的停用词时,可以预先获取英文停用词表,将上述特征字词中出现在英文停用词表中的字词筛除掉。其中,在英文停用词表中存储有英文停用词,如the、a、of等。
另外,在本申请实施例中,在获取到每个URL的路径字段中的特征字词后,将该网站上属于同一频道名称的URL所对应的特征字词归纳到一起,然后,根据预先建立的类别映射表,确定各个网站上的频道名称所对应的类别,将属于同一类别的所有网站上的频道名称所对应的特征字词归纳在一起,得到各个类别所对应的特征词库,并计算每个特征字词在该相应的特征词库中的词频。
然后,将该类别所对应的特征词库中,词频低于设定阈值的特征字词筛除。
在本申请实施例中,上述所提及到的根据通过其他途径获取的类别关键词库,对筛选后的特征字词进行再次筛选,可以是将未存在于从其他途径获取到类别关键词库中的某些特征字词筛除,以及将出现在从其他途径获取到的类别关键词库中的某些特征字词作为本申请实施例中的类别关键词,这样,可以提高所得到的类别关键词类别的精准度。
另外,在本申请实施例中,还可以按照各个特征字词所对应的词频,将每个类别所对应的特征字词进行排序。
图3为本申请实施例提供的确定文章类别的方法的流程图之三,图3所示的方法,至少包括如下步骤:
步骤302,收集多个网站上的各篇文章所对应的URL。
步骤304,针对所收集的每个URL,从该URL所包含的多个字段中确定表征文章路径的路径字段。
步骤306,基于每个URL中的路径字段,建立类别关键词列表;其中,在类别关键词类别中存储有不同类别所对应的类别关键词。
步骤308,获取目标文章,并提取目标文章中表征目标文章的文章内容的特征字词。
其中,上述目标文章为需要进行分类的英文文章。
步骤310,按照类别关键词列表中各类别的优先级,分别将上述特征字词与该类别所对应的类别关键词进行匹配,以确定目标文章所属的类别。
步骤312,判断上述目标文章是否包含在预先建立的特定类别列表中;若是,则执行步骤314。
步骤314,确定目标文章所对应的URL,并从该URL所包含的多个字段中提取表征目标文章的类别的目标字段。
步骤316,将该目标字段与预先建立的类别映射表进行匹配,确定目标字段所对应的类别。
步骤318,使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
其中,图3所对应实施例中各个步骤的具体实现过程可参考图1所对应实施例,此处不再赘述。
本申请实施例提供的确定文章类别的方法,根据文章的标题和文章所对应的URL中能够表征文章的类别的目标字段确定文章的类别,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,对于外文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
对应本申请实施例提供的确定文章类别的方法,基于相同的思路,本申请实施例还提供了一种确定文章类别的装置,用于执行本申请实施例提供的方法,图4为本申请实施例提供的确定文章类别的装置的模块组成示意图,图4所示的装置,包括:
第一确定模块402,用于根据目标文章的标题确定目标文章所属的类别;
检测模块404,用于基于预设的检测策略检测是否需要对目标文章的类别进行校正;
提取模块406,用于若需要对目标文章的类别进行校正,则从目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征目标文章的类别的目标字段;
校正模块408,用于根据目标字段对目标文章所属的类别进行校正。
可选的,若上述URL所包含的字段中包含两个或多个表征类别的字段;
上述提取模块406,包括:
第一确定单元,用于确定各个表征类别的字段所对应的目标网站的页面的级别;其中,目标网站为目标文章所属的网站;
第二确定单元,用于根据页面的级别从各个表征类别的字段中确定表征目标文章的类别的目标字段。
可选的,上述校正模块408,包括:
第一匹配单元,用于将目标字段与预先建立的类别映射表进行匹配,以确定目标字段所对应的类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
第一替换单元,用于使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,若目标字段在预先建立的类别映射表中对应有至少两个类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
上述校正模块408,包括:
第二匹配单元,用于将目标字段与类别映射表进行匹配,得到目标字段所对应的两个或多个类别;
第三确定单元,用于根据URL中的其他字段,从目标字段所对应的两个或多个类别中确定目标文章所属的类别;
第二替换单元,用于使用目标文章的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,上述第一确定模块402,包括:
提取单元,用于提取标题中表征目标文章的文章内容的特征字词;
第三匹配单元,用于将特征字词与预先建立的类别关键词列表进行匹配,以确定目标文章所属的类别;其中,类别关键词列表中存储有不同类别所对应的类别关键词。
可选的,上述检测模块404,包括:
判断单元,用于判断目标文章所属的类别是否包含在预先建立的特定类别列表中;其中,所述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;
第四确定单元,用于若目标文章所属的类别包含在预先建立的特定类别列表中,则确定需要对目标文章的类别进行校正。
可选的,本申请实施例提供的装置,还包括:
收集模块,用于收集多个网站上的各篇文章所对应的URL;
第二确定模块,用于针对所收集的每个所述URL,从所述URL所包含的多个字段中确定表征文章路径的路径字段;
建立模块,用于基于每个所述URL中的路径字段,建立所述类别关键词列表。
可选的,上述建立模块,包括:
第一筛选单元,用于筛选出路径字段中表征URL所对应文章内容的特征字词;
第二筛选单元,用于对特征字词进行筛选;
第五确定单元,用于从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
可选的,上述第二筛选单元,具体用于:
筛除所述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在所述类别所对应的特征词库中的词频。
可选的,本申请实施例提供的装置还包括:
第一校验模块,用于若检测到需要对目标文章的类别进行校正,则对校正后的目标文章所属的类别的准确性进行校验;
第二校验模块,用于若检测到不需要对目标文章的类别进行校正,则对基于目标文章的标题所确定的目标文章所属的类别的准确性进行校验。
本申请实施例提供的确定文章类别的装置,根据文章的标题和文章所对应的URL中能够表征文章的类别的目标字段确定文章的类别,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,对于外文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
进一步地,基于上述的方法,本申请实施例还提供了一种设备,图5为本申请实施例提供的确定文章类别的设备的结构示意图。
如图5所示,确定文章类别的设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对确定文章类别的设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在确定文章类别的设备上执行存储器502中的一系列计算机可执行指令。确定文章类别的设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506等。
在一个具体的实施例中,确定文章类别的设备包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述确定文章类别的方法实施例的各个过程,具体包括以下步骤:
根据目标文章的标题确定目标文章所属的类别;
基于预设的检测策略检测是否需要对目标文章的类别进行校正;
若是,则从目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征目标文章的类别的目标字段;
根据目标字段对目标文章所属的类别进行校正。
可选的,计算机可执行指令在被执行时,若URL所包含的字段中包含两个或多个表征类别的字段;
从目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征目标文章的类别的目标字段,包括:
确定各个表征类别的字段所对应的目标网站的页面的级别;其中,目标网站为目标文章所属的网站;
根据页面的级别从各个表征类别的字段中确定表征目标文章的类别的目标字段。
可选的,计算机可执行指令在被执行时,根据目标字段对目标文章所属的类别进行校正,包括:
将目标字段与预先建立的类别映射表进行匹配,以确定目标字段所对应的类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,计算机可执行指令在被执行时,若目标字段在预先建立的类别映射表中对应有至少两个类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
根据目标字段对目标文章所属的类别进行校正,包括:
将目标字段与类别映射表进行匹配,得到目标字段所对应的两个或多个类别;
根据URL中的其他字段,从目标字段所对应的两个或多个类别中确定目标文章所属的类别;
使用目标文章的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,计算机可执行指令在被执行时,根据目标文章的标题确定目标文章所属的类别,包括:
提取标题中表征目标文章的文章内容的特征字词;
将特征字词与预先建立的类别关键词列表进行匹配,以确定目标文章所属的类别;其中,类别关键词列表中存储有不同类别所对应的类别关键词。
可选的,计算机可执行指令在被执行时,基于目标文章所属的类别检测是否需要对目标文章的类别进行校正,包括:
判断目标文章所属的类别是否包含在预先建立的特定类别列表中;其中,所述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;
若是,则确定需要对目标文章的类别进行校正。
可选的,计算机可执行指令在被执行时,通过如下步骤建立类别关键词列表:
收集多个网站上的各篇文章所对应的URL;
针对所收集的每个所述URL,从所述URL所包含的多个字段中确定表征文章路径的路径字段;
基于每个所述URL中的路径字段,建立所述类别关键词列表。
可选的,计算机可执行指令在被执行时,根据每个URL中的路径字段,确定每个类别所对应的类别关键词,包括:
筛选出路径字段中表征URL所对应文章内容的特征字词;
对特征字词进行筛选,并从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
可选的,计算机可执行指令在被执行时,对特征字词进行筛选,包括:
筛除所述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在所述类别所对应的特征词库中的词频。
可选的,计算机可执行指令在被执行时,根据目标字段对目标文章所属的类别进行校正之后,方法还包括:
若检测到需要对目标文章的类别进行校正,则对校正后的目标文章所属的类别的准确性进行校验;
若检测到不需要对目标文章的类别进行校验,则对基于目标文章的标题所确定的目标文章所属的类别的准确性进行校验。
本申请实施例提供的确定文章类别的设备,根据文章的标题和文章所对应的URL中能够表征文章的类别的目标字段确定文章的类别,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,对于外文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
进一步地,基于上述图1至图3所示的方法,本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
根据目标文章的标题确定目标文章所属的类别;
基于预设的检测策略检测是否需要对目标文章的类别进行校正;
若是,则从目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征目标文章的类别的目标字段;
根据目标字段对目标文章所属的类别进行校正。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,若URL所包含的字段中包含两个或多个表征类别的字段;
从目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征目标文章的类别的目标字段,包括:
确定各个表征类别的字段所对应的目标网站的页面的级别;其中,目标网站为目标文章所属的网站;
根据页面的级别从各个表征类别的字段中确定表征目标文章的类别的目标字段。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,根据目标字段对目标文章所属的类别进行校正,包括:
将目标字段与预先建立的类别映射表进行匹配,以确定目标字段所对应的类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
使用目标字段所对应的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,若目标字段在预先建立的类别映射表中对应有至少两个类别;其中,类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
根据目标字段对目标文章所属的类别进行校正,包括:
将目标字段与类别映射表进行匹配,得到目标字段所对应的两个或多个类别;
根据URL中的其他字段,从目标字段所对应的两个或多个类别中确定目标文章所属的类别;
使用目标文章的类别替换通过目标文章的标题所确定的目标文章的类别。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,根据目标文章的标题确定目标文章所属的类别,包括:
提取标题中表征目标文章的文章内容的特征字词;
将特征字词与预先建立的类别关键词列表进行匹配,以确定目标文章所属的类别;其中,类别关键词列表中存储有不同类别所对应的类别关键词。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,基于目标文章所属的类别检测是否需要对目标文章的类别进行校正,包括:
判断目标文章所属的类别是否包含在预先建立的特定类别列表中;所述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;
若是,则确定需要对目标文章的类别进行校正。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,通过如下步骤建立类别关键词列表:
收集多个网站上的各篇文章所对应的URL;
针对所收集的每个所述URL,从所述URL所包含的多个字段中确定表征文章路径的路径字段;
基于每个所述URL中的路径字段,建立所述类别关键词列表。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,根据每个URL中的路径字段,确定每个类别所对应的类别关键词,包括:
筛选出路径字段中表征URL所对应文章内容的特征字词;
对特征字词进行筛选,并从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,对特征字词进行筛选,包括:
筛除所述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在所述类别所对应的特征词库中的词频。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,根据目标字段对目标文章所属的类别进行校正之后,方法还包括:
若检测到需要对目标文章的类别进行校正,则对校正后的目标文章所属的类别的准确性进行校验;
若检测到不需要对目标文章的类别进行校正,则对基于目标文章的标题所确定的目标文章所属的类别的准确性进行校验。
本申请实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,根据文章的标题和文章所对应的URL中能够表征文章的类别的目标字段确定文章的类别,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了效率,并且由于根据标题和URL自动化确定文章的类别,对于外文文章,也不会存在语言识别障碍;另外,在本申请实施例中,在确定文章类别时,先基于文章的标题确定文章所属的类别,再通过文章所对应的URL中的目标字段对文章所属的类别进行校正,提高了对文章进行分类的准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种确定文章类别的方法,其特征在于,所述方法包括:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则将所述目标文章所对应的统一资源定位符URL拆分为多个字段;所述目标文章所属的目标网站的不同级别的页面对应所述URL的不同字段;在所述多个字段中确定两个或多个表征类别的字段以及各个所述表征类别的字段所对应的目标网站的页面的级别;
将最高级别的页面所对应的字段确定为目标字段,或者,将最高级别的前一级别或者前几级别的页面所对应的字段确定为目标字段,或者,将所有表征类别的字段均确定为目标字段,或者,根据各个所述表征类别的字段组合目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标字段对所述目标文章所属的类别进行校正,包括:
将所述目标字段与预先建立的类别映射表进行匹配,以确定所述目标字段所对应的类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
使用所述目标字段所对应的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
3.如权利要求1所述的方法,其特征在于,若所述目标字段在预先建立的类别映射表中对应有至少两个类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
所述根据所述目标字段对所述目标文章所属的类别进行校正,包括:
将所述目标字段与所述类别映射表进行匹配,得到所述目标字段所对应的两个或多个类别;
根据所述URL中的其他字段,从所述目标字段所对应的两个或多个类别中确定所述目标文章所属的类别;
使用所述目标文章所述的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
4.如权利要求1-3任一项所述的方法,其特征在于,所述根据目标文章的标题确定所述目标文章所属的类别,包括:
提取所述标题中表征所述目标文章的文章内容的特征字词;
将所述特征字词与预先建立的类别关键词列表进行匹配,以确定所述目标文章所属的类别;其中,所述类别关键词列表中存储有不同类别所对应的类别关键词。
5.如权利要求1-3任一项所述的方法,其特征在于,所述基于预设的检测策略检测是否需要对所述目标文章的类别进行校正,包括:
判断所述目标文章所属的类别是否包含在预先建立的特定类别列表中;其中,所述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;
若是,则确定需要对所述目标文章的类别进行校正。
6.如权利要求4所述的方法,其特征在于,通过如下步骤建立所述类别关键词列表:
收集多个网站上的各篇文章所对应的URL;
针对所收集的每个所述URL,从所述URL所包含的多个字段中确定表征文章路径的路径字段;
基于每个所述URL中的路径字段,建立所述类别关键词列表。
7.如权利要求6所述的方法,其特征在于,所述基于每个所述URL中的路径字段,建立所述类别关键词列表,包括:
筛选出所述路径字段中表征所述URL所对应文章内容的特征字词;
对所述特征字词进行筛选,并从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
8.如权利要求7所述的方法,其特征在于,所述对所述特征字词进行筛选,包括:
筛除所述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在所述类别所对应的特征词库中的词频。
9.一种确定文章类别的装置,其特征在于,包括:
第一确定模块,用于根据目标文章的标题确定所述目标文章所属的类别;
检测模块,用于基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
拆分模块,用于若需要对所述目标文章的类别进行校正,则将所述目标文章所对应的统一资源定位符URL拆分为多个字段;所述目标文章所属的目标网站的不同级别的页面对应所述URL的不同字段;
第三确定模块,用于在所述多个字段中确定两个或多个表征类别的字段以及各个所述表征类别的字段所对应的目标网站的页面的级别;
第四确定模块,用于将最高级别的页面所对应的字段确定为所述目标字段,或者,将最高级别的前一级别或者前几级别的页面所对应的字段确定为所述目标字段,或者,将所有表征类别的字段均确定为所述目标字段,或者,根据各个所述表征类别的字段组合所述目标字段;
校正模块,用于根据所述目标字段对所述目标文章所属的类别进行校正。
10.如权利要求9所述的装置,其特征在于,所述校正模块,包括:
第一匹配单元,用于将所述目标字段与预先建立的类别映射表进行匹配,以确定所述目标字段所对应的类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
第一替换单元,用于使用所述目标字段所对应的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
11.如权利要求9所述的装置,其特征在于,若所述目标字段在预先建立的类别映射表中对应有至少两个类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
所述校正模块,包括:
第二匹配单元,用于将所述目标字段与所述类别映射表进行匹配,得到所述目标字段所对应的两个或多个类别;
第三确定单元,用于根据所述URL中的其他字段,从所述目标字段所对应的两个或多个类别中确定所述目标文章所属的类别;
第二替换单元,用于使用所述目标文章所述的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
12.如权利要求9-11任一项所述的装置,其特征在于,所述第一确定模块,包括:
提取单元,用于提取所述标题中表征所述目标文章的文章内容的特征字词;
第三匹配单元,用于将所述特征字词与预先建立的类别关键词列表进行匹配,以确定所述目标文章所属的类别;其中,所述类别关键词列表中存储有不同类别所对应的类别关键词。
CN201910121925.4A 2019-02-19 2019-02-19 确定文章类别的方法及装置 Active CN109815337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910121925.4A CN109815337B (zh) 2019-02-19 2019-02-19 确定文章类别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910121925.4A CN109815337B (zh) 2019-02-19 2019-02-19 确定文章类别的方法及装置

Publications (2)

Publication Number Publication Date
CN109815337A CN109815337A (zh) 2019-05-28
CN109815337B true CN109815337B (zh) 2021-12-24

Family

ID=66606827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910121925.4A Active CN109815337B (zh) 2019-02-19 2019-02-19 确定文章类别的方法及装置

Country Status (1)

Country Link
CN (1) CN109815337B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN113177125B (zh) * 2021-06-30 2021-09-03 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置
CN113743051A (zh) * 2021-08-10 2021-12-03 广州坚和网络科技有限公司 一种字体设置方法、用户终端、服务器及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
US8965894B2 (en) * 2010-12-21 2015-02-24 Tata Consultancy Services Limited Automated web page classification
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN108550065B (zh) * 2018-04-10 2022-10-18 百度在线网络技术(北京)有限公司 评论数据处理方法、装置及设备
CN108737423B (zh) * 2018-05-24 2020-07-14 国家计算机网络与信息安全管理中心 基于网页关键内容相似性分析的钓鱼网站发现方法及系统

Also Published As

Publication number Publication date
CN109815337A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
US10997256B2 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
US7636714B1 (en) Determining query term synonyms within query context
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US8560513B2 (en) Searching for information based on generic attributes of the query
US7751592B1 (en) Scoring items
CN109815337B (zh) 确定文章类别的方法及装置
WO2019136841A1 (zh) 直播间内容标签提取方法、存储介质、电子设备及系统
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN102135967A (zh) 网页关键词提取方法、装置及系统
CN106777236B (zh) 基于深度问答的查询结果的展现方法和装置
CN105574199B (zh) 搜索引擎的虚假搜索行为的识别方法和装置
CN104182548A (zh) 网页更新处理方法及装置
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
US20140289260A1 (en) Keyword Determination
CN112528294A (zh) 漏洞匹配方法、装置、计算机设备和可读存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN107688563B (zh) 一种同义词的识别方法及识别装置
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
CN109471934B (zh) 基于互联网的金融风险线索发掘方法
CN108388556B (zh) 同类实体的挖掘方法及系统
CN105095203B (zh) 同义词的确定、搜索方法及服务器
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN107908649B (zh) 一种文本分类的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220801

Address after: No.16 and 17, unit 1, North District, Kailin center, No.51 Jinshui East Road, Zhengzhou area (Zhengdong), Henan pilot Free Trade Zone, Zhengzhou City, Henan Province, 450000

Patentee after: Zhengzhou Apas Technology Co.,Ltd.

Address before: E301-27, building 1, No.1, hagongda Road, Tangjiawan Town, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI TIANYAN TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right