CN110069625A - 一种内容分类方法、装置及服务器 - Google Patents

一种内容分类方法、装置及服务器 Download PDF

Info

Publication number
CN110069625A
CN110069625A CN201710867797.9A CN201710867797A CN110069625A CN 110069625 A CN110069625 A CN 110069625A CN 201710867797 A CN201710867797 A CN 201710867797A CN 110069625 A CN110069625 A CN 110069625A
Authority
CN
China
Prior art keywords
content
sorted
comment
type
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710867797.9A
Other languages
English (en)
Other versions
CN110069625B (zh
Inventor
孙甲申
刘飞
周佳兴
花贵春
余亭浩
赵兰天
李晓伟
刘洪志
赵春玲
胡博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710867797.9A priority Critical patent/CN110069625B/zh
Publication of CN110069625A publication Critical patent/CN110069625A/zh
Application granted granted Critical
Publication of CN110069625B publication Critical patent/CN110069625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明实施例提供一种内容分类方法、装置及服务器,该方法包括:获取待分类内容;提取待分类内容的各类素材的素材特征;根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。本发明实施例可提升待分类内容的分类结果的准确性。

Description

一种内容分类方法、装置及服务器
技术领域
本发明涉及数据处理技术领域,具体涉及一种内容分类方法、装置及服务器。
背景技术
随着内容的爆炸性增长,为用户进行内容推荐的应用越来越多;这些应用,尤其是个性化Feed流推荐APP(Application,应用程序)会将内容源产生的内容不断的推荐给用户,使得用户获取内容的途径更为便捷。这里需要说明的是,Feed是一种信息流,其信息流机制是:当用户关注、点赞、收藏、甚至经常阅读一些内容源后,这些内容源产生的内容就会流向用户,并被动态聚合后呈现给用户。
然而,由于内容源、内容制作者的素质参差不齐,这些内容中往往会涉及低俗、标题党、惊悚等类型的低质量内容;当用户阅读到这些低质量内容时,通常会产生反感情绪,导致用户的内容阅读体验降低;因此在面对一个内容时,对该内容进行分类,准确的识别出该内容是否为某一类型的低质量内容显得尤为必要。
发明内容
有鉴于此,本发明实施例提供一种内容分类方法、装置及服务器,以实现低质量内容的分类,并提升分类结果的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
一种内容分类方法,包括:
获取待分类内容;
提取待分类内容的各类素材的素材特征,根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
本发明实施例还提供一种内容分类装置,包括:
待分类内容获取模块,用于获取待分类内容;
素材特征提取模块,用于提取待分类内容的各类素材的素材特征;
素材识别结果确定模块,用于根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
融合模块,用于将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
本发明实施例还提供一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有适于所述处理器执行的程序,所述程序用于:
获取待分类内容;
提取待分类内容的各类素材的素材特征,根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
本发明实施例还提供一种存储介质,所述存储介质存储有可执行的程序,所述程序用于:
获取待分类内容;
提取待分类内容的各类素材的素材特征,根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
基于上述技术方案,本发明实施例提供的内容分类方法,在实现待分类内容是否分类到预定内容类型的过程中,可预先构建出各类素材识别模型,以各类素材识别模型,分别对待分类内容的各类素材的素材特征进行识别处理,得到待分类内容的各类素材的识别结果,且一类素材的识别结果可表示该类素材属于预定内容类型的概率;进而,再将待分类内容的各类素材的识别结果进行融合,根据融合结果确定待分类内容的内容类型,实现待分类内容的内容分类。
可见,本发明实施例可基于待分类内容多维度的素材,先以预先构建的各类素材识别模型,确定待分类内容的各类素材属于预定内容类型的概率,进而再基于待分类内容的各类素材属于预定内容类型的概率的融合结果,确定待分类内容整体上是否属于预定内容类型,从而基于多维度的素材,实现待分类内容的内容分类,提升待分类内容的分类结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的内容分类方法的流程图;
图2为本发明实施例提供的内容分类方法的示意图;
图3为本发明实施例提供的标题分类器的构建方法流程图;
图4为本发明实施例提供的正文文字分类器的构建方法流程图;
图5为本发明实施例提供的第一图片分类器的构建方法流程图;
图6为本发明实施例提供的内容分类方法的另一示意图;
图7为本发明实施例提供的扩充目标内容样本的方法流程图;
图8为本发明实施例提供的扩充目标内容样本的另一方法流程图;
图9为本发明实施例提供的扩充目标内容样本的再一方法流程图;
图10为低质量内容和非低质量内容的处理策略示意图;
图11为本发明实施例提供的内容推荐方法的流程图;
图12为内容的素材屏蔽示意图;
图13为本发明实施例提供的内容分类装置的结构框图;
图14为本发明实施例提供的内容分类装置的另一结构框图;
图15为本发明实施例提供的内容分类装置的再一结构框图;
图16为服务器的硬件结构框图。
具体实施方式
本发明实施例提供的内容分类方法的一个任务是:对于任一条待分类内容,识别该待分类内容是否为预定内容类型的低质量内容,即识别该待分类内容的内容类型是否为预定内容类型;预定内容类型可以是设定的任一低质量内容类型,如低俗、营销、标题党、惊悚等设定的低质量内容类型中的任一种,显然低质量内容类型并不限于上述描述,可以根据实际情况设定,如也可将婚恋、考试、读后感、日志等仅符合极少部分人兴趣的内容类型,也认为是低质量内容类型。
本发明的发明人发现,现有技术在将待分类内容进行内容分类,识别该待分类内容的内容类型是否为预定内容类型时,识别所使用的素材维度较为单一,导致内容分类结果的准确性较低。基于此,提出本发明实施例提供的内容分类方法,基于多维度的素材,实现待分类内容的内容类型是否为预定内容类型的识别。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的内容分类方法的流程图,该内容分类方法可应用于服务器,可选的,该服务器可选用内容推荐应用的服务器实现,也可是单独设置的服务于本发明实施例的内容分类方法的服务器;参照图1,本发明实施例提供的内容分类方法可以包括:
步骤S100、获取待分类内容。
待分类内容为本发明实施例需分类内容类型的内容,内容的形式可以是文章、网页内容等;
可选的,待分类内容可以是内容源产生的内容,内容源产生的内容可先经过本发明实施例提供的内容分类方法的处理,再进行内容推荐;内容源可以是在内容推荐应用中注册或者与内容推荐应用相合作的自媒体,官方媒体等可产生文章、新闻等内容的账号主体。
本发明实施例提供的内容分类方法的一个主要任务是,判断待分类内容的内容类型是否为预定内容类型;如设定预定内容类型为低俗,基于本发明实施例提供的内容分类方法,可实现待分类内容的内容类型是否为低俗的判断,如设定预定内容类型为营销,基于本发明实施例提供的内容分类方法,可实现待分类内容的内容类型是否为营销的判断;
在本发明实施例中,判断待分类内容的内容类型是否为低俗,是否为营销等低质量内容类型的处理流程原理是一致,因此本发明实施例以设定的某一种内容类型(即预定内容类型)下的内容分类的处理流程进行说明。
步骤S110、提取待分类内容的各类素材的素材特征。
可选的,待分类内容可由多类的素材构成,如一个内容一般由标题、文字正文、图片等素材构成,本发明实施例可设置素材的类型包括但不限于:标题、文字正文、图片等;相应的,提取待分类内容的各类素材的素材特征后,所得到的待分类内容的各类素材特征可以如:待分类内容的标题特征,正文文字特征,各图片的图片特征等;
例如,在获取待分类内容后,本发明实施例可提取待分类内容的标题的标题特征,得到待分类内容的标题特征(待分类内容的一类素材特征),提取待分类内容的正文文字的正文文字特征(正文文字特征可由待分类内容的正文文字的关键词构成),得到待分类内容的正文文字特征(待分类内容的另一类素材特征),提取待分类内容的各图片的图片特征(待分类内容的再一类素材特征)等。
步骤S120、根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率。
可选的,本发明实施例可预先构建出预定内容类型的各类素材识别模型,从而在提取出待分类内容的各类素材特征后,对于待分类内容的任一类素材特征,采用预定内容类型的该类素材识别模型,识别该类素材特征(如将该类型素材特征,作为预定内容类型的该类素材识别模型的输入),得到待分类内容的该类素材的识别结果;进而对于待分类内容的每一类素材特征,采用预定内容类型的相应类的素材识别模型进行识别,得到待分类内容的各类素材的识别结果;而一类素材的识别结果表示该类素材属于预定内容类型的概率。
可选的,以素材类型包括:标题、文字正文、图片等为例,则预定内容类型的各类素材识别模型可以包括:标题识别模型,正文文字识别模型,图片识别模型等;
可选的,预定内容类型的某一类素材识别模型,可以根据标注为预定内容类型的目标内容样本的该类素材进行构建;如对于标题识别模型,可以根据标注为预定内容类型的目标内容样本的标题进行构建;
作为一种可选示例,本发明实施例可事先构建出标题识别模型,正文文字识别模型,图片识别模型;从而在提取出待分类内容的标题特征,正文文字特征,各图片的图片特征后,可执行如下实现,下述实现可不分先后执行顺序:
根据标题识别模型,识别待分类内容的标题特征,得到待分类内容的标题的识别结果(该识别结果可表示待分类内容的标题属于预定内容类型的概率);
根据正文文字识别模型,识别待分类内容的正文文字特征,得到待分类内容的正文文字的识别结果(该识别结果可表示待分类内容的正文文字属于预定内容类型的概率);
根据图片识别模型,识别待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率,并根据所确定的待分类内容的各图片属于预定内容类型的概率,确定待分类内容的图片整体属于预定内容类型的概率,得到待分类内容的图片识别结果。
可选的,本发明实施例所得到的待分类内容的某一类素材的识别结果可以是一个二值化结果(如01二值化结果),即待分类内容的某一类素材的识别结果为二值化结果中的第一设定数值(如1),则表示待分类内容的该类素材属于预定内容类型,而待分类内容的某一类素材的识别结果为二值化结果中的第二设定数值(如0),则表示待分类内容的该类素材不属于预定内容类型;显然,第一设定数值由1表示,第二设定数值由0表示仅是一种示例;
可选的,另一种实现上,本发明实施例所得到的待分类内容的某一类素材的识别结果可以是0至1范围内的某一数值,表示的是待分类内容的某一类型素材属于预定内容类型的概率程度。
步骤S130、将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
可选的,本发明实施例可根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果。
可选的,融合模型的一种形式可以是融合规则,融合规则中描述有预定内容类型下,各类素材的识别结果的至少一种目标条件,本发明实施例可综合判断各类素材的识别结果,是否与融合规则中描述的任一目标条件相匹配,实现所述各类素材的识别结果的融合,得到融合结果;
可选的,融合模型的另一种形式可以是算术公式,即可基于预定的该算术公式,对各类素材的识别结果所表示的各类素材属于预定内容类型的概率进行进一步的算术处理,确定出待分类内容属于预定内容类型的概率,得到融合结果;
可选的,融合模型的再一种形式可以是分类器,本发明实施例可通过学习方法,训练出预定内容类型的融合分类器,该融合分类器可基于内容的各类素材的识别结果,确定内容属于预定内容类型的概率;进而将所述各类素材的识别结果,作为该融合分类器的输入,确定出待分类内容属于预定内容类型的概率,得到融合结果。
本发明实施例提供的内容分类方法包括:获取待分类内容;提取待分类内容的各类素材的素材特征;根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;进而将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
本发明实施例提供的内容分类方法,在实现待分类内容是否分类到预定内容类型的过程中,可预先构建出各类素材识别模型,以各类素材识别模型,分别对待分类内容的各类素材的素材特征进行识别处理,得到待分类内容的各类素材的识别结果,且一类素材的识别结果可表示该类素材属于预定内容类型的概率;进而,再将待分类内容的各类素材的识别结果进行融合,根据融合结果确定待分类内容的内容类型,实现待分类内容的内容分类。
可见,本发明实施例可基于待分类内容多维度的素材,先以预先构建的各类素材识别模型,确定待分类内容的各类素材属于预定内容类型的概率,进而再基于待分类内容的各类素材属于预定内容类型的概率的融合结果,确定待分类内容整体上是否属于预定内容类型,从而基于多维度的素材,实现待分类内容的内容分类,提升待分类内容的分类结果的准确性。
可选的,以素材的类型包括标题、文字正文、图片为例,图2示出了本发明实施例提供的内容分类方法的示意图,针对内容是否分类到预定内容类型的场景,对于预定内容类型,本发明实施例可预先构建出标题识别模型,正文文字识别模型,图片识别模型;
需要说明的是,预定内容类型是本发明实施例所设定的任一种低质量内容类型,而在低质量内容类型有多种的情况下,本发明实施例需要分别针对各低质量内容类型,构建各类素材识别模型,如分别针对各低质量内容类型,构建标题识别模型,正文文字识别模型,图片识别模型和融合模型;即每一个低质量内容类型都对应有自身的标题识别模型,正文文字识别模型,图片识别模型和融合模型;
而对于多种低质量内容类型而言,由于将待分类内容是否分类到任一低质量内容类型的处理,本发明实施例是相一致的,因此本发明实施例以设定的一种低质量内容类型作为预定内容类型(预定内容类型的具体类型可根据实际情况设定),进行本发明实施例所提供的内容分类方法的描述。下文所指的标题识别模型,正文文字识别模型,图片识别模型,融合模型可以认为均是针对预定内容类型。
可选的,对于获取到的待分类内容,可提取出待分类内容的标题特征,根据所述标题识别模型和待分类内容的标题特征,确定待分类内容的标题识别结果(表示待分类内容的标题属于预定内容类型的概率,该概率可以是由二值化结果表示,也可以表示待分类内容的标题属于预定内容类型的概率程度,由0至1范围的某一数值表示);
提取待分类内容的正文文字特征,根据所述正文文字识别模型和待分类内容的正文文字特征,确定待分类内容的正文文字识别结果(表示待分类内容的正文文字属于预定内容类型的概率,可以是由二值化结果表示,或者0至1范围的某一数值表示)
提取待分类内容的各图片的图片特征,根据图片识别模型和待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率,再基于待分类内容的各图片属于预定内容类型的概率,进一步确定待分类内容的图片整体属于预定内容类型的概率,得到待分类内容的图片识别结果(待分类内容的图片识别结果一般由概率程度的数值表示);
可选的,待分类内容的图片识别模型可以由两部分组成,其中一部分可称为第一图片分类器,可用于单一图片属于预定内容类型的概率的识别,而另一部分可称为第二图片分类器,可用于根据多个图片属于预定内容类型的概率,实现多个图片的图片整体(即将多个图片视为一个整体的情况下)属于预定内容类型的概率的确定;
进而,可基于预先构建的融合模型,将待分类内容的标题识别结果,正文文字识别结果,图片识别结果进行融合,得到融合结果;
基于融合结果,确定待分类内容的内容类型是否为预定内容类型,得到待分类内容的分类结果。
可见,基于图2所示示意,本发明实施例可基于多维度的素材,先确定待分类内容的各类素材属于预定内容类型的概率,然后将待分类内容的各类素材属于预定内容类型的概率进行融合,得到待分类内容属于预定内容类型的概率的确定,实现待分类内容的内容类型是否为预定内容类型的分类;本发明实施例提供的这种基于多维度的素材,确定待分类内容属于预定内容类型的概率,来实现待分类内容的内容类型是否为预定内容类型的分类的方法,相比于单一维度的内容分类方法,可明显提升待分类内容的分类结果的准确性,实现高准确性的内容分类。
可选的,预定内容类型的标题识别模型的形式可以是规则和/或分类器,即可构建标题识别规则,和/或,标题分类器,实现标题识别模型的构建;
可选的,若仅构建标题识别规则,则待分类内容的标题识别结果可以是,标题识别规则对待分类内容的标题的识别结果;若仅构建标题分类器,则待分类内容的标题识别结果可以是,标题分类器对待分类内容的标题的识别结果;
若标题识别模型包括:标题识别规则,和标题分类器;则待分类内容的标题识别结果可以包括:标题识别规则对待分类内容的标题的识别结果,以及标题分类器对待分类内容的标题的识别结果。
可选的,以标题分类器的构建为例,图3示出了标题分类器的构建方法流程图,该方法可由服务器执行,不过相比于图1所示方法,图3所示方法是服务器预先执行的方法流程,如可由服务器在线下执行;同理,本发明实施例中,预定内容类型的各类素材识别模型的构建,均可是服务器预先执行的,如可由服务器在线下执行;
参照图3,该方法可以包括:
步骤S200、获取训练样本集合,所述训练样本集合包括:标注为预定内容类型的多个目标内容样本。
目标内容样本可以是内容类型被标注为预定内容类型的内容样本,可以由人工实现标注,也可以由本发明实施例后文提供的自动标注方式,基于内容的评论,实现预定内容类型的目标内容样本的自动标注。
步骤S210、提取各目标内容样本的标题特征。
目标内容样本的标题特征可以如:目标内容样本的标题的关键词等。
步骤S220、将各目标内容样本的标题特征作为训练特征,通过学习方法,训练得到标题分类器。
可选的,本发明实施例可在训练标题分类器时,将各目标内容样本的标题特征作为正样本训练特征,将非目标内容样本的标题特征作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到标题分类器;非目标内容样本可以认为是,内容类型不被标注为预定内容类型的内容样本;
例如,以预定内容类型为标题党为例,在训练标题党的标题分类器(标题党的标题分类器,能够识别标题党的内容的标题)时,可将标注出的属于标题党的内容样本的标题特征,作为正样本训练特征,将不属于标题党的内容样本的标题特征,作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到标题党的标题分类器。
可选的,标题分类器的分类器形式可包括但不限于如下任一形式:Naivebayesian(朴素贝叶斯)分类器,FM(Factorization Machine,因子分解机)分类器,SVM(Support Vector Machine,支持向量机)分类器,Fasttext(快速文本)分类器,LSTM(长短期记忆)分类器,CNN(Convolution Neural Network,卷积神经网络)分类器等。
基于训练得到的标题分类器,本发明实施例根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果的一种实现可以是:
根据标题分类器,和待分类内容的标题特征,确定该待分类内容的标题的识别结果,该识别结果可表示待分类内容的标题属于预定内容类型的概率;识别结果可以是01的二值化结果,如0表示待分类内容的标题不为预定内容类型,1表示待分类内容的标题为预定内容类型;识别结果也可以是0至1范围的概率数值。
可选的,以标题识别规则的构建为例,本发明实施例可定义预定内容类型的标题的目标话题对象和目标上下文词,并定义预定内容类型的标题中目标话题对象和/或目标上下词应达到的数量,从而构建出标题识别规则;
可选的,本发明实施例可定义预定内容类型的标题中目标话题对象的数量应达到第一数量,和/或,目标上下文词的数量应达到第二数量;第一数量和第二数量的取值可根据实际情况而定。
可选的,预定内容类型的标题的目标话题对象,可记录在预定内容类型的话题对象词典中,预定内容类型的标题的目标上下文词,可记录在预定内容类型的上下文词典中;
作为一种可选示例,标题识别规则可以包括:预定内容类型的话题对象词典中记录的标题的目标话题对象,预定内容类型的上下文词典中记录的标题的目标上下文词,以及,预定内容类型的标题中目标话题对象和/或目标上下词应达到的数量。
可选的,基于所构建的标题识别规则,本发明实施例根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果的一种实现可以是:
提取待分类内容的标题的话题对象和上下文词作为标题特征后,本发明实施例可根据待分类内容的标题的话题对象与目标话题对象相匹配的数量,以及待分类内容的标题的上下文词与目标上下文词相匹配的数量,确定待分类内容的标题的识别结果(识别结果可以是01的二值化结果,如0表示待分类内容的标题不为预定内容类型,1表示待分类内容的标题为预定内容类型)。
例如,针对“身材好过柳岩”的标题,可识别出“柳岩”为话题对象,“身材好过”为上下文词;若待分类内容的标题的话题对象,与所述话题对象词典中记录的目标话题对象相匹配的数量达到第一数量,和/或,待分类内容的标题的上下文词,与所述上下文词典中记录的目标上下文词相匹配的数量达到第二数量时,则确定预定内容类型的标题为预定内容类型(即预定内容类型的标题为预定内容类型的概率为1);否则(即待分类内容的标题的话题对象与目标话题对象匹配的数量未达到第一数量,且待分类内容的标题的),确定预定内容类型的标题不为预定内容类型(即预定内容类型的标题为预定内容类型的概率为0);
作为一种可选示例,若待分类内容的标题中与目标话题对象匹配的话题对象数量不小于1,与目标上下词匹配的上下文词的数量不小于1,则认为该标题为预定内容类型的标题;另一种示例中,若待分类内容的标题中与目标话题对象匹配的话题对象数量不小于2,也可认为该标题为预定内容类型的标题。
进一步,预定内容类型的话题对象词典中所记录的目标话题对象可通过半监督方法进行扩充,如可先设置预定内容类型的标题的多个种子目标话题对象(如可人为根据经验定义),通过知识图谱确定与预定数量的种子目标话题对象均相关的其他目标话题对象,将所确定的其他目标话题对象加入到预定内容类型的话题对象词典中,实现预定内容类型的话题对象词典中的目标话题对象的扩充;
同理,预定内容类型的目标上下文词也可通过半监督方法进行扩充,如可先设置预定内容类型的标题的多个种子目标上下文词(可以人为根据经验定义),通过知识图谱确定与预定数量的种子目标上下文词均相关的其他目标上下文词,将所确定的其他目标上下文词加入到所述上下文词典中,实现预定内容类型的上下文词典中的目标上下文词的扩充。
可选的,正文文字识别模型的形式可以是规则和/或分类器,即可构建正文文字识别规则,和/或,正文文字分类器,实现正文文字识别模型的构建;
可选的,若仅构建正文文字识别规则,则待分类内容的正文文字识别结果可以是,正文文字识别规则对待分类内容的正文文字的识别结果;若仅构建正文文字分类器,则待分类内容的正文文字识别结果可以是,正文文字分类器对待分类内容的正文文字的识别结果;
若正文文字识别模型包括:正文文字识别规则,和正文文字分类器;则待分类内容的正文文字识别结果可以包括:标题识别规则对待分类内容的正文文字的识别结果,以及标题分类器对待分类内容的正文文字的识别结果。
可选的,以正文文字分类器的构建为例,图4示出了正文文字分类器的构建方法流程图,参照图4,该方法可以包括:
步骤S300、获取训练样本集合,所述训练样本集合包括:标注为预定内容类型的多个目标内容样本。
步骤S310、提取各目标内容样本的正文文字特征。
目标内容样本的正文文字特征可以如:目标内容样本的正文文字的关键词等。
步骤S320、将各目标内容样本的正文文字特征作为训练特征,通过学习方法,训练得到正文文字分类器。
可选的,在训练正文文字分类器时,可将各目标内容样本的正文文字特征作为正样本训练特征,将非目标内容样本的正文文字特征作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到正文文字分类器;
如以预定内容类型为标题党为例,在训练标题党的正文文字分类器(标题党的正文文字分类器,能够识别标题党的内容的正文文字)时,可将标注出的属于标题党的内容样本的正文文字特征,作为正样本训练特征,将不属于标题党的内容样本的正文文字特征,作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到标题党的正文文字分类器;
可选的,正文文字分类器的分类器形式可包括但不限于如下任一形式:Naivebayesian分类器,FM分类器,SVM分类器,Fasttext分类器,LSTM分类器,CNN分类器等。
基于训练得到的正文文字分类器,本发明实施例根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果的一种实现可以是:
在提取待分类内容的正文文字的正文文字特征后,根据正文文字分类器,和该待分类内容的正文文字特征,确定该待分类内容的正文文字的识别结果,该识别结果可表示待分类内容的正文文字属于预定内容类型的概率;识别结果可以是01的二值化结果,如0表示待分类内容的正文文字不为预定内容类型,1表示待分类内容的正文文字为预定内容类型;识别结果也可以是0至1范围的概率数值。
这里需要说明的是,内容的正文文字可以包括内容的正文文字段落中的文字;作为另一种实现,如果内容的图片中也包含文字,则内容的正文文字可以包括内容的正文文字段落中的文字,以及图片中的图片文字;可选的,,本发明实施例可预先训练OCR(OpticalCharacter Recognition,光学字符识别)分类器,通过OCR分类器识别内容的图片中的图片文字,将识别到的图片文字加入到内容的正文文字中。
可选的,以正文文字识别规则的构建为例,本发明实施例可定义预定内容类型的正文文字的目标关键词,并定义预定内容类型的正文文字中目标关键词应达到的数量,从而构建出正文文字识别规则。
即正文文字识别规则可以包括:预定内容类型的正文文字的目标关键词,以及预定内容类型的正文文字中目标关键词应达到的数量;如可定义预定内容类型的正文文字中目标关键词应达到第三数量;
例如以预定内容类型为低俗为例,则可构建低俗的正文文字识别规则,并在该正文文字识别规则中定义低俗的正文文字的目标关键词,低俗的正文文字的目标关键词如“干爹”、“强奸”、“人体艺术”等,可根据实际情况定义。
基于所构建的正文文字识别规则,本发明实施例根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果的一种实现可以是:
提取该待分类内容的正文文字的关键词,作为待分类内容的正文文字特征后,可根据待分类内容的正文文字的关键词,与正文文字识别规则所定义的目标关键词相匹配的数量,确定待分类内容的正文文字的识别结果(识别结果可以是01的二值化结果,如0表示待分类内容的正文文字不为预定内容类型,1表示待分类内容的正文文字为预定内容类型);
例如,待分类内容的正文文字的关键词,与正文文字识别规则所定义的目标关键词相匹配的数量,达到第三数量,则确定待分类内容的正文文字为预定内容类型,否则,确定待分类内容的正文文字不为预定内容类型。
这里需要说明的是,正文文字识别规则其实是一种弱规则,虽然正文文字识别规则具有较大的识别覆盖率,但很有可能存在歧义,比如“干爹”、“强奸”、“人体艺术”等低俗的正文文字的目标关键词,并不一定能表示内容的正文文字为低俗类型;因此,正文文字识别规则和标题识别规则一般需要结合使用,标题识别规则是一种强规则,具有高识别准确率但低覆盖率的特点,因此搭配具有较大的识别覆盖率的正文文字识别规则,可使得内容的分类结果更为准确。
可选的,图片识别模型的形式可以是分类器;在一种实现上,本发明实施例可识别单张图片属于预定内容类型的概率的第一图片分类器,以第一图片分类器识别内容的各张图片属于预定内容类型的概率,然后结合各张图片属于预定内容类型的概率,实现内容的图片整体属于预定内容类型的概率的确定;
而在另一种实现上,本发明实施例可在构建第一图片分类器的基础上,再构建第二图片分类器,第二图片分类器可用于根据多个图片属于预定内容类型的概率,实现多个图片的图片整体属于预定内容类型的概率的确定。
可选的,图5示出了第一图片分类器的构建方法流程图,参照图5,该方法可以包括:
步骤S400、获取训练样本集合,所述训练样本集合包括:标注为预定内容类型的多个目标内容样本。
步骤S410、提取各目标内容样本的各图片的图片特征。
步骤S420、将各目标内容样本的各图片的图片特征作为训练特征,通过学习方法,训练得到预定内容类型的第一图片分类器。
可选的,在训练得到第一图片分类器的过程中,本发明实施例可将各目标内容样本的图片特征作为正样本训练特征,将非目标内容样本的图片特征作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到预定内容类型的第一图片分类器。
可选的,第一图片分类器的分类器形式可包括但不限于如下任一形式:CNN(Convolution Neural Network,卷积神经网络)分类器,ResNet(残差网络)分类器,VGG分类器等。
进而,对于待分类内容,本发明实施例提取待分类内容的各图片的图片特征后,可根据第一图片分类器,与待分类内容的各图片的图片特征,识别待分类内容的各图片属于预定内容类型的概率;
如将该待分类内容的各图片的图片特征,分别作为第一图片分类器的输入,根据第一图片分类器对各图片的图片特征的识别结果,确定该待分类内容的各图片属于预定内容类型的概率;第一图片分类器对一个图片的处理结果可以是0至1范围的某一概率值,可以表示一个图片属于预定内容类型的概率程度。
由于一个内容中的图片有可能是有多张,在通过预定内容类型的第一图片分类器确定出一个内容中的各图片的识别结果,得到内容中的各图片属于预定内容类型的概率后,本发明实施例可结合该内容中各图片属于预定内容类型的概率,确定出该内容的图片整体属于预定内容类型的概率;如可将该内容中各图片属于预定内容类型的概率相加,并基于相加结果确定该内容的图片整体属于预定内容类型的概率(如将相加结果乘以一定的权重等)。
在另一种实现上,本发明实施例在训练出上述的第一图片分类器后,还可根据第一图片分类器所确定的目标内容样本的各图片属于预定内容类型的概率,进一步训练出第二图片分类器,第二图片分类器能够结合第一图片分类器对内容中各图片属于预定内容类型的概率,确定出内容的图片整体的识别结果,该图片整体的识别结果可反映内容的图片整体属于预定内容类型的概率。
可选的,本发明实施例可根据第一图片分类器所确定的目标内容样本的各图片属于预定内容类型的概率,提取目标内容样本的图片整体特征;利用GBDT/GBRT、xgboost、LR、MLP等回归算法,根据目标内容样本的图片整体特征,训练得到第二图片分类器;
可选的,根据所确定的目标内容样本的各图片属于预定内容类型的概率,提取目标内容样本的图片整体特征可以包括但不限:
目标内容样本中前设定张数的图片属于预定内容类型的概率的平均值;前设定张数如前5张等,可根据实际情况设定;
目标内容样本中被识别为预定内容类型的概率低于第一概率值的图片的张数,被识别为预定内容类型的概率介于第一概率值和第二概率值之间的图片的张数,被识别为预定内容类型的概率不小于第二概率值的图片的张数。
可选的,作为一种示例,第一概率值如0.1,第二概率值如0.8,相应的,本发明实施例可确定目标内容样本中被识别为预定内容类型的概率低于0.1的图片的张数,概率介于0.1至0.8的图片的张数,概率≥0.8的图片的张数;显然,上述数值举例仅是示例说明,具体数值可根据实际情况而定。
进而,在训练出预定内容类型的第一图片分类器和第二图片分类器后,本发明实施例根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果的一种实现可以是:
根据第一图片分类器和待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率;根据第二图片分类器,和待分类内容的各图片属于预定内容类型的概率,确定该待分类内容的图片整体的识别结果,该识别结果可表示待分类内容的图片整体属于预定内容类型的概率。
可选的,根据第二图片分类器,和待分类内容的各图片属于预定内容类型的概率,确定该待分类内容的图片整体的识别结果可以如:
根据待分类内容的各图片属于预定内容类型的概率,提取待分类内容的图片整体特征,该图片整体特征可以包括:待分类内容中前设定张数的图片属于预定内容类型的概率的平均值,待分类内容中被识别为预定内容类型的概率低于第一概率值的图片的张数,概率介于第一概率值和第二概率值之间的图片的张数,概率不小于第二概率值的图片的张数;
进而根据第二图片分类器和该图片整体特征,确定待分类内容的图片整体属于预定内容类型的概率。
基于上述构建的标题识别模型,正文文字识别模型,图片识别模型,图6示出了本发明实施例提供的内容分类方法的另一种可选示意图;
参照图6,本发明实施例可利用标题识别规则,标题分类器分别确定待分类内容的标题属于预定内容类型的概率,得到待分类内容的标题识别结果;利用正文文字识别规则,正文文字分类器分别确定待分类内容的正文文字属于预定内容类型的概率,得到待分类内容的正文文字识别结果;利用第一图片分类器和第二图片分类器,确定待分类内容的图片整体属于预定内容类型的概率,得到待分类内容的图片识别结果;
进而,可基于预先构建的融合模型,将待分类内容的标题识别结果,正文文字识别结果,图片识别结果进行融合,得到融合结果;
基于融合结果,确定待分类内容的内容类型是否为预定内容类型,得到待分类内容的分类结果。
显然,图6所示中,标题识别规则和标题分类器可择一使用,正文文字识别规则和正文文字分类器也可择一使用。
可选的,融合模型的一种形式可以是融合规则,即将所述各类素材的识别结果进行融合的一种方式可以是构建融合规则;融合规则中描述有预定内容类型下,各类素材的识别结果的至少一种目标条件,如果所确定的待分类内容的各类素材的识别结果,与融合规则描述的预定内容类型下,各类素材的识别结果的任一种目标条件相匹配,则可确定待分类内容的各类素材的识别结果的融合结果,指示待分类内容的内容类型为预定内容类型,否则,确定待分类内容的各类素材的识别结果的融合结果,指示待分类内容的内容类型不为预定内容类型。
可选的,基于融合规则所实现的所述各类素材的识别结果的融合,可以认为是基于所述各类素材的识别结果的一种综合逻辑判断。
作为一种可选示例,融合规则中描述的预定内容类型下,各类素材的识别结果的至少一种目标条件可以包括如下任一项,即只要满足如下任一项的条件,则认为待分类内容的内容类型为预定内容类型;
1、标题识别规则识别待分类内容的标题属于预定内容类型,如待分类内容的标题属于预定内容类型的概率为1;
2、预定内容类型的第二图片分类器,未识别出待分类内容的图片整体属于预定内容类型,但标题识别模型(标题识别规则和/或标题分类器),识别待分类内容的标题属于预定内容类型,且,正文文字识别模型(正文文字识别规则和/或正文文字分类器),识别待分类内容的正文文字属于预定内容类型;即待分类内容的图片整体未被识别为预定内容类型,但待分类内容的标题和正文文字均被识别为预定内容类型;
3、预定内容类型的第二图片分类器,识别出待分类内容的图片整体属于预定内容类型,且,标题识别模型(标题识别规则和/或标题分类器),识别待分类内容的标题属于预定内容类型,和/或,正文文字识别模型(正文文字识别规则和/或正文文字分类器),识别待分类内容的正文文字属于预定内容类型;即待分类内容的图片整体被识别为预定内容类型,且,待分类内容的标题和正文文字中的至少一个被识别为预定内容类型。
显然,上述的融合规则示例仅是可选的,本发明实施例也可根据实际情况调整融合规则的定义。
可选的,融合模型的另一种形式可以是算术公式,如线性插值公式;可以是基于各类素材的识别结果所表示的各类素材属于预定内容类型的概率进行进一步的算术处理,确定出表示待分类内容属于预定内容类型的概率的融合结果,进而在待分类内容属于预定内容类型的概率大于概率阈值时,确定待分类内容的内容类型为预定内容类型,否则,确定待分类内容的内容类型不为预定内容类型;
可选的,本发明实施例可通过线性插值方式,融合各类素材属于预定内容类型的概率,得到待分类内容属于预定内容类型的概率;如可根据线性插值公式,将待分类内容的各类素材属于预定内容类型的概率,分别与预定内容类型的相应类素材识别模型的权重相乘,然后将各相乘结果相加,得到表示待分类内容属于预定内容类型的概率的融合结果;
具体的,本发明实施例可将待分类内容的标题属于预定内容类型的概率,与标题识别模型对应的权重相乘,将待分类内容的正文文字属于预定内容类型的概率,与正文文字识别模型对应的权重相乘,将待分类内容的图片整体属于预定内容类型的概率,与预定内容类型的第二图片分类器的权重相乘,再将各相乘结果相加,确定待分类内容属于预定内容类型的概率;进而在待分类内容属于预定内容类型的概率大于概率阈值时,认为待分类内容的内容类型为预定内容类型。
可选的,针对不同的预定内容类型,标题识别模型,正文文字识别模型,第二图片分类器各自对应的权重可能不同,比如不同的预定内容类型下,内容中表达预定内容类型所侧重的素材可能是不同的,本发明实施例可在不同的预定内容类型下,依据表达预定内容类型的素材的侧重程度,来设置标题识别模型,正文文字识别模型,第二图片分类器的权重。
可选的,将待分类内容的标题属于预定内容类型的概率,与标题识别模型对应的权重相乘可以包括:将标题识别规则所识别的待分类内容的标题属于预定内容类型的概率,与标题识别规则对应的权重相乘,及将标题分类器所识别的待分类内容的标题属于预定内容类型的概率,与标题分类器对应的权重相乘;
将待分类内容的正文文字属于预定内容类型的概率,与正文文字识别模型对应的权重相乘可以包括:将正文文字识别规则所识别的待分类内容的正文文字属于预定内容类型的概率,与正文文字识别规则对应的权重相乘,及将正文文字分类器所识别的待分类内容的正文文字属于预定内容类型的概率,与正文文字分类器对应的权重相乘;
可选的,线性插值公式的体现可以如下:
其中,wi表示预定内容类型的各识别模型对应权重,可选的,可涉及标题识别规则对应的权重,标题分类器对应的权重,正文文字识别规则对应的权重,正文文字分类器对应的权重,第二图片分类器对应的权重;si表示待分类内容的标题、正文文字、图片整体被预定内容类型的各识别模型,所识别的属于预定内容的概率,可选的,可涉及标题识别规则,标题分类器分别识别的待分类内容的标题属于预定内容类型的概率,正文文字识别规则,正文文字分类器分别识别的待分类正文文字的标题属于预定内容类型的概率,预定内容类型的第二图片分类器,识别的待分类内容的图片整体属于预定内容类型的概率。
可选的,融合模型的再一种形式可以是分类器,本发明实施例也可通过学习方法,训练出预定内容类型的融合分类器,该融合分类器可基于内容的各类素材的识别结果,确定待分类内容属于预定内容类型的概率;从而以待分类内容的各类素材的识别结果作为融合分类器的输入,确定出表示待分类内容属于预定内容类型的概率的融合结果,进而在待分类内容属于预定内容类型的概率大于概率阈值时,确定待分类内容的内容类型为预定内容类型,否则,确定待分类内容的内容类型不为预定内容类型。
本发明实施例可根据预定内容类型的各类素材识别模型,对标注为预定内容类型的目标内容样本的各类素材的识别结果,训练得到融合分类器;
如可将标题识别模型(标题识别规则和/或标题分类器),所识别的目标内容样本的标题属于预定内容类型的概率,正文文字识别模型(正文文字识别规则和/或正文文字分类器),所识别的目标内容样本的正文文字属于预定内容类型的概率,预定内容类型的第二图片分类器,所识别的目标内容样本的图片整体属于预定内容类型的概率,作为训练特征,训练得到融合分类器;
融合分类器的分类器形式包括但不限于:Linear regression、LogisticRegression、SVM、GBDT/GBRT等。
从而可将预定内容类型的各类素材识别模型,对待分类内容的各类素材的识别结果,作为融合分类器的输入,确定出待分类内容属于预定内容类型的概率;进而在待分类内容属于预定内容类型的概率大于概率阈值时,认为待分类内容的内容类型为预定内容类型;
可选的,融合分类器的形式可以表示为S=f(w1,s1),其中若f(·)为Linearregression形式,则与上述算术公式的融合模型的区别在于,此处的wi需要由训练中学习。
上文描述了预定内容类型的各类素材识别模型的构建过程,以及基于所构建的预定内容类型的各类素材识别模型,进行待分类内容是否为预定内容类型的分类流程。
在本发明实施例中,为实现预定内容类型的各类素材识别模型的训练,本发明实施例需要预先标注出属于预定内容类型的目标内容样本,将所标注的目标内容样本加入中训练样本集合,从而基于训练样本集合中的各目标内容样本的各类素材,相应的训练出预定内容类型的各类素材识别模型;
而现有技术中,目标内容样本一般需要由人工从海量的内容样本中标注出,这导致要获取大量的目标内容样本存在极大的困难,即很难通过人工标注的方式获取到大量的目标内容样本,为实现目标内容样本的大量标注,本发明实施例提供一种新的扩充目标内容样本的方式;
可选的,图7示出了本发明实施例提供的扩充目标内容样本的方法流程图,参照图7,该方法可以包括:
步骤S500、获取内容样本的评论数据,所述评论数据包括多条评论。
内容样本是待进行内容类型标注的任一条内容样本。
可选的,被标注为某一内容类型的内容样本,可用于训练该内容类型的各类素材识别模型;相应的,在本发明实施例中,如果内容样本被标注为预定内容类型的内容样本(即目标内容样本),则可用于实现预定内容类型的各类素材识别模型的训练;
区别于现有技术采用人工标注内容样本的内容类型的方式,本发明实施例可基于内容样本的评论数据,实现内容样本的内容类型的自动标注;
内容样本的评论数据可以认为是用户阅读内容样本后所发表的评论,一个内容样本的评论数据中所包含的评论的数量可以为多个;用户阅读内容样本后所发表的评论,可以表达用户阅读内容样本后的感受,因此利用内容样本的评论数据,实现内容样本的内容类型的自动标注,能够具有较高的准确性。
步骤S510、提取各评论的评论对象及评论内容。
可选的,对于内容样本的任一条评论,本发明实施例可根据文法或句法分析方式分析该评论,提取该评论的评论对象及评论内容,从而得到所述内容样本的各评论的评论对象及评论内容。
其中,文法分析方式是指对描述语言语法结构的形式规则进行分析的方式,句法分析方式是指对句子中词语语法功能进行分析的方式,如对于“我来晚了”这一句子,通过句法分析方式可以分析出“我”是主语,“来”是谓语,“晚了”是补语。
在利用文法或句法分析方式分析该评论,可得到包含该评论的评论对象及评论内容的分析结果,实现该评论的评论对象及评论内容的提取;例如以内容样本的一条评论为“小编为了博眼球,文不对题,成功把我骗进来了”为例,则可提取出评论对象“小编”,评论内容“文不对题”。
这里需要说明的是,利用文法或句法分析方式提取评论的评论对象及评论内容,仅是一种优选方式,其存在的优点是:利用文法或句法分析方式,提取评论的评论对象及评论内容,可以便捷高效的发现评论对象和评论内容是否存在依存关系,相比于基于文字字面的分析更为准确,如“小编真是处心积虑,成功的把我骗进来了”这一评论,基于文字字面的分析很难发现“小编”、“把我骗进来了”之间这种长距离依赖的依存关系,而利用文法或句法分析方式则可极为便捷高效的发现。
显然,利用文法或句法分析方式提取评论的评论对象及评论内容是作为一种优选方式存在的,本发明实施例也不排除其他的能够分析评论,提取评论对象及评论内容的方式,如基于语义分析从评论中提取评论对象及评论内容。
步骤S520、至少根据各评论的评论对象及评论内容,从所述多条评论中确定与预定内容类型对应的评论。
可选的,本发明实施例可预先构建预定内容类型对应的评论识别模型,通过该评论识别模型,至少根据内容样本的各评论的评论对象及评论内容,确定出内容样本的评论中与预定内容类型对应的评论;
可选的,该评论识别模型的形式可以是评论识别规则,和/或,与评论分类器(即可识别反映预定内容类型的评论的评论分类器)。
可选的,评论识别规则可以定义有与预定内容类型相应的评论对象以及评论关键词;与预定内容类型相应的评论关键词可通过评论词典的形式进行记录。
可选的,与预定内容类型相应的评论分类器可以预先训练得到,通过预先确定与预定内容类型相应的评论(即预定内容类型的内容的评论可以认为是,与预定内容类型相应的评论),将与预定内容类型相应的评论提取的评论对象,评论内容,评论内容中与评论关键词匹配的关键词,评论的句子长度等作为训练特征,训练出评论分类器。
步骤S530、若所述与预定内容类型对应的评论的数量,符合预定条件,将所述内容样本标注为属于预定内容类型的目标内容样本。
在确定出所述内容样本的评论中与预定内容类型对应的评论后,本发明实施例还可设置条件门限,以降低目标内容样本的自动标注可能造成的错误,基于内容样本的评论中所确定的与预定内容类型对应的评论的数量,可设置条件门限,只有在内容样本的评论中所确定的与预定内容类型对应的评论的数量,符合条件门限(即预定条件)时,才认为所述内容样本的大部分评论都评价所述内容样本属于预定内容类型,从而将所述内容样本标注为属于预定内容类型的目标内容样本;
可选的,预定条件可以是所述与预定内容类型对应的评论的数量,占所述内容样本的评论总数量的比例,达到比例阈值;可选的,进一步,为使得目标内容样本的自动标注更为准确,本发明实施例可仅对评论总数量达到数量阈值的内容样本进行上述,目标内容样本的自动标注处理,如所述内容样本的评论总数量达到数量阈值,且所述内容样本的评论中与预定内容类型对应的评论的数量,占所述内容样本的评论总数量的比例,达到比例阈值时,认为所述内容样本为属于预定内容类型的目标内容样本。
标注为属于预定内容类型的目标内容样本可放入到预定内容类型对应的训练数据集中,用于预定内容类型的各类素材识别模型的训练。
可选的,本发明实施例可基于预先构建的评论识别规则,实现属于预定内容类型的目标内容样本的扩充,图8示出了本发明实施例提供的扩充目标内容样本的另一方法流程图,图8所示方法可基于评论识别规则实现目标内容样本的自动标注,扩充属于预定内容类型的目标内容样本;参照图8,该方法可以包括:
步骤S600、获取内容样本的评论数据,所述评论数据包括多条评论。
步骤S610、提取各评论的评论对象及评论内容。
步骤S620、调取评论识别规则,将所述多条评论中,评论对象与所述评论识别规则描述的评论对象相匹配,且评论内容与所述评论识别规则对应的评论词典中记录的评论关键词相匹配的评论,确定为预定内容类型对应的评论。
对于预定内容类型的评论,本发明实施例可预先定义评论识别规则,通过评论识别规则对预定内容类型的评论的评论对象,以及评论关键词进行描述,其中评论关键词可通过所述评论识别规则对应的评论词典进行记录;
从而在基于评论识别规则确定与预定内容类型对应的评论时,对于内容样本的任一条评论,可判断该评论的评论对象与所述评论识别规则描述的评论对象是否匹配,且该评论的评论内容与所述评论识别规则对应的评论词典中记录的评论关键词是否匹配,只有在判断结果为是时,才认为该评论为与预定内容类型对应的评论,否则,该评论不为与预定内容类型对应的评论。
以预定内容类型为标题党为例,为确定属于标题党的内容样本,本发明实施例可定义与标题党对应的评论识别规则(即属于标题党的内容的评论的评论识别规则),该评论识别规则可以描述与标题党对应的评论的评论对象,以及与标题党对应的评论的评论词典,从而将内容样本的每一条的评论的评论对象和评论内容,分别与评论识别规则的评论对象和评论词典进行匹配;进而从内容样本的评论中,确定出评论对象与标题党的评论识别规则描述的评论对象相匹配,且评论内容与评论词典中记录的评论关键词相匹配的评论,从内容样本的评论中,确定出标题党对应的评论;
例如,对于“小编为了博眼球,文不对题,成功把我骗进来了”这一评论,可确定评论对象为“小编”与标题党对应的评论识别规则所描述的评论对象匹配,而“文不对题”为标题党对应的评论词典中的评论关键词,则可确定该评论为标题党对应的评论,即该评论为评价内容样本为标题党的评论。
步骤S630、若所述内容样本的评论总数量达到数量阈值,且预定内容类型对应的评论的数量,占所述评论总数量的比值达到比例阈值,将所述内容样本标注为属于预定内容类型的目标内容样本。
为使得目标内容样本的自动标注具有较高的准确性和可处理基础,本发明实施例可设置评论总数量达到数量阈值,且确定的预定内容类型对应的评论的数量,占所述评论总数量的比值达到比例阈值的预定条件。
进一步,评论词典中的评论关键词可基于确定为预定内容类型的内容的评论进行自动扩展,可选的,可通过类似半监督扩展的方式,基于确定为预定内容类型的内容的评论,实现评论词典中的评论关键词的扩展;
具体的,对于预定内容类型,本发明实施例可先设定种子评论关键词,先通过包含种子评论关键词的评论词典的评论识别规则,确定与预定内容类型对应的多条评论,将所确定的多条评论中出现次数达到预定次数的关键词,加入到评论词典中,对评论词典中的评论关键词进行扩展。
可选的,在另一种实现上,本发明实施例可基于预先训练的评论分类器,实现属于预定内容类型的目标内容样本的扩充,图9示出了本发明实施例提供的扩充目标内容样本的再一方法流程图,图9所示方法可基于评论识别规则实现目标内容样本的自动标注,扩充属于预定内容类型的目标内容样本;参照图9,该方法可以包括:
步骤S700、获取内容样本的评论数据,所述评论数据包括多条评论。
步骤S710、提取各评论的评论对象及评论内容。
步骤S720、对于任一条评论,至少将该评论的评论对象和评论内容作为评论特征,得到各评论的评论特征。
可选的,对于任一条评论,本发明实施例也可将评论的评论对象,评论内容,评论内容中与评论关键词匹配的关键词,和评论的句子长度作为评论的评论特征,以此得到各评论的评论特征;将评论的评论对象和评论内容作为评论特征仅是一种可选方式。
步骤S730、根据预先训练的评论分类器,和各评论的评论特征,确定所述多条评论中与预定内容类型对应的评论。
可选的,本发明实施例可将各评论的评论特征,分别的作为所述评论分类器的输入,得到评论分类器对各评论的识别结果,识别结果可以分为评论对应预定内容类型(即评论为预定内容类型的内容的评论),和不对应预定内容类型(即评论不为预定内容类型的内容的评论),从而从所述内容样本的多条评论中确定出与预定内容类型对应的评论。
步骤S740、若所述内容样本的评论总数量达到数量阈值,且预定内容类型对应的评论的数量,占所述评论总数量的比值达到比例阈值,将所述内容样本标注为属于预定内容类型的目标内容样本。
可选的,评论分类器,可基于预先标注的预定内容类型的内容的评论训练得到,在标注出(人工标注或以本发明实施例提供的方式自动标注)预定内容类型的内容的评论后,可提取各评论的评论对象及评论内容,至少将各评论的评论对象及评论内容作为训练特征(如可将各评论的评论对象、评论内容、评论内容中与评论关键词匹配的关键词,和评论的句子长度作为训练特征),训练得到评论分类器;
可选的,在训练得到评论分类器的过程中,本发明实施例可将预定内容类型的内容的各评论的评论对象及评论内容等训练特征,作为正样本训练特征,将非预定内容类型的内容的各评论的评论对象及评论内容等训练特征,作为负样本训练特征,以正样本训练特征和负样本训练特征,通过学习方法训练得到评论分类器。
上述描述的内容分类方法,基于多维度的素材,实现待分类内容的内容类型是否为预定内容类型的分类,可显著提升待分类内容的分类结果的准确性;下表1示出了在低俗类型的低质量内容分类上,本发明实施例提供的内容分类方法,与基于单一维度的素材的内容分类方式的分类结果准确度对比示意,可以看出本发明实施例的分类结果的准确性更高;
表1
表2示出了在营销类型的低质量内容分类上,本发明实施例提供的内容分类方法,与基于单一维度的素材的内容分类方式的分类结果准确度对比示意,也可以看出本发明实施例的分类结果的准确性更高;
表2
基于上文描述的内容分类方法,对待分类内容进行内容分类后,若待分类内容的内容类型为预定内容类型,则可认为待分类内容为设定的低质量内容,本发明实施例可对该待分类内容进行过滤或降低被召回的概率,对待分类内容进行过滤或推荐上的打压;而如果待分类内容的内容类型不为预定内容类型,则可认为待分类内容不为设定的低质量内容,可提升待分类内容的推荐概率;如图10所示,针对低质量内容类型,本发明实施例可采取过滤或推荐上的打压的策略,如图示向下箭头表示过滤或推荐上的打压的策略,针对非低质量内容类型,本发明实施例可提升待分类内容的推荐概率,如图示向上箭头表示推荐概率提升;值得注意的是,图10所示内容仅是示例的,不应对低质量内容类型和非低质量内容类型造成限制。
显然,上述方式虽然可以有效的过滤或打压低质量内容,但是存在的问题是:对于有些用户而言,某些类型的低质量内容该用户是乐意观看,或者,有意愿观看但评论是负向评论(比如惊悚的低质量内容,用户虽然很愿意观看,但是会评论过于惊悚),对于这些用户如果完全的进行低质量内容的过滤或打压,将使得内容的推荐缺少个性化的推荐能力,导致推荐的精度较低。
基于此,本发明实施例除可考虑过滤或打压低质量内容外,还提供另一种内容推荐机制;可选的,图11示出了本发明实施例提供的内容推荐方法的流程图,该方法可应用于服务器,如内容推荐应用的服务器;参照图11,该方法可以包括:
步骤S800、若待分类内容的内容类型为预定内容类型,根据当前用户的兴趣画像,判断当前用户对预定内容类型的内容是否感兴趣。
可选的,当前用户的兴趣画像可以根据用户的内容历史浏览记录确定,当前用户的兴趣画像可反映当前感兴趣的内容类型。
当前用户可以认为是当前使用内容推荐应用的任一用户,本发明实施例需对当前用户进行内容的推荐,而其中的一个任务是确定待分类内容为预定内容类型后,是否将该待分类内容推荐给当前用户。
步骤S810、如果当前用户对预定内容类型的内容感兴趣,根据当前用户的用户兴趣向量与所述待分类内容的相似度,确定待分类内容的推荐概率。
可选的,根据当前用户的兴趣画像,确定预定内容类型为用户感兴趣的内容类型后,本发明实施例可利用当前用户的用户兴趣向量,以及待分类内容,计算用户兴趣向量与待分类内容的相似度,以该相似度确定待分类内容在推荐时的推荐概率;
需要说明的是,本发明实施例在内容召回和推荐算法中,可用到相似度作为特征,由于相似度较高,则点击率越高,内容的推荐概率可提高,而相似度降低,则点击率越低,内容的推荐概率可降低。
可选的,本发明实施例可确定当前用户浏览、收藏、喜欢过的各内容,将这些内容中各个低质量内容分别构成一个向量,所有向量按照时间衰减,加权平均后得到用户兴趣向量。
步骤S820、以所述推荐概率进行待分类内容至当前用户的推荐。
若以所述推荐概率,确定当前需将待分类内容推荐给当前用户,则虽然用户的兴趣画像反映当前用户对预定内容类型感兴趣,但也可能对于预定内容类型存在负向评价;因此为使得当前用户有选择的查看待分类内容,本发明实施例可基于当前用户对预定内容类型的评价,确定待分类内容推荐至当前用户后的展示策略;
可选的,如果当前用户对预定内容类型的内容感兴趣,但当前用户对预定内容类型的评论存在负向评论,则可将待分类内容中属于预定内容类型的素材进行屏蔽,并提示当前用户待分类内容中存在预定内容类型的素材;如图12所示,屏蔽可以是将内容列表页(展示有各内容的概要)中展示的预定内容类型的素材进行屏蔽,并给出提示;显然,屏蔽也可以是在具体的待分类内容中进行预定内容类型的素材的屏蔽;
在当前用户同意展示待分类内容中的预定内容类型的素材后,再取消对预定内容类型的素材的屏蔽,使得用户可有选择,有准备的进行预定内容类型的素材的观看,提示用户的内容阅读体验。
可以理解的是,对于特定类别的低质量内容,比如惊悚,发现当前用户虽然很愿意点击,但是存在内容过于惊悚的评论。此时在将体惊悚内容推荐给用户时,会先对内容中的惊悚素材(如惊悚图片)先进行屏蔽,并给出提示和警告,用户如果同意(如用户点击了被屏蔽的惊悚素材)观看被屏蔽的惊悚素材,再取消惊悚素材的屏蔽,展示出惊悚素材。这样的做法,可根据用户的兴趣,在最小化用户主动反馈的前提下,进行有针对性的低质量内容的过滤,提升用户体验,且通过用户浏览、评论等交互,提升对用户兴趣判断的准确性,潜意识上引导用户更多的使用内容推荐应用。
可选的,另一方面,如果当前用户对预定内容类型的内容感兴趣,且当前用户对预定内容类型的评论不存在负向评论,则可直接将待分类内容展示给当前用户。
显然,如果当前用户对预定内容类型的内容不感兴趣,则可针对当前用户,依上文描述对待分类内容进行过滤或打压。
下面对本发明实施例提供的内容分类装置进行介绍,下文描述的内容分类装置可以认为是,服务器为实现本发明实施例提供的内容分类方法所设置的程序模块。下文描述的内容分类装置可与上文描述的内容分类方法相互对应参照。
图13为本发明实施例提供的内容分类装置的结构框图,该装置可应用于服务器,参照图13,该内容分类装置可以包括:
待分类内容获取模块100,用于获取待分类内容;
素材特征提取模块200,用于提取待分类内容的各类素材的素材特征;
素材识别结果确定模块300,用于根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
融合模块400,用于将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
可选的,融合模块400,用于将所述各类素材的识别结果进行融合,得到融合结果,具体包括:
根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果。
可选的,所述融合模型可以包括:融合分类器;所述融合分类器根据所述各类素材识别模型,对目标内容样本的各类素材的识别结果训练得到;
融合模块400,用于根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果具体包括:
根据所述融合分类器和所述各类素材的识别结果,确定待分类内容属于预定内容类型的概率;
融合模块400,用于根据融合结果确定待分类内容的内容类型是否为预定内容类型,具体包括:
若待分类内容属于预定内容类型的概率大于概率阈值,确定待分类内容的内容类型为预定内容类型。
可选的,所述融合模型可以包括:融合规则;所述融合规则描述有预定内容类型下,各类素材的识别结果的至少一种目标条件;
融合模块400,用于根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果具体包括:
判断所述各类素材的识别结果,与融合规则描述的预定内容类型下,各类素材的识别结果的任一种目标条件是否匹配;
融合模块400,用于根据融合结果确定待分类内容的内容类型是否为预定内容类型,具体包括:
若所述各类素材的识别结果,与任一种目标条件相匹配,确定待分类内容的内容类型为预定内容类型。
可选的,所述融合模型可以包括:线性插值公式;
融合模块400,用于根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果具体包括:
根据线性插值公式,将所述各类素材的识别结果,分别与预定内容类型的相应类素材识别模型的权重相乘,再将各相乘结果相加,得到待分类内容属于预定内容类型的概率;
融合模块400,用于根据融合结果确定待分类内容的内容类型是否为预定内容类型,具体包括:
若待分类内容属于预定内容类型的概率大于概率阈值,确定待分类内容的内容类型为预定内容类型。
可选的,素材识别结果确定模块300,用于根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果,具体包括:
根据标题识别模型,识别待分类内容的标题特征,得到待分类内容的标题的识别结果;
及,根据正文文字识别模型,识别待分类内容的正文文字特征,得到待分类内容的正文文字的识别结果;
及,根据图片识别模型,识别待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率,根据所述各图片属于预定内容类型的概率,确定待分类内容的图片整体属于预定内容类型的概率,得到待分类内容的图片识别结果。
可选的,所述标题识别模型包括:标题分类器,和/或,标题识别规则;其中,所述标题识别规则包括:预定内容类型的话题对象词典中记录的标题的目标话题对象,预定内容类型的上下文词典中记录的标题的目标上下文词,以及,预定内容类型的标题中目标话题对象和/或目标上下词应达到的数量;
可选的,素材识别结果确定模块300,用于根据标题识别模型,识别待分类内容的标题特征,得到待分类内容的标题的识别结果,具体包括:
根据所述标题分类器和待分类内容的标题特征,确定所述待分类内容的标题的识别结果;所述标题分类器根据标注为预定内容类型的目标内容样本的标题特征训练得到;
和/或,根据待分类内容的标题的话题对象与目标话题对象相匹配的数量,以及待分类内容的标题的上下文词与目标上下文词相匹配的数量,确定待分类内容的标题的识别结果。
可选的,所述正文文字识别模型可以包括:正文文字分类器,和/或,正文文字识别规则;其中,所述正文文字识别规则包括:预定内容类型的正文文字的目标关键词,以及预定内容类型的正文文字中目标关键词应达到的数量;
可选的,素材识别结果确定模块300,用于根据正文文字识别模型,识别待分类内容的正文文字特征,得到待分类内容的正文文字的识别结果,具体包括:
根据所述正文文字分类器,和待分类内容的正文文字特征,确定待分类内容的正文文字的识别结果;所述正文文字分类器根据标注为预定内容类型的目标内容样本的正文文字特征训练得到;
和/或,根据待分类内容的正文文字的关键词,与所述目标关键词相匹配的数量,确定待分类内容的正文文字的识别结果。
可选的,所述图片识别模型可以包括:第一图片分类器和第二图片分类器;
可选的,素材识别结果确定模块300,用于根据图片识别模型,识别待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率,具体包括:
根据第一图片分类器,与待分类内容的各图片的图片特征,识别待分类内容的各图片属于预定内容类型的概率;
素材识别结果确定模块300,用于根据所述各图片属于预定内容类型的概率,确定待分类内容的图片整体属于预定内容类型的概率,具体包括:
根据待分类内容的各图片属于预定内容类型的概率,提取待分类内容的图片整体特征;所述图片整体特征包括:待分类内容中前设定张数的图片属于预定内容类型的概率的平均值,待分类内容中被识别为预定内容类型的概率低于第一概率值的图片的张数,概率介于第一概率值和第二概率值之间的图片的张数,概率不小于第二概率值的图片的张数;
根据第二图片分类器和所述图片整体特征,确定待分类内容的图片整体属于预定内容类型的概率。
可选的,图14示出了本发明实施例提供的内容分类装置的另一结构框图,结合图13和图14所示,该内容分类装置还可以包括:
目标内容样本标注模块500,用于获取内容样本的评论数据,所述评论数据包括多条评论;提取各评论的评论对象及评论内容;至少根据各评论的评论对象及评论内容,从所述多条评论中确定与预定内容类型对应的评论;若所述与预定内容类型对应的评论的数量,符合预定条件,将所述内容样本标注为属于预定内容类型的目标内容样本。
可选的,目标内容样本标注模块500,用于至少根据各评论的评论对象及评论内容,从所述多条评论中确定与预定内容类型对应的评论,具体包括:
调取评论识别规则,将所述多条评论中,评论对象与所述评论识别规则描述的评论对象相匹配,且评论内容与所述评论识别规则对应的评论词典中记录的评论关键词相匹配的评论,确定为预定内容类型对应的评论;
或,对于任一条评论,至少将该评论的评论对象和评论内容作为评论特征,得到各评论的评论特征;根据预先训练的评论分类器,和各评论的评论特征,确定所述多条评论中与预定内容类型对应的评论;所述评论分类器根据预先标注的预定内容类型的内容的评论训练得到。
可选的,图15示出了本发明实施例提供的内容分类装置的再一结构框图,结合图13和图15所示,该内容分类装置还可以包括:
内容推荐控制模块600,用于若待分类内容的内容类型为预定内容类型,根据当前用户的兴趣画像,判断当前用户对预定内容类型的内容是否感兴趣;如果当前用户对预定内容类型的内容感兴趣,根据当前用户的用户兴趣向量与所述待分类内容的相似度,确定待分类内容的推荐概率;以所述推荐概率进行待分类内容至当前用户的推荐。
内容展示控制模块700,用于在将所述待分类内容推荐至当前用户时,若当前用户对预定内容类型的评论存在负向评论,将待分类内容中属于预定内容类型的素材进行屏蔽,并在当前用户同意展示待分类内容中的预定内容类型的素材后,取消对预定内容类型的素材的屏蔽。
可选的,图15中内容展示控制700可以是可选的。
本发明实施例还提供一种服务器,该服务器可装载有程序,该程序可实现上述程序模块相应的功能。可选的,图16示出了服务器的硬件结构框图,包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器3存储有适于处理器1执行的程序,所述程序用于:
获取待分类内容;
提取待分类内容的各类素材的素材特征;
根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
可选的,所述程序的功能细化和扩展功能可参照上述相应部分描述。
本发明实施例还可提供一种存储介质,该存储介质可存储有可执行的程序,所述程序用于:
获取待分类内容;
提取待分类内容的各类素材的素材特征;
根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
可选的,所述程序的功能细化和扩展功能可参照上述相应部分描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种内容分类方法,其特征在于,包括:
获取待分类内容;
提取待分类内容的各类素材的素材特征,根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
2.根据权利要求1所述的内容分类方法,其特征在于,所述将所述各类素材的识别结果进行融合,得到融合结果包括:
根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果。
3.根据权利要求2所述的内容分类方法,其特征在于,所述融合模型包括:融合分类器;所述融合分类器根据所述各类素材识别模型对目标内容样本的各类素材的识别结果训练得到;
所述根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果包括:
根据所述融合分类器和所述各类素材的识别结果,确定待分类内容属于预定内容类型的概率;
所述根据融合结果确定待分类内容的内容类型包括:
若待分类内容属于预定内容类型的概率大于概率阈值,确定待分类内容的内容类型为预定内容类型。
4.根据权利要求2所述的内容分类方法,其特征在于,所述融合模型包括:融合规则;所述融合规则描述有预定内容类型下,各类素材的识别结果的至少一种目标条件;
所述根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果包括:
判断所述各类素材的识别结果,与融合规则描述的预定内容类型下,各类素材的识别结果的任一种目标条件是否匹配;
所述根据融合结果确定待分类内容的内容类型包括:
若所述各类素材的识别结果,与任一种目标条件相匹配,确定待分类内容的内容类型为预定内容类型。
5.根据权利要求2所述的内容分类方法,其特征在于,所述融合模型包括:线性插值公式;所述根据预先构建的融合模型,将所述各类素材的识别结果进行融合,得到融合结果包括:
根据线性插值公式,将所述各类素材的识别结果,分别与预定内容类型的相应类素材识别模型的权重相乘,再将各相乘结果相加,得到待分类内容属于预定内容类型的概率。
6.根据权利要求1-5任一项所述的内容分类方法,其特征在于,所述根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果包括:
根据标题识别模型,识别待分类内容的标题特征,得到待分类内容的标题的识别结果;
及,根据正文文字识别模型,识别待分类内容的正文文字特征,得到待分类内容的正文文字的识别结果;
及,根据图片识别模型,识别待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率,根据所述各图片属于预定内容类型的概率,确定待分类内容的图片整体属于预定内容类型的概率,得到待分类内容的图片识别结果。
7.根据权利要求6所述的内容分类方法,其特征在于,所述标题识别模型包括:标题分类器,和/或,标题识别规则;其中,所述标题识别规则包括:话题对象词典中记录的标题的目标话题对象,上下文词典中记录的标题的目标上下文词,以及,标题中目标话题对象和/或目标上下词应达到的数量;
所述根据标题识别模型,识别待分类内容的标题特征,得到待分类内容的标题的识别结果包括:
根据所述标题分类器和待分类内容的标题特征,确定所述待分类内容的标题的识别结果;所述标题分类器根据目标内容样本的标题特征训练得到;
和/或,根据待分类内容的标题的话题对象与目标话题对象相匹配的数量,以及待分类内容的标题的上下文词与目标上下文词相匹配的数量,确定待分类内容的标题的识别结果。
8.根据权利要求6所述的内容分类方法,其特征在于,所述正文文字识别模型包括:正文文字分类器,和/或,正文文字识别规则;其中,所述正文文字识别规则包括:正文文字的目标关键词,以及正文文字中目标关键词应达到的数量;
所述根据正文文字识别模型,识别待分类内容的正文文字特征,得到待分类内容的正文文字的识别结果包括:
根据所述正文文字分类器,和待分类内容的正文文字特征,确定待分类内容的正文文字的识别结果;所述正文文字分类器根据目标内容样本的正文文字特征训练得到;
和/或,根据待分类内容的正文文字的关键词,与所述目标关键词相匹配的数量,确定待分类内容的正文文字的识别结果。
9.根据权利要求6所述的内容分类方法,其特征在于,所述图片识别模型包括:第一图片分类器和第二图片分类器;
所述根据图片识别模型,识别待分类内容的各图片的图片特征,确定待分类内容的各图片属于预定内容类型的概率包括:
根据第一图片分类器,与待分类内容的各图片的图片特征,识别待分类内容的各图片属于预定内容类型的概率;
所述根据所述各图片属于预定内容类型的概率,确定待分类内容的图片整体属于预定内容类型的概率包括:
根据待分类内容的各图片属于预定内容类型的概率,提取待分类内容的图片整体特征;所述图片整体特征包括:待分类内容中前设定张数的图片属于预定内容类型的概率的平均值,待分类内容中被识别为预定内容类型的概率低于第一概率值的图片的张数,概率介于第一概率值和第二概率值之间的图片的张数,概率不小于第二概率值的图片的张数;
根据第二图片分类器和所述图片整体特征,确定待分类内容的图片整体属于预定内容类型的概率。
10.根据权利要求1所述的内容分类方法,其特征在于,还包括:
获取内容样本的评论数据,所述评论数据包括多条评论;
提取各评论的评论对象及评论内容;
至少根据各评论的评论对象及评论内容,从所述多条评论中确定与预定内容类型对应的评论;
若所述与预定内容类型对应的评论的数量,符合预定条件,将所述内容样本标注为属于预定内容类型的目标内容样本。
11.根据权利要求10所述的内容分类方法,其特征在于,所述至少根据各评论的评论对象及评论内容,从所述多条评论中确定与预定内容类型对应的评论包括:
调取评论识别规则,将所述多条评论中,评论对象与所述评论识别规则描述的评论对象相匹配,且评论内容与所述评论识别规则对应的评论词典中记录的评论关键词相匹配的评论,确定为预定内容类型对应的评论;
或,对于任一条评论,至少将该评论的评论对象和评论内容作为评论特征,得到各评论的评论特征;根据预先训练的评论分类器,和各评论的评论特征,确定所述多条评论中与预定内容类型对应的评论;所述评论分类器根据预先标注的预定内容类型的内容的评论训练得到。
12.根据权利要求1所述的内容分类方法,其特征在于,还包括:
若待分类内容的内容类型为预定内容类型,根据当前用户的兴趣画像,判断当前用户对预定内容类型的内容是否感兴趣;
如果当前用户对预定内容类型的内容感兴趣,根据当前用户的用户兴趣向量与所述待分类内容的相似度,确定待分类内容的推荐概率;
以所述推荐概率进行待分类内容至当前用户的推荐。
13.根据权利要求12所述的内容分类方法,其特征在于,还包括:
在将所述待分类内容推荐至当前用户时,若当前用户对预定内容类型的评论存在负向评论,将待分类内容中属于预定内容类型的素材进行屏蔽,并在当前用户同意展示待分类内容中的预定内容类型的素材后,取消对预定内容类型的素材的屏蔽。
14.一种内容分类装置,其特征在于,包括:
待分类内容获取模块,用于获取待分类内容;
素材特征提取模块,用于提取待分类内容的各类素材的素材特征;
素材识别结果确定模块,用于根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
融合模块,用于将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
15.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有适于所述处理器执行的程序,所述程序用于:
获取待分类内容;
提取待分类内容的各类素材的素材特征,根据预构建的各类素材识别模型,分别识别所述各类素材的素材特征,得到待分类内容的各类素材的识别结果;其中一类素材的识别结果表示该类素材属于预定内容类型的概率;
将所述各类素材的识别结果进行融合,得到融合结果,根据融合结果确定待分类内容的内容类型。
CN201710867797.9A 2017-09-22 2017-09-22 一种内容分类方法、装置及服务器 Active CN110069625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710867797.9A CN110069625B (zh) 2017-09-22 2017-09-22 一种内容分类方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710867797.9A CN110069625B (zh) 2017-09-22 2017-09-22 一种内容分类方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN110069625A true CN110069625A (zh) 2019-07-30
CN110069625B CN110069625B (zh) 2022-09-23

Family

ID=67364449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710867797.9A Active CN110069625B (zh) 2017-09-22 2017-09-22 一种内容分类方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN110069625B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111222500A (zh) * 2020-04-24 2020-06-02 腾讯科技(深圳)有限公司 一种标签提取方法及装置
CN111460267A (zh) * 2020-04-01 2020-07-28 腾讯科技(深圳)有限公司 对象识别方法、装置和系统
CN111738808A (zh) * 2020-07-24 2020-10-02 浙江口碑网络技术有限公司 数据处理方法、装置及设备
CN112256966A (zh) * 2020-10-23 2021-01-22 北京交通大学 基于半监督因子分解机的物品推荐方法
CN112966173A (zh) * 2019-12-13 2021-06-15 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
CN113239200A (zh) * 2021-05-20 2021-08-10 东北农业大学 内容识别分类方法、装置、系统及存储介质
CN113761359A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 数据包推荐方法、装置、电子设备和存储介质
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103279549A (zh) * 2013-06-07 2013-09-04 苏州大学 一种目标对象的目标数据的获取方法及装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统
CN105868686A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 视频分类方法及装置
CN105912546A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 一种推荐信息的处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103279549A (zh) * 2013-06-07 2013-09-04 苏州大学 一种目标对象的目标数据的获取方法及装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统
CN105912546A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 一种推荐信息的处理方法及装置
CN105868686A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 视频分类方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598046B (zh) * 2019-09-17 2021-03-02 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN112966173A (zh) * 2019-12-13 2021-06-15 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
CN112966173B (zh) * 2019-12-13 2024-02-27 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
CN111460267A (zh) * 2020-04-01 2020-07-28 腾讯科技(深圳)有限公司 对象识别方法、装置和系统
CN111460267B (zh) * 2020-04-01 2023-04-07 腾讯科技(深圳)有限公司 对象识别方法、装置和系统
CN111222500A (zh) * 2020-04-24 2020-06-02 腾讯科技(深圳)有限公司 一种标签提取方法及装置
CN111738808B (zh) * 2020-07-24 2021-04-13 浙江口碑网络技术有限公司 数据处理方法、装置及设备
CN111738808A (zh) * 2020-07-24 2020-10-02 浙江口碑网络技术有限公司 数据处理方法、装置及设备
CN112256966A (zh) * 2020-10-23 2021-01-22 北京交通大学 基于半监督因子分解机的物品推荐方法
CN112256966B (zh) * 2020-10-23 2023-09-12 北京交通大学 基于半监督因子分解机的物品推荐方法
CN113761359A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 数据包推荐方法、装置、电子设备和存储介质
CN113761359B (zh) * 2021-05-13 2024-02-02 腾讯科技(深圳)有限公司 数据包推荐方法、装置、电子设备和存储介质
CN113239200A (zh) * 2021-05-20 2021-08-10 东北农业大学 内容识别分类方法、装置、系统及存储介质
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN110069625B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110069625A (zh) 一种内容分类方法、装置及服务器
Kong et al. Photo aesthetics ranking network with attributes and content adaptation
Tso-Sutter et al. Tag-aware recommender systems by fusion of collaborative filtering algorithms
CN107016026B (zh) 一种用户标签确定、信息推送方法和设备
CN108009228A (zh) 一种内容标签的设置方法、装置及存储介质
CN102262647B (zh) 信息处理装置、信息处理方法和程序
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
CN110428298A (zh) 一种店铺推荐方法、装置及设备
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
TW201905736A (zh) 資訊推送方法及系統
US20130035996A1 (en) Social advertising technology (so-ad-tec) system and method for advertising for and in documents, and other systems and methods for accessing, structuring, and evaluating documents
CN108885624A (zh) 信息推荐系统及方法
CN104199822A (zh) 一种识别搜索对应的需求分类的方法和系统
CN111309936A (zh) 一种电影用户画像的构建方法
CN106919575A (zh) 应用程序搜索方法及装置
Kaur et al. A comprehensive keyword analysis of online privacy policies
Vakulenko et al. Enriching iTunes App Store Categories via Topic Modeling.
CN108563680A (zh) 资源推荐方法及装置
CN110163703A (zh) 一种分类模型建立方法、文案推送方法和服务器
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
CN106383857A (zh) 一种信息处理方法及电子设备
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221207

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.