CN111008329A

CN111008329A - 基于内容分类的页面内容推荐方法及装置

Info

Publication number: CN111008329A
Application number: CN201911157170.XA
Authority: CN
Inventors: 陈方毅; 黄益聪
Original assignee: Xiamen Meishao Co Ltd
Current assignee: Xiamen Meishao Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-14

Abstract

本发明公开了基于内容分类的页面内容推荐方法及装置。涉及内容推荐领域，其中，方法通过获取内容池中多项待分类内容，对待分类内容进行内容识别，将待分类内容划分成：文本内容和视频图像内容，然后根据内容识别的结果，选择对应的内容分类模型对待分类内容进行内容分类得到待推荐内容。通过控制源头，在内容发布之前就对内容进行识别并准确过滤分类，将正常内容上线曝光给用户，而低质内容将被筛选过滤不曝光给用户，避免如标题党、擦边或者低俗的低质量内容在平台上线，避免用户因为博眼球的操作点击阅读内容，降低用户体验的问题，从而提高平台内容质量、用户推荐内容质量和转化率，保持平台用户的粘性。

Description

基于内容分类的页面内容推荐方法及装置

技术领域

本发明涉及内容推荐算法领域，尤其是一种基于内容分类的页面内容推荐方法及装置。

背景技术

随着网络发展，生活中充斥着各种图文资讯信息，媒体内容的种类越来越多，如视频内容、新闻资讯内容、小说等，同时随着平台用户增多，用户推送的文章也五花八门越来越多，如何在注意力稀缺的现实中吸引用户关注推送的内容，是值得研究的课题。但是一些文章的发布者为了吸引流量，发布标题党、擦边或者低俗的内容，这些内容因为博眼球吸引用户点击获得了更多的曝光推荐量，用户虽然点击阅读了内容，但是并没有获得很好的用户体验，长此以往会造成平台内容低俗化，导致用户大量流失，因此需要提出一种能够对平台发布的内容进行过滤分类，去除低俗标题党等低质量内容，提高用户推荐内容的质量和转化率的基于内容分类的页面内容推荐方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的目的是提供一种能够对平台发布的内容进行过滤分类，去除低俗标题党等低质量内容，提高用户推荐内容的质量和转化率的基于内容分类的页面内容推荐方法。

本发明实施例所采用的技术方案是：

第一方面，本发明实施例提供一种基于内容分类的页面内容推荐方法，包括：

获取内容池中多项待分类内容；

对所述待分类内容进行内容识别，所述内容识别的结果包括：文本内容和视频图像内容；

根据所述内容识别的结果，选择对应的内容分类模型对所述待分类内容进行内容分类得到待推荐内容，所述内容分类模型包括：文本分类模型和视频图像分类模型。

进一步地，所述文本分类模型为长短期记忆神经网络分类器或BERT模型。

进一步地，构建所述文本分类模型的过程具体为：

获取所述文本分类模型的文本训练样本集及对应的分类标签；

对所述文本训练样本集进行文本分词得到多个特征词并计算所述特征词的词向量；

根据所述词向量生成文档模型；

将所述文档模型和所述分类标签输入到所述文本分类模型中进行模型参数训练。

进一步地，还包括生成词向量之前进行文本预处理。

进一步地，所述视频图像分类模型为残差神经网络。

进一步地，构建所述视频图像分类模型的过程具体为：

收集图像样本并进行图像分类标注；

对所述图像样本进行样本扩展得到图像样本；

根据所述图像样本生成图像训练样本集；

将所述图像训练样本集和所述图像分类标注输入到所述视频图像分类模型中进行模型参数训练；

当所述视频图像内容的内容为视频时，通过截取所述视频的关键帧图像作为图像样本。

进一步地，所述样本扩展包括：平移、翻转、剪切、缩放。

第二方面，本发明实施例提供一种基于内容分类的页面内容推荐装置，包括：

获取待分类内容模块：用于获取内容池中多项待分类内容；

内容识别模块：用于对所述待分类内容进行内容识别，得到为文本内容或视频图像内容的内容识别结果；

内容分类模块：用于根据所述内容识别结果，选择对应的内容分类模型对所述待分类内容进行内容分类得到待推荐内容，所述内容分类模型包括：与文本内容对应的文本分类模型和与视频图像内容对应的视频图像分类模型。

第三方面，本发明实施例提供一种一种基于内容分类的页面内容推荐设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明实施例的有益效果是：

本发明实施例通过获取内容池中多项待分类内容，对待分类内容进行内容识别，将待分类内容划分成：文本内容和视频图像内容，然后根据内容识别的结果，选择对应的内容分类模型对待分类内容进行内容分类得到待推荐内容，其中内容分类模型包括：文本分类模型和视频图像分类模型。通过控制源头，在内容发布之前就对内容进行识别并准确过滤分类，将正常内容上线曝光给用户，而低质内容将被筛选过滤不曝光给用户，避免如标题党、擦边或者低俗的低质量内容在平台上线，避免用户因为博眼球的操作点击阅读内容，降低用户体验的问题，从而提高平台内容质量、用户推荐内容质量和转化率，保持平台用户的粘性。

可广泛应用于需要进行内容分类和内容推荐的领域。

附图说明

图1是本发明中基于内容分类的页面内容推荐方法的一具体实施例的实现流程图；

图2是本发明中基于内容分类的页面内容推荐方法的一具体实施例的实施方式示意图；

图3是本发明中基于内容分类的页面内容推荐装置的一具体实施例的结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一：

本发明实施例一提供一种基于内容分类的页面内容推荐方法，图1为本发明实施例提供的基于内容分类的页面内容推荐方法的实现流程图，如图1所示，该方法包括以下步骤：

S1：获取内容池中多项待分类内容，例如平台上待上线的内容。

S2：对待分类内容进行内容识别，得到内容识别结果，内容识别结果为文本内容或视频图像内容。

S3：根据内容识别的结果，选择对应的内容分类模型对待分类内容进行内容分类得到待推荐内容，具体的内容分类模型包括：文本分类模型和视频图像分类模型，即通过文本分类模型对文本内容进行分类，通过视频图像分类模型对视频图像内容进行分类，这里分类结果可选的是质量分类，如正常内容、优质内容和低品质内容等，可以根据实际的分类需求进行标签标注。

具体的，步骤S3中，文本分类模型为长短期记忆神经网络分类器或BERT模型，这两种模型都常用于文本分类。

长短期记忆神经网络分类器表示为：LSTM(Long short term memory)长短期记忆神经网络模型，其为循环神经网络的变形结构，即在普通RNN基础上，在隐藏层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐藏层各神经单元间传递信息时通过几个可控门(遗忘门、输入门、候选门、输出门)，可以控制前一时刻信息和当前信息的记忆和遗忘程度，从而使RNN网络具备了长期记忆功能，对于RNN的实际应用，有巨大作用。

BERT模型的全称是：Bidirectional Encoder Representations fromTransformer，BERT模型的目标是Google开发利用大规模无标注语料训练、获得文本的包含丰富语义信息的模型，即：根据文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。BERT模型的主要输入是文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是文本中各个字/ 词融合了全文语义信息后的向量表示。

构建文本分类模型的过程具体为：

S311：获取文本分类模型的文本训练样本集及对应的分类标签。

即获取大量文本内容作为文本分类模型的文本训练样本集，通过训练样本集拟合去寻找文本分类模型的初始参数，通过训练数据集和反向传播算法去每个神经元找到最优的模型权重。分类标签为一种先验信息，即通过人工标注的方式将文本内容进行分类标签标注，例如：正常内容、优质内容和低品质内容等。

S312：对文本训练样本集进行文本分词得到多个特征词并计算特征词的词向量。

本实施例中，进行文本分词的算法可选的包括：jieba分词算法或word2vec分词算法，但是并不限定文本分词算法，凡是能够实现文本分词的算法均可以应用在本实施例中。

进一步地，本实施例通过文本分词得到每一个训练样本的多个特征词，对其进行文本预处理，文本预处理即文本清洗，包括：去除链接地址、去除停用词、去除低频词、去除标点符号或空白符等无效关键词，用于提高后续计算的准确度。

然后将特征词转化为词向量，本实施例中可选的通过词嵌入(Word Embedding)方式将特征词映射到向量空间里，并用词向量来表示，基本思想是把每个关键词表征为实数向量(每个实数都对应着一个特征，可以是和其他关键词之间的联系)，将相似的关键词分组映射到向量空间的不同部分。

S313：根据词向量生成文档模型，具体的文档模型即每一个文本样本的词向量组成的句向量，因此每个文本样本对应一个文档模型。

S314：将文档模型和分类标签输入到文本分类模型中进行模型参数训练。其中，模型参数训练即调整文本分类模型网络隐藏节点的权重，利用提前标注的文本内容分类标签，通过模型训练调整模型参数，去匹配人工标注的分类标签，从而调整隐藏节点的权重。

S315：进一步地，生成文本验证样本集和文本测试样本集对文本分类模型进行参数调优及验证。其中，文本训练样本集用于训练模型参数，文本验证样本集用于对模型参数进行调优，文本测试样本集用于对模型参数进行验证。

如图2所示，为本实施例文本分类的一种具体实施方式示意图。从图中可以看出，包括特征提取模块和文本分类模型，特征提取模块包括文本输入层、词向量层和文档模型层，文本分类模型包括：256个输入节点、128个隐藏节点和一个输出节点。

具体的文本分类流程为：

1)将原始文本样本进行文本分词，得到特征词序列；

2)将特征词序列输入到词向量层，输出对应的词向量；

3)根据词向量得到对应的文档模型；

4)将文档模型输入到文本分类模型中，输出节点输出分类标签；

5)根据先验的人工标注分类标签与输出的分类标签进行对比，调整隐藏节点的权重。

另外，本实施例的文本分类模型的激活函数可选sigmoid函数或者tanh函数。

本实施例可根据负样本中特征词出现的位置与频率通过随机森林决策树模型判别文本内容是否属于标题党或低质内容。

上述为待分类内容为文本内容时的文本分类过程，下面介绍当待分类内容为视频图文内容时的视频图像分类过程。

具体的，步骤S3中视频图像分类模型为残差神经网络，残差神经网络就是一种为了解决网络加深梯度消失现象而提出的神经网络结构，本实施例可选的是ResNet 50网络框架， ResNet即共50层的残差神经网络，其中没有需要训练的参数的层，比如池化(pooling layer) 层不参与计数，包含了恒等块(Identity block)和卷积块(convolutional block)2种结构等，其具体的结构在此不做赘述。

本实施例中构建视频图像分类模型的过程具体为：

S321：收集图像样本并进行图像分类标注，当视频图像内容的内容为视频时，通过截取视频的关键帧图像作为图像样本，例如截取视频开始、中间、结束三个阶段的若干图像作为该视频内容的图像样本。

S322：对图像样本进行样本扩展得到图像样本，样本扩展的方法包括：平移、翻转、剪切、缩放等。

S323：根据图像样本生成图像训练样本集。

S324：将图像训练样本集和图像分类标注输入到视频图像分类模型中进行模型参数训练，与文本分类模型类似，模型参数训练即调整视频图像分类模型网络节点的权重，利用提前标注得到的图像分类标签，通过模型训练调整模型参数，去匹配人工标注的分类标签，从而调整节点的权重。

S325：进一步地，生成图像验证样本集和图像测试样本集对视频图像分类模型进行参数调优及验证。其中，图像训练样本集用于训练模型参数，图像验证样本集用于对模型参数进行调优，图像测试样本集用于对模型参数进行验证。

根据内容分类模型再待分类内容中筛选过滤出待推荐给用户的正常或优质内容。

本实施例通过获取内容池中多项待分类内容，对待分类内容进行内容识别，将待分类内容划分成：文本内容和视频图像内容，然后根据内容识别的结果，选择对应的内容分类模型对待分类内容进行内容分类得到待推荐内容，其中内容分类模型包括：文本分类模型和视频图像分类模型。

实施例二：

本实施例提供一种基于内容分类的页面内容推荐装置，用于执行如实施例一所述的方法。如图3所示，为本实施例的基于内容分类的页面内容推荐装置结构框图，包括：

获取待分类内容模块10：用于获取内容池中多项待分类内容；

内容识别模块20：用于对所述待分类内容进行内容识别，得到为文本内容或视频图像内容的内容识别结果；

内容分类模块30：用于根据所述内容识别结果，选择对应的内容分类模型对所述待分类内容进行内容分类得到待推荐内容，所述内容分类模型包括：与文本内容对应的文本分类模型和与视频图像内容对应的视频图像分类模型。

另外，本发明还提供一种基于内容分类的页面内容推荐设备，包括：

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如实施例一所述的方法。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

本发明通过控制源头，在内容发布之前就对内容进行识别并准确过滤分类，将正常内容上线曝光给用户，而低质内容将被筛选过滤不曝光给用户，避免如标题党、擦边或者低俗的低质量内容在平台上线，避免用户因为博眼球的操作点击阅读内容，降低用户体验的问题，从而提高平台内容质量、用户推荐内容质量和转化率，保持平台用户的粘性。可广泛应用于需要进行内容分类和内容推荐的领域。

以上各实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于内容分类的页面内容推荐方法，其特征在于，包括：

获取内容池中多项待分类内容；

对所述待分类内容进行内容识别，得到为文本内容或视频图像内容的内容识别结果；

根据所述内容识别结果，选择对应的内容分类模型对所述待分类内容进行内容分类得到待推荐内容，所述内容分类模型包括：与文本内容对应的文本分类模型和与视频图像内容对应的视频图像分类模型。

2.根据权利要求1所述的一种基于内容分类的页面内容推荐方法，其特征在于，所述文本分类模型为长短期记忆神经网络分类器或BERT模型。

3.根据权利要求1所述的一种基于内容分类的页面内容推荐方法，其特征在于，构建所述文本分类模型的过程具体为：

根据所述词向量生成文档模型；

4.根据权利要求3所述的一种基于内容分类的页面内容推荐方法，其特征在于，还包括生成词向量之前进行文本预处理。

5.根据权利要求1至4任一项所述的一种基于内容分类的页面内容推荐方法，其特征在于，所述视频图像分类模型为残差神经网络。

6.根据权利要求5所述的一种基于内容分类的页面内容推荐方法，其特征在于，构建所述视频图像分类模型的过程具体为：

收集图像样本并进行图像分类标注；

对所述图像样本进行样本扩展得到图像样本；

根据所述图像样本生成图像训练样本集；

7.根据权利要求6所述的一种基于内容分类的页面内容推荐方法，其特征在于，所述样本扩展包括：平移、翻转、剪切、缩放。

8.一种基于内容分类的页面内容推荐装置，其特征在于，包括：

获取待分类内容模块：用于获取内容池中多项待分类内容；

9.一种基于内容分类的页面内容推荐设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的方法。