CN109189918B - 一种内容识别、内容分发方法、装置及电子设备 - Google Patents

一种内容识别、内容分发方法、装置及电子设备 Download PDF

Info

Publication number
CN109189918B
CN109189918B CN201810765617.0A CN201810765617A CN109189918B CN 109189918 B CN109189918 B CN 109189918B CN 201810765617 A CN201810765617 A CN 201810765617A CN 109189918 B CN109189918 B CN 109189918B
Authority
CN
China
Prior art keywords
content
title
deep
preset
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810765617.0A
Other languages
English (en)
Other versions
CN109189918A (zh
Inventor
王志华
宋华
查强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810765617.0A priority Critical patent/CN109189918B/zh
Publication of CN109189918A publication Critical patent/CN109189918A/zh
Application granted granted Critical
Publication of CN109189918B publication Critical patent/CN109189918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Abstract

本发明实施例提供了一种内容识别、内容分发方法、装置及电子设备,涉及数据处理技术领域,内容识别方法包括:对待识别内容的标题进行预处理,获得至少一个标题字和/或词;将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若概率大于预设概率阈值,则待识别内容为深度内容,若概率不大于预设概率阈值,则待识别内容为非深度内容。采用本发明实施例可以自动识别深度内容,基于内容识别方法,内容分发方法可以将识别出的深度内容有针对性地分发给用户。

Description

一种内容识别、内容分发方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种内容识别、内容分发方法、装置及电子设备。
背景技术
近年来,随着网络技术的发展,人们可以越来越便捷的从网络中获取新内容,同时也对内容的质量要求越来越高。新媒体时代催生了海量的用户原创内容(User GeneratedContent,简称UGC),这些自媒体借助各内容分发平台推荐算法将自制内容分发给用户,用户的反馈由反作用于推荐算法和内容生产,形成了良好的环路生态。
但是海量自制内容也给内容分发平台带来了极大的挑战,内容分发平台需要从海量数据中分辨出有知识性的、能够引发用户思考的深度内容和泛娱乐化的非深度内容,如果不将内容进行分类,那么这些非深度内容会占用大量的用户碎片时间,易造成用户的流失。
现有技术中,内容分发平台对于深度内容的识别一般都是靠人工审核,将所有的用户上传内容经人工判断是否为深度内容,再入库。
另一方面,内容分发平台一般是将内容库中的深度内容分发给所有的用户。
然而,发明人在实现本发明的过程中发现,所有的用户上传内容都需要依靠人工审核,需要耗费大量的人力和时间,且不是所有的用户对深度内容都有消费意愿,现有技术不能对深度内容做到定向分发。
可见,现有技术中深度内容的分发,不能自动识别深度内容与非深度内容,需要借助大量的人力,耗时长,深度内容无法及时分发给用户,且无法判断分发的用户是否对深度内容有消费意愿,操作流程不够方便,分发对象不够明确。
发明内容
本发明实施例的目的在于提供一种内容识别、内容分发方法、装置及电子设备,以分别实现自动识别深度内容和有针对性地将其分发给用户。具体技术方案如下:
第一方面,提供了一种内容识别方法,所述方法包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
可选的,所述基于LSTM的深度内容分类模型的训练步骤,包括:
获得预设数量的深度内容标题和非深度内容标题,分别添加正样本或负样本的标签,作为深度内容的正样本和负样本;
利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
可选的,所述获得预设数量的深度内容标题和非深度内容标题,分别添加正样本或负样本的标签,作为深度内容的正样本和负样本的步骤,包括:
从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;
从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本。
可选的,所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可选的,所述利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练的步骤,包括:
选择预设数量个样本,所述样本包括正样本和负样本;
选择一种预处理方式;
针对每个样本,获得至少一个样本标题字和/或词;
将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络;
所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率;
记录每个标题为深度内容标题的概率;
将所记录的每个标题为深度内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
根据损失函数值,判断当前深度内容分类神经网络是否收敛;
如果收敛,记录损失函数值和所述当前深度内容神经网络每层的权重参数W和偏置参数b,将所述当前深度内容神经网络确定为待确定神经网络;
如果不收敛,更新所述当前深度内容神经网络各层的权重参数W和偏置参数b;
将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,返回所述记录每个样本为深度内容的概率的步骤;
判断指定的各个预处理方式是否都训练完成;
如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词;
如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络;
将所述深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式;
在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
可选的,所述损失函数包括:
Figure BDA0001728959540000041
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
可选的,所述更新所述当前深度内容神经网络各层权重参数W和偏置参数b的步骤,包括:
将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
可选的,还包括:所述LSTM深度内容分类模型的更新步骤;
所述LSTM深度内容分类模型的更新步骤,包括:
每隔一段预设时间,更新深度内容的正样本和负样本;
利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
可选的,所述每隔一段预设时间,更新深度内容的正样本和负样本的步骤,包括:
每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设第一点击率阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
第二方面,提供了一种内容分发方法,所述方法包括:
获得当前用户对被识别为深度内容的消费行为;
根据所述消费行为,判断所述当前用户是否具有对深度内容的消费意愿;
如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,所述内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容;
将获得的深度内容分发给当前用户。
可选的,所述获得用户对所述深度内容的消费行为的步骤,包括:
收集用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
可选的,所述判断所述当前用户是否具有对深度内容的消费意愿的步骤,包括:
计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959540000051
其中,ai为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
可选的,所述采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出内容库中的深度内容的步骤,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
可选的,所述将所述深度内容分发给有深度内容消费意愿的用户的步骤,包括:
根据用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
第三方面,提供了一种内容识别装置,所述装置包括:
获得模块,用于获得待识别内容的标题;
预处理模块,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
识别模块,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
可选的,还包括模型训练模块,用于训练所述基于LSTM的深度内容分类模型,包括:样本获得单元和训练单元;
所述样本获得单元,用于获得预设数量的深度内容标题和非深度内容标题,分别添加正样本或负样本的标签,作为深度内容的正样本和负样本;
所述训练单元,用于利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
可选的,所述样本获得单元,包括:正样本收集子单元和负样本收集子单元;
所述正样本收集子单元,用于从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;
所述负样本收集子单元,用于从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本。
可选的,所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可选的,所述训练单元,包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络;
所述计算子单元,用于所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率;
所述记录子单元,用于记录每个标题为深度内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为深度内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前深度内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前深度内容神经网络每层的权重参数W和偏置参数b,将所述当前深度内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前深度内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络;
所述第三确定子单元,用于将所述深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式;
所述组合子单元,用于在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
可选的,所述损失函数包括:
Figure BDA0001728959540000081
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
可选的,其特征在于,所述更新子单元,包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
可选的,还包括更新模块,用于更新所述LSTM深度内容分类模型,包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新深度内容的正样本和负样本;
所述模型更新单元,用于利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
可选的,所述样本更新单元,具体用于:
每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
第四方面,提供了一种内容分发装置,所述装置包括:
消费行为获得模块,用于获得当前用户对被识别为深度内容的消费行为;
消费意愿判断模块,用于根据所述消费行为,判断所述当前用户是否具有对深度内容的消费意愿;
深度内容获得模块,用于如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,所述内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容;
分发模块,用于将获得的深度内容分发给当前用户。
可选的,所述消费行为获得模块,具体用于:
收集用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
可选的,所述消费意愿判断模块,包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959540000101
其中,ai为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
可选的,所述深度内容获得模块,包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述识别单元,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
可选的,所述分发模块,具体用于:
根据用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
第五方面,提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例提供的一种内容识别、内容分发方法、装置及电子设备,可以将获得的待识别内容经过预处理后输入至预设的深度内容分类模型,由深度内容分类模型对输入的待识别内容进行是否为深度内容的判断;分发时可以根据用户对深度内容的消费行为,判断用户是否对深度内容有消费意愿,将内容库中的通过上述内容识别方法识别出的深度内容分发给有深度内容消费意愿的用户。这样,本发明实施例提供的内容识别、内容分发方法、装置及电子设备,能够自动识别待识别内容是否为深度内容,并且可以将内容库中的深度内容有针对性的分发给有深度内容消费意愿的用户。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种内容识别方法流程图;
图2为本发明实施例提供的一种内容识别方法中的一种基于LSTM的深度内容分类模型的训练方法一种流程图;
图3为本发明实施例提供的一种内容识别方法中的一种基于LSTM的深度内容分类模型的训练方法另一种流程图;
图4为本发明实施例采用的LSTM神经网络的示意图;
图5为本发明实施例提供的一种内容识别方法中的一种LSTM深度内容分类模型的更新方法流程图;
图6为本发明实施例提供的一种内容分发方法流程图;
图7为本发明实施例提供的一种内容识别装置结构示意图;
图8为本发明实施例提供的一种内容分发装置结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供了一种内容识别、内容分发方法、装置及电子设备,以下分别进行详细说明。
参见图1,图1为本发明实施例提供的一种内容识别方法流程图,包括如下步骤:
步骤101,获得待识别内容的标题。
一种实现方式中,待识别内容可以待入库的内容,包括用户上传的内容,例如:用户原创内容UGC、专业生产内容PGC和职业生产内容OGC。
示例性的,待识别的内容可以是文章、视频或图片等带有标题的内容。
步骤102,对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词。
一种实现方式中,预处理方式是预设的,是深度内容分类神经网络在训练时,将损失最小的深度内容分类神经网络对应的预处理方式确定为待识别内容的预处理方式。
其中,不同的预处理方式处理的标题预处理结果不同。例如,采用分字处理作为预处理方式,会将标题切分为若干个字;采用分词处理会作为预处理方式,会将标题切分为若干个字和词,或者拆分为若干个词。
步骤103,将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型。
一种实现方式中,各个标题字和/或词按其在标题中出现的顺序按照从左至右的顺序。
步骤104,所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
一种实现方式中,深度内容分类模型对于标题判断其是否为深度内容,首先经过深度内容分类神经网络对其进行深度内容的概率计算,然后判断计算的概率是否大于预设的阈值,若大于阈值,则将该标题对应的待识别内容确定为深度内容;若计算的概率不大于预设阈值,则将该标题对应的待识别内容确定为非深度内容。
可见,应用本发明实施例可以将获得的待识别内容经过预处理后输入至预设的深度内容分类模型,由深度内容分类模型对输入的待识别内容进行是否为深度内容的判断;这样,本发明实施例提供的内容识别方法,能够自动识别待识别内容是否为深度内容。
可见,应用本发明实施例可以利用待识别内容的标题对待识别内容是否为深度内容进行判断,这样不仅操作简单,且对待识别内容的识别速度快。
参见图2,图2为本发明实施例提供的一种内容识别方法中的一种基于LSTM的深度内容分类模型的训练方法一种流程图,包括如下步骤:
步骤201,获得预设数量的深度内容标题和非深度内容标题,分别添加正样本或负样本的标签,作为深度内容的正样本和负样本;
具体的,可以从问答类网站中收集被标识为精华的内容的标题,对这些标题添加正样本标签,作为深度内容的正样本;
可以从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,对这些标题添加负样本标签,作为深度内容的负样本。
一种实现方式中,深度内容可以是知识性的或能够引发用户思考的内容,非深度内容可以是泛娱乐化的内容。
示例性的,可以将第二点击率阈值设置为2%,第一点击率阈值设置为30%,第二观看时长阈值设置为5秒。
步骤202,利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
具体的,指定的各个预处理方式,可以包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可见,应用发明实施例,可以从网站中收集精华内容作为正样本,从内容库中收集分发效果差的内容作为负样本,这样通过该方法得到的样本更加准确,使得利用样本训练后的模型在预测时更加准确。
进一步的,参加图3,图3为本发明实施例提供的一种内容识别方法中的一种基于LSTM的深度内容分类模型的训练方法另一种流程图,包括如下步骤:
步骤301,选择预设数量个样本,所述样本包括正样本和负样本。
一种实现方式中,可以采用小批量的方式选择样本的数量,例如:每次训练可以选择500个样本。
步骤302,选择一种预处理方式。
示例性的,预处理方式可以为分字处理、分词处理或汉语语言模型N-Gram处理。
步骤303,针对每个样本,获得至少一个样本标题字或词。
示例性的,若对“互联网冲击下的实体书店该何去何从”进行分字处理,处理完成后变为:“互”“联”“网”“冲”“击”“下”“的”“实”“体”“书”“店”“该”“何”“去”“何”“从”;
若对“互联网冲击下的实体书店该何去何从”进行分词处理,处理完成后变为:“互联网”“冲击”“下”“的”“实体”“书店”“该”“何去何从”;
若对“互联网冲击下的实体书店该何去何从”进行2-Gram处理,处理完成后变为:“互联”“联网”“网冲”“冲击”“击下”“下的”“的实”“实体”“体书”“书店”“店该”“该何”“何去”“去何”“何从”。
步骤304,将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络。
步骤305,所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率。
参见图4,图4为本发明实施例采用的LSTM神经网络的示意图;
如图4所示,LSTM神经网络包括:输入层Input、隐藏层Hidden Layer和输出层Outputs。
如图4所示,若输入的标题为“互联网冲击下的实体书店该何去何从”,经过分词处理后,输入LSTM深度内容分类模型,那么图中的图中Xt-1对应“互联网”,Xt对应“冲击”,Xt+1对应“下”,Xt+2对应“的”,Xt+3对应“实体”,Xt+4对应“书店”,Xt+5对应“该”,Xt+6对应“何去何从”,每一个字或词输入模型后都会经过隐藏层计算,最后输出结果,前一次隐藏层的计算结果会影响下一次的隐藏层计算结果,在标题中所有的字或词都输入完毕后,输出该标题为深度内容的概率。
进一步的,如图4所示,LSTM的隐藏层中的第一步是决定从单元状态Ct-1中丢弃的信息。这个决定通过忘记门层ft完成。该门会读取上一次的输出ht-1和本次的输入Xt
下一步是确定什么样的新信息会被存放在单元状态Ct中。首先,输入门层it决定将要更新的值。然后,一个tanh层创建一个新的候选值向量
Figure BDA0001728959540000163
把旧状态Ct-1与ft相乘,丢弃掉需要丢弃的信息。接着加上
Figure BDA0001728959540000164
这就是新的候选值Ct
最终,确定输出的值。首先,运行一个sigmoid层Ot确定单元状态Ct的将输出的部分。接着,把单元状态Ct通过tanh进行处理并将它和sigmoid门Ot的输出相乘,最终输出ht
步骤306,记录每个标题为深度内容标题的概率。
一种实现方式中,保存每个标题为深度内容标题的概率,可以存储在存储器中。
步骤307,将所记录的每个标题为深度内容的概率及其分类标签,代入预设的损失函数,获得损失函数值。
具体的,损失函数可以包括交叉熵损失函数,公式如下:
Figure BDA0001728959540000161
其中,N为样本的数量,oi为第i个样本的输出值,yi为样本的标签。
一种实现方式中,oi为标题为深度内容的概率,正样本的标签yi为1,负样本的标签yi为0。
可选的,损失函数还可以是能量损失函数,公式如下:
Figure BDA0001728959540000162
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
一种实现方式中,oi为标题为深度内容的概率,正样本的标签yi为1,负样本的标签yi为0。
步骤308,根据损失函数值,判断当前深度内容分类神经网络是否收敛,如果收敛执行步骤309;否则执行步骤310。
一种实现方式中,判断模型收敛可以根据当前损失函数值是否与调整参数之前的损失函数值相同,若相同,则模型收敛,若不同,则模型没有收敛。
步骤309,如果收敛,记录损失函数值和当前深度内容神经网络每层的权重参数W和偏置参数b,将当前深度内容神经网络确定为待确定神经网络。
一种实现方式中,神经网络的层数可以是预设的,每一层的权重参数W的值和偏置项b的值都是需要记录的。
步骤310,如果不收敛,更新当前深度内容神经网络各层的权重参数W和偏置参数b。
具体的,可以将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
一种实现方式中,更新参数的公式为:
Figure BDA0001728959540000171
Figure BDA0001728959540000172
其中,W′i为本次更新后的第i层的权重,Wi为本次更新前的第i层的权重,J为本次更新前的损失函数值,α为预设学习率;b′i为本次更新后的第i层的偏置项,bi为本次更新前的第i层的偏置项,J为本次更新前的损失函数值,α为预设学习率。
一种实现方式中,可以根据迭代次数降低学习率,使得损失函数减小至不再变化时,模型收敛。
步骤311,将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,返回记录每个样本为深度内容的概率的步骤。
一种实现方式中,将样本的标题经过选择的预处理方式后,按顺序输入至调整参数后的LSTM深度内容分类神经网络。
步骤312,判断指定的各个预处理方式是否都训练完成,如果否,执行步骤313;如果是,执行步骤314。
一种实现方式中,所有的预处理方式处理的标题都要训练一次LSTM深度内容分类神经网络。
步骤313,如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词。
一种实现方式中,为避免程序进入死循环,每种预处理方式只选择一次。
步骤314,如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络。
可选的,由于要在模型收敛后对比各待确定神经网络的损失函数值,所以训练时各个预处理方法对应训练的神经网络只用一种相同的损失函数计算损失函数值;例如,使用三种预处理方式分别训练LSTM深度内容分类神经网络,都用交叉熵损失函数计算损失函数值。
步骤315,将深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式。
一种实现方式中,将深度内容分类模型的预处理方式,作为待识别内容标题的预处理方式以及模型更新时的预处理方式。
步骤316,在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
一种实现方式中,在深度内容分类神经网络计算标题为深度内容标题的概率后,增加阈值判断部分,将大于阈值的标题对应的内容确定为深度内容,将不大于阈值的标题对应的内容确定为非深度内容。
示例性的,可以将预设深度阈值设置为0.5。
可见,应用本发明实施例生成的基于LSTM的深度内容分类模型,可以对标题进行计算,通过数次更新参数减小模型输出与目标值之间的误差,使得模型对待识别内容的识别更为准确。
进一步的,参见图5,图5为本发明实施例提供的一种内容识别方法中的一种LSTM深度内容分类模型的更新方法流程图,包括如下步骤:
步骤501,每隔一段预设时间,更新深度内容的正样本和负样本。
具体的,可以每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
示例性的,可以每隔三天更新一次模型。
一种实现方式中,可以根据预设的比例或预设的数量,删除或增加深度内容的正样本和负样本。
可选的,内容库中分发效果好的深度内容还需要进行人工筛选,由人工将内容库中分发效果好的深度内容中涉及非法内容筛出,做半监督的深度内容样本收集。
其中,非法内容包括:政治敏感的内容,无版权的内容,低俗的内容或者色情的内容等。
示例性的,可以将预设点击率第一阈值设置为30%,将预设第一观看时长阈值设置为120秒,预设第二点击率阈值设置为3%,预设第二观看时长阈值设置为5秒。
步骤502,利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
一种实现方式中,模型更新时,样本的预处理方式为第一次样本训练时获得的每种预处理方式训练的深度内容分类神经网络得到模型收敛后的损失函数最小的神经网络对应的预处理方式。
可选的,模型更新方法与模型训练方法基本一致,区别在于更新方法只用一种预处理方式,具体更新方法在此不再赘述。
可见,本发明实施例每隔一段时间会更新深度内容分类模型,使得在对待识别内容进行识别时,更加准确。
参见图6,图6为本发明实施例提供的一种内容分发方法流程图,包括如下步骤:
步骤601,获得当前用户对被识别为深度内容的消费行为。
具体的,收集用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
一种实现方式中,深度内容展示给用户后,用户对所展示的深度内容的行为会通过实时流的方式发送回来。
步骤602,根据上述消费行为,判断当前用户是否具有对深度内容的消费意愿。
具体的,计算当前用户的消费意愿;消费意愿的计算可以包括:
Figure BDA0001728959540000201
其中,ai为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
一种实现方式中,意愿阈值、预设权重、计算方式都是要跟线上的效果做对应的,可以由人工不断调整。
示例性的,若当前用户对于深度内容的点击率下降,为提高内容的分发数量,可以减小意愿阈值;若当前用户对于深度内容的点赞次数较多,可以提高点赞的权重,使得计算得到的用户消费意愿提高。
示例性的,意愿阈值可以设置为2.0。
步骤603,如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容。
具体的,将深度内容分发给有深度内容消费意愿的用户的步骤,可以包括:
根据用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
一种实现方式中,当用户发送数据请求后,一般会有十条内容展示,根据用户对深度内容的消费意愿,将这十条内容中的若干条内容分配为深度内容。
具体的,采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出内容库中的深度内容的步骤,可以包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
可选的,对于待识别内容的识别方法与内容识别方法一致,在此不再赘述。
步骤604,将获得的深度内容分发给当前用户。
可见,应用本发明实施例,可以计算每个用户对于深度内容的消费意愿,根据每个用户对深度内容的消费意愿,将深度内容分发给有深度内容消费意愿的用户,这样,能够实现对于深度内容的定向分发,提高用户黏度。
基于相同的技术构思,相应于图1所示方法实施例,本发明实施例还提供了一种内容识别装置,如图7所示,该装置包括:
获得模块701,用于获得待识别内容的标题;
预处理模块702,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块703,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
识别模块704,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
具体的,图7所示的装置还包括模型训练模块,用于训练所述基于LSTM的深度内容分类模型,可以包括:样本获得单元和训练单元;
所述样本获得单元,用于获得预设数量的深度内容标题和非深度内容标题,分别添加正样本或负样本的标签,作为深度内容的正样本和负样本;
所述训练单元,用于利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
可选的,所述样本获得单元,可以包括:正样本收集子单元和负样本收集子单元;
所述正样本收集子单元,用于从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;
所述负样本收集子单元,用于从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本。
可选的,所述指定的各个预处理方式,可以包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可选的,所述训练单元,可以包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络;
所述计算子单元,用于所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率;
所述记录子单元,用于记录每个标题为深度内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为深度内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前深度内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前深度内容神经网络每层的权重参数W和偏置参数b,将所述当前深度内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前深度内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络;
所述第三确定子单元,用于将所述深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式;
所述组合子单元,用于在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
具体的,所述损失函数可以包括:
Figure BDA0001728959540000241
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
具体的,所述更新子单元,可以包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
具体的,还可以包括更新模块,用于更新所述LSTM深度内容分类模型,包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新深度内容的正样本和负样本;
所述模型更新单元,用于利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
具体的,所述样本更新单元,可以具体用于:
每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
可见,应用本发明实施例提供的内容识别装置,可以利用待识别内容的标题对待识别内容是否为深度内容进行判断,这样不仅操作简单,且对待识别内容的识别速度快。
基于相同的技术构思,相应于图6所示方法实施例,本发明实施例还提供了一种内容识别装置,如图8所示,该装置包括:
消费行为获得模块801,用于获得当前用户对被识别为深度内容的消费行为;
消费意愿判断模块802,用于根据所述消费行为,判断所述当前用户是否具有对深度内容的消费意愿;
深度内容获得模块803,用于如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,所述内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容;
分发模块804,用于将获得的深度内容分发给当前用户。
具体的,所述消费行为获得模块801,可以具体用于:
收集用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
具体的,所述消费意愿判断模块802,可以包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959540000261
其中,ai为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
具体的,所述深度内容获得模块803,可以包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述识别单元,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
具体的,所述分发模块804,可以具体用于:
根据用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
可见,应用本发明实施例提供的内容分发装置,可以计算每个用户对于深度内容的消费意愿,根据每个用户对深度内容的消费意愿,将深度内容分发给有深度内容消费意愿的用户,这样,能够实现对于深度内容的定向分发,提高用户黏度。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的内容识别、内容分发方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的内容识别、内容分发方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (25)

1.一种内容识别方法,其特征在于,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容;
所述基于LSTM的深度内容分类模型的训练步骤,包括:
从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;
从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本;
利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
2.根据权利要求1所述的方法,其特征在于:
所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
3.根据权利要求1所述的方法,其特征在于,所述利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练的步骤,包括:
选择预设数量个样本,所述样本包括正样本和负样本;
选择一种预处理方式;
针对每个样本,获得至少一个样本标题字和/或词;
将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络;
所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率;
记录每个标题为深度内容标题的概率;
将所记录的每个标题为深度内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
根据损失函数值,判断当前深度内容分类神经网络是否收敛;
如果收敛,记录损失函数值和所述当前深度内容神经网络每层的权重参数W和偏置参数b,将所述当前深度内容神经网络确定为待确定神经网络;
如果不收敛,更新所述当前深度内容神经网络各层的权重参数W和偏置参数b;
将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,返回所述记录每个样本为深度内容的概率的步骤;
判断指定的各个预处理方式是否都训练完成;
如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词;
如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络;
将所述深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式;
在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
4.根据权利要求3所述的方法,其特征在于,所述损失函数包括:
Figure 21689DEST_PATH_IMAGE001
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
5.根据权利要求3所述的方法,其特征在于,所述更新所述当前深度内容神经网络各层的权重参数W和偏置参数b的步骤,包括:
将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
6.根据权利要求1所述的方法,其特征在于:
还包括:所述LSTM深度内容分类模型的更新步骤;
所述LSTM深度内容分类模型的更新步骤,包括:
每隔一段预设时间,更新深度内容的正样本和负样本;
利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
7.根据权利要求6所述的方法,其特征在于,所述每隔一段预设时间,更新深度内容的正样本和负样本的步骤,包括:
每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设第一点击率阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
8.一种内容分发方法,其特征在于,包括:
获得当前用户对被识别为深度内容的消费行为;
根据所述消费行为,判断所述当前用户是否具有对深度内容的消费意愿;
如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,所述内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容;
将获得的深度内容分发给当前用户;
所述基于LSTM的深度内容分类模型的训练步骤,包括:
从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;
从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本;
利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
9.根据权利要求8所述的方法,其特征在于,所述获得当前用户对被识别为深度内容的消费行为的步骤,包括:
收集当前用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
10.根据权利要求8所述的方法,其特征在于,所述判断所述当前用户是否具有对深度内容的消费意愿的步骤,包括:
计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure 952736DEST_PATH_IMAGE002
其中,
Figure 707065DEST_PATH_IMAGE003
为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,
Figure 444077DEST_PATH_IMAGE004
为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
11.根据权利要求8所述的方法,其特征在于,所述采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出内容库中的深度内容的步骤,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
12.根据权利要求8所述的方法,其特征在于,所述将获得的深度内容分发给当前用户的步骤,包括:
根据当前用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给当前用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
13.一种内容识别装置,其特征在于,包括:
获得模块,用于获得待识别内容的标题;
预处理模块,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
识别模块,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容;
还包括模型训练模块,用于训练所述基于LSTM的深度内容分类模型,包括:样本获得单元和训练单元;
所述样本获得单元,用于从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本;
所述训练单元,用于利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
14.根据权利要求13所述的装置,其特征在于:
所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
15.根据权利要求13所述的装置,其特征在于,所述训练单元,包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始深度内容分类神经网络;
所述计算子单元,用于所述初始深度内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为深度内容标题的概率;
所述记录子单元,用于记录每个标题为深度内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为深度内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前深度内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前深度内容神经网络每层的权重参数W和偏置参数b,将所述当前深度内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前深度内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM深度内容分类神经网络,得到各标题为深度内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为深度内容分类神经网络;
所述第三确定子单元,用于将所述深度内容分类神经网络对应的预处理方式,确定为深度内容分类模型的预处理方式;
所述组合子单元,用于在深度内容分类神经网络后增加预设概率阈值判断部分,将深度内容分类神经网络与预设概率阈值判断部分组合成深度内容分类模型。
16.根据权利要求15所述的装置,其特征在于,所述损失函数包括:
Figure 403681DEST_PATH_IMAGE005
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
17.根据权利要求15所述的装置,其特征在于,所述更新子单元,包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
18.根据权利要求13所述的装置,其特征在于,还包括更新模块,用于更新所述LSTM深度内容分类模型,包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新深度内容的正样本和负样本;
所述模型更新单元,用于利用更新后的深度内容的正样本和负样本,基于深度内容分类模型的预处理方式,训练当前LSTM深度内容分类神经网络,获得更新后的LSTM深度内容分类模型。
19.根据权利要求18所述的装置,其特征在于,所述样本更新单元,具体用于:
每隔一段预设时间,删除部分当前深度内容正样本和负样本,将内容库中分发效果好的部分深度内容,确定为新增的深度内容正样本,将内容库中分发效果差的部分非深度内容,确定为新增的深度内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的深度内容和观看时长大于预设第一观看时长阈值的深度内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非深度内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非深度内容。
20.一种内容分发装置,其特征在于,包括:
消费行为获得模块,用于获得当前用户对被识别为深度内容的消费行为;
消费意愿判断模块,用于根据所述消费行为,判断所述当前用户是否具有对深度内容的消费意愿;
深度内容获得模块,用于如果有,则从内容库中的深度内容中,获得预设数量的当前用户未消费过的深度内容;其中,所述内容库中的深度内容为采用预先构建的基于长短期记忆循环神经网络LSTM的深度内容分类模型识别出的内容库中的深度内容;
分发模块,用于将获得的深度内容分发给当前用户;
模型训练模块,用于从问答类网站中收集被标识为精华的内容的标题,添加正样本标签,作为深度内容的正样本;从内容库中,获取点击率小于预设第二点击率阈值的内容,和点击率大于预设第一点击率阈值且观看时长小于预设第二观看时长阈值的内容的标题,添加负样本标签,作为深度内容的负样本;利用深度内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
21.根据权利要求20所述的装置,其特征在于,所述消费行为获得模块,具体用于:
收集当前用户对内容库中已分发的所述深度内容的正向行为和负向行为;
其中,所述正向行为包括:对深度内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
22.根据权利要求20所述的装置,其特征在于,所述消费意愿判断模块,包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure 833525DEST_PATH_IMAGE006
其中,
Figure 12834DEST_PATH_IMAGE003
为当前用户对展示给当前用户的深度内容的正向行为或负向行为的次数或观看时长,
Figure 287957DEST_PATH_IMAGE004
为当前用户对展示给当前用户的深度内容的正向行为或负向行为对应的预设权重,N为深度内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有深度内容消费意愿的用户。
23.根据权利要求20所述的装置,其特征在于,所述深度内容获得模块,包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的深度内容分类模型;所述预设的LSTM深度内容分类模型是通过收集精华内容得到的正样本和收集的非精华内容得到的负样本训练后的模型;
所述识别单元,用于所述深度内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为深度内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为深度内容,若所述概率不大于预设概率阈值,则所述待识别内容为非深度内容。
24.根据权利要求20所述的装置,其特征在于,所述分发模块,具体用于:
根据当前用户对所述深度内容的消费意愿,从内容库中选取一定数量的深度内容分发给当前用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
25.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-12任一所述的方法步骤。
CN201810765617.0A 2018-07-12 2018-07-12 一种内容识别、内容分发方法、装置及电子设备 Active CN109189918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810765617.0A CN109189918B (zh) 2018-07-12 2018-07-12 一种内容识别、内容分发方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810765617.0A CN109189918B (zh) 2018-07-12 2018-07-12 一种内容识别、内容分发方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109189918A CN109189918A (zh) 2019-01-11
CN109189918B true CN109189918B (zh) 2020-11-27

Family

ID=64936036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810765617.0A Active CN109189918B (zh) 2018-07-12 2018-07-12 一种内容识别、内容分发方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109189918B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0965192B1 (en) * 1997-01-06 2007-02-28 Bellsouth Intellectual Property Corporation Method and system for tracking network use
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN106202330B (zh) * 2016-07-01 2020-02-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN107797981B (zh) * 2016-08-31 2021-06-04 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN107395703A (zh) * 2017-07-11 2017-11-24 中国医学科学院医学信息研究所 一种资源推送方法和装置

Also Published As

Publication number Publication date
CN109189918A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN110012356B (zh) 视频推荐方法、装置和设备及计算机存储介质
US10958748B2 (en) Resource push method and apparatus
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
Taymouri et al. Predictive business process monitoring via generative adversarial nets: the case of next event prediction
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN108073568B (zh) 关键词提取方法和装置
CN110209922B (zh) 对象推荐方法、装置、存储介质及计算机设备
CN109086345B (zh) 一种内容识别方法、内容分发方法、装置及电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN107346326A (zh) 用于生成神经网络模型的方法和系统
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN111881343A (zh) 信息推送方法、装置、电子设备及计算机可读存储介质
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN111859149A (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN109189918B (zh) 一种内容识别、内容分发方法、装置及电子设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN115034826A (zh) 一种广告投放方法、装置、电子设备及可读存储介质
CN114385915A (zh) 一种内容推荐方法、装置、存储介质及电子设备
KR20210023916A (ko) 컨텐츠 기여도 측정 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant