CN109086345B - 一种内容识别方法、内容分发方法、装置及电子设备 - Google Patents

一种内容识别方法、内容分发方法、装置及电子设备 Download PDF

Info

Publication number
CN109086345B
CN109086345B CN201810765619.XA CN201810765619A CN109086345B CN 109086345 B CN109086345 B CN 109086345B CN 201810765619 A CN201810765619 A CN 201810765619A CN 109086345 B CN109086345 B CN 109086345B
Authority
CN
China
Prior art keywords
content
timeliness
title
time
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810765619.XA
Other languages
English (en)
Other versions
CN109086345A (zh
Inventor
王志华
宋华
查强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810765619.XA priority Critical patent/CN109086345B/zh
Publication of CN109086345A publication Critical patent/CN109086345A/zh
Application granted granted Critical
Publication of CN109086345B publication Critical patent/CN109086345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本发明实施例提供了一种内容识别、内容分发方法、装置及电子设备,涉及数据处理技术领域,内容识别方法包括:可以将待识别内容的标题经过预处理后输入至预设的时效性内容分类模型,获得标题为时效性内容标题的概率,若概率大于预设概率阈值,则待识别内容为时效性内容,若概率不大于预设概率阈值,则待识别内容为非时效性内容。采用本发明实施例可以自动识别时效性内容,基于内容识别方法,内容分发方法可以将识别出的时效性内容有针对性地分发给用户。

Description

一种内容识别方法、内容分发方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种内容识别、内容分发方法、装置及电子设备。
背景技术
近年来,随着网络技术的发展,人们可以越来越便捷的从网络中获取新内容,同时也对内容的时效性要求越来越高。新媒体时代催生了海量用户原创内容(User GeneratedContent,简称UGC),这些自媒体借助各内容分发平台推荐算法将自制内容分发给用户,用户的反馈又反作用于推荐算法和内容生产,形成了良好的环路生态。
发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
内容分发平台一般都需要人工审核,受人力和审核时间限制,部分高时效性的内容还没过审核可能已经过了其时效期,比如一些爆发性的新闻热点事件可能只有几个小时的关注度,过几个小时就没有人关注了。
另一方面,不是所有的用户对时效性内容都有消费意愿,现有技术不能对时效性内容做到定向分发。
可见,现有技术虽然能够实现对时效性内容的识别,但是上述方案仅仅是依靠人工审核,审核时间长,效率低,无法自动识别效性内容且分发对象不够明确。
发明内容
本发明实施例的目的在于提供一种内容识别、分发方法、装置及电子设备,以分别实现自动识别时效性内容和有针对性地将其分发给用户。具体技术方案如下:
第一方面,提供了一种内容识别方法,所述方法包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
可选的,所述基于LSTM的时效性内容分类模型的训练步骤,包括:
获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
可选的,所述获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本的步骤,包括:
将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
或者,若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
可选的,所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可选的,所述利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练的步骤,包括:
选择预设数量个样本,所述样本包括正样本和负样本;
选择一种预处理方式;
针对每个样本,获得至少一个样本标题字和/或词;
将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;
所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;
记录每个标题为时效性内容标题的概率;
将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
根据损失函数值,判断当前时效性内容分类神经网络是否收敛;
如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;
如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;
将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,返回所述记录每个样本为时效性内容的概率的步骤;
判断指定的各个预处理方式是否都训练完成;
如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词的步骤;
如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;
将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;
在时效性内容分类神经网络后增加预设概率阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
可选的,所述损失函数包括:
Figure BDA0001728959600000041
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
可选的,所述更新所述当前时效性内容神经网络各层权重参数W和偏置参数b的步骤,包括:
将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
可选的,还包括:所述LSTM时效性内容分类模型的更新步骤;
所述LSTM时效性内容分类模型的更新步骤,包括:
每隔一段预设时间,更新时效性内容的正样本和负样本;
利用更新后的时效性内容的正样本和负样本经过时效性内容分类模型的预处理方式训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
可选的,所述每隔一段预设时间,更新时效性内容的正样本和负样本的步骤,包括:
每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设第一点击率阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
第二方面,提供了一种内容分发方法,所述方法包括:
获得当前用户对被识别为时效性内容的消费行为;
根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;
如果有,则从内容库中的预设有效期内时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;
将获得的时效性内容分发给当前用户。
可选的,所述获得用户对所述时效性内容的消费行为的步骤,包括:
收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
可选的,所述判断所述当前用户是否具有对时效性内容的消费意愿的步骤,包括:
计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959600000051
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
可选的,所述采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出内容库中的时效性内容的步骤,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
可选的,所述将所述时效性内容分发给有时效性内容消费意愿的用户的步骤,包括:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
第三方面,提供了一种内容识别装置,所述装置包括:
获得模块,用于获得待识别内容的标题;
预处理模块,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
识别模块,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
可选的,其特征在于,还包括模型训练模块,用于训练所述基于LSTM的时效性内容分类模型,包括:样本获得单元和训练单元;
所述样本获得单元,用于获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
所述训练单元,用于利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
可选的,所述样本获得单元,包括:拟合子单元、正样本确定子单元和负样本确定子单元;
所述拟合子单元,用于将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
所述正样本确定子单元,用于若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
所述负样本确定子单元,用于若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
可选的,所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可选的,所述训练单元,包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;
所述计算子单元,用于所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;
所述记录子单元,用于记录每个标题为时效性内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前时效性内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;
所述第三确定子单元,用于将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;
所述组合子单元,用于在时效性内容分类神经网络后增加预设概率阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
可选的,所述损失函数包括:
Figure BDA0001728959600000091
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
可选的,所述更新子单元,包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
可选的,还包括更新模块,用于更新所述LSTM时效性内容分类模型,包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新时效性内容的正样本和负样本;
所述模型更新单元,用于利用更新后的时效性内容的正样本和负样本,基于时效性内容分类模型的预处理方式,训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
可选的,所述样本更新单元,具体用于:
每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
第四方面,提供了一种内容分发装置,所述装置包括:
消费行为获得模块,用于获得当前用户对被识别为时效性内容的消费行为;
消费意愿判断模块,用于根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;
时效性内容获得模块,用于如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;
分发模块,用于将获得的时效性内容分发给当前用户。
可选的,所述消费行为获得模块,具体用于:
收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
可选的,所述消费意愿判断模块,包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959600000101
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
可选的,所述时效性内容获得模块,包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述识别单元,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
可选的,所述分发模块,具体用于:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
第五方面,提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的内容识别、内容分发方法的步骤。
本发明实施例提供的一种内容识别、内容分发方法、装置及电子设备,可以将获得的待识别内容的标题经过预处理后输入至预设的时效性内容分类模型,由时效性内容分类模型对输入的待识别内容进行是否为时效性内容的判断。这样,本发明可以根据待识别内容的标题识别其是否为时效性内容,由于只对于标题进行识别,所以识别速度快,方便时效性内容及时入库及分发。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为为本发明实施例提供的一种内容识别方法流程图;
图2为本发明实施例提供的一种内容识别方法中的一种基于LSTM的时效性内容分类模型的训练方法一种流程图;
图3为本发明实施例采用的泊松分布曲线图;
图4为本发明实施例提供的一种内容识别方法中的一种基于LSTM的时效性内容分类模型的训练方法另一种流程图;
图5为本发明实施例采用的LSTM神经网络的示意图;
图6为本发明实施例提供的一种内容识别方法中的一种LSTM时效性内容分类模型的更新方法流程图;
图7为本发明实施例提供的一种内容分发方法流程图;
图8为本发明实施例提供的一种内容识别装置结构示意图;
图9为本发明实施例提供的一种内容分发装置结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供了一种内容识别、内容分发方法、装置及电子设备,以下分别进行详细说明。
参见图1,图1为本发明实施例提供的一种内容识别方法流程图,包括如下步骤:
步骤101,获得待识别内容的标题。
一种实现方式中,待识别内容可以待入库的内容,包括用户上传的内容,例如:用户原创内容UGC、专业生产内容PGC和职业生产内容OGC。
示例性的,待识别的内容可以是文章、视频或图片等带有标题的内容。
步骤102,对待识别内容的标题进行预处理,获得至少一个标题字和/或词。
一种实现方式中,预处理方式是预设的,是时效性内容分类神经网络在训练时,将损失最小的时效性内容分类神经网络对应的预处理方式确定为待识别内容的预处理方式。
其中,不同的预处理方式处理的标题预处理结果不同。例如,采用分字处理作为预处理方式,会将标题切分为若干个字;采用分词处理会作为预处理方式,会将标题切分为若干个字和词,或者拆分为若干个词。
步骤103,将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型。
一种实现方式中,各个标题字和/或词按其在标题中出现的顺序按照从左至右的顺序。
步骤104,时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若概率大于预设概率阈值,则所述待识别内容为时效性内容,若概率不大于预设概率阈值,则待识别内容为非时效性内容。
一种实现方式中,时效性内容分类模型对于标题判断其是否为时效性内容,首先经过时效性内容分类神经网络对其进行时效性内容的概率计算,然后判断计算的概率是否大于预设的阈值,若大于阈值,则将该标题对应的待识别内容确定为时效性内容;若计算的概率不大于预设概率阈值,则将该标题对应的待识别内容确定为非时效性内容。
可见,应用本发明实施例可以将获得的待识别内容经过预处理后输入至预设的时效性内容分类模型,由时效性内容分类模型对输入的待识别内容进行是否为时效性内容的判断;这样,本发明实施例提供的内容识别方法,能够自动识别待识别内容是否为时效性内容。
可见,应用本发明实施例可以利用待识别内容的标题对待识别内容是否为时效性内容进行判断,这样不仅操作简单,且对待识别内容的识别速度快。
参见图2,图2为本发明实施例提供的一种内容识别方法中的一种基于LSTM的时效性内容分类模型的训练方法一种流程图,包括如下步骤:
步骤201,获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
具体的,可以将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
或者,若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
一种实现方式中,内容进入内容库后就可以分发给用户,已分发内容的展示量、点击量和播放时长等参数都可以被获取到,其中,点击率=点击量/展示量。
进一步的,参见图3,图3为本发明实施例采用的泊松分布曲线图。
如图3所示,泊松分布适合描述单位时间内随机事件发生的次数的概率分布,其概率函数为:
Figure BDA0001728959600000141
其中不同的方差λ的取值曲线如图所示,由泊松分布曲线可以看出,泊松分布可以很好的模拟时效性内容的数据表现,其中方差λ越小曲线越陡峭,表示数据的时效性越高。
可选的,泊松分布的期望和方差均为λ。
可选的,可以用已分发内容的数据表现曲线与泊松分布曲线对比,将与已分发内容的数据表现曲线最接近的泊松分布曲线确定为该内容拟合的泊松分布曲线。具体实现拟合的平台有很多,例如:矩阵实验室matlab、计算机程序设计语言python、计算机编程语言java、C++语言C++。
步骤202,利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
具体的,指定的各个预处理方式,可以包括:分字处理、分词处理和汉语语言模型N-Gram处理。
可见,应用发明实施例,可以将样本的数据表现曲线拟合为泊松分布曲线,根据拟合的泊松分布曲线得到对应的方差,通过对比方差阈值,得到正样本和负样本,这样通过该方法得到的样本更加准确,使得利用样本训练后的模型在预测时更加准确。
进一步的,参见图4,图4为本发明实施例提供的一种内容识别方法中的一种基于LSTM的时效性内容分类模型的训练方法另一种流程图,包括如下步骤:
步骤401,选择预设数量个样本,样本包括正样本和负样本。
一种实现方式中,可以采用小批量的方式选择样本的数量,例如:每次训练可以选择500个样本。
步骤402,选择一种预处理方式。
示例性的,预处理方式可以为分字处理、分词处理或汉语语言模型N-Gram处理。
步骤403,针对每个样本,获得至少一个样本标题字或词。
示例性的,若对“互联网冲击下的实体书店该何去何从”进行分字处理,处理完成后变为:“互”“联”“网”“冲”“击”“下”“的”“实”“体”“书”“店”“该”“何”“去”“何”“从”;
若对“互联网冲击下的实体书店该何去何从”进行分词处理,处理完成后变为:“互联网”“冲击”“下”“的”“实体”“书店”“该”“何去何从”;
若对“互联网冲击下的实体书店该何去何从”进行2-Gram处理,处理完成后变为:“互联”“联网”“网冲”“冲击”“击下”“下的”“的实”“实体”“体书”“书店”“店该”“该何”“何去”“去何”“何从”。
步骤404,将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络。
步骤405,初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率。
参见图5,图5为本发明实施例采用的LSTM神经网络的示意图;
如图5所示,LSTM神经网络包括:输入层Input、隐藏层Hidden Layer和输出层Outputs。
如图5所示,若输入的标题为“互联网冲击下的实体书店该何去何从”,经过分词处理后,输入LSTM时效性内容分类模型,那么图中的图中Xt-1对应“互联网”,Xt对应“冲击”,Xt+1对应“下”,Xt+2对应“的”,Xt+3对应“实体”,Xt+4对应“书店”,Xt+5对应“该”,Xt+6对应“何去何从”,每一个字或词输入模型后都会经过隐藏层计算,最后输出结果,前一次隐藏层的计算结果会影响下一次的隐藏层计算结果,在标题中所有的字或词都输入完毕后,输出该标题为时效性内容的概率。
进一步的,如图5所示,LSTM的隐藏层中的第一步是决定从单元状态Ct-1中丢弃的信息。这个决定通过忘记门层ft完成。该门会读取上一次的输出ht-1和本次的输入Xt
下一步是确定什么样的新信息会被存放在单元状态Ct中。首先,输入门层it决定将要更新的值。然后,一个tanh层创建一个新的候选值向量
Figure BDA0001728959600000161
把旧状态Ct-1与ft相乘,丢弃掉需要丢弃的信息。接着加上
Figure BDA0001728959600000162
这就是新的候选值Ct
最终,确定输出的值。首先,运行一个sigmoid层Ot确定单元状态Ct的将输出的部分。接着,把单元状态Ct通过tanh进行处理并将它和sigmoid门Ot的输出相乘,最终输出ht
步骤406,记录每个标题为时效性内容标题的概率。
一种实现方式中,保存每个标题为时效性内容标题的概率,可以存储在存储器中。
步骤407,将所记录的每个标题为时效性内容的概率及其分类标签,代入预设的损失函数,获得损失函数值。
具体的,损失函数可以包括交叉熵损失函数,公式如下:
Figure BDA0001728959600000171
其中,N为样本的数量,oi为第i个样本的输出值,yi为样本的标签。
一种实现方式中,oi为标题为时效性内容的概率,正样本的标签yi为1,负样本的标签yi为0。
可选的,损失函数还可以是能量损失函数,公式如下:
Figure BDA0001728959600000172
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
一种实现方式中,oi为标题为时效性内容的概率,正样本的标签yi为1,负样本的标签yi为0。
步骤408,根据损失函数值,判断当前时效性内容分类神经网络是否收敛,如果收敛执行步骤409;否则执行步骤410。
一种实现方式中,判断模型收敛可以根据当前损失函数值是否与调整参数之前的损失函数值相同,若相同,则模型收敛,若不同,则模型没有收敛。
步骤409,如果收敛,记录损失函数值和当前时效性内容神经网络每层的权重参数W和偏置参数b,将当前时效性内容神经网络确定为待确定神经网络。
一种实现方式中,神经网络的层数可以是预设的,每一层的权重参数W的值和偏置项b的值都是需要记录的。
步骤410,如果不收敛,更新当前时效性内容神经网络各层的权重参数W和偏置参数b。
具体的,可以将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
一种实现方式中,更新参数的公式为:
Figure BDA0001728959600000181
Figure BDA0001728959600000182
其中,Wi′为本次更新后的第i层的权重,Wi为本次更新前的第i层的权重,J为本次更新前的损失函数值,α为预设学习率;bi′为本次更新后的第i层的偏置项,bi为本次更新前的第i层的偏置项,J为本次更新前的损失函数值,α为预设学习率。
一种实现方式中,可以根据迭代次数降低学习率,使得损失函数减小至不再变化时,模型收敛。
步骤411,将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,返回记录每个样本为时效性内容的概率的步骤。
一种实现方式中,将样本的标题经过选择的预处理方式后,按顺序输入至调整参数后的LSTM时效性内容分类神经网络。
步骤412,判断指定的各个预处理方式是否都训练完成,如果否,执行步骤413;如果是,执行步骤414。
一种实现方式中,所有的预处理方式处理的标题都要训练一次LSTM时效性内容分类神经网络。
步骤413,如果否,则选择下一种预处理方式,返回针对每个样本,获得至少一个样本标题字和/或词的步骤。
一种实现方式中,为避免程序进入死循环,每种预处理方式只选择一次。
步骤414,如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络。
可选的,由于要在模型收敛后对比各待确定神经网络的损失函数值,所以训练时各个预处理方法对应训练的神经网络只用一种相同的损失函数计算损失函数值;例如,使用三种预处理方式分别训练LSTM时效性内容分类神经网络,都用交叉熵损失函数计算损失函数值。
步骤415,将时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式。
一种实现方式中,将时效性内容分类模型的预处理方式,作为待识别内容标题的预处理方式以及模型更新时的预处理方式。
步骤416,在时效性内容分类神经网络后增加预设概率阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
一种实现方式中,在时效性内容分类神经网络计算标题为时效性内容标题的概率后,增加阈值判断部分,将大于阈值的标题对应的内容确定为时效性内容,将不大于阈值的标题对应的内容确定为非时效性内容。
示例性的,可以将预设概率阈值设置为0.5。
可见,应用本发明实施例生成的基于LSTM的时效性内容分类模型,可以对标题进行计算,通过数次更新参数减小模型输出与目标值之间的误差,使得模型对待识别内容的识别更为准确。
进一步的,参见图6,图6为本发明实施例提供的一种内容识别方法中的一种LSTM时效性内容分类模型的更新方法流程图,包括如下步骤:
步骤601,每隔一段预设时间,更新时效性内容的正样本和负样本。
具体的,可以每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
示例性的,可以每隔三天更新一次模型。
一种实现方式中,可以根据预设的比例或预设的数量,删除或增加时效性内容的正样本和负样本。
可选的,内容库中分发效果好的时效性内容还需要进行人工筛选,由人工将内容库中分发效果好的时效性内容中涉及非法内容筛出,做半监督的时效性内容样本收集。
其中,非法内容包括:政治敏感的内容,无版权的内容,低俗的内容或者色情的内容等。
示例性的,可以将预设点击率第一阈值设置为30%,将预设第一观看时长阈值设置为120秒,预设第二点击率阈值设置为3%,预设第二观看时长阈值设置为5秒。
步骤602,利用更新后的时效性内容的正样本和负样本,基于时效性内容分类模型的预处理方式,训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
一种实现方式中,模型更新时,样本的预处理方式为第一次样本训练时获得的每种预处理方式训练的时效性内容分类神经网络得到模型收敛后的损失函数最小的神经网络对应的预处理方式。
可选的,模型更新方法与模型训练方法基本一致,区别在于更新方法只用一种预处理方式,具体更新方法在此不再赘述。
可见,本发明实施例每隔一段时间会更新时效性内容分类模型,使得在对待识别内容进行识别时,更加准确。
参见图7,图7为本发明实施例提供的一种内容分发方法流程图,包括如下步骤:
步骤701,获得当前用户对被识别为时效性内容的消费行为。
具体的,可以收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为可以包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为可以包括:没有正向行为和点击了显示的不喜欢按键。
一种实现方式中,时效性内容展示给用户后,用户对所展示的时效性内容的行为会通过实时流的方式发送回来。
步骤702,根据上述消费行为,判断当前用户是否具有对时效性内容的消费意愿。
具体的,计算当前用户的消费意愿;消费意愿的计算可以包括:
Figure BDA0001728959600000211
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
一种实现方式中,意愿阈值、预设权重、计算方式都是要跟线上的效果做对应的,可以由人工不断调整。
示例性的,若当前用户对于时效性内容的点击率下降,为提高内容的分发数量,可以减小意愿阈值;若当前用户对于时效性内容的点赞次数较多,可以提高点赞的权重,使得计算得到的用户消费意愿提高。
示例性的,意愿阈值可以设置为2.0。
步骤703,如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容。
一种实现方式中,内容入库时可以获得当前系统时间作为内容的入库时刻。
可选的,可以根据时效性内容样本的数据表现曲线设置时效性内容的有效期,例如在时效性内容的点击率下降到百分之五十时,确定该时效性内容失效,获得该时效性内容的失效时刻,将时效性内容样本的失效时刻取平均值或中位数,将时效性内容的入库时刻到失效时刻之内的时间段确定为时效性内容的有效期。
示例性的,可以将时效性内容的有效期设置为入库后的1~7天。
具体的,将时效性内容分发给有时效性内容消费意愿的用户的步骤,可以包括:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;选取一定数量为预设数量与所述消费意愿的乘积。
一种实现方式中,当用户发送数据请求后,一般会有十条内容展示,根据用户对时效性内容的消费意愿,将这十条内容中的若干条内容分配为时效性内容。
具体的,采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出内容库中的时效性内容的步骤,可以包括:
获得待识别内容的标题;
对待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若概率大于预设概率阈值,则待识别内容为时效性内容,若概率不大于预设概率阈值,则待识别内容为非时效性内容。
对于待识别内容的识别方法与内容识别方法一致,在此不再赘述。
步骤704,将获得的时效性内容分发给当前用户。
可见,应用本发明实施例,可以计算每个用户对于时效性内容的消费意愿,根据每个用户对时效性内容的消费意愿,将时效性内容分发给有时效性内容消费意愿的用户,这样,能够实现对于时效性内容的定向分发,提高用户黏度。
基于相同的技术构思,相应于图1所示方法实施例,本发明实施例还提供了一种内容识别装置,如图8所示,该装置包括:
获得模块801,用于获得待识别内容的标题;
预处理模块802,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块803,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
识别模块804,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
具体的,图8所示的装置还包括模型训练模块,用于训练所述基于LSTM的时效性内容分类模型,可以包括:样本获得单元和训练单元;
所述样本获得单元,用于获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
所述训练单元,用于利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
具体的,所述样本获得单元,可以包括:拟合子单元、正样本确定子单元和负样本确定子单元;
所述拟合子单元,用于将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
所述正样本确定子单元,用于若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
所述负样本确定子单元,用于若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
具体的,所述指定的各个预处理方式,可以包括:分字处理、分词处理和汉语语言模型N-Gram处理。
具体的,所述训练单元,包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;
所述计算子单元,用于所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;
所述记录子单元,用于记录每个标题为时效性内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前时效性内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;
所述第三确定子单元,用于将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;
所述组合子单元,用于在时效性内容分类神经网络后增加预设概率阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
具体的,所述损失函数可以包括:
Figure BDA0001728959600000251
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
具体的,所述更新子单元,可以包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
具体的,还可以包括更新模块,用于更新所述LSTM时效性内容分类模型,可以包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新时效性内容的正样本和负样本;
所述模型更新单元,用于利用更新后的时效性内容的正样本和负样本,基于时效性内容分类模型的预处理方式,训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
具体的,所述样本更新单元,可以具体用于:
每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
可见,应用本发明实施例提供的内容识别装置,可以利用待识别内容的标题对待识别内容是否为时效性内容进行判断,这样不仅操作简单,且对待识别内容的识别速度快。
基于相同的技术构思,相应于图7所示方法实施例,本发明实施例还提供了一种内容识别装置,如图9所示,该装置包括:
消费行为获得模块901,用于获得当前用户对被识别为时效性内容的消费行为;
消费意愿判断模块902,用于根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;
时效性内容获得模块903,用于如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;
分发模块904,用于将获得的时效性内容分发给当前用户。
具体的,所述消费行为获得模块901,可以具体用于:
收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
具体的,所述消费意愿判断模块902,可以包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure BDA0001728959600000271
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
具体的,所述时效性内容获得模块903,可以包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述识别单元,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
具体的,所述分发模块904,可以具体用于:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
可见,应用本发明实施例提供的内容分发装置,可以计算每个用户对于时效性内容的消费意愿,根据每个用户对时效性内容的消费意愿,将时效性内容分发给有时效性内容消费意愿的用户,这样,能够实现对于时效性内容的定向分发,提高用户黏度。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如下步骤:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一内容识别、内容分发方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一内容识别、内容分发方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备等而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (29)

1.一种内容识别方法,其特征在于,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述泊松分布曲线用于模拟时效性内容的数据表现;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
2.根据权利要求1所述方法,其特征在于,所述基于LSTM的时效性内容分类模型的训练步骤,包括:
获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
3.根据权利要求2所述的方法,其特征在于,所述获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本的步骤,包括:
将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
或者,若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
4.根据权利要求2所述的方法,其特征在于:
所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
5.根据权利要求2所述的方法,其特征在于,所述利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练的步骤,包括:
选择预设数量个样本,所述样本包括正样本和负样本;
选择一种预处理方式;
针对每个样本,获得至少一个样本标题字和/或词;
将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;
所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;
记录每个标题为时效性内容标题的概率;
将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
根据损失函数值,判断当前时效性内容分类神经网络是否收敛;
如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;
如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;
将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,返回所述记录每个样本为时效性内容的概率的步骤;
判断指定的各个预处理方式是否都训练完成;
如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词的步骤;
如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;
将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;
在时效性内容分类神经网络后增加预设阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
6.根据权利要求5所述的方法,其特征在于,所述损失函数包括:
Figure FDA0002625461470000031
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
7.根据权利要求5所述的方法,其特征在于,所述更新所述当前时效性内容神经网络各层权重参数W和偏置参数b的步骤,包括:
将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
8.根据权利要求2所述的方法,其特征在于:
还包括:所述LSTM时效性内容分类模型的更新步骤;
所述LSTM时效性内容分类模型的更新步骤,包括:
每隔一段预设时间,更新时效性内容的正样本和负样本;
利用更新后的时效性内容的正样本和负样本经过时效性内容分类模型的预处理方式训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
9.根据权利要求8所述的方法,其特征在于,所述每隔一段预设时间,更新时效性内容的正样本和负样本的步骤,包括:
每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设第一点击率阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
10.一种内容分发方法,其特征在于,包括:
获得当前用户对被识别为时效性内容的消费行为;
根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;
如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;所述基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述泊松分布曲线用于模拟时效性内容的数据表现;
将获得的时效性内容分发给当前用户。
11.根据权利要求10所述的方法,其特征在于,所述获得用户对所述时效性内容的消费行为的步骤,包括:
收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
12.根据权利要求10所述的方法,其特征在于,所述判断所述当前用户是否具有对时效性内容的消费意愿的步骤,包括:
计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure FDA0002625461470000051
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
13.根据权利要求10所述的方法,其特征在于,所述采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出内容库中的时效性内容的步骤,包括:
获得待识别内容的标题;
对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
14.根据权利要求10所述的方法,其特征在于,所述将所述时效性内容分发给有时效性内容消费意愿的用户的步骤,包括:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
15.一种内容识别装置,其特征在于,包括:
获得模块,用于获得待识别内容的标题;
预处理模块,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
输入模块,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述泊松分布曲线用于模拟时效性内容的数据表现;
识别模块,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
16.根据权利要求15所述的装置,其特征在于,还包括模型训练模块,用于训练所述基于LSTM的时效性内容分类模型,包括:样本获得单元和训练单元;
所述样本获得单元,用于获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;
所述训练单元,用于利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。
17.根据权利要求16所述的装置,其特征在于,所述样本获得单元,包括:拟合子单元、正样本确定子单元和负样本确定子单元;
所述拟合子单元,用于将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;
所述正样本确定子单元,用于若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;
所述负样本确定子单元,用于若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。
18.根据权利要求16所述的装置,其特征在于:
所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。
19.根据权利要求16所述的装置,其特征在于,所述训练单元,包括:第一选择子单元、第二选择子单元、样本标题获得子单元、输入子单元、计算子单元、记录子单元、损失函数值获得子单元、第一判断子单元、第一确定子单元、更新子单元、第一调用子单元、第二判断子单元、第二调用子单元、第二确定子单元、第三确定子单元和组合子单元;
所述第一选择子单元,用于选择预设数量个样本,所述样本包括正样本和负样本;
所述第二选择子单元,用于选择一种预处理方式;
所述样本标题获得子单元,用于针对每个样本,获得至少一个样本标题字和/或词;
所述输入子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;
所述计算子单元,用于所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;
所述记录子单元,用于记录每个标题为时效性内容标题的概率;
所述损失函数值获得子单元,用于将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;
所述第一判断子单元,用于根据损失函数值,判断当前时效性内容分类神经网络是否收敛;
所述第一确定子单元,用于如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;
所述更新子单元,用于如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;
所述第一调用子单元,用于将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,调用所述记录子单元;
所述第二判断子单元,用于判断指定的各个预处理方式是否都训练完成;
所述第二调用子单元,用于如果否,则选择下一种预处理方式,调用所述样本标题获得子单元;
所述第二确定子单元,用于如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;
所述第三确定子单元,用于将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;
所述组合子单元,用于在时效性内容分类神经网络后增加预设概率阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。
20.根据权利要求19所述的装置,其特征在于,所述损失函数包括:
Figure FDA0002625461470000081
其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。
21.根据权利要求19所述的装置,其特征在于,所述更新子单元,包括:梯度获得子模块和参数更新子模块;
所述梯度获得子模块,用于将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;
所述参数更新子模块,用于按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。
22.根据权利要求16所述的装置,其特征在于,还包括更新模块,用于更新所述LSTM时效性内容分类模型,包括:样本更新单元和模型更新单元;
所述样本更新单元,用于每隔一段预设时间,更新时效性内容的正样本和负样本;
所述模型更新单元,用于利用更新后的时效性内容的正样本和负样本,基于时效性内容分类模型的预处理方式,训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。
23.根据权利要求22所述的装置,其特征在于,所述样本更新单元,具体用于:
每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;
其中,分发效果好的内容包括:点击率大于预设点击率第一阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。
24.一种内容分发装置,其特征在于,包括:
消费行为获得模块,用于获得当前用户对被识别为时效性内容的消费行为;
消费意愿判断模块,用于根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;
时效性内容获得模块,用于如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;所述基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述泊松分布曲线用于模拟时效性内容的数据表现;
分发模块,用于将获得的时效性内容分发给当前用户。
25.根据权利要求24所述的装置,其特征在于,所述消费行为获得模块,具体用于:
收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;
其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。
26.根据权利要求24所述的装置,其特征在于,所述消费意愿判断模块,包括:消费意愿计算单元和定义单元;
所述消费意愿计算单元,用于计算当前用户的消费意愿;所述消费意愿的计算包括:
Figure FDA0002625461470000101
其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;
所述定义单元,用于将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。
27.根据权利要求24所述的装置,其特征在于,所述时效性内容获得模块,包括:待识别内容获得单元、预处理单元、输入单元和识别单元;
所述待识别内容获得单元,用于获得待识别内容的标题;
所述预处理单元,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;
所述输入单元,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;
所述识别单元,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。
28.根据权利要求24所述的装置,其特征在于,所述分发模块,具体用于:
根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。
29.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-14任一所述的方法步骤。
CN201810765619.XA 2018-07-12 2018-07-12 一种内容识别方法、内容分发方法、装置及电子设备 Active CN109086345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810765619.XA CN109086345B (zh) 2018-07-12 2018-07-12 一种内容识别方法、内容分发方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810765619.XA CN109086345B (zh) 2018-07-12 2018-07-12 一种内容识别方法、内容分发方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109086345A CN109086345A (zh) 2018-12-25
CN109086345B true CN109086345B (zh) 2020-11-06

Family

ID=64837717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810765619.XA Active CN109086345B (zh) 2018-07-12 2018-07-12 一种内容识别方法、内容分发方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109086345B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177462B (zh) * 2020-01-03 2023-05-30 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
CN111324711B (zh) * 2020-02-14 2024-03-22 北京明略软件系统有限公司 一种帖子时效性判别方法、装置、及存储介质
CN112085093A (zh) * 2020-09-08 2020-12-15 第四范式(北京)技术有限公司 协同滤波模型的训练方法及装置、可读介质及系统
CN112165639B (zh) * 2020-09-23 2024-02-02 腾讯科技(深圳)有限公司 内容分发方法、装置、电子设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495633B2 (en) * 2015-04-16 2016-11-15 Cylance, Inc. Recurrent neural networks for malware analysis
CN106096014A (zh) * 2016-06-25 2016-11-09 贵州大学 基于dmr的混合长度文本集的文本聚类方法
CN107122347A (zh) * 2017-03-17 2017-09-01 清华大学 一种基于深度学习技术的新闻子事件预测方法及装置
CN107330049B (zh) * 2017-06-28 2020-05-22 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统

Also Published As

Publication number Publication date
CN109086345A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
US10958748B2 (en) Resource push method and apparatus
CN110012356B (zh) 视频推荐方法、装置和设备及计算机存储介质
CN109086345B (zh) 一种内容识别方法、内容分发方法、装置及电子设备
CN110781321B (zh) 一种多媒体内容推荐方法及装置
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN110209922B (zh) 对象推荐方法、装置、存储介质及计算机设备
CN102483745B (zh) 共同选择图像分类
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN111881343A (zh) 信息推送方法、装置、电子设备及计算机可读存储介质
CN111126495B (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN111143684A (zh) 基于人工智能的泛化模型的训练方法及装置
CN112085541A (zh) 基于浏览消费时序数据的用户需求分析方法及装置
CN111258593A (zh) 应用程序预测模型的建立方法、装置、存储介质及终端
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN109189918B (zh) 一种内容识别、内容分发方法、装置及电子设备
CN115034826A (zh) 一种广告投放方法、装置、电子设备及可读存储介质
WO2023048807A1 (en) Hierarchical representation learning of user interest
CN114048395A (zh) 基于时间感知与关键信息抽取的用户转发预测方法和系统
CN113269259A (zh) 一种目标信息的预测方法及装置
CN111177493A (zh) 数据处理方法、装置、服务器和存储介质
CN112307330B (zh) 一种交易偏好判别模型自适应方法
CN114637921B (zh) 基于建模偶然不确定性的物品推荐方法、装置和设备
CN113538030B (zh) 一种内容推送方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant