CN112287184A - 基于神经网络的迁移标注方法、装置、设备及存储介质 - Google Patents
基于神经网络的迁移标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112287184A CN112287184A CN202011193794.XA CN202011193794A CN112287184A CN 112287184 A CN112287184 A CN 112287184A CN 202011193794 A CN202011193794 A CN 202011193794A CN 112287184 A CN112287184 A CN 112287184A
- Authority
- CN
- China
- Prior art keywords
- user
- neural network
- identification information
- historical browsing
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于神经网络的迁移标注方法、装置、设备及存储介质,其中,基于神经网络的迁移标注方法包括:用户点击序列输入到预设神经网络模型,以训练预设神经网络模型,并使得预设神经网络模型保存每个用户历史浏览记录的标识信息的词向量;获取待标注视频的标识信息;将待标注视频的标识信息作为预设神经网络模型的输入,以使得预设神经网络从若干个用户历史浏览记录的标识信息的词向量中,筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;根据预设业务指标从候选向量集中确定出待标注视频的标注标签。本申请能够降低标注成本更低、降低标注计算量和保证标注精确度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种基于神经网络的迁移标注方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展和移动互联网的普及,基于数据挖掘的推荐引擎产品在市场上取得了巨大成功。目前,基于“大数据+人工智能”的“文章+短视频”信息流个性化推荐引擎往往依靠的是抓取外部文章和短视频以构建数据库,这种做法逐渐取代了由人工编辑文章或短视频的传统模式。
另一方面,在为用户进行个性化推荐的过程中,文章和短视频的标签十分重要。精准的标签可以为用户召回更多的相关文章或短视频,同时也方便用户基于标签主动寻找相关的文章或短视频。但是抓取文章、短视频时,不一定可以获得合适的外部标签,常见的问题比如外部平台没有标签体系,或者标签质量低,外部标签与本产品契合度低等等。
目前,视频的标注一般采用以下两套方案:1、通过计算机视觉技术和深度学习算法对短视频的内容进行分析和理解,从中选取重要的实体或事件作为短视频的标签;2、通过自然语言处理技术从视频的标题中提取实体、关键词作为视频的标签。然而第一种标注方式需要复杂度很高的算法模型,因此具有较高的计算成本,同时,该标注方式需要较为完善的已标注数据集来完成模型的训练,进而会导致数据的采集以及模型参数的调节上成本高昂,且不能处理特殊情况的短视频,例如,对于场景变化非常少,存在大量的旁白的短视频,模型无法对短视频的内容进行分析和理解,再例如,对于短视频中存在的模型训练阶段没有出现的实体,模型无法进行分析和理解。
第二种标注方式存在以下缺点:1.当标题文本较短时,视频的标注精确度低;2、当标题与视频内容关联性并不大,视频的标注精确度低,例如,
“标题党”可能在视频标题加入一些与视频内容无关但是会引起用户点击兴趣的关键词,标题可能刻意隐藏了最为关键的信息从而诱使用户点击,进而使得基于标题标注的精确度低。
发明内容
本申请实施例的目的在于提供一种基于神经网络的迁移标注方法、装置、设备及存储介质,用以降低标注成本更低、降低标注计算量和保证标注精确度。
为此,本申请第一方面公开一种基于神经网络的迁移标注方法,该方法包括步骤:
获取用户点击序列,所述用户点击序列包括若干个用户历史浏览记录的标识信息;
将所述用户点击序列输入到预设神经网络模型,以训练所述预设神经网络模型,并使得所述预设神经网络模型保存每个所述用户历史浏览记录的标识信息的词向量,其中,所述用户历史浏览记录的标识信息的词向量表征所述标识信息与所述用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
获取待标注视频的标识信息;
将所述待标注视频的标识信息作为所述预设神经网络模型的输入,以使得所述预设神经网络从若干个所述用户历史浏览记录的标识信息的词向量中,筛选出与所述待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签。
本申请第一方面的方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
在本申请第一方面中,作为一种可选的实施方式,所述用户历史浏览记录的标识信息包括所述用户历史浏览记录的ID;
以及,在所述获取用户点击序列之后,所述将所述用户点击序列输入到预设神经网络模型之前,所述方法还包括步骤:
根据所述用户历史浏览记录的ID确定所述用户历史浏览记录的标注标签;
判断所述用户历史浏览记录的标注标签是否具有可信度;
当所述用户历史浏览记录的标注标签具有可信度时,将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签。
在本可选的实施方式中,可将用户历史浏览记录的ID替换为用户历史浏览记录的标签。
在本申请第一方面中,作为一种可选的实施方式,在所述判断所述用户历史浏览记录的标注标签是否具有可信度之后,所述将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签,所述方法还包括:
判断具有可信度的标注标签是否有两个以上
当所述具有可信度的标注标签有两个以上时,随机打乱两个以上的所述具有可信度的标注标签。
在本可选的实施方式中,由于默认同一个ID对应的所有标签具有相同的权重,进而通过随机打乱标签可以避免因原始标签的某些排序规则(如按照拼音排序,按照热度排序等等)导致的不同标签具有不同权重的问题。
在本申请第一方面中,作为一种可选的实施方式,所述获取用户点击序列,包括:
从用户行为日志库获取数据记录,所述数据记录包括若干个所述用户历史浏览记录的标识信息;
根据时间戳对所述数据记录中所述用户历史浏览记录的标识信息进行排序;
根据预设的时间间隔将排序后的所述数据记录切分为若干个子数据记录,并将所述子数据记录作为所述用户点击序列。
在本可选的实施方式中,通过根据时间戳对数据记录中用户历史浏览记录的标识信息进行排序,能够挖掘相邻点击之间的关系,即相邻用户历史浏览记录的标识信息之间的关系,其中,由于基于人们相近的两次点击相关性要强于长期间隔的两次点击,进而通过排序,能够挖掘相近的两次点击相关性。另一方面,通过根据预设的时间间隔将排序后的数据记录切分为若干个子数据记录,可避免由于两次点击间隔过长而导致的两次点击之间的相关性弱的问题。
在本申请第一方面中,作为一种可选的实施方式,所述根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签,包括:
将所述预设业务指标和所述候选向量集输入到预设排序器,以使得所述排序器输出所述候选向量集中的最优向量;
将所述最优向量确定为所述待标注视频的标注标签。
在本可选的实施方式中,通过候选向量集可确定待标注视频的标注标签。
在本申请第一方面中,作为一种可选的实施方式,在所述从用户行为日志库获取数据记录之前,所述方法还包括:
获取若干用户行为日志;
对所述若干用户行为日志进行数据清洗;
根据数据清洗后的所述若干用户行为日志构建所述用户行为日志库。
在本可选的实施方式中,通过获取若干用户行为日志和对若干用户行为日志进行数据清洗,从而可构建用户行为日志库。
本申请第二方面公开一种基于神经网络的迁移标注装置,所述装置包括:
第一获取模块,用于获取用户点击序列,所述用户点击序列包括若干个用户历史浏览记录的标识信息;
训练模块,用于将所述用户点击序列输入到预设神经网络模型,以训练所述预设神经网络模型,并使得所述预设神经网络模型保存每个所述用户历史浏览记录的标识信息的词向量,其中,所述用户历史浏览记录的标识信息的词向量表征所述标识信息与所述用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
第二获取模块,用于获取待标注视频的标识信息;
筛选模块,用于将所述待标注视频的标识信息作为所述预设神经网络模型的输入,以使得所述预设神经网络从若干个所述用户历史浏览记录的标识信息的词向量中,筛选出与所述待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
第一确定模块,用于根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签。
本申请第二方面的装置通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
在本申请第二方面中,作为一种可选的实施方式,所述用户历史浏览记录的标识信息包括所述用户历史浏览记录的ID;
以及,所述装置还包括:
第二确定模块,用于根据所述用户历史浏览记录的ID确定所述用户历史浏览记录的标注标签;
第一判断模块,用于判断所述用户历史浏览记录的标注标签是否具有可信度;
替换模块,用于当所述用户历史浏览记录的标注标签具有可信度时,将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签。
在本可选的实施方式中,可将用户历史浏览记录的ID替换为用户历史浏览记录的标签。
本申请第三方面公开一种基于神经网络的迁移标注设备,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行本申请第一方面的基于神经网络的迁移标注方法。
本申请第三方面的设备通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
本申请第四方面公开一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行本申请第一方面的基于神经网络的迁移标注方法。
本申请第四方面的存储介质通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例公开一种基于神经网络的迁移标注方法的流程示意图;
图2是本申请实施例公开一种基于神经网络的迁移标注装置的结构示意图;
图3是本申请实施例公开一种基于神经网络的迁移标注设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一
请参阅图1,图1是本申请实施例公开一种基于神经网络的迁移标注方法的流程示意图。如图1所示,该方法包括步骤:
101、获取用户点击序列,用户点击序列包括若干个用户历史浏览记录的标识信息;
102、将用户点击序列输入到预设神经网络模型,以训练预设神经网络模型,并使得预设神经网络模型保存每个用户历史浏览记录的标识信息的词向量,其中,用户历史浏览记录的标识信息的词向量表征标识信息与用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
103、获取待标注视频的标识信息;
104、将待标注视频的标识信息作为预设神经网络模型的输入,以使得预设神经网络从若干个用户历史浏览记录的标识信息的词向量中,筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
105、根据预设业务指标从候选向量集中确定出待标注视频的标注标签。
本申请实施例的方法能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
在本申请实施例中,用户历史浏览记录可以是用户的文章浏览记录,例如用户浏览的百度新闻,用户历史浏览记录也可以是用户的视频浏览记录,例如,用户浏览的腾讯视频等。
在本申请实施例中,用户历史浏览记录的标识信息可以是用户浏览的文章ID、用户浏览的文章的标签、用户浏览的视频的ID、用户浏览的视频的标签。示例性地,例如,用户在手机终端浏览文章时,手机终端会保存用户浏览过的文章的链接,并将户浏览过的文章的链接作为用户浏览的文章ID。
在本申请实施例中,可选地,预设神经网络模型的型号为“word2vec”,相应地,假设用户序列为[id001,id002,id003,id004,id005],进而输入到“word2vec”神经网络模型后,“word2vec”神经网络模型分别输出字段“id001”、“id002”、“id003”、“id004”、“id005”的词向量。
更加具体地,“word2vec”神经网络模型会将用户序列[id001,id002,id003,id004,id005]中每个字段用初始向量表示,例如适用one-hot编码规则将用户序列中的id001用初始向量[1,0,0,0,0],进而“word2vec”神经网络模型将预设权重矩阵与字段的初始向量相乘,最终得到用户历史浏览记录的标识信息的词向量。例如,假设,预设权重矩阵为[[0.9,0.2]、[1.3,0.45]、[1.8,-0.3]、[2.5,-0.05]、[0,-3]],则用户序列[id001,id002,id003,id004,id005]的词向量为id001:[0.9,0.2];id002:[1.3,0.45];id003:[1.8,-0.3];id004:[2.5,-0.05];id005:[0,-3],其中,[0.9,0.2]表示id001与其他标识信息之间的相关性。
需要说明的是,关于“word2vec”神经网络模型输出将一个用户序列中每个字段的词向量的其他描述请参考现有的“word2vec”神经网络模型的描述,本申请在此不作赘述。
在本申请实施例中,步骤104:将待标注视频的标识信息作为预设神经网络模型的输入,以使得预设神经网络从若干个用户历史浏览记录的标识信息的词向量中,筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集的具体方式为:
“word2vec”神经网络模型生成待标注视频的标识信息对应的词向量;
“word2vec”神经网络模型计算待标注视频的标识信息对应的词向量与用户历史浏览记录的标识信息的词向量之间的距离,从而筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集,其中,第一预设条件可以是0.5,也可以是0.6,对于第一预设条件本申请不作限定。
在本申请实施例中,作为一种可选的实施方式,用户历史浏览记录的标识信息包括用户历史浏览记录的ID;
以及,在步骤101:获取用户点击序列之后,步骤102:将用户点击序列输入到预设神经网络模型之前,本申请实施例的方法还包括步骤:
根据用户历史浏览记录的ID确定用户历史浏览记录的标注标签;
判断用户历史浏览记录的标注标签是否具有可信度;
当用户历史浏览记录的标注标签具有可信度时,将用户历史浏览记录的ID替换为用户历史浏览记录的标注标签。
在本可选的实施方式中,可将用户历史浏览记录的ID替换为用户历史浏览记录的标签。
在本可选的实施方式中,判断用户历史浏览记录的标注标签是否具有可信度的具体方式可以基于向量距离判断,例如可将用户历史浏览记录的标注标签向量化并得到标注标签的向量,进而计算标注标签的向量与预设参考向量的距离,两者之间的距离越小,则标注标签的可信度越高。需要说明是,预设参考向量为预设,例如,由人工确定用户历史浏览记录的一个参考标签,进而将该参考标签向量化得到参考向量。
在本申请实施例中,作为一种可选的实施方式,在步骤:判断用户历史浏览记录的标注标签是否具有可信度之后,步骤:将用户历史浏览记录的ID替换为用户历史浏览记录的标注标签,本申请实施例的方法还包括步骤:
判断具有可信度的标注标签是否有两个以上
当具有可信度的标注标签有两个以上时,随机打乱两个以上的具有可信度的标注标签。
在本可选的实施方式中,由于默认同一个ID对应的所有标签具有相同的权重,进而通过随机打乱标签可以避免因原始标签的某些排序规则(如按照拼音排序,按照热度排序等等)导致的不同标签具有不同权重的问题,进而可以避免多标签时部分标签无法参与其他ID的词向量的直接训练的问题这类问题。
在本申请实施例中,作为一种可选的实施方式,步骤101:获取用户点击序列,包括:
从用户行为日志库获取数据记录,数据记录包括若干个用户历史浏览记录的标识信息;
根据时间戳对数据记录中用户历史浏览记录的标识信息进行排序;
根据预设的时间间隔将排序后的数据记录切分为若干个子数据记录,并将子数据记录作为用户点击序列。
在本可选的实施方式中,通过根据时间戳对数据记录中用户历史浏览记录的标识信息进行排序,能够挖掘相邻点击之间的关系,即相邻用户历史浏览记录的标识信息之间的关系,其中,由于基于人们相近的两次点击相关性要强于长期间隔的两次点击,进而通过排序,能够挖掘相近的两次点击相关性。另一方面,通过根据预设的时间间隔将排序后的数据记录切分为若干个子数据记录,可避免由于两次点击间隔过长而导致的两次点击之间的相关性弱的问题。例如,假设上午坐地铁时使用了某个app浏览了新闻和视频,下午下班前也使用了该app,那么上午的最后一个点击和下午的第一个点击之间相关性并没有那么强,进而通过切分,可提高数据记录中的两个用户历史浏览记录的标识信息相关性。
在本申请实施例中,作为一种可选的实施方式,步骤105:根据预设业务指标从候选向量集中确定出待标注视频的标注标签,包括:
将预设业务指标和候选向量集输入到预设排序器,以使得排序器输出最优向量;
将最优向量确定为待标注视频的标注标签。
在本可选的实施方式中,通过候选向量集可确定待标注视频的标注标签。
在本可选的实施方式中,预设业务指标可以是根据训练周期确定,也可以是根据候选向量的数量确定。例如,假设候选向量的数量为100万个,此时,将100万个候选向量同时关联为待标注视频的标注标签会导致计算量大或者运算量大,此时,就可以将预设业务指标设置为8%,即筛选出100万个候选向量中的8%作为待标注视频的标注标签。
在本申请实施例中,作为一种可选的实施方式,在步骤:从用户行为日志库获取数据记录之前,本申请实施例的方法还包括步骤:
获取若干用户行为日志;
对若干用户行为日志进行数据清洗;
根据数据清洗后的若干用户行为日志构建用户行为日志库。
在本可选的实施方式中,通过获取若干用户行为日志和对若干用户行为日志进行数据清洗,从而可构建用户行为日志库。
实施例二
请参阅图2,图2是本申请实施例公开的一种基于神经网络的迁移标注装置的结构示意图。如图2所示,该装置包括:
201、第一获取模块,用于获取用户点击序列,用户点击序列包括若干个用户历史浏览记录的标识信息;
202、训练模块,用于将用户点击序列输入到预设神经网络模型,以训练预设神经网络模型,并使得预设神经网络模型保存每个用户历史浏览记录的标识信息的词向量,其中,用户历史浏览记录的标识信息的词向量表征标识信息与用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
203、第二获取模块,用于获取待标注视频的标识信息;
204、筛选模块,用于将待标注视频的标识信息作为预设神经网络模型的输入,以使得预设神经网络从若干个用户历史浏览记录的标识信息的词向量中,筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
205、第一确定模块,用于根据预设业务指标从候选向量集中确定出待标注视频的标注标签。
本申请实施例的装置通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
在本申请实施例中,用户历史浏览记录可以是用户的文章浏览记录,例如用户浏览的百度新闻,用户历史浏览记录也可以是用户的视频浏览记录,例如,用户浏览的腾讯视频等。
在本申请实施例中,用户历史浏览记录的标识信息可以是用户浏览的文章ID、用户浏览的文章的标签、用户浏览的视频的ID、用户浏览的视频的标签。示例性地,例如,用户在手机终端浏览文章时,手机终端会保存用户浏览过的文章的链接,并将户浏览过的文章的链接作为用户浏览的文章ID。
在本申请实施例中,可选地,预设神经网络模型的型号为“word2vec”,相应地,假设用户序列为[id001,id002,id003,id004,id005],进而输入到“word2vec”神经网络模型后,“word2vec”神经网络模型分别输出字段“id001”、“id002”、“id003”、“id004”、“id005”的词向量。
更加具体地,“word2vec”神经网络模型会将用户序列[id001,id002,id003,id004,id005]中每个字段用初始向量表示,例如适用one-hot编码规则将用户序列中的id001用初始向量[1,0,0,0,0],进而“word2vec”神经网络模型将预设权重矩阵与字段的初始向量相乘,最终得到用户历史浏览记录的标识信息的词向量。例如,假设,预设权重矩阵为[[0.9,0.2]、[1.3,0.45]、[1.8,-0.3]、[2.5,-0.05]、[0,-3]],则用户序列[id001,id002,id003,id004,id005]的词向量为id001:[0.9,0.2];id002:[1.3,0.45];id003:[1.8,-0.3];id004:[2.5,-0.05];id005:[0,-3],其中,[0.9,0.2]表示id001与其他标识信息之间的相关性。
需要说明的是,关于“word2vec”神经网络模型输出将一个用户序列中每个字段的词向量的其他描述请参考现有的“word2vec”神经网络模型的描述,本申请在此不作赘述。
在本申请实施例中,步骤104:将待标注视频的标识信息作为预设神经网络模型的输入,以使得预设神经网络从若干个用户历史浏览记录的标识信息的词向量中,筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集的具体方式为:
“word2vec”神经网络模型生成待标注视频的标识信息对应的词向量;
“word2vec”神经网络模型计算待标注视频的标识信息对应的词向量与用户历史浏览记录的标识信息的词向量之间的距离,从而筛选出与待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集,其中,第一预设条件可以是0.5,也可以是0.6,对于第一预设条件本申请不作限定。
在本申请实施例中,作为一种可选的实施方式,用户历史浏览记录的标识信息包括用户历史浏览记录的ID;
以及,本申请实施例的装置还包括:
第二确定模块,用于根据用户历史浏览记录的ID确定用户历史浏览记录的标注标签;
第一判断模块,用于判断用户历史浏览记录的标注标签是否具有可信度;
替换模块,用于当用户历史浏览记录的标注标签具有可信度时,将用户历史浏览记录的ID替换为用户历史浏览记录的标注标签。
在本可选的实施方式中,可将用户历史浏览记录的ID替换为用户历史浏览记录的标签。
在本可选的实施方式中,判断用户历史浏览记录的标注标签是否具有可信度的具体方式可以基于向量距离判断,例如可将用户历史浏览记录的标注标签向量化并得到标注标签的向量,进而计算标注标签的向量与预设参考向量的距离,两者之间的距离越小,则标注标签的可信度越高。需要说明是,预设参考向量为预设,例如,由人工确定用户历史浏览记录的一个参考标签,进而将该参考标签向量化得到参考向量。
在本申请实施例中,作为一种可选的实施方式,本申请实施例的装置还包括:
第二判断模块,用于判断具有可信度的标注标签是否有两个以上
随机模块,用于当具有可信度的标注标签有两个以上时,随机打乱两个以上的具有可信度的标注标签。
在本可选的实施方式中,由于默认同一个ID对应的所有标签具有相同的权重,进而通过随机打乱标签可以避免因原始标签的某些排序规则(如按照拼音排序,按照热度排序等等)导致的不同标签具有不同权重的问题,进而可以避免多标签时部分标签无法参与其他ID的词向量的直接训练的问题这类问题。
在本申请实施例中,作为一种可选的实施方式,第一获取模块201执行获取用户点击序列的具体方式为:
从用户行为日志库获取数据记录,数据记录包括若干个用户历史浏览记录的标识信息;
根据时间戳对数据记录中用户历史浏览记录的标识信息进行排序;
根据预设的时间间隔将排序后的数据记录切分为若干个子数据记录,并将子数据记录作为用户点击序列。
在本可选的实施方式中,通过根据时间戳对数据记录中用户历史浏览记录的标识信息进行排序,能够挖掘相邻点击之间的关系,即相邻用户历史浏览记录的标识信息之间的关系,其中,由于基于人们相近的两次点击相关性要强于长期间隔的两次点击,进而通过排序,能够挖掘相近的两次点击相关性。另一方面,通过根据预设的时间间隔将排序后的数据记录切分为若干个子数据记录,可避免由于两次点击间隔过长而导致的两次点击之间的相关性弱的问题。例如,假设上午坐地铁时使用了某个app浏览了新闻和视频,下午下班前也使用了该app,那么上午的最后一个点击和下午的第一个点击之间相关性并没有那么强,进而通过切分,可提高数据记录中的两个用户历史浏览记录的标识信息相关性。
在本申请实施例中,作为一种可选的实施方式,第一确定模块205执行根据预设业务指标从候选向量集中确定出待标注视频的标注标签的具体方式为:
将预设业务指标和候选向量集输入到预设排序器,以使得排序器输出最优向量;
将最优向量确定为待标注视频的标注标签。
在本可选的实施方式中,通过候选向量集可确定待标注视频的标注标签。
在本可选的实施方式中,预设业务指标可以是根据训练周期确定,也可以是根据候选向量的数量确定。例如,假设候选向量的数量为100万个,此时,将100万个候选向量同时关联为待标注视频的标注标签会导致计算量大或者运算量大,此时,就可以将预设业务指标设置为8%,即筛选出100万个候选向量中的8%作为待标注视频的标注标签。
在本申请实施例中,作为一种可选的实施方式,本申请实施例的装置还包括:
第三获取模块,用于获取若干用户行为日志;
数据清洗模块,用于对若干用户行为日志进行数据清洗;
构建模块,用于根据数据清洗后的若干用户行为日志构建用户行为日志库。
在本可选的实施方式中,通过获取若干用户行为日志和对若干用户行为日志进行数据清洗,从而可构建用户行为日志库。
实施例三
请参阅图3,图3是本申请实施例公开的一种基于神经网络的迁移标注设备的结构示意图。如图3所示,该设备包括:
处理器301;以及
存储器302,配置用于存储机器可读指令,指令在由处理器301执行时执行本申请实施例的基于神经网络的迁移标注方法。
本申请实施例的设备通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
实施例四
本申请第四方面公开一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时执行本申请第一方面的基于神经网络的迁移标注方法。
本申请第四方面的存储介质通过执行基于神经网络的迁移标注方法,能够通过用户浏览记录的标识信息构建词向量集,进而从词向量集筛选出能够匹配待标注视频的候选向量集,最终能够根据候选向量集确定待标注视频的标注标签,与现有技术相比,本申请是通过预设神经网络模型挖掘出的用户浏览记录的标识信息之间的潜在关联,进而基于这种潜在关联,可为待标注视频匹配标注标签,因此不需要采用成本高的算法模型对视频的内容进行学习,从而具有标注成本低、标注计算量低的优点,同时由于本申请不需要对视频进行额外的计算机视觉处理,进而本申请的神经网络模型训练时长短,进而神经网络模型的更新速度更快,标签的时效性也更强。另一方面,本申请具有更优的标注精确度,其中,本申请是基于量化后的用户浏览记录的标识信息进行标注的,因此受“标题党”的无关影响极小。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于神经网络的迁移标注方法,其特征在于,所述方法包括:
获取用户点击序列,所述用户点击序列包括若干个用户历史浏览记录的标识信息;
将所述用户点击序列输入到预设神经网络模型,以训练所述预设神经网络模型,并使得所述预设神经网络模型保存每个所述用户历史浏览记录的标识信息的词向量,其中,所述用户历史浏览记录的标识信息的词向量表征所述标识信息与所述用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
获取待标注视频的标识信息;
将所述待标注视频的标识信息作为所述预设神经网络模型的输入,以使得所述预设神经网络从若干个所述用户历史浏览记录的标识信息的词向量中,筛选出与所述待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签。
2.如权利要求1所述的基于神经网络的迁移标注方法,其特征在于,所述用户历史浏览记录的标识信息包括所述用户历史浏览记录的ID;
以及,在所述获取用户点击序列之后,所述将所述用户点击序列输入到预设神经网络模型之前,所述方法还包括:
根据所述用户历史浏览记录的ID确定所述用户历史浏览记录的标注标签;
判断所述用户历史浏览记录的标注标签是否具有可信度;
当所述用户历史浏览记录的标注标签具有可信度时,将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签。
3.如权利要求2所述的基于神经网络的迁移标注方法,其特征在于,在所述判断所述用户历史浏览记录的标注标签是否具有可信度之后,所述将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签,所述方法还包括:
判断具有可信度的标注标签是否有两个以上
当所述具有可信度的标注标签有两个以上时,随机打乱两个以上的所述具有可信度的标注标签。
4.如权利要求2所述的基于神经网络的迁移标注方法,其特征在于,所述获取用户点击序列,包括:
从用户行为日志库获取数据记录,所述数据记录包括若干个所述用户历史浏览记录的标识信息;
根据时间戳对所述数据记录中所述用户历史浏览记录的标识信息进行排序;
根据预设的时间间隔将排序后的所述数据记录切分为若干个子数据记录,并将所述子数据记录作为所述用户点击序列。
5.如权利要求1所述的基于神经网络的迁移标注方法,其特征在于,所述根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签,包括:
将所述预设业务指标和所述候选向量集输入到预设排序器,以使得所述排序器输出所述候选向量集中的最优向量;
将所述最优向量确定为所述待标注视频的标注标签。
6.如权利要求1所述的基于神经网络的迁移标注方法,其特征在于,在所述从用户行为日志库获取数据记录之前,所述方法还包括:
获取若干用户行为日志;
对所述若干用户行为日志进行数据清洗;
根据数据清洗后的所述若干用户行为日志构建所述用户行为日志库。
7.一种基于神经网络的迁移标注装置,其特征在于,所述装置包括:
第一获取模块,用于获取用户点击序列,所述用户点击序列包括若干个用户历史浏览记录的标识信息;
训练模块,用于将所述用户点击序列输入到预设神经网络模型,以训练所述预设神经网络模型,并使得所述预设神经网络模型保存每个所述用户历史浏览记录的标识信息的词向量,其中,所述用户历史浏览记录的标识信息的词向量表征所述标识信息与所述用户点击序列中的另一用户历史浏览记录的标识信息之间的相关性;
第二获取模块,用于获取待标注视频的标识信息;
筛选模块,用于将所述待标注视频的标识信息作为所述预设神经网络模型的输入,以使得所述预设神经网络从若干个所述用户历史浏览记录的标识信息的词向量中,筛选出与所述待标注视频的标识信息之间的向量距离满足第一预设条件的候选向量,并得到候选向量集;
第一确定模块,用于根据预设业务指标从所述候选向量集中确定出所述待标注视频的标注标签。
8.如权利要求7所述的基于神经网络的迁移标注装置,其特征在于,
所述用户历史浏览记录的标识信息包括所述用户历史浏览记录的ID;
以及,所述装置还包括:
第二确定模块,用于根据所述用户历史浏览记录的ID确定所述用户历史浏览记录的标注标签;
第一判断模块,用于判断所述用户历史浏览记录的标注标签是否具有可信度;
替换模块,用于当所述用户历史浏览记录的标注标签具有可信度时,将所述用户历史浏览记录的ID替换为所述用户历史浏览记录的标注标签。
9.一种基于神经网络的迁移标注设备,其特征在于,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行如权利要求1-6任一项所述的基于神经网络的迁移标注方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如权利要求1-6任一项所述的基于神经网络的迁移标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193794.XA CN112287184B (zh) | 2020-10-30 | 2020-10-30 | 基于神经网络的迁移标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193794.XA CN112287184B (zh) | 2020-10-30 | 2020-10-30 | 基于神经网络的迁移标注方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287184A true CN112287184A (zh) | 2021-01-29 |
CN112287184B CN112287184B (zh) | 2022-12-20 |
Family
ID=74353122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011193794.XA Active CN112287184B (zh) | 2020-10-30 | 2020-10-30 | 基于神经网络的迁移标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287184B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN111753877A (zh) * | 2020-05-19 | 2020-10-09 | 海克斯康制造智能技术(青岛)有限公司 | 一种基于深度神经网络迁移学习的产品质量检测方法 |
-
2020
- 2020-10-30 CN CN202011193794.XA patent/CN112287184B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN111753877A (zh) * | 2020-05-19 | 2020-10-09 | 海克斯康制造智能技术(青岛)有限公司 | 一种基于深度神经网络迁移学习的产品质量检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112287184B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767461B (zh) | 数据处理方法及装置 | |
CN102483745B (zh) | 共同选择图像分类 | |
CN111859160B (zh) | 一种基于图神经网络会话序列推荐方法及系统 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN111949869A (zh) | 一种基于人工智能的内容信息推荐方法及系统 | |
CN112257452B (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN109284367B (zh) | 用于处理文本的方法和装置 | |
CN111400586A (zh) | 群组展示方法、终端、服务器、系统及存储介质 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN112417133A (zh) | 排序模型的训练方法和装置 | |
KR102357939B1 (ko) | 폰트를 추천하는 방법 및 이를 구현하는 장치 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN112287184B (zh) | 基于神经网络的迁移标注方法、装置、设备及存储介质 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
CN114662002A (zh) | 对象推荐方法、介质、装置和计算设备 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN114492313A (zh) | 编码器的训练方法、资源推荐方法及装置 | |
KR20220079029A (ko) | 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법 | |
KR20220079073A (ko) | 멀티미디어 변환 콘텐츠 제작 서비스 제공장치의 제작 인터페이스 장치 | |
CN111611491A (zh) | 搜索词推荐方法、装置、设备及可读存储介质 | |
CN113392312A (zh) | 信息处理方法、系统及电子设备 | |
US20230308731A1 (en) | Method for providing service of producing multimedia conversion content by using image resource matching, and apparatus thereof | |
CN115294227A (zh) | 一种多媒体界面生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |