CN111984867A - 一种网络资源确定方法及装置 - Google Patents

一种网络资源确定方法及装置 Download PDF

Info

Publication number
CN111984867A
CN111984867A CN202010844816.8A CN202010844816A CN111984867A CN 111984867 A CN111984867 A CN 111984867A CN 202010844816 A CN202010844816 A CN 202010844816A CN 111984867 A CN111984867 A CN 111984867A
Authority
CN
China
Prior art keywords
vector
recommended
network resource
network resources
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010844816.8A
Other languages
English (en)
Other versions
CN111984867B (zh
Inventor
尚斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010844816.8A priority Critical patent/CN111984867B/zh
Publication of CN111984867A publication Critical patent/CN111984867A/zh
Application granted granted Critical
Publication of CN111984867B publication Critical patent/CN111984867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种网络资源确定方法及装置,针对每一待推荐网络资源,基于该待推荐网络资源的文本标题、文本内容和语义模型,确定该待推荐网络资源的第一初始标题向量;按照目标用户浏览网络资源的时间先后顺序,从目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;基于备选网络资源的第二初始标题向量和第一初始标题向量,确定该待推荐网络资源的目标标题向量;根据各待推荐网络资源的目标标题向量,从各待推荐网络资源中确定与该待推荐网络资源相关联的网络资源。基于上述处理,可以提高推荐的网络资源的有效性。

Description

一种网络资源确定方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种网络资源确定方法及装置。
背景技术
随着计算机技术的发展,当今社会正处于一个信息爆发的时代,用户很难从海量的网络资源中快速的选择出自己感兴趣的网络资源。基于用户的历史行为的网络资源推荐方法,可以对海量的网络资源进行过滤,确定出用户可能感兴趣的网络资源,作为目标网络资源,进而,基于确定出的目标网络资源,向用户进行网络资源推荐。
现有技术中,每一待推荐网络资源可以具有多个标签,待推荐网络资源的标签可以包括能够表示该待推荐网络资源的主题的关键词。当向用户推荐网络资源时,可以获取在历史时间段内用户已浏览的网络资源的一个标签(可以称为待匹配标签),从待推荐网络资源中确定出具有该待匹配标签的待推荐网络资源,作为目标网络资源。进而,基于确定出的目标网络资源,向用户进行网络资源推荐。
然而,由于具有待匹配标签的目标网络资源的一个标签可能无法准确表达目标网络资源的主题,会导致确定出的目标网络资源与用户已浏览的网络资源的主题差异性较大,即确定出的目标网络资源与用户已浏览的网络资源的相关性较低,基于确定出的目标网络资源进行推荐,会导致推荐的网络资源的有效性较低。
发明内容
本发明实施例的目的在于提供一种网络资源确定方法及装置,可以提高推荐的网络资源的有效性。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种网络资源确定方法,所述方法包括:
针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量,包括:
将所述备选网络资源的文本标题和文本内容输入至所述语义模型,得到所述语义模型输出的所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
所述基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量,包括:
基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
可选的,所述目标用户为多个;
所述按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源,包括:
针对每一所述目标用户,按照该目标用户浏览网络资源的时间先后顺序,从该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该目标用户对应的备选网络资源;
所述基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量,包括:
针对每一所述目标用户,计算该目标用户对应的所述备选网络资源的第二初始标题向量的平均值,作为均值向量;
按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量;
计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度;
如果计算得到的相似度大于第一相似度阈值,判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,在所述计算当前的待比较均值向量,与上一次调整后的第一初始标题向量的相似度之后,所述方法还包括:
如果计算得到的相似度不大于所述第一相似度阈值,基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对上一次调整后的第一初始标题向量进行调整;
判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,所述根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源,包括:
对所述各待推荐网络资源进行聚类,得到多个网络资源集合;
计算该待推荐网络资源与该待推荐网络资源所属的网络资源集合中,除该待推荐网络资源外的其他网络资源的目标标题向量的相似度;
基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源,包括:
从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源的目标标题向量的相似度大于第二相似度阈值的待推荐网络资源,作为与该待推荐网络资源相关联的网络资源;
或者,
从该待推荐网络资源所属的网络资源集合中,确定第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源,其中,所述第三数目个网络资源与该待推荐网络资源的目标标题向量的相似度,大于该网络资源集合中除所述第三数目个网络资源外的其他网络资源与该待推荐网络资源的目标标题向量的相似度。
可选的,所述方法还包括:
当接收到针对该待推荐网络资源的浏览请求时,基于与该待推荐网络资源相关联的网络资源,向用户进行网络资源推荐。
在本发明实施的第二方面,还提供了一种网络资源确定装置,所述装置包括:
第一确定模块,用于针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
第二确定模块,用于按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取模块,用于获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
调整模块,用于基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
第三确定模块,用于根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述获取模块,具体用于将所述备选网络资源的文本标题和文本内容输入至所述语义模型,得到所述语义模型输出的所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
所述调整模块,具体用于基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
可选的,所述目标用户为多个;
第二确定模块,具体用于针对每一所述目标用户,按照该目标用户浏览网络资源的时间先后顺序,从该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该目标用户对应的备选网络资源;
所述调整模块,具体用于针对每一所述目标用户,计算该目标用户对应的所述备选网络资源的第二初始标题向量的平均值,作为均值向量;
按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量;
计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度;
如果计算得到的相似度大于第一相似度阈值,判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,所述调整模块,具体用于如果计算得到的相似度不大于所述第一相似度阈值,基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对上一次调整后的第一初始标题向量进行调整;
判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,所述第三确定模块,具体用于对所述各待推荐网络资源进行聚类,得到多个网络资源集合;
计算该待推荐网络资源与该待推荐网络资源所属的网络资源集合中,除该待推荐网络资源外的其他网络资源的目标标题向量的相似度;
基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述第三确定模块,具体用于从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源的目标标题向量的相似度大于第二相似度阈值的待推荐网络资源,作为与该待推荐网络资源相关联的网络资源;
或者,
从该待推荐网络资源所属的网络资源集合中,确定第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源,其中,所述第三数目个网络资源与该待推荐网络资源的目标标题向量的相似度,大于该网络资源集合中除所述第三数目个网络资源外的其他网络资源与该待推荐网络资源的目标标题向量的相似度。
可选的,所述装置还包括:
推荐模块,用于当接收到针对该待推荐网络资源的浏览请求时,基于与该待推荐网络资源相关联的网络资源,向用户进行网络资源推荐。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的网络资源确定方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述的网络资源确定方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的网络资源确定方法。
本发明实施例提供的一种网络资源确定方法,针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量;按照目标用户浏览网络资源的时间先后顺序,从目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;获取备选网络资源的文本标题对应的向量,作为第二初始标题向量;基于第二初始标题向量对第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;根据各待推荐网络资源的目标标题向量,从各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
基于上述处理,由于待推荐网络资源的第一初始标题向量为基于待推荐网络资源的文本标题和文本内容确定出的,能够较为准确的表示待推荐网络资源的主题,待推荐网络资源的目标标题向量为基于备选网络资源的第二初始标题向量进行调整得到的,因此,待推荐网络资源的目标标题向量能够较为准确的表示待推荐网络资源的主题,且能够体现用户感兴趣的网络资源的特征,基于待推荐网络资源的目标标题向量,确定出的待推荐网络资源的相关性较为准确,进而,基于待推荐网络资源中相关联的网络资源进行网络资源推荐,可以提高推荐的网络资源的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种网络资源确定方法的流程图;
图2为本发明实施例提供的另一种网络资源确定方法的流程图;
图3为本发明实施例提供的另一种网络资源确定方法的流程图;
图4为本发明实施例提供的另一种网络资源确定方法的流程图;
图5为本发明实施例提供的一种确定目标标题向量的方法的流程图;
图6为本发明实施例提供的另一种网络资源确定方法的流程图;
图7为本发明实施例提供的一种网络资源确定装置的结构图;
图8为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有技术中,由于具有待匹配标签的目标网络资源的一个标签可能无法准确表达目标网络资源的主题,会导致确定出的目标网络资源与用户已浏览的网络资源的主题差异性较大,即确定出的目标网络资源与用户已浏览的网络资源的相关性较低,基于确定出的目标网络资源进行推荐,会导致推荐的网络资源的有效性较低。
为了解决上述问题,参见图1,图1为本发明实施例提供的一种网络资源确定方法的流程图,该方法可以应用于电子设备,该电子设备可以为服务器,也可以为终端,该电子设备用于确定网络资源。
该方法可以包括以下步骤:
S101:针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量。
其中,语义模型为基于预设训练样本进行训练得到的,预设训练样本包括:样本网络资源的文本标题、样本网络资源的文本内容,以及样本网络资源的文本标题与文本内容的相似度。
S102:按照目标用户浏览网络资源的时间先后顺序,从目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源。
其中,目标用户为已浏览该待推荐网络资源的用户。
S103:获取备选网络资源的文本标题对应的向量,作为第二初始标题向量。
S104:基于第二初始标题向量对第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量。
S105:根据各待推荐网络资源的目标标题向量,从各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
基于本发明实施例提供的网络资源确定方法,由于待推荐网络资源的第一初始标题向量为基于待推荐网络资源的文本标题和文本内容确定出的,能够较为准确的表示待推荐网络资源的主题,待推荐网络资源的目标标题向量为基于备选网络资源的第二初始标题向量进行调整得到的,因此,待推荐网络资源的目标标题向量能够较为准确的表示待推荐网络资源的主题,且能够体现用户感兴趣的网络资源的特征,基于待推荐网络资源的目标标题向量,确定出的待推荐网络资源的相关性较为准确,进而,基于待推荐网络资源中相关联的网络资源进行网络资源推荐,可以提高推荐的网络资源的有效性。
在步骤S101中,待推荐网络资源可以为电子设备当前能够提供的网络资源,或者待推荐网络资源也可以为对应的浏览次数不小于第一次数阈值的网络资源。一个网络资源对应的浏览次数可以为各用户在预设时间段内浏览该网络资源的总次数。
其中,第一次数阈值可以由技术人员根据经验设置。
待推荐网络资源可以为视频、音乐、文章等,当待推荐网络资源为视频或者音乐时,待推荐网络资源的文本内容可以为介绍该视频或者音乐的文本信息。
针对每一待推荐网络资源,电子设备可以确定该待推荐网络资源的文本标题和文本内容,然后,基于预先训练的语义模型,对该待推荐网络资源的文本标题和文本内容进行处理,确定该待推荐网络资源的文本标题对应的向量(即第一初始标题向量)。
一种实现方式中,为了提高确定出的第一初始标题向量的准确度,语义模型可以为DSSM(Deep Structured Semantic Model,深层语义模型)模型,DSSM模型包括:左塔和右塔。左塔可以为LSTM(Long Short-Term Memory,长短期记忆)网络或GRU(Gated RecurrentUnit,门控循环单元)网络,右塔也可以为LSTM网络或GRU网络。
在基于预先训练的语义模型,确定第一初始标题向量之前,电子设备还可以基于预设训练样本对初始语义模型进行训练,确定训练好的语义模型。
预设训练样本可以包括:样本网络资源的文本标题、样本网络资源的文本内容,以及样本网络资源的文本标题与文本内容的相似度(可以称为第一相似度)。
一种实现方式,电子设备可以将样本网络资源的文本标题、样本网络资源的文本内容输入至初始语义模型,初始语义模型的左塔可以对样本网络资源的文本标题进行处理,得到预测的样本网络资源的文本标题对应的向量(可以称为样本标题向量)。初始语义模型的右塔可以对样本网络资源的文本内容进行处理,得到预测的样本网络资源的文本内容对应的向量(可以称为样本内容向量)。然后,初始语义模型可以基于预设相似度算法,计算样本标题向量与样本内容向量的相似度(可以称为第二相似度),并计算表示第一相似度与第二相似度的差异性的损失函数值,并基于计算得到的损失函数值,对初始语义模型的模型参数进行调整,当语义模型达到第一收敛条件时,得到训练好的语义模型。
其中,预设相似度算法可以由技术人员根据经验设置,例如,预设相似度算法可以为欧几里德距离算法,也可以为皮尔逊相关系数算法,或者余弦相似度算法,但并不限于此。
第一收敛条件可以由技术人员根据经验设置。一种实现方式中,第一收敛条件可以为对初始语义模型的训练次数大于第二次数阈值。
其中,第二次数阈值可以由技术人员根据经验设置。
另一种实现方式中,为了提高训练好的语义模型确定的第一初始标题向量的准确性,第一收敛条件可以为本次训练后计算得到的损失函数值,与前第四数目次计算得到的损失函数值的差值均小于第一差值。
其中,第四数目、第一差值均可以由技术人员根据经验设置。
进而,针对每一待推荐网络资源,电子设备可以将该待推荐网络资源的文本标题和文本内容输入至训练好的语义模型,并提取训练好的语义模型的左塔的输出的该待推荐网络资源的文本标题对应的向量,可以得到该待推荐网络资源的第一初始标题向量。
在步骤S102中,一种实现方式中,针对每一待推荐网络资源,电子设备可以确定已浏览该待推荐网络资源的用户,作为目标用户。
另一种实现方式中,针对每一待推荐网络资源,电子设备可以确定已浏览该待推荐网络资源的用户,然后,电子设备可以从已浏览该待推荐网络资源的用户中,确定在预设时间段内已浏览的网络资源的数目不小于第五数目的用户,作为目标用户,例如,电子设备可以确定在10天内已浏览的网络资源的数目不小于20的用户,作为目标用户。
其中,第五数目可以由技术人员根据经验设置。
针对每一待推荐网络资源,在确定出已浏览该待推荐网络资源的目标用户之后,电子设备还可以从目标用户已浏览的网络资源中,确定该待推荐网络资源的备选网络资源。
可以理解的是,目标用户可以为一个,目标用户也可以为多个。
针对每一目标用户,电子设备可以确定该目标用户已浏览的网络资源,以及该目标用户浏览各网络资源的时间。然后,电子设备可以按照该目标用户浏览网络资源的时间先后顺序,对该目标用户已浏览的网络资源进行排序。
一种实现方式中,电子设备可以从排序后的该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源,或浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该待推荐网络资源的备选网络资源。
另一种实现方式中,电子设备可以从排序后的该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源,和浏览时刻在该待推荐网络资源之后的第一数目个网络资源,作为该待推荐网络资源的备选网络资源。
其中,第一数目、第二数目均可以由技术人员根据经验设置,第一数目与第二数目可以相同,第一数目与第二数目也可以不相同。
针对步骤S103和步骤S104,一种实现方式中,针对每一备选网络资源,电子设备可以将该备选网络资源的文本标题和文本内容,输入至训练好的语义模型,训练好的语义模型可以对该备选网络资源的文本标题和文本内容进行处理,得到该备选网络资源的文本标题对应的向量(即第二初始标题向量)。
进而,针对每一待推荐网络资源,电子设备可以基于该待推荐网络资源的备选网络资源的第二初始标题向量,对该待推荐网络资源的第一初始标题向量进行调整,可以得到该待推荐网络资源的目标标题向量。
在本发明的一个实施例中,参见图2,步骤S103可以包括以下步骤:
S1031:将备选网络资源的文本标题和文本内容输入至语义模型,得到语义模型输出的备选网络资源的文本标题对应的向量,作为第二初始标题向量。
相应的,步骤S104可以包括以下步骤:
S1041:基于预先训练的词向量模型,将第二初始标题向量作为迭代参数,对第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
一种实现方式中,为了提高确定出的目标标题向量的准确度,词向量模型可以为word2vec(word to vector,词到向量)模型。
在基于预先训练的词向量模型,确定该待推荐网络资源的目标标题向量之前,电子设备可以对初始词向量模型进行训练,确定训练好的词向量模型,训练好的词向量模型可以用于对第一初始标题向量进行迭代计算,确定调整后的第一初始标题向量。
对初始词向量模型进行训练的训练样本可以包括:待处理向量、参考向量和第三相似度。第三相似度用于表示待处理向量与参考向量的相似度,参考向量可以为一个,参考向量也可以为多个。
一种实现方式中,当参考向量为多个时,电子设备可以将待处理向量、各参考向量输入至初始词向量模型,初始词向量模型可以计算各参考向量的平均值,作为样本均值向量,初始词向量模型可以基于各参考向量,对待处理向量进行迭代计算,得到待处理向量对应的向量(可以称为第一向量)。然后,初始词向量模型可以基于预设相似度算法,计算第一向量与样本均值向量的相似度(可以称为第四相似度),并计算表示第四相似度与第三相似度的差异性的损失函数值,并基于计算得到的损失函数值,对初始词向量模型的模型参数进行调整,当词向量模型达到第二收敛条件时,得到训练好的词向量模型。
其中,预设相似度算法可以由技术人员根据经验设置,例如,预设相似度算法可以为欧几里德距离算法,也可以为皮尔逊相关系数算法,或者余弦相似度算法,但并不限于此。第二收敛条件可以由技术人员根据经验设置。
一种实现方式中,第二收敛条件可以为对初始词向量模型的训练次数大于第三次数阈值。
其中,第三次数阈值可以由技术人员根据经验设置。
另一种实现方式中,第二收敛条件可以为本次训练后计算得到的损失函数值,与前第六数目次计算得到的损失函数值的差值均小于第二差值。
其中,第六数目、第二差值均可以由技术人员根据经验设置。
在本发明的一个实施例中,目标用户可以为多个,参见图3,步骤S102可以包括以下步骤:
S1021:针对每一目标用户,按照该目标用户浏览网络资源的时间先后顺序,从该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该目标用户对应的备选网络资源。
相应的,步骤S1041可以包括以下步骤:
S10411:针对每一目标用户,计算该目标用户对应的备选网络资源的第二初始标题向量的平均值,作为均值向量。
S10412:按照预设顺序,从各均值向量中,选取一个均值向量,作为当前的待比较均值向量。
S10413:计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度。
S10414:如果计算得到的相似度大于第一相似度阈值,判断当前的待比较均值向量是否为预设顺序中的最后一个均值向量,如果是,执行步骤S10415,如果否,返回执行步骤S10412。
S10415:将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
在步骤S10412中,在确定多个均值向量之后,电子设备可以按照预设顺序对多个均值向量进行排序,然后,电子设备可以从排序后的多个均值向量中,选择一个均值向量,作为当前的待处理均值向量。
在步骤S10413中,电子设备可以基于预设相似度算法,计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度。
其中,预设相似度算法可以由技术人员根据经验设置,例如,预设相似度算法可以为欧几里德距离算法,也可以为皮尔逊相关系数算法,或者余弦相似度算法,但并不限于此。
针对步骤S10414和步骤S10415,电子设备在确定当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度之后,可以判断计算得到的相似度是否大于第一相似度阈值,如果计算得到的相似度大于第一相似度阈值,则表明上一次调整后的第一初始标题向量与当前的待比较均值向量较为相似,可以表示备选网络资源的特征。
其中,第一相似度阈值可以由技术人员根据经验设置。
进而,电子设备可以判断当前的待比较均值向量是否为预设顺序中的最后一个均值向量,如果电子设备判定当前的待比较均值向量是预设顺序中的最后一个均值向量,表明已基于多个目标用户对应的备选网络资源的第二初始标题向量,对第一初始标题向量进行调整,得到的调整后的第一初始标题向量可以准确表示该待推荐网络资源的主题。电子设备可以将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
如果电子设备判定当前的待比较均值向量不是预设顺序中的最后一个均值向量,表明仅基于部分目标用户对应的备选网络资源的第二初始标题向量,对第一初始标题向量进行调整,得到的调整后的第一初始标题向量不能准确表示该待推荐网络资源的主题。
进而,电子设备可以按照预设顺序,再次从排序后的多个均值向量中选择一个均值向量(即从排序后的多个均值向量中,选择当前的待处理均值向量之后的第一个均值向量),作为当前的待处理均值向量,并计算当前的待处理均值向量与上一次调整后的第一初始标题向量的相似度,以此类推,直至当前的待比较均值向量是预设顺序中的最后一个均值向量,则电子设备可以将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
在本发明的一个实施例中,参见图4,在步骤S10413之后,该方法还可以包括以下步骤:
S10416:如果计算得到的相似度不大于第一相似度阈值,基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对上一次调整后的第一初始标题向量进行调整。
S10417:判断当前的待比较均值向量是否为预设顺序中的最后一个均值向量,如果是,执行步骤S10418,如果否,返回执行步骤S10412。
S10418:将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
在步骤S10416中,如果计算得到的相似度小于或等于第一相似度阈值,则表明上一次调整后的第一初始标题向量与当前的待比较均值向量的差异较大,不能表示备选网络资源的特征。进而,电子设备可以基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对该上一次调整后的第一初始标题向量进行调整。
一种实现方式中,电子设备可以计算各待推荐网络资源中每两个待推荐网络资源的初始标题向量的点积。可以理解的是,针对每一待推荐网络资源,计算该待推荐网络资源与其他网络资源的初始标题向量的点积时,可以计算上一次调整后的该待推荐网络资源的第一初始标题向量,与其他待推荐网络资源的初始标题向量的点积。
然后,电子设备可以计算除该待推荐网络资源和当前的待比较均值向量对应的备选网络资源外的,其他网络资源之间的点积的和值(可以称为点积和值)。然后,电子设备可以获取该待推荐网络资源与当前的待比较均值向量对应的备选网络资源的点积(可以称为第一点积),并分别计算各第一点积与点积和值的比值。
然后,电子设备可以基于最大似然算法,确定使得各比值均取值较大的向量(可以称为第二向量),并计算第二向量与当前的待比较均值向量的相似度,如果计算得到的相似度大于第一相似度阈值,可以将第二向量作为将本次调整后的第一初始标题向量。
如果计算得到的相似度不大于第一相似度阈值,电子设备可以基于最大似然算法,以及当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对第二向量再次进行调整,以此类推,直至调整得到的向量与当前的待比较均值向量的相似度大于第一相似度阈值,或者调整的次数大于第四次数阈值时,将调整得到的向量作为本次调整后的第一初始标题向量。
其中,第四次数阈值可以由技术人员根据经验设置。
示例性的,待推荐网络资可以包括:网络资源1、网络资源2、网络资源3、网络资源4、网络资源5、网络资源6。当前需要确定网络资源3的目标标题向量,已浏览网络资源3的一个目标用户已浏览的网络资源包括:网络资源2、网络资源3、网络资源4。该目标用户对应的备选网络资源包括:网络资源2和网络资源4。
网络资源1的初始标题向量可以为向量A、网络资源2的初始标题向量可以为向量B、上一次调整后的网络资源3的初始标题向量可以为向量C、网络资源4的初始标题向量可以为向量D、网络资源5的初始标题向量可以为向量E、网络资源6的初始标题向量可以为向量F。
电子设备可以计算向量B和向量D的平均值,得到当前的待比较均值向量X,然后,电子设备可以计算当前的待比较均值向量X与向量C的相似度。
当计算得到的相似度不大于第一相似度阈值时,电子设备可以计算向量A与向量E的点积、向量A与向量F的点积,以及向量E与向量F的点积的和值(即点积和值)。然后,电子设备可以计算向量B与向量C的点积(可以称为点积1),以及向量D与向量C的点积(可以称为点积2),并计算点积1与点积和值的比值(可以称为第一比值),以及点积2与点积和值的比值(可以称为第二比值)。
然后,电子设备可以基于最大似然算法,确定使得第一比值与第二比值均取值较大的向量C1,然后,电子设备可以计算向量C1与当前的待比较均值向量X的相似度,如果计算得到的相似度大于第一相似度阈值,将向量C1作为本次调整后的初始标题向量。
如果计算得到的相似度不大于第一相似度阈值,电子设备可以基于最大似然算法和向量B、向量D,对向量C1进行调整,确定调整后的向量C2,并计算向量C2与当前的待比较均值向量X的相似度,如果计算得到的相似度大于第一相似度阈值,将向量C2作为本次调整后的初始标题向量。
如果计算得到的相似度不大于第一相似度阈值,电子设备可以基于最大似然算法和向量B、向量D,对向量C2进行调整,确定调整后的向量C3,以此类推,直至确定出的向量Cn与当前的待比较均值向量X的相似度大于第一相似度阈值,或者n大于第四次数阈值时,电子设备可以将向量Cn作为本次调整后的初始标题向量。
针对步骤S10417和步骤S10418,在确定本次调整后的第一初始标题向量之后,电子设备可以判断当前的待比较均值向量是否为预设顺序中的最后一个均值向量,如果电子设备判定当前的待比较均值向量是预设顺序中的最后一个均值向量,表明已基于多个目标用户对应的备选网络资源的第二初始标题向量,对第一初始标题向量进行调整,得到的调整后的第一初始标题向量可以准确表示该待推荐网络资源的主题。电子设备可以将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
如果电子设备判定当前的待比较均值向量不是预设顺序中的最后一个均值向量,表明仅基于部分目标用户对应的备选网络资源的第二初始标题向量,对第一初始标题向量进行了调整,得到的调整后的第一初始标题向量不能准确表示该待推荐网络资源的主题。
电子设备可以按照预设顺序,再次从排序后的多个均值向量中选择一个均值向量(即从排序后的多个均值向量中,选择当前的待处理均值向量之后的第一个均值向量),作为当前的待处理均值向量,并计算当前的待处理均值向量与本次调整后的第一初始标题向量的相似度,以此类推,直至当前的待比较均值向量是预设顺序中的最后一个均值向量,则电子设备可以将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
在本发明的一个实施例中,目标用户可以为一个,参见图5,图5为本发明实施例提供的一种确定目标标题向量的方法的流程图,可以包括以下步骤:
S501:针对每一待推荐网络资源,将该待推荐网络资源的第一初始标题向量,和该待推荐网络资源的备选网络资源的第二初始标题向量输入至预先训练的词向量模型。
S502:计算各第二初始标题向量的平均值,作为均值向量。
S503:计算均值向量与第一初始标题向量的相似度。
S504:如果计算得到的相似度大于第一相似度阈值,将第一初始标题向量,作为该待推荐网络资源的目标标题向量。
S505:如果计算得到的相似度不大于第一相似度阈值,基于最大似然算法和第二初始标题向量,对第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
在步骤S105中,一种实现方式中,电子设备可以基于预设相似度算法,计算各待推荐网络资源中每两个待推荐网络资源的目标标题向量的相似度,作为该两个待推荐网络资源的相似度。然后,针对每一待推荐网络资源,电子设备可以从各待推荐网络资源中,确定与该待推荐网络资源的相似度大于第二相似度阈值的网络资源,作为与该待推荐网络资源相关联的网络资源。
其中,预设相似度算法可以由技术人员根据经验设置,例如,预设相似度算法可以为欧几里德距离算法,也可以为皮尔逊相关系数算法,或者余弦相似度算法,但并不限于此。
另一种实现方式中,电子设备可以基于各待推荐网络资源的目标标题向量,以及ANNOY(Approximate Nearest Neighbors Oh Yeah,近似最邻近分类算法)算法,从各待推荐网络资源中确定与该待推荐网络资源相关联的网络资源,
在本发明的一个实施例中,参见图6,步骤S105可以包括以下步骤:
S1051:对各待推荐网络资源进行聚类,得到多个网络资源集合。
电子设备可以从各待推荐网络资源中随机选取第七数目个网络资源,并将该第七数目个网络资源作为聚类中心,基于预设聚类算法,对各待推荐网络资源进行聚类,得到第七数目个网络资源集合。每一网络资源集合中的待推荐网络资源的目标标题向量,与该网络资源集合的聚类中心的目标标题向量的相似度大于第四相似度阈值。
其中,预设聚类算法可以由技术人员根据经验设置,例如,预设聚类算法可以为K-means算法,但并不限于此。第七数目、第四相似度阈值均可以由技术人员根据经验设置。
S1052:计算该待推荐网络资源与该待推荐网络资源所属的网络资源集合中,除该待推荐网络资源外的其他网络资源的目标标题向量的相似度。
S1053:基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源。
一种实现方式中,步骤S1053可以包括以下步骤:
从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源的目标标题向量的相似度大于第二相似度阈值的待推荐网络资源,作为与该待推荐网络资源相关联的网络资源。
另一种实现方式中,步骤S1053可以包括以下步骤:
从该待推荐网络资源所属的网络资源集合中,确定第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源。
其中,第三数目个网络资源与该待推荐网络资源的目标标题向量的相似度,大于该网络资源集合中除第三数目个网络资源外的其他网络资源与该待推荐网络资源的目标标题向量的相似度。第三数目可以由技术人员根据经验设置。
针对网络资源集合中的每一待推荐网络资源,电子设备可以按照与该待推荐网络资源的目标标题向量的相似度从大到小的顺序,对网络资源集合中的除该待推荐网络资源以外的其他网络资源进行排序,进而,电子设备可以从排序结果中,确定前第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源。
在本发明的一个实施例中,针对每一待推荐网络资源,在确定出与该待推荐网络资源相关联的网络资源之后,该方法还可以包括以下步骤:
当接收到针对该待推荐网络资源的浏览请求时,基于与该待推荐网络资源相关联的网络资源,向用户进行网络资源推荐。
一种实现方式中,针对每一待推荐网络资源,当接收到针对该待推荐网络资源的浏览请求时,电子设备可以直接向用户推荐与该待推荐网络资源相关联的网络资源。
另一种实现方式中,针对每一待推荐网络资源,电子设备可以根据与该待推荐网络资源的相似度从大到小的顺序,对与该待推荐网络资源相关联的网络资源进行排序,得到对应的网络资源序列,进而,可以向用户推荐该网络资源序列中的较为靠前的待推荐网络资源。
可见,用户浏览备选网络资源的时刻,在浏览待推荐网络资源的时刻之前或之后,备选网络资源与待推荐网络资源的相关性较强,基于备选网络资源,确定的待推荐网络资源的目标标题向量,可以体现备选网络资源的特征,基于待推荐网络资源的目标标题向量,确定出的与待推荐网络资源相关联的网络资源的准确性较高,可以进一步提高推荐的网络资源的有效性。
另外,由于备选网络资源为基于用户浏览网络资源的行为确定出的,基于备选网络资源确定出的待推荐网络资源的目标标题向量,能够体现用户感兴趣的网络资源的特征,进而,基于待推荐网络资源的目标标题向量,确定出的与待推荐网络资源相关联的网络资源为用户感兴趣的网络资源,后续,基于与待推荐网络资源相关联的网络资源向用户进行推荐,可以提高推荐的网络资源的有效性。
与图1的方法实施例相对应,参见图7,图7为本发明实施例提供的一种网络资源确定装置的结构图,所述装置包括:
第一确定模块701,用于针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
第二确定模块702,用于按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取模块703,用于获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
调整模块704,用于基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
第三确定模块705,用于根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述获取模块703,具体用于将所述备选网络资源的文本标题和文本内容输入至所述语义模型,得到所述语义模型输出的所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
所述调整模块704,具体用于基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
可选的,所述目标用户为多个;
第二确定模块702,具体用于针对每一所述目标用户,按照该目标用户浏览网络资源的时间先后顺序,从该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该目标用户对应的备选网络资源;
所述调整模块704,具体用于针对每一所述目标用户,计算该目标用户对应的所述备选网络资源的第二初始标题向量的平均值,作为均值向量;
按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量;
计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度;
如果计算得到的相似度大于第一相似度阈值,判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,所述调整模块704,具体用于如果计算得到的相似度不大于所述第一相似度阈值,基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对上一次调整后的第一初始标题向量进行调整;
判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
可选的,所述第三确定模块705,具体用于对所述各待推荐网络资源进行聚类,得到多个网络资源集合;
计算该待推荐网络资源与该待推荐网络资源所属的网络资源集合中,除该待推荐网络资源外的其他网络资源的目标标题向量的相似度;
基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源。
可选的,所述第三确定模块705,具体用于从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源的目标标题向量的相似度大于第二相似度阈值的待推荐网络资源,作为与该待推荐网络资源相关联的网络资源;
或者,
从该待推荐网络资源所属的网络资源集合中,确定第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源,其中,所述第三数目个网络资源与该待推荐网络资源的目标标题向量的相似度,大于该网络资源集合中除所述第三数目个网络资源外的其他网络资源与该待推荐网络资源的目标标题向量的相似度。
可选的,所述装置还包括:
推荐模块,用于当接收到针对该待推荐网络资源的浏览请求时,基于与该待推荐网络资源相关联的网络资源,向用户进行网络资源推荐。
基于本发明实施例提供的网络资源确定装置,由于待推荐网络资源的第一初始标题向量为基于待推荐网络资源的文本标题和文本内容确定出的,能够较为准确的表示待推荐网络资源的主题,待推荐网络资源的目标标题向量为基于备选网络资源的第二初始标题向量进行调整得到的,因此,待推荐网络资源的目标标题向量能够较为准确的表示待推荐网络资源的主题,且能够体现用户感兴趣的网络资源的特征,基于待推荐网络资源的目标标题向量,确定出的待推荐网络资源的相关性较为准确,进而,基于待推荐网络资源中相关联的网络资源进行网络资源推荐,可以提高推荐的网络资源的有效性。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于本发明实施例提供的电子设备,由于待推荐网络资源的第一初始标题向量为基于待推荐网络资源的文本标题和文本内容确定出的,能够较为准确的表示待推荐网络资源的主题,待推荐网络资源的目标标题向量为基于备选网络资源的第二初始标题向量进行调整得到的,因此,待推荐网络资源的目标标题向量能够较为准确的表示待推荐网络资源的主题,且能够体现用户感兴趣的网络资源的特征,基于待推荐网络资源的目标标题向量,确定出的待推荐网络资源的相关性较为准确,进而,基于待推荐网络资源中相关联的网络资源进行网络资源推荐,可以提高推荐的网络资源的有效性。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的网络资源确定方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的网络资源确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种网络资源确定方法,其特征在于,所述方法包括:
针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
2.根据权利要求1所述的方法,其特征在于,所述获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量,包括:
将所述备选网络资源的文本标题和文本内容输入至所述语义模型,得到所述语义模型输出的所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
所述基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量,包括:
基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量。
3.根据权利要求2所述的方法,其特征在于,所述目标用户为多个;
所述按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源,包括:
针对每一所述目标用户,按照该目标用户浏览网络资源的时间先后顺序,从该目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为该目标用户对应的备选网络资源;
所述基于预先训练的词向量模型,将所述第二初始标题向量作为迭代参数,对所述第一初始标题向量进行调整,得到调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量,包括:
针对每一所述目标用户,计算该目标用户对应的所述备选网络资源的第二初始标题向量的平均值,作为均值向量;
按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量;
计算当前的待比较均值向量与上一次调整后的第一初始标题向量的相似度;
如果计算得到的相似度大于第一相似度阈值,判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将上一次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
4.根据权利要求3所述的方法,其特征在于,在所述计算当前的待比较均值向量,与上一次调整后的第一初始标题向量的相似度之后,所述方法还包括:
如果计算得到的相似度不大于所述第一相似度阈值,基于最大似然算法和当前的待比较均值向量对应的备选网络资源的第二初始标题向量,对上一次调整后的第一初始标题向量进行调整;
判断当前的待比较均值向量是否为所述预设顺序中的最后一个均值向量;
如果当前的待比较均值向量是所述预设顺序中的最后一个均值向量,将本次调整后的第一初始标题向量,作为该待推荐网络资源的目标标题向量;
如果当前的待比较均值向量不是所述预设顺序中的最后一个均值向量,返回执行按照预设顺序,从各所述均值向量中,选取一个均值向量,作为当前的待比较均值向量的步骤。
5.根据权利要求1所述的方法,其特征在于,所述根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源,包括:
对所述各待推荐网络资源进行聚类,得到多个网络资源集合;
计算该待推荐网络资源与该待推荐网络资源所属的网络资源集合中,除该待推荐网络资源外的其他网络资源的目标标题向量的相似度;
基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源。
6.根据权利要求5所述的方法,其特征在于,所述基于确定出的相似度,从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源相关联的网络资源,包括:
从该待推荐网络资源所属的网络资源集合中,确定与该待推荐网络资源的目标标题向量的相似度大于第二相似度阈值的待推荐网络资源,作为与该待推荐网络资源相关联的网络资源;
或者,
从该待推荐网络资源所属的网络资源集合中,确定第三数目个网络资源,作为与该待推荐网络资源相关联的网络资源,其中,所述第三数目个网络资源与该待推荐网络资源的目标标题向量的相似度,大于该网络资源集合中除所述第三数目个网络资源外的其他网络资源与该待推荐网络资源的目标标题向量的相似度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当接收到针对该待推荐网络资源的浏览请求时,基于与该待推荐网络资源相关联的网络资源,向用户进行网络资源推荐。
8.一种网络资源确定装置,其特征在于,所述装置包括:
第一确定模块,用于针对每一待推荐网络资源,将该待推荐网络资源的文本标题和文本内容输入至预先训练的语义模型,得到所述语义模型输出的该待推荐网络资源的文本标题对应的向量,作为第一初始标题向量,其中,所述语义模型为基于预设训练样本进行训练得到的,所述预设训练样本包括:样本网络资源的文本标题、所述样本网络资源的文本内容,以及所述样本网络资源的文本标题与文本内容的相似度;
第二确定模块,用于按照目标用户浏览网络资源的时间先后顺序,从所述目标用户已浏览的网络资源中,确定浏览时刻在该待推荐网络资源之前的第一数目个网络资源和/或,浏览时刻在该待推荐网络资源之后的第二数目个网络资源,作为备选网络资源;其中,所述目标用户为已浏览该待推荐网络资源的用户;
获取模块,用于获取所述备选网络资源的文本标题对应的向量,作为第二初始标题向量;
调整模块,用于基于所述第二初始标题向量对所述第一初始标题向量进行调整,得到该待推荐网络资源的目标标题向量;
第三确定模块,用于根据各待推荐网络资源的目标标题向量,从所述各待推荐网络资源中,确定与该待推荐网络资源相关联的网络资源。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010844816.8A 2020-08-20 2020-08-20 一种网络资源确定方法及装置 Active CN111984867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010844816.8A CN111984867B (zh) 2020-08-20 2020-08-20 一种网络资源确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010844816.8A CN111984867B (zh) 2020-08-20 2020-08-20 一种网络资源确定方法及装置

Publications (2)

Publication Number Publication Date
CN111984867A true CN111984867A (zh) 2020-11-24
CN111984867B CN111984867B (zh) 2023-06-06

Family

ID=73442459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010844816.8A Active CN111984867B (zh) 2020-08-20 2020-08-20 一种网络资源确定方法及装置

Country Status (1)

Country Link
CN (1) CN111984867B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995765A (zh) * 2021-03-05 2021-06-18 北京奇艺世纪科技有限公司 一种网络资源显示方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915399A (zh) * 2015-05-29 2015-09-16 百度在线网络技术(北京)有限公司 基于新闻标题的推荐数据处理方法及系统
EP3267389A1 (en) * 2016-07-07 2018-01-10 Yandex Europe AG Method and apparatus for selecting a network resource as a source of content for a recommendation system
US20180014038A1 (en) * 2016-07-07 2018-01-11 Yandex Europe Ag Method and apparatus for selecting a network resource as a source of content for a recommendation system
CN109241431A (zh) * 2018-09-07 2019-01-18 腾讯科技(深圳)有限公司 一种资源推荐方法和装置
CN110569436A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种基于高维辅助信息的网络媒体新闻推荐方法
CN110609955A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915399A (zh) * 2015-05-29 2015-09-16 百度在线网络技术(北京)有限公司 基于新闻标题的推荐数据处理方法及系统
EP3267389A1 (en) * 2016-07-07 2018-01-10 Yandex Europe AG Method and apparatus for selecting a network resource as a source of content for a recommendation system
US20180014038A1 (en) * 2016-07-07 2018-01-11 Yandex Europe Ag Method and apparatus for selecting a network resource as a source of content for a recommendation system
CN109241431A (zh) * 2018-09-07 2019-01-18 腾讯科技(深圳)有限公司 一种资源推荐方法和装置
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN110569436A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种基于高维辅助信息的网络媒体新闻推荐方法
CN110609955A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余玄璇,曾国荪,丁春玲: "基于标题与正文匹配的科技论文可信质量评估方法", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995765A (zh) * 2021-03-05 2021-06-18 北京奇艺世纪科技有限公司 一种网络资源显示方法及装置

Also Published As

Publication number Publication date
CN111984867B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN107341716B (zh) 一种恶意订单识别的方法、装置及电子设备
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110717099B (zh) 一种推荐影片的方法及终端
US9208441B2 (en) Information processing apparatus, information processing method, and program
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN108376129B (zh) 一种纠错方法及装置
CN110287409B (zh) 一种网页类型识别方法及装置
CN111767713B (zh) 关键词的提取方法、装置、电子设备及存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN113032589B (zh) 多媒体文件推荐方法、装置、电子设备及可读存储介质
CN111061842A (zh) 一种相似文本确定方法及装置
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN108021713B (zh) 一种文档聚类的方法和装置
CN112989118B (zh) 视频召回方法及装置
CN111400516B (zh) 标签确定方法、电子设备及存储介质
CN111984867B (zh) 一种网络资源确定方法及装置
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN113837807A (zh) 热度预测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant