CN113065027A - 视频推荐的方法、装置、电子设备和存储介质 - Google Patents

视频推荐的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113065027A
CN113065027A CN202110420279.9A CN202110420279A CN113065027A CN 113065027 A CN113065027 A CN 113065027A CN 202110420279 A CN202110420279 A CN 202110420279A CN 113065027 A CN113065027 A CN 113065027A
Authority
CN
China
Prior art keywords
text
video
expression vector
model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110420279.9A
Other languages
English (en)
Inventor
杜东
蔡慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110420279.9A priority Critical patent/CN113065027A/zh
Publication of CN113065027A publication Critical patent/CN113065027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种视频推荐的方法、装置、电子设备和存储介质。该视频推荐的方法包括:获取待推荐视频的第一关联文本,其中,第一关联文本包括K个字符;对第一关联文本进行编码处理,得到第一编码序列,其中,第一编码序列包括K个概率值,概率值用于表示所对应的字符属于有效字符的概率;根据第一编码序列以及第一关联文本,生成第一文本表达向量;根据第一文本表达向量以及第二文本表达向量,确定句子相似度;若句子相似度大于推荐阈值,则向用户推荐待推荐视频。该方法避免由于无效字符而使得推荐结果与用于进行推荐的目标视频的内容差距过大,提升推荐的准确性以及用户体验。

Description

视频推荐的方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频推荐的方法、装置、电子设备和存储介质。
背景技术
短视频是目前占用用户时长最久的应用形态之一。短视频应用的生态系统通常包含平台方、内容生产者以及内容消费者。短视频的推荐通常分为召回、粗排序、精排序以及混合排序等几个阶段。通过多种召回策略通过不同的排列组合方式最终在模型排序后展现给用户。
目前,短视频推荐通常基于视频内容的学习推荐方式,根据视频中内容将视频向量化表征,根据用户浏览过的视频的向量化表征来查找具有相似内容的视频来进行视频推荐。
然而,由于短视频的文本中包含的无意义内容经常具有较高的相似度,在推荐模型的学习和运行过程中,无意义内容的存在会导致视频之间的相似度升高,从而降低视频推荐的准确性。
发明内容
基于上述技术问题,本申请提供一种视频推荐的方法,以提升视频推荐的准确性以及用户体验。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种视频推荐的方法,包括:
获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数;
对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示所对应的字符属于有效字符的概率;
根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量;
根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频;
若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
根据本申请实施例的一个方面,提供一种视频推荐装置,包括:
第一文本获取模块,用于获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数;
第一编码处理模块,用于对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示元素所对应的字符属于有效字符的概率;
第一表达生成模块,用于根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量;
相似度模块,用于根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频;
推荐模块,用于若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
在本申请的一些实施例中,基于以上技术方案,第一编码处理模块包括:
第二输入单元,用于将所述第一关联文本输入到第一编码模型中,得到所述第一编码模型输出的第一编码序列,其中,所述K个概率值由M个第一概率值以及N个第二概率值组成,所述第一概率值用于指示对应字符为有效字符,所述第二概率值用于指示对应字符为无效字符,所述M和所述N均为大于或等于0的整数。
在本申请的一些实施例中,基于以上技术方案,第一编码处理模块包括:
第一输入单元,用于将所述第一关联文本输入到第二编码模型中,得到所述第二编码模型输出的第一编码序列,其中,所述K个概率值中每个概率值的取值在预设范围内,且大于或等于概率阈值的概率值用于指示对应字符为有效字符,小于所述概率阈值的概率值用于指示对应字符为无效字符。
在本申请的一些实施例中,基于以上技术方案,所述第一文本表达向量是通过相似匹配模型的第一子模型生成的;视频推荐装置还包括:
第二文本获取模块,用于获取历史视频的第二关联文本,其中,所述第二关联文本包括至少一个字符;
第二编码处理模块,用于对所述第二关联文本进行编码处理,得到第二编码序列,其中,所述第二编码序列包括至少一个概率值,每个概率值对应于一个字符;
第二表达生成模块,用于将所述第二编码序列以及所述第二关联文本输入所述相似匹配模型的第二子模型,生成所述第二文本表达向量。
在本申请的一些实施例中,基于以上技术方案,相似度模块包括:
相似度计算单元,用于计算所述第一文本表达向量和所述第二文本表达向量的余弦相似度;
相似度确定单元,用于根据所述余弦相似度以及相似度阈值,确定所述句子相似度。
在本申请的一些实施例中,基于以上技术方案,视频推荐装置还包括:
训练数据获取模块,用于获得第一训练数据和第二训练数据,其中,所述第一训练数据包括第一训练文本和第一训练序列,所述第二训练数据包括第二训练文本和第二训练序列;
第一表达结果模块,用于将所述第一训练数据输入待训练匹配模型所包括的第一表达向量模型,得到所述第一表达向量模型输出的第一表达结果;
第二表达结果模块,用于将所述第二训练数据输入所述待训练匹配模型所包括的第二表达向量模型,得到所述第二表达向量模型输出的第二表达结果,其中,所述第一表达向量模型与所述第二表达向量模型共享网络权重;
相似度预测模块,用于将所述第一表达结果和所述第二表达结果输入到所述待训练匹配模型的相似匹配模型,得到预测匹配结果;
模型训练模块,用于根据所述预测匹配结果以及所述实际匹配结果,训练所述待训练匹配模型,得到所述相似匹配模型。
在本申请的一些实施例中,基于以上技术方案,所述训练数据获取模块,包括:
无效片段获取单元,用于获取无效文本片段集合,其中,所述无效文本片段集合至少包括第一无效文本片段和第二无效文本片段;
视频文本获取单元,用于获取视频文本数据,其中,所述视频文本数据包括第一视频文本、第二视频文本以及相似度标识;
第一文本生成单元,用于若所述相似度标识指示所述第一视频文本与所述第二视频文本不相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第二无效文本片段生成所述第二训练文本;
第二文本生成单元,用于若所述相似度标识指示所述第一视频文本与所述第二视频文本相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第一无效文本片段生成所述第二训练文本。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的视频推荐的方法。
根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的视频推荐的方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供视频推荐的方法。
在本申请的实施例中,将视频关联文本编码成概率值的序列,每个概率值表示对应的字符属于有效字符的概率,并且根据编码序列和关联文本生成文本表达向量,在根据所生成的文本表达向量来寻找相似视频推荐给用户。通过上述的方式,在进行视频推荐时,能够使视频关联文本中的有效字符对于推荐结果的影响扩大,而使无效字符对于推荐结果的影响缩小,从而避免由于无效字符而使得推荐结果与用于进行推荐的目标视频的内容差距过大,提升推荐的准确性以及用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示意性地示出了本申请技术方案在一个应用场景中的示例性系统构架示意图;
图2示出了本申请实施例中的一种视频推荐的方法的流程示意图;
图3为本申请实施例中第一编码模型的示意图;
图4为本申请实施例中第一编码模型的另一个示意图;
图5为本申请实施例中表达向量模型的示意图;
图6为本申请实施例中相似匹配模型的训练结构;
图7示意性地示出了本申请实施例中视频推荐装置的组成框图;
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,本申请提供的方案可以应用于短视频平台、网络电视和网络视频平台等视频信息内容的发布平台中。在此类平台中,通常会根据用户的使用习惯来为用户推荐相关的内容,以便提升用户的使用体验。具体地,在短视频平台中,可以根据用户浏览过的视频为用户具有同类内容的视频。例如,用户浏览的美食视频较多,则可以根据用户浏览过的视频标题为用户推荐更多美食主题的相关视频。在网络视频平台中,则可以根据用户浏览过的视频的简介为用户推荐更多的相关视频。视频制作者经常会在视频的标题或者简介中添加与视频内容无关的宣传文字,此类宣传文字对视频推荐可能会产生干扰,例如,两个视频的简介分别为“大苹果!帮忙点赞收藏!”和“飞向远方!帮忙点赞收藏!”,则由于其中的宣传语相同,可能会导致这两个视频被误判为相关视频,从而影响推荐结果。本申请所提供的方法可以将视频的标题或者简介中无效信息识别出来,并且在推荐的过程中降低或者直接忽略掉这些无效信息,从而让视频推荐更加准确。
本申请的方案可应用于个人计算机、手持设备、车载设备、服务器或者多个服务器构成的服务器系统,并且具体可以采用人工智能的方式来实现。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
为了便于理解,以本申请的方案应用于短视频应用程序这一场景为例进行说明。请参阅图1,图1示意性地示出了本申请技术方案在一个应用场景中的示例性系统构架示意图。
由图1可以看出,该场景包括服务器以及手机、笔记本电脑、车载设备等终端设备。短视频应用的客户端在手机、车载设备、笔记本电脑等终端设备上运行,并且与服务器进行通信。服务器根据终端设备的视频播放请求,向终端设备发送多媒体流,终端设备则对多媒体流进行解码和播放。同时,用户在浏览时,服务器还会根据用户选择浏览的视频的标题或者简介,来寻找具有相似标题或简介的视频来形成视频推荐序列,并且将该视频推荐序列发送给客户端。客户端则可以利用视频推荐序列向用户推荐视频,以供用户进行浏览。
图1中的服务器具体可以是单个服务器、服务器集群或者云服务器等各类形式。服务器用于支持客户端的视频业务功能,例如视频播放、视频上传、用户登录和信息管理等各种类型的业务。在本申请中,服务器还会根据用户的浏览历史中的视频寻找具有相似标题或者简介的视频来生成推荐序列,并下发给客户端。客户端在用户进行浏览时,根据推荐序列向用户展示推荐的视频,从而为用户提供感兴趣的内容,提升用户粘度。
客户端与服务器之间的通信方式可以采用任何有线或无线通信方式,本申请对此不作限制。
可以理解的是,图1中所示出的场景仅为本申请的方案所应用的场景示例,实际的应用场景可以采用其他适合网络结构,例如加入代理服务器和多级网络等,本申请对此不作限制。
本申请的方法所应用的短视频平台等信息发布平台可以采用区块链系统架构。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
下面结合具体实施方式对本申请提供的技术方案做出详细说明。
请参阅图2,图2示出了本申请实施例中的一种视频推荐的方法的流程示意图,本实施例的方法可以应用于如上文所述的服务器中,由服务器上的后台程序来执行。本实施例的方法可以包括如下步骤S201至步骤S205:
步骤S201,获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数。
在本实施例中,视频推荐装置获取待推荐视频的第一关联文本,第一关联文本包括至少一个字符。具体地,视频推荐装置可以从待推荐视频的相关信息中获取第一关联文本,也可以从待推荐视频中直接识别出第一关联文本。
待推荐视频可以是视频推荐装置可以获取到的任一视频,例如,从服务器所存储的所有视频中获取。待推荐视频也可以从预定的范围内获取,例如,从热门视频列表中获取,或者从用户关注的账户所上传的视频中获取,又或者从用户浏览过的相同账户中获取。第一关联文本通常为一句话或者一段话,具体为视频的标题或者简介中的文本。在一个实施例中,可以对视频的视频帧进行处理和分析,从而从视频帧中获取文字信息作为第一关联文本。取决于文本的语言,字符通常指的是字或者词等基本语句的基本单元,例如,在中文中,K个字符表示第一关联文本中包括K个字,在英文中,K个字符表示第一关联文本中包括K个单词,诸如此类。
可以理解的是,视频推荐装置可以在任意时刻执行本实施例的方法。例如,可以由服务器定时自动触发执行,也可以响应于用户的操作指令来执行,本申请对此不作限制。
步骤S202,对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示所对应的字符属于有效字符的概率。
在本申请中,视频推荐装置随获取到的第一关联文本进行编码,从而得到第一编码序列。第一编码序列中包括与第一关联文本中的字符对应的概率值,每个概率值对应于一个字符。在编码的过程中,视频推荐装置对第一关联文本中的字符进行分析来确定各个字符属于有效字符的概率。如上文所述,有效字符指的是第一关联文本中与视频内容相关的字符。与有效字符相对应的为无效字符,指的是第一关联文本中与视频内容不相关的字符。具体地,编码处理可以采用机器学习模型来识别或者采用关键词识别等方式。在一个实施例中,服务器中保存有预设的无效字符列表,视频推荐装置根据该无效字符列表,识别第一关联文本中无效字符,并且将同一子句内的字符的概率设置为较低的值,而将其他子句内的字符的概率设置为较高的值。
步骤S203,根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量。
具体地,视频推荐装置首先将第一关联文本转换成数字向量。然后,视频推荐装置根据第一编码序列中各个字符对应的概率来对数字向量进行加权操作,例如采用对位相乘的方式,然后通过编码器来处理所得到的加权结果,再通过转换算法或者机器学习模型来计算第一文本表达向量。数字向量的转换方法可以采用多种方式,例如one hot编码、信息检索技术、分布式表示和Word2vec算法等方式。
步骤S204,根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频。
在本实施例中,视频推荐装置根据第一文本表达向量和第二文本表达向量,计算两个视频的关联文本的相似度作为句子相似度,从而评估两个视频的相似程度。第一文本表达向量对应于待推荐的视频,而第二文本表达向量为用于进行视频推荐的依据的视频,可以是用户观看过的视频或者用户收藏的视频等可以代表用户喜好内容的视频。第二文本表达向量的计算方式与第一文本表达向量的计算方式相同,即利用相同的算法并且采用相同的参数,从而避免外部因素影响相似度预测。
第二文本表达向量的计算可以与第一文本表达向量的计算过程同时进行,也可以由服务器预先计算后存储在数据库中,在需要进行推荐是从数据库中取出来进行比对。
步骤S205,若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
在本实施例中,视频推荐装置将句子相似度与推荐阈值相比较。若句子相似度大于推荐阈值,则表示待推荐视频与用户浏览过的视频的相似度较高,因此,向用户推荐该待推荐视频。
可以理解的是,本申请的方法可以计算过程可以循环执行多次,从而生成一个推荐视频序列,推荐视频序列中包括多个根据用户喜好推荐的视频,然后一次向用户推荐多个待推荐视频。
在本申请的实施例中,将视频关联文本编码成概率值的序列,每个概率值表示对应的字符属于有效字符的概率,并且根据编码序列和关联文本生成文本表达向量,在根据所生成的文本表达向量来寻找相似视频推荐给用户。通过上述的方式,在进行视频推荐时,能够使视频关联文本中的有效字符对于推荐结果的影响扩大,而使无效字符对于推荐结果的影响缩小,从而由于无效字符而使得推荐结果与用于进行推荐的目标视频的内容差距过大,提升推荐的准确性以及用户体验。
在本申请的一个实施例中,为了得到第一编码序列,步骤S202,对所述第一关联文本进行编码处理,得到第一编码序列,可以包括如下步骤,详细说明如下:
将所述第一关联文本输入到第一编码模型中,得到所述第一编码模型输出的第一编码序列,其中,所述K个概率值由M个第一概率值以及N个第二概率值组成,所述第一概率值用于指示对应字符为有效字符,所述第二概率值用于指示对应字符为无效字符,所述M和所述N均为大于或等于0的整数。
具体地,视频推荐装置将将第一关联文本输入到第一编码模型中,得到第一编码模型输出的第一编码序列。第一编码模型为已经训练好的机器学习模型,具体可以是表征类文本匹配模型。视频推荐装置首先在第一关联文本前后分别拼接上“[CLS]”和“[SEP]”作为开头和结尾。例如,第一关联文本为“带你了解新版本改动!请点击蓝色按钮关注我哦”,则实际输入到第一编码模型中的内容为“[CLS]带你了解新版本改动!请点击蓝色按钮关注我哦[SEP]”。第一编码模型具体为多层结构,具体包括嵌入层、编码器以及池化层。嵌入层用于将输入的第一关联文本转换成连续分布式表示,即词嵌入或词向量。编码器用于对嵌入层转换出的嵌入表示进行非线性的标识,而池化层则将“[CLS]”标记的表示取出作为整个第一关联文本的表示。编码器通常具有多个层,最后一层的输出表示和池化层输出的序列的整体表示均为编码器的输出。
嵌入层共包含三种组件,分别为嵌入变换、层标准化以及随机失活。嵌入变换层通过线性变换的方式将离散标记转成低维稠密的向量。假设第一关联文本T的编码向量为s(L),L为第一关联文本的长度,即T中有L个标记。如果词嵌入长度为H,那么经过嵌入变换,得到T的隐状态h(L×H)。
层标准化用于沿着词嵌入的维度进行标准化。具体地,标准化方式为特征值和均值的差与方差的商,再加入模型参数进行计算,其中,均值和方式是针对每个样本每个位置的词嵌入分别计算的,而模型参数是共用的。
随机失活主要用于方式过拟合。具体地,设置一个取值范围在0至1之间的超参数,标识按照概率P年随机将输出值设置为0。在未命中概率的情况下,将词嵌入的该特征值除以1-P,从而保持期望不变。
编码器通常由多个结构相同,但相互间不共享参数的隐藏层串联构成。隐藏层包括线性变换、激活函数、多头自注意力、跳跃连接,以及上文描述的层标准化和随机失活。线性变换即全连接层,此处不再赘述。在第一编码模型中,激活函数通常采用tanh函数、softmax函数以及GELU函数之一,三种函数的具体内容在此处也不再赘述。
多头自注意力利用不同的自注意力模块来获得第一关联文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量。其中,自注意力模块是在普通的注意力模块基础上修改而来的,可以表示输入与自身的依赖关系。注意力模块主要涉及查询目标、关键字以及值,目标字及其上下文的字都有各自的原始值,注意力机制将目标字作为查询目标、其上下文的各个字作为关键字,并将查询目标与各个关键字的相似性作为权重,把上下文各个字的值融入目标字的原始值中,从而输出目标字的增强语义向量表示。自注意力模块将分别将每个字作为查询目标,加权融合文本中所有字的语义信息,得到各个字的增强语义向量。查询目标、关键字以及值的向量表示均来自于同一输入文本,从而形成自注意力模块。
跳跃连接即残差连接,其将某一个层的输出跳过中间的若干个层,直接输入到更深的某个层中。在多层模型中,由于非线性变化的多次堆叠造成的信息损失,深层网络接收到的信息与最初输入的信息相比信息损失较大。跳跃连接可以将原始的输入信息传播到更深层的隐藏层中,从而防止神经网络梯度消失或梯度爆炸。
池化层是将[CLS]标记对应的表示取出来,并做一定的变换,作为整个序列的表示并返回,以及原封不动地返回所有的标记表示,其通常是线性变换与激活函数的串联,激活函数通常采用tanh函数。
第一编码模型中将多个编辑器堆叠起来,堆叠层数通常可以采用12层或者24层,前一个编辑器的输出作为下一个编辑器的输入,将最后一层的编辑器的隐藏层作为结果输出,其输出结果为一个向量,向量中对应于第一关联文本的每个字均包括一个概率值。最后,通过softmax函数对输出的向量进行二分类处理,从而将输出的向量转化为一个由0和1组成序列。0即为第一概率值,而1即为第二概率值,0所对应的字符为无效字符,而1所对应的字符为有效字符。
为了便于说明,请参阅图3,图3为本申请实施例中第一编码模型的示意图。如图3所示,第一编码模型接收“[CLS]带你了解新版本改动!请点击蓝色按钮关注我哦[SEP]”(部分被省略)作为输入,并且输出一个由0和1组成的序列。可以看出,1所对应的“带你了解新版本改动”为有效字符,而0所对应的“请点击蓝色按钮关注我哦”为无效字符。可以理解的是,虽然图中的有效字符和无效字符都是连续出现的,然而,在实际情况中,有效字符和无效字符可以穿插出现,例如,每个字之间加入一个空格或者连接线的情况。因此,图3中所示出的仅为有效字符和无效字符的一个示例,而非限制。
第一编码模型的训练过程为监督训练过程。具体地,从现有视频的关联文本中采集一批关联文本,进行人工标准作为训练数据。利用训练数据随第一编码模型进行训练,并且用交叉熵函数作为模型的损失函数来调节模型参数,直至损失函数收敛或达到预设的训练标准,例如达到循环次数等,既可以得到训练好的第一编码模型。
在本申请的实施例中,通过第一编码模型直接识别出视频的关联文本中的有效字符和无效字符,从而能够在后续相似度计算过程中将无效字符完全排除,从而尽可能降低无意义片段对相似度匹配的影响,进而提升视频推荐的准确性。
在本申请的一个实施例中,为了得到第一编码序列,步骤S202,对所述第一关联文本进行编码处理,得到第一编码序列,可以包括如下步骤,详细说明如下:
将所述第一关联文本输入到第二编码模型中,得到所述第二编码模型输出的第一编码序列,其中,所述K个概率值中每个概率值的取值在预设范围内,且大于或等于概率阈值的概率值用于指示对应字符为有效字符,小于所述概率阈值的概率值用于指示对应字符为无效字符。
具体地,视频推荐装置将将第一关联文本输入到第二编码模型中,得到第一编码模型输出的第一编码序列。第二编码模型为与第一编码模型类似,同样为已经训练好的机器学习模型,具体可以是表征类文本匹配模型。第二编码模型与第一编码模型的输入相同,此处不再赘述。第二编码模型的输出为其输出结果为一个向量,向量中对应于第一关联文本的每个字均包括一个概率值。概率值通常归一化为0至1之间的小数。将每个字符对应的概率值与预设的有效概率阈值做比较,可以确定对应字符是否属于有效字符。具体地,若概率阈值为0.5,则对于概率大于0.5的字符为有效字符,而小于0.5的字符为无效字符。
为了便于说明,请参阅图4,图4为本申请实施例中第一编码模型的另一个示意图。如图4所示,第一编码模型接收“[CLS]带你了解新版本改动!请点击蓝色按钮关注我哦[SEP]”(部分被省略)作为输入,并且输出一个由取值范围在0至1区间的内概率值组成的序列。若概率阈值设置为0.5,则可以看出,对应概率值大于0.5的字符“带你了解新版本改动”为有效字符,而对应概率值小于0.5的字符“请点击蓝色按钮关注我哦”为无效字符。可以理解的是,虽然图中的有效字符和无效字符都是连续出现的,然而,在实际情况中,有效字符和无效字符可以穿插出现,例如,每个字之间加入一个空格或者连接线的情况。因此,图4中所示出的仅为有效字符和无效字符的一个示例,而非限制。
在本实施例中,第一编码模型的训练过程与上述关于图3所示的是实施例中的训练过程相同,此处不再赘述。
在本申请的实施例中,通过第一编码模型识别出视频的关联文本中的有效字符和无效字符的概率,从而能够在后续相似度计算过程中将充分考虑有效字符的相似性,在降低无效字符影响的情况下,对关联文本中的所有字符均进行充分考虑,进而提升视频推荐的合理性。
在本申请的一个实施例中,所述第一文本表达向量是通过相似匹配模型的第一子模型生成的;为了得到第二编码序列,在步骤S204.根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度之前,所述方法还包括如下的步骤:
获取历史视频的第二关联文本,其中,所述第二关联文本包括至少一个字符;
对所述第二关联文本进行编码处理,得到第二编码序列,其中,所述第二编码序列包括至少一个概率值,每个概率值对应于一个字符;
将所述第二编码序列以及所述第二关联文本输入所述相似匹配模型的第二子模型,生成所述第二文本表达向量。
具体地,视频推荐装置从服务器存储的视频中获取第二关联文本。第二关联文本与第一关联文本类似,可以是历史视频的标题或者简介。通常,第二关联文本与第一关联文本是同一种数据,例如,都是视频标题或者都是视频简介。历史视频指的是在服务器中保存的除了待推荐视频之外的其他视频。
获取到第二关联文本后,视频推荐装置对所述第二关联文本进行编码处理,得到第二编码序列。具体地,对第二关联文本进行编码处理的方式与对第一关联文本进行编码处理的方式相同。在使用机器学习模型对第一关联文本进行编码处理的情况下,同一个机器学习模型对第二关联文本记性编码处理。因此,第二编码序列与第一编码序列的形式也是相同的,即均是由0和1构成的编码序列,或者均是包括概率值的编码序列。
在得到第二编码序列后,视频推荐装置将第二编码序列以及第二关联文本输入相似匹配模型的第二子模型,生成第二文本表达向量。具体地,第二子模型为训练好的表达向量模型,视频推荐装置将第二编码序列和第二关联文本输入到该训练好的表达向量模型中来计算第二文本表达向量。需要注意的是,生成第一文本表达向量的方式和生成第二文本表达向量的方式是相同的,即相似匹配模型的第一子模型和第二子模型为相同的模型,并且两个子模型将共享权重,也就是说,相似匹配模型是具有两个子模型的孪生网络。
为了便于介绍,请参阅图5,图5为本申请实施例中表达向量模型的示意图。如图5所示,表达向量模型采用第一编码模型作为基础进行训练得到。训练好的第一编码模型接收“[CLS]带你了解新版本改动!请点击蓝色按钮关注我哦[SEP]”(部分被省略)以及对应的编码序列作为输入,编码序列中包括对应于每个字符的概率值,可以看出,对应概率值大于0.5的字符“带你了解新版本改动”为有效字符,而对应概率值小于0.5的字符“请点击蓝色按钮关注我哦”为无效字符。第一编码模型输出一个最终的表达向量,作为输入句子的文本表达向量。可以理解的是,虽然图中仅示出了一个表达向量模型,但是实际上还有另一个相同的表达向量模型用于生成另一个句子的文本表达向量。
虽然图中示出的是第一编码模型接收概率值作为输入,然而,第一编码模型也可以接收由0和1的标识组成的编码序列作为输入,其结构和输出与上述将概率值作为输入的模型是相同的,此处不再赘述。
在本申请的实施例中,在确定句子相似度之前,计算出第一文本表达向量和第二文本表达向量,计算过程可以同步进行,从而能够保证第二文本表达向量的实时性,相较于预先计算并存储的方式,能够避免关联文本的改动造成表达向量与实际文本不匹配造成的推荐失误,提升视频推荐的稳定性。
在本申请的一个实施例中,为了确定句子相似度,步骤S204.根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,可以包括如下的步骤:
计算所述第一文本表达向量和所述第二文本表达向量的余弦相似度;
根据所述余弦相似度以及相似度阈值,确定所述句子相似度。
在本实施例中,介绍了一种基于全连接层出句子相似度的方式。在基于表达向量模型得到第一文本表达向量和第二文本表达向量之后,可以计算第一文本表达向量和所述第二文本表达向量的余弦相似度。为了便于理解,以第一文本表达向量为5个维度,第二文本表达向量也是5个维度为例进行介绍,需要说明的是,在实际应用中,第一特征向量以及第二特征向量可以是任一维度,此处仅为一个示意,不应理解为对本申请的限定。
具体地,假设第一文本表达向量为(3,1,1,2,2,1,0),第二文本表达向量为(3,1,1,2,2,0,1),则两个文本表达向量的内积为19,模长乘积为20,则余弦相似度为19/20=0.95。若相似度阈值为0.5,则确定句子相似度为1。
可以理解的是,如果余弦相似度越接近1,则表示第一关联文本与第二关联文本越相似,反之,如果相似度分值越接近0,则表示第一关联文本与第二关联文本越不同。
本申请实施例中,提供了一种基于余弦相似度确定句子相似度的方式,通过上述方式,将两个关联文本的差异用余弦定理的方式体现,有利于输出更准确地判定结果。
在本申请的一个实施例中,为了确定句子相似度,步骤S204.根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,可以包括如下的步骤:
获得第一训练数据和第二训练数据,其中,所述第一训练数据包括第一训练文本和第一训练序列,所述第二训练数据包括第二训练文本和第二训练序列;
将所述第一训练数据输入待训练匹配模型所包括的第一表达向量模型,得到所述第一表达向量模型输出的第一表达结果;
将所述第二训练数据输入所述待训练匹配模型所包括的第二表达向量模型,得到所述第二表达向量模型输出的第二表达结果,其中,所述第一表达向量模型与所述第二表达向量模型共享网络权重;
将所述第一表达结果和所述第二表达结果输入到所述待训练匹配模型的相似匹配模型,得到预测匹配结果;
根据所述预测匹配结果以及所述实际匹配结果,训练所述待训练匹配模型,得到所述相似匹配模型。
在本申请的实施例中,介绍了一种相似匹配模型的训练方法。具体地,第一训练文本和第二训练文本可以是从数据库中随机采集的真实数据。第一训练序列和第二训练序列可以通过人工标注的方式,或者通过训练好的第一编码模型或者第二编码模型来编码得到。
待训练匹配模型为孪生结构,其包括第一表达向量模型和第二表达向量模型,并且第一表达向量模型与第二表达向量模型共享网络权重。表达向量模型具体可以采用上述的第一编码模型。
将第一训练数据输入待训练匹配模型所包括的第一表达向量模型,得到第一表达向量模型输出的第一表达结果,并且将第二训练数据输入待训练匹配模型所包括的第二表达向量模型,得到第二表达向量模型输出的第二表达结果。根据第一表达结果和第二表达结果计算余弦相似度,来确定两个训练文本的相似度作为预测匹配结果。最后,根据预测的相似度以及人工标注的相似度,通过平方损失函数来对待训练匹配模型进行参数调整,从而得到相似匹配模型。具体地,平方损失函数基本形式如下:
Figure BDA0003027576890000181
其中,w(θ)为人工标注的相似度的权重,y为人工标注的相似度,
Figure BDA0003027576890000182
为预测得到的相似度。可以看出的是,平方损失函数的最小值为0,预测得到的相似度与人工标注的相似度之间的差别越小,则平方损失函数的结果越接近于0。因此,对待训练匹配模型中的第一表达向量模型和第二表达模型进行参数调优,使得平方损失函数最小,此时待训练匹配模型所得到的结果为最佳结果,将该状态的待训练匹配模型作为相似匹配模型。
可以理解的是,本实施例中采用的损失函数仅为示例,而非限制。在具体的实现中,还可以采用其他适合的损失函数,例如对比损失函数、交叉熵损失或者绝对损失函数等,本申请对此不做限制。
为了便于介绍,请参阅图6,图6为本申请实施例中相似匹配模型的训练结构。如图6所示,在相似匹配模型中,两个子模块分别输出两个句子的表达向量,然后再计算余弦相似度,最后根据平方损失函数来进行训练。
在一个实施例中,在相似匹配模型中还可以包括其他的层,例如取决于相似度计算的方式,可以添加全连接层或者softmax层等输出层。
在本申请的实施例中,介绍了一种相似匹配模型的训练方法。通过上述方式,通过孪生网络的结构,可以有效提高相似度比对的计算效率,提升方案的可实施性。
在本申请的一个实施例中,为了获得训练数据,上述步骤,获得第一训练数据和第二训练数据,可以进一步包括如下的步骤:
获取无效文本片段集合,其中,所述无效文本片段集合至少包括第一无效文本片段和第二无效文本片段;
获取视频文本数据,其中,所述视频文本数据包括第一视频文本、第二视频文本以及相似度标识;
若所述相似度标识指示所述第一视频文本与所述第二视频文本不相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第二无效文本片段生成所述第二训练文本;
若所述相似度标识指示所述第一视频文本与所述第二视频文本相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第一无效文本片段生成所述第二训练文本。
具体地,无效文本片段集合可以通过训练好的编码模型对数据库中存储的视频的标题或者简介记性编码,然后将识别出的无效字符所对应的文本作为无效文本片段,无效文本片段集合。
然后获取视频文本数据,视频文本数据包括第一视频文本、第二视频文本以及相似度标识。第一视频文本和第二视频文本可以是从现有的视频中直接获取的关联文本。相似度标识可以由人工进行标识,其具体可以是1或者0,1标识第一视频文本和第二视频文本相似,0表示不相似。
对于相似度标识为1的情况,将第一视频文本和第二视频文本分别与不同的无效文本片段组合,形成第一训练文本和第二训练文本。对于相似度标识为0的情况,将第一视频文本和第二视频文本分别与相同的无效文本片段组合,形成第一训练文本和第二训练文本。具体地,例如,对于第一视频文本p和第二视频文本q,若p与q相似,则从无效文本片段集合D中抽取两个不同的无效文本片段m和m,则第一训练文本是p+m,第二训练文本是q+n。相对应地,若p与q不相似,则从无效文本片段集合D中一个无效文本片段u,则第一训练文本是p+u,第二训练文本是q+u。
根据视频文本和无效文本片段生成训练文本的方式可以直接采用字符串拼接的方式,拼接的顺序可以任意选择。在一个实施例中,还可以将无效文本片段插入到视频文本中来生成训练文本。
在本申请的实施例中,提供了一种增强训练文本的方法。通过上述方式,能够使得训练文本中,无效文本片段的占比增大,从而提高相似匹配模型的容错能力,从而提高对方法的抗干扰能力,提升稳定性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施,可以用于执行本申请上述实施例中的视频推荐的方法。图7示意性地示出了本申请实施例中视频推荐装置的组成框图。如图7所示,视频推荐装置300主要可以包括:
根据本申请实施例的一个方面,提供一种视频推荐装置,包括:
第一文本获取模块310,用于获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数;
第一编码处理模块320,用于对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示元素所对应的字符属于有效字符的概率;
第一表达生成模块330,用于根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量;
相似度模块340,用于根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频;
推荐模块350,用于若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
在本申请的一些实施例中,基于以上技术方案,第一编码处理模块320包括:
第二输入单元,用于将所述第一关联文本输入到第一编码模型中,得到所述第一编码模型输出的第一编码序列,其中,所述K个概率值由M个第一概率值以及N个第二概率值组成,所述第一概率值用于指示对应字符为有效字符,所述第二概率值用于指示对应字符为无效字符,所述M和所述N均为大于或等于0的整数。
在本申请的一些实施例中,基于以上技术方案,第一编码处理模块320包括:
第一输入单元,用于将所述第一关联文本输入到第二编码模型中,得到所述第二编码模型输出的第一编码序列,其中,所述K个概率值中每个概率值的取值在预设范围内,且大于或等于概率阈值的概率值用于指示对应字符为有效字符,小于所述概率阈值的概率值用于指示对应字符为无效字符。
在本申请的一些实施例中,基于以上技术方案,所述第一文本表达向量是通过相似匹配模型的第一子模型生成的;视频推荐装置300还包括:
第二文本获取模块,用于获取历史视频的第二关联文本,其中,所述第二关联文本包括至少一个字符;
第二编码处理模块,用于对所述第二关联文本进行编码处理,得到第二编码序列,其中,所述第二编码序列包括至少一个概率值,每个概率值对应于一个字符;
第二表达生成模块,用于将所述第二编码序列以及所述第二关联文本输入所述相似匹配模型的第二子模型,生成所述第二文本表达向量。
在本申请的一些实施例中,基于以上技术方案,相似度模块340包括:
相似度计算单元,用于计算所述第一文本表达向量和所述第二文本表达向量的余弦相似度;
相似度确定单元,用于根据所述余弦相似度以及相似度阈值,确定所述句子相似度。
在本申请的一些实施例中,基于以上技术方案,视频推荐装置300还包括:
训练数据获取模块,用于获得第一训练数据和第二训练数据,其中,所述第一训练数据包括第一训练文本和第一训练序列,所述第二训练数据包括第二训练文本和第二训练序列;
第一表达结果模块,用于将所述第一训练数据输入待训练匹配模型所包括的第一表达向量模型,得到所述第一表达向量模型输出的第一表达结果;
第二表达结果模块,用于将所述第二训练数据输入所述待训练匹配模型所包括的第二表达向量模型,得到所述第二表达向量模型输出的第二表达结果,其中,所述第一表达向量模型与所述第二表达向量模型共享网络权重;
相似度预测模块,用于将所述第一表达结果和所述第二表达结果输入到所述待训练匹配模型的相似匹配模型,得到预测匹配结果;
模型训练模块,用于根据所述预测匹配结果以及所述实际匹配结果,训练所述待训练匹配模型,得到所述相似匹配模型。
在本申请的一些实施例中,基于以上技术方案,所述训练数据获取模块,包括:
无效片段获取单元,用于获取无效文本片段集合,其中,所述无效文本片段集合至少包括第一无效文本片段和第二无效文本片段;
视频文本获取单元,用于获取视频文本数据,其中,所述视频文本数据包括第一视频文本、第二视频文本以及相似度标识;
第一文本生成单元,用于若所述相似度标识指示所述第一视频文本与所述第二视频文本不相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第二无效文本片段生成所述第二训练文本;
第二文本生成单元,用于若所述相似度标识指示所述第一视频文本与所述第二视频文本相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第一无效文本片段生成所述第二训练文本。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统400包括中央处理单元(Central Processing Unit,CPU)401,其可以根据存储在只读存储器(Read-Only Memory,ROM)402中的程序或者从储存部分408加载到随机访问存储器(Random Access Memory,RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(Input/Output,I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分407;包括硬盘等的储存部分408;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入储存部分408。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种视频推荐的方法,其特征在于,包括:
获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数;
对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示所对应的字符属于有效字符的概率;
根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量;
根据所述第一文本表达向量以及第二文本表达向量,确定文本相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频;
若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一关联文本进行编码处理,得到第一编码序列,包括:
将所述第一关联文本输入到第一编码模型中,得到所述第一编码模型输出的第一编码序列,其中,所述K个概率值由M个第一概率值以及N个第二概率值组成,所述第一概率值用于指示对应字符为有效字符,所述第二概率值用于指示对应字符为无效字符,所述M和所述N均为大于或等于0的整数。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一关联文本进行编码处理,得到第一编码序列,包括:
将所述第一关联文本输入到第二编码模型中,得到所述第二编码模型输出的第一编码序列,其中,所述K个概率值中每个概率值的取值在预设范围内,且大于或等于概率阈值的概率值用于指示对应字符为有效字符,小于所述概率阈值的概率值用于指示对应字符为无效字符。
4.根据权利要求1所述的方法,其特征在于,所述第一文本表达向量是通过相似匹配模型的第一子模型生成的;在所述根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度之前,所述方法还包括:
获取历史视频的第二关联文本,其中,所述第二关联文本包括至少一个字符;
对所述第二关联文本进行编码处理,得到第二编码序列,其中,所述第二编码序列包括至少一个概率值,每个概率值对应于一个字符;
将所述第二编码序列以及所述第二关联文本输入所述相似匹配模型的第二子模型,生成所述第二文本表达向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,包括:
计算所述第一文本表达向量和所述第二文本表达向量的余弦相似度;
根据所述余弦相似度以及相似度阈值,确定所述句子相似度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获得第一训练数据和第二训练数据,其中,所述第一训练数据包括第一训练文本和第一训练序列,所述第二训练数据包括第二训练文本和第二训练序列;
将所述第一训练数据输入待训练匹配模型所包括的第一表达向量模型,得到所述第一表达向量模型输出的第一表达结果;
将所述第二训练数据输入所述待训练匹配模型所包括的第二表达向量模型,得到所述第二表达向量模型输出的第二表达结果,其中,所述第一表达向量模型与所述第二表达向量模型共享网络权重;
将所述第一表达结果和所述第二表达结果输入到所述待训练匹配模型的相似匹配模型,得到预测匹配结果;
根据所述预测匹配结果以及所述实际匹配结果,训练所述待训练匹配模型,得到所述相似匹配模型。
7.根据权利要求6所述的方法,其特征在于,所述获得第一训练数据和第二训练数据,包括:
获取无效文本片段集合,其中,所述无效文本片段集合至少包括第一无效文本片段和第二无效文本片段;
获取视频文本数据,其中,所述视频文本数据包括第一视频文本、第二视频文本以及相似度标识;
若所述相似度标识指示所述第一视频文本与所述第二视频文本不相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第二无效文本片段生成所述第二训练文本;
若所述相似度标识指示所述第一视频文本与所述第二视频文本相似,则根据所述第一视频文本和所述第一无效文本片段生成所述第一训练文本,并且根据所述第二视频文本和所述第一无效文本片段生成所述第二训练文本。
8.一种视频推荐装置,其特征在于,包括:
第一文本获取模块,用于获取待推荐视频的第一关联文本,其中,所述第一关联文本包括K个字符,所述K为大于或等于1的整数;
第一编码处理模块,用于对所述第一关联文本进行编码处理,得到第一编码序列,其中,所述第一编码序列包括K个概率值,每个概率值对应于一个字符,所述概率值用于表示元素所对应的字符属于有效字符的概率;
第一表达生成模块,用于根据所述第一编码序列以及所述第一关联文本,生成第一文本表达向量;
相似度模块,用于根据所述第一文本表达向量以及第二文本表达向量,确定句子相似度,其中,所述第二文本表达向量是根据历史视频的第二关联文本生成的,所述历史视频为用户浏览过的视频;
推荐模块,用于若所述句子相似度大于推荐阈值,则向所述用户推荐所述待推荐视频。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的视频推荐的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视频推荐的方法。
CN202110420279.9A 2021-04-19 2021-04-19 视频推荐的方法、装置、电子设备和存储介质 Pending CN113065027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420279.9A CN113065027A (zh) 2021-04-19 2021-04-19 视频推荐的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420279.9A CN113065027A (zh) 2021-04-19 2021-04-19 视频推荐的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113065027A true CN113065027A (zh) 2021-07-02

Family

ID=76567163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420279.9A Pending CN113065027A (zh) 2021-04-19 2021-04-19 视频推荐的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113065027A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848748A (zh) * 2021-11-15 2021-12-28 苏州蓝赫朋勃智能科技有限公司 一种智能家居控制方法和智能家居系统
CN114880997A (zh) * 2022-05-06 2022-08-09 北京字节跳动网络技术有限公司 用于音频编辑的方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848748A (zh) * 2021-11-15 2021-12-28 苏州蓝赫朋勃智能科技有限公司 一种智能家居控制方法和智能家居系统
CN114880997A (zh) * 2022-05-06 2022-08-09 北京字节跳动网络技术有限公司 用于音频编辑的方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN111695674B (zh) 联邦学习方法、装置、计算机设备及可读存储介质
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112800234B (zh) 信息处理方法、装置、电子设备和存储介质
CN111310436A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN113065027A (zh) 视频推荐的方法、装置、电子设备和存储介质
CN112580352A (zh) 关键词提取方法、装置和设备及计算机存储介质
CN117876940B (zh) 视频语言任务执行及其模型训练方法、装置、设备、介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN117216535A (zh) 推荐文本生成模型的训练方法、装置、设备及介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN117874234A (zh) 基于语义的文本分类方法、装置、计算机设备及存储介质
Pourkeshavarz et al. Stacked cross-modal feature consolidation attention networks for image captioning
CN114707633B (zh) 特征提取方法、装置、电子设备和存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品
CN113919338B (zh) 处理文本数据的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048676

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination