CN111241844A - 一种信息推荐方法及装置 - Google Patents

一种信息推荐方法及装置 Download PDF

Info

Publication number
CN111241844A
CN111241844A CN201811447651.XA CN201811447651A CN111241844A CN 111241844 A CN111241844 A CN 111241844A CN 201811447651 A CN201811447651 A CN 201811447651A CN 111241844 A CN111241844 A CN 111241844A
Authority
CN
China
Prior art keywords
query
vector
term
entry
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811447651.XA
Other languages
English (en)
Inventor
贺宇
沈炎军
周泽南
苏雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811447651.XA priority Critical patent/CN111241844A/zh
Publication of CN111241844A publication Critical patent/CN111241844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明实施例提供的一种信息推荐方法及装置。其中,方法包括:获取待查询的查询词条;根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。本发明提高查询词条的语义识别度,可得到更加准确的推荐信息。

Description

一种信息推荐方法及装置
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种信息推荐方法及装置。
背景技术
随着互联网技术的飞速发展,互联网上所蕴含的信息也越来越多样化。用户若想在互联网上海量的数据中获取所需的数据的难度越来越大。
例如,用户输入描述文本进行图片搜索时,不仅具有网页搜索的文本间的匹配,还涉及文本-图像这种多模态的检索匹配。在目前图片搜索中,传统的文图相关性计算方法有两种。其一为,间接方法,需要利用图像技术,生成图像的描述文本,再用该文本和用户的输入的检索词进行匹配。另一种为,直接方法,将用户输入的检索词和图像映射到高维语义空间进行匹配。
但,上述的图像匹配/获取方法对用户输入的含有专有名词的查询词条时,无法识别查询词条的真正含义,容易产生语义偏差,无法得到准确的结果信息。
发明内容
有鉴于此,本发明实施例的目的在于提供一种信息推荐方法及装置,所述信息推介方法解决了现有技术中图像匹配/获取方法对用户输入的含有专有名词的查询词条时,无法识别查询词条的真正含义问题,可得到更加准确的推荐信息。
第一方面,本申请的一实施例提供如下技术方案:
一种信息推荐方法,包括:
获取待查询的查询词条;根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
优选的,在所述获取待查询的查询词条的步骤之前,还包括构建与所述查询词条匹配的百科词条向量步骤,所述步骤包括:获取百科信息,所述百科信息包括词条名和所述词条名的关联标签;根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量。
优选的,所述根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量的步骤,包括:将所述百科信息中的所述词条名与所述词条名的关联标签构建为二部图;以所述百科信息中的词条名为起点,在所述二部图中进行随机游走,获得关联序列;根据所述关联序列,获得所述词条名所对应的百科词条向量。
优选的,根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量的步骤,具体包括:将所述查询词条向量化,获得查询词条向量;根据所述查询词条向量,获得所述查询词条向量与百科词条向量之间的相似度;将所述查询词条向量和与所述查询词条向量相似度最大的百科词条向量进行拼接,获得所述输入向量。
优选的,根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量的步骤,具体包括:从所述百科信息中,获得与所述查询词条对应的目标词条名;获得与所述目标词条名对应的百科词条向量;将所述查询词条对应的查询词条向量和与所述目标词条名对应的百科词条向量进行拼接,获得所述输入向量。
优选的,所述将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息的步骤,还包括:将所述输入向量输入预设的查询模型,通过所述查询模型获得目标向量;获取所述目标向量与所述输入向量之间的余弦距离,并获取所述余弦距离在设定阈值范围内的候选目标向量;根据所述候选目标向量获得所述推荐信息并输出所述推荐信息。
优选的,所述推荐信息包括:图片、广告、新闻、电商商品或游戏。
优选的,所述预设的查询模型的训练方法,包括:获取历史查询记录,所述历史查询记录中包含历史查询词条及查询结果中包含的历史推荐信息;获取训练样本,包括:根据所述历史查询词条和与所述历史查询词条对应的百科词条向量获得所述训练样本的输入向量,将所述历史推荐信息作为所述输入向量的标定结果;根据所述训练样本,对预设的查询模型进行训练,获得训练后的预设的查询模型。
第二方面,基于同一发明构思,本申请的一实施例提供如下技术方案:
一种信息推荐装置,包括:
查询词条获取模块,用于获取待查询的查询词条;输入向量获取模块,用于根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;输出模块,用于将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
优选的,还包括构建模块,用于在所述获取待查询的查询词条的步骤之前:获取百科信息,所述百科信息包括词条名和所述词条名的关联标签;根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量。
优选的,所述构建模块还用于,将所述百科信息中的所述词条名与所述词条名的关联标签构建为二部图;以所述百科信息中的词条名为起点,在所述二部图中进行随机游走,获得关联序列;根据所述关联序列,获得所述词条名所对应的百科词条向量。
优选的,所述输入向量获取模块,还用于:将所述查询词条向量化,获得查询词条向量;根据所述查询词条向量,获得所述查询词条向量与百科词条向量之间的相似度;将所述查询词条向量和与所述查询词条向量相似度最大的百科词条向量进行拼接,获得所述输入向量。
优选的,所述输入向量获取模块,还用于:从所述百科信息中,获得与所述查询词条对应的目标词条名;获得与所述目标词条名对应的百科词条向量;将所述查询词条对应的查询词条向量和与所述目标词条名对应的百科词条向量进行拼接,获得所述输入向量。
优选的,所述输出模块,还用于:将所述输入向量输入预设的查询模型,通过所述查询模型获得目标向量;获取所述目标向量与所述输入向量之间的余弦距离,并获取所述余弦距离在设定阈值范围内的候选目标向量;根据所述候选目标向量获得所述推荐信息并输出所述推荐信息。
优选的,所述推荐信息包括:图片、广告、新闻、电商商品或游戏。
优选的,还包括用于训练所述预设的查询模型的训练模块,所述训练模块用于:获取历史查询记录,所述历史查询记录中包含历史查询词条及查询结果中包含的历史推荐信息;获取训练样本,包括:根据所述历史查询词条和与所述历史查询词条对应的百科词条向量获得所述训练样本的输入向量,将所述历史推荐信息作为所述输入向量的标定结果;根据所述训练样本,对预设的查询模型进行训练,获得训练后的预设的查询模型。
第三方面,基于同一发明构思,本申请的一实施例提供如下技术方案:
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待查询的查询词条;根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
第四方面,基于同一发明构思,本申请的一实施例提供如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待查询的查询词条;根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
与现有技术相比,本发明实施例的提供的信息推荐方法,通过获取用户输入的查询词条,并通过所述查询词条获得输入向量,其中所述输入向量包括查询词条向量和与所述查询词条相匹配的百科词条向量;可使得百科词条向量对所述查询词条起到语义补充的作用;最后将包括所述输入向量包括查询词条向量和与所述查询词条匹配的百科词条向量的输入向量输入预设的查询模型,就可得到更加符合查询词条语义的推荐信息。本发明解决了现有技术中的信息推荐方法无法识别查询词条的真正含义,容易产生语义偏差的问题,可得到更加准确的推荐信息。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种信息推荐方法的流程图。
图2为本发明第一实施例中百科词条向量构建的方法流程图;
图3为本发明第一实施例的示例性二部图;
图4为图1中步骤S20的具体流程图;
图5为本发明的第二实施例的一种信息推荐装置的功能模块图;
图6为本发明的提供的一示例性实施例示出的一种信息推荐装置;
图7为本发明的提供的一示例性服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
为了便于说明和理解,下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
第一实施例
请参照图1,在本实施例中提供一种信息推荐方法。使用所述方法,在用户输入查询词条后就可对应得到与该查询词条语义相匹配的推荐信息,下面将结合图1对该信息推荐方法做详细阐述。具体的该方法包括:
步骤S10:获取待查询的查询词条。
步骤S20:根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量。
步骤S30:将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
在步骤S10中,所述查询词条为用于查询与查询词条相关的推荐信息。查询词条可由用户直接输入。示例性说明如下,用户想要查询“李娜”相关的图片时(推荐信息为图片),可直接输入“李娜”,此时“李娜”即为查询词条。
查询词条还可由使用该信息推荐方法的软件或程序捕获用户的个人信息生成。示例性说明如下,例如相关软件或程序需要向用户推荐新闻、广告信息的时候(推荐信息为新闻或广告),其中个人信息可包括用户的年龄、性别、爱好及软件使用习惯等,对应生成的内容可包括“90后”“男”“看电影”“影音使用者”。此时“90后”“男”“看电影”“影音使用者”就可作为输入的查询词条。
本发明实施例中的使用场景包括但不限于以上的两种,还可应用于其他的多模态检索,多模态检索为实现不同模态下的数据能相互检索。
步骤S20:根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量。
在步骤S20中,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示。由于输入向量由查询词条和与查询词条匹配的百科词条向量获得,百科词条向量可对查询词条进行语义的扩充,以保证后续得到的推荐信息更加符合查询词条实际表达的语义,提高推荐信息的准确度,避免语义偏差得到不准确的推荐信息。
请参照图2,对于百科词条向量,需要说明的是,可进行预先构建,即在步骤S10之前进行百科词条向量的构建。具体的,构建的百科词条向量包括与所述查询词条相匹配的百科词条向量,可通过如下步骤进行构建:
步骤S101:获取百科信息。
在步骤S101中,所述百科信息包括词条名和所述词条名的关联标签。百科信息可通过网络爬虫等抓取工具直接抓取使用来自各大网站的百科信息。例如,可将搜狗百科、360百科、百度百科、维基百科、以及互动百科等作为百科信息,不做限制。
百科信息中包括的词条名即为词条标题,词条名的关联标签即为词条名的属性。示例性说明如下,若词条名为“李娜”,那么“李娜”的关联标签为“运动员”“网球”“体育人物”“人物”。更多示例如下表:
表1
Figure BDA0001886056940000081
Figure BDA0001886056940000091
若查询词条中没有与百科信息的词条名对应的关键词,作为一种可选的方式,也可获取与查询词条最接近的词条名,最接近表示语义最接近。
获取的百科信息中可包括一个或一个以上的词条名,每个词条名都具有对应的关联标签,如表1所示。需要说明的是,在百科信息中可存在多个词条名对应有相同的关联标签。例如:词条名“李娜”和“姚明”都对应有关联标签“运动员”。
步骤S102:根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量。
其中,本发明实施例具体提供的一种示例性的百科词条向量获取方式:
首先,将所述百科信息中的所有词条名与所有词条名的关联标签构建为二部图。如图3所示,图3为一示例性的二部图,其中包括了多个词条名,如“澳网”“李娜”“姚明”;还包括了词条名的多个关联标签,如“体育赛事”“网球”“人物”“运动员”“篮球”。
然后,以所述百科信息中的词条名为起点,在所述二部图中进行随机游走,获得关联序列。具体的,如图3所示,以“李娜”为起点则随机游走可遍历到“网球”“澳网”,也可遍历到“人物”“姚明”,还可遍历到“运动员”“姚明”。则词条名和以词条名为起点遍历到的关联标签以及其他词条名就可作为该词条名的一个关联序列。
为了保证关联序列具有较强的相关性,可在随机游走时设置随机游走的步长。
最后,根据词条名对应的关联序列,获得该词条名所对应的百科词条向量。具体的,可将关联序列向量化得到百科词条向量,向量化时可将关联序列中的每个词条名与标签分别进行向量化,向量化的具体方式可采用已知的技术手段,例如将关联序列输入CBOW模型(Continuous Bag-Of-Words,连续词袋模型)或Skip-gram模型(The Skip-GramModel),可获得关联序列对应的向量化表示,即可作为百科词条向量。
其中,本发明实施例具体提供的另一种示例性的百科词条向量获取方式:
可直接将百科信息中的词条名与词条名的关联标签作为一个关联序列,然后对关联序列进行向量化得到百科词条向量。
请参阅图4,在步骤S20中,根据查询词条和及其匹配的百科词条向量获取输入向量的具体步骤如下:
步骤S21:将所述查询词条向量化,获得查询词条向量。
在步骤S21中,查询词条向量为查询词条的向量化表示,向量化方法可采用已知的技术手段,不再赘述。例如,可由CBOW模型(连续词袋模型)或Skip-gram模型得到查询词条的向量化表示。
步骤S22:根据所述查询词条向量,获得所述查询词条向量与所述百科词条向量之间的相似度。
在步骤S22中,查询词条向量与百科词条向量之间可直接通过词条的相似度进行匹配。具体的,由于在步骤S10之前已经构建了百科词条向量,那么在可直接计算查询词条向量与百科词条向量之间的相似度,例如,可通过余弦距离进行衡量。可将与查询词条向量相似度最高的百科词条向量作为与所述查询词条向量相匹配的百科词条向量,也可将与查询词条向量相似度较高的几个向量作为与所述查询词条向量相匹配的百科词条向量;另外相似度也可通过欧几里德距离、曼哈顿距离等进行衡量,不做限制。
步骤S23:将所述查询词条向量和与所述查询词条向量相似度最大的百科词条向量进行拼接,获得所述输入向量。
在步骤S23中,所述的拼接,其具体的拼接方式包括:可将百科词条向量直接拼接在查询词条向量的后边。例如,查询词条向量为V1,与查询词条向量相匹配的百科词条向量为V2,那么拼接的方式可为向量上维度的拼接,形成V1+V2的向量,V1+V2即为输入向量;如一具体实例,V1=[1,2,3,4,5],V2=[6,7,8,9,10],那么输入向量V1+V2=[7,9,11,13,15]。
本实施例中还提供另一种输入向量的获取方式,如下:
从所述百科信息中,获得与所述查询词条对应的目标词条名;
获得与所述目标词条名对应的百科词条向量;
将所述查询词条对应的查询词条向量和与所述目标词条名对应的百科词条向量进行拼接,获得所述输入向量。
由于百科词条向量构建过程中有对应的关联序列和词条名。那么,可从百科信息中获取与查询词条对应的目标词条名,其中所述目标词条名包括:与查询词条相同的词条名,与查询词条名语义最接近的一个或一个以上的词条名。
由于预先构建过关联序列,每个词条名都具有与其对应的百科词条向量,可直接通过目标词条名获得该目标词条名所对应的百科词条向量。
将所述查询词条对应的查询词条向量和与所述词条名对应的百科词条向量进行拼接,获得所述输入向量。具体的,可参照步骤23。
步骤S30:将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
在步骤S30中,具体可包括如下过程:
将所述输入向量输入预设的查询模型,通过所述查询模型获得目标向量;其中,目标向量为推荐信息的向量化表示。
然后,获取所述目标向量与所述输入向量之间的余弦距离,并获取所述余弦距离在设定阈值范围内的候选目标向量;其中的设定阈值范围用于限制余弦距离的大小。例如,设置一个阈值,将小于该阈值的余弦距离所对应的目标向量作为候选目标向量。
由于推荐信息的可具有多个,例如使用文本检索图片,可获得多个图片检索结果;又如,通过用户的个人信息向用户推荐多个新闻、多个广告等。因此,可根据所述目标向量与所述输入向量之间的余弦距离大小,输出所述推荐信息,即可排序输出,也可将与查询词条最相关前几个推荐信息推荐给用户。
在步骤S30中,预设的查询模型是经过训练的模型,具体的模型训练方法为:
首先,获取历史查询记录,所述历史查询记录中包含历史查询词条及查询结果中包含的历史推荐信息。其中,历史查询记录可以是通过搜索引擎查询获得的记录,在搜索引擎中输入的查询词即可作为历史查询词条,可将搜索引擎获得的查询结果或查询结果中的部分信息作为历史推荐信息。搜索引擎可包括百度搜索、360搜索和搜狗搜索等,不作限制。
获取训练样本,该训练样本的获取方法包括:根据所述历史查询词条和与所述历史查询词条对应的百科词条向量获得所述样本的输入向量,将所述历史推荐信息作为所述输入向量的标定结果。
以图片检索为例,训练样本的获取的方式包括:可抓取现有搜索引擎中的用户输入过的历史查询词条,将历史查询词条的向量化表示以及与所述历史查询词条对应的百科词条向量进行拼接得到训练样本的输入向量,具体可参考步骤S23。同时可将搜索引擎中历史查询词条所对应的输出的前N项历史推荐信息作为标定结果,其中N可定义为任意数值,如N为3、4、5等。另外,在进行训练前可采用VGGNET-19模型(Visual Geometry Groupnetwork-19,VGGNET-19)对搜索引擎输出的前N项为图片的历史推荐信息进行处理,将图片表示为多维的向量,将经过VGGNET-19模型处理的图片作为标定结果。其中VGGNET-19模型为现有技术不再赘述,采用VGGNET-19模型对搜索引擎的输出结果进行处理这一步骤不对本发明保护范围构成限制,不对搜索引擎的输出历史推荐信息做处理,或采用其他处理方式亦可。
在此基础上,更优选的一种实施方式为,可抓取用户点击搜索引擎中输出的历史推荐信息的次数,将点击过的或点击次数较高的(可设置以阈值对点击次数进行限定)的历史推荐信息作为标定结果。
预设的查询模型具体可以是深度语义模型,如DSSM模型(Deep StructuredSemantic Model,DSSM)。
然后,根据所述训练样本,对预设的查询模型进行训练,获得训练后的预设的查询模型,即建立起了查询词条向量、百科词条向量二者与推荐信息如图片的相关性,在输入查询词条向量与百科词条向量组成的输入向量之后就可对应输出相关性较高的推荐信息。
需要说明的是,在本实施例中的信息推荐方式适用不仅可适用于图片检索、广告推送、新闻推送,还可应用于电商商品推荐、游戏推荐等,不做限制。
因此,与现有技术相比,本发明实施例的提供的信息推荐方法,通过获取用户输入的查询词条,并通过所述查询词条获得输入向量,其中所述输入向量包括查询词条向量和与所述查询词条相匹配的百科词条向量,可使得百科词条向量对所述查询词条起到语义补充的作用。最后将包括所述输入向量包括查询词条向量和与所述查询词条匹配的百科词条向量的输入向量输入预设的查询模型,就可得到更加符合查询词条语义的推荐信息。解决了现有技术中的信息推荐方法无法识别查询词条的真正含义,容易产生语义偏差的问题,可得到更加准确的推荐信息。
第二实施例
请参阅图5,在本实施例中提供一种信息推荐装置400,包括:查询词条获取模块401、输入向量获取模块402和输出模块403。
具体的:
查询词条获取模块401,用于获取待查询的查询词条;输入向量获取模块402,用于根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;输出模块403,用于将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
作为一种可选的实施方式,还包括构建模块,用于在所述获取待查询的查询词条的步骤之前:获取百科信息,所述百科信息包括词条名和所述词条名的关联标签;根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量。
作为一种可选的实施方式,所述构建模块还用于,将所述百科信息中的所述词条名与所述词条名的关联标签构建为二部图;以所述百科信息中的词条名为起点,在所述二部图中进行随机游走,获得关联序列;根据所述关联序列,获得所述词条名所对应的百科词条向量。
作为一种可选的实施方式,所述输入向量获取模块402,还用于:将所述查询词条向量化,获得查询词条向量;根据所述查询词条向量,获得所述查询词条向量与百科词条向量之间的相似度;将所述查询词条向量和与所述查询词条向量相似度最大的百科词条向量进行拼接,获得所述输入向量。
作为一种可选的实施方式,所述输入向量获取模块402,还用于:从所述百科信息中,获得与所述查询词条对应的目标词条名;获得与所述目标词条名对应的百科词条向量;将所述查询词条对应的查询词条向量和与所述目标词条名对应的百科词条向量进行拼接,获得所述输入向量。
作为一种可选的实施方式,所述输出模块403,还用于:将所述输入向量输入预设的查询模型,通过所述查询模型获得目标向量;获取所述目标向量与所述输入向量之间的余弦距离,并获取所述余弦距离在设定阈值范围内的候选目标向量;根据所述候选目标向量获得所述推荐信息并输出所述推荐信息。
作为一种可选的实施方式,所述推荐信息包括:图片、广告、新闻、电商商品或游戏。
作为一种可选的实施方式,还包括用于训练所述预设的查询模型的训练模块,所述训练模块用于:获取历史查询记录,所述历史查询记录中包含历史查询词条及查询结果中包含的历史推荐信息;获取训练样本,包括:根据所述历史查询词条和与所述历史查询词条对应的百科词条向量获得所述训练样本的输入向量,将所述历史推荐信息作为所述输入向量的标定结果;根据所述训练样本,对预设的查询模型进行训练,获得训练后的预设的查询模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明,具体可参见上述的方法实施例。
图6是根据一示例性实施例示出的一种信息推荐装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。
触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
第三实施例
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种计算机可读存储介质,具体为一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种信息推荐方法,所述方法包括:
获取待查询的查询词条;根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种信息推荐方法,其特征在于,包括:
获取待查询的查询词条;
根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;
将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取待查询的查询词条的步骤之前,还包括构建与所述查询词条匹配的百科词条向量步骤,所述步骤包括:
获取百科信息,所述百科信息包括词条名和所述词条名的关联标签;
根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述百科信息中的所述词条名与所述词条名的关联标签,获得百科词条向量的步骤,包括:
将所述百科信息中的所述词条名与所述词条名的关联标签构建为二部图;
以所述百科信息中的词条名为起点,在所述二部图中进行随机游走,获得关联序列;
根据所述关联序列,获得所述词条名所对应的百科词条向量。
4.根据权利要求1所述的方法,其特征在于,根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量的步骤,具体包括:
将所述查询词条向量化,获得查询词条向量;
根据所述查询词条向量,获得所述查询词条向量与百科词条向量之间的相似度;
将所述查询词条向量和与所述查询词条向量相似度最大的百科词条向量进行拼接,获得所述输入向量。
5.根据权利要求1所述的方法,其特征在于,根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量的步骤,具体包括:
从所述百科信息中,获得与所述查询词条对应的目标词条名;
获得与所述目标词条名对应的百科词条向量;
将所述查询词条对应的查询词条向量和与所述目标词条名对应的百科词条向量进行拼接,获得所述输入向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息的步骤,还包括:
将所述输入向量输入预设的查询模型,通过所述查询模型获得目标向量;
获取所述目标向量与所述输入向量之间的余弦距离,并获取所述余弦距离在设定阈值范围内的候选目标向量;
根据所述候选目标向量获得所述推荐信息并输出所述推荐信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述推荐信息包括:图片、广告、新闻、电商商品或游戏。
8.一种信息推荐装置,其特征在于,包括:
查询词条获取模块,用于获取待查询的查询词条;
输入向量获取模块,用于根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;
输出模块,用于将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
9.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待查询的查询词条;
根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;
将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获取待查询的查询词条;
根据所述查询词条和与所述查询词条匹配的百科词条向量,获取输入向量,其中所述百科词条向量为百科信息中词条名对应的语义内容的向量化表示;
将所述输入向量输入预设的查询模型,通过所述查询模型查询获得用于推荐给用户的推荐信息,并输出所述推荐信息。
CN201811447651.XA 2018-11-29 2018-11-29 一种信息推荐方法及装置 Pending CN111241844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811447651.XA CN111241844A (zh) 2018-11-29 2018-11-29 一种信息推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811447651.XA CN111241844A (zh) 2018-11-29 2018-11-29 一种信息推荐方法及装置

Publications (1)

Publication Number Publication Date
CN111241844A true CN111241844A (zh) 2020-06-05

Family

ID=70863878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811447651.XA Pending CN111241844A (zh) 2018-11-29 2018-11-29 一种信息推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111241844A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694919A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 生成信息的方法、装置、电子设备及计算机可读存储介质
CN111737418A (zh) * 2020-07-20 2020-10-02 北京每日优鲜电子商务有限公司 搜索词和商品的相关性预测方法、设备和存储介质
CN112307304A (zh) * 2020-11-16 2021-02-02 深圳市欢太科技有限公司 热点搜索方法、装置、终端及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694919A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 生成信息的方法、装置、电子设备及计算机可读存储介质
CN111737418A (zh) * 2020-07-20 2020-10-02 北京每日优鲜电子商务有限公司 搜索词和商品的相关性预测方法、设备和存储介质
CN111737418B (zh) * 2020-07-20 2021-05-14 北京每日优鲜电子商务有限公司 搜索词和商品的相关性预测方法、设备和存储介质
CN112307304A (zh) * 2020-11-16 2021-02-02 深圳市欢太科技有限公司 热点搜索方法、装置、终端及存储介质
CN112307304B (zh) * 2020-11-16 2024-04-12 深圳市欢太科技有限公司 热点搜索方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
US11120078B2 (en) Method and device for video processing, electronic device, and storage medium
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN108932253B (zh) 多媒体搜索结果展示方法及装置
WO2020107813A1 (zh) 图像的描述语句定位方法及装置、电子设备和存储介质
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
CN112508612B (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN111241844A (zh) 一种信息推荐方法及装置
CN110110207B (zh) 一种信息推荐方法、装置及电子设备
CN109670077A (zh) 视频推荐方法、装置和计算机可读存储介质
US11546663B2 (en) Video recommendation method and apparatus
CN112148923A (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
CN110309324B (zh) 一种搜索方法及相关装置
CN110110046B (zh) 同名实体推荐方法及装置
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN110019965B (zh) 表情图像的推荐方法、装置、电子设备及存储介质
CN110020106B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN112052395B (zh) 一种数据处理方法及装置
CN108073664B (zh) 一种信息处理方法、装置、设备及客户端设备
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN110020151B (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN111382367B (zh) 一种搜索结果排序方法和装置
CN112825076A (zh) 一种信息推荐方法、装置和电子设备
CN111143609B (zh) 兴趣标签的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination