CN109255126A - 文章推荐方法及装置 - Google Patents

文章推荐方法及装置 Download PDF

Info

Publication number
CN109255126A
CN109255126A CN201811052099.4A CN201811052099A CN109255126A CN 109255126 A CN109255126 A CN 109255126A CN 201811052099 A CN201811052099 A CN 201811052099A CN 109255126 A CN109255126 A CN 109255126A
Authority
CN
China
Prior art keywords
vocabulary
word
article
extensive
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811052099.4A
Other languages
English (en)
Inventor
周婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811052099.4A priority Critical patent/CN109255126A/zh
Publication of CN109255126A publication Critical patent/CN109255126A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出一种文章推荐方法及装置,其中方法包括:获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章;根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇;根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户,从而能够根据召回词以及对应的泛化词来向用户推荐文章,能够向用户推荐固定偏好范围外的偏好相关的文章,提高了推荐效率。

Description

文章推荐方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文章推荐方法及装置。
背景技术
目前的文章推荐方法主要为,获取用户的历史行为,历史行为中包括:用户点击过的文章;根据历史行为构建召回词集合;根据召回词集合中的召回词查询文章海量库,获取匹配的文章候选集;计算文章候选集中各文章的用户点击率,根据用户点击率选取文章推荐给用户。
然而,上述文章推荐方法中,是根据用户的历史行为进行文章推荐,只能向用户推荐与历史行为中存在的偏好相关的文章,难以向用户推荐与历史行为中不存在的偏好相关的文章,导致为用户推荐的文章集中在固定偏好范围内难以跳出,从而降低了推荐效率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文章推荐方法,用于解决现有技术中文章推荐效率差的问题。
本发明的第二个目的在于提出一种文章推荐装置。
本发明的第三个目的在于提出另一种文章推荐装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文章推荐方法,包括:
获取用户的历史行为记录;所述历史行为记录中包括:第一预设时间段内所述用户点击过的文章;
根据所述文章中的词汇信息,构建召回词集合;所述词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;
针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;所述泛化词为与所述用户的扩展偏好相关的词汇;
根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;
根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给所述用户。
进一步的,所述针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词之前,还包括:
获取第二预设时间段内发布的历史文章集合;
根据所述历史文章集合,生成词汇集合;所述词汇集合中包括:各个历史文章对应的词汇子集合;所述词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;
针对所述词汇集合中的每个词汇,计算所述词汇的词频,根据所述词频,确定所述词汇对应的词汇标识;
将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量;
根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
进一步的,所述将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量之前,包括:
针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;所述N值根据词向量模型中的窗口长度确定;
根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到所述预设的词向量模型。
进一步的,所述将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量之前,还包括:
获取所述词汇集合中对应的词频小于预设词频阈值的第一词汇;
去除所述词汇集合中的所述第一词汇。
进一步的,所述根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表,包括:
针对所述词汇集合中的每个词汇,计算所述词汇与其他各个词汇之间的向量距离;
将对应的向量距离小于预设距离阈值的其他词汇,确定为所述词汇对应的泛化词;
根据各个词汇对应的泛化词,生成泛化表。
进一步的,所述根据各个词汇对应的泛化词,生成泛化表之前,还包括:
针对所述词汇集合中的每个词汇,根据所述词汇对应的泛化词的词频,计算平均词频;
去除对应的词频小于平均词频的泛化词。
本发明实施例的文章推荐方法,通过获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章;根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇;根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户,从而能够根据召回词以及对应的泛化词来向用户推荐文章,能够向用户推荐固定偏好范围外的偏好相关的文章,提高了推荐效率。
为达上述目的,本发明第二方面实施例提出了一种文章推荐装置,包括:
获取模块,用于获取用户的历史行为记录;所述历史行为记录中包括:第一预设时间段内所述用户点击过的文章;
构建模块,用于根据所述文章中的词汇信息,构建召回词集合;所述词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;
查询模块,用于针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;所述泛化词为与所述用户的扩展偏好相关的词汇;
生成模块,用于根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;
所述查询模块,还用于根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给所述用户。
进一步的,所述的装置还包括:确定模块和输入模块;
所述获取模块,还用于获取第二预设时间段内发布的历史文章集合;
所述生成模块,还用于根据所述历史文章集合,生成词汇集合;所述词汇集合中包括:各个历史文章对应的词汇子集合;所述词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;
所述确定模块,用于针对所述词汇集合中的每个词汇,计算所述词汇的词频,根据所述词频,确定所述词汇对应的词汇标识;
所述输入模块,用于将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量;
所述确定模块,还用于根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
进一步的,所述的装置还包括:训练模块;
所述获取模块,还用于针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;所述N值根据词向量模型中的窗口长度确定;
所述训练模块,用于根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到所述预设的词向量模型。
进一步的,所述的装置还包括:去除模块;
所述获取模块,还用于获取所述词汇集合中对应的词频小于预设词频阈值的第一词汇;
所述去除模块,用于去除所述词汇集合中的所述第一词汇。
进一步的,所述确定模块具体用于,
针对所述词汇集合中的每个词汇,计算所述词汇与其他各个词汇之间的向量距离;
将对应的向量距离小于预设距离阈值的其他词汇,确定为所述词汇对应的泛化词;
根据各个词汇对应的泛化词,生成泛化表。
进一步的,所述确定模块具体还用于,
针对所述词汇集合中的每个词汇,根据所述词汇对应的泛化词的词频,计算平均词频;
去除对应的词频小于平均词频的泛化词。
本发明实施例的文章推荐装置,通过获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章;根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇;根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户,从而能够根据召回词以及对应的泛化词来向用户推荐文章,能够向用户推荐固定偏好范围外的偏好相关的文章,提高了推荐效率。
为达上述目的,本发明第三方面实施例提出了另一种文章推荐装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的文章推荐方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文章推荐方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文章推荐方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种文章推荐方法的流程示意图;
图2为本发明实施例提供的另一种文章推荐方法的流程示意图;
图3为本发明实施例提供的一种文章推荐装置的结构示意图;
图4为本发明实施例提供的另一种文章推荐装置的结构示意图;
图5为本发明实施例提供的另一种文章推荐装置的结构示意图;
图6为本发明实施例提供的另一种文章推荐装置的结构示意图;
图7为本发明实施例提供的另一种文章推荐装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文章推荐方法及装置。
图1为本发明实施例提供的一种文章推荐方法的流程示意图。如图1所示,该文章推荐方法包括以下步骤:
S101、获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章。
本发明提供的文章推荐方法的执行主体为文章推荐装置,文章推荐装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。其中,文章例如可以为新闻文章、娱乐文章、论文等,可以根据实际需要进行设定。第一预设时间段例如可以为1天、1周或者1月等。
本实施例中,以新闻为例,当用户点击查看新闻时,用户所使用的终端会向新闻对应的后台服务器发送查看请求,查看请求中携带:用户的标识或者终端的标识。因此,根据各查看请求,可以采集到用户在第一预设时间段内点击过的文章。
S102、根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签。
本实施例中,根据文章中的词汇信息,构建召回词集合的其中一种方式例如可以为,将对应的词频大于一定阈值的词汇确定为召回词。
S103、针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇。
本实施例中,泛化表中预先保存有各个词汇对应的泛化词。其中,假设召回词为与用户的第一偏好相关的词汇,根据召回词查询文章库获取到的待推荐文章与第一偏好相关。也就是说,根据用户点击过的文章所确定的召回词,去查询文章库,获取到的待推荐文章所体现出的用户偏好,与用户点击过的文章所体现出的用户偏好一致,从而将向用户推荐的文章所体现出的用户偏好固定在一定的偏好范围内。若先根据召回词查询泛化表,获取召回词对应的泛化词,由于泛化词是与用户的扩展偏好相关的词汇,扩展偏好为固定偏好范围外的偏好,从而根据泛化词向用户推荐文章,能够扩展用户的偏好和兴趣;当用户点击与扩展偏好相关的文章后,能够进一步向用户推荐与扩展偏好的进一步扩展偏好相关的文章,形成正向循环,从而能够逐步扩展用户的偏好、兴趣,提高文章的推荐效率。
S104、根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合。
S105、根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户。
本实施例中,文章推荐装置执行步骤105的过程具体可以为,根据扩展后的召回词集合中的每个召回词,查询文章库,获取与所述召回词匹配的候选文章;根据与各个召回词匹配的候选文章,生成候选文章库;针对候选文章库中的每个候选文章,计算所述候选文章与召回词之间的匹配度,根据匹配度确定用户点击所述候选文章的概率;根据概率对各个候选文章进行排序,选取概率较大的多个文章作为待推荐的文章并推荐给用户。
本发明实施例的文章推荐方法,通过获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章;根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇;根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户,从而能够根据召回词以及对应的泛化词来向用户推荐文章,能够向用户推荐固定偏好范围外的偏好相关的文章,提高了推荐效率。
图2为本发明实施例提供的一种文章推荐方法的流程示意图。如图2所示,在图1所示实施例的基础上,步骤103之前,该文章推荐方法还可以包括以下步骤:
S106、获取第二预设时间段内发布的历史文章集合。
本实施例中,第二预设时间段例如可以为半年、1年等。其中,获取到第二预设时间段内发布的历史文章集合后,可以对历史文章集合中的文章进行去重操作,去除历史文章集合中的重复文章。
S107、根据历史文章集合,生成词汇集合;词汇集合中包括:各个历史文章对应的词汇子集合;词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词。
本实施例中,根据历史文章集合,生成词汇集合之前,可以先对历史文章进行类别标注和核心关键词标注。生成词汇集合时,可以直接获取历史文章中标注的类别和核心关键词。
S108、针对词汇集合中的每个词汇,计算词汇的词频,根据词频,确定词汇对应的词汇标识。
本实施例中,词汇对应的词汇标识,可以为编号等标识。文章推荐装置根据词频,确定词汇对应的词汇标识的方式可以为,直接将词频作为词汇对应的词汇标识;或者,根据词频对各词汇进行排序,根据排序顺序为各词汇分配词汇标识,其中,排序在前的词汇对应的词汇标识可以大于排序在后的词汇对应的词汇标识。
S109、将词汇对应的词汇标识,输入预设的词向量模型,得到词汇对应的向量。
其中,词向量模型例如可以为连续词袋模型(Continuous Bag-of-Words,CBOW)模型。本实施例中,步骤109之前,所述的方法还可以包括:针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;N值根据词向量模型中的窗口长度确定;根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到预设的词向量模型。
本实施例中,以词汇子集合中包括:水果、岛屿、旅游、潜水,N值为3为例进行说明。文章推荐装置可以将词汇子集合中的任意三个词汇进行组合,得到“水果、岛屿、旅游”、“岛屿、旅游、潜水”、“水果、旅游、潜水”、“水果、岛屿、潜水”,然后将各个组合中的词汇替换为词汇对应的词汇标识,就可以得到多个组合。其中,根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,能够使得词向量模型学习到任意两个词汇之间的共现关系,直至词向量模型收敛,使得词向量模型可以覆盖任意多个词汇的共现情况。
进一步的,在上述实施例的基础上,由于词频较小的词汇对词向量模型的训练起到的作用较小,因此,为了降低词向量模型的训练量,加快训练速度,步骤109之前,所述的方法还可以包括:获取词汇集合中对应的词频小于预设词频阈值的第一词汇;去除词汇集合中的第一词汇。其中,预设词频阈值例如可以为13等。
S110、根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
本实施例中,文章推荐装置执行步骤110的过程具体可以为,针对词汇集合中的每个词汇,计算词汇与其他各个词汇之间的向量距离;将对应的向量距离小于预设距离阈值的其他词汇,确定为词汇对应的泛化词;根据各个词汇对应的泛化词,生成泛化表。其中,向量距离的计算公式可以如以下公式(1)所示。
distance=sqrt(2-2*cos(u,v)) (1)
其中,distance表示向量u与向量v之间的距离。
进一步的,为了提高词汇对应的泛化词的准确度,在上述实施例的基础上,文章推荐装置根据各个词汇对应的泛化词,生成泛化表之前,所述的方法还可以包括:针对词汇集合中的每个词汇,根据词汇对应的泛化词的词频,计算平均词频;去除对应的词频小于平均词频的泛化词,从而能够进一步确保根据泛化词推荐的文章为与用户的扩展偏好相关的文章。
本发明实施例的文章推荐方法,通过获取第二预设时间段内发布的历史文章集合;根据历史文章集合,生成词汇集合;词汇集合中包括:各个历史文章对应的词汇子集合;词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;针对词汇集合中的每个词汇,计算词汇的词频,根据词频,确定词汇对应的词汇标识;将词汇对应的词汇标识,输入预设的词向量模型,得到词汇对应的向量;根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表,从而能够确保泛化表中各词汇对应的泛化词为与各词汇的扩展偏好相关的词汇,从而扩展了待推荐文章所体现出的用户偏好,提高了推荐效率。
图3为本发明实施例提供的一种文章推荐装置的结构示意图。如图3所示,包括:获取模块31、构建模块32、查询模块33和生成模块34。
其中,获取模块31,用于获取用户的历史行为记录;所述历史行为记录中包括:第一预设时间段内所述用户点击过的文章;
构建模块32,用于根据所述文章中的词汇信息,构建召回词集合;所述词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;
查询模块33,用于针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;所述泛化词为与所述用户的扩展偏好相关的词汇;
生成模块34,用于根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;
本发明提供的文章推荐装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。其中,文章例如可以为新闻文章、娱乐文章、论文等,可以根据实际需要进行设定。第一预设时间段例如可以为1天、1周或者1月等。
本实施例中,泛化表中预先保存有各个词汇对应的泛化词。其中,假设召回词为与用户的第一偏好相关的词汇,根据召回词查询文章库获取到的待推荐文章与第一偏好相关。也就是说,根据用户点击过的文章所确定的召回词,去查询文章库,获取到的待推荐文章所体现出的用户偏好,与用户点击过的文章所体现出的用户偏好一致,从而将向用户推荐的文章所体现出的用户偏好固定在一定的偏好范围内。若先根据召回词查询泛化表,获取召回词对应的泛化词,由于泛化词是与用户的扩展偏好相关的词汇,扩展偏好为固定偏好范围外的偏好,从而根据泛化词向用户推荐文章,能够扩展用户的偏好和兴趣;当用户点击与扩展偏好相关的文章后,能够进一步向用户推荐与扩展偏好的进一步扩展偏好相关的文章,形成正向循环,从而能够逐步扩展用户的偏好、兴趣,提高文章的推荐效率。
进一步的,在上述实施例的基础上,查询模块33具体可以用于,根据扩展后的召回词集合中的每个召回词,查询文章库,获取与所述召回词匹配的候选文章;根据与各个召回词匹配的候选文章,生成候选文章库;针对候选文章库中的每个候选文章,计算所述候选文章与召回词之间的匹配度,根据匹配度确定用户点击所述候选文章的概率;根据概率对各个候选文章进行排序,选取概率较大的多个文章作为待推荐的文章并推荐给用户。
本发明实施例的文章推荐装置,通过获取用户的历史行为记录;历史行为记录中包括:第一预设时间段内用户点击过的文章;根据文章中的词汇信息,构建召回词集合;词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;针对召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;泛化词为与用户的扩展偏好相关的词汇;根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给用户,从而能够根据召回词以及对应的泛化词来向用户推荐文章,能够向用户推荐固定偏好范围外的偏好相关的文章,提高了推荐效率。
结合参考图4,在图3所示实施例的基础上,所述的装置还可以包括:确定模块35和输入模块36;
所述获取模块31,还用于获取第二预设时间段内发布的历史文章集合;
所述生成模块34,还用于根据所述历史文章集合,生成词汇集合;所述词汇集合中包括:各个历史文章对应的词汇子集合;所述词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;
所述确定模块35,用于针对所述词汇集合中的每个词汇,计算所述词汇的词频,根据所述词频,确定所述词汇对应的词汇标识;
所述输入模块36,用于将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量;
所述确定模块35,还用于根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
本实施例中,词汇对应的词汇标识,可以为编号等标识。文章推荐装置根据词频,确定词汇对应的词汇标识的方式可以为,直接将词频作为词汇对应的词汇标识;或者,根据词频对各词汇进行排序,根据排序顺序为各词汇分配词汇标识,其中,排序在前的词汇对应的词汇标识可以大于排序在后的词汇对应的词汇标识。
进一步的,确定模块35具体可以用于,针对词汇集合中的每个词汇,计算词汇与其他各个词汇之间的向量距离;将对应的向量距离小于预设距离阈值的其他词汇,确定为词汇对应的泛化词;根据各个词汇对应的泛化词,生成泛化表。
进一步的,为了提高词汇对应的泛化词的准确度,在上述实施例的基础上,确定模块35具体还可以用于,针对词汇集合中的每个词汇,根据词汇对应的泛化词的词频,计算平均词频;去除对应的词频小于平均词频的泛化词,从而能够进一步确保根据泛化词推荐的文章为与用户的扩展偏好相关的文章。
进一步的,结合参考图5,在图4所示实施例的基础上,所述的装置还可以包括:训练模块37;
所述获取模块31,还用于针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;所述N值根据词向量模型中的窗口长度确定;
所述训练模块37,用于根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到所述预设的词向量模型。
本实施例中,以词汇子集合中包括:水果、岛屿、旅游、潜水,N值为3为例进行说明。文章推荐装置可以将词汇子集合中的任意三个词汇进行组合,得到“水果、岛屿、旅游”、“岛屿、旅游、潜水”、“水果、旅游、潜水”、“水果、岛屿、潜水”,然后将各个组合中的词汇替换为词汇对应的词汇标识,就可以得到多个组合。其中,根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,能够使得词向量模型学习到任意两个词汇之间的共现关系,直至词向量模型收敛,使得词向量模型可以覆盖任意多个词汇的共现情况。
进一步的,在上述实施例的基础上,由于词频较小的词汇对词向量模型的训练起到的作用较小,因此,为了降低词向量模型的训练量,加快训练速度,结合参考图6,在图4所示实施例的基础上,所述的装置还可以包括:去除模块38;
所述获取模块31,还用于获取所述词汇集合中对应的词频小于预设词频阈值的第一词汇;
所述去除模块38,用于去除所述词汇集合中的所述第一词汇。
本发明实施例的文章推荐装置,通过获取第二预设时间段内发布的历史文章集合;根据历史文章集合,生成词汇集合;词汇集合中包括:各个历史文章对应的词汇子集合;词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;针对词汇集合中的每个词汇,计算词汇的词频,根据词频,确定词汇对应的词汇标识;将词汇对应的词汇标识,输入预设的词向量模型,得到词汇对应的向量;根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表,从而能够确保泛化表中各词汇对应的泛化词为与各词汇的扩展偏好相关的词汇,从而扩展了待推荐文章所体现出的用户偏好,提高了推荐效率。
图7为本发明实施例提供的另一种文章推荐装置的结构示意图。该文章推荐装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的文章推荐方法。
进一步地,文章推荐装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的文章推荐方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文章推荐方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文章推荐方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种文章推荐方法,其特征在于,包括:
获取用户的历史行为记录;所述历史行为记录中包括:第一预设时间段内所述用户点击过的文章;
根据所述文章中的词汇信息,构建召回词集合;所述词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;
针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;所述泛化词为与所述用户的扩展偏好相关的词汇;
根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;
根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词之前,还包括:
获取第二预设时间段内发布的历史文章集合;
根据所述历史文章集合,生成词汇集合;所述词汇集合中包括:各个历史文章对应的词汇子集合;所述词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;
针对所述词汇集合中的每个词汇,计算所述词汇的词频,根据所述词频,确定所述词汇对应的词汇标识;
将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量;
根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
3.根据权利要求2所述的方法,其特征在于,所述将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量之前,包括:
针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;所述N值根据词向量模型中的窗口长度确定;
根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到所述预设的词向量模型。
4.根据权利要求2所述的方法,其特征在于,所述将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量之前,还包括:
获取所述词汇集合中对应的词频小于预设词频阈值的第一词汇;
去除所述词汇集合中的所述第一词汇。
5.根据权利要求2所述的方法,其特征在于,所述根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表,包括:
针对所述词汇集合中的每个词汇,计算所述词汇与其他各个词汇之间的向量距离;
将对应的向量距离小于预设距离阈值的其他词汇,确定为所述词汇对应的泛化词;
根据各个词汇对应的泛化词,生成泛化表。
6.根据权利要求5所述的方法,其特征在于,所述根据各个词汇对应的泛化词,生成泛化表之前,还包括:
针对所述词汇集合中的每个词汇,根据所述词汇对应的泛化词的词频,计算平均词频;
去除对应的词频小于平均词频的泛化词。
7.一种文章推荐装置,其特征在于,包括:
获取模块,用于获取用户的历史行为记录;所述历史行为记录中包括:第一预设时间段内所述用户点击过的文章;
构建模块,用于根据所述文章中的词汇信息,构建召回词集合;所述词汇信息包括以下词汇中的任意一种或者多种:标题、类别、关键词以及标签;
查询模块,用于针对所述召回词集合中的每个召回词,查询泛化表,获取每个召回词对应的泛化词;所述泛化词为与所述用户的扩展偏好相关的词汇;
生成模块,用于根据召回词集合以及每个召回词对应的泛化词,生成扩展后的召回词集合;
所述查询模块,还用于根据扩展后的召回词集合,查询文章库,获取待推荐的文章并推荐给所述用户。
8.根据权利要求7所述的装置,其特征在于,还包括:确定模块和输入模块;
所述获取模块,还用于获取第二预设时间段内发布的历史文章集合;
所述生成模块,还用于根据所述历史文章集合,生成词汇集合;所述词汇集合中包括:各个历史文章对应的词汇子集合;所述词汇子集合中包括以下词汇中的任意一种或者多种:历史文章的类别、核心关键词;
所述确定模块,用于针对所述词汇集合中的每个词汇,计算所述词汇的词频,根据所述词频,确定所述词汇对应的词汇标识;
所述输入模块,用于将所述词汇对应的词汇标识,输入预设的词向量模型,得到所述词汇对应的向量;
所述确定模块,还用于根据各个词汇对应的向量,确定与各个词汇对应的泛化词,并生成泛化表。
9.根据权利要求8所述的装置,其特征在于,还包括:训练模块;
所述获取模块,还用于针对每个历史文章,获取对应的词汇子集合中任意N个词汇对应的词汇标识的组合,得到多个组合;所述N值根据词向量模型中的窗口长度确定;
所述训练模块,用于根据每个历史文章对应的多个组合,对初始的词向量模型进行训练,得到所述预设的词向量模型。
10.根据权利要求8所述的装置,其特征在于,还包括:去除模块;
所述获取模块,还用于获取所述词汇集合中对应的词频小于预设词频阈值的第一词汇;
所述去除模块,用于去除所述词汇集合中的所述第一词汇。
11.根据权利要求8所述的装置,其特征在于,所述确定模块具体用于,
针对所述词汇集合中的每个词汇,计算所述词汇与其他各个词汇之间的向量距离;
将对应的向量距离小于预设距离阈值的其他词汇,确定为所述词汇对应的泛化词;
根据各个词汇对应的泛化词,生成泛化表。
12.根据权利要求11所述的装置,其特征在于,所述确定模块具体还用于,
针对所述词汇集合中的每个词汇,根据所述词汇对应的泛化词的词频,计算平均词频;
去除对应的词频小于平均词频的泛化词。
13.一种文章推荐装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的文章推荐方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文章推荐方法。
15.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-6中任一所述的文章推荐方法。
CN201811052099.4A 2018-09-10 2018-09-10 文章推荐方法及装置 Pending CN109255126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811052099.4A CN109255126A (zh) 2018-09-10 2018-09-10 文章推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811052099.4A CN109255126A (zh) 2018-09-10 2018-09-10 文章推荐方法及装置

Publications (1)

Publication Number Publication Date
CN109255126A true CN109255126A (zh) 2019-01-22

Family

ID=65047179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811052099.4A Pending CN109255126A (zh) 2018-09-10 2018-09-10 文章推荐方法及装置

Country Status (1)

Country Link
CN (1) CN109255126A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471858A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 应用程序测试方法、装置及存储介质
CN110703924A (zh) * 2019-09-11 2020-01-17 连尚(新昌)网络科技有限公司 一种基于输入法应用的新用户的冷启动方法及设备
CN111078994A (zh) * 2019-11-06 2020-04-28 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统
CN111159561A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 根据用户行为和用户画像构建推荐引擎的方法
CN111310011A (zh) * 2020-01-20 2020-06-19 北京字节跳动网络技术有限公司 一种信息推送方法、装置、电子设备及存储介质
CN111400546A (zh) * 2020-03-18 2020-07-10 腾讯科技(深圳)有限公司 一种视频召回方法、视频推荐方法及装置
CN111753151A (zh) * 2020-06-24 2020-10-09 广东科杰通信息科技有限公司 一种基于互联网用户行为的服务推荐方法
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN112182414A (zh) * 2020-08-13 2021-01-05 亿存(北京)信息科技有限公司 文章推荐方法、装置及电子设备
CN112231555A (zh) * 2020-10-12 2021-01-15 中国平安人寿保险股份有限公司 基于用户画像标签的召回方法、装置、设备及存储介质
CN113706938A (zh) * 2021-07-15 2021-11-26 都建彬 基于汉语拼音的快速学习八门外语的方法、装置
CN114398547A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 一种智能推送文章的处理方法和装置
CN114416940A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 表格问答中的短语泛化方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN107562925A (zh) * 2017-09-14 2018-01-09 广东神马搜索科技有限公司 用于推荐文章的方法、设备和电子设备
CN108256061A (zh) * 2018-01-16 2018-07-06 华东师范大学 医疗文本的检索方法、电子设备及存储介质
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN108334632A (zh) * 2018-02-26 2018-07-27 深圳市腾讯计算机系统有限公司 实体推荐方法、装置、计算机设备和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN107562925A (zh) * 2017-09-14 2018-01-09 广东神马搜索科技有限公司 用于推荐文章的方法、设备和电子设备
CN108256061A (zh) * 2018-01-16 2018-07-06 华东师范大学 医疗文本的检索方法、电子设备及存储介质
CN108334632A (zh) * 2018-02-26 2018-07-27 深圳市腾讯计算机系统有限公司 实体推荐方法、装置、计算机设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭喻栋 等: "基于降噪自编码器网络与词向量的信息推荐方法", 《计算机工程》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN110471858A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 应用程序测试方法、装置及存储介质
CN110471858B (zh) * 2019-08-22 2023-09-01 腾讯科技(深圳)有限公司 应用程序测试方法、装置及存储介质
CN110703924A (zh) * 2019-09-11 2020-01-17 连尚(新昌)网络科技有限公司 一种基于输入法应用的新用户的冷启动方法及设备
CN111078994B (zh) * 2019-11-06 2023-04-18 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统
CN111078994A (zh) * 2019-11-06 2020-04-28 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统
CN111159561A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 根据用户行为和用户画像构建推荐引擎的方法
CN111310011A (zh) * 2020-01-20 2020-06-19 北京字节跳动网络技术有限公司 一种信息推送方法、装置、电子设备及存储介质
CN111400546A (zh) * 2020-03-18 2020-07-10 腾讯科技(深圳)有限公司 一种视频召回方法、视频推荐方法及装置
CN111753151A (zh) * 2020-06-24 2020-10-09 广东科杰通信息科技有限公司 一种基于互联网用户行为的服务推荐方法
CN111753151B (zh) * 2020-06-24 2023-09-15 广东科杰通信息科技有限公司 一种基于互联网用户行为的服务推荐方法
CN112182414A (zh) * 2020-08-13 2021-01-05 亿存(北京)信息科技有限公司 文章推荐方法、装置及电子设备
CN112231555A (zh) * 2020-10-12 2021-01-15 中国平安人寿保险股份有限公司 基于用户画像标签的召回方法、装置、设备及存储介质
CN112231555B (zh) * 2020-10-12 2023-09-15 中国平安人寿保险股份有限公司 基于用户画像标签的召回方法、装置、设备及存储介质
CN113706938B (zh) * 2021-07-15 2023-08-18 都建彬 基于汉语拼音的快速学习八门外语的方法、装置
CN113706938A (zh) * 2021-07-15 2021-11-26 都建彬 基于汉语拼音的快速学习八门外语的方法、装置
CN114416940A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 表格问答中的短语泛化方法、装置、电子设备及存储介质
CN114398547B (zh) * 2022-01-06 2022-09-30 北京博瑞彤芸科技股份有限公司 一种智能推送文章的处理方法和装置
CN114398547A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 一种智能推送文章的处理方法和装置

Similar Documents

Publication Publication Date Title
CN109255126A (zh) 文章推荐方法及装置
CN108491529B (zh) 信息推荐方法及装置
CN107609098B (zh) 搜索方法及装置
CN108984500B (zh) 金额信息的提取方法、终端设备及介质
CN103207904B (zh) 搜索结果的提供方法及搜索引擎
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN107977415A (zh) 自动问答方法及装置
TWI710917B (zh) 資料處理方法及裝置
CN110019668A (zh) 一种文本检索方法及装置
CN109508378B (zh) 一种样本数据处理方法及装置
CN110188350A (zh) 文本一致性计算方法及装置
CN108681541A (zh) 图片搜索方法、装置及计算机设备
CN107885888A (zh) 信息处理方法及装置、终端设备以及计算机可读存储介质
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
CN107748802A (zh) 文章聚合方法及装置
CN110069739A (zh) 页面预加载方法及装置
CN110222260A (zh) 一种搜索方法、装置及存储介质
CN110019669A (zh) 一种文本检索方法及装置
CN109743589A (zh) 文章生成方法及装置
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN105989066A (zh) 一种信息处理方法和装置
CN109033365A (zh) 一种数据处理方法及相关设备
CN108985289A (zh) 乱码检测方法及装置
CN109614478A (zh) 词向量模型的构建方法、关键词匹配方法及装置
CN106294338A (zh) 信息处理方法和信息处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination