CN110427465B - 一种基于词语知识图谱的内容推荐方法及装置 - Google Patents

一种基于词语知识图谱的内容推荐方法及装置 Download PDF

Info

Publication number
CN110427465B
CN110427465B CN201910748187.6A CN201910748187A CN110427465B CN 110427465 B CN110427465 B CN 110427465B CN 201910748187 A CN201910748187 A CN 201910748187A CN 110427465 B CN110427465 B CN 110427465B
Authority
CN
China
Prior art keywords
word
processed
words
speech
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910748187.6A
Other languages
English (en)
Other versions
CN110427465A (zh
Inventor
陆瀛海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910748187.6A priority Critical patent/CN110427465B/zh
Publication of CN110427465A publication Critical patent/CN110427465A/zh
Application granted granted Critical
Publication of CN110427465B publication Critical patent/CN110427465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种基于词语知识图谱的内容推荐方法及装置,其中方法包括:获取基准短语,根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,获取第二基准词,第二动词,以及类比词,并根据第二基准词,第二动词,以及类比词所对应嵌入向量在正则表达式中的关系,得到第二类比结果词;将第二类比结果词作为推荐词进行推荐。本发明实施例的基于词语知识图谱的内容推荐方法及装置,能够提高内容推荐的准确性。

Description

一种基于词语知识图谱的内容推荐方法及装置
技术领域
本发明涉及知识图谱技术领域,特别是涉及一种基于词语知识图谱的内容推荐方法及装置。
背景技术
知识图谱是一种用于描述各种对象以及他们之间关系的模型,上述对象可以是指实体或者概念,例如,描述一个词语与另一个词语之间的关系。通过构建好的知识图谱可以进行内容推荐,例如,基于知识图谱得到推荐词,向用户推荐与该推荐词相关的视频内容。
现有的基于词语知识图谱的内容推荐方法,通常基于深度学习技术构建,即,通过大量样本文本对知识图谱网络进行训练,使知识图谱网络学习到样本文本中词语间的关系。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
现有技术在构建词语知识图谱时,由于知识图谱仅通过样本文本本身进行学习,因此难以全面地覆盖样本文本中各词语不同的属性,导致所构建的知识图谱存在词语信息覆盖不够全面,使得基于知识图谱进行内容推荐时的准确性不高。
发明内容
本发明实施例的目的在于提供一种基于词语知识图谱的内容推荐方法及装置,以进一步提高基于知识图谱进行内容推荐时的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种基于词语知识图谱的内容推荐方法,包括:
获取基准短语,所述基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,所述第一类比结果词为对所述第一基准词进行类比后得到的词语;
根据组成所述基准短语的各词语在所述知识图谱中的所对应嵌入向量之间的关系,确定所述基准短语的正则表达式,所述正则表达式为表示所述基准短语中各词语所对应嵌入向量关系的等式;
获取第二基准词,第二动词,以及类比词,并根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词,其中,所述第二基准词为用户输入的查询词语,所述第二类比结果词为对所述第二基准词进行类比后得到的词语;
将所述第二类比结果词作为推荐词进行推荐;
其中,所述知识图谱通过如下步骤构建:
获取多个待处理词语及各待处理词语在不同词性维度下的释义;
针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,所述嵌入向量的分量表示待处理词语在不同词性维度下的释义;
基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱。
可选的,所述获取多个待处理词语及各待处理词语在不同词性维度下的释义的步骤,包括:
获取多个待处理词语及各待处理词语在预设词典中的不同词性维度下的释义,所述词性至少包括:名词词性,动词词性,形容词词性,以及介词词性。
可选的,所述针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量的步骤,包括:
将所述多个待处理词语中的各待处理词语输入预先训练的神经网络,得到各待处理词语对应的嵌入向量。
可选的,所述基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱的步骤,包括:
根据所述嵌入向量的分量个数,确定待构建的词语知识图谱的总维度;
将所述多个待处理词语的嵌入向量映射到具有相同所述总维度的向量空间中,得到所述多个待处理词语的知识图谱。
可选的,所述根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词的步骤,包括:
将所述第二基准词,第二动词,以及类比词所对应嵌入向量输入所述正则表达式,得到新的嵌入向量;
将所述新的嵌入向量在所述知识图谱中对应的词语确定为所述第二类比结果词。
第二方面,本发明实施例提供了一种基于词语知识图谱的内容推荐装置,包括:
第二获取模块,用于获取基准短语,所述基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,所述第一类比结果词为对所述第一基准词进行类比后得到的词语;
确定模块,用于根据组成所述基准短语的各词语在所述知识图谱中的所对应嵌入向量之间的关系,确定所述基准短语的正则表达式,所述正则表达式为表示所述基准短语中各词语所对应嵌入向量关系的等式;
第三获取模块,用于获取第二基准词,第二动词,以及类比词,并根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词,其中,所述第二基准词为用户输入的查询词语,所述第二类比结果词为对所述第二基准词进行类比后得到的词语;
推荐模块,用于将所述第二类比结果词作为推荐词进行推荐;
其中,所述装置还包括:
第一获取模块,用于获取多个待处理词语及各待处理词语在不同词性维度下的释义;
构造模块,用于针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,所述嵌入向量的分量表示待处理词语在不同词性维度下的释义;
构建模块,用于基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱。
可选的,所述第一获取模块具体用于:
获取多个待处理词语及各待处理词语在预设词典中的不同词性维度下的释义,所述词性至少包括:名词词性,动词词性,形容词词性,以及介词词性。
可选的,所述构造模块具体用于:
将所述多个待处理词语中的各待处理词语输入预先训练的神经网络,得到各待处理词语对应的嵌入向量。
可选的,所述构建模块包括:
第一确定子模块,用于根据所述嵌入向量的分量个数,确定待构建的词语知识图谱的总维度;
映射子模块,用于将所述多个待处理词语的嵌入向量映射到具有相同所述总维度的向量空间中,得到所述多个待处理词语的知识图谱。
可选的,所述第三获取模块包括:
输入子模块,用于将所述第二基准词,第二动词,以及类比词所对应嵌入向量输入所述正则表达式,得到新的嵌入向量;
第二确定子模块,用于将所述新的嵌入向量在所述知识图谱中对应的词语确定为所述第二类比结果词。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的基于词语知识图谱的内容推荐方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于词语知识图谱的内容推荐方法。
本发明实施例提供的一种基于词语知识图谱的内容推荐方法及装置,在获取基准短语后,通过根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,然后再基于知识图谱进行词语的类比推理,并基于类比推理结果进行内容推荐,由于知识图谱中的嵌入向量中不同的分量表示待处理词语在不同词性维度下的释义,因此知识图谱中保存有各词语更丰富的信息,能够进一步提高词语知识图谱中词语信息的覆盖全面性,从而在基于知识图谱进行内容推荐时,能够提高内容推荐的准确性。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的基于词语知识图谱的内容推荐方法的一种流程示意图;
图2为本发明实施例的知识图谱的一种示意图;
图3为本发明实施例提供的基于词语知识图谱的内容推荐方法中,知识图谱构建过程的一种流程示意图;
图4为本发明实施例提供的基于词语知识图谱的内容推荐方法中,步骤S230的一种流程示意图;
图5为本发明实施例提供的一种基于词语知识图谱的内容推荐装置的结构示意图;
图6为本发明实施例提供的基于词语知识图谱的内容推荐装置中,第三获取模块的一种结构示意图;
图7为本发明实施例提供的基于词语知识图谱的内容推荐装置中,构建模块的一种结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有技术在构建词语知识图谱时,通常是将大量样本文本输入知识图谱网络中,从而对知识图谱网络进行训练,使知识图谱网络学习样本文本中词语间的关系,然而,一个汉字或者词语通常具有不同的词性,而由于词性不同,其释义截然不同,也即,一个汉字或者词语可以具有不同的释义。例如,词语鱼肉,当其为名词时,是指鱼类的肉;当其为动词时,用以比喻残杀、残害,由于现有的词语知识图谱仅通过样本文本本身进行学习,而没有考虑样本文本中各词语不同词性维度下的释义,因此,难以全面地对词语的不同维度信息进行覆盖,使得基于知识图谱进行内容推荐时的准确性不高。
有鉴于此,本发明实施例提供了一种基于词语知识图谱的内容推荐方法,在获取基准短语后,通过根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,然后再基于知识图谱进行词语的类比推理,并基于类比推理结果进行内容推荐,由于知识图谱中的嵌入向量中不同的分量表示待处理词语在不同词性维度下的释义,因此知识图谱中保存有各词语更丰富的信息,能够进一步提高词语知识图谱中词语信息的覆盖全面性,从而在基于知识图谱进行内容推荐时,能够提高内容推荐的准确性。
下面首先对本发明实施例所提供的一种基于词语知识图谱的内容推荐方法进行说明。
本发明实施例提供了一种基于词语知识图谱的内容推荐方法,如图1所示,该方法可以包括以下步骤:
S110,获取基准短语。
本发明实施例中,基准短语可以指一个预设的短语,该短语用于确定符合预设语法规则的正则表达式,因此可以称之为基准短语。可以理解,一个基准短语可以由多个词语组成,例如,基准短语中可以包括:第一基准词,其嵌入向量记为A;第一动词,其嵌入向量记为x;类比词,其嵌入向量记为y;以及第一类比结果词,其嵌入向量记为B,其中,第一类比结果词是被类比的基准对象,第一类比结果词为对第一基准词进行类比后得到的词语。
示例性地,当上述基准短语为“蜻蜓飞得像飞机”时,则第一基准词为“蜻蜓”,第一动词为“飞得”,类比词为“像”,第一类比结果词为“飞机”。
S120,根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式。
可以在知识图谱中查找各个词语所对应嵌入向量的坐标,然后根据所得到的各嵌入向量的坐标,确定基准短语的正则表达式。
图2为本发明实施例的知识图谱的一种示意图,如图2所示,不同词语在知识图谱中可以对应不同的坐标,例如,“蜻蜓”的坐标为(2,8),“飞得”的坐标为(3,4),“像”的坐标为(4,1),“飞机”的坐标为(8,2),“鲨鱼”的坐标为(1,9),“游得”的坐标为(4,4),“潜艇”的坐标为(8,5)。
示例性地,仍以上述基准短语“蜻蜓飞得像飞机”为例说明,第一基准词“蜻蜓”的嵌入向量为A;第一动词“飞得”的嵌入向量为x;类比词“像”的嵌入向量为y,则“蜻蜓飞得像飞机”的正则表达式可以表示为:w1A+w2x+w3y=B,其中,w1、w2、w3分别表示不同的权重,w1、w2、w3可以以矩阵的形式表示为:W=[w1,w2,w3];B表示词语“飞机”的嵌入向量,根据知识图谱中各嵌入向量的坐标,嵌入向量A、x、y以矩阵的形式表示为:[2,8],[3,4],[4,1],嵌入向量B以矩阵的形式表示为:[8,2],则W[[2,8],[3,4],[4,1]]=[8,2],从而可以求得W,即得到w1、w2、w3
示例性地,上述W[[2,8],[3,4],[4,1]]=[8,2]可以表示为:
Figure BDA0002166291300000071
经矩阵转置后表示为:
Figure BDA0002166291300000072
其中T表示矩阵的转置,则展开后可以表示为:
Figure BDA0002166291300000073
即可通过展开后的表达式求解w1、w2、w3
本发明实施例中,由于示例中的嵌入向量均为2维表示,因此在求解W中的w1、w2、w3时只能列出两个方程,而求解得到的w1、w2、w3可以有多组(即多个解);当然,当嵌入向量以3维表示时,则在求解W中的w1、w2、w3时可以列出三个方程,因此可以求解得到一组w1、w2、w3(即一个解);当然,还可以以高于3维的维度表示嵌入向量,这样,在求解W中的w1、w2、w3时,由于W是以3维表示的,因此只要任取嵌入向量的其中3个维度的值,都可以求解得到w1、w2、w3,也就是说,可以根据不同的W推算得到多个B,这表示在实际应用中,可以通过一个第一基准词推理得到多个类比结果词,实现推理目标的多样性。
参见图1,S130,获取第二基准词,第二动词,以及类比词,并根据第二基准词,第二动词,以及类比词所对应嵌入向量在正则表达式中的关系,得到第二类比结果词。
第二基准词可以为用户输入的查询词语,例如,当用户希望观看某个视频前,可以在搜索框中输入的查询词语。第二类比结果词为对第二基准词进行类比后得到的词语。
示例性地,当用户输入“鲨鱼”时,可以将鲨鱼作为第二基准词,其嵌入向量为A’,并可以从预设动词中选取一个动词作为第二动词,例如将“游得”作为第二动词,其嵌入向量记为x’,以及类比词“像”,其嵌入向量仍为y,待确定的第二类比结果词,其嵌入向量记为B’,则第二类比结果词可以表示为:w1A’+w2x’+w3y=B’,根据知识图谱中各嵌入向量的坐标,嵌入向量A’、x’、y以矩阵的形式表示为:[[1,9],[4,4],[4,1]],嵌入向量B’以矩阵的形式表示为:[8,5],再根据步骤S120求得的W,则W[[1,9],[4,4],[4,1]]=[8,5],从而求得B’的向量表示,再从知识图谱中确定该向量表示对应的嵌入向量,进一步确定对应的词语,即为第二类比结果词。
当然,由于步骤S120求解W的过程中方程个数少于变量数,因此解出的W可能是不定的,也即,可以通过不定的W得出不定数量的目标对象。
例如,上述示例中,鲨鱼游得像某某,类比结果词可以是潜艇,也可以得到类比结果词军舰,从而实现类比推理结果的多样性。
S140,将第二类比结果词作为推荐词进行推荐。
得到第二类比结果词后,便可以将该第二类比结果词作为推荐词进行推荐,例如,在搜索结果界面中展示包含第二类比结果词的视频,从而利用知识图谱,将用户输入的查询词经类比推理后,得到希望向用户推荐的视频内容,提高了视频内容推荐的准确性。
本发明实施例中,如图3所示,知识图谱的构建过程可以通过如下步骤进行:
S210,获取多个待处理词语及各待处理词语在不同词性维度下的释义。
本发明实施例中,待处理词语可以指待构造知识图谱的词语,因此称为待处理词语。可以理解,一个词语可以具有不同的词性,例如,词语“标识”可以为动词或名词,当其为动词时,其释义为标明,做出标记;当其为名词时,其释义为表明特征的记号,因此,本发明实施例可以获取多个待处理词语及各待处理词语在不同词性维度下的释义。当然,所获取的释义还可以是词语在一个词性维度下的不同释义,例如,词语“单位”,其名词词性维度下具有含义完全不同的释义。
作为本发明实施例一种可选的实施方式,可以获取各待处理词语在预设词典中的不同词性维度下的释义,例如,从《汉语大词典》《朗文英文词典》这样的权威性词典中获取,从而保证词语及释义的准确性以及覆盖全面性,上述词性至少可以包括:名词词性,动词词性,形容词词性,以及介词词性。
S220,针对多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量。
本发明实施例中,在获取多个待处理词语后,可以根据待处理词语在不同词性维度下的释义,为各个待处理词语构造嵌入向量,所构造的嵌入向量,其不同的分量可以表示待处理词语在不同词性维度下的释义,也即,一个嵌入向量中可以携带有一个待处理词语在不同词性维度下的释义信息。
作为本发明实施例一种可选的实施方式,可以将上述多个待处理词语中的各待处理词语输入预先训练的神经网络,神经网络对待处理词语进行处理后,输出对应的嵌入向量。
示例性地,可以使用Keras中的Embedding(嵌入)类构造嵌入向量,Keras是一个广泛使用的高层神经网络API(Application Programming Interface,应用程序编程接口)。
作为本发明实施例一种可选的实施方式,可以先通过One-Hot编码(即独热编码)为待处理词语在不同词性维度下的释义进行编码,例如,一个词语在动词词性维度下有3个释义,则为这3个释义进行One-Hot编码,例如,将3个释义分别表示为:000001,000010,000100,当然编码位数可以根据释义的最大数量确定。相似的,可以为该词语的不同词性维度下的多个释义进行编码,当然,如果该待处理词语在某个词性维度下没有释义,则可以用0表示。例如,假设鱼只有名词解释,则其编码向量可以表示为:<名词维度值,0,0,>。
通过上述One-Hot编码,可以将一个待处理词语及其释义映射到低维空间,形成编码向量,然后再将编码向量输入预先训练的神经网络,通过神经网络将上述编码向量随机初始化为一个嵌入向量,即得到嵌入向量。
可选的,当得到编码向量后,由于编码向量中的各分量表示词语的不同释义,因此可以将编码向量中的各分量相加,得到经矢量合并后的编码向量,并将该编码向量输入预先训练的神经网络,得到嵌入向量。
S230,基于所构造的多个待处理词语的嵌入向量及各嵌入向量的分量,构建多个待处理词语的知识图谱。
根据上述步骤可知,所构造的多个待处理词语的嵌入向量中,各分量表示待处理词语在不同词性维度下的释义,因此可以利用多个待处理词语的嵌入向量,以及各嵌入向量中的分量所携带的信息,构建针对上述多个待处理词语的知识图谱。
需要说明的是,本发明实施例中的内容推荐过程与知识图谱的构建过程可以不具有先后顺序,也就是说,在进行内容推荐前不一定首先执行构建知识图谱的过程,例如,本发明实施例可以直接使用预先已经生成好的知识图谱进行内容推荐。当然,上述知识图谱可以是基于步骤S210~S230预先生成的,并且,上述知识图谱中的词语可以自行更新,例如,在获取新的待处理词语后,可以更新知识图谱中的词语,或者,可以在知识图谱中的词语释义改变后,更新知识图谱中该词语的嵌入向量。
作为本发明实施例一种可选的实施方式,如图4所示,上述步骤S230具体可以包括:
S2301,根据嵌入向量的分量个数,确定待构建的词语知识图谱的总维度。
可以理解,由于嵌入向量的分量中携带有待处理词语在不同词性维度下的释义,因此嵌入向量的分量个数即可以表示不同词性的总维度,该总维度即可以为待构建的词语知识图谱的总维度,因此,可以通过嵌入向量的分量个数确定待构建的词语知识图谱的总维度。上述总维度可以为二维,也可以为三维、四维或者其它高维,当总维度为二维时,可以用两个值表示该词语在知识图谱中的坐标,当总维度为三维时,可以用三个值表示该词语在知识图谱中的坐标,依此类推。
S2302,将多个待处理词语的嵌入向量映射到具有相同总维度的向量空间中,得到多个待处理词语的知识图谱。
本发明实施例可以构造一个向量空间,该向量空间的维度可以是上述所确定的总维度,从而可以将多个待处理词语的嵌入向量映射到该向量空间中,其中,向量空间中不同的位置对应不同的待处理词语的嵌入向量。可以理解,嵌入向量与待处理词语存在对应关系,因此,当构造出包含各嵌入向量位置信息的向量空间后,则实际也构造出了上述多个待处理词语的知识图谱。
本发明实施例提供的一种基于词语知识图谱的内容推荐方法,在获取基准短语后,通过根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,然后再基于知识图谱进行词语的类比推理,并基于类比推理结果进行内容推荐,由于知识图谱中的嵌入向量中不同的分量表示待处理词语在不同词性维度下的释义,因此知识图谱中保存有各词语更丰富的信息,能够进一步提高词语知识图谱中词语信息的覆盖全面性,从而在基于知识图谱进行内容推荐时,能够提高内容推荐的准确性。
相应于方法实施例,本发明实施例还提供了一种基于词语知识图谱的内容推荐装置300,与图1所示流程对应,如图5所示,该装置包括:
第二获取模块301,用于获取基准短语,基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,第一类比结果词为对第一基准词进行类比后得到的词语。
确定模块302,用于根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,正则表达式为表示基准短语中各词语所对应嵌入向量关系的等式。
第三获取模块303,用于获取第二基准词,第二动词,以及类比词,并根据第二基准词,第二动词,以及类比词所对应嵌入向量在正则表达式中的关系,得到第二类比结果词,其中,第二基准词为用户输入的查询词语,第二类比结果词为对第二基准词进行类比后得到的词语。
推荐模块304,用于将第二类比结果词作为推荐词进行推荐。
参考图5,本发明实施例的基于词语知识图谱的内容推荐装置还可以包括:
第一获取模块305,用于获取多个待处理词语及各待处理词语在不同词性维度下的释义。
构造模块306,用于针对多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,嵌入向量的分量表示待处理词语在不同词性维度下的释义。
构建模块307,用于基于所构造的多个待处理词语的嵌入向量及各嵌入向量的分量,构建多个待处理词语的知识图谱。
其中,第一获取模块具体用于:
获取多个待处理词语及各待处理词语在预设词典中的不同词性维度下的释义,词性至少包括:名词词性,动词词性,形容词词性,以及介词词性。
其中,构造模块具体用于:
将多个待处理词语中的各待处理词语输入预先训练的神经网络,得到各待处理词语对应的嵌入向量。
其中,如图6所示,第三获取模块303包括:
输入子模块3031,用于将第二基准词,第二动词,以及类比词所对应嵌入向量输入正则表达式,得到新的嵌入向量。
第二确定子模块3032,用于将新的嵌入向量在知识图谱中对应的词语确定为第二类比结果词。
其中,如图7所示,构建模块307包括:
第一确定子模块3071,用于根据嵌入向量的分量个数,确定待构建的词语知识图谱的总维度。
映射子模块3072,用于将多个待处理词语的嵌入向量映射到具有相同总维度的向量空间中,得到多个待处理词语的知识图谱。
本发明实施例提供的一种基于词语知识图谱的内容推荐装置,在获取基准短语后,通过根据组成基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定基准短语的正则表达式,然后再基于知识图谱进行词语的类比推理,并基于类比推理结果进行内容推荐,由于知识图谱中的嵌入向量中不同的分量表示待处理词语在不同词性维度下的释义,因此知识图谱中保存有各词语更丰富的信息,能够进一步提高词语知识图谱中词语信息的覆盖全面性,从而在基于知识图谱进行内容推荐时,能够提高内容推荐的准确性。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取基准短语,所述基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,所述第一类比结果词为对所述第一基准词进行类比后得到的词语;
根据组成所述基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定所述基准短语的正则表达式,所述正则表达式为表示所述基准短语中各词语所对应嵌入向量关系的等式;
获取第二基准词,第二动词,以及类比词,并根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词,其中,所述第二基准词为用户输入的查询词语,所述第二类比结果词为对所述第二基准词进行类比后得到的词语;
将所述第二类比结果词作为推荐词进行推荐;
其中,所述知识图谱通过如下步骤构建:
获取多个待处理词语及各待处理词语在不同词性维度下的释义;
针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,所述嵌入向量的分量表示待处理词语在不同词性维度下的释义;
基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于词语知识图谱的内容推荐方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于词语知识图谱的内容推荐方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种基于词语知识图谱的内容推荐方法,其特征在于,所述方法包括:
获取基准短语,所述基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,所述第一类比结果词为对所述第一基准词进行类比后得到的词语;
根据组成所述基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定所述基准短语的正则表达式,所述正则表达式为表示所述基准短语中各词语所对应嵌入向量关系的等式;
获取第二基准词,第二动词,以及类比词,并根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词,其中,所述第二基准词为用户输入的查询词语,所述第二类比结果词为对所述第二基准词进行类比后得到的词语;
将所述第二类比结果词作为推荐词进行推荐;
其中,所述知识图谱通过如下步骤构建:
获取多个待处理词语及各待处理词语在不同词性维度下的释义;
针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,所述嵌入向量的分量表示待处理词语在不同词性维度下的释义;
基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述获取多个待处理词语及各待处理词语在不同词性维度下的释义的步骤,包括:
获取多个待处理词语及各待处理词语在预设词典中的不同词性维度下的释义,所述词性至少包括:名词词性,动词词性,形容词词性,以及介词词性。
3.根据权利要求1或2所述的方法,其特征在于,所述针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量的步骤,包括:
将所述多个待处理词语中的各待处理词语输入预先训练的神经网络,得到各待处理词语对应的嵌入向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱的步骤,包括:
根据所述嵌入向量的分量个数,确定待构建的词语知识图谱的总维度;
将所述多个待处理词语的嵌入向量映射到具有相同所述总维度的向量空间中,得到所述多个待处理词语的知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词的步骤,包括:
将所述第二基准词,第二动词,以及类比词所对应嵌入向量输入所述正则表达式,得到新的嵌入向量;
将所述新的嵌入向量在所述知识图谱中对应的词语确定为所述第二类比结果词。
6.一种基于词语知识图谱的内容推荐装置,其特征在于,所述装置包括:
第二获取模块,用于获取基准短语,所述基准短语中包括:第一基准词,第一动词,类比词,以及第一类比结果词,所述第一类比结果词为对所述第一基准词进行类比后得到的词语;
确定模块,用于根据组成所述基准短语的各词语在知识图谱中的所对应嵌入向量之间的关系,确定所述基准短语的正则表达式,所述正则表达式为表示所述基准短语中各词语所对应嵌入向量关系的等式;
第三获取模块,用于获取第二基准词,第二动词,以及类比词,并根据所述第二基准词,第二动词,以及类比词所对应嵌入向量在所述正则表达式中的关系,得到第二类比结果词,其中,所述第二基准词为用户输入的查询词语,所述第二类比结果词为对所述第二基准词进行类比后得到的词语;
推荐模块,用于将所述第二类比结果词作为推荐词进行推荐;
其中,所述装置还包括:
第一获取模块,用于获取多个待处理词语及各待处理词语在不同词性维度下的释义;
构造模块,用于针对所述多个待处理词语中的每个待处理词语,根据该待处理词语在不同词性维度下的释义构造该待处理词语的嵌入向量,所述嵌入向量的分量表示待处理词语在不同词性维度下的释义;
构建模块,用于基于所构造的所述多个待处理词语的嵌入向量及各嵌入向量的分量,构建所述多个待处理词语的知识图谱。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块具体用于:
获取多个待处理词语及各待处理词语在预设词典中的不同词性维度下的释义,所述词性至少包括:名词词性,动词词性,形容词词性,以及介词词性。
8.根据权利要求6或7所述的装置,其特征在于,所述构造模块具体用于:
将所述多个待处理词语中的各待处理词语输入预先训练的神经网络,得到各待处理词语对应的嵌入向量。
9.根据权利要求6所述的装置,其特征在于,所述构建模块包括:
第一确定子模块,用于根据所述嵌入向量的分量个数,确定待构建的词语知识图谱的总维度;
映射子模块,用于将所述多个待处理词语的嵌入向量映射到具有相同所述总维度的向量空间中,得到所述多个待处理词语的知识图谱。
10.根据权利要求6所述的装置,其特征在于,所述第三获取模块包括:
输入子模块,用于将所述第二基准词,第二动词,以及类比词所对应嵌入向量输入所述正则表达式,得到新的嵌入向量;
第二确定子模块,用于将所述新的嵌入向量在所述知识图谱中对应的词语确定为所述第二类比结果词。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201910748187.6A 2019-08-14 2019-08-14 一种基于词语知识图谱的内容推荐方法及装置 Active CN110427465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910748187.6A CN110427465B (zh) 2019-08-14 2019-08-14 一种基于词语知识图谱的内容推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748187.6A CN110427465B (zh) 2019-08-14 2019-08-14 一种基于词语知识图谱的内容推荐方法及装置

Publications (2)

Publication Number Publication Date
CN110427465A CN110427465A (zh) 2019-11-08
CN110427465B true CN110427465B (zh) 2022-03-04

Family

ID=68414541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748187.6A Active CN110427465B (zh) 2019-08-14 2019-08-14 一种基于词语知识图谱的内容推荐方法及装置

Country Status (1)

Country Link
CN (1) CN110427465B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914568B (zh) * 2020-07-31 2024-02-06 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN112528039A (zh) * 2020-12-16 2021-03-19 中国联合网络通信集团有限公司 词语处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547823B2 (en) * 2014-12-31 2017-01-17 Verizon Patent And Licensing Inc. Systems and methods of using a knowledge graph to provide a media content recommendation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于科学知识图谱的学习路径推荐研究;刘昱良,张聪品;《河南科技学院学报(自然科学版)》;20180511;第2卷(第46期);37-41 *

Also Published As

Publication number Publication date
CN110427465A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US11699298B2 (en) Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN110737758B (zh) 用于生成模型的方法和装置
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN107480196B (zh) 一种基于动态融合机制的多模态词汇表示方法
CN107168954A (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN110427465B (zh) 一种基于词语知识图谱的内容推荐方法及装置
CN114880991B (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN110309281A (zh) 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN112926334A (zh) 确定词表示向量的方法、装置及电子设备
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN112507705B (zh) 一种位置编码的生成方法、装置及电子设备
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
CN115906863B (zh) 基于对比学习的情感分析方法、装置、设备以及存储介质
US20230130662A1 (en) Method and apparatus for analyzing multimodal data
CN112148902B (zh) 数据处理方法、装置、服务器及存储介质
CN111475668B (zh) 针对复杂关系描述的图片视觉推理方法、设备及存储介质
CN113869037B (zh) 基于内容增强网络嵌入的主题标签表示学习方法
Aliyu et al. Identifying stiff ordinary differential equations and problem solving environments (PSEs)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant