CN111782816A - 生成知识图谱的方法及装置、搜索方法、引擎及系统 - Google Patents
生成知识图谱的方法及装置、搜索方法、引擎及系统 Download PDFInfo
- Publication number
- CN111782816A CN111782816A CN202010311287.5A CN202010311287A CN111782816A CN 111782816 A CN111782816 A CN 111782816A CN 202010311287 A CN202010311287 A CN 202010311287A CN 111782816 A CN111782816 A CN 111782816A
- Authority
- CN
- China
- Prior art keywords
- entity
- type
- entities
- relationship
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 21
- 238000013135 deep learning Methods 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 24
- 239000000516 sunscreening agent Substances 0.000 description 11
- 230000000475 sunscreen effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000005034 decoration Methods 0.000 description 7
- 238000005065 mining Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 229910000838 Al alloy Inorganic materials 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 210000000085 cashmere Anatomy 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- LEYJJTBJCFGAQN-UHFFFAOYSA-N chembl1985378 Chemical compound OC1=CC=C2C=CC=CC2=C1N=NC(C=C1)=CC=C1N=NC1=CC=C(S(O)(=O)=O)C=C1 LEYJJTBJCFGAQN-UHFFFAOYSA-N 0.000 description 2
- 239000006071 cream Substances 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 239000000956 alloy Substances 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及生成知识图谱的方法及装置、搜索方法、引擎及系统。生成知识图谱的方法包括:对多个物品标题进行分词处理,获得与多个物品标题对应的多个主题词和每个主题词的词性;选取多个主题词中的至少一部分,作为多个实体;根据与多个实体对应的各个主题词和各个主题词的词性、或各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,相关关系为相似关系或关联关系;确定每个实体的实体类型;根据每个实体对中的两个实体的实体类型,确定每个实体对中的两个实体的关系类型,关系类型为相似关系的子类或关联关系的子类;根据多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
Description
技术领域
本公开涉及计算机技术领域,特别涉及生成知识图谱的方法及装置、搜索方法、引擎及系统、计算机可存储介质。
背景技术
随着电商领域的成熟发展,业务人员依据海量的电商数据在电商领域的业务挖掘面临着巨大的挑战。而知识图谱为业务人员的业务挖掘提供了更为便利的条件。
相关技术中,从包括大量噪声信息的文本语料中挖掘实体以及实体间的相似关系,并利用大量的标注数据对深度学习算法模型进行训练,从而利用训练好的深度学习算法模型,确定实体间的关系类型,实体间的关系类型为相似关系的子类,进而根据已确定的实体及实体间的关系类型生成知识图谱。
发明内容
发明人认为:相关技术中,仅仅挖掘实体之间的相似关系,生成的知识图谱的全面性和准确性差,利用深度学习算法模型来确定实体间的关系类型,生成的知识图谱的准确性较差和效率低。
针对上述技术问题,本公开提出了一种解决方案,提高了生成知识图谱的全面性、准确性及效率。
根据本公开的第一方面,提供了一种生成知识图谱的方法,包括:对多个物品标题进行分词处理,获得与所述多个物品标题对应的多个主题词和每个主题词的词性;选取所述多个主题词中的至少一部分,作为多个实体,每个实体对应一个主题词;根据与所述多个实体对应的各个主题词和所述各个主题词的词性、或所述各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,所述相关关系为相似关系或关联关系;确定每个实体的实体类型;根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型,所述关系类型为相似关系的子类或关联关系的子类;根据所述多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
在一些实施例中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型。
在一些实施例中,所述每个实体对包括第一实体和第二实体,与所述第一实体的实体类型和所述第二实体的实体类型对应的关系类型包括至少一种特定关系类型,根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型包括:从所述多个实体中,确定与所述第二实体的实体类型相同的其他实体;对于每种特定关系类型,利用与该特定关系类型对应的用户行为数据,计算所述第一实体与所述第二实体的关系类型为该特定关系类型的概率、以及所述第一实体与每个其他实体的关系类型为该特定关系类型的概率;根据所述第一实体和所述第二实体的关系类型为该特定关系类型的概率在各个概率中的排名,确定所述第一实体与所述第二实体的关系类型是否包括该特定关系类型。
在一些实施例中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型。
在一些实施例中,所述每个实体对中的两个实体的实体类型分别为第一实体类型和第二实体类型,根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型包括:
在与所述第一实体类型和所述第二实体类型对应的关系类型只存在一种的情况下,确定所述每个实体对中的两个实体的关系类型为与所述第一实体类型和所述第二实体类型对应的关系类型;在与所述第一实体类型和所述第二实体类型对应的关系类型存在多种的情况下,利用预设关系类型匹配算法、深度学习算法和关系抽取模板中的至少一种,确定所述每个实体对中的两个实体的关系类型,所述预设关系类型匹配算法利用预设的关系类型匹配规则确定每个实体对中的两个实体的关系类型。
在一些实施例中,确定每个实体的实体类型包括:对于每个实体,从多个实体库中,确定包括该实体的实体库,每个实体库对应一个实体类型,每个实体库包括属于同一实体类型的至少一个实体;在存在包括该实体的实体库的情况下,根据与包括该实体的实体库对应的实体类型,确定该实体的实体类型;在不存在包括该实体的实体库的情况下,根据与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,确定该实体的实体类型。
在一些实施例中,相似关系采用余弦相似度表示,根据与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,确定该实体的实体类型包括:在与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型存在多种的情况下,计算与每种实体类型对应的至少一个实体与该实体的余弦相似度的平均值;根据与各个实体类型对应的平均值,确定该实体的实体类型。
在一些实施例中,根据与各个实体类型对应的平均值,确定该实体的实体类型包括:在各个平均值的最大值和次大值之间的差值大于第一预设阈值的情况下,根据与最大值对应的实体类型,确定该实体的实体类型。
在一些实施例中,根据与各个实体类型对应的平均值,确定该实体的实体类型包括:在各个平均值的最大值和次大值之间的差值小于或等于第一预设阈值的情况下,利用预设实体类型匹配算法、深度学习算法、聚类算法中的至少一种,确定该实体的实体类型,所述预设实体类型匹配算法利用预设的实体类型匹配规则确定每个实体的实体类型。
在一些实施例中,选取所述多个主题词中的至少一部分,作为多个实体包括:确定每个主题词在所述多个物品标题中出现的次数;选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。
在一些实施例中,选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体包括:根据预设过滤规则、停词库,选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。
在一些实施例中,所述相似关系通过根据与所述多个实体对应的各个主题词和所述各个主题词的词性并利用词到向量Word2Vect算法确定,所述关联关系通过根据所述各个主题词与物品标题的对应关系并利用频繁模式生长FP-Growth算法确定。
根据本公开第二方面,提供了一种搜索方法,包括:接收搜索请求,所述搜索请求包括待搜索实体;从利用上述任一实施例所述的生成知识图谱的方法生成的知识图谱中,获取并展示与待搜索实体具有相关关系的至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型。
根据本公开第三方面,提供了一种生成知识图谱的装置,包括:分词处理模块,被配置为对多个物品标题进行分词处理,获得与所述多个物品标题对应的多个主题词和每个主题词的词性;选取模块,被配置为选取所述多个主题词中的至少一部分,作为多个实体,每个实体对应一个主题词;第一确定模块,被配置为根据与所述多个实体对应的各个主题词和所述各个主题词的词性、或所述各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,所述相关关系为相似关系或关联关系;第二确定模块,被配置为确定每个实体的实体类型;第三确定模块,被配置为根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型,所述关系类型为相似关系的子类或关联关系的子类;生成模块,被配置为根据所述多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
根据本公开的第四方面,提供了一种生成知识图谱的装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行上述任一实施例所述的生成知识图谱的方法。
根据本公开的第五方面,提供了一种搜索引擎,包括:接收模块,被配置为接收搜索请求,所述搜索请求包括待搜索实体;获取模块,被配置为从利用上述任一实施例所述的生成知识图谱的方法生成的知识图谱中,获取与待搜索实体具有相关关系的至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型;展示模块,被配置为展示所述至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型。
根据本公开的第六方面,提供了一种搜索系统,包括上述任一实施例所述的搜索引擎。
在一些实施例中,搜索系统还包括:上述任一实施例所述的生成知识图谱的装置。
根据本公开的第七方面,一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述任一实施例所述的生成知识图谱的方法。
在上述实施例中,提高了生成知识图谱的全面性、准确性及效率。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出根据本公开一些实施例的生成知识图谱的方法的流程图;
图2示出根据本公开一些实施例的知识图谱的局部示意图;
图3示出根据本公开一些实施例的搜索方法的流程图;
图4示出根据本公开一些实施例的生成知识图谱的装置的框图;
图5示出根据本公开另一些实施例的生成知识图谱的装置的框图;
图6A示出根据本公开一些实施例的搜索引擎的框图;
图6B示出根据本公开一些实施例的搜索界面的示意图;
图6C示出根据本公开一些实施例的展示界面的示意图;
图7示出根据本公开一些实施例的搜索系统的框图;
图8示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出根据本公开一些实施例的生成知识图谱的方法的流程图。
如图1所示,生成知识图谱的方法包括步骤S110-步骤S160。
在步骤S110中,对多个物品标题进行分词处理,获得与多个物品标题对应的多个主题词和每个主题词的词性。相对于包括大量噪声数据的文本语料来说,多个物品标题组成的标题数据中,噪声数据少,数据量足够,对多个物品标题进行分词处理,获得多个主题词和每个主题词的词性,提高了分词处理效率,从而进一步提高了生成知识图谱的效率。例如,物品标题为商城中的商品标题。
在一些实施例中,商品标题为“秋冬季外套男加绒加厚卫衣中学生衣服搭配一套帅气青少年套装潮流红色L”。对该商品标题进行分词处理后,得到包括多个主题词和每个主题词的词性的分词处理结果,商品标题和分词处理结果一一对应。例如,商品标题和分词处理结果的对应关系存储在数据库的数据表中,并通过商品标识唯一确定。
在一些实施例中,商品标题为“秋冬季外套男加绒加厚卫衣中学生衣服搭配一套帅气青少年套装潮流红色L”的分词处理结果为数组["n:秋冬季","n:外套","n:男","n:加绒","v:加厚","n:卫衣","n:中学生","n:衣服","v:搭配","m:一套","a:帅气","n:青少年","n:套装","n:潮流","n:红色"]。"n:秋冬季"为数组的一个元素,这里为字符串。该字符串表示主题词“秋冬季”的词性为名词,n为名词的缩写。数组中的其他元素参照"n:秋冬季"的解释,词性定义参照英文中的词性缩写,这里将不再赘述。
在步骤S120中,选取多个主题词中的至少一部分,作为多个实体。每个实体对应一个主题词。物品标题通常与业务紧密结合,通过物品标题得到多个主题词,进而得到多个实体,使得多个实体与业务紧密结合,从而使得生成的知识图谱与业务紧密结合,方便业务人员更准确地依据知识图谱进行业务挖掘,为业务人员的业务挖掘提供了准确、全面的支撑。
在一些实施例中,首先确定每个主题词在所述多个物品标题中出现的次数,然后选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。例如,第二预设阈值为1000。在一些实施例中,定义每个主题词在多个物品标题中出现的次数为词频。例如,还可以结合商品数据表,统计主题词覆盖的商品数、店铺数、品牌数、三级品类数等商品信息,并利用主题词覆盖的商品数、店铺数、品牌数、三级品类数等商品信息选取实体。
在一些实施例中,根据预设过滤规则、停词库,选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。例如,预设过滤规则包括但不限于过滤词性为动词或形容词的主题词。停词库中包括至少一个停用词。在一些实施例中,还可以通过网络爬虫获取至少一个主题词,并对通过网络爬虫获取的主题词筛选,得到至少一个实体,作为通过物品标题得到的多个实体的补充,丰富实体数量,使得生成的知识图谱更加全面。
例如,还可以对多个实体进行实体消歧处理,以处理对应同一主题词的两个不同含义的实体,从而进一步提高生成的知识图谱的全面性和准确性。
在步骤S130中,根据与多个实体对应的各个主题词和各个主题词的词性、或各个主题词与物品标题的对应关系,确定多个实体对。每个实体对包括具有相关关系的两个实体,相关关系为相似关系或关联关系。通过步骤S130,不仅确定了具有相似关系的实体对,还确定了具有关联关系的实体对,提高了生成知识图谱的全面性和准确性,为业务人员的业务挖掘提供了准确、全面的支撑。
例如,相似关系通过根据与多个实体对应的各个主题词和各个主题词的词性并利用Word2Vect(Word to Vector,词到向量)算法确定。关联关系通过根据各个主题词与物品标题的对应关系并利用FP-Growth(Frequent Pattern-Growth,频繁模式生长)算法确定。
在一些实施例中,根据与多个实体对应的各个主题词和各个主题词的词性,利用Word2Vect算法确定各个主题词的词向量。对于每个主题词,计算该主题词的词向量与除该主题词以外的其他主题词的词向量之间的余弦相似度。与余弦相似度大于余弦相似度阈值的两个主题词对应的两个实体间具有相似关系。例如,猫和狗两个实体之间具有相似关系。
例如,表1示出了通过Word2Vect算法计算得到的实体“儿童”与实体“童装”、“小中童”、“儿童节”之间的余弦相似度。
如表1所示,实体“儿童”与实体“童装”之间的余弦相似度为0.51710491。实体“儿童”与实体“小中童”之间的余弦相似度为0.56809051。实体“儿童”与实体“儿童节”之间的余弦相似度为0.41243519。例如,余弦相似度阈值为0.5,那么实体“儿童”与实体“童装”之间和实体“儿童”与实体“小中童”之间都具有相似关系。实体“儿童”与实体“儿童节”之间不具有相似关系。
表1实体间的余弦相似度
实体 | 实体 | 余弦相似度 |
儿童 | 童装 | 0.51710491 |
儿童 | 小中童 | 0.56809051 |
儿童 | 儿童节 | 0.41243519 |
在一些实施例中,各个主题词包括第一主题词和第二主题词,根据各个主题词与物品标题的对应关系,利用FP-Growth算法确定第一主题词和第二主题词同时出现的概率,作为第一主题词和第二主题词之间的关联度,从而可以确定第一主题词和第二主题词都作为实体的情况下,两个实体之间的关联度。例如,关联度大于关联度阈值的两个实体间具有关联关系。在一些实施例中,猫和猫粮两个实体之间具有关联关系。
例如,表2示出通过FP-Growth算法计算得到的实体“情人节”与实体“礼物”、“朋友”、“生日”之间的关联度。
如表2所示,实体“情人节”与实体“礼物”之间的关联度为0.65034233。实体“情人节”与实体“朋友”之间的关联度为0.11830944。实体“情人节”与实体“生日”之间的关联度为0.18808513。例如,关联度阈值为0.2,那么实体“情人节”与实体“礼物”之间具有关联关系,实体“情人节”与实体“朋友”之间和实体“情人节”与实体“生日”之间不具有关联关系。
表2实体间的关联度
实体 | 实体 | 关联度 |
情人节 | 礼物 | 0.65034233 |
情人节 | 朋友 | 0.11830944 |
情人节 | 生日 | 0.18808513 |
在步骤S140中,确定每个实体的实体类型。在一些实施例中,实体类型包括但不限于商品、品牌、人物、时间、行业、颜色款式、机构、情感、生物、场景和地点。
例如,人物这个实体类型还可以细化分为人名、称呼、职业、性别、年龄等实体类型。人名还可以细化分为古代人物、现代名人和普通人名。具有称呼这种实体类型的实体包括但不限于爸爸、妈妈、爷爷、奶奶、女友等实体。具有职业这种实体类型的实体包括但不限于学生、老师、工人、农民等实体。具有性别这种实体类型的实体包括但不限于男、女等实体。具有年龄这种实体类型的实体包括但不限于老人、成人、儿童、1-3岁等实体。
例如,时间还可以细化分为季节、年月份、早中晚等实体类型。具有季节这种实体类型的实体包括但不限于春、夏、秋、冬、四季等实体。具有年月份这种实体类型的实体包括但不限于2019、2020、2008、五月、八月等实体。具有早中晚这种实体类型的实体包括但不限于凌晨、早晨、中午、晚上、午夜等实体。
例如,具有行业这种实体类型的实体包括但不限于理、工、农、医等实体。这些实体可以从标准行业分类库中获取。
例如,颜色款式还可以细化分为颜色、款式等实体类型。具有颜色这种实体类型的实体包括但不限于大红、紫色等实体。具有款式这种实体类型的实体包括但不限于新款、学生款等实体。
例如,机构还可以细化分为学校、政府机关、企事业单位等实体类型。学校还可以细化分为大学、高中、初中和小学等实体类型。这些实体类型的实体可以从互联网标准学校库获取。具有政府机关这种实体类型的实体可以从互联网政府机关库获取。具有企事业这种实体类型的实体可以从互联网企事业名单库获取。
类似地,情感还可以细化分为积极、消极、中性等实体类型。生物还可以细化分为动物、植物、微生物等实体类型。具有动物、植物实体类型的实体可以分别从互联网中国动物分类数据库、互联网中国植物分类数据库中获取。场景还可以细化分为节日、事件等实体类型。具有节日这种实体类型的实体可以从互联网采集标准节日数据库获取。地点还可以细化分为区域、场所等实体类型。具有区域这种实体类型的实体可以从商城标准地名库中获取。
例如,通过如下方式实现步骤S140确定每个实体的实体类型。
首先,对于每个实体,从多个实体库中,确定包括该实体的实体库,每个实体库对应一个实体类型,每个实体库包括属于同一实体类型的至少一个实体。通过已有的实体库确定至少一部分实体,大大节约了工作量,进一步提高了生成知识图谱的效率。
例如,实体库为商城维度数据。商城维度数据包括与多个业务主体相关的不同维度的商城数据。在一些实施例中,商城维度数据包括但不限于区域维度数据、商品维度数据和季节维度数据。例如,区域维度数据包括国家、省、市、县、乡镇等区域数据,并且有区域之间的从属关系等层次结构。在一些实施例中,区域维度数据的实体类型为地理位置。
例如,实体库还可以为通过爬虫技术获取的互联网维度数据。在一些实施例中,互联网维度数据为居巢咨询网中的各个上市公司的明细信息、股票代码、股本结构、股东信息等维度数据。
然后,在存在包括该实体的实体库的情况下,根据与包括该实体的实体库对应的实体类型,确定该实体的实体类型。在不存在包括该实体的实体库的情况下,根据与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,确定该实体的实体类型。具有相似关系的两个实体间通常会具有相同的实体类型,根据与实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,来确定该实体的实体类型,进一步提高了生成知识图谱的效率。
在一些实施例中,相似关系采用余弦相似度表示,在与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型存在多种的情况下,计算与每种实体类型对应的至少一个实体与该实体的余弦相似度的平均值,并根据与各个实体类型对应的平均值,确定该实体的实体类型。
例如,实体a1、a2、a3的实体类型为A,实体b1、b2的实体类型为B,实体d与实体a1、a2、a3、b1、b2之间分别具有相似关系。对于实体类型A,实体d与实体a1、a2、a3之间的余弦相似度分别为0.90、0.91、0.89,余弦相似度的平均值为0.90。对于实体类型B,实体d与实体b1、b2之间的余弦相似度分别为0.50、0.52、0.51,余弦相似度的平均值为0.51。根据与实体类型A、实体类型B分别对应的平均值,确定实体d的实体类型。
在一些实施例中,在各个平均值的最大值和次大值之间的差值大于第一预设阈值的情况下,根据与最大值对应的实体类型,确定该实体的实体类型。例如,对于实体d,各个平均值的最大值为0.90,次大值为0.51,第一预设阈值为0.30。最大值与次大值之间的差值为0.39,大于0.3,则实体d的实体类型为实体类型A。
在各个平均值的最大值和次大值之间的差值小于或等于第一预设阈值的情况下,采用余弦相似度的方式无法准确判断实体的实体类型。在一些实施例中,在各个平均值的最大值和次大值之间的差值小于或等于第一预设阈值的情况下,利用预设实体类型匹配算法、深度学习算法、聚类算法中的至少一种,确定该实体的实体类型。预设实体类型匹配算法利用预设的实体类型匹配规则确定每个实体的实体类型。
例如,实体类型匹配规则包括但不限于前缀匹配规则、后缀匹配规则、特殊词匹配规则。
在一些实施例中,前缀匹配规则用于确定包括特定前缀的实体的实体类型。例如,在一个实体包括特定前缀“运动”的情况下,判断该实体的实体类型为商品。
在一些实施例中,后缀匹配规则用于确定包括特定后缀的实体的实体类型。例如,在一个实体包括特定后缀“包”的情况下,确定该实体的实体类型为商品。在一些实施例中,特定后缀还可以是“衣”、“裤”、“袜”、“帽”、“床”、“柜”和“架”等。例如,首先通过从多个主题词的后缀中确定多个后缀,并统计每个后缀出现的次数。然后根据统计结果从多个后缀中筛选取特定后缀。
在一些实施例中,特殊词匹配规则用于确定包括特殊词的实体的实体类型。例如,在一个实体包括特殊词的情况下,确定该实体的实体类型为与该特殊词对应的实体类型。
例如,深度学习算法为LSTM(Long Short-Term Memory,长短期记忆网络)语言分类模型。将未知实体类型的实体属兔到LSTM语言分类模型中,就可以得到该实体的实体类型。在一些实施例中,利用已知的属于一实体类型的实体以及已知的不属于该实体类型的实体作为带标签的训练数据,训练LSTM语言分类模型。训练过程中,将各个实体拆分成单个字,得到每个字的字向量,然后将每个实体包含的每个字的字向量拼接在一起,构成每个实体的词向量,利用词向量来训练LSTM语言分类模型。
例如,聚类算法通过根据所有实体的词向量,通过k均值聚类算法或层次聚类等算法,将属于同一实体类型的实体聚类成一个簇。同一个簇中的实体间通常具有相似的关系。对于属于同一个簇的各个实体,只需要获得已知实体类型的实体的实体类型,作为该簇中各个实体的实体类型。通过聚类的方式,大大提高了实体类型的判断效率,进而进一步提高了生成知识图谱的效率。
在步骤S150中,根据每个实体对中的两个实体的实体类型,确定每个实体对中的两个实体的关系类型。关系类型为相似关系的子类或关联关系的子类。实体间的关系通常与实体的实体类型有着密切关系,通过根据两个实体的实体类型来确定实体间的关系类型,使得实体间的关系类型更加准确,提高了生成知识图谱的准确性和效率,为业务人员的业务挖掘提供了准确、全面的支撑。
在一些实施例中,根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定每个实体对中的两个实体的关系类型。通过利用用户行为数据,确定实体对中的两个实体的关系类型,实现了对实体间的相关关系的定向抽取,进一步提高了生成知识图谱的准确性。
例如,用户行为数据包括但不限于用户浏览、下单、加购、关注、点击、搜索、评论等行为数据。
在一些实施例中,每个实体对包括第一实体和第二实体,与第一实体的实体类型和第二实体的实体类型对应的关系类型包括至少一种特定关系类型。例如,对于学生和铅笔这两个实体构成的实体对,学生为第一实体,铅笔为第二实体。学生的实体类型为人群,铅笔的实体类型为商品,人群与商品之间的关系类型存在一种特定关系类型为适用人群。又例如,对于防晒霜和夏季这两个实体构成的实体对,防晒霜为第一实体,夏季为第二实体。防晒霜的实体类型为商品,夏季的实体类型为季节,商品与季节之间的关系类型存在一种特定关系类型为畅销季。
在一些实施例中,通过如下方式实现根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定每个实体对中的两个实体的关系类型。
首先,从多个实体中,确定与第二实体的实体类型相同的其他实体。例如,与铅笔的实体类型相同的其他实体包括橡皮、画笔、眼镜。又例如,与夏季的实体类型相同的其他实体包括春季、秋季、冬季。
然后,对于每种特定关系类型,利用与该特定关系类型对应的用户行为数据,计算第一实体与第二实体的关系类型为该特定关系类型的概率、以及第一实体与每个其他实体的关系类型为该特定关系类型的概率。
例如,对于适用人群这种特定关系类型,对应的用户行为数据为用户画像数据。根据用户画像数据可以选取用户画像为学生的用户,统计分析这类用户在一段时间内分别购买或浏览铅笔、橡皮、画笔、眼镜的次数。购买或浏览铅笔的次数除以购买或浏览铅笔、橡皮、画笔、眼镜的次数之和为学生购买铅笔的概率,作为学生与铅笔的关系类型为适用人群的概率。采用类似的方法分别可以确定学生与橡皮、画笔、眼镜的关系类型为适用人群的概率。
例如,对于畅销季这种特定关系类型,对应的用户行为数据为商品销量数据。根据商品销量数据可以统计防晒霜在各个季节的销量。防晒霜在春季的销量除以防晒霜的全年销量就是防晒霜在春季畅销的概率,作为防晒霜与春季的关系类型为畅销季的概率。采用类似的方法分别可以确定防晒霜与夏季、秋季、冬季的关系类型为畅销季的概率。
最后,根据第一实体和第二实体的关系类型为该特定关系类型的概率在各个概率中的排名,确定第一实体与第二实体的关系类型是否包括该特定关系类型。
例如,学生与铅笔的关系类型为适用人群的概率在各个概率中的排名为前三名,则可以确定学生与铅笔的关系类型包括适用人群。
例如,防晒霜与夏季的关系类型为畅销季的概率在各个概率中排名为第一,则可以确定防晒霜与铅笔的关系类型包括畅销季。
在另一些实施例中,根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定每个实体对中的两个实体的关系类型。
例如,每个实体对中的两个实体的实体类型分别为第一实体类型和第二实体类型,通过如下方式实现根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定每个实体对中的两个实体的关系类型。
在与第一实体类型和第二实体类型对应的关系类型只存在一种的情况下,确定每个实体对中的两个实体的关系类型为与第一实体类型和第二实体类型对应的关系类型。
在与第一实体类型和第二实体类型对应的关系类型存在多种的情况下,利用预设关系类型匹配算法、深度学习算法和关系抽取模板中的至少一种,确定每个实体对中的两个实体的关系类型。预设关系类型匹配算法利用预设的关系类型匹配规则确定每个实体对中的两个实体的关系类型。
例如,预设的关系类型匹配规则包括基于后缀匹配规则确定is a的关系类型、基于前缀匹配规则确定适用场景的关系类型。
在一些实施例中,后缀匹配规则为以“袜”结尾的实体类型为商品的实体与实体“袜子”之间的关系类型为is a。例如,长袜、短袜、船袜、丝袜、棉袜、运动袜等实体都与袜子之间具有is a的关系。
在一些实施例中,前缀匹配规则为以“运动”开头的实体类型为商品的实体与实体类型为场景的实体“运动”之间的关系类型为适用场景。例如,运动鞋、运动袜、运动服与运动之间具有适用场景的关系。
例如,在利用深度学习算法确定每个实体对中的两个实体的关系类型的情况下,选取已确定关系类型的多个实体对作为带标签的训练样本,并利用深度学习算法模型抽取训练样本的样本特征,实现利用训练样本训练深度学习算法模型。利用训练好的深度学习算法模型就可以确定未知实体类型的实体的实体类型。在一些实施例中,样本特征包括词向量、左侧词、右侧词、词性以及TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)等。训练深度学习算法模型的具体过程为现有技术,本发明将不再赘述。
在一些实施例中,采用snowball方法,实现利用关系抽取模板确定每个实体对中的两个实体的关系类型。
例如,通过如下方式实现利用关系抽取模板确定每个实体对中的两个实体的关系类型。
首先,人工总结多个种子规则作为关系模板。种子规则的结构例如为五元组“left实体A middle实体B right”。这个关系模板的含义是满足上述关系模板的实体A和实体B存在着某种关系类型。其中,实体A和实体B分别表示关系的起始实体和终止实体,而left是实体A的左侧词汇,middle是实体A和实体B之间的词汇,right为实体B右边的词汇,这样就构成了关系五元组模板。例如,left、middle、right的、最大长度为5。
然后,基于上述种子规则,循环遍历物品标题的分词结果,生成一些新的关系模板。例如,基于上述种子规则“left实体A middle实体B right”,可以确定实体A和实体B具有与上述种子规则“left实体A middle实体B right”对应的关系类型。通过循环遍历物品标题,当在一个物品标题中同时出现实体A和实体B的时候,就可以从该物品标题中抽取出新的关系模板T,并且认为这个新的关系模版T也可以确定实体A和实体B具有与上述种子规则“left实体A middle实体B right”对应的关系类型。在一些实施例中,从该物品标题中提取left、right、middle,从而生成新的关系模板T。
最后,循环遍历物品标题,假如包含实体C和实体D的某一个物品标题与关系模版T相匹配,就可以确定实体C和实体D间的相关关系与实体A和实体B间的相关关系为相同的关系类型。
通过反复迭代上述过程,就可以得到更多的关系模板及与关系模板对应的关系类型。
通常,需要对通过上述过程得到的关系模板和关系类型需要进行评估,以保留可靠的关系模板和关系类型,用于确定更多可靠的关系类型。
例如,可以每一个关系模板对应一个评分。该评分可以通过生成可靠关系类型的数量来确定。同理,每一种关系类型也可以对应一个评分。通过与关系模板对应的评分和与关系类型对应的评分,来确定关系模板和关系类型的可靠度。评估过程为本领域常用的一些方法,本公开将不再赘述。
通过利用关系抽取模板确定每个实体对中的两个实体的关系类型,可以实现关系抽取的迭代,使得关系抽取更加完善、精细、全面。
在步骤S160中,根据多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。例如,生成的知识图谱可以做图嵌入、图推理或人工总结。
图2示出根据本公开一些实施例的知识图谱的局部示意图。
如图2所示,实体“装修”的实体类型为场景,实体“锤子”、“锯子”、“地板”、“铝合金”的实体类型均为商品。装修与锤子、锯子间的相关关系的关系类型均为工具,锤子、锯子指向装修的箭头表示锤子、锯子为装修的工具。装修与地板、铝合金间的相关关系的关系类型均为材料,地板、铝合金指向装修的箭头表示地板、铝合金为装修的材料。
本公开,不仅确定了具有相似关系的实体对,还确定了具有关联关系的实体对,提高了生成知识图谱的全面性和准确性,通过根据两个实体的实体类型来确定实体间的关系类型,使得实体间的关系类型更加准确,提高了生成知识图谱的准确性和效率。
图3示出根据本公开一些实施例的搜索方法的流程图。
如图3所示,搜索方法包括步骤S310-步骤S330。
在步骤S310中,接收搜索请求。搜索请求包括待搜索实体。
在步骤S320中,从利用本公开任意一些实施例中的生成知识图谱的方法生成的知识图谱中,获取与待搜索实体具有相关关系的至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型。
在一些实施例中,利用本公开任意一些实施例中的生成知识图谱的方法生成的知识图谱以多个三元组[第一实体,关系类型,第二实体]的形式存储。三元组[第一实体,关系类型,第二实体]展示了第一实体和第二实体之间所具有的相关关系的关系类型。
例如,通过如下方式实现步骤S320。
首先,在多个三元组中,获取第一实体或第二实体为待搜索实体的三元组。然后,从获取到的三元组中获取除待搜索实体以外的实体和关系类型,分别作为相关实体和待搜索实体与相关实体之间的相关关系的关系类型。
在步骤S330中,展示至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型。例如,按照关系类型分类展示与待搜索实体具有相关关系的至少一个相关实体。
本公开的搜索方法,利用更加全面、准确的知识图谱来展示搜索结果,为发起搜索请求的业务人员提供了更加全面、准确的搜索结果,从而使得生成的知识图谱与业务紧密结合,方便业务人员更准确地依据知识图谱进行业务挖掘,为业务人员的业务挖掘提供了准确、全面的支撑。
图4示出根据本公开一些实施例的生成知识图谱的装置的框图。
如图4所示,生成知识图谱的装置41包括分词处理模块411、选取模块412、第一确定模块413、第二确定模块414、第三确定模块415和生成模块416。
分词处理模块411被配置为对多个物品标题进行分词处理,获得与多个物品标题对应的多个主题词和每个主题词的词性,例如执行如图1所示的步骤S110。
选取模块412被配置为选取多个主题词中的至少一部分,作为多个实体,例如执行如图1所示的步骤S120。每个实体对应一个主题词。
第一确定模块413被配置为根据与多个实体对应的各个主题词和各个主题词的词性、或各个主题词与物品标题的对应关系,确定多个实体对,例如执行如图1所示的步骤S130。每个实体对包括具有相关关系的两个实体,相关关系为相似关系或关联关系。
第二确定模块414被配置为确定每个实体的实体类型,例如执行如图1所示的步骤S140。
第三确定模块415被配置为根据每个实体对中的两个实体的实体类型,确定每个实体对中的两个实体的关系类型,例如执行如图1所示的步骤S150。关系类型为相似关系的子类或关联关系的子类。
生成模块416被配置为根据多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱,例如执行如图1所示的步骤S160。
图5示出根据本公开另一些实施例的生成知识图谱的装置的框图。
如图5所示,生成知识图谱的装置51包括存储器511;以及耦接至该存储器511的处理器512。存储器511用于存储执行生成知识图谱的方法对应实施例的指令。处理器512被配置为基于存储在存储器511中的指令,执行本公开中任意一些实施例中的生成知识图谱的方法。
图6A示出根据本公开一些实施例的搜索引擎的框图。
如图6A所示,搜索引擎60包括接收模块601、获取模块602和展示模块603。
接收模块601被配置为接收搜索请求,例如执行如图3所示的步骤S310。搜索请求包括待搜索实体。
获取模块602被配置为从利用本公开任意一些实施例中的生成知识图谱的方法生成的知识图谱中,获取与待搜索实体具有相关关系的至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型,例如执行如图3所示的步骤S320。
展示模块603被配置为展示至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型,例如执行如图3所示的步骤S330。
在一些实施例中,搜索引擎60还包括搜索界面600和展示界面604。用户通过搜索界面600与接收模块601进行交互。例如,用户为业务人员。展示界面604是与展示模块603对应的可视化展示界面,展示模块603将待搜索实体具有相关关系的至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型展示到展示界面604。
图6B示出根据本公开一些实施例的搜索界面的示意图。
如图6B所示,搜索界面600包括搜索框6001和搜索按钮6002。
在一些实施例中,用户在搜索框6001中输入待搜索实体,点击带有搜索字样的搜索按钮6002,就可以触发搜索与展示界面600向接收模块601发送搜索请求,从而获取模块602从利用本公开任意一些实施例中的生成知识图谱的方法生成的知识图谱中,获取与待搜索实体具有相关关系的至少一个相关实体以及待搜索实体与每个相关实体之间的相关关系的关系类型。进而,展示模块603将由获取模块602获取到的内容展示到展示界面604。
例如,展示界面604按照关系类型分类展示与待搜索实体具有相关关系的至少一个相关实体。
图6C示出根据本公开一些实施例的展示界面的示意图。
如图6C所示,展示界面604包括与关系类型的种类数相同的展示区6041。每个展示区6041用于展示一种关系类型以及与待搜索实体具有该种关系类型的至少一个相关实体。
在一些实施例中,与玩具车相关的全部关系类型包括但不限于包含商品、从属商品和常见材质。关系类型“包含商品”表示玩具车包含的商品,例如玩具车包含的商品包括但不限于遥控车、工程车、警车、消防车、四驱车、火车、挖掘机、推土机和小汽车。关系类型“从属商品”表示玩具车从属的商品,例如玩具车从属于商品“玩具”。关系类型“常见材质”表示玩具车的常见制作材质,例如玩具车的常见制作材质包括但不限于塑料、合金和金属。图6C中只是展示出了部分关系类型或部分相关实体,仅作示意。
在一些实施例中,展示界面604还包括与搜索界面600类似的搜索框6040T和搜索按钮6040B。用户也可以通过搜索框6040T和搜索按钮6040B进行实体的搜索。例如,当前展示界面604展示的是待搜索实体“玩具车”的搜索结果。
在一些实施例中,展示界面604还包括至少一个选择按钮6042。用户通过点击选择按钮6042使得展示界面604只展示与选择按钮6042对应的内容。例如,选择按钮包括但不限于“全部”和“人群”。
例如,当前待搜索实体为玩具车,用户点击选择按钮“全部”,展示界面604展示展示模块603需要展示的与玩具车相关的全部关系类型和每种关系类型下的全部相关实体。
例如,用户点击选择按钮“人群”,展示界面604展示展示模块603需要展示的与玩具车具有适用人群这种关系类型的相关关系的所有实体。
在一些实施例中,展示界面604展示的与待搜索实体具有相关关系的相关实体为超链接,通过点击任意一个相关实体,可以跳转到该相关实体的展示界面。在图6C中,相关实体具有下划线,表示该相关实体为一个超链接。应当理解,图6C所示的展示界面为一种示意,具体的按钮个数、按钮类型、排版布局,都可以根据用户的需求设定。
图7示出根据本公开一些实施例的搜索系统的框图。
如图7所示,搜索系统7包括搜索引擎70。搜索引擎70被配置为本公开任意一些实施例中的搜索方法。
例如,搜索系统7还包括本公开任意一些实施例中的生成知识图谱的装置71。
图8示出用于实现本公开一些实施例的计算机系统的框图。
如图8所示,计算机系统80可以通用计算设备的形式表现。计算机系统80包括存储器810、处理器820和连接不同系统组件的总线800。
存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行生成知识图谱的方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线800可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统80还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
通过上述实施例中的生成知识图谱的方法及装置、搜索方法、引擎及系统、计算机可存储介质,提高了生成知识图谱的全面性、准确性及效率。
至此,已经详细描述了根据本公开的生成知识图谱的方法及装置、搜索方法、引擎及系统、计算机可存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
Claims (19)
1.一种生成知识图谱的方法,包括:
对多个物品标题进行分词处理,获得与所述多个物品标题对应的多个主题词和每个主题词的词性;
选取所述多个主题词中的至少一部分,作为多个实体,每个实体对应一个主题词;
根据与所述多个实体对应的各个主题词和所述各个主题词的词性、或所述各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,所述相关关系为相似关系或关联关系;
确定每个实体的实体类型;
根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型,所述关系类型为相似关系的子类或关联关系的子类;
根据所述多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
2.根据权利要求1所述的生成知识图谱的方法,其中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:
根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型。
3.根据权利要求2所述的生成知识图谱的方法,其中,所述每个实体对包括第一实体和第二实体,与所述第一实体的实体类型和所述第二实体的实体类型对应的关系类型包括至少一种特定关系类型,根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型包括:
从所述多个实体中,确定与所述第二实体的实体类型相同的其他实体;
对于每种特定关系类型,利用与该特定关系类型对应的用户行为数据,计算所述第一实体与所述第二实体的关系类型为该特定关系类型的概率、以及所述第一实体与每个其他实体的关系类型为该特定关系类型的概率;
根据所述第一实体和所述第二实体的关系类型为该特定关系类型的概率在各个概率中的排名,确定所述第一实体与所述第二实体的关系类型是否包括该特定关系类型。
4.根据权利要求1所述的生成知识图谱的方法,其中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:
根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型。
5.根据权利要求4所述的生成知识图谱的方法,其中,所述每个实体对中的两个实体的实体类型分别为第一实体类型和第二实体类型,根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型包括:
在与所述第一实体类型和所述第二实体类型对应的关系类型只存在一种的情况下,确定所述每个实体对中的两个实体的关系类型为与所述第一实体类型和所述第二实体类型对应的关系类型;
在与所述第一实体类型和所述第二实体类型对应的关系类型存在多种的情况下,利用预设关系类型匹配算法、深度学习算法和关系抽取模板中的至少一种,确定所述每个实体对中的两个实体的关系类型,所述预设关系类型匹配算法利用预设的关系类型匹配规则确定每个实体对中的两个实体的关系类型。
6.根据权利要求1所述的生成知识图谱的方法,其中,确定每个实体的实体类型包括:
对于每个实体,从多个实体库中,确定包括该实体的实体库,每个实体库对应一个实体类型,每个实体库包括属于同一实体类型的至少一个实体;
在存在包括该实体的实体库的情况下,根据与包括该实体的实体库对应的实体类型,确定该实体的实体类型;
在不存在包括该实体的实体库的情况下,根据与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,确定该实体的实体类型。
7.根据权利要求6所述的生成知识图谱的方法,其中,相似关系采用余弦相似度表示,根据与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型,确定该实体的实体类型包括:
在与该实体具有相似关系的、已确定实体类型的至少一个实体的实体类型存在多种的情况下,计算与每种实体类型对应的至少一个实体与该实体的余弦相似度的平均值;
根据与各个实体类型对应的平均值,确定该实体的实体类型。
8.根据权利要求7所述的生成知识图谱的方法,其中,根据与各个实体类型对应的平均值,确定该实体的实体类型包括:
在各个平均值的最大值和次大值之间的差值大于第一预设阈值的情况下,根据与最大值对应的实体类型,确定该实体的实体类型。
9.根据权利要求7所述的生成知识图谱的方法,其中,根据与各个实体类型对应的平均值,确定该实体的实体类型包括:
在各个平均值的最大值和次大值之间的差值小于或等于第一预设阈值的情况下,利用预设实体类型匹配算法、深度学习算法、聚类算法中的至少一种,确定该实体的实体类型,所述预设实体类型匹配算法利用预设的实体类型匹配规则确定每个实体的实体类型。
10.根据权利要求1所述的生成知识图谱的方法,其中,选取所述多个主题词中的至少一部分,作为多个实体包括:
确定每个主题词在所述多个物品标题中出现的次数;
选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。
11.根据权利要求10所述的生成知识图谱的方法,其中,选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体包括:
根据预设过滤规则、停词库,选取次数大于第二预设阈值的多个主题词的至少一部分,作为多个实体。
12.根据权利要求1所述的生成知识图谱的方法,其中,所述相似关系通过根据与所述多个实体对应的各个主题词和所述各个主题词的词性并利用词到向量Word2Vect算法确定,所述关联关系通过根据所述各个主题词与物品标题的对应关系并利用频繁模式生长FP-Growth算法确定。
13.一种搜索方法,包括:
接收搜索请求,所述搜索请求包括待搜索实体;
从利用如权利要求1-12任一项所述的生成知识图谱的方法生成的知识图谱中,获取并展示与待搜索实体具有相关关系的至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型。
14.一种生成知识图谱的装置,包括:
分词处理模块,被配置为对多个物品标题进行分词处理,获得与所述多个物品标题对应的多个主题词和每个主题词的词性;
选取模块,被配置为选取所述多个主题词中的至少一部分,作为多个实体,每个实体对应一个主题词;
第一确定模块,被配置为根据与所述多个实体对应的各个主题词和所述各个主题词的词性、或所述各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,所述相关关系为相似关系或关联关系;
第二确定模块,被配置为确定每个实体的实体类型;
第三确定模块,被配置为根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型,所述关系类型为相似关系的子类或关联关系的子类;
生成模块,被配置为根据所述多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
15.一种生成知识图谱的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至12任一项所述的生成知识图谱的方法。
16.一种搜索引擎,包括:
接收模块,被配置为接收搜索请求,所述搜索请求包括待搜索实体;
获取模块,被配置为从利用如权利要求1-12任一项所述的生成知识图谱的方法生成的知识图谱中,获取与待搜索实体具有相关关系的至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型;
展示模块,被配置为展示所述至少一个相关实体以及所述待搜索实体与每个相关实体之间的相关关系的关系类型。
17.一种搜索系统,包括:
如权利要求16所述的搜索引擎。
18.根据权利要求17所述的搜索系统,还包括:
如权利要求14-15任一项所述的生成知识图谱的装置。
19.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至12任一项所述的生成知识图谱的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311287.5A CN111782816B (zh) | 2020-04-20 | 2020-04-20 | 生成知识图谱的方法及装置、搜索方法、引擎及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311287.5A CN111782816B (zh) | 2020-04-20 | 2020-04-20 | 生成知识图谱的方法及装置、搜索方法、引擎及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782816A true CN111782816A (zh) | 2020-10-16 |
CN111782816B CN111782816B (zh) | 2024-04-09 |
Family
ID=72753517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010311287.5A Active CN111782816B (zh) | 2020-04-20 | 2020-04-20 | 生成知识图谱的方法及装置、搜索方法、引擎及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782816B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282729A (zh) * | 2021-06-07 | 2021-08-20 | 北京金山数字娱乐科技有限公司 | 基于知识图谱的问答方法及装置 |
CN114358288A (zh) * | 2022-02-25 | 2022-04-15 | 北京百度网讯科技有限公司 | 生成知识图谱的方法、信息推荐方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110119473A (zh) * | 2019-05-23 | 2019-08-13 | 北京金山数字娱乐科技有限公司 | 一种目标文件知识图谱的构建方法及装置 |
CN110750627A (zh) * | 2018-07-19 | 2020-02-04 | 上海谦问万答吧云计算科技有限公司 | 一种素材的检索方法、装置、电子设备及存储介质 |
-
2020
- 2020-04-20 CN CN202010311287.5A patent/CN111782816B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
CN110750627A (zh) * | 2018-07-19 | 2020-02-04 | 上海谦问万答吧云计算科技有限公司 | 一种素材的检索方法、装置、电子设备及存储介质 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110119473A (zh) * | 2019-05-23 | 2019-08-13 | 北京金山数字娱乐科技有限公司 | 一种目标文件知识图谱的构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
林杰;苗润生;: "专业社交媒体中的主题图谱构建方法研究――以汽车论坛为例", 情报学报, no. 01, 24 January 2020 (2020-01-24) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282729A (zh) * | 2021-06-07 | 2021-08-20 | 北京金山数字娱乐科技有限公司 | 基于知识图谱的问答方法及装置 |
CN114358288A (zh) * | 2022-02-25 | 2022-04-15 | 北京百度网讯科技有限公司 | 生成知识图谱的方法、信息推荐方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111782816B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784455A (zh) | 一种物品推荐方法及推荐设备 | |
CN103617230B (zh) | 一种基于微博的广告推荐方法及系统 | |
CN107632984A (zh) | 一种聚类数据表的展现方法、装置和系统 | |
CN103678335A (zh) | 商品标识标签的方法、装置及商品导航的方法 | |
Zhang et al. | Multimodal marketing intent analysis for effective targeted advertising | |
Kang et al. | MetaMap: Supporting visual metaphor ideation through multi-dimensional example-based exploration | |
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
CN107133277A (zh) | 一种基于动态主题模型和矩阵分解的旅游景点推荐方法 | |
CN106934071A (zh) | 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置 | |
Lawson | Mining social tagging data for enhanced subject access for readers and researchers | |
Gupta et al. | Vico: Word embeddings from visual co-occurrences | |
CN110909536A (zh) | 用于自动生成产品的文章的系统和方法 | |
CN108763223A (zh) | 汉英蒙藏维多语平行语料库构建的方法 | |
US11682060B2 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
CN106096609A (zh) | 一种基于ocr的商品查询关键字自动生成方法 | |
CN111507812B (zh) | 一种基于属性和标题的商品搭配推荐方法及装置 | |
CN110490686A (zh) | 一种基于时间感知的商品评分模型构建、推荐方法及系统 | |
CN115048583A (zh) | 基于用户画像的信息推送方法、系统、设备及存储介质 | |
CN111782816B (zh) | 生成知识图谱的方法及装置、搜索方法、引擎及系统 | |
Vania et al. | Asking crowdworkers to write entailment examples: The best of bad options | |
Dina et al. | Measuring User Satisfaction of Educational Service Applications Using Text Mining and Multicriteria Decision-Making Approach. | |
CN108984711A (zh) | 一种基于分层嵌入的个性化app推荐方法 | |
CN108804491A (zh) | 项目推荐方法、装置、计算设备及存储介质 | |
CN106372123A (zh) | 一种基于标签的相关内容推荐方法和系统 | |
EP3731108A1 (en) | Search system, search method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |