CN113987126A - 基于知识图谱的检索方法及装置 - Google Patents
基于知识图谱的检索方法及装置 Download PDFInfo
- Publication number
- CN113987126A CN113987126A CN202111287340.3A CN202111287340A CN113987126A CN 113987126 A CN113987126 A CN 113987126A CN 202111287340 A CN202111287340 A CN 202111287340A CN 113987126 A CN113987126 A CN 113987126A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- retrieval
- target
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 18
- 239000010410 layer Substances 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供基于知识图谱的检索方法及装置,其中所述基于知识图谱的检索方法包括:获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算最小子图中各节点的中间中心度和图嵌入表示;根据预先设置的中心度阈值,确定最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;若时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将检索语句确定为事件类检索语句;若存在时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将检索语句确定为事实类检索语句。
Description
技术领域
本申请涉及计算机技术的人工智能领域,特别涉及一种基于知识图谱的检索方法。本申请同时涉及一种基于知识图谱的检索装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱的逻辑结构可分为模式层与数据层,模式层在数据层之上,是知识图谱的核心,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成“知识图谱”。
随着互联网技术的发展,使用知识图谱进行检索的用户越来越多,例如学生面对无法解答的数据题时会使用数学题库进行搜索解答、史学爱好者面遇到感兴趣的历史时会使用浏览器进行检索。使用知识图谱极大地便利了用户对相关内容的检索。
现有技术中,在使用知识图谱进行检索时,通常根据用户输入的检索语句进行检索得到子图,对子图中不同节点的重要性不加区分,直接全部返回给用户。然而,在理解用户意图后,只根据用户意图返回所涉及到的所有子图,不对内容加以区分,对于用户可能针对事实类和事件类有不同的返回需求时,会大大降低用户的体验性。此外,返回的内容混乱,无法有效的针对用户输入的检索语句进行反馈,很大程度上会影响确定检索结果的精准度,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种基于知识图谱的检索方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种基于知识图谱的检索装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种基于知识图谱的检索方法,包括:
获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;
根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;
在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;
若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;
若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。
根据本申请实施例的第二方面,提供了一种基于知识图谱的检索装置,包括:
获取模块,被配置为获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;
目标节点确定模块,被配置为根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;
计算模块,被配置为在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;
事件类检索语句确定模块,被配置为若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;
事实类检索语句确定模块,被配置为若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述基于知识图谱的检索方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述基于知识图谱的检索方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述基于知识图谱的检索方法的步骤。
本申请提供的基于知识图谱的检索方法,通过获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。如此,可以在根据获得的检索语句检索知识图谱时,通过中间中心度与图嵌入表示来辅助判断用户意图是偏向事件类检索结果还是事实类检索结果,从而更精准地了解用户意图,返回更贴合用户意图的结果。
附图说明
图1是本申请一实施例提供的一种基于知识图谱的检索方法的流程图;
图2是本申请一实施例提供的一种将最小子图划分为两个社区的结构示意图;
图3是本申请一实施例提供的一种应用于浏览器的基于知识图谱的检索方法的处理流程图;
图4是本申请一实施例提供的一种基于知识图谱的检索装置的结构示意图;
图5是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
知识图谱(Knowledge Graph),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系;是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
中间中心度是常用来进行中心性测度的指标,它是指网络中经过某点并连接这两点的最短路径占这两点之间的最短路径线总数之比。
图嵌入(Graph Embedding,也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。图嵌入是将属性图转换为向量或向量集。嵌入应该捕获图的拓扑结构、顶点到顶点的关系以及关于图、子图和顶点的其他相关信息。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。
Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。
模块度,也称模块化度量值,是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数之差。也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和,对无向图来说,即社区内部边的度数减去社区内节点的总度数。
在本申请中,提供了一种基于知识图谱的检索方法。本申请同时涉及一种基于知识图谱的检索装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种基于知识图谱的检索方法的流程图,具体包括以下步骤:
步骤102:获取检索语句,根据检索语句,在知识图谱中确定最小子图,并计算最小子图中各节点的中间中心度和图嵌入表示。
具体的,检索语句是指用户根据需求进行查询时,在搜索框或者检索栏等输入的语句,例如小明在搜索框输入“太阳系有哪些行星”,则“太阳系有哪些行星”为检索语句。知识图谱由节点(point)和边(edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,实体可以是现实世界中的事物,比如人、地名、公司、电话、动物等,关系则用来表达不同实体之间的某种联系,比如同事关系、就读关系、任职关系等。子图是指节点集和边集分别是某一图的节点集的子集和边集的子集的图,最小子图是指包含节点最少的子图。中间中心度是以经过某个节点的最短路径数目来刻画节点重要性的指标。图嵌入表示是把图模型映射到低维向量空间,在表示成向量形式时还保留图模型的结构信息和特性。
实际应用中,当用户在检索栏中输入检索语句,并点击“搜索”、“查询”、或者“确认”等按键后,即可获取检索语句。在此基础上,对检索语句进行分析,并根据分析结果在知识图谱中确定与检索语句相关的最小子图。进一步地,根据最小子图中节点之间的连接关系,即“边”,确定各节点的中间中心度以及图嵌入表示。
例如,用户U在浏览器的搜索框中输入“世界上最长的河流”,并点击搜索按键,即获得检索语句——“世界上最长的河流”。对“世界上最长的河流”进行分析,根据分析结果在只是图普通确定了包含7个节点的最小子图。然后,根据7个节点之间的连接关系,分别确定这7个节点的中间中心度和图嵌入表示。
需要说明的是,在计算最小子图中各节点的中间中心度和图嵌入表示时,可以先确定各个节点的中间中心度,再确定各节点的图嵌入表示;可以先确定各节点的图嵌入表示,再确定各个节点的中间中心度;还可以在计算各个节点的中间中心度的同时,计算各节点的图嵌入表示。此外,在计算各节点的中间中心度和/或图嵌入表示时,可以逐个节点计算,也可以同时计算,例如有3个节点,可以先计算第一个节点的中间中心度和/或图嵌入表示,再计算第二个节点的中间中心度和/或图嵌入表示,最后计算第3个节点的中间中心度和/或图嵌入表示;还可以同时计算这三个节点的中间中心度和/或图嵌入表示。
大多情况下,用户输入的检索语句中存在很多不必要的词,例如语气词“吗”、“啊”、“吧”等,而检索语句中的这些词会一定程度上增加了数据处理量,进而造成了一定程度的能源浪费,同时还降低了检索速度。为了提高检索效率,在根据检索语句在知识图谱中确定最小子图时,可以提取检索语句中的关键词,进而根据关键词在知识图谱中确定最小子图,具体实现过程如下:
对检索语句进行分词和去停用词处理,得到检索语句的至少一个关键词;
在知识图谱中查找包含每个关键词的指定节点,根据指定节点和指定节点的二度关系节点构成最小子图。
具体的,分词是指将检索语句中的字符串匹配的分词过程,可以是正向最大匹配法,也可以是反向最大匹配法,还可以是最短路径分词法或双向最大匹配法四种方法,本申请对此不做限定。停用词是指在检索时,为了节省存储空间和提高检索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。这些停用词一般通过人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。指定节点是指包含所有关键词的节点。二度关系节点是指发生通过一个节点间接关联的两个节点,例如节点A和节点B通过节点C相连,节点A和节点B互为二度关系节点,节点A和节点B分别与节点C互为一度关系节点。
实际应用中,在获取到检索语句后,对检索语句进行分词处理,进而获得初始关键词,再将初始关键词中无实际意义的关键词,即将停用词进行删除、过滤,初始关键词中剩余的关键词,即检索语句所对应的关键词。进一步地,根据获得到关键词在知识图谱中匹配对应的节点,当知识图谱中的节点包含所有关键词时,将该节点确定为指定节点。历遍知识图谱中的所有节点,即确定所有的指定节点,在确定各指定节点的二度关系节点,根据指定节点和二度关系节点构成最小子图。
例如,对检索语句“2021年全国参加高考的人数有多少?”进行分词处理后,得到7个初始关键词“2021年”,“全国”,“参加”,“高考”,“的”,“人数”,“有多少”,其中,停用词包括“的”和“有多少”,对该初始关键词中的停用词进行过滤,则剩余的初始关键词为检索语句的关键词,即“2021年全国参加高考的人数有多少?”的关键词包括“2021年”、“全国”、“参加”、“高考”和“人数”。根据获得的5个关键词在知识图谱中进行匹配,确定出6个包含“2021年”、“全国”、“参加”、“高考”和“人数”的指定节点,在确定各指定节点的二度关系节点,从而构成最小子图。
如此,通过对检索语句进行分词和去停用词处理,去除了检索语句中的冗余数据,节省了计算资源,进一步提高了由检索语句确定指定节点的准确性,也保证了确定最小子图的准确性,提高了后续确定检索语句类型的效率。
在最小子图中包含至少三个节点的情况下,可以将最小子图包含的节点数量视作M,即最小子图中包含M个节点,M为大于或等于3的正整数,此时计算最小子图中各节点的中间中心度和图嵌入表示的具体实现过程可以如下:
计算最小子图中第i节点到第j节点的第一最短路径数,其中,i和j均为小于或等于M的正整数,且i不等于j;
确定第i节点和第j节点之间的最短路径中经过第k节点的第二最短路径数,k为小于或等于M的正整数,且k不等于i和j中的任意一个;
根据第一最短路径数和第二最短路径数确定第k节点的中间中心度;
通过图卷积神经网络获取第k节点的图嵌入表示。
具体的,最短路径是指一个节点到其他节点的最短路径。第一最短路径数是指一个节点到其他节点的最短路径的数量。第二最短路径数是指一个节点到其他节点的最短路径中经过另一个节点的最短路径的数量。第k节点为当前确定中间中心度的节点。图卷积神经网络是指应用于知识图谱或者子图的卷积神经网络。
实际应用中,在确定子图中某个节点的中间中心度和图嵌入表示时,可以先确定其他节点之间的最短路径和以及其他节点之间的最短路径数。再此基础上,在确定其他节点之间的最短路径中通过该节点的数量,根据数量和最短路径数的比值确定该节点的中间中心度,具体计算过程如式1所示。通过如式1的公式能够精准快速地最小子图中各节点的中间中心度,一定程度上可以提高检索的效率。最后通过图卷积神经网络获取该节点的图嵌入表示。
其中,bk为第k节点的中间中心度,σij(k)为第i节点和第j节点之间的最短路径中经过第k节点的第二最短路径数,σij为第i节点到第j节点的第一最短路径数。
例如,最小子图中有4个节点,在计算第1节点的中间中心度时,可以先确定第2节点到第3节点的最短路径有1条,其中经过第1节点的只有1条最短路径,即此时σ23为1,σ23(1)为1;再确定第2节点到第4节点的最短路径有1条,其中没有经过第1节点的最短路径,此时σ24为1,σ24(1)为0;接着确定第3节点到第4节点的最短路径有2条,其中经过第1节点的只有1条最短路径,此时σ34为2,σ34(1)为1。则第1节点的中间中心度为1/1+0/1+1/2=1.5,即b1为1.5。根据图卷积神经网络获取第1节点的图嵌入表示。第2至第4节点的中间中心度和图嵌入表示均可参照第1节点的中间中心度和图嵌入表示计算过程进行确定。
步骤104:根据预先设置的中心度阈值,确定最小子图中的至少两个目标节点,目标节点为中间中心度高于中心度阈值的节点。
在根据获取的检索语句,确定知识图谱中与检索语句相关的最小子图,并计算最小子图中各节点的中间中心度和图嵌入表示的基础上,进一步地,根据各节点的中间中心度和预设的中心度阈值确定目标节点。
具体的,中心度阈值是指预先设置的、用于衡量中间中心度高低的数值,可以根据经验人为设置,也可以机器根据最小子图的特征信息进行自动设置。目标节点是指最小子图中中间中心度较高的节点,即中间中心度高于中心度阈值的节点。
实际应用中,由于中间中心度高的节点一定程度上和检索语句的相关性更强,可以将这些中间中心度高的节点筛选出来,以便于后续对检索语句的类型进行分析。也即将最小子图中的各节点的中间中心度分别与中心度阈值进行比较,将中间中心度低于或者等于中心度阈值的节点确定为普通节点,将中间中心度高于中心度阈值的节点确定为目标节点。
例如,参见表1,最小子图中有5个节点,分别为节点p1、p2、p3、p4和p5,对应的中间中心度依次为1.5、2.0、1.0、2.5、0.5。在预设的中心度阈值为1.5的情况下,节点p2和p4为目标节点,节点p1、p3和p5为普通节点。
表1各节点的中间中心度
最小子图 | p1 | p2 | p3 | p4 | p5 |
中间中心度 | 1.5 | 2.0 | 1.0 | 2.5 | 0.5 |
需要说明的是,本实施例中,确定目标节点时,引入了中心度阈值与各节点的中间中心度进行对比确定目标节点,并不是直接将中间中心度最高的前几个节点确定为目标节点。这样避免了将中间中心度最高的前几个节点确定为目标节点时,由于只有极少部分节点的中间中心度高,导致确定的目标节点中存在部分节点的中间中心度低。
步骤106:在至少两个目标节点构成基于时间信息的路径的情况下,计算路径上目标节点两两之间的图嵌入表示相似度。
在根据预设的中心度阈值确定了至少两个目标节点的基础上,进一步地,在至少两个目标节点构成基于时间信息的路径的情况下,计算该路径上任意两个目标节点之间的图嵌入表示相似度。
具体的,时间信息是指与时间相关的信息,例如2021年5月24日、1949年10月1日。图嵌入表示相似度是指两个图嵌入表示之间的相似度。
实际应用中,需要先判断根据目标节点上存储的时间信息是否可以将目标节点按照时间先后顺序构成一条路径。在目标节点中一定比例的目标节点均可以按照时间先后顺序构成一条路径的情况下,则认为目标节点构成了基于时间信息的路径。该比例可以为预先设置的数据,例如80%、85%等。在此基础上,计算该路径上任意两个目标节点的图嵌入表示相似度。计算图嵌入表示相似度的相似度函数有很多,如夹角余弦函数、马氏距离函数、皮尔逊相关系数函数、杰卡德相似系数函数、欧式距离函数等,在本申请中,不对计算图嵌入表示相似度的相似度函数的选择做限定。
例如,参见表3,已确定的目标节点有10个,分别为n1、n2、n3、n4、n5、n6、n7、n8、n9和n10,其中只有9个目标节点有时间信息,将这9个目标节点按照时间先后顺序构成一条路径,即n4、n1、n10、n3、n6、n2、n9、n8、n7。在预设比例为0.8时,由于时间信息的目标节点占比0.9,高于0.8,则目标节点构成了基于时间信息的路径,此时根据欧式距离函数计算这9个目标节点中任意两个目标节点的图嵌入表示相似度。
表2已确定的目标节点
需要说明的是,在至少两个目标节点未构成基于时间信息的路径的情况下,将检索语句确定为事实类检索语句。即根据目标节点上存储的时间信息不能按照时间先后顺序构成一条路径,或者构成路径的目标节点的占比低于预设的比例,例如比例为0.9,构成路径的目标节点占总目标节点数量的0.8。这说明根据检索语句检索在知识图谱中检索到的内容在时间上的关联性低、且在发展上的递进关系不明显,检索语句检索的内容偏向于事实类检索,因而将该检索语句确定为事实类检索语句。
本实施例中,通过确定目标节点构成基于时间信息的路径的情况下,计算路径上目标节点两两之间的图嵌入表示相似度,为后续确定检索语句的类型和检索做好了准备工作,一定程度上提高了检索效率。
步骤108:若时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将检索语句确定为事件类检索语句。
在将目标节点构成基于时间信息的路径的情况下,计算路径上目标节点两两之间的图嵌入表示相似度,进一步地,在该路径上相邻的两个目标节点的图嵌入表示相似度全部大于相似度阈值的情况下,将该检索语句确定为事件类检索语句。
具体的,相似度阈值是指预先设置的、用于衡量图嵌入表示相似度高低的数值,可以根据经验人为设置,也可以根据路径的特征信息进行自动设置。事件类检索语句是指根据该检索语句检索的重要内容与时间有较强联系,例如用户通过事件类检索语句进行检索会更希望了解到一些重要的内容以及一些基于重要内容的展开。
实际应用中,在确定路径上目标节点两两之间的图嵌入表示相似度之后,可以从这些图嵌入表示相似度中筛选出路径上相邻的目标节点之间的图嵌入表示相似度,当路径上相邻的两个目标节点的图嵌入表示相似度全部大于相似度阈值时,说明此处根据检索语句在知识图谱中检索到的内容是有清晰发展脉络的,在时间上有关联性、且在发展上也有递进关系,因此图嵌入表示相似度按时间顺序两两之间都会比较接近,此时将检索语句确定为事件类检索语句。
沿用上例,路径由节点n4、n1、n10、n3、n6、n2、n9、n8、n7按顺序构成,相邻两个目标节点的图嵌入表示相似度如表3所示,若相似度阈值为0.7,则相邻两个目标节点的图嵌入表示相似度均大于0.7,则可以对应的检索语句确定为事件类检索语句。
表3相邻目标节点的图嵌入表示相似度
在本申请一个或多个实施例中,将检索语句确定为事件类检索语句之后,需要基于构成路径的目标节点生成事件类检索结果,以便反馈给用户,具体实现过程如下:
从路径上的第一个目标节点开始,依次确定当前目标节点的辅助节点,辅助节点为除目标节点以外的一度关系节点;
根据各目标节点和各目标节点的辅助节点,生成事件类检索结果。
具体的,辅助节点是指与目标节点的连接关系为一度关系且不是目标节点的一度节点关系,例如节点1分别与节点2和节点3之间相连,其中节点1和加点3为路径上的目标节点,则节点2为辅助节点。事件类检索结果为基于事件类检索语句检索的结果或内容。
实际应用中,在生成事件类检索结果时,需要以生成的路径作为主时间轴,以主时间轴上的点即目标节点为基准,选择路径上的目标节点一度关系中除了路径上的节点用于补充说明,共同生成提供给用户的返回结果,即事件类检索结果。如此,可以保证事件类检索结果的准确性和完整性。
假设路径上的目标节点依次为节点x、节点y、节点z,以确定节点y的辅助节点为例进行说明。节点y的一度关系节点有节点x、节点z、节点p和节点q。由于节点x和节点z为路径上的目标节点,则节点y的辅助节点由节点p和节点q。节点x和节点z的辅助节点的确定过程与确定节点y的辅助基点过程相同。之后,根据节点x和节点x的辅助节点、节点y和节点p、节点q、节点z和节点z的辅助节点生成事件类检索结果,并反馈给用户。
由于路径上的某个目标节点的辅助节点可能有多个,根据这个目标节点的辅助节点生成的事件类检索结果必然存在很多冗余内容,这不仅增加后台的数据处理量,使得检索效率降低,还降低了用户的体验性。为避免上述问题,可以选择路径上目标节点的辅助节点中,与该目标节点图嵌入表示相似度最高的辅助节点结合生成事件类检索结果,具体过程如下:
从路径上的第一个目标节点开始,依次将与当前目标节点的图嵌入表示相似度最高的辅助节点,确定为当前目标节点的目标辅助节点;
根据各目标节点以及各目标节点对应的目标辅助节点生成事件类检索结果。
实际应用中,在确定路径上第一个目标节点的辅助节点的基础上,进一步地,计算每个辅助节点与第一个目标节点的图嵌入表示相似度,并将图嵌入表示相似度最高的辅助节点确定为第一个目标节点的目标辅助节点。然后,按照同样的方法确定路径上第二个目标节点至最后一个目标节点的目标辅助节点。最后基于路径上的各目标节点和各目标辅助节点生成事件类检索结果。
例如,路径上有两个目标节点,分别为节点g1和节点g2。节点g1的辅助节点有节点g11、节点g12、节点g13,且节点g11、节点g12、节点g13分别与节点g1的图嵌入表示的相似度为0.55、0.79、0.36,则将节点g12确定为节点g1的目标辅助节点;节点g2的辅助节点有节点g21、节点g22,且节点g21、节点g22分别与节点g2的图嵌入表示的相似度为0.9、0.88,则将节点g21确定为节点g2的目标辅助节点。在此基础上,根据节点g1、节点g12、节点g2和节点g21生成事件类检索结果,并反馈给用户。
步骤110:若存在时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将检索语句确定为事实类检索语句。
在将目标节点构成基于时间信息的路径的情况下,计算路径上目标节点两两之间的图嵌入表示相似度,进一步地,在该路径上相邻的两个目标节点的图嵌入表示相似度不全大于相似度阈值的情况下,将该检索语句确定为事实类检索语句。
实际应用中,在确定路径上目标节点两两之间的图嵌入表示相似度之后,可以从这些图嵌入表示相似度中筛选出路径上相邻的目标节点之间的图嵌入表示相似度,当路径上某个或某些相邻的两个目标节点的图嵌入表示相似度小于或等于相似度阈值时,说明此处根据检索语句在知识图谱中检索到的内容在时间上有关联性低、且在发展上的递进关系不明显,因此图嵌入表示相似度按时间顺序两两之间差距会比较大,此时将检索语句确定为事实类检索语句。
沿用上例,路径由节点n4、n1、n10、n3、n6、n2、n9、n8、n7按顺序构成,相邻两个目标节点的图嵌入表示相似度如表4所示,若相似度阈值为0.7,则n3和n6的图嵌入表示相似度等于0.7、n9和n8的图嵌入表示相似度小于0.7,即可以对应的检索语句确定为事实类检索语句。
表4相邻目标节点的图嵌入表示相似度
需要说明的是,步骤110和步骤108不存在先后顺序,而是对时间信息相邻的两个目标节点的图嵌入表示相似度与相似度阈值的大小进行判断后,对应不同情况的不同处理方法。本实施例以步骤108在步骤110之后为例进行说明。
在本申请一个或多个实施例中,将检索语句确定为事实类检索语句之后,需要基于构成路径的目标节点生成事实类检索结果,以便反馈给用户,即根据最小子图中各节点生成事实类检索结果。为了使事实类检索结果更加完整且有条理,需要将子图划分为多个社区,以各社区的中心节点为主轴,各N度关系节点为辅,生成事实类检索结果,具体实现过程如下:
将最小子图中的各节点分为至少两个社区;
选取各社区的中心节点,确定各中心节点的N度关系节点,其中,中心节点为社区中中间中心度最高的节点,N为大于零的正整数;
根据各中心节点和各中心节点的N度关系节点生成事实类检索结果。
具体的,社区是指在最小子图中,如果一组节点内部链接紧密,外部链接稀疏,则称这组节点为一个社区。中心节点是指社区中中间中心度最高的节点。
实际应用中,根据Louvain算法将最小子图中的节点划分为多个社区,即将最小图中的每个节点看成一个独立的社区,此时社区的数目与节点个数相同;对每个节点w,依次尝试把节点w分配到其每个相邻节点所在的社区,计算分配前与分配后的模块度变化,并记录模块度变化最大的那个相邻节点,如果最大模块度变化大于0,则把节点w分配模块度变化最大的那个相邻节点所在的社区,否则保持不变;继续重复上述过程,直到所有节点的所在的社区不再变化;对最小子图进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化为新节点的环的权重,社区间的边权重转化为新节点间的边权重;继续重复上述过程,直到整个最小子图的模块度不再发生变化。其中,模块度变化的计算过程如式2、式3所示,式3为对式2简化后的结果。
其中,kw,in是社区内节点与节点w的边的权重之和的2倍;kw表示所有与节点w相连的边的权重之和;∑in表示社区内的边的权重之和;∑tot表示与社区内的节点相连的边的权重之和;m表示所有边的权重之和,也即边的数目。
再将最小子图划分为多个社区之后,根据社区中各节点的中间中心度确定出中间中心度的节点,并将该节点确定为该社区的中心节点。进一步地,确定该社区中心节点的一度关系节点、二度关系节点等。根据上述方法,以此确定各社区的中心节点和中心节点的N度关系节点。最后基于各中心节点和各中心节点的N度关系节点生成事实类检索结果。
例如,参见图2,图2示出了本申请一实施例提供的一种将最小子图划分为两个社区的结构示意图,根据Louvain算法将最小子图分为了两个社区:社区1和社区2,其中社区1包括节点A、节点A1、节点A2、节点A3和节点A21,社区2包括节点B、节点B1、节点B2和节点B3。根据式1计算可得社区1中节点A、节点A1、节点A2、节点A3和节点A21的中间中心度分别为5、0、3、0和0,因此,社区1中节点A的中间中心度最高,即节点A为社区1的中心节点;根据式1计算可得社区2中节点B、节点B1、节点B2和节点B3的中间中心度分别为3、0、0和0,因此,社区2中节点B的中间中心度最高,即节点B为社区2的中心节点。由图2可知,节点A1、节点A2和节点A3为节点A的一度关系节点,节点A21为节点A的二度关系节点,节点B1、节点B2和节点B3为节点B的一度关系节点。根据节点A、节点A1、节点A2、节点A3、节点A21、节点B、节点B1、节点B2和节点B3生成事实类检索结果,并反馈给用户。
优选地,为了使给用户反馈的事实类检索结果更加主次分明,在根据各中心节点和各中心节点的N度关系节点生成事实类检索结果时,可以结合各节点的权重生成事实类检索结果,具体实现过程如下:
根据预先设置的权重表确定各中心节点、各N度关系节点的权重;
根据各中心节点、各N度关系节点的权重对中心节点、N度关系节点进行排序,生成事实类检索结果。
实际应用中,不同类型的节点可能配有不同的权重值,同一类型的不同节点也可能有不同的权重。本申请中,可以预先为不同类型的节点设置不同的权重,例如中心节点的权重为0.5、一度关系节点的权重为0.3、二度关系节点的权重为0.2;也可以为不同类型的节点设置不同的权重范围,例如中心节点的权重为0.5-0.9、一度关系节点的权重为0.2-0.4、二度关系节点的权重为0.1-0.2。然后根据各节点的权重从高到低进行排序,生成事实类检索结果。需要说明的是,某个社区中心节点的权重必然大于其他社区的二度关系节点的权重,该社区的二度关系节点的权重也必然大于其他社区的三都关系节点的权重,也即中心节点的权重高于任意一个社区的N度关系节点的权重,N度关系节点的权重高于任意一个社区的N+1度关系节点的权重。
沿用上例,预先设置的节点A、节点A1、节点A2、节点A3、节点A21、节点B、节点B1、节点B2和节点B3的权重分别为0.5、0.2、0.15、0.1、0.05、0.6、0.12、0.11、0.17,根据权重排序后为节点B、节点A、节点A1、节点B3、节点A2、节点B1、节点B2和节点A21。根据该顺序生成事实类检索结果并反馈给用户。
本申请提供的基于知识图谱的检索方法,通过获取检索语句,根据检索语句,在知识图谱中确定最小子图,并计算最小子图中各节点的中间中心度和图嵌入表示;根据预先设置的中心度阈值,确定最小子图中的至少两个目标节点,目标节点为中间中心度高于中心度阈值的节点;在至少两个目标节点构成基于时间信息的路径的情况下,计算路径上目标节点两两之间的图嵌入表示相似度;若时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将检索语句确定为事件类检索语句;若存在时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将检索语句确定为事实类检索语句。如此,可以在根据获得的检索语句检索知识图谱时,通过中间中心度与图嵌入表示来辅助判断用户意图是偏向事件类检索结果还是事实类检索结果,从而更精准地了解用户意图,返回更贴合用户意图的结果。
下述结合附图3,以本申请提供的基于知识图谱的检索方法对浏览器应用为例,对所述基于知识图谱的检索方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于浏览器的基于知识图谱的检索方法的处理流程图,具体包括以下步骤:
步骤302:接收用户输入至浏览器搜索框的检索语句。
步骤304:根据该检索语句在该浏览器对应的知识图谱中确定最小子图。
步骤306:计算该最小子图中各节点的中间中心度和图嵌入表示。
步骤308:根据预设的中心度阈值确定最小子图中的目标节点。
步骤310:判断目标节点是否能构成基于时间信息的路径。
若是,则执行步骤312,若否,则执行步骤318。
步骤312:计算路径上任意两个目标节点之间的图嵌入表示相似度。
步骤314:判断计算的图嵌入表示相似度是否均大于相似度阈值。
若是,则执行步骤316,若否,则执行步骤318。
步骤316:将检索语句确定为事件类检索语句。
步骤318:将检索语句确定为事实类检索语句。
步骤320:从路径上的第一个目标节点开始,依次确定当前目标节点的目标辅助节点。
步骤322:根据各目标节点以及对应的目标辅助节点生成事件类检索结果。
步骤324:将最小子图中的各节点分为至少两个社区。
步骤326:选取各社区的中心节点,确定各中心节点的N度关系节点。
步骤328:根据预先设置的权重表确定各中心节点、各N度关系节点的权重。
步骤330:根据各中心节点、各N度关系节点的权重对中心节点、N度关系节点进行排序,生成事实类检索结果。
步骤332:将时间类检索结果或者事实类检索结果通过浏览器页面反馈给用户。
本申请提供的应用于浏览器的基于知识图谱的检索方法,通过根据接收的检索语句在知识图谱中确定最小子图,并计算最小子图各节点的中间中心度和图嵌入表示,进一步根据中心度阈值确定目标节点,根据目标节点能否构成基于时间信息的路径、路径上相邻的目标节点之间图嵌入表示相似度是否均大于相似度阈值,从而确定检索语句为事件类检索语句还是事实类检索语句,进而根据不同的情况生成对应检索结果,返回给用户。如此,可以在根据获得的检索语句检索知识图谱时,通过中间中心度与图嵌入表示来辅助判断用户意图是偏向事件类检索结果还是事实类检索结果,从而更精准地了解用户意图,返回更贴合用户意图的结果。
与上述方法实施例相对应,本申请还提供了基于知识图谱的检索装置实施例,图4示出了本申请一实施例提供的一种基于知识图谱的检索装置的结构示意图。如图4所示,该装置包括:
获取模块402,被配置为获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;
目标节点确定模块404,被配置为根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;
计算模块406,被配置为在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;
事件类检索语句确定模块408,被配置为若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;
事实类检索语句确定模块410,被配置为若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。
在本实施例的一个或多个实施方式中,所述事实类检索语句确定模块410,被配置为:
在所述至少两个目标节点未构成基于时间信息的路径的情况下,将所述检索语句确定为事实类检索语句。
在本实施例的一个或多个实施方式中,所述装置还包括事件类检索结果确定模块,被配置为:
从所述路径上的第一个目标节点开始,依次确定当前目标节点的辅助节点,所述辅助节点为除目标节点以外的一度关系节点;
根据各目标节点和各目标节点的辅助节点,生成事件类检索结果。
在本实施例的一个或多个实施方式中,所述事件类检索结果确定模块,还被配置为:
从所述路径上的第一个目标节点开始,依次将与当前目标节点的图嵌入表示相似度最高的辅助节点,确定为当前目标节点的目标辅助节点;
根据各目标节点以及各目标节点对应的目标辅助节点生成事件类检索结果。
在本实施例的一个或多个实施方式中,所述装置还包括事实类检索结果确定模块,被配置为:
将所述最小子图中的各节点分为至少两个社区;
选取各社区的中心节点,确定各中心节点的N度关系节点,其中,所述中心节点为社区中中间中心度最高的节点,N为大于零的正整数;
根据各中心节点和各中心节点的N度关系节点生成事实类检索结果。
在本实施例的一个或多个实施方式中,所述事实类检索结果确定模块,还被配置为:
根据预先设置的权重表确定各中心节点、各N度关系节点的权重;
根据各中心节点、各N度关系节点的权重对所述中心节点、N度关系节点进行排序,生成事实类检索结果。
在本实施例的一个或多个实施方式中,所述获取模块402,还被配置为:
对所述检索语句进行分词和去停用词处理,得到所述检索语句的至少一个关键词;
在知识图谱中查找包含每个关键词的指定节点,根据所述指定节点和所述指定节点的二度关系节点构成最小子图。
在本实施例的一个或多个实施方式中,所述最小子图中包含M个节点,M为大于或等于3的正整数;
所述获取模块402,还被配置为:
计算所述最小子图中第i节点到第j节点的第一最短路径数,其中,i和j均为小于或等于M的正整数,且i不等于j;
确定所述第i节点和第j节点之间的最短路径中经过第k节点的第二最短路径数,k为小于或等于M的正整数,且k不等于i和j中的任意一个;
根据所述第一最短路径数和所述第二最短路径数确定所述第k节点的中间中心度;
通过图卷积神经网络获取所述第k节点的图嵌入表示。
本申请提供的基于知识图谱的检索装置,通过获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。如此,可以在根据获得的检索语句检索知识图谱时,通过中间中心度与图嵌入表示来辅助判断用户意图是偏向事件类检索结果还是事实类检索结果,从而更精准地了解用户意图,返回更贴合用户意图的结果。
上述为本实施例的一种基于知识图谱的检索装置的示意性方案。需要说明的是,该基于知识图谱的检索装置的技术方案与上述的基于知识图谱的检索方法的技术方案属于同一构思,基于知识图谱的检索装置的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的检索方法的技术方案的描述。
此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行所述基于知识图谱的检索方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于知识图谱的检索方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的检索方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于基于知识图谱的检索方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于知识图谱的检索方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的检索方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于知识图谱的检索方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (11)
1.一种基于知识图谱的检索方法,其特征在于,包括:
获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;
根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;
在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;
若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;
若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述至少两个目标节点未构成基于时间信息的路径的情况下,将所述检索语句确定为事实类检索语句。
3.根据权利要求1或2所述的方法,其特征在于,将所述检索语句确定为事件类检索语句之后,还包括:
从所述路径上的第一个目标节点开始,依次确定当前目标节点的辅助节点,所述辅助节点为除目标节点以外的一度关系节点;
根据各目标节点和各目标节点的辅助节点,生成事件类检索结果。
4.根据权利要求3所述的方法,其特征在于,根据各目标节点和各目标节点的辅助节点,生成事件类检索结果,包括:
从所述路径上的第一个目标节点开始,依次将与当前目标节点的图嵌入表示相似度最高的辅助节点,确定为当前目标节点的目标辅助节点;
根据各目标节点以及各目标节点对应的目标辅助节点生成事件类检索结果。
5.根据权利要求1或2所述的方法,其特征在于,将所述检索语句确定为事实类检索语句之后,还包括:
将所述最小子图中的各节点分为至少两个社区;
选取各社区的中心节点,确定各中心节点的N度关系节点,其中,所述中心节点为社区中中间中心度最高的节点,N为大于零的正整数;
根据各中心节点和各中心节点的N度关系节点生成事实类检索结果。
6.根据权利要求5所述的方法,其特征在于,根据各中心节点和各中心节点的N度关系节点生成事实类检索结果,包括:
根据预先设置的权重表确定各中心节点、各N度关系节点的权重;
根据各中心节点、各N度关系节点的权重对所述中心节点、N度关系节点进行排序,生成事实类检索结果。
7.根据权利要求1所述的方法,其特征在于,根据所述检索语句,在知识图谱中确定最小子图,包括:
对所述检索语句进行分词和去停用词处理,得到所述检索语句的至少一个关键词;
在知识图谱中查找包含每个关键词的指定节点,根据所述指定节点和所述指定节点的二度关系节点构成最小子图。
8.根据权利要求1所述的方法,其特征在于,所述最小子图中包含M个节点,M为大于或等于3的正整数;
计算所述最小子图中各节点的中间中心度和图嵌入表示,包括:
计算所述最小子图中第i节点到第j节点的第一最短路径数,其中,i和j均为小于或等于M的正整数,且i不等于j;
确定所述第i节点和第j节点之间的最短路径中经过第k节点的第二最短路径数,k为小于或等于M的正整数,且k不等于i和j中的任意一个;
根据所述第一最短路径数和所述第二最短路径数确定所述第k节点的中间中心度;
通过图卷积神经网络获取所述第k节点的图嵌入表示。
9.一种基于知识图谱的检索装置,其特征在于,包括:
获取模块,被配置为获取检索语句,根据所述检索语句,在知识图谱中确定最小子图,并计算所述最小子图中各节点的中间中心度和图嵌入表示;
目标节点确定模块,被配置为根据预先设置的中心度阈值,确定所述最小子图中的至少两个目标节点,所述目标节点为中间中心度高于所述中心度阈值的节点;
计算模块,被配置为在所述至少两个目标节点构成基于时间信息的路径的情况下,计算所述路径上目标节点两两之间的图嵌入表示相似度;
事件类检索语句确定模块,被配置为若所述时间信息相邻的两个目标节点的图嵌入表示相似度均大于相似度阈值,将所述检索语句确定为事件类检索语句;
事实类检索语句确定模块,被配置为若存在所述时间信息相邻的两个目标节点的图嵌入表示相似度不大于相似度阈值,将所述检索语句确定为事实类检索语句。
10.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至8任意一项所述基于知识图谱的检索方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8任意一项所述基于知识图谱的检索方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776137 | 2021-07-08 | ||
CN2021107761376 | 2021-07-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987126A true CN113987126A (zh) | 2022-01-28 |
Family
ID=79745729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111287340.3A Pending CN113987126A (zh) | 2021-07-08 | 2021-11-02 | 基于知识图谱的检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987126A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112916A (zh) * | 2023-10-25 | 2023-11-24 | 蓝色火焰科技成都有限公司 | 一种基于车联网的金融信息查询方法、装置及存储介质 |
CN118093782A (zh) * | 2024-03-28 | 2024-05-28 | 北京博瑞彤芸科技股份有限公司 | 一种基于知识图谱检索多模态信息的处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
CN110347810A (zh) * | 2019-05-30 | 2019-10-18 | 重庆金融资产交易所有限责任公司 | 对话式检索回答方法、装置、计算机设备及存储介质 |
CN111026886A (zh) * | 2019-12-26 | 2020-04-17 | 成都航天科工大数据研究院有限公司 | 一种针对专业场景的多轮对话处理方法 |
WO2021092099A1 (en) * | 2019-11-05 | 2021-05-14 | Epacca, Inc. | Mechanistic causal reasoning for efficient analytics and natural language |
-
2021
- 2021-11-02 CN CN202111287340.3A patent/CN113987126A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
CN110347810A (zh) * | 2019-05-30 | 2019-10-18 | 重庆金融资产交易所有限责任公司 | 对话式检索回答方法、装置、计算机设备及存储介质 |
WO2021092099A1 (en) * | 2019-11-05 | 2021-05-14 | Epacca, Inc. | Mechanistic causal reasoning for efficient analytics and natural language |
CN111026886A (zh) * | 2019-12-26 | 2020-04-17 | 成都航天科工大数据研究院有限公司 | 一种针对专业场景的多轮对话处理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112916A (zh) * | 2023-10-25 | 2023-11-24 | 蓝色火焰科技成都有限公司 | 一种基于车联网的金融信息查询方法、装置及存储介质 |
CN118093782A (zh) * | 2024-03-28 | 2024-05-28 | 北京博瑞彤芸科技股份有限公司 | 一种基于知识图谱检索多模态信息的处理方法和装置 |
CN118093782B (zh) * | 2024-03-28 | 2024-08-09 | 北京博瑞彤芸科技股份有限公司 | 一种基于知识图谱检索多模态信息的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN106886543B (zh) | 结合实体描述的知识图谱表示学习方法和系统 | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN111581949B (zh) | 学者人名的消歧方法、装置、存储介质及终端 | |
CN113535984A (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN113987126A (zh) | 基于知识图谱的检索方法及装置 | |
CN116611546B (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
CN113190593A (zh) | 一种基于数字人文知识图谱的搜索推荐方法 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
Xia et al. | A regularized optimization framework for tag completion and image retrieval | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113449204A (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
Dinh et al. | A proposal of deep learning model for classifying user interests on social networks | |
Hu et al. | Learning knowledge graph embedding with a bi-directional relation encoding network and a convolutional autoencoder decoding network | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Li et al. | Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning | |
Nahar et al. | A Comparative Selection of Best Activation Pair Layer in Convolution Neural Network for Sentence Classification using Deep Learning Model | |
CN112463974A (zh) | 知识图谱建立的方法和装置 | |
CN113609248B (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |