CN114625843A - 基于知识图谱的查询方法及装置 - Google Patents

基于知识图谱的查询方法及装置 Download PDF

Info

Publication number
CN114625843A
CN114625843A CN202210352662.XA CN202210352662A CN114625843A CN 114625843 A CN114625843 A CN 114625843A CN 202210352662 A CN202210352662 A CN 202210352662A CN 114625843 A CN114625843 A CN 114625843A
Authority
CN
China
Prior art keywords
keyword
knowledge
graph
unit
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210352662.XA
Other languages
English (en)
Other versions
CN114625843B (zh
Inventor
张伟
郝爽
臧利利
羊晋
赵鲲驰
孙真真
刘光远
马凤春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yifang Jinze Information Technology Co ltd
Original Assignee
Shandong Academy Of Sciences Yida Technology Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Academy Of Sciences Yida Technology Consulting Co ltd filed Critical Shandong Academy Of Sciences Yida Technology Consulting Co ltd
Priority to CN202210352662.XA priority Critical patent/CN114625843B/zh
Publication of CN114625843A publication Critical patent/CN114625843A/zh
Application granted granted Critical
Publication of CN114625843B publication Critical patent/CN114625843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识图谱技术领域,公开了基于知识图谱的查询方法及装置,其中基于知识图谱的查询方法包括以下步骤:获得包括客体或概念的用户搜索信息;将用户搜索文信息划分为最小意义单位的关键词元素;根据各个关键词要素生成关键词数据对应组;关键词对应组根据预定的组合规则生成顺序对组合;将生成的顺序对组合映射到知识图谱中生成元组;为生成的元组的用户提供搜索结果;本发明的基于对于检索输入内容的处理映射以及匹配,使其符合知识图谱的知识结构,能够基于知识图谱得到更为匹配的内容,充分发挥知识图谱的知识结构的优越性。

Description

基于知识图谱的查询方法及装置
技术领域
本发明涉及知识图谱技术领域,更具体地说,它涉及基于知识图谱的查询方法及装置。
背景技术
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论;
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体、关系、实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
知识图谱的核心是从既有数据经过抽取、融合、分析加工,将结点属性数据抽象提取出标准的实体与关系,主要包括:
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,对其进行整合,以消除矛盾和歧义,如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工:对于经过融合的新知识,经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量;
知识图谱虽然为智能化信息应用提供了基础,传统的基于关键词的简单的检索方法无法发挥知识图谱的知识结构的优越性。
发明内容
本发明提供一种基于知识图谱的查询方法,解决相关技术中基于关键词的简单的检索方法无法发挥知识图谱的知识结构的优越性的技术问题。
根据本发明的一个方面,提供了基于知识图谱的查询方法,包括以下步骤:
步骤S11,获得包括客体或概念的用户搜索信息;
步骤S12,将用户搜索文信息划分为最小意义单位的关键词元素;
步骤S13,根据各个关键词要素生成关键词数据对应组;
步骤S14,关键词对应组根据预定的组合规则生成顺序对组合;
步骤S15,将生成的顺序对组合映射到知识图谱中生成元组;
步骤S16,为生成的元组的用户提供搜索结果。
进一步地,所述关键词对应组根据预定的组合规则生成顺序对组合包括以下步骤:
步骤S21,按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组;
步骤S22,提取上述关键词数据对应组中的一个,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
步骤S23,提取下一个关键词数据对应组,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
步骤S24,重复上一步骤,直至所有关键词数据对应组对比完毕。
进一步地,所述知识图谱是将从多种来源获得的信息用客体、概念、关系要素来表现,并将它们连接起来以图表形式表现。
进一步地,所述搜索结果包括知识图谱中的关键词以及知识图谱所联系的内容数据库中的内容。
进一步地,所述知识图谱所联系的内容数据库中的内容的搜索结果的获得方法包括以下步骤:
基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词;
评价重要关键词的权重;
内容标签是内容数据库中赋予内容的标签,用于区分内容;
基于重要关键词的权重进行TOP-N的方式进行筛选获得重要关键词集合;
基于重要关键词集合联系数据库中与其关联或匹配的内容作为搜索结果。
进一步地,所述基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词是基于近似性中心度的提取方式,是从知识结构图表中提取与元组中的关键词连接的最短路径的节点对应的关键词。
进一步地,所述重要关键词的权重由以下公式计算:
Figure 30245DEST_PATH_IMAGE001
其中,
Figure 187688DEST_PATH_IMAGE002
表示关键词
Figure 154507DEST_PATH_IMAGE003
的TF*IDF值,
Figure 254050DEST_PATH_IMAGE004
表示关键词中最大的TF*IDF值,
Figure 283317DEST_PATH_IMAGE005
表示关键词
Figure 634664DEST_PATH_IMAGE003
的链接数,
Figure 315044DEST_PATH_IMAGE006
是拥有最多链接的关键词链接数,
Figure 601800DEST_PATH_IMAGE007
表示关键词
Figure 508576DEST_PATH_IMAGE003
是否属于内容的标签(属于为1,不属于为0),w1,w2,w3表示权重系数。
根据本发明的一个方面,提供了基于知识图谱的查询装置,包括:
信息获得单元、预处理单元、知识图谱映射单元和搜索服务提供单元,其中,信息获得单元用于获得包含搜索关键词的客体或概念的用户搜索信息;
预处理单元用于将获得的用户搜索信息分割为最小意义单位的关键词元素;
知识图谱映射单元根据预处理单元分离的关键词要素生成关键词数据对应组,基于所述关键词数据对应组根据预先设置的组合规则消除重复元素生成顺序对组合。
进一步地,所述分割最小意义单位关键词要素的方法可以利用复合名词词典、用语词典、体言词典等,将这些现有的记载的单词和短文选择为最小关键词要素。
进一步地,所述知识图谱映射单元至少包括关键词对应生成单元、元组组合单元和元组映射单元,其中,关键词对应组生成单元用于根据所分割的各个关键词元素生成关键词数据对应组;
元组组合单元用于根据预定的组合规则生成顺序对组合;
元组映射器用于将生成的顺序对组合映射到知识图谱中生成元组。
本发明的有益效果在于:
本发明的基于对于检索输入内容的处理映射以及匹配,使其符合知识图谱的知识结构,能够基于知识图谱得到更为匹配的内容,充分发挥知识图谱的知识结构的优越性。
附图说明
图1是本发明实施例的基于知识图谱的查询方法的流程示意图;
图2是本发明实施例的关键词对应组根据预定的组合规则生成顺序对组合的流程示意图;
图3是本发明实施例的基于知识图谱的查询装置的模块示意图一;
图4是本发明实施例的基于知识图谱的查询装置的知识图谱映射单元的模块示意图;
图5是本发明实施例的基于知识图谱的查询装置的模块示意图二。
图中:信息获得单元100、预处理单元200、知识图谱映射单元300、搜索服务提供单元400、内容服务器500、关键词对应生成单元310、元组组合单元320、元组映射单元330。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
在本实施例中提供了基于知识图谱的查询方法,如图1所示是根据本发明的基于知识图谱的查询方法的流程示意图,如图1所示,该基于知识图谱的查询方法,包括以下步骤:
步骤S11,获得包括客体或概念的用户搜索信息;
根据本发明的一个实施例,可以接收与用户输入的客体及概念对应的数据,生成用户搜索信息。
步骤S12,将用户搜索文信息划分为最小意义单位的关键词元素;
根据本发明的实施例,决定最小意义单位的关键词要素的方法可以利用复合名词词典、用语词典、体言词典,将这些事先记载的单词和短文选择为最小关键词要素。
步骤S13,根据各个关键词要素生成关键词数据对应组;
根据本发明的一个实施例,可以生成包含在知识图谱中获得的意义上相关的多个单词和短文的关键词数据对应组。
步骤S14,关键词对应组根据预定的组合规则生成顺序对组合。
如图2所示,关键词对应组根据预定的组合规则生成顺序对组合包括:
步骤S21,按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组;
步骤S22,提取上述关键词数据对应组中的一个,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
例如“A公司、申请、发明专利”与“A公司、申请、发明专利”;
步骤S23,提取下一个关键词数据对应组,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
步骤S24,重复上一步骤,直至所有关键词数据对应组对比完毕;
步骤S15,将生成的顺序对组合映射到知识图谱中生成元组;
这里的元组基本上意味着事物的有限顺序,或者意味着包括遵循某种顺序的要素的集合,根据本发明的实施例,从知识图谱组件中,用户检索文可以指在知识图谱中映射而生成的知识图谱组成要素对。
步骤S16,为生成的元组的用户提供搜索结果。
如图3-图4所示,基于上述的基于知识图谱的查询方法,本发明提供一种基于知识图谱的查询装置,包括:
信息获得单元100、预处理单元200、知识图谱映射单元300和搜索服务提供单元400,其中,信息获得单元100用于获得包含搜索关键词的客体或概念的用户搜索信息。
根据本发明的实施例,可以接收与用户输入的客体及概念对应的数据,生成用户搜索信息。
例如,“A公司申请发明专利和实用新型专利”用户输入了由3个关键词构成的搜索语句,一般可以解释为“企业A公司申请的申请号为X的发明专利”。
但是根据本发明的搜索方式的实施例,输入的“A公司申请发明专利”中的“企业A”的关键词相当于知识图谱的客体,“发明专利”“实用新型专利”的关键词相当于知识图谱的概念。
另外,以这些知识图谱要素的映射结果为基础,得出了相当于“企业A”的客体和“发明专利”“实用新型专利”概念的某个客体与“申请”的关系相连接的意义,提供了有意义的搜索功能。
对于知识图谱来说,实体包括客体以及概念,对应于知识图谱而生成的知识图谱的构成要素,在知识图谱上生成的“实体、关系、概念”的三元组是“企业A、申请、发明专利”。
知识图谱是将从多种来源获得的信息用客体、概念、关系等要素来表现,并将它们连接起来以图表形式表现。
预处理单元200用于将获得的用户搜索信息分割为最小意义单位的关键词元素,进而将用户搜索语句与知识图谱相匹配生成知识图谱顺序对组合,顺序对组合是客体、概念、关系这些知识图谱的关键词要素的按照预定的顺序的组合,例如“客体、关系、客体”。
分割最小意义单位关键词要素的方法可以利用复合名词词典、用语词典、体言词典等,将这些现有的记载的单词和短文选择为最小关键词要素。
知识图谱映射单元300根据分离的关键词要素,将知识图谱中获得的意义上相关的多数要素客体、概念、关系生成为关键词数据对应组,基于上述关键词数据对应组,可以根据预先设置的组合规则消除重复元素,生成顺序对组合。
知识图谱映射单元300至少包括关键词对应生成单元310、元组组合单元320和元组映射单元330,其中,关键词对应组生成单元310根据所分割的各个关键词元素生成关键词数据对应组。
关键词对应组是指通过预处理单元200生成的关键词要素与知识图谱相匹配,获得有意义的相关知识图谱要素,并将获得的要素捆绑在一起生成的数据集。
元组组合单元320根据预定的组合规则生成顺序对组合。
例如,根据预定的组合规则生成生成生成的顺序对组合包括:
按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组;
提取上述关键词数据对应组中的一个,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
例如“A公司、申请、发明专利”与“A公司、申请、发明专利”;
提取下一个关键词数据对应组,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
重复上一步骤,直至所有关键词数据对应组对比完毕;
元组映射器330可以将生成的顺序对组合映射到知识图谱中生成元组。
搜索服务提供单元400基于元组在知识图谱中匹配搜索结果。
进一步的,搜索服务提供单元400的搜索结果不仅仅是知识图谱中的关键词,也可以是知识图谱所联系的内容数据库500中的内容,知识图谱的关键词连接数据库中的内容;
基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词;
利用图表中心度的方法是现有的多种,例如一种基于近似性中心度(ClosenessCentrality)的提取方式,是从知识结构图表中提取与元组中的关键词连接的最短路径的节点对应的关键词的方式;
评价重要关键词的权重;
重要关键词的权重可以通过TF—IDF(Term Frequency-Inverse DocumentFrequency)分数、该节点的链接数和用户是否存在于当前会话中的关键词来决定。具体来说,关键词重要度可以由以下公式计算:
Figure 273401DEST_PATH_IMAGE008
其中,
Figure 214812DEST_PATH_IMAGE009
表示关键词
Figure 383453DEST_PATH_IMAGE010
的TF*IDF值,
Figure 777525DEST_PATH_IMAGE004
表示关键词中最大的TF*IDF值,
Figure 329729DEST_PATH_IMAGE011
表示关键词
Figure 735434DEST_PATH_IMAGE010
的链接数,
Figure 488626DEST_PATH_IMAGE012
是拥有最多链接的关键词链接数,
Figure 229049DEST_PATH_IMAGE013
表示关键词
Figure 725889DEST_PATH_IMAGE010
是否属于内容标签(属于为1,不属于为0),w1,w2,w3表示权重系数。每个权重系数是根据关键词重要度考虑的各因素的比例来决定的值,可以是预设值;
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency);
TF-IDF是一种统计方法,用以评估一字词对于一个内容集或一个语料库中的其中一份内容的重要程度。字词的重要性随着它在内容中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为内容与用户查询之间相关程度的度量或评级;
TF(单词频率,term frequency)是表示特定单词在内容中经常出现的值,这个值越高,在内容中就越重要。但是,如果单词本身在内容群内经常使用,这意味着这个单词很常见。这被称为DF(内容频率,document frequency),该值的倒数称为IDF(逆内容频率,inverse document frequency)。TF-IDF是TF和IDF的乘;
内容标签是内容数据库中赋予内容的标签,用于区分内容;
例如,“湫隘”这个词在一般的内容中不太常见,所以IDF的会升高,可以成为内容的核心词,但是对于文学内容集合来说,这个单词是惯用语,IDF的会下降。
例如利用图表中心度从知识结构中提取了重要关键词q1、q2、q3、q4、q5,基于重要关键词的权重进行TOP-N的方式进行筛选获得重要关键词q2、q3、q5
基于q2、q3、q5联系数据库中与其关联或匹配的内容。
如图5所示,基于上述的进一步的方案,本发明提供一种基于知识图谱的查询装置,包括:
信息获得单元100、预处理单元200、知识图谱映射单元300和搜索服务提供单元400,其中搜索服务提供单元400联系内容数据库500。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本实施例各个实施例的方法。
本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
上面结合附图对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的。

Claims (10)

1.一种基于知识图谱的查询方法,其特征在于,包括以下步骤:
步骤S11,获得包括客体或概念的用户搜索信息;
步骤S12,将用户搜索文信息划分为最小意义单位的关键词元素;
步骤S13,根据各个关键词要素生成关键词数据对应组;
步骤S14,关键词对应组根据预定的组合规则生成顺序对组合;
步骤S15,将生成的顺序对组合映射到知识图谱中生成元组;
步骤S16,为生成的元组的用户提供搜索结果。
2.根据权利要求1所述的基于知识图谱的查询方法,其特征在于,所述关键词对应组根据预定的组合规则生成顺序对组合包括以下步骤:
步骤S21,按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组;
步骤S22,提取上述关键词数据对应组中的一个,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
步骤S23,提取下一个关键词数据对应组,并将该关键词数据组与其他的关键词数据组对比,删除与其关键词要素完全重复的关键词数据组;
步骤S24,重复上一步骤,直至所有关键词数据对应组对比完毕。
3.根据权利要求1所述的基于知识图谱的查询方法,其特征在于,所述知识图谱是将从多种来源获得的信息用客体、概念、关系要素来表现,并将它们连接起来以图表形式表现。
4.根据权利要求1所述的基于知识图谱的查询方法,其特征在于,所述搜索结果包括知识图谱中的关键词以及知识图谱所联系的内容数据库中的内容。
5.根据权利要求4所述的基于知识图谱的查询方法,其特征在于,所述知识图谱所联系的内容数据库中的内容的搜索结果的获得方法包括以下步骤:
基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词;
评价重要关键词的权重;
内容标签是内容数据库中赋予内容的标签,用于区分内容;
基于重要关键词的权重进行TOP-N的方式进行筛选获得重要关键词集合;
基于重要关键词集合联系数据库中与其关联或匹配的内容作为搜索结果。
6.根据权利要求5所述的基于知识图谱的查询方法,其特征在于,所述基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词是基于近似性中心度的提取方式,是从知识结构图表中提取与元组中的关键词连接的最短路径的节点对应的关键词。
7.根据权利要求5所述的基于知识图谱的查询方法,其特征在于,所述重要关键词的权重由以下公式计算:
Figure 678509DEST_PATH_IMAGE002
其中,
Figure 126808DEST_PATH_IMAGE003
表示关键词
Figure 172124DEST_PATH_IMAGE004
的TF*IDF值,
Figure 973858DEST_PATH_IMAGE005
表示关键词中最大的TF*IDF值,
Figure 319389DEST_PATH_IMAGE006
表示关键词
Figure 282797DEST_PATH_IMAGE004
的链接数,
Figure 80988DEST_PATH_IMAGE007
是拥有最多链接的关键词链接数,
Figure 686413DEST_PATH_IMAGE008
表示关键词
Figure 886450DEST_PATH_IMAGE004
是否属于内容的标签,w1,w2,w3表示权重系数。
8.一种基于知识图谱的查询装置,其特征在于,包括:
信息获得单元、预处理单元、知识图谱映射单元和搜索服务提供单元,其中信息获得单元用于获得包含搜索关键词的客体或概念的用户搜索信息;
预处理单元用于将获得的用户搜索信息分割为最小意义单位的关键词元素;
知识图谱映射单元根据预处理单元分离的关键词要素生成关键词数据对应组,基于所述关键词数据对应组根据预先设置的组合规则消除重复元素生成顺序对组合。
9.根据权利要求8所述的基于知识图谱的查询装置,其特征在于,所述分割最小意义单位关键词要素的方法是利用复合名词词典或用语词典或体言词典,将这些现有的记载的单词和短文选择为最小关键词要素。
10.根据权利要求8所述的基于知识图谱的查询装置,其特征在于,所述知识图谱映射单元至少包括关键词对应生成单元、元组组合单元和元组映射单元,其中关键词对应组生成单元用于根据所分割的各个关键词元素生成关键词数据对应组;
元组组合单元用于根据预定的组合规则生成顺序对组合;
元组映射器用于将生成的顺序对组合映射到知识图谱中生成元组。
CN202210352662.XA 2022-04-06 2022-04-06 基于知识图谱的查询方法及装置 Active CN114625843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210352662.XA CN114625843B (zh) 2022-04-06 2022-04-06 基于知识图谱的查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210352662.XA CN114625843B (zh) 2022-04-06 2022-04-06 基于知识图谱的查询方法及装置

Publications (2)

Publication Number Publication Date
CN114625843A true CN114625843A (zh) 2022-06-14
CN114625843B CN114625843B (zh) 2022-11-29

Family

ID=81905365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210352662.XA Active CN114625843B (zh) 2022-04-06 2022-04-06 基于知识图谱的查询方法及装置

Country Status (1)

Country Link
CN (1) CN114625843B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN109299257A (zh) * 2018-09-18 2019-02-01 杭州科以才成科技有限公司 一种基于lstm和知识图谱的英文期刊推荐方法
WO2021054514A1 (ko) * 2019-09-18 2021-03-25 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
CN113112164A (zh) * 2021-04-19 2021-07-13 特变电工股份有限公司新疆变压器厂 基于知识图谱的变压器故障诊断方法、装置及电子设备
CN113239163A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于交通大数据的智能问答方法及系统
CN113342842A (zh) * 2021-06-10 2021-09-03 南方电网数字电网研究院有限公司 基于计量知识的语义查询方法、装置和计算机设备
CN113849462A (zh) * 2021-09-16 2021-12-28 广东创意热店互联网科技有限公司 一种网络素材的智能推荐方法、系统、计算机设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN109299257A (zh) * 2018-09-18 2019-02-01 杭州科以才成科技有限公司 一种基于lstm和知识图谱的英文期刊推荐方法
WO2021054514A1 (ko) * 2019-09-18 2021-03-25 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
CN113112164A (zh) * 2021-04-19 2021-07-13 特变电工股份有限公司新疆变压器厂 基于知识图谱的变压器故障诊断方法、装置及电子设备
CN113239163A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于交通大数据的智能问答方法及系统
CN113342842A (zh) * 2021-06-10 2021-09-03 南方电网数字电网研究院有限公司 基于计量知识的语义查询方法、装置和计算机设备
CN113849462A (zh) * 2021-09-16 2021-12-28 广东创意热店互联网科技有限公司 一种网络素材的智能推荐方法、系统、计算机设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姬源等: "电力领域语义搜索系统的构建方法", 《计算机系统应用》 *

Also Published As

Publication number Publication date
CN114625843B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
WO2018151856A1 (en) Intelligent matching system with ontology-aided relation extraction
US20160299955A1 (en) Text mining system and tool
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
JP2001134575A (ja) 頻出パターン検出方法およびシステム
CN112100396B (zh) 一种数据处理方法和装置
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
US11188819B2 (en) Entity model establishment
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
Jedrzejewski et al. Opinion mining and social networks: A promising match
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN111126073B (zh) 语义检索方法和装置
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN114625843B (zh) 基于知识图谱的查询方法及装置
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
Li et al. The application of weighted co‐occurring keywords time gram in academic research temporal sequence discovery
CN111368036A (zh) 用于搜索信息的方法和装置
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221110

Address after: 307 Chongde Building, No.1 Shenquan Road, Shengmu Mountain Scenic Area, Yushan Street, Pingyin County, Jinan City, Shandong Province, 250000

Applicant after: Shandong Yifang Jinze Information Technology Co.,Ltd.

Address before: Room 303, block B, Yinhe building, 2008 Xinluo street, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan City, Shandong Province

Applicant before: Shandong Academy of Sciences Yida Technology Consulting Co.,Ltd.

GR01 Patent grant
GR01 Patent grant