CN112148885B

CN112148885B - 一种基于知识图谱的智能搜索方法及系统

Info

Publication number: CN112148885B
Application number: CN202010918512.1A
Authority: CN
Inventors: 陈刚
Original assignee: Shanghai Yanshu Computer Technology Co ltd
Current assignee: Shanghai Yanshu Computer Technology Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2024-02-02
Anticipated expiration: 2040-09-04
Also published as: CN112148885A

Abstract

本发明公开了一种基于知识图谱的智能搜索方法，该方法步骤包括，第一步：用户输入检索词/词组进行检索，第二步：对用户输入的检索词/词组进行分词，第三步：将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配，第四步：核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配；第五步：核心词匹配不成功，则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配，获取到匹配的文章内容，第六步：将获取到的文章内容，进行内容清洗、去重、排序后，进行内容输出，本发明的有益效果是，该方法主要是在在传统索引式检索的基础上，引入知识图谱构建和标注体系，为用户提供更为精准和快速的搜索结果。

Description

一种基于知识图谱的智能搜索方法及系统

技术领域

本发明涉及搜索方法技术领域，具体为一种基于知识图谱的智能搜索方法及系统。

背景技术

用户进行搜索时，多采取传统的索引式检索形式，基于传统关系型数据库中关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用传统关键词匹配很难满足人们检索的要求，尤其是对于大段文本的检索，索引式检索不仅速度慢而且无法对患者的输入词进行有效理解。

基于知识图谱的智能搜索，主要通过自然语言处理和知识图谱等人工智能技术，来实现人工智能在搜索引擎产品的落地。知识图谱于2012年5月正式被提出，其目标在于改善搜索结果，描述真实世界中存在的各种实体和概念，以及这些实体、概念之间的关联关系。

运用了知识图谱的智能搜索引擎，可以返回更加精准的结果。搜索+知识图谱，是未来搜索引擎的发展方向，未来的搜索引擎，会以用户为核心，越来越智能化。

基于此，本发明设计了一种基于知识图谱的智能搜索方法及系统，以解决上述问题。

发明内容

本发明公开了一种基于知识图谱的智能搜索方法及系统，该方法用于解决传统关键词匹配很难满足人们检索的要求，尤其是对于大段文本的检索，索引式检索不仅速度慢而且无法对患者的输入词进行有效理解的问题。

为实现上述目的，本发明提供如下技术方案：一种基于知识图谱的智能搜索方法，该方法步骤包括：

第一步：用户输入检索词/词组进行检索；

第二步：对用户输入的检索词/词组进行分词；

第三步：将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配；

第四步：核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配；节点词匹配成功则到在文章标签表中获取文章ID，以文章ID到数据存储模块中获取文章内容；节词匹配不成功，则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索，获取到匹配的文章内容；

第五步：核心词匹配不成功，则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配，获取到匹配的文章内容；

第六步：将获取到的文章内容，进行内容清洗、去重、排序后，进行内容输出。

作为本发明进一步的技术方案，知识图谱构建和文章数据打标是智能检索的前提，其中方法步骤包括：

第一步：知识图谱构建，给定多个核心词，通过数据采集获取到每个核心词对应的海量原始文章，将海量文章进行归一化存储以及分词处理，去除掉“停用词、虚词、量词、代词、数词、形容词”等对构建知识图谱无用的词，保留下名词/动词作为核心词知识图谱各级节点中的候选实体词；

第二步：各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块；

第三步：各核心词知识图谱构建完毕后，对相应的“采集获取的海量文章”进行文章标注，采集获取到的文章数据会随着不断采集，数据不断累多，文章标注的过程也会不断进行，步骤方法包括，文章打标、将文章进行段落拆分，并对每个段落进行分词、段落打标；

第四步：根据文章和段落打标词频结果，反向标记“知识图谱”，对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表，存入存储模块。该检索用知识图谱处理表可生成推荐检索词给用户使用。如检索用知识图谱处理表中关于核心词“翡翠手镯”，有“翡翠手镯质地”、“翡翠手镯款式”、“翡翠手镯款式年龄”、“翡翠手镯款式建议”等多级节点词；则当用户输入检索词“翡翠手镯”时，在检索框下会显示推荐检索词组“翡翠手镯质地”、“翡翠手镯款式”、“翡翠手镯款式年龄”等供用户选择，帮助用户快速精确定位；

第五步：用户输入检索词/词组进行文章检索，将检索词/词组进行分词，分词后与检索用知识图谱中的各核心词进行匹配，匹配结果包括与核心词匹配成功、与核心词匹配不成功；

所述与核心词匹配成功的步骤为，与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配，匹配规则包括不限于相同词、同义词、近义词；如果节点词匹配成功，则记为目标匹配词，到文章标签表中获取在目标匹配词下标签>0的文章ID；随后按照文章ID到原始文章内容数据存储单元中获取文章内容，输出到展示模块；

如果节点词匹配不成功，则到核心词下原始文章内容数据存储单元中进行文章标题的匹配，以及在文章正文内容中进行全文匹配，匹配成功后，获取文章内容，输出到展示模块；

所述与核心词匹配不成功的步骤为，与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配，匹配规则包括不限于相同词、同义词、近义词；匹配成果，获取文章内容，输出到展示模块；

第六步：检索词/词组分词后，分为检索词1、检索词2、检索词3至N个检索词，与知识图谱各层节点词进行匹配，匹配结构包括匹配成功获取文章ID、匹配文章ID不成功；

第七步：经由上述步骤后，将获取到的文章内容进行进一步清洗去重后，进行内容结果的输出，在展示模块中展示供用户查看。

作为本发明进一步的技术方案，在知识图谱的生成上，所述给定多个核心词为知识图谱的第一层实体，给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算，将相似度值大于阈值的词作为知识图谱的第二层词；

第二层词构建完毕后，利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算，将相似度值大于阈值的词作为知识图谱的第三层词；以此递推构成多层次的知识图谱。

作为本发明进一步的技术方案，所述文章打标，首先对所有单篇文章进行分词，基于知识图谱各层节点的实体词，将每层实体词与文章分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；

匹配过程中统计知识图谱各级节点实体词在文章中出现的词频，若出现5词，则词频记为5；

若某个节点的实体词在段落中无相同词/同义词/近义词出现，则文章对应该节点实体词的标记为0，文章ID、知识图谱各节点实体词名称，节点实体词在文章中出现的频次记为文章标签表，存入数据存储模块。

作为本发明进一步的技术方案，所述段落打标，基于知识图谱各层节点的实体词对文章段落进行打标，将每层实体词与段落分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；

匹配过程中统计知识图谱各级节点实体词在段落中出现的词频，若出现5词，则词频记为5；

若某个节点的实体词在段落中无相同词/同义词/近义词出现，则段落对应该节点实体词的标记词频为0；

文章ID、段落ID、知识图谱各节点实体词名称，节点实体词在段落中出现的频次记为段落标签表，存入数据存储模块。

作为本发明进一步的技术方案，所述与核心词匹配成功的步骤为，与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配，匹配规则包括不限于相同词、同义词、近义词；

如果节点词匹配成功，则记为目标匹配词，到文章标签表中获取在目标匹配词下标签>0的文章ID；

随后按照文章ID到原始文章内容数据存储单元中获取文章内容，输出到展示模块。

作为本发明进一步的技术方案，所述与核心词匹配不成功的步骤为，与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配，匹配规则包括不限于相同词、同义词、近义词。匹配成果，获取文章内容，输出到展示模块。

作为本发明进一步的技术方案，所述匹配成功获取文章ID时，进行优先级排序，排序规则如下：

优先级1：有N个检索词标签都>0的文章ID；

优先级2：有N-1个检索词标签>0的文章ID；

优先级N：只有1个检索词标签>0的文章ID；

相同优先级下，又以文章匹配词的词频数值由多至少进行排序。

作为本发明进一步的技术方案，所述匹配文章ID不成功时，则到相应全部文章或核心词文章内容数据存储单元中，直接进行文章标题和文章全文的匹配，匹配到的文章排序规则如下：

优先级1:文章标题中全部包含N个检索词；

优先级2:文章内容中全部包含N个检索词；

优先级3: 文章标题中包含任意N-1个检索词；

优先级4: 文章内容中包含任意N-1个检索词；

以此递推，直至文章内容中包含其中任意1个检索词；

一种基于知识图谱的智能搜索系统，包括数据构建模块、数据获取模块、数据处理模块、数据存储模块、数据计算模块、数据清洗模块、信息提取模块和信息展示模块。

作为本发明进一步的技术方案，所述数据构建模块：用于构建一个搜索框，用户在搜索框中输入检索词/词组。

作为本发明进一步的技术方案，所述数据获取模块：用于查询与解析用户输入的检索词/词组，获取用户输入的检索词/词组后进行分词，引用停用词库，对分词结果进行去停用词操作，形成一个或多个目标检索词。

作为本发明进一步的技术方案，所述数据处理模块：用于对目标检索词与知识图谱的核心词/节点词进行匹配；

以及用于对目标检索词与文章标题和正文内容进行匹配；

第一处理单元：用于对目标检索词与知识图谱的核心词进行匹配；

第二处理单元：用于对目标检索词与知识图谱核心词的节点词进行匹配；第三处理单元：用于对目标检索词与文章标题和正文内容进行匹配。

作为本发明进一步的技术方案，所述数据存储模块：用于存储知识图谱和文章数据，包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元；

所述第一存储单元：用于存储根据原始文章内容构建的知识图谱表；

所述第二存储单元：用于存储原始文章内容；

所述第三存储单元：用于存储文章标签表，文章ID、知识图谱各节点实体词名称，节点实体词在文章中出现的频次记为文章标签表，存入数据存储模块；

第四存储单元：用于存储段落标签表，文章ID、段落ID、知识图谱各节点实体词名称，节点实体词在段落中出现的频次记为段落标签表，存入数据存储模块；

第五存储单元：用于存储反向打标后的检索用知识图谱。

作为本发明进一步的技术方案，所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元；

所述第一计算单元：用于对文章和段落进行知识图谱节点词词频打标，打标完成后结果存入存储模块；

所述第二计算单元：用于对知识图谱进行反向打标，生成检索用知识图谱后，存入存储模块；

所述第三计算单元：用于将匹配到的文章内容进行优先级计算，并按照词频进行排序计算，以及对重复文章进行删除。

作为本发明进一步的技术方案，所述数据清洗模块：用于对文章内容、分词结果进行清洗，其中包括去停用词，特殊符号等对构建知识图谱无用以及降低检索效率和性能的词。例如“的、和、在、但是…”等词通常自身并无明确的意义的词。

作为本发明进一步的技术方案，所述信息提取模块：用于提取所述目标检索词所匹配到的文章的内容。

作为本发明进一步的技术方案，所述信息展示模块：用于向用户展示所述检索到的相应的文章内容。

与现有技术相比，本发明的有益效果是：

该方法主要是在在传统索引式检索的基础上，引入知识图谱构建和标注体系，通过对文章类的数据对象进行段落拆分，将段落和全文与知识图谱进行关联,并存入ElasticSearch后，利用知识图谱和Elastic Search的搜索引擎功能相结合，形成基于知识图谱的搜索引擎，为用户提供更为精准和快速的搜索结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的搜索路线结构示意图；

图2为本发明是基于知识图谱的智能检索系统结构示意图；

图3为本发明实施例2中“翡翠”的知识图谱处理表示例图；

图4为本发明实施例2中“翡翠”的知识图谱处理表示例图；

图5为本发明实施例2中“翡翠”的知识图谱处理表示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

请参阅图1-5，本发明提供一种技术方案：一种基于知识图谱的智能搜索方法，该方法步骤包括：

第一步：用户输入检索词/词组进行检索；

第二步：对用户输入的检索词/词组进行分词；

第四步：核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配；节点词匹配成功则到在文章标签表中获取文章ID，以文章ID到数据存储模块中获取文章内容；节词匹配不成功，则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索，获取到匹配的文章内容、

具体的，知识图谱构建和文章数据打标是智能检索的前提，其中方法步骤包括：

第七步：经由上述步骤后，将获取到的文章内容进行进一步清洗去重后，进行内容结果的输出，在展示模块中展示供用户查看，全文知识图谱的生成不是重点，重点是基于知识图谱的搜索方法。

具体的，在知识图谱的生成上，所述给定多个核心词为知识图谱的第一层实体，给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算，将相似度值大于阈值的词作为知识图谱的第二层词；

具体的，所述文章打标，首先对所有单篇文章进行分词，基于知识图谱各层节点的实体词，将每层实体词与文章分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；

具体的，所述段落打标，基于知识图谱各层节点的实体词对文章段落进行打标，将每层实体词与段落分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；

具体的，所述与核心词匹配成功的步骤为，与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配，匹配规则包括不限于相同词、同义词、近义词；

具体的，所述与核心词匹配不成功的步骤为，与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配，匹配规则包括不限于相同词、同义词、近义词。匹配成果，获取文章内容，输出到展示模块。

具体的，所述匹配成功获取文章ID时，进行优先级排序，排序规则如下：

优先级1：有N个检索词标签都>0的文章ID；

优先级2：有N-1个检索词标签>0的文章ID；

优先级N：只有1个检索词标签>0的文章ID；

具体的，所述匹配文章ID不成功时，则到相应全部文章或核心词文章内容数据存储单元中，直接进行文章标题和文章全文的匹配，匹配到的文章排序规则如下：

优先级1:文章标题中全部包含N个检索词；

优先级2:文章内容中全部包含N个检索词；

优先级3: 文章标题中包含任意N-1个检索词；

优先级4: 文章内容中包含任意N-1个检索词；

以此递推，直至文章内容中包含其中任意1个检索词；

具体的，所述数据构建模块：用于构建一个搜索框，用户在搜索框中输入检索词/词组。

具体的，所述数据获取模块：用于查询与解析用户输入的检索词/词组，获取用户输入的检索词/词组后进行分词，引用停用词库，对分词结果进行去停用词操作，形成一个或多个目标检索词。

具体的，所述数据处理模块：用于对目标检索词与知识图谱的核心词/节点词进行匹配；

以及用于对目标检索词与文章标题和正文内容进行匹配；

具体的，所述数据存储模块：用于存储知识图谱和文章数据，包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元；

所述第二存储单元：用于存储原始文章内容；

第五存储单元：用于存储反向打标后的检索用知识图谱。

具体的，所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元；

具体的，所述数据清洗模块：用于对文章内容、分词结果进行清洗，其中包括去停用词，特殊符号等对构建知识图谱无用以及降低检索效率和性能的词。例如“的、和、在、但是…”等词通常自身并无明确的意义的词。

具体的，所述信息提取模块：用于提取所述目标检索词所匹配到的文章的内容。

具体的，所述信息展示模块：用于向用户展示所述检索到的相应的文章内容。

实施例2：

用户输入“翡翠手镯款式”作为检索词组时，会对检索词组进行分词分为“翡翠”“手镯”“款式”，并与存储模块下的知识图谱表的核心词进行匹配，匹配到核心词“翡翠手镯”。参阅图3三级节点知识图谱为例。

1、对剩下的检索词“款式”继续与“翡翠手镯”知识图谱节点词进行匹配(Article_scene:二层节点; Article_judgw_word:三层节点)，匹配成功，获取到文章标签表位置（Article_table_name）和段落标签（paragraph_table_name）。

同时会推荐给用户检索词“翡翠手镯款式推荐”、“翡翠手镯款式年龄”供用户更进一步定位选择；

2、进入到文章标签表中，获取“翡翠手镯”“款式”节点词词频>0的文章ID，参阅图4；

3、根据文章ID，到原始文章内容数据表中获取文章内容（Article_content），参阅图5。

以上实施例为用户检索词可以匹配到知识图谱核心词和节点词的情况。

实施例3：

当用户输入检索词为“翡翠手镯挑选”时，匹配到知识图谱核心词“翡翠手镯”，但“挑选”与“翡翠手镯”知识图谱下的节点词均未匹配成功，则到“翡翠手镯”标签下的所有文章中进行文章标题和正文内容进行匹配，匹配成功获取文章内容，匹配不成功返回空值。

实施例4：

当用户输入检索词为“黄金项链”时，分词分为“黄金”、“项链”，此时若与知识图谱核心词均匹配不成功，则直接到所有原始文章中进行标题和正文内容的匹配，匹配成功获取文章内容，匹配不成功返回空值。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该实用新型仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于知识图谱的智能搜索方法，其特征在于，该方法步骤包括：

知识图谱构建和文章数据打标：

第一步：知识图谱构建，给定多个核心词，通过数据采集获取到每个核心词对应的海量原始文章，将海量文章进行归一化存储以及分词处理，去除掉“停用词、虚词、量词、代词、数词、形容词”对构建知识图谱无用的词，保留下名词/动词作为核心词知识图谱各级节点中的候选实体词；所述给定多个核心词为知识图谱的第一层实体，给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算，将相似度值大于阈值的词作为知识图谱的第二层词；第二层词构建完毕后，利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算，将相似度值大于阈值的词作为知识图谱的第三层词；以此递推构成多层次的知识图谱；

第四步：根据文章和段落打标词频结果，反向标记“知识图谱”，对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表，存入存储模块；

智能检索：

第一步：用户输入检索词/词组进行检索；

第二步：对用户输入的检索词/词组进行分词，分为检索词1、检索词2、检索词3至N个检索词；

第三步：将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配，匹配结果包括与核心词匹配成功、与核心词匹配不成功；

第四步：核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配，匹配结构包括匹配成功获取文章ID、匹配文章ID不成功，匹配规则包括不限于相同词、同义词、近义词；

节点词匹配成功，则记为目标匹配词，到文章标签表中获取在目标匹配词下标签>0的文章ID；随后按照文章ID到原始文章内容数据存储单元中获取文章内容，输出到展示模块；

节点词匹配不成功，则到核心词下原始文章内容数据存储单元中进行文章标题的匹配，以及在文章正文内容中进行全文匹配，匹配成功后，获取文章内容，输出到展示模块；

所述匹配成功获取文章ID时，进行优先级排序，排序规则如下：

优先级1：有N个检索词标签都>0的文章ID；

优先级2：有N-1个检索词标签>0的文章ID；

优先级N：只有1个检索词标签>0的文章ID；

相同优先级下，又以文章匹配词的词频数值由多至少进行排序；

所述匹配文章ID不成功时，则到相应全部文章或核心词文章内容数据存储单元中，直接进行文章标题和文章全文的匹配，匹配到的文章排序规则如下：

优先级1:文章标题中全部包含N个检索词；

优先级2:文章内容中全部包含N个检索词；

优先级3:文章标题中包含任意N-1个检索词；

优先级4:文章内容中包含任意N-1个检索词；

以此递推，直至文章内容中包含其中任意1个检索词；

第五步：核心词匹配不成功，则与存储模块中所有文章进行标题和正文内容的匹配，匹配规则包括不限于相同词、同义词、近义词；匹配成果，获取文章内容，输出到展示模块；

第六步：将获取到的文章内容，进行内容清洗、去重、排序后，进行内容输出，在展示模块中展示供用户查看。

2.根据权利要求1所述的一种基于知识图谱的智能搜索方法，其特征在于，所述文章打标，首先对所有单篇文章进行分词，基于知识图谱各层节点的实体词，将每层实体词与文章分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；匹配过程中统计知识图谱各级节点实体词在文章中出现的词频，若出现5词，则词频记为5；若某个节点的实体词在段落中无相同词/同义词/近义词出现，则文章对应该节点实体词的标记为0，文章ID、知识图谱各节点实体词名称，节点实体词在文章中出现的频次记为文章标签表，存入数据存储模块。

3.根据权利要求1所述的一种基于知识图谱的智能搜索方法，其特征在于，所述段落打标，基于知识图谱各层节点的实体词对文章段落进行打标，将每层实体词与段落分词结果进行匹配，引入同义词/近义词库，匹配规则包括不限于相同词、同义词、近义词；匹配过程中统计知识图谱各级节点实体词在段落中出现的词频，若出现5词，则词频记为5；若某个节点的实体词在段落中无相同词/同义词/近义词出现，则段落对应该节点实体词的标记词频为0；文章ID、段落ID、知识图谱各节点实体词名称，节点实体词在段落中出现的频次记为段落标签表，存入数据存储模块。

4.一种基于知识图谱的智能搜索系统，其特征在于，基于权利要求1-3任意一项所述的一种基于知识图谱的智能搜索方法，包括数据构建模块、数据获取模块、数据处理模块、数据存储模块、数据计算模块、数据清洗模块、信息提取模块和信息展示模块；

所述数据构建模块：用于构建一个搜索框，用户在搜索框中输入检索词/词组；

所述数据获取模块：用于查询与解析用户输入的检索词/词组，获取用户输入的检索词/词组后进行分词，引用停用词库，对分词结果进行去停用词操作，形成一个或多个目标检索词；

所述数据处理模块：用于对目标检索词与知识图谱的核心词/节点词进行匹配；以及用于对目标检索词与文章标题和正文内容进行匹配；第一处理单元：用于对目标检索词与知识图谱的核心词进行匹配；第二处理单元：用于对目标检索词与知识图谱核心词的节点词进行匹配；第三处理单元：用于对目标检索词与文章标题和正文内容进行匹配；

所述数据存储模块：用于存储知识图谱和文章数据，包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元；

所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元；

所述数据清洗模块：用于对文章内容、分词结果进行清洗，其中包括去停用词，特殊符号等对构建知识图谱无用以及降低检索效率和性能的词；

所述信息提取模块：用于提取所述目标检索词所匹配到的文章的内容；

所述信息展示模块：用于向用户展示所述检索到的相应的文章内容。

5.根据权利要求4所述的一种基于知识图谱的智能搜索系统，其特征在于，所述第一存储单元：用于存储根据原始文章内容构建的知识图谱表；

所述第二存储单元：用于存储原始文章内容；

第五存储单元：用于存储反向打标后的检索用知识图谱。

6.根据权利要求4所述的一种基于知识图谱的智能搜索系统，其特征在于，所述第一计算单元：用于对文章和段落进行知识图谱节点词词频打标，打标完成后结果存入存储模块；