CN114090861A

CN114090861A - 一种基于知识图谱的教育领域搜索引擎构建方法

Info

Publication number: CN114090861A
Application number: CN202111392852.6A
Authority: CN
Inventors: 佘彦; 赵龙霄; 任庆伟; 李峥; 潘生林
Original assignee: Zhejiang Cuiwen Technology Co ltd
Current assignee: Zhejiang Cuiwen Technology Co ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-25

Abstract

一种基于知识图谱的教育领域搜索引擎构建方法涉及搜索引擎构建技术领域，解决了高等教育信息需求一个垂直搜索引擎设计的问题，该方法包括：通过网络爬虫技术获取网络中的高等教育信息，根据获取的高等教育信息构建数据库；对数据库中的数据进行知识抽取；对抽取到的知识数据进行数据清洗；利用清洗后的知识数据建立倒排序索引库；构建搜索模块；构建新词更新模块；构建搜索日志数据处理模块。本发明针对高等教育信息设计了一个垂直搜索引擎，本发明融合了知识图谱技术，提供整个数据库的搜索关键词检索功能，能够快速准确地提供用户所需信息，填补了现有技术的空白。

Description

一种基于知识图谱的教育领域搜索引擎构建方法

技术领域

本发明涉及搜索引擎构建技术领域，具体涉及一种基于知识图谱的教育领域搜索引擎构建方法。

背景技术

搜索引擎是用户从互联网海量数据中获取所需资源信息的主要方式之一，在日常生活中扮演着不可或缺的角色。搜索引擎是在一定的策略下，通过计算机程序从互联网上爬取有效信息，然后对信息进行一定的处理并构建倒排索引库后，可以为用户提高检索服务，将与用户搜索相关的信息返回给用户的系统。随着互联网技术的迅速发展与普及，网络数据规模急速膨胀，容易造成信息过载的情况，在用户注意力有限的条件下，如何获取有效准确的信息是我们必须面对的问题，搜索引擎技术应运而生。

知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法，由以实体构成的节点和关系构成的边组成。知识图谱的初衷是想把基于文本链接的万维网转化成基于实体链接的语义网，其构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术。随着语义互联网的提出，2012年谷歌发布了其基于知识图谱的搜索引擎产品。

与传统的搜索引擎相比，垂直搜索引擎只是针对某一领域的信息进行检索并将检索结果返回给用户。目前市面上的教育信息网站，都是把信息分门别类地列出，不提供整个数据库的关键词检索功能，不能快速准确地提供用户所需信息，因此针对高等教育信息需求一个垂直搜索引擎设计，本发明提出一种基于知识图谱的教育领域搜索引擎构建方法，基于这一构建方法，能够得到垂直搜索引擎产品。

发明内容

为了解决上述问题，本发明提供一种基于知识图谱的教育领域搜索引擎构建方法。

本发明为解决技术问题所采用的技术方案如下：

一种基于知识图谱的教育领域搜索引擎构建方法，包括如下步骤：

步骤1、通过网络爬虫技术获取网络中的高等教育信息，根据获取的高等教育信息构建数据库；

步骤2、对数据库中的数据进行知识抽取，得到知识数据；

步骤3、对抽取到的知识数据进行数据清洗；

步骤4、利用清洗后的知识数据建立倒排序索引库；

步骤5、构建搜索模块，所述搜索模块能够根据用户在其上输入的搜索关键词给出词条建议，并且能够根据用户输入的搜索关键词向服务器发送完整请求；服务器能够接收到搜索模块发送的请求，服务器能够在接收到搜索模块发送的请求后将从搜索模块获取的实时字段与倒排序索引库中的文本字段进行模糊匹配，并将匹配结果返回给搜索模块；搜索模块能够接收服务器发送的匹配结果，能够根据匹配结果计算匹配度并对计算得到的匹配度进行排序，能够将匹配度排序结果发送至客户端；

步骤6、构建新词更新模块；

步骤7、构建搜索日志数据处理模块。

本发明的有益效果是：

本发明一种基于知识图谱的教育领域搜索引擎构建方法针对高等教育信息设计了一个垂直搜索引擎，本发明融合了知识图谱技术，提供整个数据库的搜索关键词检索功能，能够快速准确地提供用户所需信息，填补了现有技术的空白。

附图说明

图1为本发明的一种基于知识图谱的教育领域搜索引擎构建方法的流程图。

图2为本发明的一种基于知识图谱的教育领域搜索引擎构建方法的LSTM-CRF命名实体识别模型图。

图3为本发明的一种基于知识图谱的教育领域搜索引擎构建方法所构建搜索引擎的使用时的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

一种基于知识图谱的教育领域搜索引擎构建方法，流程图如图1所示，该方法包括如下步骤：

步骤1、通过网络爬虫技术获取各种网站上的信息并提取出各种网站上的信息中的高等教育信息并形成数据库。

高等教育信息包括高校信息、专业信息、行业信息、地区政策信息、高考热点新闻等信息。高校信息包括高校名称、高校层次(即高校排名或者是否属于)、高校官网网址、学校简介、招生计划(例如近三年每年的招生计划)、录取分数(例如近五年每年的录取分数)等；专业信息包括专业名称、所属一级学科门类、是否为特色学科、是否为优势学科等；行业信息包括国内行业分类、平均薪酬、行业对应需求专业、行业就业信息等；地区政策信息包括少数民族政策、地区专项计划、扩招公告等；高考热点新闻包括高考统一考试日程安排、高考考试报名，还包括考试重要信息提醒、艺术类体育类考试安排等新闻类信息。

爬虫技术是互联网高速发展和数据量快速膨胀的催化结果，本发明应用此项技术来获得原始数据，基本工作流程如下：

步骤1.1、在互联网中选取一部分精心挑选的高考教育相关URL(统一资源定位符)；在互联网中选择领域内认为相对优质的、主流的、信息齐全的网站，如阳光高考、优志愿、中国教育在线等网站的URL。

步骤1.2、将这些URL放入待抓取的URL队列；

步骤1.3、取出待抓取的URL队列中每一个URL，访问每一个URL页面，并下载其中的高等教育信息；

步骤1.4、利用XPath(XML路径语言)抽取出步骤1.3下载得到的高等教育信息中格式化的数据，并对格式化的数据进行过滤、去重、拼接等操作得到固定格式的结构化数据，结构化数据用于建立数据库；

步骤1.5、分析已抓取的URL得到网站下网页的结构，根据网页的结构找到要得到的数据的路径，根据路径设置网页信息爬取循环，根据网页信息爬取循环返回步骤1.3，直到把所有URL的高等教育信息爬取完成则数据库建成。也就是步骤1.5为：先判断数据库是否建立完成，若没有形成数据库，则分析已抓取的URL得到网站下网页的结构，根据网页的结构找到要得到的数据的路径，根据路径设置网页信息爬取循环，根据网页信息爬取循环返回步骤1.3，若已经形成数据库，则结束操作。

步骤2、对数据库中的数据进行知识抽取，得到知识数据。

从步骤1获取到的数据库中数据有多种形式，包括结构化数据、半结构化数据和非结构化数据，针对数据库中所有数据进行知识抽取得到知识数据，知识抽取包括实体抽取、属性抽取以及关系抽取。

对于结构化的数据进行直接映射处理；

对于半结构化的数据采用自动抽取方法，可以省去人工标注的工作量，先通过聚类的方法将相似的网页信息分成若干组，再重复的挖掘同一组中的相似网页，从而形成包装器。

对于非结构化的数据，基于深度学习，利用LSTM-CRF模型识别实体，即长短时记忆神经网络条件随机场模型(Long Short-Term Memory Neural Network ConditionalRandom Field Model)，如图2为LSTM-CRF命名实体识别模型图。通过词向量学习获得底层的Embedding层(Word Embedding)，双向LSTM层(Bi-LSTM encoder)分别计算每个词考虑左侧和右侧词时对应的向量，将每个词两个向量进行连接，形成词的向量输出，最后CRF层(CRF Layer)对从双向LSTM层输出的向量作为输入，对句子中的命名实体进行序列标注。对于“Mark Watney Visited Mars(宇航员曾访问火星)”这一句话，Embedding层将这句话的单词分隔开，共4个单词i为正整数，图2中i＝1、2、3、4；双向LSTM层中l_i代表第i个单词和它左边的文档，r_i代表第i个单词和它右边的文档，c_i代表将l_i和r_i这两个矢量连接在单词i产生的文档；CRF层中B-PER代表人名开始的部分，E-PER代表人名结束的部分，O代表非实体信息即visited，S-LOC代表位置部分即Mars。

步骤3、对抽取到的知识数据进行数据清洗。

通过全面的数据清洗处理，滤除抽取到的知识数据中的干扰项，首先统一知识数据中问题和统一知识数据中文档的编码方式，再对知识数据中语料数据进行分词、大小写统一、简繁转换、去除标点符号、去除部分无实际意义的停用词等数据清洗工作。

步骤4、利用清洗后的知识数据建立倒排序索引库。

采用分布式存储方式对清洗后的知识数据进行管理和保护，选择倒排索引的方式将清洗后的知识数据存储在ES索引库中(ES即为ElasticSearch服务器)，存储形式为：“关键词-文档矩阵”，完成在服务器上创建倒排序索引库。

步骤5、构建搜索模块。

搜索模块是整个搜索引擎最为核心的模块。搜索模块能够根据用户在其上输入的搜索关键词(搜索信息的关键词，例如吉林大学、吉林省一分一段表、数学类专业等等)给出词条建议，并且能够根据用户输入的搜索关键词向服务器发送完整请求，服务器接收到请求后，服务器能够将从搜索模块获取的实时字段与倒排序索引库(关键词-文档矩阵)中的文本字段进行模糊匹配，并将匹配结果返回给搜索模块，搜索模块能够接收服务器发送的匹配结果，搜索模块能够根据匹配结果计算匹配度并对计算得到的匹配度进行排序(从大到小)，搜索引擎根据匹配度排序结果为用户显示内容，搜索模块能够将匹配度排序结果发送至客户端。至此，搜索引擎实现了初步构建，接下来进行进一步的构建。

步骤6、构建新词更新模块。

新词更新模块用于根据用户输入的搜索关键词发现新词，并将新词添加到倒排序索引库和发送给后台的工作人员。新词更新模块能够分析用户输入的搜索关键词并将分析得到的新词添加到倒排序索引库中(即不断更新关键词-文档库的关键词)，新词更新模块能够将新词发送给后台的工作人员，工作人员将新词用于更新数据库的信息，也就是用于步骤1的数据库获取。在分析用户输入的搜索关键词时，通过计算词汇的点互信息和信息熵来确定新词候选词集合，对新词候选词集合进行停用词以及低频词的过滤，最后将过滤得到的新词添加到倒排序索引库中，并且将过滤得到的新词返回给后台的工作人员，以便于有方向性地更新数据库中的信息，使得此搜索引擎更能满足用户的诉求。

步骤7、构建搜索日志数据处理模块。

搜索日志数据处理模块能够根据用户输入的搜索关键词、用户点击的搜索引擎所显示信息在搜索模块匹配度排序结果中的排名以及用户点击搜索引擎所显示信息的点击顺序对用户点击的信息进行分析处理，分析处理结果发送至后台的工作人员。

搜索日志模块能够记录用户与搜索引擎进行交互的整个过程，它包括用户登录ID、检索时间、查询语句、点击搜索结果的顺序等。搜索日志数据处理模块基于搜索日志模块，搜索日志数据处理模块能够根据用户输入的搜索关键词、用户点击的信息在搜索模块匹配度排序结果中的排名以及用户点击搜索引擎所显示信息的点击顺序建立用户点击信息表，并对用户点击信息表进行分析处理，分析处理结果发送至后台的工作人员。分析处理包括统计查询词的搜索次数。针对用户搜索日志模块构建的搜索日志数据处理模块，不仅可以提高检索效率和精度，还可以指导后台开发工作人员的系统升级工作，使得本申请的搜索引擎更加智能、更加友好地与用户进行交互。后台的工作人员可以查询到每个词条最匹配的文档，用来加以调整和优化搜索模块和倒排序索引库。步骤7完成后，搜索引擎构建完成。

建立合理的映射是数据索引的关键，需要将爬虫获取的信息字段存储到对应的搜索服务器ElasticSearch映射类型中(即步骤1至4)，以满足后续的数据搜索需求。

本发明采用的是倒排索引方式，倒排序索引库选择的数据存储结构是基于哈希表的二级索引，其关键词是哈希表的键，关键词在倒排索引中起始位置和结束位置作为哈希表的值。

搜索模块的搜索功能是利用ElasticSearch中的函数对搜索词条的多个字段同时进行匹配搜索，返回搜索结果。

信息浏览是将返回的搜索结果，按照匹配度排序。搜索模块根据相似度能够确定匹配度。对于类别间的相似度，例如类别c_i和类别c_j，结构相似性计算公式为

类别间的结构相似性通过马氏深度函数depth(·)计算，prox(c_i,c_j)表示类别c_i和类别c_j之间的类间的结构相似度，c_ij表示c_i和c_j的联合类别。

对于属性的结构相似度，例如属性p_i和属性p_j，结构相似性计算公式为

属性间的结构相似性通过depth深度函数和dom控制函数dom(·)计算，prox(p_i,p_j)表示属性p_i和属性p_j之间的结构相似度，p_ij表示p_i和p_j的联合属性，控制函数。

本发明构建的搜索引擎在使用时对检索需求的处理流程参考图3，图3为本发明的搜索搜索引擎对检索需求的处理方法流程图，具体包括：

(1)搜索模块接收来自用户客户端的任一检索字符串，检索字符串即搜索关键词。

用户在客户端输入的搜索关键词为检索字符串，如“清华大学”、“吉林省2018年高考分数线”等。

(2)搜索模块对用户输入的搜索关键词进行处理，通过处理提取其检索标签。

由于检索字符串在表述上可能存在模糊性、口语化的特点，需要对其进行分词、降噪、纠错处理，由此成功提取出检索标签。检索标签作为搜索模块根据用户输入的搜索关键词向服务器发送的请求。

(3)服务器ElasticSearch将接收到的检索标签与倒排序索引库中的关键词-文档矩阵相对照，检索标签对应关键词-文档矩阵的关键词，通过对照查询和提取出检索标签所对应的文档，并将提取出的文档返回给搜索模块。服务器提取出的文档即为匹配结果。

(4)搜索模块计算匹配结果的匹配度，并根据匹配度对返回的匹配结果进行排序，并将排序后的匹配结果返回到客户端。

搜索模块将所有返回的匹配结果，分别按照特定的方式计算匹配度，并将所有计算结果按照匹配度从高到低的顺序排列，返回给客户端显示，至此完成了垂直搜索引擎对检索请求的处理。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，包括如下步骤：

步骤2、对数据库中的数据进行知识抽取，得到知识数据；

步骤3、对抽取到的知识数据进行数据清洗；

步骤4、利用清洗后的知识数据建立倒排序索引库；

步骤6、构建新词更新模块；

步骤7、构建搜索日志数据处理模块。

2.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述步骤1中获取网络中的高等教育信息的具体过程为：

步骤1.1、在互联网中选取一部分高考教育相关的URL；

步骤1.2、将步骤1所选取的URL放入待抓取的URL队列；

步骤1.3、取出待抓取的URL队列中每一个URL，访问每一个URL页面并下载其中的高等教育信息；

步骤1.4、利用XPath抽取出步骤1.3下载得到的高等教育信息中格式化的数据，并对格式化的数据进行处理得到固定格式的结构化数据，所述结构化数据用于建立数据库；

步骤1.5、判断数据库是否构建完成，若没有构建完成，则分析已抓取的URL得到网站下网页的结构，根据网页的结构找到该网页上对应的需求的高等教育信息的路径，根据路径设置网页信息爬取循环，根据网页信息爬取循环返回步骤1.3，若已经形成数据库，则结束操作。

3.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述知识抽取包括实体抽取、属性抽取以及关系抽取。

4.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述步骤3中的数据清洗具体为：先统一知识数据中问题和文档的编码方式，再对知识数据中语料数据进行分词、大小写统一、简繁转换、去除标点符号、去除部分无实际意义的停用词的数据清洗。

5.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述步骤4具体为：采用分布式存储方式和倒排索引的方式将清洗后的知识数据存储在服务器上，完成在服务器上创建倒排序索引库。

6.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述步骤6具体为：新词更新模块用于根据用户输入的搜索关键词发现新词，并将新词添加到倒排序索引库和发送给后台的工作人员，后台的工作人员能够根据新词更新数据库。

7.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述搜索日志数据处理模块能够根据用户输入的搜索关键词、用户点击的搜索引擎所显示信息在搜索模块匹配度排序结果中的排名以及用户点击搜索引擎所显示信息的点击顺序对用户点击的信息进行分析处理。

8.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述搜索模块对匹配度的计算为：搜索模块根据相似度确定匹配度；类别间的结构相似性通过马氏深度函数depth(·)计算，属性间的结构相似性通过马氏深度函数depth(·)和控制函数dom(·)计算，

其中，prox(c_i,c_j)表示类别c_i和类别c_j之间的类间的结构相似度，c_ij表示c_i和c_j的联合类别，prox(p_i,p_j)表示属性p_i和属性p_j之间的结构相似度，p_ij表示p_i和p_j的联合属性。

9.如权利要求1所述的一种基于知识图谱的教育领域搜索引擎构建方法，其特征在于，所述搜索引擎在使用时对检索需求的处理方法包括：

搜索模块接收来自用户客户端的搜索关键词，提取搜索关键词的检索标签，并将检索标签发送至服务器；

服务器将接收到的检索标签与倒排序索引库相对照，服务器通过对照查询提取出检索标签所对应的文档，并将提取出的文档作为匹配结果返回给搜索模块；

搜索模块计算匹配结果的匹配度，并根据匹配度对匹配结果进行排序，并将排序后的匹配结果返回到客户端。