CN113204696A

CN113204696A - 一种基于文本图谱的智能搜索引擎的检索方法

Info

Publication number: CN113204696A
Application number: CN202110005543.2A
Authority: CN
Inventors: 王绪刚
Original assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Current assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-08-03

Abstract

本发明提供一种基于文本图谱的智能搜索引擎的检索方法，涉及计算机技术领域，包括获取数据信息存储至分布式系统集群中，并构建文本图谱；根据用户输入的搜索语句，建立节点查询语句；根据节点查询语句在文本图谱中匹配三元组；若匹配成功，则将匹配到的三元组中的实体作为搜索结果返回客户；若匹配不成功，则对搜索语句进行分词，获取检索词；利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户。本发明通过构建文本图谱，进一步根据搜索目标建立实体与关系的节点查询语句，进而根据节点查询语句在文本图谱中进行检索，能够准确快速的得到搜索目标。

Description

一种基于文本图谱的智能搜索引擎的检索方法

技术领域

本发明涉及计算机技术领域，尤其是涉及一种基于文本图谱的智能搜索引擎的检索方法。

背景技术

随着互联网网站页面的激增和用户队伍的不断壮大，搜索引擎越来越成为人们上网浏览时的重要工具。

目前，在进行目标搜索时，用户可以在百度、谷歌等搜索引擎或门户网站输入查询内容，搜索引擎或门户网站根据输入内容提取关键词进行相关信息的检索，将搜索结果展示在网页中，用户在网页中逐条筛选所需的信息；

这种根据关键词进行目标搜索的方法，获取的结果往往是零散化和碎片化的，精确度不高，缺少联系，还可能具有歧义性，最后需要在搜索结果中人为地甄别有用信息；并且在通过门户网站进行搜索时，由于门户网站(如论坛)中的信息比较杂乱，仅靠关键词得到的搜索结果不能体现搜索目标，搜索效率低。

发明内容

针对上述问题，本发明提供了一种基于文本图谱的智能搜索引擎的检索方法，通过构建文本图谱，进一步根据搜索目标建立实体与关系的节点查询语句，进而根据节点查询语句在文本图谱中进行检索，准确快速的得到搜索目标。

为实现上述目的，本发明提供了一种基于文本图谱的智能搜索引擎的检索方法，包括：

获取数据信息存储至分布式系统集群中，并构建文本图谱；

根据用户输入的搜索语句，建立节点查询语句；

根据所述节点查询语句在所述文本图谱中匹配三元组；

若匹配成功，则将匹配到的所述三元组中的实体作为搜索结果返回客户；

若匹配不成功，则对所述搜索语句进行分词，获取检索词；

利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户。

作为本发明的进一步改进，所述数据信息包括期刊、论文、专利、百科、词典信息，国家官网、企业官网信息以及各专业、职业信息。

作为本发明的进一步改进，所述构建文本图谱，包括：

从所述分布式系统集群中提取三元组；

根据三元组构建文本图谱；

将文本图谱保存至数据库中。

作为本发明的进一步改进，所述根据用户输入的搜索语句，建立节点查询语句，包括：

根据用户输入的搜索语句进行实体识别和关系解析；

根据得到的所述实体和关系建立节点查询语句。

作为本发明的进一步改进，所述余弦相似度公式为：

其中，

A_i表示搜索语句钟获取到检索词的分向量；

B_i表示分布式系统集群中实体的分向量；

n表示检索词及分布式系统集群中实体的分向量数。

作为本发明的进一步改进，所述利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户，包括：

利用余弦相似度公式将所述检索词与所述分布式系统集群中的实体逐一进行相关性计算；

将计算结果中最大余弦值对应的实体返回用户。

与现有技术相比，本发明的有益效果为：

本发明通过建立文本图谱，进一步将搜索语句进行识别、解析，提炼要点建立节点查询语句，进而根据节点查询语句在文本图谱中进行检索，对于文本图谱中能够匹配到三元组的节点查询语句，直接返回三元组中的实体，对于文本图谱中不能匹配到三元组的节点查询语句，再次进行关键词查询，且关键词查询中利用余弦相似度公式进行相关性分析，得到更为准确的搜索目标；解决了通过关键词进行检索时，得到的结果零散化、碎片化、精确度不高等问题，提高了搜索效率。

附图说明

图1为本发明一种实施例公开的基于文本图谱的智能搜索引擎的检索方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供的一种基于文本图谱的智能搜索引擎的检索方法，包括：

S1、获取数据信息存储至分布式系统集群中，并构建文本图谱；

其中，

数据信息包括期刊、论文、专利、百科、词典信息，国家官网、企业官网信息以及各专业、职业信息。

构建文本图谱，包括：

从分布式系统集群中提取三元组，包括多个三元组；

根据三元组构建文本图谱；

将文本图谱保存至数据库中。

S2、根据用户输入的搜索语句，建立节点查询语句；

其中，

根据用户输入的搜索语句进行实体识别和关系解析；

根据得到的实体和关系建立节点查询语句。

S3、根据节点查询语句在文本图谱中匹配三元组；

S4、若匹配成功，则将匹配到的三元组中的实体作为搜索结果返回客户；

S5、若匹配不成功，则对搜索语句进行分词，获取检索词；

S6、利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户；

其中，余弦相似度公式为：

公式中，

A_i表示搜索语句钟获取到检索词的分向量；

B_i表示分布式系统集群中实体的分向量；

n表示检索词及分布式系统集群中实体的分向量数。

进一步的，

利用余弦相似度公式将检索词与分布式系统集群中的实体逐一进行相关性计算；

将计算结果中最大余弦值对应的实体返回用户。

实施例1：

步骤1、数据信息收集，收集各期刊、论文、专利、百科、词典信息，收集国家官网、企业官网信息以及各专业、职业信息；

步骤2、将收集到的数据信息储存至分布式系统集群中，识别并提取数据信息中的实体、关系和属性，得到多个三元组，根据三元组构建文本图谱，并将文本图谱保存至数据库中；

其中，三元组通常记为(x，y，z)，

进一步的，从某企业官网收集到数据信息“鸿海集团董事长郭台铭25日表示，阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」，是他给加上的”，获得三元组(阿里巴巴，主席，马云)、(鸿海集团，董事长，郭台铭)。

步骤3、用户输入的搜索语句，如：阿里巴巴董事局主席是谁，识别搜索语句中的实体，识别到阿里巴巴，解析关系为主席，建立节点查询语句为：(阿里巴巴，主席)；

步骤4、根据节点查询语句(阿里巴巴，主席)在文本图谱中匹配三元组，匹配到(阿里巴巴，主席，马云)；

步骤5、将匹配到的三元组中的实体“马云”作为搜索结果返回客户；

实施例2：

其中，三元组通常记为(x，y，z)，

步骤3、用户输入的搜索语句，如：阿里巴巴CEO是谁，识别搜索语句中的实体，识别到阿里巴巴，解析关系为CEO，建立节点查询语句为：(阿里巴巴，CEO)；

步骤4、根据节点查询语句(阿里巴巴，CEO)在文本图谱中匹配三元组，没有匹配到三元组；

步骤5、对搜索语句进行分词，获取检索词有阿里巴巴和CEO；

步骤6、利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户；

其中，

分布式系统集群中储存的数据信息“鸿海集团董事长郭台铭25日表示，阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」，是他给加上的”，实体包括鸿海集团、郭台铭、阿里巴巴、马云；

分布式系统集群中包含检索词阿里巴巴，不包含检索词CEO；

根据余弦相似性公式，依次计算检索词阿里巴巴与布式系统集群中实体鸿海集团、郭台铭、马云的相似性

其中，分布式系统集群中的实体均用向量表示，将向量分解到不同坐标轴得到分向量并进行计算；

计算得到相关性较高的实体为“马云”，返回用户。

本发明的优点：

通过建立文本图谱，进一步将搜索语句进行识别、解析，提炼要点建立节点查询语句，进而根据节点查询语句在文本图谱中进行检索，对于文本图谱中能够匹配到三元组的节点查询语句，直接返回三元组中的实体，对于文本图谱中不能匹配到三元组的节点查询语句，再次进行关键词查询，且关键词查询中利用余弦相似度公式进行相关性分析，得到更为准确的搜索目标；解决了通过关键词进行检索时，得到的结果零散化、碎片化、精确度不高等问题，提高了搜索效率。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本图谱的智能搜索引擎的检索方法，其特征在于，包括：

获取数据信息存储至分布式系统集群中，并构建文本图谱；

根据用户输入的搜索语句，建立节点查询语句；

根据所述节点查询语句在所述文本图谱中匹配三元组；

若匹配不成功，则对所述搜索语句进行分词，获取检索词；

2.根据权利要求1所述的检索方法，其特征在于：所述数据信息包括期刊、论文、专利、百科、词典信息，国家官网、企业官网信息以及各专业、职业信息。

3.根据权利要求1所述的检索方法，其特征在于，所述构建文本图谱，包括：

从所述分布式系统集群中提取三元组；

根据三元组构建文本图谱；

将文本图谱保存至数据库中。

4.根据权利要求1所述的检索方法，其特征在于：所述根据用户输入的搜索语句，建立节点查询语句，包括：

根据用户输入的搜索语句进行实体识别和关系解析；

根据得到的所述实体和关系建立节点查询语句。

5.根据权利要求1所述的检索方法，其特征在于，所述余弦相似度公式为：

其中，

A_i表示搜索语句钟获取到检索词的分向量；

B_i表示分布式系统集群中实体的分向量；

n表示检索词及分布式系统集群中实体的分向量数。

6.根据权利要求1所述的检索方法，其特征在于，所述利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户，包括：

将计算结果中最大余弦值对应的实体返回用户。