CN115563313A

CN115563313A - 基于知识图谱的文献书籍语义检索系统

Info

Publication number: CN115563313A
Application number: CN202211307718.6A
Authority: CN
Inventors: 吴怜颐; 李国强
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-03

Abstract

一种基于知识图谱的文献书籍语义检索系统，包括：知识图谱构建单元以及语义查询单元，其中知识图谱构建单元根据文献书籍的简介和评论等具有语义信息的数据，进行命名实体识别和关系抽取，得到一系列的实体以及实体关系三元组，完成知识图谱的构建；语义查询单元根据用户输入的自然语言查询语句，将其转换为一组结构化查询语句，并对书籍文献知识图谱的查询结果进行排序并返回给用户。本发明满足对图书知识高效、高密度、高信息量的存储方式的要求，能够对图书以及图书相关分类、属性信息、内容等进行高效存储；能够利用图书之间的关联信息，满足读者丰富语义查询的需求。

Description

基于知识图谱的文献书籍语义检索系统

技术领域

本发明涉及的是一种数据工程领域的技术，具体是一种基于知识图谱的文献书籍语义检索系统。

背景技术

虽然国内外对于文献书籍检索功能都有着迫切的需求，但是目前大多数文献书籍检索系统仍然基于关键字段的精确匹配，并且通常仅以文献书籍的标题、作者或者索引号作为关键字段，缺少对于文献书籍内容的高效存储和检索方式，而少数提供内容检索相关功能的文献书籍检索系统，也往往是基于人工添加的文献书籍关键字标签，受限于文献书籍的篇幅以及关键字的数量，几乎无法做到对文献书籍内容的全面覆盖；或者是基于文献书籍是否出现该关键字，由于相同的关键字根据上下文语境的不同可能表达不同的意思，而作者、版本或者翻译者的不同也可能导致相同的概念以不同关键字的形式出现。因此，仅仅通过关键词检索书籍，难以精确根据读者期望的内容检索获取与之相关的文献书籍。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于知识图谱的文献书籍语义检索系统，满足对图书知识高效、高密度、高信息量的存储方式的要求，能够对图书以及图书相关分类、属性信息、内容等进行高效存储；提高对图书之间关联信息的重视，能够利用图书之间的关联信息，为读者提供进行推荐、辅助搜索等服务；满足读者丰富语义查询的需求，读者希望能够使用具有高信息量、高语义性的查询语句进行书籍文献检索。

本发明是通过以下技术方案实现的：

本发明涉及一种基于知识图谱的文献书籍语义检索系统，包括：知识图谱构建单元以及语义查询单元，其中知识图谱构建单元根据文献书籍的简介和评论等具有语义信息的数据，进行命名实体识别和关系抽取，得到一系列的实体以及实体关系三元组，完成知识图谱的构建；语义查询单元根据用户输入的自然语言查询语句，将其转换为一组结构化查询语句，并对书籍文献知识图谱的查询结果进行排序并返回给用户。

所述的文献书籍语义检索是指：收集文献书籍相关知识信息，包括标题、作者、目录、简介、评论等，根据其特点设计文献书籍知识图谱框架，并且实现其自动化构建，同时，根据已有的知识进行推理，发掘文献书籍之间的关联性；构建并训练自然语言处理模型，识别并抽取自然语言查询语句中的实体、关系、属性等语义信息，进行同义、近义、上义、下义等多方向扩展，并转换为结构化查询语句，并根据书籍之间的关联性对查询结果进行进一步扩展；构建排序算法，从相关性、被查询次数等多角度对查询结果进行排序。同时根据文献书籍之间的关联性，向用户推荐与已有检索结果关联性较高的文献书籍。

技术效果

本发明通过语义粒度级别的文献书籍信息建模、抽取、管理与查询，相比现有技术实现了更细粒度的文献书籍信息建模与管理，提供了针对文献书籍数据进行语义化、非结构化的高效、精确查询的方式和手段。

附图说明

图1为文献书记知识图谱构建流程图；

图2为语义查询流程图；

图3为文献书籍知识图谱示例；

图4为实施场景说明图。

具体实施方式

本实施例涉及一种基于知识图谱的文献书籍语义检索系统，包括：知识图谱构建单元以及语义查询单元，其中知识图谱构建单元根据文献书籍的简介和评论等具有语义信息的数据，进行命名实体识别和关系抽取，得到一系列的实体以及实体关系三元组，完成知识图谱的构建；语义查询单元根据用户输入的自然语言查询语句，将其转换为一组结构化查询语句，并对书籍文献知识图谱的查询结果进行排序并返回给用户，如图1所示，为该系统文献书籍语义检索过程，包括：

步骤1)抽取文献书籍语义信息抽取：对文献书籍的简介和评论等具有语义信息的数据进行知识抽取任务，将其中的语义信息转化为一系列的实体以及实体关系三元组，便于文献书籍知识的高效存储和查询，具体为：

1.1)使用命名实体识别技术，识别文献书籍简介和评论中的命名实体，具体为：首先通过人工方式对少量文献书籍简介和评论中的实体进行标记，标记内容包括实体位置以及实体类型；然后采用了预训练语言模型结合人工标记数据微调的训练模式，获得命名实体识别模型；最后将大量未标记文献书籍简介和评论输入该模型，对其中命名实体及其实体类型进行预测。

1.2)使用实体关系抽取技术，抽取文献书籍简介和评论中实体之间的关系，具体为：首先通过人工方式对少量文献书籍简介和评论中实体之间的关系进行标记，标记内容包括存在关系的实体对、关系方向以及关系类型；然后采用了预训练语言模型结合人工标记数据微调的训练模式，获得实体关系抽取模型；最后将大量未标记文献书籍简介和评论及其中的实体位置和实体类型输入该模型，对实体之间的关系、关系方向以及关系类型进行预测。

1.3)使用指代消解技术，对步骤1.1中识别到的代词以及步骤1.2中抽取出的指代关系进行消解，具体为：根据指代关系方向判别代词实体以及被指代实体，将实体关系三元组中的代词实体替换为被指代实体，如果存在多重指代，则所有代词实体替换为指代链中最初被指代实体。

步骤2)构建知识图谱构建：将文献数据的属性信息和知识信息导入数据库中，完成如3所示的文献书籍知识图谱，具体为：

2.1)将文献书籍的标题、作者、类型等属性信息以表的形式导入数据库中。

2.2)将步骤1中获得文献书籍简介和评论的语义信息以图的形式导入数据库中。其中每一个命名实体与每一条实体关系均带有“属于”属性，属性值为文献书籍编号组成的列表，用于标记文献书籍与命名实体和实体关系的从属关系。

步骤3)抽取自然语言查询语句语义信息：对用户输入的自然语言查询语句进行语义信息抽取任务，将其转化为一系列的实体以及实体关系三元组，便于结构化查询语句的生成，具体为：

3.1)使用命名实体识别技术，将自然语言查询语句输入文献书籍知识图谱构建流程中步骤1.1所训练获得的命名实体识别模型，对查询语句中的命名实体及其实体类型进行预测。

3.2)使用实体关系抽取技术，将自然语言查询语句以及其中实体位置和实体类型输入文献书籍知识图谱构建流程中步骤1.2所训练获得的实体关系抽取模型，对查询语句中实体之间的关系、关系方向以及关系类型进行预测。

3.3)使用语义扩展技术，对于自然语言查询的语义进行进一步扩展。通过外部实体库，查询步骤1.1所获得实体的同义实体、近义实体以及上下义实体，并加入实体列表，并将原实体之间的关系迁移至相应的同义实体、近义实体以及上下义实体之间，加入实体关系三元组列表。

步骤4)查询文献书籍：根据将用户输入的自然语言查询语句中的语义信息以及数据库的类型，将步骤1获得的实体以及实体关系三元组转化为相应的结构化查询语句，并根据文献书籍之间的关联性对数据库所返回的查询结果进行进一步扩展，具体为：

4.1)由于文献书籍的属性信息和语义信息分别以表和图的形式保存于数据库，而表数据可以保存于多种关系型和非关系型数据库中，图数据可以保存于多种图数据库中，因此需要根据自然语言查询语句中的语言信息以及数据库类型生成相应的结构化查询语句，具体为：首先检查步骤1.1中获得的实体列表中是否包含“标题”、“作者”等文献书籍属性关键字实体；如果实体列表中包含属性关键字实体，如果是，则进一步检查在步骤1.2获得的实体关系三元组中，该属性关键字实体是否修饰待查询文献书籍，若是，则根据所使用的数据库生成相应的表数据查询语句；对于非属性关键字实体以及没有属性关键字实体的实体关系三元组，则根据所使用的数据库生成相应的图数据查询语句。

4.2)使用关键字检索技术以及图的连通性算法，计算文献书籍之间属性信息和知识信息的关联性，对文献书籍知识图谱的查询结果进行进一步扩展，将部分与当前查询结果关联性较高的文献书籍加入查询结果列表。

步骤5)查询结果排序：根据相关度、被查询次数和最近被查询时间等指标对步骤2所返回的文献书籍查询结果进行排序，提高用户的文献书籍语义查询体验，具体为：使用Jaccard相似度算法，计算用户输入自然语言查询语句与查询结果中文献书籍的相关度。将步骤1中获得的命名实体和实体关系看作图A，分别计算该图与查询结果中文献书籍语义信息所构成的图B之间的相似度

使用加权求和方法，计算查询结果的重要性分数P_i＝w_jJ_i+w_cC_i+w_tT_i，并进行排序，其中：J为相关度分数，C为被查询次数，T为上次被查询与本次被查询的时间差，w_i、w_c、w_t分别为三者的权重。

经过具体实际实验，本发明以Bert模型为预训练模型，基于1000条人工标记的文献书籍简介信息，训练得到的命名实体识别模型精确度为0.9143，实体关系抽取模型的精确度为0.9583，能够较好地预测文献书籍简介信息中的语义特征。同时，本发明在实验中随机选取了5000条文献书籍简介进行知识图谱的构建，融合CN-Dbpedia作为外部实体库，对于生成的结构化查询语句进行语义扩展，并选择w_i＝0.8、w_c＝0.1、w_t＝0.1作为相关度、被查询次数以及最近被查询时间的重要性权重，最后从用于构建知识图谱文献书籍简介中随机抽取80条，并且从未被用于构建知识图谱的文献书籍简介中随机抽取20条作为实验数据，随机替换上述100条简介中的同义词或者上下义词，得到的文献书籍语义查询结果对于已存在于知识图谱中的准确度为0.9625，对于部分不存在的书籍能够给出相近的文献书籍推荐结果。

与现有技术相比，本发明对于文献书籍信息提供了语义粒度的建模与管理，实现了对于文献书籍高语义密度的存储结构，同时，本发明实现了针对文献书籍数据的高效语义化精确查询，满足了用户对于高信息量、高语义性检索模式的需求。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于知识图谱的文献书籍语义检索系统，其特征在于，包括：知识图谱构建单元以及语义查询单元，其中知识图谱构建单元根据文献书籍的简介和评论具有语义信息的数据，进行命名实体识别和关系抽取，得到一系列的实体以及实体关系三元组，完成知识图谱的构建；语义查询单元根据用户输入的自然语言查询语句，将其转换为一组结构化查询语句，并对书籍文献知识图谱的查询结果进行排序并返回给用户；

所述的文献书籍语义检索是指：收集文献书籍相关知识信息，根据其特点设计文献书籍知识图谱框架，并且实现其自动化构建，根据已有的知识进行推理，发掘文献书籍之间的关联性；构建并训练自然语言处理模型，识别并抽取自然语言查询语句中的实体、关系、属性语义信息，进行同义、近义、上义、下义多方向扩展，并转换为结构化查询语句，并根据书籍之间的关联性对查询结果进行进一步扩展；构建排序算法，从相关性、被查询次数多角度对查询结果进行排序，根据文献书籍之间的关联性，向用户推荐与已有检索结果关联性较高的文献书籍。

2.根据权利要求1所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的抽取文献书籍语义信息抽取是指：对文献书籍的简介和评论具有语义信息的数据进行知识抽取任务，将其中的语义信息转化为一系列的实体以及实体关系三元组，便于文献书籍知识的高效存储和查询。

3.根据权利要求1或2所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的抽取文献书籍语义信息抽取具体包括：

1.1)使用命名实体识别技术，识别文献书籍简介和评论中的命名实体，具体为：首先通过人工方式对少量文献书籍简介和评论中的实体进行标记，标记内容包括实体位置以及实体类型；然后采用了预训练语言模型结合人工标记数据微调的训练模式，获得命名实体识别模型；最后将大量未标记文献书籍简介和评论输入该模型，对其中命名实体及其实体类型进行预测；

1.2)使用实体关系抽取技术，抽取文献书籍简介和评论中实体之间的关系，具体为：首先通过人工方式对少量文献书籍简介和评论中实体之间的关系进行标记，标记内容包括存在关系的实体对、关系方向以及关系类型；然后采用了预训练语言模型结合人工标记数据微调的训练模式，获得实体关系抽取模型；最后将大量未标记文献书籍简介和评论及其中的实体位置和实体类型输入该模型，对实体之间的关系、关系方向以及关系类型进行预测；

1.3)使用指代消解技术，对识别到的代词以及抽取出的指代关系进行消解，具体为：根据指代关系方向判别代词实体以及被指代实体，将实体关系三元组中的代词实体替换为被指代实体，如果存在多重指代，则所有代词实体替换为指代链中最初被指代实体。

4.根据权利要求1所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的构建知识图谱构建是指：将文献数据的属性信息和知识信息导入数据库中，完成文献书籍知识图谱。

5.根据权利要求1或4所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的构建知识图谱构建包括：

2.1)将文献书籍的标题、作者、类型属性信息以表的形式导入数据库中；

2.2)将文献书籍简介和评论的语义信息以图的形式导入数据库中；其中每一个命名实体与每一条实体关系均带有“属于”属性，属性值为文献书籍编号组成的列表，用于标记文献书籍与命名实体和实体关系的从属关系。

6.根据权利要求1所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的抽取自然语言查询语句语义信息是指：对用户输入的自然语言查询语句进行语义信息抽取任务，将其转化为一系列的实体以及实体关系三元组，便于结构化查询语句的生成。

7.根据权利要求1或6所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的抽取自然语言查询语句语义信息具体包括：

3.1)使用命名实体识别技术，将自然语言查询语句输入文献书籍知识图谱构建流程中训练获得的命名实体识别模型，对查询语句中的命名实体及其实体类型进行预测；

3.2)使用实体关系抽取技术，将自然语言查询语句以及其中实体位置和实体类型输入文献书籍知识图谱构建流程中训练获得的实体关系抽取模型，对查询语句中实体之间的关系、关系方向以及关系类型进行预测；

3.3)使用语义扩展技术，对于自然语言查询的语义进行进一步扩展；通过外部实体库，查询所获得实体的同义实体、近义实体以及上下义实体，并加入实体列表，并将原实体之间的关系迁移至相应的同义实体、近义实体以及上下义实体之间，加入实体关系三元组列表。

8.根据权利要求1所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的查询文献书籍是指：根据将用户输入的自然语言查询语句中的语义信息以及数据库的类型，将实体以及实体关系三元组转化为相应的结构化查询语句，并根据文献书籍之间的关联性对数据库所返回的查询结果进行进一步扩展。

9.根据权利要求1或8所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的查询文献书籍具体包括：

4.1)由于文献书籍的属性信息和语义信息分别以表和图的形式保存于数据库，而表数据保存于多种关系型和非关系型数据库中，图数据保存于多种图数据库中，因此需要根据自然语言查询语句中的语言信息以及数据库类型生成相应的结构化查询语句，具体为：首先检查获得的实体列表中是否包含“标题”、“作者”文献书籍属性关键字实体；如果实体列表中包含属性关键字实体，如果是，则进一步检查在实体关系三元组中，该属性关键字实体是否修饰待查询文献书籍，若是，则根据所使用的数据库生成相应的表数据查询语句；对于非属性关键字实体以及没有属性关键字实体的实体关系三元组，则根据所使用的数据库生成相应的图数据查询语句；

10.根据权利要求1所述的基于知识图谱的文献书籍语义检索系统，其特征是，所述的查询结果进行排序是指：根据相关度、被查询次数和最近被查询时间指标对文献书籍查询结果进行排序，提高用户的文献书籍语义查询体验，具体包括：使用Jaccard相似度算法，计算用户输入自然语言查询语句与查询结果中文献书籍的相关度；将步骤1中获得的命名实体和实体关系看作图A，分别计算该图与查询结果中文献书籍语义信息所构成的图B之间的相似度