CN113254668A

CN113254668A - 一种基于场景纬度的知识图谱构建方法及系统

Info

Publication number: CN113254668A
Application number: CN202110653434.1A
Authority: CN
Inventors: 浦同争; 黄铭; 杨晶晶
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-13
Anticipated expiration: 2041-06-11
Also published as: CN113254668B

Abstract

本发明涉及一种基于场景纬度的知识图谱构建方法及系统，包括：获取知识库中每个知识点的表征信息和描述信息，并初步确定每个知识点的标签信息；根据用户调查生成初始的场景识别库；通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息，添加至标签信息中；根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，构建知识库的知识图谱；在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化。本发明在知识图谱构建过程中充分考虑了用户的场景信息(时间和地理)等用户信息。满足了用户的个性化需求，提高了用户的互动性及体验感。

Description

一种基于场景纬度的知识图谱构建方法及系统

技术领域

本发明涉及信息处理技术领域，特别是涉及一种基于场景纬度的知识图谱构建方法及系统。

背景技术

知识图谱能提供高质量的结构化数据，目前已经广泛地应用于人工智能的多个领域，例如自动问答、搜索引擎以及信息抽取。国内现有学科知识图谱构建数据来源单一，通常仅为教科书或者一些简单的教辅资料。目前针对学科知识的知识图谱的构建，主要是通过预先设定的需求和该学科知识特点构建该学科知识的本体，确定概念、方法、公式、定理等类型的实体，从教科书或者教辅资料等数据源中获取半结构化或者非结构化数据，抽取非结构化数据的关系和实体。

如武汉大学学报公开了《基于多源异构数据融合的初中数学知识图谱构建》的论文，其主要针对初中数学这一学科知识，制定了知识图谱的构建规则。

但是，通过上述方式构建学科知识的知识图谱存在一定的局限性，其知识图谱构建时未充分考虑用户的个性化需求，导致互动性较低。因此，亟需一种基于场景纬度的知识图谱构建方法及系统。

发明内容

本发明的目的是提供一种基于场景纬度的知识图谱构建方法及系统，以提高知识图谱构建时的用户个性化需求，提高与用户的互动性。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于场景纬度的知识图谱构建方法，所述方法包括如下步骤：

获取知识库中每个知识点的表征信息和描述信息；

对每个知识点的描述信息进行分词和词频统计，获得每个知识点的标签信息；

根据用户调查生成初始的场景识别库；

通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息；所述场景识别库中的场景信息包括时间描述信息和地理描述信息；

分别将每个知识点的场景性关键信息，添加至所述标签信息中，获得每个知识点的更新后的标签信息；

根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，并结合每个知识点的表征信息和描述信息，构建知识库的知识图谱；所述知识图谱以所述知识点的表征信息为节点名称，以知识点的描述信息为节点内容；

在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化。

可选的，所述在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，具体包括：

获取用户所处环境的当前环境声音信息，从所述当前环境声音信息中识别出用户的当前时间描述信息和当前地理描述信息；

将所述当前时间描述信息和所述当前地理描述信息组成的当前场景信息与场景识别库中的场景信息进行匹配，获得第一匹配信息；

判断所述第一匹配信息是否小于第一预设阈值；

若所述第一匹配信息小于第一预设阈值，则将当前场景信息添加至所述场景识别库，对所述场景识别库进行优化，并利用优化后的场景识别库对所述知识图谱进行优化；

若所述第一匹配信息不小于第一预设阈值，则根据知识点的场景性关键信息，获取知识图谱中与所述当前场景信息匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

可选的，所述根据知识点的场景性关键信息，获取知识图谱中与所述当前场景信息匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户，具体包括：

对所述当前环境声音信息技能型降噪和滤波，获得当前场景语音信息和当前背景语音信息；

对当前场景语音信息进行语音识别，获得当前场景文本信息；

将当前场景文本信息与所述场景性关键信息中的场景性文本信息进行匹配，获得第二匹配信息；

将背景语音信息与所述场景性关键信息中的场景性背景声信息进行匹配，获得第三匹配信息；

判断所述第二匹配信息是否大于第二预设阈值，所述第三匹配信息是否大于第三预设阈值；

若所述第二匹配信息大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配且与当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户；

若所述第二匹配信息大于第二预设阈值且所述第三匹配信息不大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户；

若所述第二匹配信息不大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则利用当前场景文本信息更新所述场景识别库，根据知识点的场景性关键信息，确定与所述当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

可选的，在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，之后还包括：

接收用户阅读正在阅读的知识点的语音信息和时间长度信息，生成所述知识点的阅读准确度和阅读流畅度；

若所述阅读准确度大于第四预设阈值且所述阅读流畅度大于第五预设阈值，则生成是否继续学习所述知识点的确认对话框；

若用户确认为不继续学习所述知识点，则删除所述知识点在所述知识图谱中的节点。

一种基于场景纬度的知识图谱构建系统，所述系统：

信息获取模块，用于获取知识库中每个知识点的表征信息和描述信息；

词频统计模块，用于对每个知识点的描述信息进行分词和词频统计，获得每个知识点的标签信息；

初始的场景识别库生成模块，用于根据用户调查生成初始的场景识别库；

场景性关键信息确定模块，用于通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息；所述场景识别库中的场景信息包括时间描述信息和地理描述信息；

标签信息更新模块，用于分别将每个知识点的场景性关键信息，添加至所述标签信息中，获得每个知识点的更新后的标签信息；

知识图谱构建模块，用于根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，并结合每个知识点的表征信息和描述信息，构建知识库的知识图谱；所述知识图谱以所述知识点的表征信息为节点名称，以知识点的描述信息为节点内容；

知识图谱优化模块，用于在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化。

可选的，所述知识图谱优化模块，具体包括：

当前信息获取子模块，用于获取用户所处环境的当前环境声音信息，从所述当前环境声音信息中识别出用户的当前时间描述信息和当前地理描述信息；

第一匹配子模块，用于将所述当前时间描述信息和所述当前地理描述信息组成的当前场景信息与场景识别库中的场景信息进行匹配，获得第一匹配信息；

第一判断子模块，用于判断所述第一匹配信息是否小于第一预设阈值；

场景识别库优化子模块，用于若所述第一匹配信息小于第一预设阈值，则将当前场景信息添加至所述场景识别库，对所述场景识别库进行优化，并利用优化后的场景识别库对所述知识图谱进行优化；

信息反馈子模块，用于若所述第一匹配信息不小于第一预设阈值，则根据知识点的场景性关键信息，获取知识图谱中与所述当前场景信息匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

可选的，所述信息反馈子模块，具体包括：

信息处理单元，用于对所述当前环境声音信息技能型降噪和滤波，获得当前场景语音信息和当前背景语音信息；

语音识别单元，用于对当前场景语音信息进行语音识别，获得当前场景文本信息；

第二匹配单元，用于将当前场景文本信息与所述场景性关键信息中的场景性文本信息进行匹配，获得第二匹配信息；

第三匹配单元，用于将背景语音信息与所述场景性关键信息中的场景性背景声信息进行匹配，获得第三匹配信息；

第一判断单元，用于判断所述第二匹配信息是否大于第二预设阈值，所述第三匹配信息是否大于第三预设阈值；

第一信息反馈单元，用于若所述第二匹配信息大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配且与当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户；

第二信息反馈单元，用于若所述第二匹配信息大于第二预设阈值且所述第三匹配信息不大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户；

第三信息反馈单元，用于若所述第二匹配信息不大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则利用当前场景文本信息更新所述场景识别库，根据知识点的场景性关键信息，确定与所述当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

可选的，所述系统还包括：

阅读准确度和阅读流畅度获取模块，用于接收用户阅读正在阅读的知识点的语音信息和时间长度信息，生成所述知识点的阅读准确度和阅读流畅度；

确认对话框生成模块，用于若所述阅读准确度大于第四预设阈值且所述阅读流畅度大于第五预设阈值，则生成是否继续学习所述知识点的确认对话框；

节点删除模块，用于若用户确认为不继续学习所述知识点，则删除所述知识点在所述知识图谱中的节点。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于场景纬度的知识图谱构建方法，所述方法包括如下步骤：获取知识库中每个知识点的表征信息和描述信息；对每个知识点的描述信息进行分词和词频统计，获得每个知识点的标签信息；根据用户调查生成初始的场景识别库；通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息；所述场景识别库中的场景信息包括时间描述信息和地理描述信息；分别将每个知识点的场景性关键信息，添加至所述标签信息中，获得每个知识点的更新后的标签信息；根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，构建知识库的知识图谱；在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化。本发明在知识图谱构建过程中充分考虑了用户的场景信息(时间和地理)等用户信息。满足了用户的个性化需求，提高了用户的互动性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于场景纬度的知识图谱构建方法的流程图；

图2为本发明实施例一提供的一种基于场景纬度的知识图谱构建方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示本发明提供了一种基于场景纬度的知识图谱构建方法，所述方法包括如下步骤：

步骤101，获取知识库中每个知识点的表征信息和描述信息。

步骤102，对每个知识点的描述信息进行分词和词频统计，获得每个知识点的标签信息。

步骤102具体包括：过滤描述信息中的停用词及符号，得到过滤信息；对过滤信息进行分词处理，得到关键词，以关键词为单位进行关键词的重复频次统计，得到标签信息。由于是进行的频次统计，在部分概念的释义上，如果关键词重复频次较高，则关联性较高，能够更加方便用户进行学习和记忆(关联学习)。

步骤103，根据用户调查生成初始的场景识别库。

步骤104，通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息；所述场景识别库中的场景信息包括时间描述信息和地理描述信息。

步骤105，分别将每个知识点的场景性关键信息，添加至所述标签信息中，获得每个知识点的更新后的标签信息。

步骤106，根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，并结合每个知识点的表征信息和描述信息，构建知识库的知识图谱；所述知识图谱以所述知识点的表征信息为节点名称，以知识点的描述信息为节点内容。

步骤107，在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化。

步骤107所述在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，具体包括：

获取用户所处环境的当前环境声音信息，从所述当前环境声音信息中识别出用户的当前时间描述信息和当前地理描述信息。

将所述当前时间描述信息和所述当前地理描述信息组成的当前场景信息与场景识别库中的场景信息进行匹配，获得第一匹配信息。

判断所述第一匹配信息是否小于第一预设阈值。

若所述第一匹配信息小于第一预设阈值，则将当前场景信息添加至所述场景识别库，对所述场景识别库进行优化，并利用优化后的场景识别库对所述知识图谱进行优化。当第一匹配信息低于第一预设阈值，第二匹配信息和第三匹配信息超过第三和第四预设阈值，则发送超过预设的用户作息时间的知识点计划信息，然后根据第二匹配信息和第三匹配信息，调用与该时间性关键信息和场景性关键信息相关的知识点及该知识点的描述信息并反馈至用户。若第一匹配信息、第二匹配信息和第三匹配信息分别低于第一预设阈值、第二预设阈值和第三预设阈值，则生成是否需要更新预设的用户作息时间、场景性文本信息和场景性背景声信息的待确认信息；若接收到确认信息为否，则放弃；若接收到确认信息为是，则对预设的用户作息时间、场景性文本信息和场景性背景声信息进行更新。

其中，所述根据知识点的场景性关键信息，获取知识图谱中与所述当前场景信息匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户，具体包括：

对所述当前环境声音信息技能型降噪和滤波，获得当前场景语音信息和当前背景语音信息。

对当前场景语音信息进行语音识别，获得当前场景文本信息。

将当前场景文本信息与所述场景性关键信息中的场景性文本信息进行匹配，获得第二匹配信息。

将背景语音信息与所述场景性关键信息中的场景性背景声信息进行匹配，获得第三匹配信息。

判断所述第二匹配信息是否大于第二预设阈值，所述第三匹配信息是否大于第三预设阈值。

若所述第二匹配信息大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配且与当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

若所述第二匹配信息大于第二预设阈值且所述第三匹配信息不大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

作为一种可选择的实施方式，步骤107在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，之后还包括：接收用户阅读正在阅读的知识点的语音信息和时间长度信息，生成所述知识点的阅读准确度和阅读流畅度；若所述阅读准确度大于第四预设阈值且所述阅读流畅度大于第五预设阈值，则生成是否继续学习所述知识点的确认对话框；若用户确认为不继续学习所述知识点，则删除所述知识点在所述知识图谱中的节点。即，接收用户阅读该知识点的语音信息和时间长度信息，并生成准确度和流畅度信息，若准确度和流畅度信息均超过预设阈值则生成是否继续学习该知识点的待确认信息；若接收到用户反馈的不继续学习该知识点的请求，删除该知识点的表征信息和该知识点的描述信息。

一种基于场景纬度的知识图谱构建系统，所述系统：

信息获取模块，用于获取知识库中每个知识点的表征信息和描述信息。

词频统计模块，用于对每个知识点的描述信息进行分词和词频统计，获得每个知识点的标签信息。

场景性关键信息确定模块，用于通过对场景识别库中的场景信息进行统计分析，确定每个知识点的场景性关键信息；所述场景识别库中的场景信息包括时间描述信息和地理描述信息。

标签信息更新模块，用于分别将每个知识点的场景性关键信息，添加至所述标签信息中，获得每个知识点的更新后的标签信息。

知识图谱构建模块，用于根据每个知识点的更新后的标签信息确定知识库中不同知识点之间的关联关系，并结合每个知识点的表征信息和描述信息，构建知识库的知识图谱；所述知识图谱以所述知识点的表征信息为节点名称，以知识点的描述信息为节点内容。

其中，所述知识图谱优化模块，具体包括：

当前信息获取子模块，用于获取用户所处环境的当前环境声音信息，从所述当前环境声音信息中识别出用户的当前时间描述信息和当前地理描述信息。

第一匹配子模块，用于将所述当前时间描述信息和所述当前地理描述信息组成的当前场景信息与场景识别库中的场景信息进行匹配，获得第一匹配信息。

第一判断子模块，用于判断所述第一匹配信息是否小于第一预设阈值。

场景识别库优化子模块，用于若所述第一匹配信息小于第一预设阈值，则将当前场景信息添加至所述场景识别库，对所述场景识别库进行优化，并利用优化后的场景识别库对所述知识图谱进行优化。

所述信息反馈子模块，具体包括：

信息处理单元，用于对所述当前环境声音信息技能型降噪和滤波，获得当前场景语音信息和当前背景语音信息。

语音识别单元，用于对当前场景语音信息进行语音识别，获得当前场景文本信息。

第二匹配单元，用于将当前场景文本信息与所述场景性关键信息中的场景性文本信息进行匹配，获得第二匹配信息。

第三匹配单元，用于将背景语音信息与所述场景性关键信息中的场景性背景声信息进行匹配，获得第三匹配信息。

第一判断单元，用于判断所述第二匹配信息是否大于第二预设阈值，所述第三匹配信息是否大于第三预设阈值。

第一信息反馈单元，用于若所述第二匹配信息大于第二预设阈值且所述第三匹配信息大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配且与当前背景语音信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

第二信息反馈单元，用于若所述第二匹配信息大于第二预设阈值且所述第三匹配信息不大于所述第三预设阈值，则根据知识点的场景性关键信息，确定与所述当前场景文本信息相匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户。

作为一种可选择的实施方式，所述系统还包括：阅读准确度和阅读流畅度获取模块，用于接收用户阅读正在阅读的知识点的语音信息和时间长度信息，生成所述知识点的阅读准确度和阅读流畅度。确认对话框生成模块，用于若所述阅读准确度大于第四预设阈值且所述阅读流畅度大于第五预设阈值，则生成是否继续学习所述知识点的确认对话框。节点删除模块，用于若用户确认为不继续学习所述知识点，则删除所述知识点在所述知识图谱中的节点。

为了说明本发明的方法及系统的具体实施方式，本发明还提供了如下的具体实施例。

实施例一

如图2本实施例的一种基于场景纬度的知识图谱构建方法，包括。

S1、获取知识点的表征信息和该知识点的描述信息；具体而言，本实施例中选用的是以成语作为知识点，该知识点的表征信息就是具体某个成语的字符本身；描述信息包括了词典释义和典故。但是实际上可以学习的知识点非常多，只要是类似百科这样的知识点，即包括了词条和释义的知识结构，均可按照本实施例中所描述方法建立知识图谱，本实施例仅是为了方便进行说明，仅列举的成语，不表示仅针对成语。

S2、针对每个知识点，对该知识点的描述信息进行分析，对描述信息进行分词处理，然后获取分词后的关键词的重复频次进行统计生成标签信息；具体而言，本实施例就是对词典释义和典故进行分词处理，然后根据关键词重复频次生成标签信息。

S3、基于知识点之间的标签信息建立知识点之间的关联关系，构建该知识点的原始知识图谱；具体而言，是根据标签信息建立成语之间的关联关系，构建了原始知识图谱。即，以知识点的表征信息为节点，以知识点之间的标签的关联关系为依据，确定节点之间的关系，然后进行关联关系的类型识别并进行节点链接，以便于后续进行节点关系抽取。

S4、根据预设的时间识别库和场景识别库识别出标签信息中的场景性关键信息；具体而言，是根据用户需求由用户自行填写一个时间识别库和场景识别库相关的识别信息，如场景描述为：工作日早上7点起床，7点10分早餐，7点30-8点20地铁通勤进行学习，其中的，时间信息包括：工作日早上7点、7点10分、7点30-8点20，地理信息包括：窗、餐桌、地铁，在时间信息和地理信息的场景信息满足后，会推送会当前场景相关联的信息以方面用户进行后续的学习。

S5、在接受到用户的使用请求后，采集环境对当前时间的当前场景的场景描述信息(对当前场景的场景描述信息可以理解为，用户或者其他人对当前场景的描述，例如用户在向其他人交流过程中，表达了“我在车站”或者“在地铁上”等语音信息，通过获取这样的环境声音确定所处的用户所处的情景。如果无明确的语音信息，也可以通过采集分析用户所处的场景的背景声音进行分析，以确定用户所处的环境，这部分功能的详细介绍会在实施例二中进行介绍。)，并提取场景描述信息中的当前时间信息和当前地理信息并分别与场景性性关键信息中的时间性关键信息和地理性关键信息进行匹配，在匹配度超过阈值后，调用与该场景性关键信息相关的知识点及该知识点的描述信息并反馈至用户。具体而言，是用户在确定使用时，提出一个使用请求，可以是查询某个成语也可以自行学习成语的请求；在接受到使用请求后，结合当前的时间和场景情况(即对用户所处情景进行感知)，反馈匹配度超过阈值的相关信息，以便于用户学习。

针对S3，具体而言，知识图谱是一个知识网络，可以认为这是一个图结构，所以第一步应该是先确定图中的各个节点，就通用领域来说(特定领域的不清楚)，其实节点就是各种实体，比如ACE2005定义的七大类实体(人物，地点...))，当然，对于特定的任务可以有特定的实体，比如电影名称等等。

一、对于确定图中的节点，具体的实现步骤如下:

1、定义实体类别，虽然本发明可以将七大类实体作为第一个层次的类别，但不够细化，比如运动员和音乐家如果同屋于一个类别下，就比较难以区分。所以这一步需要定义更加细化的实体类别，比如人物可以细分为：政治家，艺术家，动漫作者等等。为保障稳定性及可靠性,采用维基的模板抽取处理，规范化后，再进行人工抽样处理,可保证准确率99％以上。

2、定义各类别的属性，在上一步骤中细化各个类别，这一步中将为每个类别设置其固有的属性，比如音乐家有属性:“代表作”，而足球运动员有属性:“position”，这一步骤是对于维基百科信息盒的某一类模板，将其出现频率在15％以上的属性保留下来，对于出现频率少的属性删除。

3、确定了各类别的属性后，就需要实例化各个类别，这和面向对象的思想有点类似。比如对于足球运动员这一类别，具体实例可以为“李毅”，这个时候出遇到一个问题，就是实体属性缺失，虽然本发明选择的属性都是高频属性，但还是有部分可能没有，这个时候就需要从维基描述文本中进行抽取。

二、在确定了图中的节点后，需要做的就是确定各个节点之间的边，即各实体之间的关系。关系越多，整个图结构就越复杂，知识也就越丰富。关系的抽取可以来自很多地方，例如，基于维基百科的信息盒，每个条目的信息盒都会有一些属性，当然其中有些是固有属性，比如人物有：姓名，出生日期等等，还有一些是关系属性，即可以和其他的实体产生联系，比如人物有：父亲，朋友，等等。对于关系的抽取，主要有以下几个步骤:

1、定义关系的类型，这些关系可以自己定义，比如YAGO用的自定义关系有:birthOfPlace，这是出生地点，hasGDP等等，当然也可以直接使用ACE2005定义的六大类实体关系。

2、实体链接，在已知某个名称为一个实体的基础上，需要做的是实体链接，即将该实体链接到一个具体的实体描述上(即图中的节点上)，比如遇到一个实体“马云”，名为马云的人很多，但是如果其上下文中出现了阿里巴巴等等词汇，那这个“马云”具体是指谁就确定了，这个过程就是实体链接，根据实体出现的上下文将实体连接到具体的节点上。

3、实体关系抽取，对于一个条目，比如“杰米·奥利弗”，其属性中有一条如下所示:<fact name＝"birth_place">GB[[英国]][[艾塞克斯郡][[克莱维林]]</fact>如此，可以得到关系：杰米·奥利弗出生于克莱维林；克莱维林属于艾塞克斯郡；；艾塞克斯郡属于英国。这样可以有四条边来连接这4个节点，同时可以推理出杰米·奥利弗是英国人。

三、在确定了节点，以及节点之间的边之后，剩下要做的就是如何存储这些数据了，目前用的比较多的有Jena+MySQL，还有就是使用图数据库Neo4j.前者是使用主要使用的是语义描述语言OWL来对知识库进行描述，可以进行一些推理，不过要先定义好推理的函数，后者主要是将以图结构来描述整个知识库，推理即是对图中的节点进行遍历。

实施例二

本实施例和实施例一的区别仅在于，本实施例中，S2中所述对描述信息进行分词处理包括：过滤描述信息中的停用词及符号，得到过滤信息；对过滤信息进行分词处理，得到关键词，以关键词为单位进行关键词的重复频次统计，得到标签信息。

S5中所述采集环境对当前时间的对当前场景的场景描述信息包括：获取当前地理位置信息，获取当前网络时间信息，生成地理时间信息，将地理时间信息与预设的用户作息时间进行匹配，生成第一匹配信息；

获取环境声音信息，对环境声音信息进行降噪和滤波，分别得到场景语音信息和场景背景声信息，对场景语音信息进行语音识别获得场景文本信息；

其中，场景性关键信息包括场景性文本信息和场景性背景声信息；

将场景文本信息与场景性文本信息进行匹配，生成第二匹配信息；

将场景背景声信息与场景性背景声信息进行匹配，生成第三匹配信息；

若第一匹配信息、第二匹配信息以及第三匹配信息均超过预设阈值，调用与该场景性关键信息相关的知识点及该知识点的描述信息并反馈至用户。上述方式能够结合地理定位信息对用户使用状态进行更为准确的识别，以便于根据用户状态推送更为契合的信息。

若第一匹配信息低于预设阈值，第二匹配信息和第三匹配信息超过预设阈值，则发送超过预设的用户作息时间的知识点计划信息，然后根据第二匹配信息和第三匹配信息，调用与该场景性关键信息相关的知识点及该知识点的描述信息并反馈至用户。

若第一匹配信息、第二匹配信息超过预设阈值，第三匹配信息低于预设阈值，则根据第二匹配信息，调用与场景性关键信息相关的知识点及该知识点的描述信息并反馈至用户。

若第一匹配信息、第三匹配信息超过预设阈值，第二匹配信息低于预设阈值，则将场景文本信息暂存为第一待更新信息，然后重新执行S5；若再次存在第一匹配信息、第三匹配信息超过预设阈值，第二匹配信息低于预设阈值，则再次将场景文本信息暂存为第二待更新信息，若第一待更新信息与第二待更新信息重合度超过预设阈值，则将第一待更新信息更新至预设的场景识别库中。

若第一匹配信息、第二匹配信息和第三匹配信息均低于预设阈值，则生成是否需要更新预设的用户作息时间、场景性文本信息和场景性背景声信息的待确认信息；若接收到确认信息为否，则放弃；若接收到确认信息为是，则对预设的用户作息时间、场景性文本信息和场景性背景声信息进行更新。通过上述方式对较为准确的对用户的请求进行识别，以便于给用户推送更为准确的信息。

实施例三

与实施例一相比，不同之处仅在于，还包括S6、接收用户阅读该知识点的语音信息和时间长度信息，并生成准确度和流畅度信息，若准确度和流畅度信息均超过预设阈值则生成是否继续学习该知识点的待确认信息；若接收到用户反馈的不继续学习该知识点的请求，则返回S1，删除该知识点的表征信息和该知识点的描述信息。能够根据用户学习情况，生成一个用户是否需要继续学习的待确认信息，用户选择不需要后，能够删除该知识点相关的信息，能够知识图谱中的信息虽然在减少，但是更加契合用户的情况，避免重复学习，能够使得整个知识图谱更加方便用户使用。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以做出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于场景纬度的知识图谱构建方法，其特征在于，所述方法包括如下步骤：

获取知识库中每个知识点的表征信息和描述信息；

根据用户调查生成初始的场景识别库；

2.根据权利要求1所述的一种基于场景纬度的知识图谱构建方法，其特征在于，所述在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，具体包括：

判断所述第一匹配信息是否小于第一预设阈值；

3.根据权利要求2所述的一种基于场景纬度的知识图谱构建方法，其特征在于，所述根据知识点的场景性关键信息，获取知识图谱中与所述当前场景信息匹配的节点，作为匹配节点，将匹配节点的描述信息及与所述匹配节点相关联的节点的描述信息反馈给用户，具体包括：

4.根据权利要求1所述的一种基于场景纬度的知识图谱构建方法，其特征在于，在用户使用过程中对所述场景识别库进行优化，利用优化后的场景识别库对所述知识图谱进行不断的优化，之后还包括：

5.一种基于场景纬度的知识图谱构建系统，其特征在于，所述系统：

6.根据权利要求5所述的一种基于场景纬度的知识图谱构建系统，其特征在于，所述知识图谱优化模块，具体包括：

7.根据权利要求6所述的一种基于场景纬度的知识图谱构建系统，其特征在于，所述信息反馈子模块，具体包括：

8.根据权利要求5所述的一种基于场景纬度的知识图谱构建系统，其特征在于，所述系统还包括：