CN113378564A

CN113378564A - 垂直领域细分场景结合知识图谱的分词方法

Info

Publication number: CN113378564A
Application number: CN202110478457.3A
Authority: CN
Inventors: 李抒雁; 沙涛
Original assignee: Shanghai Shixiang Culture Communication Co ltd
Current assignee: Shanghai Shixiang Culture Communication Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-09-10

Abstract

本发明公开了垂直领域细分场景结合知识图谱的分词方法，包括如下步骤：S1、人工构建专用领域的知识图谱；S2、知识图谱同步生成单词树；S3、利用单词树对输入文本快速分词，所述S1中对于领域的词语进行选取，通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，将数据进行服务器保存，本发明结构科学合理，使用安全方便，首先通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，对于树状图中数据进行连接定义，并通过大数据网络进行实时的更新与调整，将知识图谱中的数据与正在形成的单词树进行组织，并将领域专业词语进行树状图的形成，将后期单词树的雏形进行了建立，而对于后期中的分类，可以有多个关系网的建立。

Description

垂直领域细分场景结合知识图谱的分词方法

技术领域

本发明涉及基于知识图谱技术领域，具体为垂直领域细分场景结合知识图谱的分词方法。

背景技术

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，它能为学科研究提供切实的、有价值的参考，具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考，迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段；

但是目前的知识图谱的分词输入方法搜索复杂，单词树含量少，造成数据文本检索不流畅，结果少，并且对于同义词和近义词的结果不能规范性的指出，造成了结果不全面的现象。

发明内容

本发明提供垂直领域细分场景结合知识图谱的分词方法，可以有效解决上述背景技术中提出目前的知识图谱的分词输入方法搜索复杂，单词树含量少，造成数据文本检索不流畅，结果少，并且对于同义词和近义词的结果不能规范性的指出，造成了结果不全面的现象的问题。

为实现上述目的，本发明提供如下技术方案：垂直领域细分场景结合知识图谱的分词方法，包括如下步骤：

S1、人工构建专用领域的知识图谱；

S2、知识图谱同步生成单词树；

S3、利用单词树对输入文本快速分词。

根据上述技术方案，所述S1中对于领域的词语进行选取，通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，将数据进行服务器保存，同时根据大数据的网络服务定期对于词语进行更新；

所述领域中的词语进行定义，接着将数据进行分析，将其用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，形成知识图谱。

根据上述技术方案，所述知识图谱对于图谱参数根据大数据网络进行调整，同时对于领域中的词语进行规范，将领域进行正常的规范，同时对于领域中的特定词语进行选择性删除，对于知识图谱进行参数调整，同时对于图谱中的屏蔽词语进行标记。

根据上述技术方案，所述S2中将知识图谱的数据进行联系，将树状图进行构造，同时对于树状图中数据进行连接定义，并通过大数据网络进行实时的更新与调整；

对于树状图的数据进行备份保存，同时进行更新的时候，将领域中的重点词语、搜索频繁的词语进行标记，将其进行正常的分选与分类；

将分类的领域进行相互的连接与定义，也可自定义进行分类，同时对于数据进行备份记录。

根据上述技术方案，所述S3中对于文本进行快速定义与选取，同时对于文本的近义词、同义词进行排比输出，对于数据进行选择后，将数据进行正常的选择与表示，同时对于文本的特征进行比对。

根据上述技术方案，所述S3中文本进行读取后，计数加一，确定文本的活跃量，将每次的检索结果和文本的读取次数进行统计，便于统一文本的读取吞入速度。

根据上述技术方案，所述S3中把输入文本提交到单词树的时候，单词树会对这些关键词进行分析,也就是分词，单词树对这个关键词进行分析，这个分析涉及的关键词粒度的大小，其中粒度是指数据的精准程度，根据分词里面的词义分词法，词义分词法的意思是进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词。

根据上述技术方案，所述S3中对分词简单解释，关键词分析分词完成后，开始进行文本匹配，文本匹配是搜索引擎用已经分好的词，在单词树的后台去匹配，根据文本匹配，并且去除干扰项。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，首先通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，对于树状图中数据进行连接定义，并通过大数据网络进行实时的更新与调整，将知识图谱中的数据与正在形成的单词树进行组织，并将领域专业词语进行树状图的形成，将后期单词树的雏形进行了建立，而对于后期中的分类，可以有多个关系网的建立，所以，将分类的领域进行相互的连接与定义，也可自定义进行分类，同时对于数据进行备份记录，便于了后期的更新与维护，而对于文本进行快速定义与选取，同时对于文本的近义词、同义词进行排比输出，对于数据进行选择后，将数据进行正常的选择与表示，同时对于文本的特征进行比对，可以进一步提高准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的方法步骤结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案，垂直领域细分场景结合知识图谱的分词方法，包括如下步骤：

S1、人工构建专用领域的知识图谱；

S2、知识图谱同步生成单词树；

S3、利用单词树对输入文本快速分词。

根据上述技术方案，S1中对于领域的词语进行选取，通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，将数据进行服务器保存，同时根据大数据的网络服务定期对于词语进行更新；

领域中的词语进行定义，接着将数据进行分析，将其用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，形成知识图谱。

根据上述技术方案，知识图谱对于图谱参数根据大数据网络进行调整，同时对于领域中的词语进行规范，将领域进行正常的规范，同时对于领域中的特定词语进行选择性删除，对于知识图谱进行参数调整，同时对于图谱中的屏蔽词语进行标记。

根据上述技术方案，S2中将知识图谱的数据进行联系，将树状图进行构造，同时对于树状图中数据进行连接定义，并通过大数据网络进行实时的更新与调整；

根据上述技术方案，S3中对于文本进行快速定义与选取，同时对于文本的近义词、同义词进行排比输出，对于数据进行选择后，将数据进行正常的选择与表示，同时对于文本的特征进行比对。

根据上述技术方案，S3中文本进行读取后，计数加一，确定文本的活跃量，将每次的检索结果和文本的读取次数进行统计，便于统一文本的读取吞入速度。

根据上述技术方案，S3中把输入文本提交到单词树的时候，单词树会对这些关键词进行分析,也就是分词，单词树对这个关键词进行分析，这个分析涉及的关键词粒度的大小，其中粒度是指数据的精准程度，根据分词里面的词义分词法，词义分词法的意思是进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词。

根据上述技术方案，S3中对分词简单解释，关键词分析分词完成后，开始进行文本匹配，文本匹配是搜索引擎用已经分好的词，在单词树的后台去匹配，根据文本匹配，并且去除干扰项。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.垂直领域细分场景结合知识图谱的分词方法，其特征在于：包括如下步骤：

S1、人工构建专用领域的知识图谱；

S2、知识图谱同步生成单词树；

S3、利用单词树对输入文本快速分词。

2.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S1中对于领域的词语进行选取，通过大数据的服务器将领域进行分类，接着对于数据进行树状图分类，将数据进行服务器保存，同时根据大数据的网络服务定期对于词语进行更新；

3.根据权利要求2所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述知识图谱对于图谱参数根据大数据网络进行调整，同时对于领域中的词语进行规范，将领域进行正常的规范，同时对于领域中的特定词语进行选择性删除，对于知识图谱进行参数调整，同时对于图谱中的屏蔽词语进行标记。

4.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S2中将知识图谱的数据进行联系，将树状图进行构造，同时对于树状图中数据进行连接定义，并通过大数据网络进行实时的更新与调整；

5.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S3中对于文本进行快速定义与选取，同时对于文本的近义词、同义词进行排比输出，对于数据进行选择后，将数据进行正常的选择与表示，同时对于文本的特征进行比对。

6.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S3中文本进行读取后，计数加一，确定文本的活跃量，将每次的检索结果和文本的读取次数进行统计，便于统一文本的读取吞入速度。

7.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S3中把输入文本提交到单词树的时候，单词树会对这些关键词进行分析,也就是分词，单词树对这个关键词进行分析，这个分析涉及的关键词粒度的大小，其中粒度是指数据的精准程度，根据分词里面的词义分词法，词义分词法的意思是进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词。

8.根据权利要求7所述的垂直领域细分场景结合知识图谱的分词方法，其特征在于，所述S3中对分词简单解释，关键词分析分词完成后，开始进行文本匹配，文本匹配是搜索引擎用已经分好的词，在单词树的后台去匹配，根据文本匹配，并且去除干扰项。