CN115249012A

CN115249012A - 一种基于关键短语的知识图谱可视化方法及系统

Info

Publication number: CN115249012A
Application number: CN202210998984.1A
Authority: CN
Inventors: 胡泽婷; 郭曼; 路兴
Original assignee: Beijing E Hualu Information Technology Co Ltd
Current assignee: Beijing E Hualu Information Technology Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-10-28

Abstract

本发明提供一种基于关键短语的知识图谱可视化方法及系统，方法包括：对文本进行预处理得到分词结果，并基于分词结果获取高频词及提取实体，构建实体间的共现关系；运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语；将分词结果重组得到新短语，将新短语与候选关键短语排序得到最终关键短语；对文本抽取事件三元组，根据构建的事件三元组，建立最终关键短语、高频词和实体三者之间的关系；将实体间的共现关系，和最终关键短语、高频词和实体三者之间的关系进行图谱化展示。本发明可以快速直观地了解当前文本的关键词以及知识结构体系，能全面捕捉文章的关键信息。

Description

一种基于关键短语的知识图谱可视化方法及系统

技术领域

本发明涉及数据提取技术领域，具体涉及一种基于关键短语的知识图谱可视化方法及系统。

背景技术

面对档案馆中存储的档案庞大的知识网络，档案馆工作人员很难高效地从大量的档案中获取有价值的档案关键信息，因此需要提取关键词算法来对文本内的信息进行提取关键词。

现有技术使用tf-idf、textrank算法提取到的仅仅是若干零碎词汇，在关键词提取任务中，使用普通提取算法提取得到的零碎词汇无法真正的表达文章的原本含义，因此需要综合考虑词语的主题特征、统计特征的基础上，添加了碎片化关键词融合来进行关键短语提取；在一些专业性较强的文章，关键词往往只提及一次，如果依赖文本内的信息去提取关键词是很困难的，不能全面有效的获取档案文章中的信息。

发明内容

因此，本发明为了克服现有技术中的普通提取算法提取的词汇无法全面有效地获取档案文章中的信息的缺点，从而提供一种基于关键短语的知识图谱可视化方法及系统，保证提取的关键短语能够比较完整的表达文章的原本含义，可以快速直观地了解当前档案的关键词以及外部的知识结构体系。

第一方面，本发明实施例公开了一种基于关键短语的知识图谱可视化方法，包括：

对文本进行预处理得到分词结果，并基于分词结果获取高频词及提取实体，并构建实体间的共现关系；

运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语；

将分词结果进行重组得到新短语，将新短语与候选关键短语进行排序得到最终关键短语；

对文本抽取事件三元组，过滤出与实体相关的事件三元组，根据所述构建的事件三元组，建立最终关键短语、高频词和实体三者之间的关系；

将实体间的共现关系，以及最终关键短语、高频词和实体三者之间的关系进行图谱化展示。

可选地，所述对文本进行预处理得到分词结果的过程，包括：

移除文本中括号内的信息，去除噪声；

将文本进行短句切分处理，得到多个句子；

对句子进行分词处理得到分词结果。

可选地，所述提取实体，并构建实体间的共现关系的过程，包括：

在文本中查找提取的实体并标记其类型，进行命名实体识别；

从文本中抽取至少两个实体之间的语义关系，作为直接共现关系；

利用具有大量实体与关系构成的知识库对文本中实体进行关系标注，得到实体之间的推理共现关系；

所述直接共现关系和推理共现关系共同组成实体之间的共现关系。

可选地，运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语的过程，包括：

采用tf-idf算法从高频词中找出碎片化的关键词，将在文本中相邻的碎片化的关键词进行合并得到关键短语，根据权重对关键短语进行排序调整，去除意义相同的短语，得到候选关键短语；所述权重包括关键短语的词性权重、位置权重、长度权重以及主题突出度权重。

可选地，所述融合得到候选关键短语的条件，包括：短语的token长度不超过预设长度阈值；关键短语中不可出现超过预设数个的虚词；关键短语的两端token不可是虚词和停用词；关键短语中停用词数量不可超过预设个数；运用MMR算法计算短语重复度，进而去掉意义相同的关键短语，所述token为词汇，包括关键词，以及关键词相应的虚词、停用词。

可选地，所述将新短语与候选关键短语进行排序得到最终关键短语，使用LDA主题模型进行计算权重并排序，包括：

预训练LDA模型，其包括对文本进行分类，并进行主题预测；

使用预训练好的LDA模型，计算文本的主题概率分布以及每一个关键短语与新短语的在不同主题下的概率分布，将得到的概率分布作为最终权重；将所述关键短语与新短语在不同主题下的最终权重，由大到小进行排序，得到不同主题分别对应的最终关键短语。

第二方面，本发明实施例还公开了一种基于关键短语的知识图谱可视化系统，包括：

文本预处理模块，对文本进行预处理得到分词结果，并基于分词结果获取高频词及提取实体，并构建实体间的共现关系；

关键词融合模块，运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语；

短语重组模块，用于将分词结果进行重组得到新短语，将新短语与候选关键短语进行排序得到最终关键短语；

关系建立模块，用于对文本抽取事件三元组，过滤出与实体相关的事件三元组，并根据所述构建的事件三元组，建立最终关键短语、高频词和实体之间的关系；

图谱化展示模块，用于将实体间的共现关系以及最终关键短语、高频词和实体之间的关系进行图谱化展示。

第三方面，本发明实施例还提供一种计算机设备包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行基于关键短语的知识图谱可视化方法。

第四方面，本发明实施例还提供一种计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行基于关键短语的知识图谱可视化方法。

本发明技术方案，具有如下优点：

本发明提供的基于关键短语的知识图谱可视化方法及系统，本发明通过对文本预处理获取高频词，并提取实体，构建实体间的关系，利用关键词提取算法得到候选关键短语，并与分词结果重组后得到的新短语进行排序得到最终关键短语，抽取事件三元组，建立高频词、最终关键短语和实体三者之间的关系，进行图谱化展示。通过将关键词提取模型与知识图谱相结合，提高了关键词在各类主题的精确度，更能全面地捕捉文本的关键信息，通过将关键短语、高频词与实体三者间的关系进行结构化，并最终组织成图谱组织形式，避免出现过滤掉专业性较强的档案中只出现一次的关键词的情况，可以快速直观地了解当前文本的关键词以及知识结构体系，能全面的捕捉文章的关键信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于关键短语的知识图谱可视化方法的一个具体示例的流程图。

图2是本发明实施例中基于关键短语的知识图谱可视化方法形成知识图谱的示例图。

图3是本发明实施例提出的基于关键短语的知识图谱可视化系统的一个示例的模块组成图。

图4是本发明实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例中提供一种基于关键短语的知识图谱可视化的方法，用于计算机设备中。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。如图1所示，基于关键短语的知识图谱可视化方法，包括如下步骤S1至S5：

步骤S1，对文本进行预处理得到分词结果，并基于分词结果获取高频词及提取实体，并构建实体间的共现关系。

示例性地，在本发明实施例中，对文本进行预处理，包括：移除文本中括号内的信息，去除噪声；将文本进行短句切分处理，得到多个句子；对句子进行分词处理得到分词结果。本发明实施例对文本进行预处理的具体过程不做限定，只要能得到分词结果即可。

在本发明实施例中，基于分词结果获取高频词的过程，包括：对分词结果进行去停用词；对去除停用词的结果进行词频统计，得到高频词。本发明实施例对基于分词结果获取高频词的具体过程不做限定，只要能获取到高频词即可。

在本发明实施例中，基于分词结果提取实体，并构建实体间的共现关系的过程，包括：在文本中查找提取的实体并标记其类型，进行命名实体识别；从文本中抽取至少两个实体之间的语义关系，作为直接共现关系；利用具有大量实体与关系构成的知识库对文本中实体进行关系标注，得到实体之间的推理共现关系；直接共现关系和推理共现关系共同组成实体之间的共现关系。

具体实施例中，在文本中抽取到“射雕英雄传是金庸的作品”，“神雕侠侣是金庸的作品”，仅作为举例，不以此为限，此为直接共现关系；根据具有大量实体与关系构成的知识库得到实体之间的共现关系，在文本中一个句子中找到这两个实体，将根据知识库得到的共现关系进行标注。比如“射雕英雄传是武侠小说”、“神雕侠侣是武侠小说”，可以推出“金庸是武侠作家”，仅作为举例，不以此为限，此为推理共现关系。

具体实施例中，档案中实体抽取是运用规则与词典、统计机器学习和面向开放域三种方式，从数学档案资源中识别并提取实体；档案界传统的档案主题词表、档案分类表、档案主题分类表以及军用档案主题词表等等，均可用来构建档案语义处理的初级本体，作为实体。

在本发明实施例中，从文本中抽取至少两个实体之间的语义关系，包括：实体之间关系抽取和实体属性抽取；其中：实体之间关系抽取是采取监督学习或远程监督学习的方式抽取实体之间的关系；实体属性抽取是对实体的特征和性质进行抽取，也可以看作是实体与属性值间的一种名词性关系。

具体实施例中，对实体的特征和性质进行抽取，特征用来描述实体的外在表面性，比如抽取的“神雕侠侣”这个实体的特征是“神雕侠侣”是个电视剧；性质用来表示事物的内在内置性，比如“神雕侠侣”这个实体的性质可以是神雕侠侣剧中人物鲜明等等，此实体的特征和性质仅作为举例，不以此为限。

具体实施例中，采用远程监督学习算法对实体之间关系抽取包括：从现有的实体与关系构成的知识库中找到实体之间的关系，在一个句子是否存在这两个实体，若存在，则这个句子表示的就是知识库中找到的实体之间的关系。比如在知识库中实体是“神雕侠侣”和“杨过”，关系为杨过是神雕侠侣中的角色，利用远程监督学习的方式抽取实体，在文本中进行命名实体识别，若一个句子中含有这两个实体，则这个句子描述的就是杨过是神雕侠侣中的角色的关系，仅作为举例，不以此为限。

具体实施例中，采取远程监督学习算法对实体之间关系抽取，可以采用基于注意力机制的远程监督关系抽取，该算法在网络输入层添加了注意力机制，自动学习句子中与关系抽取相关的内容，可以更好的捕捉到细微的特征；基于位置特征和词向量特征对句子进行编码，并使用分段卷积神经网络抽取句子特征进行分类。此算法仅作为举例，不以此为限。

具体实施例中，采取监督学习算法对实体之间关系抽取包括：设定好实体之间能出现的关系有哪些，找到一个句子中全部实体，先判定实体之间有无关系，若有，再从设定好的关系中找出实体之间具体是什么关系，比如先设定好射雕英雄传与神雕侠侣的关系有是同一作家、属于射雕三部曲、神雕侠侣属于射雕英雄传的续集，在一个句子中找到“射雕英雄传”和“神雕侠侣”这两个实体，判断这两个实体之间是否存在关系，若存在找出具体是什么关系，比如在这一句中两个实体之间的关系表示的是神雕侠侣属于射雕英雄传的续集，此关系仅作为举例，不以此为限。

具体实施例中，采取监督学习算法对实体之间关系抽取，可以用K-近邻算法，首先计算测试数据与各个训练数据之间的距离；按照距离的递增关系进行排序；选取距离最小的K个点，确定前K个点所在类别的出现频率；返回前K个点中出现频率最高的类别作为测试数据分类。此算法仅作为举例，不以此为限。

步骤S2，运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语。

示例性地，在本发明实施例中，采用td-idf算法从高频词中找出碎片化的关键词，将在文本中相邻的碎片化的关键词进行合并得到关键短语，根据权重对关键短语进行排序调整，去除意义相同的短语，得到候选关键短语；所述权重包括关键短语的词性权重、长度权重以及主题突出度等等。本发明实施例中采用td-idf算法仅作为举例说明，但不以此为限，只要能从高频词中找出关键词即可。

在本发明实施例中融合得到候选关键短语的条件，包括：短语的token长度不超过预设长度阈值(例如预设长度阈值为12，仅作为举例，不以此为限)；关键短语中不可出现超过预设数个的虚词(例如预设长度阈值为1，仅作为举例，不以此为限)；关键短语两端的token不可是虚词和停用词；关键短语中停用词数量不可超过预设个数(例如预设长度阈值为1，仅作为举例，不以此为限)；运用MMR(Maximal Marginal Relevance，最大边界相关法)去计算短语重复度，进而去掉意义相同的关键短语；所述token为词汇，包括关键词，以及关键词相应的虚词、停用词；MMR算法是抽取式文本摘要里经典的覆盖文本内容广度的算法，可以应用在关键短语抽取中，在具体实施例中，可避免比如“杨过”与“神雕侠侣杨过”这样的短语同时被抽取为关键短语。

步骤S3，将分词结果进行重组得到新短语将新短语与候选关键短语进行排序得到最终关键短语。

示例性地，在本发明实施例中采用在用户词典中加入常用词汇的方法来提高知识词条抽取的性能，通过词性、语法结构分析将分词结果进行重组，减少了因分词造成的语义损失，提取一些新的词汇与知识要素。具体实施例中，例如“神雕侠侣\n、杨过\n、”，将分词结果归并为“神雕侠侣杨过”。

在本发明实施例中，使用LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)主题模型对新短语与候选关键短语进行计算权重并排序得到最终的关键短语，包括：预训练LDA模型，其包括对文本进行分类，并进行主题预测，预训练LDA模型工具包可选择gensim、sklearn、familia等，本发明实施例对工具包的选择对工具包的选择仅作为举例，不以此为限；使用预训练好的LDA模型，计算文本的主题概率分布以及每一个关键短语与新短语的在不同主题下的概率分布，将得到的概率分布作为最终权重；将所述关键短语与新短语在不同主题下的最终权重，由大到小进行排序，去除掉最终权重低于0.1的关键短语或新短语(最终权重值低于0.1仅作为举例，不以此为限)，最后得到不同主题分别对应的最终关键短语。

具体实施例中，文本有两个主题{人物，作品角色}；人物主题下关键短语与新短语的概率分布为{金庸0.4，李亚鹏0.4，刘德华0.4，古天乐0.4、武侠作家0.3，射雕英雄传0.05，神雕侠侣0.05，郭靖0.2，杨过0.2，演员0.3}；作品角色主题下的关键短语与新短语的概率分布为{金庸0.05，李亚鹏0.05，刘德华0.05，古天乐0.05、武侠作家0.05，射雕英雄传0.3，神雕侠侣0.3，郭靖0.2，杨过0.2，演员0.05}，去除掉最终权重低于0.1的关键短语或新短语(最终权重值低于0.1仅作为举例，不以此为限)，最后得到不同主题分别对应的最终关键短语。人物主题下最终关键短语为{金庸，李亚鹏，刘德华，古天乐，武侠作家，演员，郭靖，杨过}；作品角色主题下的最终关键短语为{神雕侠侣，射雕英雄传，杨过，郭靖}。

步骤S4，对文本抽取事件三元组，过滤出与实体相关的事件三元组，根据所述构建的事件三元组，建立最终关键短语、高频词和实体三者之间的关系。

在本发明实施例中，事件三元组表示为实体与实体之间的关系，是知识图谱的最小单元，是两个节点及节点之间的关系。抽取对文本抽取事件三元组，包括：抽取实体、高频词和关键短语以及抽取三者之间的关系。

在本发明实施例中，抽取实体、高频词和关键短语的过程，包括：对文本进行预处理得到分词结果，并基于分词结果获取高频词及提取实体；运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语；将分词结果进行重组得到新短语将新短语与候选关键短语进行排序得到最终关键短语，实体可以是关键短语也可以是高频词。

在本发明实施例中，采用监督学习或远程监督学习的算法从文本中抽取至少两个实体之间的事件关系。

步骤S5，将实体间的共现关系，以及最终关键短语、高频词和实体之间的关系进行图谱化展示，如图2所示。

本发明实施的基于关键短语的知识图谱可视方法，通过抽取实体，构建共现关系；提取关键短语与高频词；抽取事件三元组，建立关键短语、高频词与实体三者之间的关系；将实体间的共现关系，以及关键短语、高频词和实体三者之间的关系进行知识图谱化，通过知识图谱可视化可以快速直观地了解文本的语义信息，提高关键短语提取在档案馆各类主题的精确度。

如图3所示，本发明实施例提供的基于关键短语的知识图谱可视化系统，包括：文本预处理模块、短语重组模块、关系建立模块和图谱化展示模块，其中：

上述基于关键短语的知识图谱可视化系统的具体限定以及有效效果可以参见上文中对于基于关键短语的知识图谱可视化方法的限定，在此不再赘述，上述各个数据库可全部或部分通过软件、硬件及其组合来实现，上述各数据库可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图4是根据本发明实施例提出的一种计算机设备的硬件结构示意图。如图4所示，该设备包括一个或多个处理器310以及存储器320，存储器320包括持久内存、易失内存和硬盘，图4中以一个处理器310为例。该设备还可以包括：输入装置330和输出装置340。

处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器310可以为中央处理器(Central Processing Unit，CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器320作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的知识图谱可视化方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种关键短语提取方法。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器320可选包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

一个或者多个模块存储在存储器320中，当被一个或者多个处理器310执行时，执行如图1所示的基于关键短语的知识图谱可视化方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图1所示的实施例中的相关描述。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的知识图谱可视化方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于关键短语的知识图谱可视化方法，其特征在于，包括：

2.根据权利要求1所述的基于关键短语的知识图谱可视化方法，其特征在于，所述对文本进行预处理得到分词结果的过程，包括：

移除文本中括号内的信息，去除噪声；

将文本进行短句切分处理，得到多个句子；

对句子进行分词处理得到分词结果。

3.根据权利要求1所述的基于关键短语的知识图谱可视化方法，其特征在于，所述提取实体，并构建实体间的共现关系的过程，包括：

4.根据权利要求3所述的基于关键短语的知识图谱可视化方法，其特征在于，所述从文本中抽取至少两个实体之间的语义关系，包括实体之间关系抽取和实体属性抽取，其中：实体之间关系抽取是采取监督学习或远程监督学习的方式抽取实体之间的关系；实体属性抽取是对实体的特征和性质进行抽取。

5.根据权利要求1所述的基于关键短语的知识图谱可视化方法，其特征在于，运用关键词提取算法从高频词中找出关键词，将相邻关键词进行融合，得到候选关键短语的过程，包括：

6.根据权利要求5所述的基于关键短语的知识图谱可视化方法，其特征在于，所述融合得到候选关键短语的条件，包括：短语的token长度不超过预设长度阈值；关键短语中不可出现超过预设数个的虚词；关键短语的两端token不可是虚词和停用词；关键短语中停用词数量不可超过预设个数；运用MMR算法计算短语重复度，进而去掉意义相同的关键短语，所述token为词汇，包括关键词，以及关键词相应的虚词、停用词。

7.根据权利要求1所述的基于关键短语的知识图谱可视化方法，其特征在于，所述将新短语与候选关键短语进行排序得到最终关键短语，使用LDA主题模型进行计算权重并排序，包括：

预训练LDA模型，其包括对文本进行分类，并进行主题预测；

8.一种基于关键短语的知识图谱可视化系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7任一项所述的基于关键短语的知识图谱可视化方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的基于关键短语的知识图谱可视化方法。