CN111177404A

CN111177404A - 家装知识的知识图谱构建方法、装置、计算机设备

Info

Publication number: CN111177404A
Application number: CN201911293588.3A
Authority: CN
Inventors: 陈旋; 王冲; 张平; 陈浩
Original assignee: Jiangsu Aijia Household Products Co Ltd
Current assignee: Jiangsu Aijia Household Products Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-19

Abstract

本发明公开了一种家装知识的知识图谱构建方法、装置、计算机设备和存储介质，可以计算各个分词结果的词向量，根据各个词向量确定家装知识词典，采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则，根据前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件，将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱，以用于家装领域相关内容查询，可以提高家装领域相关内容的查询效率。

Description

家装知识的知识图谱构建方法、装置、计算机设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种家装知识的知识图谱构建方法、装置、计算机设备和存储介质。

背景技术

近年来，随着数据量的产生越来越大，对数据分析，数据挖掘的需求日益增多，机器学习、深度学习等人工智能领域的技术得到大力的发展，对应的人工智能领域产品走进了大众的视野，知识图谱就是众多产品中的一种。目前，通用的知识图谱包括谷歌的Konwledge Graph，微软的Satori，百度的知心，以及搜狗的知立方等。相对于这些通用领域的知识图谱，专业领域的知识图谱相对较少。而知识图谱(Knowledge Graph)是利用可视化或结构化方式来描述实体和实体关系的一种知识库。通常使用【实体-关系-实体】三元组的方式表示每一个实体间的关系；当知识图谱中的实体越来越多，实体与实体之前通过关系相互联结，这样就构成了网状的知识结构。所以知识图谱本质上是语义网络，是一种节点(Point)和边(Edge)组成的数据结构，这种数据结构叫做图。通过构建好的知识图谱可以按主题而不是字符串的当时检索查询，从而实现真正的语义检索。这样可以为搜索引擎用户提供高质量的知识检索服务。

现有的搜索引擎中，对于家装领域的知识搜索偏通用，不能很好的匹配到用户的相要的内容，对于搜索结果还需要主动过滤一些无效信息，浪费用户的精力。且目前互联网上的家装领域内容相对分散，如果想查阅相关知识，可能需要使用多个搜索引擎，访问多个网站。可见传统的家装领域内容查询方案存在效率低的问题。

发明内容

针对以上问题，本发明提出一种家装知识的知识图谱构建方法、计算机设备和存储介质。

为实现本发明的目的，提供一种家装知识的知识图谱构建方法，包括如下步骤：

S10，采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果；

S20，计算各个分词结果的词向量，根据各个词向量确定家装知识词典；

S30，采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则；

S40，根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件；

S50，将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱。

在一个实施例中，所述采用预设的家装知识词条对预处理后的文本文件进行分词之前，还包括：

爬取网络平台公开的家装类名词词条；

爬取各家装网站发布的家装内容以及各个网络文库网站公开的家装文档文件，得到家装元数据。

作为一个实施例，所述爬取各家装网站发布的家装内容以及各个网络文库网站公开的家装文档文件，得到家装元数据之后，还包括：

去除家装元数据中的非文本内容，将字体格式统一处理成UTF-8格式，并将文本内容转化为TXT文件格式，得到预处理后的文本文件。

作为一个实施例，所述非文本内容包括表格、特定符号、和/或图片。

在一个实施例中，所述计算各个分词结果的词向量，根据各个词向量确定家装知识词典包括：

对各个分词结果进行one hot编码，得到编码结果；

使用Word2Vec将编码结果转化为稠密向量，确定稠密向量中的词向量，将词向量映射到向量空间中的相应位置；

根据词向量在向量空间映射的相应位置确定各个词向量关联的名词，将各个词向量以及各个词向量关联的名词汇总，得到家装知识词典。

一种家装知识的知识图谱构建装置，包括：

分词模块，用于采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果；

第一计算模块，用于计算各个分词结果的词向量，根据各个词向量确定家装知识词典；

第二计算模块，用于采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则；

确定模块，用于根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件；

导入模块，用于将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱。

在一个实施例中，家装知识的知识图谱构建装置，还包括：

爬取模块，用于爬取网络平台公开的家装类名词词条；爬取各家装网站发布的家装内容以及各个网络文库网站公开的家装文档文件，得到家装元数据。

在一个实施例中，所述第一计算模块进一步用于：

对各个分词结果进行one hot编码，得到编码结果；

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的家装知识的知识图谱构建方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的家装知识的知识图谱构建方法的步骤。

上述家装知识的知识图谱构建方法、装置、计算机设备和存储介质，可以采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果，计算各个分词结果的词向量，根据各个词向量确定家装知识词典，采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则，根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件，将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱，以用于家装领域相关内容查询，可以提高家装领域相关内容的查询效率。其针对现有信息检索领域的补充，利用网络爬虫爬取网络上公开的有效内容，使用自然语言处理技术对文本内容的分析挖掘，得到家装知识领域实体与实体，实体与属性之前的关系，最后通过图数据库存储知识内容，为知识搜索提供服务。

附图说明

图1是一个实施例的家装知识的知识图谱构建方法流程图；

图2是一个实施例的相似结果示意图；

图3是一个实施例的家装数据示意图；

图4是一个实施例的实体关系示意图；

图5是一个实施例的图数据结构示意图；

图6是一个实施例的部分词向量展示图；

图7是一个实施例的家装知识的知识图谱构建装置结构示意图；

图8为一个实施例的计算机设备示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在一个实施例中，如图1所示，提供了一种家装知识的知识图谱构建方法，包括以下步骤：

S10，采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果。

上述步骤之前可以通过开源网络爬虫软件(scrapy)爬取百度百科，维基百科等公开的家装类名词词条，以预设家装知识词条。对相关家装知识家装文档文件进行去噪处理，实现家装文档文件的预处理，得到所需文本文件。

具体地，上述步骤可以使用开源自然语言处理技术(jieba)对处理后的文本文件进行分词，在分词过程中使用家装知识词条作为自定义词典进行分词，最终得到分词后的分词结果。

S20，计算各个分词结果的词向量，根据各个词向量确定家装知识词典。

上述步骤可以通过使用词向量计算技术(word2vec)对各个分词结果进行词向量计算，以准确获取家装知识词典。

S30，采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则。

具体地，上述步骤使用预处理之后的纯文本内容(文本文件)，以及自定义词典(家装知识词典)，通过使用依存语法分析(如hanlp中提供的依存语法分析功能)，遍历网络收集的家装知识文件，按照分词->词向量计算->遍历自定义词典中的每一个词使用word2vec与文件分词后的每一个词做相似度计算，得到如图2的相似内容，图2中，名词表示分词后得到的所有名词，数值表示与自定义词典中名词的相似结果，数值越大表示相关性越大。

进一步地，通过预先完善的家装实体，统计分析后内容(如“墙面->待->处理”这种关系)的前文以及后文(前文和后文指的是顺序关系，在实体前的就是前文，在实体后的就是后文，比如墙面待防潮，“墙面”就是“待”这个词的前文，“防潮”就是“待”这个词的后文)，得到“前文+实体+后文”规则方式，如：墙面->待->处理中“待”为实体，“墙面”以及“处理”为前文和后文；编写程序将按照“前文+实体+后文”的方式转换成字符串如“墙面->待->处理”的格式，再编写程序按比较字符串相同的方式统计得到规则匹配最多的前文以及后文的组合情况，得到最优的规则(前后文组合规则)。

S40，根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件。

在一个示例中，以图3，图4为例对上述步骤进行说明。

通过最优规则组合(前后文组合规则)，编写程序将图3中每两行的数据按照“行1名词->行1关系->行2名词”的格式遍历得到如图4的表示方式的数据，该表现形式为【实体-关系-实体】。遍历图4中的数据得到不同主题的实体关系类型，如主谓关系、并列关系、定中关系、动宾关系等。将不同主题的实体关系导出成csv格式文件。可选地，csv格式文件可以类似表1所示格式。

表1

上述步骤用开源图数据库(neo4j)存储csv格式文件，按照实体相同的内容建立关系，例：墙面->潮湿->待->防潮->处理。图数据库也可称为面向/基于图的数据库，就是以”图”这种数据结构存储的查询数据功能的数据库。图数据结构可以参考图5所示，是由顶点(vertex)和边(edge)组合而成的。

具体地，上述步骤可以家装知识实体信息，按照不同种类分批使用不同颜色导入到图数据库中，将实体关系文件((如csv格式文件))按实体名称导入到图数据库中，由图数据库自动为各个实体间建立联系，完成最后的关系连接。

上述家装知识的知识图谱构建方法，可以采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果，计算各个分词结果的词向量，根据各个词向量确定家装知识词典，采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则，根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件，将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱，以用于家装领域相关内容查询，可以提高家装领域相关内容的查询效率。其针对现有信息检索领域的补充，利用网络爬虫爬取网络上公开的有效内容，使用自然语言处理技术对文本内容的分析挖掘，得到家装知识领域实体与实体，实体与属性之前的关系，最后通过图数据库存储知识内容，为知识搜索提供服务。

爬取网络平台公开的家装类名词词条；

本实施例可以实现基础数据准备，具体可以通过开源网络爬虫软件(scrapy)爬取百度百科，维基百科等公开的家装类名词词条，完成分词中自定义词典的数据准备。再爬取各家装网站发布的家装相关内容以及各大文库网站公开的文档文件，作为后面过程中的文本分析的家装元数据。

具体地，可以通过编写程序的方式对爬取的不同的doc、ppt、pdf文件格式的文件进行预处理，去除表格、特定符号(如【】、《》、～等)、图片等非文本内容，将所有字体格式统一处理成UTF-8格式，并将所有文本内容转化为TXT文件格式存储，方便后续处理过程中读取。

对各个分词结果进行one hot编码，得到编码结果；

在一个示例中，本实施例的实现过程可以包括：

(1)对分词后的结果(分词结果)进行one hot编码，例如玻璃、外墙、室内三个词进行编码，得到结果如表2所示，此时可用二维数组表示其中编码结果：[[1,0,0],[0,1,0],[0,0,1]]。

表2

	玻璃	外墙	室内
				玻璃	1	0	0
外墙	0	1	0
				室内	0	0	1

(2)使用Word2Vec将one-hot encoder(编码结果)转化为低纬度的连续值，也就是稠密向量，并且其中意思相近的词将映射到向量空间中相近的位置。具体地，向量空间是线性代数中的基本概念，设V为n维向量集合，如果集合V非空，且集合V对于加法及数乘两种运算封闭，那么就称集合V为向量空间；这里的[[1,0,0],[0,1,0],[0,0,1]]可当做向量空间；意思相近可以理解为将大量的one-hot编码后的结果放到坐标系中，会出现意思相近的词的映射点会在某一个范围内，好处是在程序里面就可以将某个范围范围内的所有词当做意思相近的，如都是名词、动词等。

(3)将上述步骤(2)中产生的高维数组通过降维方法(tsne)，降维到二维数组，对二维数组进行可视化处理可以得到如图6所示的部分词向量示意图。

(4)循环遍历自定义词典中的词，得到词向量与之相近的名词汇总。通过编写程序循环、去重以及人工介入的方法完善家装领域实体的内容，以确定家装知识词典。

上述家装知识的知识图谱构建方法，具有以下技术效果：涉及一种基于机器学习的家装知识图谱的构建方法及构建系统，利用网络爬虫爬取原始数据，使用自然语言处理设计方案中的实体与属性关系，利用机器学习学习到家装知识中的实体与属性，最后通过图数据库有效的建立实体与属性关联；帮助了用户在检索家装知识时可以更好的帮助用户搜索内容，为后续构建家装领域专业的搜索服务打下基础。

在一个实施例中，参考图7所示，提供一种家装知识的知识图谱构建装置，包括：

分词模块10，用于采用预设的家装知识词条对预处理后的文本文件进行分词，得到多个分词结果；

第一计算模块20，用于计算各个分词结果的词向量，根据各个词向量确定家装知识词典；

第二计算模块30，用于采用预处理后的文本文件和家装知识词典对各个分词结果做相似度计算，得到各个分词结果的相似结果，根据相似结果确定家装知识词条中各个家装实体的前后文组合规则；

确定模块40，用于根据各个家装实体的前后文组合规则确定家装知识词条对应的各个主题的实体关系类型，将各个主题的实体关系类型导出成csv格式文件；

导入模块50，用于将家装实体导入到图数据库中，将csv格式文件按实体名称导入到图数据库中，使图数据库为各个家装实体间建立联系，完成最后的关系连接，得到家装知识图谱。

在一个实施例中，上述家装知识的知识图谱构建装置，还包括：

在一个实施例中，所述第一计算模块进一步用于：

对各个分词结果进行one hot编码，得到编码结果；

在一个实施例中，上述家装知识的知识图谱构建装置还可以设置依据具体需求数据获取模块、数据清洗模块，实体识别模块、实体关系识别模块，数据存储模块等功能模块；

其中，数据获取模块，用于确定家装领域知识数据途径，完成家装领域名词的构建，以及获取为后续分析知识图谱中的实体与关系的文本数据最准备。

数据预处理模块，通过编写程序的方式用于对原始数据的清洗，主要目的是将原始数据中没有用的数据清除，降低文本分析噪音，提高分析质量。

实体识别、实体关系识别模块，主要通过机器学习的方式对文本内容进行分词，依存语法分析，识别文本内容中的实体与属性关系，并建立家装知识的实体模型，为知识图谱构架做准备。

数据存储模块，通过使用现成的图数据库存储工具存储分析好的实体关系，为知识搜索提供实体关系查询，相近实体查询等功能服务。

关于家装知识的知识图谱构建装置的具体限定可以参见上文中对于家装知识的知识图谱构建方法的限定，在此不再赘述。上述家装知识的知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种家装知识的知识图谱构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种家装知识的知识图谱构建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述家装知识的知识图谱构建方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种家装知识的知识图谱构建方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种家装知识的知识图谱构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的家装知识的知识图谱构建方法，其特征在于，在一个实施方式中，所述采用预设的家装知识词条对预处理后的文本文件进行分词之前，还包括：

爬取网络平台公开的家装类名词词条；

3.根据权利要求2所述的家装知识的知识图谱构建方法，其特征在于，在一个实施方式中，所述爬取各家装网站发布的家装内容以及各个网络文库网站公开的家装文档文件，得到家装元数据之后，还包括：

4.根据权利要求3所述的家装知识的知识图谱构建方法，其特征在于，在一个实施方式中，所述非文本内容包括表格、特定符号、和/或图片。

5.根据权利要求1指4任一项所述的家装知识的知识图谱构建方法，其特征在于，在一个实施方式中，所述计算各个分词结果的词向量，根据各个词向量确定家装知识词典包括：

对各个分词结果进行one hot编码，得到编码结果；

6.一种家装知识的知识图谱构建装置，其特征在于，包括：

7.根据权利要求6所述的家装知识的知识图谱构建装置，其特征在于，在一个实施方式中，还包括：

8.根据权利要求6或7所述的家装知识的知识图谱构建装置，其特征在于，在一个实施方式中，所述第一计算模块进一步用于：

对各个分词结果进行one hot编码，得到编码结果；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至5所述的家装知识的知识图谱构建方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5所述的家装知识的知识图谱构建方法的步骤。