CN112148886A - 一种内容知识图谱的构建方法及系统 - Google Patents

一种内容知识图谱的构建方法及系统 Download PDF

Info

Publication number
CN112148886A
CN112148886A CN202010918525.9A CN202010918525A CN112148886A CN 112148886 A CN112148886 A CN 112148886A CN 202010918525 A CN202010918525 A CN 202010918525A CN 112148886 A CN112148886 A CN 112148886A
Authority
CN
China
Prior art keywords
entity
words
layer
word
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010918525.9A
Other languages
English (en)
Inventor
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yanshu Computer Technology Co ltd
Original Assignee
Shanghai Yanshu Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yanshu Computer Technology Co ltd filed Critical Shanghai Yanshu Computer Technology Co ltd
Priority to CN202010918525.9A priority Critical patent/CN112148886A/zh
Publication of CN112148886A publication Critical patent/CN112148886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种内容知识图谱的构建方法及系统:先获取大规模原始数据;再对数据资源进行中文分词和规则处理,构建大规模文章训练模型和词向量训练模型;然后基于上述模型,构建出核心词的长尾词实体字典与相似度,作为核心词的知识图谱第二层实体与实体级关系库;接着基于上述模型,将分词后形成的全部实体与第二层实体之间进行关系计算与匹配,并形成知识图谱第三层实体与实体级关系库,同理形成第四层、第五层至第N层实体与实体级关系库;基于核心词与各层实体及实体关系,设定阈值,使用neo4j生成核心词领域的内容知识图谱组。本发明具有高效性,人工标注和计算成本低,便于快速复制与实现,更契合使用者在文本内容写作上的需求。

Description

一种内容知识图谱的构建方法及系统
技术领域
本发明涉及知识图谱技术领域,具体为一种内容知识图谱的构建方法及系统。
背景技术
随着科学技术快速发展,人们期望机器可以去理解海量的网络文本内容,更快、准确、智能的获取到自己需要的信息,为了满足这种需求,智能化的知识图谱应运而生。知识图谱技术是人工智能技术的重要组成部分,是一种更加结构化的知识库,将散乱的知识有效组织,以直观的结构图谱形式描述客观世界中的概念、实体及其之间的关系。
最常见的通用知识图谱基本组成单位是“实体1-关系R-实体2”三元组,以及实体及其相关属性值,实体间通过关系相互联结,构成网状的知识结构。构建方式主要为:提取实体,并根据实体间的从属关系等构建知识图谱三元组。现有知识图谱的构建方式需要人工限定属性,但在做文章内容的生产情景下,往往无法体现文章内容中真正有价值的属性关系。
基于此,本发明设计了一种内容知识图谱的构建方法及系统,以解决上述问题。
发明内容
本发明的目的在于提供一种内容知识图谱的构建方法及系统,以海量文章内容库为基础构建训练模型,采用文章内容中真实存在的实体词与所述关键词之间的关联度生成知识图谱,知识图谱对知识快速建立和内容快速检索反馈,达到了尽可能多地显示可能需要的内容信息的目的,从而实现了搜索需要的内容信息时,缩短时长,提高搜索效率的技术效果,进而解决了在相关技术中,对需要的内容信息进行搜索时,存在人工标注成本高、时间长,效率低的技术问题。
为实现上述目的,本发明提供如下技术方案:一种内容知识图谱的构建方法及系统,该方法包括:
第一步:以核心词作为检索词进行互联网检索,进行大规模文章数据采集和数据存储,并进行各文章文本内容的提取,还可以通过API接口进行文本数据的采集,也可通过本地文件上传方式,获取大规模原始数据;
第二步:对全部数据资源进行中文分词和规则处理,构建大规模文章训练模型和词向量训练模型;
第三步:基于文章和词向量训练模型,利用相似度算法和规则模型计算构建出核心词的长尾词实体字典与相似度,作为核心词的知识图谱第二层实体与实体级关系库;
第四步:利用分词算法和规则判断建立全部实体字典,基于文章和词向量训练模型,用相似度算法将字典中实体与第二层实体之间进行关系计算与匹配,并形成知识图谱第三层实体与实体级关系库;
第五步:重复第四步,可自动形成知识图谱的第四层、第五层至第N层实体与实体级关系库;
第六步:基于核心词与各层实体及实体关系,设定阈值,使用neo4j将核心词与各层实体及实体关系存入第二类数据模块,生成核心词领域的内容知识图谱组。
作为本发明的进一步方案,第二步中对采集的文章文本内容进行中文分词处理,分词方法可调用开源分词技术,亦可基于大数据和中文特征,采用N-gram分词机制进行;分词完成后对分词结果进一步筛选,去除停用词、虚词、量词、代词、数词、形容词,之后形成预处理的文章,以此构建大规模文章训练模型和词向量训练模型;“基于大数据和中文特征,采用N-gram分词机制”的技术原理:对源数据进行格式清洗后,采用N-gram分词机制进行N元词组的切分,对词/词组进行词频统计以及N+1元词组与N元词/词组的比较统计,对设定阈值之上的词/词组判定为有效词,形成分词词典。
作为本发明的进一步方案,第三步中首先基于分词方法获取核心词的长尾词,获取方法为对核心词所在的所有句子进行分词,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后形成初始长尾词,对初始长尾词进行进一步的近义词过滤,之后形成长尾词库;然后基于文章和词向量训练模型,对所有长尾词与关键词之间进行相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的长尾词,剩下的词作为知识图谱的第二层,构成知识图谱第二层实体与实体级关系库。
作为本发明的进一步方案,相似度计算可采用余弦相似度算法实现,套用余弦函数计算所有长尾词与关键词的相似度,相似度的取值—余弦值,即为长尾词与关键词的实体级关系,计算方法如下:
Figure DEST_PATH_IMAGE001
其中,Ai,Bi分别代表向量A和B的各分量,向量A、向量B为别为词语A、词语B的向量化表示,相似度取值越接近1,表明两个向量越相似,即两个词关联程度越大;相似度取值越接近0,表明两个向量越不相似,即两个词关联程度越小。
作为本发明的进一步方案,第四步中首先利用分词算法对全部数据资源进行分词后得到初始词库,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后,剩下的词形成初始实体库;然后将初始实体库与知识图谱第二层实体词进行匹配,去除相同的词后,进行实体关系匹配与相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的词,剩下的词作为知识图谱的第三层,相似度值作为与第二层各实体间的属性值,一起构成知识图谱第三层实体与实体级关系库。
作为本发明的进一步方案,第五步中将初始实体库与知识图谱第二层实体词、第三层实体词进行匹配,去除相同的词后,与第三层实体词进行实体关系匹配与相似度计算,去除相似度大于高阈值、以及相似度小于低阈值的词(实体),剩下的词(实体)作为知识图谱的第四层,相似度值作为与第三层各实体间的属性值,一起构成知识图谱第四层实体与实体级关系库;重复以上步骤,可以构建知识图谱的第五层至第N层实体与实体级关系库。
一种内容知识图谱的构建方法及系统,该系统包括包括获取模块、存储模块、计算模块、匹配模块、建立模块和展示模块,所述获取模块获取待构建知识图谱的某个或某几个领域词的文章数据采集和文本内容信息;所述存储模块对构建知识图谱过程中各类数据的存储;所述计算模块对构建知识图谱过程中的各类算法和规则计算;所述匹配模块将候选实体按照预设的规则与目标实体即上级图谱实体进行匹配,获取本层实体库以及关联关系;所述建立模块建立各层实体之间的关联关系和关联度,以生成知识图谱,包括设定关联度阈值,使用neo4j生成核心词领域的内容知识图谱组,存入存储模块;所述展示模块对知识图谱进行直观图像化展示,并且进一步地可以在实体节点中对应的搜索出该节点下的文章数据和文本内容,可以进一步地以实体节点作为索引节点。
作为本发明的进一步方案,所述获取模块的获取方式包括全网搜索爬取、API接口获取、本地文件上传等,其中获取模块可设置接收单元,接收输入的用于搜索的搜索词。
作为本发明的进一步方案,所述存储模块包括获取模块获取到的全部文章数据和文本内容,构建过程中生成的大规模文章训练模型和词向量训练模型,还包括初始词库、初始实体库、关键词的长尾词库、以及知识图谱各层实体和实体级关系;所述存储模块分为第一存储单元、第二存储单元至第N存储单元,其中第一存储单元存储获取的元数据,以及训练模型、初始词库、初始实体库,第二存储单元存储知识图谱第二层图谱生成过程中形成的关键词长尾词库、第二层实体以及实体关系,第三存储单元存储第三层知识图谱生成过程中的实体以及实体关系;第N存储单元存储第N层知识图谱生成过程中的实体以及实体关系。
作为本发明的进一步方案,所述计算模块分为第一计算单元、第二计算单元至第N计算单元,其中第一计算单元包含预处理单元和分词单元,预处理单元对所有文章数据进行预处理,获得预处理结果,包括并不限于进行标点符号去除、大小写切换、图片去除等,另外包括对分词单元运行后的分词结果进行规则清洗;分词单元适于对预处理之后的文本数据内容进行分词处理以及词性标注,获取文本数据中的字/词/词组;第N计算单元用于第N层知识图谱候选实体与上层目标实体的关联度计算;另外计算模块还包括排序单元,用于基于目标实体与候选实体的所述关联度,对候选命名实体进行排序。
作为本发明的进一步方案,所述匹配模块分为实体匹配单元、强度匹配单元,强度匹配单元适于对候选各实体与目标实体之间的关联强度;实体匹配单元适用于对N层实体而言有关联的第N+1层实体的确立。
本发明的有益效果为:该构建算法具有高效性,无需进行前期属性预设,人工标注成本和计算成本低,便于快速复制与实现,并且能够更加契合使用者在文本内容写作上的需求,使得使用者快速了解该领域文本内容写作时的热点热词,减少用户的信息负担,在知识图谱建立的基础上进行相关写作热点热词信息的挖掘,将有助于提高效率,拓宽写作框架,也更加容易获取知识。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明内容知识图谱的构建系统模块结构图;
图2为本发明实施案例2中的初始词库示意图;
图3为本发明实施案例2中的“翡翠”长尾词库结果示例;
图4为本发明实施案例2中的“翡翠”内容知识图谱第二层实体及实体级关系示意图;
图5为本发明实施案例2中的“翡翠原石“候选实体及实体级关系示意图;
图6为本发明实施案例2中的翡翠“内容知识图谱3层结构结果示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施案例1:
请参阅图1,本发明提供一种技术方案:一种内容知识图谱的构建方法及系统,该方法包括:
第一步:以核心词作为检索词进行互联网检索,进行大规模文章数据采集和数据存储,并进行各文章文本内容的提取,还可以通过API接口进行文本数据的采集,也可通过本地文件上传方式,获取大规模原始数据;
第二步:对全部数据资源进行中文分词和规则处理,构建大规模文章训练模型和词向量训练模型;
第三步:基于文章和词向量训练模型,利用相似度算法和规则模型计算构建出核心词的长尾词实体字典与相似度,作为核心词的知识图谱第二层实体与实体级关系库;
第四步:利用分词算法和规则判断建立全部实体字典,基于文章和词向量训练模型,用相似度算法将字典中实体与第二层实体之间进行关系计算与匹配,并形成知识图谱第三层实体与实体级关系库;
第五步:重复第四步,可自动形成知识图谱的第四层、第五层至第N层实体与实体级关系库;
第六步:基于核心词与各层实体及实体关系,设定阈值,使用neo4j将核心词与各层实体及实体关系存入第二类数据模块,生成核心词领域的内容知识图谱组。
具体的,第二步中对采集的文章文本内容进行中文分词处理,分词方法可调用开源分词技术,亦可基于大数据和中文特征,采用N-gram分词机制进行;分词完成后对分词结果进一步筛选,去除停用词、虚词、量词、代词、数词、形容词,之后形成预处理的文章,以此构建大规模文章训练模型和词向量训练模型;“基于大数据和中文特征,采用N-gram分词机制”的技术原理:对源数据进行格式清洗后,采用N-gram分词机制进行N元词组的切分,对词/词组进行词频统计以及N+1元词组与N元词/词组的比较统计,对设定阈值之上的词/词组判定为有效词,形成分词词典。
具体的,第三步中首先基于分词方法获取核心词的长尾词,获取方法为对核心词所在的所有句子进行分词,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后形成初始长尾词,对初始长尾词进行进一步的近义词过滤,之后形成长尾词库;然后基于文章和词向量训练模型,对所有长尾词与关键词之间进行相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的长尾词,剩下的词作为知识图谱的第二层,构成知识图谱第二层实体与实体级关系库。
具体的,相似度计算可采用余弦相似度算法实现,套用余弦函数计算所有长尾词与关键词的相似度,相似度的取值—余弦值,即为长尾词与关键词的实体级关系,计算方法如下:
Figure 975624DEST_PATH_IMAGE001
其中,Ai,Bi分别代表向量A和B的各分量,向量A、向量B为别为词语A、词语B的向量化表示,相似度取值越接近1,表明两个向量越相似,即两个词关联程度越大;相似度取值越接近0,表明两个向量越不相似,即两个词关联程度越小。
具体的,第四步中首先利用分词算法对全部数据资源进行分词后得到初始词库,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后,剩下的词形成初始实体库;然后将初始实体库与知识图谱第二层实体词进行匹配,去除相同的词后,进行实体关系匹配与相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的词,剩下的词作为知识图谱的第三层,相似度值作为与第二层各实体间的属性值,一起构成知识图谱第三层实体与实体级关系库。
具体的,第五步中将初始实体库与知识图谱第二层实体词、第三层实体词进行匹配,去除相同的词后,与第三层实体词进行实体关系匹配与相似度计算,去除相似度大于高阈值、以及相似度小于低阈值的词(实体),剩下的词(实体)作为知识图谱的第四层,相似度值作为与第三层各实体间的属性值,一起构成知识图谱第四层实体与实体级关系库;重复以上步骤,可以构建知识图谱的第五层至第N层实体与实体级关系库。
一种内容知识图谱的构建方法及系统,该系统包括包括获取模块、存储模块、计算模块、匹配模块、建立模块和展示模块,所述获取模块获取待构建知识图谱的某个或某几个领域词的文章数据采集和文本内容信息;所述存储模块对构建知识图谱过程中各类数据的存储;所述计算模块对构建知识图谱过程中的各类算法和规则计算;所述匹配模块将候选实体按照预设的规则与目标实体即上级图谱实体进行匹配,获取本层实体库以及关联关系;所述建立模块建立各层实体之间的关联关系和关联度,以生成知识图谱,包括设定关联度阈值,使用neo4j生成核心词领域的内容知识图谱组,存入存储模块;所述展示模块对知识图谱进行直观图像化展示,并且进一步地可以在实体节点中对应的搜索出该节点下的文章数据和文本内容,可以进一步地以实体节点作为索引节点。
具体的,所述获取模块的获取方式包括全网搜索爬取、API接口获取、本地文件上传等,其中获取模块可设置接收单元,接收输入的用于搜索的搜索词。
具体的,所述存储模块包括获取模块获取到的全部文章数据和文本内容,构建过程中生成的大规模文章训练模型和词向量训练模型,还包括初始词库、初始实体库、关键词的长尾词库、以及知识图谱各层实体和实体级关系;所述存储模块分为第一存储单元、第二存储单元至第N存储单元,其中第一存储单元存储获取的元数据,以及训练模型、初始词库、初始实体库,第二存储单元存储知识图谱第二层图谱生成过程中形成的关键词长尾词库、第二层实体以及实体关系,第三存储单元存储第三层知识图谱生成过程中的实体以及实体关系;第N存储单元存储第N层知识图谱生成过程中的实体以及实体关系。
具体的,所述计算模块分为第一计算单元、第二计算单元至第N计算单元,其中第一计算单元包含预处理单元和分词单元,预处理单元对所有文章数据进行预处理,获得预处理结果,包括并不限于进行标点符号去除、大小写切换、图片去除等,另外包括对分词单元运行后的分词结果进行规则清洗;分词单元适于对预处理之后的文本数据内容进行分词处理以及词性标注,获取文本数据中的字/词/词组;第N计算单元用于第N层知识图谱候选实体与上层目标实体的关联度计算;另外计算模块还包括排序单元,用于基于目标实体与候选实体的所述关联度,对候选命名实体进行排序。
具体的,所述匹配模块分为实体匹配单元、强度匹配单元,强度匹配单元适于对候选各实体与目标实体之间的关联强度;实体匹配单元适用于对N层实体而言有关联的第N+1层实体的确立。
实施案例2:
请参阅图2-6,以构建“翡翠”的内容知识图谱为例:
(1)通过获取模块,以核心词“翡翠”作为检索词进行互联网检索,进行大规模文章数据的采集与获取,提取文本内容存储到第一存储单元;
(2)对存储的每篇文章数据进行预处理,去除标点符号、图片、广告占位符等;利用分词单元对每篇文章进行分词,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,形成归一化处理结果,如图2,生成初始词库,并以此形成大规模文章训练模型和词向量训练模型,存入第一存储单元;
(3)将包含核心词“翡翠”的所有句子进行提取,通过第一计算单元进行分词和按规则清洗,形成核心词的长尾词库,存入第二存储单元(结果示例如图3)。基于文章和词向量训练模型,在第二计算单元中对所有长尾词(知识图谱候选实体)与关键词(目标实体)之间进行相似度(实体级关系)计算,并根据相似程度的高低(相似值)进行排序,并将实体及实体级关系结果存入第二存储单元,如图4所示;
(4)在第三计算单元将初始词库按规则清洗,包括与知识图谱第二层实体词进行去重后,形成第三层知识图谱候选实体,将其与目标实体(第二层实体)进行相似度计算(实体级关系)计算,并根据相似程度的高低(相似值)进行排序,并将实体及实体级关系结果存入第三存储单元,以第二层实体“翡翠原石”作为目标实体,得到其第三层候选实体结果如图5所示;
(5)重复以上步骤,透过第N计算单元可得到第N层候选实体及与第N-1层目标实体对应实体级关系,并存储至第N存储单元。知识图谱可扩展多层,此处不进行展开。
(6)在匹配模块将各层候选实体按照预设的规则与目标实体(上级图谱实体)进行完整层次联系匹配,使用neo4j生成“翡翠“的内容知识图谱组,存入存储模块(如图6所示)。通过设定知识图谱展示层级,以及关联度阈值,可建立直观图像化知识图谱展示。
本发明提供的知识图谱构建系统可以为计算机、服务器等硬件设备或者安装在硬件设备上的软件。
知识图谱构建系统可以提供可交互的展示界面,根据用户的需求对知识图谱进行展示,并以可视化的方式来展示知识图谱。例如:接收用户的知识图谱生成指令,指令中携带某个领域的领域主题词;知识图谱构建系统根据用户的生成指令展示对应领域的知识图谱。
此外,知识图谱中每个知识节点可以作为索引节点,在节点中对应的搜索出该节点下的所有文章数据和文本内容,可以进一步地以实体节点作为索引节点。
本发明的构建算法具有高效性,无需进行前期属性预设,人工标注成本和计算成本低,便于快速复制与实现,并且能够更加契合使用者在文本内容写作上的需求,使得使用者快速了解该领域文本内容写作时的热点热词,减少用户的信息负担,在知识图谱建立的基础上进行相关写作热点热词信息的挖掘,将有助于提高效率,拓宽写作框架,也更加容易获取知识。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种内容知识图谱的构建方法,其特征在于,该方法包括:
第一步:以核心词作为检索词进行互联网检索,进行大规模文章数据采集和数据存储,并进行各文章文本内容的提取,还可以通过API接口进行文本数据的采集,也可通过本地文件上传方式,获取大规模原始数据;
第二步:对全部数据资源进行中文分词和规则处理,构建大规模文章训练模型和词向量训练模型;
第三步:基于文章和词向量训练模型,利用相似度算法和规则模型计算构建出核心词的长尾词实体字典与相似度,作为核心词的知识图谱第二层实体与实体级关系库;
第四步:利用分词算法和规则判断建立全部实体字典,基于文章和词向量训练模型,用相似度算法将字典中实体与第二层实体之间进行关系计算与匹配,并形成知识图谱第三层实体与实体级关系库;
第五步:重复第四步,可自动形成知识图谱的第四层、第五层至第N层实体与实体级关系库;
第六步:基于核心词与各层实体及实体关系,设定阈值,使用neo4j将核心词与各层实体及实体关系存入第二类数据模块,生成核心词领域的内容知识图谱组。
2.根据权利要求1所述的一种内容知识图谱的构建方法,其特征在于:第二步中对采集的文章文本内容进行中文分词处理,分词方法可调用开源分词技术,亦可基于大数据和中文特征,采用N-gram分词机制进行;分词完成后对分词结果进一步筛选,去除停用词、虚词、量词、代词、数词、形容词,之后形成预处理的文章,以此构建大规模文章训练模型和词向量训练模型;“基于大数据和中文特征,采用N-gram分词机制”的技术原理:对源数据进行格式清洗后,采用N-gram分词机制进行N元词组的切分,对词/词组进行词频统计以及N+1元词组与N元词/词组的比较统计,对设定阈值之上的词/词组判定为有效词,形成分词词典。
3.根据权利要求1所述的一种内容知识图谱的构建方法,其特征在于:第三步中首先基于分词方法获取核心词的长尾词,获取方法为对核心词所在的所有句子进行分词,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后形成初始长尾词,对初始长尾词进行进一步的近义词过滤,之后形成长尾词库;然后基于文章和词向量训练模型,对所有长尾词与关键词之间进行相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的长尾词,剩下的词作为知识图谱的第二层,构成知识图谱第二层实体与实体级关系库;相似度计算可采用余弦相似度算法实现,套用余弦函数计算所有长尾词与关键词的相似度,相似度的取值—余弦值,即为长尾词与关键词的实体级关系,计算方法如下:
Figure 552968DEST_PATH_IMAGE001
其中,Ai,Bi分别代表向量A和B的各分量,向量A、向量B为别为词语A、词语B的向量化表示,相似度取值越接近1,表明两个向量越相似,即两个词关联程度越大;相似度取值越接近0,表明两个向量越不相似,即两个词关联程度越小。
4.根据权利要求1所述的一种内容知识图谱的构建方法,其特征在于:第四步中首先利用分词算法对全部数据资源进行分词后得到初始词库,去除虚词、量词、代词、数词、形容词等对制作知识图谱组无用的词,去除包含程度过高的词,根据已有停用词库去除停用词后,剩下的词形成初始实体库;然后将初始实体库与知识图谱第二层实体词进行匹配,去除相同的词后,进行实体关系匹配与相似度计算,利用word2vec将关键词与各词语进行向量化表示后进行相似度计算,根据相似程度的高低进行排序,去除相似度大于高阈值、以及相似度小于低阈值的词,剩下的词作为知识图谱的第三层,相似度值作为与第二层各实体间的属性值,一起构成知识图谱第三层实体与实体级关系库。
5.根据权利要求1所述的一种内容知识图谱的构建方法,其特征在于:第五步中将初始实体库与知识图谱第二层实体词、第三层实体词进行匹配,去除相同的词后,与第三层实体词进行实体关系匹配与相似度计算,去除相似度大于高阈值、以及相似度小于低阈值的词,剩下的词作为知识图谱的第四层,相似度值作为与第三层各实体间的属性值,一起构成知识图谱第四层实体与实体级关系库;重复以上步骤,可以构建知识图谱的第五层至第N层实体与实体级关系库。
6.一种内容知识图谱的构建系统,其特征在于:包括获取模块、存储模块、计算模块、匹配模块、建立模块和展示模块,所述获取模块获取待构建知识图谱的某个或某几个领域词的文章数据采集和文本内容信息;所述存储模块对构建知识图谱过程中各类数据的存储;所述计算模块对构建知识图谱过程中的各类算法和规则计算;所述匹配模块将候选实体按照预设的规则与目标实体即上级图谱实体进行匹配,获取本层实体库以及关联关系;所述建立模块建立各层实体之间的关联关系和关联度,以生成知识图谱,包括设定关联度阈值,使用neo4j生成核心词领域的内容知识图谱组,存入存储模块;所述展示模块对知识图谱进行直观图像化展示,并且进一步地可以在实体节点中对应的搜索出该节点下的文章数据和文本内容,可以进一步地以实体节点作为索引节点。
7.根据权利要求6所述的一种内容知识图谱的构建系统,其特征在于:所述获取模块的获取方式包括全网搜索爬取、API接口获取、本地文件上传等,其中获取模块可设置接收单元,接收输入的用于搜索的搜索词;所述存储模块包括获取模块获取到的全部文章数据和文本内容,构建过程中生成的大规模文章训练模型和词向量训练模型,还包括初始词库、初始实体库、关键词的长尾词库、以及知识图谱各层实体和实体级关系;所述存储模块分为第一存储单元、第二存储单元至第N存储单元,其中第一存储单元存储获取的元数据,以及训练模型、初始词库、初始实体库,第二存储单元存储知识图谱第二层图谱生成过程中形成的关键词长尾词库、第二层实体以及实体关系,第三存储单元存储第三层知识图谱生成过程中的实体以及实体关系;第N存储单元存储第N层知识图谱生成过程中的实体以及实体关系。
8.根据权利要求6所述的一种内容知识图谱的构建系统,其特征在于:所述计算模块分为第一计算单元、第二计算单元至第N计算单元,其中第一计算单元包含预处理单元和分词单元,预处理单元对所有文章数据进行预处理,获得预处理结果,包括并不限于进行标点符号去除、大小写切换、图片去除等,另外包括对分词单元运行后的分词结果进行规则清洗;分词单元适于对预处理之后的文本数据内容进行分词处理以及词性标注,获取文本数据中的字/词/词组;第N计算单元用于第N层知识图谱候选实体与上层目标实体的关联度计算;另外计算模块还包括排序单元,用于基于目标实体与候选实体的所述关联度,对候选命名实体进行排序。
9.根据权利要求6所述的一种内容知识图谱的构建系统,其特征在于:所述匹配模块分为实体匹配单元、强度匹配单元,强度匹配单元适于对候选各实体与目标实体之间的关联强度;实体匹配单元适用于对N层实体而言有关联的第N+1层实体的确立。
CN202010918525.9A 2020-09-04 2020-09-04 一种内容知识图谱的构建方法及系统 Pending CN112148886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010918525.9A CN112148886A (zh) 2020-09-04 2020-09-04 一种内容知识图谱的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010918525.9A CN112148886A (zh) 2020-09-04 2020-09-04 一种内容知识图谱的构建方法及系统

Publications (1)

Publication Number Publication Date
CN112148886A true CN112148886A (zh) 2020-12-29

Family

ID=73890489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010918525.9A Pending CN112148886A (zh) 2020-09-04 2020-09-04 一种内容知识图谱的构建方法及系统

Country Status (1)

Country Link
CN (1) CN112148886A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032683A (zh) * 2021-04-28 2021-06-25 玉米社(深圳)网络科技有限公司 一种网络推广中快速分词的方法
CN113849462A (zh) * 2021-09-16 2021-12-28 广东创意热店互联网科技有限公司 一种网络素材的智能推荐方法、系统、计算机设备及介质
CN114818740A (zh) * 2022-06-30 2022-07-29 江苏微皓智能科技有限公司 一种基于领域知识图谱的人机协同方法及系统
CN116737520A (zh) * 2023-06-12 2023-09-12 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
US20190095537A1 (en) * 2017-09-22 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for expanding query
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111325033A (zh) * 2020-03-20 2020-06-23 中国建设银行股份有限公司 实体识别方法、装置、电子设备及计算机可读存储介质
CN111400507A (zh) * 2020-06-05 2020-07-10 浙江口碑网络技术有限公司 实体匹配方法及其装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
US20190095537A1 (en) * 2017-09-22 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for expanding query
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111325033A (zh) * 2020-03-20 2020-06-23 中国建设银行股份有限公司 实体识别方法、装置、电子设备及计算机可读存储介质
CN111400507A (zh) * 2020-06-05 2020-07-10 浙江口碑网络技术有限公司 实体匹配方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔茜: "科学知识图谱在不同领域的应用", 《数码世界》 *
王启杰: "面向经济知识图谱构建中文关系抽取算法的研究与应用", 《中国优秀硕士学位论文全文库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032683A (zh) * 2021-04-28 2021-06-25 玉米社(深圳)网络科技有限公司 一种网络推广中快速分词的方法
CN113849462A (zh) * 2021-09-16 2021-12-28 广东创意热店互联网科技有限公司 一种网络素材的智能推荐方法、系统、计算机设备及介质
CN114818740A (zh) * 2022-06-30 2022-07-29 江苏微皓智能科技有限公司 一种基于领域知识图谱的人机协同方法及系统
CN116737520A (zh) * 2023-06-12 2023-09-12 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质
CN116737520B (zh) * 2023-06-12 2024-05-03 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111259653B (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN105824959B (zh) 舆情监控方法及系统
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
US8577882B2 (en) Method and system for searching multilingual documents
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
Zhou et al. Resolving surface forms to wikipedia topics
US20130138696A1 (en) Method to build a document semantic model
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN112148885B (zh) 一种基于知识图谱的智能搜索方法及系统
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
Zehtab-Salmasi et al. FRAKE: fusional real-time automatic keyword extraction
AL-Khassawneh et al. Improving triangle-graph based text summarization using hybrid similarity function
CN112084312A (zh) 一种基于知识图构建的智能客服系统
CN113392245B (zh) 一种用于众测任务发布的文本摘要与图文检索生成方法
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229