CN110704411B - 适用于艺术领域的知识图谱搭建方法及装置、电子设备 - Google Patents
适用于艺术领域的知识图谱搭建方法及装置、电子设备 Download PDFInfo
- Publication number
- CN110704411B CN110704411B CN201910926347.1A CN201910926347A CN110704411B CN 110704411 B CN110704411 B CN 110704411B CN 201910926347 A CN201910926347 A CN 201910926347A CN 110704411 B CN110704411 B CN 110704411B
- Authority
- CN
- China
- Prior art keywords
- source data
- value
- data
- preset
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种适用于艺术领域的知识图谱搭建方法及装置、电子设备。该方法包括:根据预先设置的艺术领域的关键词获取与其相关的源数据;根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗源数据;根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、实体的属性信息以及实体之间的关系信息;融合实体、实体的属性信息以及实体之间的关系信息得到数据三元组,将数据三元组作为关键词所搭建的知识图谱;将知识图谱存储到图形数据库中。本实施例中,通过对源数据进行清洗可以提高源数据的正确性;并且将获取的知识图谱存储到图形数据库中,可以方便用户直接检索出艺术领域内的艺术品等信息,提升用户的使用体验。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种适用于艺术领域的知识图谱搭建方法及装置、电子设备。
背景技术
目前,随着人们生活水平的提高,越来越的用户追求提升生活质量,例如购买、学习和欣赏艺术作品。目前,用户查询艺术品可以通过线上和线下两种方式,以线上为例,用户可以在互联网上检索相应的艺术品,在查询到感兴趣的艺术品后再继续查询与其相关的其他资料,这样用户所查询的资料是分散的,甚至疏漏比较重要的信息,影响到用户的检索体验。
发明内容
本发明提供一种适用于艺术领域的知识图谱搭建方法及装置、电子设备,以解决相关技术中因艺术品的知识分布较分散导致用户检索比较困难且容易疏漏重要信息而影响到检索体验的问题。
根据本发明实施例的第一方面,提供一种用于艺术领域的知识图谱搭建方法,包括:
根据预先设置的艺术领域的关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
将所述知识图谱存储到预先设置的图形数据库中。
可选地,所述源数据包括半结构化的源数据和结构化的源数据;根据预先设置的艺术领域的关键词获取与其相关的源数据包括:
根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
可选地,若所述源数据包括半结构化的源数据,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据之前,所述方法还包括对所述半结构化的源数据进行预处理,以获得结构化的源数据,具体包括:
根据预先设置的属性信息对所述半结构化的源数据进行分组;
基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
基于所述相似度向量获取同一分组内任意两个数据的相似度;
对比所述相似度和预先设置的相似度阈值;
若所述相似度超过所述相似度阈值,则将所述任意两个数据融合为一条源数据;
针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
可选地,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据,包括:
利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
统计所述错误信息表;
若所述错误信息表内未包含替换单值属性的源数据,则输出所述源数据对应的实体信息和关系信息。
可选地,还包括:
将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
根据本发明实施例的第二方面,提供一种用于艺术领域的知识图谱搭建装置,包括:
源数据获取模块,用于根据预先设置的艺术领域的关键词获取与其相关的源数据;
源数据清洗模块,用于根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
信息提取模块,用于根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
图谱获取模块,用于融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
图谱存储模块,用于将所述知识图谱存储到预先设置的图形数据库中。
可选地,所述源数据包括半结构化的源数据和结构化的源数据;所述源数据获取模块包括:
源数据爬取单元,用于根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
源数据检索单元,用于根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
可选地,若所述源数据包括半结构化的源数据,所述装置还包括源数据预处理模块,用于对所述半结构化的源数据进行预处理,以获得结构化的源数据;所述源数据预处理模块包括:
源数据分组单元,用于根据预先设置的属性信息对所述半结构化的源数据进行分组;
向量获取单元,用于基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
相似度获取单元,用于基于所述相似度向量获取同一分组内任意两个数据的相似度;
相似度对比单元,用于对比所述相似度和预先设置的相似度阈值;
源数据合并单元,用于在所述相似度超过所述相似度阈值时,将所述任意两个数据融合为一条源数据;
结构化单元,用于针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
可选地,所述源数据清洗模块,包括:
错误值替换单元,用于利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
信息获取单元,用于根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
信息表统计单元,用于统计所述错误信息表;
信息输出单元,用于在所述错误信息表内未包含替换单值属性的源数据时,输出所述源数据对应的实体信息和关系信息。
可选地,还包括:
图谱应用模块,用于将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
根据本发明实施例的第三方面,提供一种电子设备,包括处理器和用于存储可执行指令的存储器;所述处理器通过通信总线与所述存储器连接,用于从所述存储器中读取可执行指令,以实现第一方面任一项所述的方法的步骤。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,该指令被处理器执行时实现第一方面任一项所述方法的步骤。
本实施例中,通过对源数据进行清洗可以提高源数据的正确性;并且本实施例中,融合实体、属性信息和关系信息可以得到数据三元组,该数据三元组可以作为关键词的知识图谱,并存储到图形数据库中,可以方便用户直接检索出艺术领域内的艺术品等信息,提升用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例示出的一种适用于艺术领域的知识图谱搭建方法的流程图。
图2是本发明实施例示出的一种获取半结构化的源数据的流程图。
图3是本发明实施例示出的将半结构化的源数据转换为结构化的源数据的流程图。
图4是本发明实施例示出的对源数据进行清洗的流程图。
图5是本发明实施例示出的一种知识图谱的示意图。
图6是本发明实施例示出的画作的知识图谱的效果图。
图7是本发明实施例示出的一种适用于艺术领域的知识图谱搭建装置的框图。
图8是本发明实施例示出的另一种适用于艺术领域的知识图谱搭建装置的框图。
图9是本发明实施例示出的又一种适用于艺术领域的知识图谱搭建装置的框图。
图10是本发明实施例示出的又一种适用于艺术领域的知识图谱搭建装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前,随着人们生活水平的提高,越来越的用户追求提升生活质量,例如购买、学习和欣赏艺术作品。目前,用户查询艺术品可以通过线上和线下两种方式,以线上为例,用户可以在互联网上检索相应的艺术品,在查询到感兴趣的艺术品后再继续查询与其相关的其他资料,这样用户所查询的资料是分散的,甚至疏漏比较重要的信息,影响到用户的检索体验。
为解决上述问题,本发明实施例提供了一种适用于艺术领域的知识图谱搭建方法,可以适用于各种电子设备,例如服务器、智能手机、平板电脑等,图1是本发明实施例示出的一种适用于艺术领域的知识图谱搭建方法的流程图。参见图1,一种适用于艺术领域的知识图谱搭建方法,包括步骤101~步骤105,其中:
在步骤101中,根据预先设置的艺术领域的关键词获取与其相关的源数据。
本实施例中,电子设备内可以预先设置有关键词,该关键词可以包括艺术领域的关键词,例如画家、书法家、画作、收藏家、博物馆等,可以根据具体场景调整关键词的数量。在一示例中,该关键词可以预先设置在一关键词表内,或者预先设置在一关键词数据库内。
电子设备可以影响于用户的操作,获取到用户输入的语句,对语句进行分割出词语,然后将分割出的词语与预先设置的关键词进行匹配,如果匹配通过,则确定获取到关键词。
电子设备在获取到关键词之后,可以根据关键词获取与其相关的源数据,包括:
在一示例中,电子设备可以根据关键词,采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站(例如艺术中国)上爬取半结构化的源数据。其中,半结构化数据,属于同一类实体可以有不同的属性,即半结构化数据不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但其包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,半结构化也被称为自描述的结构。
例如,电子设备可以启动Scrapy应用框架下的爬虫引擎,由该爬虫引擎控制Scrapy中的数据流,参见图2,可以包括:
(1)爬虫引擎打开一个目标网站,查询到处理该目标网站的spider,然后向该spider请求第一个要爬取的URL。
(2)爬虫引擎从spider中获取到第一个要爬取的URL,并在调度器(Scheduler)以请示(Request)调度。
(3)爬虫引擎向调度器请求下一个要爬取的URL。
(4)调度器返回下一个要爬取的URL给爬虫引擎,爬虫引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
(5)一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过spider中间件(返回(response)方向)发送给爬虫引擎。
(6)爬虫引擎从下载器中接收到Response并通过下载器中间件(输入方向)发送给Spider处理。
(7)Spider处理Response并返回爬取到的Item及(跟进的)新的Request给爬虫引擎。
(8)爬虫引擎将(Spider返回的)爬取到的Item给Item Pipeline,以及将(Spider返回的)Request给调度器。
(9)(从第二步)重复直到调度器中没有更多地request,引擎关闭该网站。
考虑到半结构化的源数据的特点,本示例中还对该半结构化的源数据进行预处理,参见图3,电子设备可以根据预先设置的属性信息对半结构化的源数据进行分组(对应图3中步骤301)。然后,电子设备可以基于word2vec算法获取各分组内半结构化的源数据中各数据对应的相似度向量(对应图3中步骤302)。之后,电子设备可以基于相似度向量获取同一分组内任意两个数据的相似度(对应图3中步骤303)。再者,电子设备可以对比相似度和预先设置的相似度阈值(对应图3中步骤304)。若相似度超过相似度阈值,则将任意两个数据融合为一条源数据(对应图3中步骤305)。最后,针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据(对应图3中步骤306)。
本示例中,对半结构化的源数据进行预处理,可以去除其中的冗余以及丰富源数据。另外,将半结构化的源数据转换为结构化的源数据,方便后续处理。
在另一示例中,电子设备可以根据关键词,在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。其中,结构化的数据是指能够用数据或统一的结构加以表示,表现为二维形式的数据,具有如下特点:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
需要说明的是,本实施例中通过对源数据进行分类(半结构化数据和结构化数据),并针对各分类源数据采用不同的获取方式进行获取,可以提升获取效率。
在步骤102中,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据。
本实施例中,电子设备内可以预先设置有艺术数据字典,该艺术数据字典可以包括源数据的单值属性、实体属性信息和关系信息。在一些示例中,艺术数据字典内还可以包括其他信息,其他信息可以根据具体场景进行调整,在此不作限定。可理解的是,本实施例中艺术数据字典可以实时或者定期更新。在一示例中,艺术数据字典内可以包括:实体名,正确名(trues),别名(errors),其他含义。例如,正确名有值,则原实体名和别名都需要替换成正确名。其中正确名和别名在错误信息表查询到。在又一示例中,更新字典:保留原艺术数据字典内正确实体的ID,从错误信息表中提取出errors,trues数组,一一对应错误的值和正确的值。在又一示例中,遍历字典,1、实体不在errors里,则保留在艺术数据字典里。2、实体在errors里,则用字典里的最后一个实体替代这个实体,并删除字典最后一条数据。在又一示例中,遍历trues,实体不在字典里,则字典里新增这个实体,赋值ID。
本实施例中,电子设备内可以预先设置关于艺术领域的错误信息表,该错误信息表中可以包括若干组错误信息和正确信息的组合,例如梵高(正确)-凡高(错误)。
在一示例中,该错误信息表的更新如下:
在更新错误信息表时,若正确名的值在errors里,则错误信息表调整正确名和别名内的值。若正确名的值不在trues里,对应实体的错误信息表需要增加实体名的正确名。
若其他含义有值,实体名替换为空值,表示这个实体名并不应该是这个字典里。
若原实体名在errors里,对应实体的错误信息表修改为原实体名,trues数组对应正确名位置的值替换为空值。
若原实体名不在errors里:对应实体的错误信息表需要增加数据原实体名,errors,trues数组分别追加原实体名,空值。
若别名有值,则别名也替换为正确名的值。若正确名有值,别名在errors里,并且对应trues里对应值不等于正确名,trues里对应值修改为正确名。
若正确名有值,别名不在errors里:errors,trues数组分别追加别名,正确名。
若正确名空值,别名在errors里,并且对应trues里对应值不等于原实体名:trues里对应值修改为原实体名。
若正确名空值,别名不在errors里:errors,trues数组分别追加别名,原实体名。
本实施例中,参见图4,电子设备可以利用错误信息表处理源数据中的单值属性,以将单值属性中的错误值替换为正确值(对应图4中步骤401)。其中单值属性是指只有一个值的属性。然后,电子设备可以根据单值属性从预先设置的艺术数据字典内查询源数据对应的实体属性信息和关系信息(对应图4中步骤402)。之后,电子设备可以统计错误信息表(对应图4中步骤403)。最后,在错误信息表内未包含替换单值属性的源数据时,电子设备可以输出源数据对应的实体信息和关系信息(对应图4中步骤404)。在错误信息表内包含替换单值属性的源数据,继续对源数据内的单值属性进行替换,直至错误信息表内不包含替换单值属性的源数据为止。这样,本实施例中对错误的源数据进行纠正,可以提高源数据的准确度,有利于提升后续查询结果的准确度。
在步骤103中,根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息。
本实施例中,电子设备内可以预先设置有画家、画作和博物馆的实体关系,这样,电子设备可以根据上述实体关系从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息。
在步骤104中,融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱。
本实施例中,电子设备内可以预先设置数据三元组的格式,例如{实体,实体属性信息,实体之间的关系信息}。这样,在获取到实体、实体的属性信息以及实体之间的关系信息后,融合该实体、实体的属性信息以及实体之间的关系信息到数据三元组内,这样该数据三元组可以作为关键词所搭建的知识图谱,效果如图5所示。
参见图5,该知识图谱内包括:
实体:
画家、画作、博物馆。
实体属性信息:
画家:国籍、死亡年、出生地、出生年、流派、英文名、别名。
画作:流派、创作年份、创作媒介、类别、题材、英文名、别名。
博物馆:
英文名、地点、类别、建馆时间。
实体之间的关系信息:
画家创作画作,画家的代表作是画作,画作收藏地点博物馆,博物馆的经典馆藏是画作。
参见图6,以画作的知识图谱为例:
画作名称为“蒙娜丽莎”,收藏地点为法国巴黎卢浮宫博物馆,其画家是列昂纳多·达·芬奇,类别为油画,创作媒介为杨木板,创作年份为十六世纪初期,题材为写实和人物。
在步骤105中,将所述知识图谱存储到预先设置的图形数据库中。
本实施例中,电子设备可以将上述知识图谱存储到预先设置的图形数据库中。例如,使用Neo4j系统存储知识图像,从而使用户能够在线处理图形数据库中增加、删除、修改、查询操作以及事务处理等。
本实施例中,知识图谱可以应用预先设置的场景中,其中预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景等艺术场景中。
至此,本实施例中,通过对源数据进行清洗可以提高源数据的正确性;并且本实施例中,融合实体、属性信息和关系信息可以得到数据三元组,该数据三元组可以作为关键词的知识图谱,并存储到图形数据库中,可以方便用户直接检索出艺术领域内的艺术品等信息,提升用户的使用体验。
根据本发明实施例的第二方面,提供一种用于艺术领域的知识图谱搭建装置,参见图7,包括:
源数据获取模块701,用于根据预先设置的艺术领域的关键词获取与其相关的源数据;
源数据清洗模块702,用于根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
信息提取模块703,用于根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
图谱获取模块704,用于融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
图谱存储模块705,用于将所述知识图谱存储到预先设置的图形数据库中。
在一实施例中,所述源数据包括半结构化的源数据和结构化的源数据;所述源数据获取模块701包括:
源数据爬取单元,用于根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
源数据检索单元,用于根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
在图7所示的知识图谱搭建装置的基础上,参见图8,若所述源数据包括半结构化的源数据,所述装置还包括源数据预处理模块706,用于对所述半结构化的源数据进行预处理,以获得结构化的源数据;所述源数据预处理模块706包括:
源数据分组单元801,用于根据预先设置的属性信息对所述半结构化的源数据进行分组;
向量获取单元802,用于基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
相似度获取单元803,用于基于所述相似度向量获取同一分组内任意两个数据的相似度;
相似度对比单元804,用于对比所述相似度和预先设置的相似度阈值;
源数据合并单元805,用于在所述相似度超过所述相似度阈值时,将所述任意两个数据融合为一条源数据;
结构化单元806,用于针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
在图7所示的知识图谱搭建装置的基础上,参见图9,所述源数据清洗模块702,包括:
错误值替换单元901,用于利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
信息获取单元902,用于根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
信息表统计单元903,用于统计所述错误信息表;
信息输出单元904,用于在所述错误信息表内未包含替换单值属性的源数据时,输出所述源数据对应的实体信息和关系信息。
在图7所示的知识图谱搭建装置的基础上,参见图10,还包括:
图谱应用模块1001,用于将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
可理解的是,本发明实施例提供的装置实施例与上述方法实施例相对应,具体内容可以参考方法各实施例的内容,在此不再赘述。
本发明实施例还提供了一种电子设备,包括处理器和用于存储可执行指令的存储器;所述处理器通过通信总线与所述存储器连接,用于从所述存储器中读取可执行指令,以实现图1~图6任一项所述的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,该指令被处理器执行时实现图1~图6任一项所述的方法的步骤。
在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。在本发明中,虚线连接的两个部件是存在电连接或者接触关系的,采用虚线仅是为了使附图更清楚,更易理解本发明的方案。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种用于艺术领域的知识图谱搭建方法,其特征在于,包括:
根据预先设置的艺术领域的关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
将所述知识图谱存储到预先设置的图形数据库中;
根据预先设置的艺术领域的关键词获取与其相关的源数据,包括:
响应于用户的操作,获取到用户输入的语句,并分割所述语句得到词语;然后将所述词语与预先设置的艺术领域的关键词进行匹配;如果匹配通过,则确定获取到关键词;在获取到所述关键词之后,根据所述关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据,包括:
利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
统计所述错误信息表;
若所述错误信息表内未包含替换单值属性的源数据,则输出所述源数据对应的实体信息和关系信息;
所述错误信息表更新方式如下:
若正确名的值在errors里,则错误信息表调整正确名和别名内的值;若正确名的值不在trues里,对应实体的错误信息表需要增加实体名的正确名;
若其他含义有值,实体名替换为空值,表示这个实体名并不应该是这个字典里;
若原实体名在errors里,对应实体的错误信息表修改为原实体名,trues数组对应正确名位置的值替换为空值;
若原实体名不在errors里:对应实体的错误信息表需要增加数据原实体名,errors,trues数组分别追加原实体名,空值;
若别名有值,则别名也替换为正确名的值;若正确名有值,别名在errors里,并且对应trues里对应值不等于正确名,trues里对应值修改为正确名;
若正确名有值,别名不在errors里:errors,trues数组分别追加别名,正确名;
若正确名空值,别名在errors里,并且对应trues里对应值不等于原实体名:trues里对应值修改为原实体名;
若正确名空值,别名不在errors里:errors,trues数组分别追加别名,原实体名。
2.根据权利要求1所述的知识图谱搭建方法,其特征在于,所述源数据包括半结构化的源数据和结构化的源数据;根据预先设置的艺术领域的关键词获取与其相关的源数据包括:
根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
3.根据权利要求2所述的知识图谱搭建方法,其特征在于,若所述源数据包括半结构化的源数据,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据之前,所述方法还包括对所述半结构化的源数据进行预处理,以获得结构化的源数据,具体包括:
根据预先设置的属性信息对所述半结构化的源数据进行分组;
基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
基于所述相似度向量获取同一分组内任意两个数据的相似度;
对比所述相似度和预先设置的相似度阈值;
若所述相似度超过所述相似度阈值,则将所述任意两个数据融合为一条源数据;
针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
4.根据权利要求1所述的知识图谱搭建方法,其特征在于,还包括:
将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
5.一种用于艺术领域的知识图谱搭建装置,其特征在于,包括:
源数据获取模块,用于根据预先设置的艺术领域的关键词获取与其相关的源数据,包括:响应于用户的操作,获取到用户输入的语句,并分割所述语句得到词语;然后将所述词语与预先设置的艺术领域的关键词进行匹配;如果匹配通过,则确定获取到关键词;在获取到所述关键词之后,根据所述关键词获取与其相关的源数据;
源数据清洗模块,用于根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
信息提取模块,用于根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
图谱获取模块,用于融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
图谱存储模,用于将所述知识图谱存储到预先设置的图形数据库中;
所述源数据清洗模块,包括:
错误值替换单元,用于利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
信息获取单元,用于根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
信息表统计单元,用于统计所述错误信息表;
信息输出单元,用于在所述错误信息表内未包含替换单值属性的源数据时,输出所述源数据对应的实体信息和关系信息;
所述错误信息表更新方式如下:
若正确名的值在errors里,则错误信息表调整正确名和别名内的值;若正确名的值不在trues里,对应实体的错误信息表需要增加实体名的正确名;
若其他含义有值,实体名替换为空值,表示这个实体名并不应该是这个字典里;
若原实体名在errors里,对应实体的错误信息表修改为原实体名,trues数组对应正确名位置的值替换为空值;
若原实体名不在errors里:对应实体的错误信息表需要增加数据原实体名,errors,trues数组分别追加原实体名,空值;
若别名有值,则别名也替换为正确名的值;若正确名有值,别名在errors里,并且对应trues里对应值不等于正确名,trues里对应值修改为正确名;
若正确名有值,别名不在errors里:errors,trues数组分别追加别名,正确名;
若正确名空值,别名在errors里,并且对应trues里对应值不等于原实体名:trues里对应值修改为原实体名;
若正确名空值,别名不在errors里:errors,trues数组分别追加别名,原实体名。
6.根据权利要求5所述的知识图谱搭建装置,其特征在于,所述源数据包括半结构化的源数据和结构化的源数据;所述源数据获取模块包括:
源数据爬取单元,用于根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
源数据检索单元,用于根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
7.根据权利要求6所述的知识图谱搭建装置,其特征在于,若所述源数据包括半结构化的源数据,所述装置还包括源数据预处理模块,用于对所述半结构化的源数据进行预处理,以获得结构化的源数据;所述源数据预处理模块包括:
源数据分组单元,用于根据预先设置的属性信息对所述半结构化的源数据进行分组;
向量获取单元,用于基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
相似度获取单元,用于基于所述相似度向量获取同一分组内任意两个数据的相似度;
相似度对比单元,用于对比所述相似度和预先设置的相似度阈值;
源数据合并单元,用于在所述相似度超过所述相似度阈值时,将所述任意两个数据融合为一条源数据;
结构化单元,用于针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
8.根据权利要求5所述的知识图谱搭建装置,其特征在于,还包括:
图谱应用模块,用于将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
9.一种电子设备,其特征在于,包括处理器和用于存储可执行指令的存储器;所述处理器通过通信总线与所述存储器连接,用于从所述存储器中读取可执行指令,以实现权利要求1~4任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,该指令被处理器执行时实现权利要求1~4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926347.1A CN110704411B (zh) | 2019-09-27 | 2019-09-27 | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 |
US16/944,521 US11899681B2 (en) | 2019-09-27 | 2020-07-31 | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926347.1A CN110704411B (zh) | 2019-09-27 | 2019-09-27 | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704411A CN110704411A (zh) | 2020-01-17 |
CN110704411B true CN110704411B (zh) | 2022-12-09 |
Family
ID=69196964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910926347.1A Active CN110704411B (zh) | 2019-09-27 | 2019-09-27 | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11899681B2 (zh) |
CN (1) | CN110704411B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241212B (zh) * | 2020-01-20 | 2023-10-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置、存储介质、电子设备 |
CN111339213A (zh) * | 2020-02-18 | 2020-06-26 | 京东方科技集团股份有限公司 | 基于知识图谱的可视化展示方法、电子设备及介质 |
CN113449114A (zh) * | 2020-12-31 | 2021-09-28 | 中国科学技术大学智慧城市研究院(芜湖) | 基于知识图谱的构建自然人生命周期全息画像方法 |
CN112988915A (zh) * | 2021-01-27 | 2021-06-18 | 厦门市健康医疗大数据中心(厦门市医药研究所) | 数据展示方法和装置 |
CN112989068B (zh) * | 2021-04-28 | 2022-04-19 | 新疆大学 | 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统 |
CN113282762B (zh) * | 2021-05-27 | 2023-06-02 | 深圳数联天下智能科技有限公司 | 知识图谱构建方法、装置、电子设备和存储介质 |
CN113312410B (zh) * | 2021-06-10 | 2023-11-21 | 平安证券股份有限公司 | 数据图谱的构建方法、数据查询方法及终端设备 |
CN113568998A (zh) * | 2021-06-18 | 2021-10-29 | 武汉理工数字传播工程有限公司 | 一种知识服务资源处理方法、装置、设备及存储介质 |
CN113360678B (zh) * | 2021-07-08 | 2022-07-15 | 电子科技大学 | 一种基于Neo4j和大数据的初等数学知识图谱构建方法 |
CN114491070B (zh) * | 2022-01-24 | 2024-08-27 | 广东技术师范大学 | 基于知识图谱节点语义属性的图嵌入方法及系统 |
CN114580639A (zh) * | 2022-02-23 | 2022-06-03 | 中南民族大学 | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 |
CN114637863B (zh) * | 2022-03-31 | 2024-07-26 | 东北大学秦皇岛分校 | 一种基于传播的知识图谱推荐方法 |
CN114896461A (zh) * | 2022-05-25 | 2022-08-12 | 杭州数梦工场科技有限公司 | 信息资源管理方法、装置、电子设备及可读存储介质 |
CN115576267B (zh) * | 2022-11-07 | 2023-07-07 | 河北工业大学 | 一种基于数字孪生的轮毂机加工尺寸误差修正方法 |
CN115687622A (zh) * | 2022-11-09 | 2023-02-03 | 易元数字(北京)大数据科技有限公司 | 利用图数据库存储艺术品数据的方法、装置及电子设备 |
CN116187446B (zh) * | 2023-05-04 | 2023-07-04 | 中国人民解放军国防科技大学 | 基于自适应注意力机制的知识图谱补全方法、装置和设备 |
CN117573985B (zh) * | 2024-01-16 | 2024-04-05 | 四川航天职业技术学院(四川航天高级技工学校) | 一种应用于智能化在线教育系统的信息推送方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595267B2 (en) * | 2011-06-27 | 2013-11-26 | Amazon Technologies, Inc. | System and method for implementing a scalable data storage service |
SG10201403292WA (en) * | 2014-06-16 | 2016-01-28 | Ats Group Ip Holdings Ltd | Fusion of data from heterogeneous sources |
US20160019554A1 (en) * | 2014-07-15 | 2016-01-21 | Emily M. MacDonald-Korth | Standard System and Method for Assigning Ratings to Art Materials and Works of Art Based on the Projected Stability of the Constituents |
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN106815307A (zh) * | 2016-12-16 | 2017-06-09 | 中国科学院自动化研究所 | 公共文化知识图谱平台及其使用办法 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US10846640B2 (en) * | 2017-06-01 | 2020-11-24 | Autodesk, Inc. | Architecture, engineering and construction (AEC) risk analysis system and method |
US11106741B2 (en) * | 2017-06-06 | 2021-08-31 | Salesforce.Com, Inc. | Knowledge operating system |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN109657068B (zh) * | 2018-11-30 | 2021-01-05 | 北京航空航天大学 | 面向智慧博物馆的文物知识图谱生成与可视化方法 |
CN109710935B (zh) * | 2018-12-26 | 2021-03-26 | 北京航空航天大学 | 一种基于文物知识图谱的博物馆导览与知识推荐方法 |
US11023710B2 (en) * | 2019-02-20 | 2021-06-01 | Huawei Technologies Co., Ltd. | Semi-supervised hybrid clustering/classification system |
US11861459B2 (en) * | 2019-06-11 | 2024-01-02 | International Business Machines Corporation | Automatic determination of suitable hyper-local data sources and features for modeling |
-
2019
- 2019-09-27 CN CN201910926347.1A patent/CN110704411B/zh active Active
-
2020
- 2020-07-31 US US16/944,521 patent/US11899681B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
Also Published As
Publication number | Publication date |
---|---|
US20210097089A1 (en) | 2021-04-01 |
US11899681B2 (en) | 2024-02-13 |
CN110704411A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704411B (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
US9530075B2 (en) | Presentation and organization of content | |
US10776885B2 (en) | Mutually reinforcing ranking of social media accounts and contents | |
CN102591867B (zh) | 一种基于移动设备位置的搜索服务方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
Hauff et al. | Placing images on the world map: a microblog-based enrichment approach | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN107103032A (zh) | 一种分布式环境下避免全局排序的海量数据分页查询方法 | |
CN105760380A (zh) | 数据库查询方法、装置及系统 | |
Alarabi et al. | TAREEG: A MapReduce-based system for extracting spatial data from OpenStreetMap | |
US20140040232A1 (en) | System and method for tagging multimedia content elements | |
CN106599215A (zh) | 一种基于深度学习的问句生成方法和问句生成系统 | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
US9208171B1 (en) | Geographically locating and posing images in a large-scale image repository and processing framework | |
CN113220672A (zh) | 一种军民融合政策信息数据库系统 | |
CN107370830B (zh) | 基于大数据的行业信息推送系统及方法 | |
US20140317128A1 (en) | Natural language search | |
CN113821679A (zh) | 一种视频帧定位方法、电子设备及计算机可读存储介质 | |
CN106777140B (zh) | 用于非结构化文档搜索的方法及装置 | |
CN103136221A (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN112269906A (zh) | 网页正文的自动抽取方法及装置 | |
Rauber et al. | Austrian online archive processing: analyzing archives of the world wide web | |
CN110020078B (zh) | 一种生成相关性映射字典及其验证相关性的方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |