CN106815307A - 公共文化知识图谱平台及其使用办法 - Google Patents
公共文化知识图谱平台及其使用办法 Download PDFInfo
- Publication number
- CN106815307A CN106815307A CN201611170815.XA CN201611170815A CN106815307A CN 106815307 A CN106815307 A CN 106815307A CN 201611170815 A CN201611170815 A CN 201611170815A CN 106815307 A CN106815307 A CN 106815307A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- public culture
- unit
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000003860 storage Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000009412 basement excavation Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000003190 augmentative effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000006116 polymerization reaction Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 241000233805 Phoenix Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Abstract
本发明涉及一种公共文化知识图谱平台及其使用办法,该公共文化知识图谱平台包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。本发明中,实现了对公共文化知识领域中的公共文化知识的快速、高效搜索,以及公共文化知识的聚合和挖掘。
Description
技术领域
本发明属于公共文化大数据共享服务领域,具体涉及计算机知识管理和知识挖掘的人工智能方法,特别涉及一种公共文化知识图谱平台及其使用办法。
背景技术
公共文化服务是指为公众提供的文化信息、文化资源的服务。随着网络公共文化服务的快速发展,产生了大量的文化资源和数据。解决网络公共文化资源共享的问题,成了公共文化服务的重点。在这些文化资源和数据中,蕴含着大量的文化知识。相对于单调的资源列表,公众更喜欢从资源中挖掘出的知识。这些知识连接着各种不同的资源,因此,基于知识的资源共享,成为了一种更高层次的公共文化共享服务。
知识图谱是前沿人工智能技术,其基本思想来自于知识库技术,能够挖掘、管理、和分析大量的知识。知识图谱技术是一种交叉领域技术,涉及到知识工程、信息检索、语义网、大数据、自然语言处理、可视化技术、人工智能、机器学习、深度学习等领域。知识图谱可以将大规模数据中的隐藏的知识抽取出来,构建一个基于图的数据模型。对于知识图谱,可以使用多种分析方法进行深度的挖掘和分析。知识图谱应用广泛,可以用于认知研究、知识检索、语义搜索引擎、个性化推荐、金融欺诈分析、知识可视化等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱,如Google Knowledge Graph等,整合各个领域的知识,知识面广泛,但不深入。领域知识图谱服务于某一个特定领域,知识领域比较集中,但有较好的专业性和深度。
问题:当前的公共文化共享服务还停留在数据资源共享的阶段,用户获得的是列出的资源,例如,用户检索一个知识点,传统的检索系统返回给用户资源列表,用户必须逐个查看资源,从中提取和理解每个资源中的知识,其中还存有大量重复的知识。繁琐且枯燥的过程让用户对公共文化资源的兴趣迅速衰减。如何实现对公共文化知识领域中的快速、高效搜索公共文化知识成为了亟待解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决如何实现对公共文化知识领域中的快速、高效搜索公共文化知识的问题,本发明提供了一种公共文化知识图谱平台,包括:
用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。
优选地,所述采集处理系统包括数据采集处理模块、知识模板模块和知识挖掘模块;
所述数据采集处理模块,具体包括用于采集所有数据源并对其进行相应处理;
所述知识模板模块,用于在所述数据采集处理模块处理数据源时提供模板支持作为判定依据;
所述知识挖掘模块,用于在所述数据采集处理模块处理的数据中进行公共文化知识挖掘。
优选地,所述数据采集处理模块具体包括采集单元、数据清洗单元、数据转换单元、判定器单元和自然语言处理单元,
所述采集单元,用于采集数据源;
所述数据清洗单元,用于将所述采集单元所采集的所有数据源进行噪声数据消除和数据消重处理;
所述判定器单元,用于对所述数据清洗单元处理前的数据进行有效性判定,当判定结果为无效数据时,由所述数据清洗单元进行数据清洗;否则保留数据。
所述数据转换单元,用于将经所述数据清洗单元清洗后的数据进行格式转换;
所述自然语言处理单元,用于将经所述数据转换单元格式转换后的数据进行自然语言处理后存储。
优选地,所述知识挖掘模块具体包括知识抽取单元、知识融合单元、知识扩展单元和知识验证单元,
所述知识抽取单元与所述自然语言处理单元通信连接,用于将经所述语言处理单元自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;
所述知识融合单元,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;
所述知识扩展单元,用于对所述存储处理系统中所存储的公共文化知识进行数据扩展挖掘;
所述知识验证单元,用于对经所述知识融合单元和所述知识扩展单元处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统保存。
优选地,所述存储处理系统用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。
优选地,所述第一存储模块具体为关系型数据库集群,所述第二存储模块具体为分布式文件系统,所述第三存储模块具体为图数据库,所述第四存储模块具体为文档数据库,所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库。
优选地,所述公共文化知识图谱平台还包括与所述管理系统通信连接的调配处理系统,所述调配处理系统用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理。
优选地,所述调配处理系统中还包括用于为所述分析处理系统提供数据分析时所需使用计算框架的计算框架模块,为所述分析处理系统提供数据分析时所需使用算法的算法库模块,以及为所述存储处理系统中所存储的模型提供配置的模型管理模块。
本发明还提供了一种公共文化知识图谱平台的使用方法,包括:
接收公共文化知识的查询请求;
根据所述查询请求查询公共文化知识;
将查询到公共文化知识进行展示。
与现有技术相比,本发明至少具有以下优点:
通过本发明的设计,实现了对公共文化知识领域中的公共文化知识的快速、高效搜索,以及公共文化知识的聚合和挖掘。
附图说明
图1是本发明所提供的公共文化知识图谱平台中的公共文化知识图谱的示意图;
图2是本发明所提供的公共文化知识图谱平台的使用方法的流程示意图;
图3是本发明所提供的公共文化知识图谱平台工作流程的示意图
图4是本发明所提供的公共文化知识图谱平台的架构流程示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,描述了知识图谱平台中的知识图谱的基本结构。知识图谱的基本结构是图。图论中对图的基本定义为G=(V,E):V为点集,E为边集,G为图,由点跟边构成。
知识图谱由实体、实体属性、关系、关系属性构成。实体描述现实世界中的事物,如三国演义,罗贯中;实体属性描述实体的属性,如图1所示,上方的点是三国演义实体,它的2个属性是{名称:三国演义;题材:小说};关系描述实体之间的关系,如三国演义与罗贯中有关系,其属性描述为{小说:作者}。知识图谱的基本结构是图,其中实体表达为点,关系表达为点与点之间的连接线。
本发明提出一种公共文化知识图谱平台的使用方法,下面结合附图,对本发明具体实施方式进行详细说明。
如图2-4所示,该方法具体包括如下步骤:
步骤201,接收公共文化知识的查询请求。
步骤202,根据所述查询请求查询公共文化知识。
步骤203,将查询到的公共文化知识进行展示。
在上述步骤201-203中,在该公共文化知识图谱平台100接收到查询请求后,由服务处理系统104对外提供查询知识服务。其中,该服务处理系统104中具体包括了对于公共文化知识的实体、属性、和关系的搜索的知识查询模块1041,提供了公共文化知识的知识分析模块1042,允许第三方应用系统配置个性化的知识图谱的知识图谱配置模块1043和为第三方应用系统提供了用于知识可视化的一系列方法的知识可视化模块1044。
对于知识图谱配置模块1043而言,举例,很多应用只涉及到很小的子图的分析,而不是整个知识图谱。通过该知识图谱配置模块1043所设置的性质,可以在分析的初期先提取出有效的子图,提高分析的效率;该知识可视化模块1044相关的一系列方法中,可以是但不局限于基于浏览器HTML5方法和Javascript方法,从而实现通过图形界面展示用户感兴趣的公共文化知识。
本发明所提供的公共文化知识图谱平台100中,包括用于采集公共文化知识的采集处理系统101,用于存储经所述采集处理系统101所采集处理后的公共文化知识的存储处理系统102,用于将所述存储处理系统102所存储的公共文化知识进行分析处理的分析处理系统103,提供公共文化知识查询的服务处理系统104和对各处理系统实现调配管理的管理系统105。
其中,所述采集处理系统101包括数据采集处理模块1011、知识模板模块1012和知识挖掘模块1013;
所述数据采集处理模块1011,具体用于采集所有数据源并对其进行相应处理;对于数据源,其包含多种不同的数据来源:公共文化机构网站、中文百科网站、中文词库、中文文化网站。公共文化机构网站是指公共文化机构所建立的网站,例如国家博物馆网站、中国美术馆网站、国家图书馆网站、群艺馆网站、地区文化馆网站。中文百科网站包括但不局限于百度百科、维基百科中文版(结构化数据DBpedia)、互动百科等。中文词库是一种半结构化的数据,记录的中文单词的含义、属性、关系等,可以用来进行同义词匹配。HowNet是一种高效的中文词典。中文文化网站是指专业的中国文化网站、各大网站的中国文化频道(如搜狐文化、凤凰文化)、垂直的文化网站(如豆瓣网)。
进一步地,所述数据采集处理模块1011具体包括采集单元10111、数据清洗单元10112、数据转换单元10113、判定器单元10114和语言处理单元10115,
所述采集单元10111,用于采集数据源;
所述数据清洗单元10112,用于将所述采集单元10111所采集的所有数据源进行噪声数据消除和数据消重处理;
所述判定器单元10114,用于对所述数据清洗单元10112处理前的数据进行有效性判定,如果判定为无效数据,则由所述数据清洗单元10112进行清洗,否则保留数据。该判定器单元10114是一个二元分类器,能够自动判定输入的网页数据是否有效。此处有效数据的含义是该网页的内容属于公共文化范畴(即是非噪声数据)并且该网页与已经采集的网页内容重复率不超过预设阀值(即是非重复网页);判定器单元10114使用大量的数据集对判定器进行训练,用于构建和优化判定器模型;其中,所提供的判定器可以包括:启发式判定器和模板式判定器;启发式判定器使用公共文化语料库和分类算法构建二元分类器;模板式判定器使用公共文化分类库和预定义的知识模板模块,对所输入的数据进行类型匹配,判断其是否属于公共文化范畴。
所述数据转换单元10113,用于将经所述数据清洗单元10112清洗后的数据进行格式转换;
所述语言处理单元10115,用于将经所述数据转换单元10113格式转换后的数据进行自然语言处理。具体的,自然语言处理单元10115使用格式转换完毕的数据构建和管理语料库。语料库的数据通过中文处理子单元,进行中文分词、词性标注、和关键词提取等自然语言处理工作。这些工作是知识挖掘模块进行知识挖掘的前提条件。
所述知识模板模块1012,用于在所述数据采集处理模块1011处理数据源时提供模板支持作为判定依据;知识模板模块1012中的知识模板由公共文化领域专家制定,包含公共文化本体模板10121和公共文化挖掘规则10122。知识模板模块1012为判定器单元10114和知识挖掘模块1013提供支持。其中,公共文化本体模板10121包含公共文化概念和概念之间的关系,是公共文化图谱中的实体和关系的模板。公共文化概念定义了公共文化实体的类型和相关属性,概念之间的关系可以映射为实体之间的关系。概念是实体的抽象,概念的关系是实体之间关系的抽象。例如:概念:小说,实体:三国演义;概念的关系:小说-作者,实体之间的关系:三国演义-罗贯中。公共文化本体模板10122用来进行实体的判定和关系的识别。
所述知识挖掘模块1013,用于在所述数据采集处理模块1011处理的数据中进行公共文化知识挖掘。该模块具体包括知识抽取单元10131、知识融合单元10132、知识扩展单元10133和知识验证单元10134。
所述知识抽取单元10131与所述自然语言处理单元10115通信连接,用于将经所述自然语言处理单元10115进行自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;在进行知识抽取时,所使用方法可以是但不局限于:实体抽取使用CRF条件随机场算法,关系抽取使用Bootstrapping方法。
所述知识融合单元10132,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;有些实体名字不同,但表达的事物是相同或者非常相似的,比如计算机和电脑。同样,该单元也对相同或者非常相似的属性和关系进行融合,如“名字”和“姓名”是相同属性。该单元可以使用的方法包含但不局限于基于NowNet的同义词模板法、词向量语义分析算法、主题模型分析算法等。
所述知识扩展单元10133,用于对所述存储处理系统102中所存储的公共文化知识进行数据扩展挖掘;包括新关系的挖掘和新属性的挖掘。可以使用的方法包括但不局限于基于规则的逻辑推理方法、基于机器学习的分类和聚类方法等。如图1所示,实体“三国演义”的属性“题材”值为“小说”,其作者“罗贯中”所处的朝代为“明朝”,因此,通过逻辑推理方法,就可以得到“三国演义”的新属性“年代:明朝”。
所述知识验证单元10134,用于对经所述知识融合单元10132和所述知识扩展单元10133处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统102保存。
在所述存储处理系统102中,其也为公共文化知识数据库102,用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。其中,公共文化知识数据库102中所使用由数据采集处理系统101获取的组成部件来创建、更新、和管理公共文化知识图谱,以及管理跟公共文化知识图谱紧密相关的非结构化数据,例如文本文档、图片、音频、视频。知识图谱模型物理存储在图数据库中,非结构化数据物理存储在文档数据库、分布式文件系统和其他相应的数据存储中,并将存储地址保存在公共文化知识图谱的属性中,公共文化知识数据库102进行逻辑上的操作和管理。
其中,所述第一存储模块具体为关系型数据库集群,如MySQL Cluster;所述第二存储模块具体为分布式文件系统,如Ceph;所述第三存储模块具体为图数据库,如OrientDB;所述第四存储模块具体为文档数据库,如MongoDB;所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库,如HBase。
在分析处理系统103中,分析方法包括:搜索、推理、排序、聚类、分类、相似度等。该分析处理系统103使用但不局限于机器学习方法、基于规则的推理方法、深度学习方法等。
在该公共文化知识图谱平台100中,还包括与所述管理系统105通信连接的调配处理系统106,所述调配处理系统106用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理;该调配处理系统106中还包括用于为所述分析处理系统103提供数据分析时所需使用计算框架的计算框架模块1061,为所述分析处理系统103提供数据分析时所需使用算法的算法库模块1062,以及为所述存储处理系统102中所存储的模型提供配置的模型管理模块1063。该调配处理系统106是对公共文化知识图谱平台100的硬件资源和基础设施进行管理。硬件管理包括计算设备、存储设备、网络设备、安全设备、辅助设备等。公共文化知识图谱平台100使用虚拟化技术Open Stack+KVM将硬件资源转化为虚拟资源,如虚拟机、虚拟网络等。之后使用计算机集群技术组件虚拟计算机集群并由该调配处理系统106进行统一管理。公共文化知识图谱平台100中创建的存储、计算等其他模块都部署安装在虚拟计算机集群上。
上述调配处理系统106中,计算框架模块1061包含了各种所需的计算框架,包括分布式并行计算框架,如Hadoop MapReduce,用于大数据批处理;图计算框架,如SparkGraphX,结合图数据库,对知识图谱进行分析;内存计算框架,如Apache Spark,用于小规模快速分析;流计算框架,如Spark Streaming,用于实时计算,如实时统计;SparQL是用于RDF遍历的脚本语言,计算框架中提供SparQL环境,用于对本体模型的分析;Gremlin是一种用于图遍历的脚本语言,可以用于公共文化知识图谱的遍历和分析。
该算法库模块1062管理着部署在公共文化知识图谱平台100的知识图谱分析算法,涉及到机器学习算法、深度学习算法、以及自然语言处理算法等。
该模型管理模块1063管理着公共文化知识数据库102和知识模版模块1012。该模块维护着各种模型所需的软件环境和配置信息。
该管理系统105管理和协调着各个处理系统,同时它还包括安全管理、消息系统、日志系统、性能监控、系统配置管理、缓存系统、用户管理等。
对于该公共文化知识图谱平台100而言,其中还包括运行环境系统107,通过该系统提供了各种用于提供服务的运行环境,包含但不局限于Web服务器,如Apache服务器;(反向)代理服务器,如NginX;应用服务器,如Tomcat服务器;API管理服务器等。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种公共文化知识图谱平台,其特征在于,包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。
2.根据权利要求1所述的公共文化知识图谱平台,其特征在于,所述采集处理系统包括数据采集处理模块、知识模板模块和知识挖掘模块;
所述数据采集处理模块,具体包括用于采集所有数据源并对其进行相应处理;
所述知识模板模块,用于在所述数据采集处理模块处理数据源时提供模板支持作为判定依据;
所述知识挖掘模块,用于在所述数据采集处理模块处理的数据中进行公共文化知识挖掘。
3.根据权利要求2所述的公共文化知识图谱平台,其特征在于,所述数据采集处理模块具体包括采集单元、数据清洗单元、数据转换单元、判定器单元和自然语言处理单元,
所述采集单元,用于采集数据源;
所述数据清洗单元,用于将所述采集单元所采集的所有数据源进行噪声数据消除和数据消重处理;
所述判定器单元,用于对所述数据清洗单元处理前的数据进行有效性判定,当判定结果为无效数据时,由所述数据清洗单元进行数据清洗;否则,保留数据;
所述数据转换单元,用于将经所述数据清洗单元清洗后的数据进行格式转换;
所述自然语言处理单元,用于将经所述数据转换单元格式转换后的数据进行自然语言处理后存储。
4.根据权利要求3所述的公共文化知识图谱平台,其特征在于,所述知识挖掘模块具体包括知识抽取单元、知识融合单元、知识扩展单元和知识验证单元,
所述知识抽取单元与所述语言处理单元通信连接,用于将经所述自然语言处理单元自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;
所述知识融合单元,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;
所述知识扩展单元,用于对所述存储处理系统中所存储的公共文化知识进行数据扩展挖掘;
所述知识验证单元,用于对经所述知识融合单元和所述知识扩展单元处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统保存。
5.根据权利要求1所述的公共文化知识图谱平台,其特征在于,所述存储处理系统用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。
6.根据权利要求5所述的公共文化知识图谱平台,其特征在于,所述第一存储模块具体为关系型数据库集群,所述第二存储模块具体为分布式文件系统,所述第三存储模块具体为图数据库,所述第四存储模块具体为文档数据库,所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库。
7.根据权利要求1所述的公共文化知识图谱平台,其特征在于,所述公共文化知识图谱平台还包括与所述管理系统通信连接的调配处理系统,所述调配处理系统用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理。
8.根据权利要求7所述的公共文化知识图谱平台,其特征在于,所述调配处理系统中还包括用于为所述分析处理系统提供数据分析时所需使用计算框架的计算框架模块,为所述分析处理系统提供数据分析时所需使用算法的算法库模块,以及为所述存储处理系统中所存储的模型提供配置的模型管理模块。
9.一种基于权利要求1-8所述的公共文化知识图谱平台的使用方法,其特征在于,包括:
接收公共文化知识的查询请求;
根据所述查询请求查询公共文化知识;
将查询到的公共文化知识进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611170815.XA CN106815307A (zh) | 2016-12-16 | 2016-12-16 | 公共文化知识图谱平台及其使用办法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611170815.XA CN106815307A (zh) | 2016-12-16 | 2016-12-16 | 公共文化知识图谱平台及其使用办法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106815307A true CN106815307A (zh) | 2017-06-09 |
Family
ID=59109420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611170815.XA Pending CN106815307A (zh) | 2016-12-16 | 2016-12-16 | 公共文化知识图谱平台及其使用办法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815307A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622109A (zh) * | 2017-09-14 | 2018-01-23 | 北京航空航天大学 | 一种面向工程知识管理的领域子本体的界定方法 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN108900917A (zh) * | 2018-07-09 | 2018-11-27 | 东北大学 | 一种面向知识结构的在线教学视频播放系统及方法 |
CN109145098A (zh) * | 2018-07-20 | 2019-01-04 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109271561A (zh) * | 2018-09-19 | 2019-01-25 | 苏宁易购集团股份有限公司 | 一种图谱信息检索方法及装置 |
CN109710935A (zh) * | 2018-12-26 | 2019-05-03 | 北京航空航天大学 | 一种基于文物知识图谱的博物馆导览与知识推荐方法 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN110197280A (zh) * | 2019-05-20 | 2019-09-03 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110674316A (zh) * | 2019-09-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种数据转换的方法及相关装置 |
CN110704411A (zh) * | 2019-09-27 | 2020-01-17 | 京东方科技集团股份有限公司 | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 |
CN111046194A (zh) * | 2019-12-31 | 2020-04-21 | 重庆和贯科技有限公司 | 构建多模态教学知识图谱的方法 |
CN111475653A (zh) * | 2019-12-30 | 2020-07-31 | 北京国双科技有限公司 | 油气勘探开发领域的知识图谱的构建方法及装置 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN113342808A (zh) * | 2021-05-26 | 2021-09-03 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN117150050A (zh) * | 2023-10-31 | 2023-12-01 | 卓世科技(海南)有限公司 | 一种基于大语言模型的知识图谱构建方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577605A (zh) * | 2013-11-20 | 2014-02-12 | 贵州电网公司电力调度控制中心 | 基于数据融合和数据挖掘的数据仓库及其应用方法 |
CN103646025A (zh) * | 2013-10-24 | 2014-03-19 | 三星电子(中国)研发中心 | 一种基于推理的层级知识库构建系统和方法 |
CN104115144A (zh) * | 2011-12-12 | 2014-10-22 | 安大略理工大学 | 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 |
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN106168965A (zh) * | 2016-07-01 | 2016-11-30 | 竹间智能科技(上海)有限公司 | 知识图谱构建系统 |
-
2016
- 2016-12-16 CN CN201611170815.XA patent/CN106815307A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104115144A (zh) * | 2011-12-12 | 2014-10-22 | 安大略理工大学 | 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 |
CN103646025A (zh) * | 2013-10-24 | 2014-03-19 | 三星电子(中国)研发中心 | 一种基于推理的层级知识库构建系统和方法 |
CN103577605A (zh) * | 2013-11-20 | 2014-02-12 | 贵州电网公司电力调度控制中心 | 基于数据融合和数据挖掘的数据仓库及其应用方法 |
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN106168965A (zh) * | 2016-07-01 | 2016-11-30 | 竹间智能科技(上海)有限公司 | 知识图谱构建系统 |
Non-Patent Citations (1)
Title |
---|
高国伟等: "基于知识元的知识库架构模型研究", 《情报科学》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622109A (zh) * | 2017-09-14 | 2018-01-23 | 北京航空航天大学 | 一种面向工程知识管理的领域子本体的界定方法 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN108900917A (zh) * | 2018-07-09 | 2018-11-27 | 东北大学 | 一种面向知识结构的在线教学视频播放系统及方法 |
CN109145098A (zh) * | 2018-07-20 | 2019-01-04 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109145098B (zh) * | 2018-07-20 | 2021-10-29 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109271561B (zh) * | 2018-09-19 | 2021-10-29 | 南京星云数字技术有限公司 | 一种图谱信息检索方法及装置 |
CN109271561A (zh) * | 2018-09-19 | 2019-01-25 | 苏宁易购集团股份有限公司 | 一种图谱信息检索方法及装置 |
CN109710935B (zh) * | 2018-12-26 | 2021-03-26 | 北京航空航天大学 | 一种基于文物知识图谱的博物馆导览与知识推荐方法 |
CN109710935A (zh) * | 2018-12-26 | 2019-05-03 | 北京航空航天大学 | 一种基于文物知识图谱的博物馆导览与知识推荐方法 |
CN110197280B (zh) * | 2019-05-20 | 2021-08-06 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110197280A (zh) * | 2019-05-20 | 2019-09-03 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110502645B (zh) * | 2019-08-28 | 2022-07-08 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110674316A (zh) * | 2019-09-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种数据转换的方法及相关装置 |
US11899681B2 (en) | 2019-09-27 | 2024-02-13 | Boe Technology Group Co., Ltd. | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium |
CN110704411A (zh) * | 2019-09-27 | 2020-01-17 | 京东方科技集团股份有限公司 | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 |
CN111475653A (zh) * | 2019-12-30 | 2020-07-31 | 北京国双科技有限公司 | 油气勘探开发领域的知识图谱的构建方法及装置 |
CN111475653B (zh) * | 2019-12-30 | 2021-03-02 | 北京国双科技有限公司 | 油气勘探开发领域的知识图谱的构建方法及装置 |
CN111046194A (zh) * | 2019-12-31 | 2020-04-21 | 重庆和贯科技有限公司 | 构建多模态教学知识图谱的方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN111709235B (zh) * | 2020-05-28 | 2023-10-20 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN113342808B (zh) * | 2021-05-26 | 2022-11-08 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN113342808A (zh) * | 2021-05-26 | 2021-09-03 | 电子科技大学 | 一种基于机电设备的知识图谱推理引擎架构系统 |
CN117150050A (zh) * | 2023-10-31 | 2023-12-01 | 卓世科技(海南)有限公司 | 一种基于大语言模型的知识图谱构建方法及系统 |
CN117150050B (zh) * | 2023-10-31 | 2024-01-26 | 卓世科技(海南)有限公司 | 一种基于大语言模型的知识图谱构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
US10740678B2 (en) | Concept hierarchies | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN111967761B (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Hariharakrishnan et al. | Survey of pre-processing techniques for mining big data | |
CN105912684B (zh) | 基于视觉特征和语义特征的跨媒体检索方法 | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
KR102593171B1 (ko) | 정보 처리 방법, 장치, 전자 기기 및 저장 매체 | |
Nikhil et al. | A survey on text mining and sentiment analysis for unstructured web data | |
WO2015093539A1 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
Das et al. | A CV parser model using entity extraction process and big data tools | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
CN109902185A (zh) | 一种基于DBpedia的水务领域概念知识图谱构建方法 | |
Bu et al. | An FAR-SW based approach for webpage information extraction | |
Shu et al. | Automatic extraction of web page text information based on network topology coincidence degree | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170609 |