CN112732845A - 一种基于端到端的大型知识图谱构建和存储方法和系统 - Google Patents
一种基于端到端的大型知识图谱构建和存储方法和系统 Download PDFInfo
- Publication number
- CN112732845A CN112732845A CN202110106762.XA CN202110106762A CN112732845A CN 112732845 A CN112732845 A CN 112732845A CN 202110106762 A CN202110106762 A CN 202110106762A CN 112732845 A CN112732845 A CN 112732845A
- Authority
- CN
- China
- Prior art keywords
- module
- knowledge
- data
- extraction
- construction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于端到端的大型知识图谱构建和存储方法和系统,包括知识图谱构建系统、知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块,且知识图谱构建系统分别与知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块通讯连接;其中,知识构建模块包括知识获取模块、知识融合模块、知识评估模块和知识更新模块;知识应用模块包括认识服务模块、语言理解模块和推理引擎模块;推理引擎模块分别与认识服务模块和语言理解模块通讯连接,语言理解模块与认识服务模块通讯连接。本发明能更快高效的获取所需数据;通过数据清洗与完善模块和处理储存模块中的数据整合、数据清洗和数据更新配合,方便快速查找。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于端到端的大型知识图谱构建和存储方法和系统。
背景技术
狭义地讲,知识图谱是由Google公司在2012年提出来的一个新的概念,其被互联网公司用来从语义角度组织网络数据,从而提供智能搜索服务的大型知识库。形式上,知识图谱是一个用图数据结构表示的知识载体,描述客观世界的事物及其关系,其中节点代表客观世界的事物,边代表事物之间的关系知识图谱是人工智能应用不可或缺的基础资源;目前,知识图谱已在金融、电商等多个垂直领域落地,高质量的知识逐渐成为企业竞争力的重要表现之一;但是,数据规模大、来源丰富、类型复杂、变化迅速等诸多特征使得对互联网中数据的挖掘和充分利用充满挑战。知识图谱通过深入的语义分析和数据挖掘,将海量的互联网数据高效组织为知识网络,以直观的方式对知识进行搜索和展现,同时也为大数据分析、智能问答、个性化推荐等提供重要保障。目前,针对知识图谱构建方面存在以下问题:知识图谱的构建数据库内数据丰富,客户端在进行搜索获取时不能很好地去识别和筛选有效的数据,同时数据库内数据整合分离不方便,导致搜索效率低,数据的储存更新以及数据筛选不够快捷。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于端到端的大型知识图谱构建和存储方法和系统,通过认识服务模块和语言理解模块开很好的识别有效数据,通过知识获取模块来获取的客户端箱搜索的目标以及其选择的获取方式,使得客户能更快高效的获取所需数据;通过数据清洗与完善模块和处理储存模块中的数据整合、数据清洗和数据更新配合,多次梳理,将数据库内容整理分类,方便快速查找。
(二)技术方案
本发明提供了一种基于端到端的大型知识图谱构建和存储方法和系统,包括知识图谱构建系统、知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块,且知识图谱构建系统分别与知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块通讯连接;其中,知识构建模块包括知识获取模块、知识融合模块、知识评估模块和知识更新模块;知识应用模块包括认识服务模块、语言理解模块和推理引擎模块;推理引擎模块分别与认识服务模块和语言理解模块通讯连接,语言理解模块与认识服务模块通讯连接;
知识获取模块,用于从不同来源、不同结构的数据中进行数据信息获取;
知识融合模块,用于对多种不同来源的数据进行融合;
知识评估模块,用于对数据进行人工验证和三元组置信度算法评估,其中人工验证包括众包验证、抽取验证和批量验证;
知识更新模块,用于知识补全、知识纠错和同步更新;
知识管理模块,用于通过RDF这样的规范存储格式来进行存储知识数据或者通Neo4j来进行存储知识数据;
认识服务模块,用于为客户端用户提供搜索服务;
语言理解模块,用于对客户端输入的信息进行分析理解,并提供相应的数据给客户端;
推理引擎模块,用于提供交互和推理的模块,使得推理可以按照预设的流程进行下去;
知识抽取模块,用于对数据进行识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中;
处理储存模块,用于对处理后的数据进行存储。
优选的,知识获取模块包括数据获取目标模块、数据获取方式模块和数据清洗与完善模块;
数据获取目标模块,用于分析数据并确定搜索目标;
数据获取方式模块,用于从不同的网站去获取所需要的信息数据;
数据清洗与完善模块,用于,对获取的目标数据进行整合并去除重复以及不正确的数据,对数据进行完善。
优选的,认识服务模块包括语义搜索模块、智能推荐模块、答问交互模块和解释生成模块;
语义搜索模块,用于根据意图分类、意图识别搜索扩展等方式来进行搜索;
智能推荐模块,用于根据实体推荐、上下位推荐和场景推荐等来进行推荐;
答问交互模块,用于根据问题理解、属性匹配和会话引导来进行答复;
解释生成模块,用于根据路径发现、解释匹配、热点捕捉等进行生产数据。
优选的,数据信息包括结构化数据、半结构化数据和非结构化数据。
优选的,知识抽取模块包括实体抽取、关系抽取和属性抽取。
优选的,处理储存模块包括数据整合、数据清洗、数据更新和数据存储。
优选的,语言理解模块包括实体链接、概念识别、属性理解和主体识别。
与现有技术相比,本发明的上述技术方案具有如下有益的技术效果:通过认识服务模块和语言理解模块开很好的识别有效数据,通过知识获取模块来获取的客户端箱搜索的目标以及其选择的获取方式,使得客户能更快高效的获取所需数据;通过数据清洗与完善模块和处理储存模块中的数据整合、数据清洗和数据更新配合,多次梳理,将数据库内容整理分类,方便快速查找。
附图说明
图1为本发明提出的一种基于端到端的大型知识图谱构建和存储方法和系统的框图。
图2为本发明提出的一种基于端到端的大型知识图谱构建和存储方法和系统中数据整合的流程图。
图3为本发明提出的一种基于端到端的大型知识图谱构建和存储方法和系统中知识应用模块的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-3所示,本发明提出的一种基于端到端的大型知识图谱构建和存储方法和系统,包括知识图谱构建系统、知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块,且知识图谱构建系统分别与知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块通讯连接;其中,知识构建模块包括知识获取模块、知识融合模块、知识评估模块和知识更新模块;知识应用模块包括认识服务模块、语言理解模块和推理引擎模块;推理引擎模块分别与认识服务模块和语言理解模块通讯连接,语言理解模块与认识服务模块通讯连接;
知识获取模块,用于从不同来源、不同结构的数据中进行数据信息获取;
知识融合模块,用于对多种不同来源的数据进行融合;
知识评估模块,用于对数据进行人工验证和三元组置信度算法评估,其中人工验证包括众包验证、抽取验证和批量验证;
知识更新模块,用于知识补全、知识纠错和同步更新;
知识管理模块,用于通过RDF这样的规范存储格式来进行存储知识数据或者通Neo4j来进行存储知识数据;
认识服务模块,用于为客户端用户提供搜索服务;
语言理解模块,用于对客户端输入的信息进行分析理解,并提供相应的数据给客户端;
推理引擎模块,用于提供交互和推理的模块,使得推理可以按照预设的流程进行下去;
知识抽取模块,用于对数据进行识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中;
处理储存模块,用于对处理后的数据进行存储。
在一个可选的实施例中,知识获取模块包括数据获取目标模块、数据获取方式模块和数据清洗与完善模块;
数据获取目标模块,用于分析数据并确定搜索目标;
数据获取方式模块,用于从不同的网站去获取所需要的信息数据;
数据清洗与完善模块,用于,对获取的目标数据进行整合并去除重复以及不正确的数据,对数据进行完善。
在一个可选的实施例中,认识服务模块包括语义搜索模块、智能推荐模块、答问交互模块和解释生成模块;
语义搜索模块,用于根据意图分类、意图识别搜索扩展等方式来进行搜索;
智能推荐模块,用于根据实体推荐、上下位推荐和场景推荐等来进行推荐;
答问交互模块,用于根据问题理解、属性匹配和会话引导来进行答复;
解释生成模块,用于根据路径发现、解释匹配、热点捕捉等进行生产数据。
在一个可选的实施例中,数据信息包括结构化数据、半结构化数据和非结构化数据。
在一个可选的实施例中,知识抽取模块包括实体抽取、关系抽取和属性抽取。
在一个可选的实施例中,处理储存模块包括数据整合、数据清洗、数据更新和数据存储。
在一个可选的实施例中,语言理解模块包括实体链接、概念识别、属性理解和主体识别。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (7)
1.一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,包括知识图谱构建系统、知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块,且知识图谱构建系统分别与知识构建模块、知识管理模块、知识应用模块、知识抽取模块和处理储存模块通讯连接;其中,知识构建模块包括知识获取模块、知识融合模块、知识评估模块和知识更新模块;知识应用模块包括认识服务模块、语言理解模块和推理引擎模块;推理引擎模块分别与认识服务模块和语言理解模块通讯连接,语言理解模块与认识服务模块通讯连接;
知识获取模块,用于从不同来源、不同结构的数据中进行数据信息获取;
知识融合模块,用于对多种不同来源的数据进行融合;
知识评估模块,用于对数据进行人工验证和三元组置信度算法评估,其中人工验证包括众包验证、抽取验证和批量验证;
知识更新模块,用于知识补全、知识纠错和同步更新;
知识管理模块,用于通过RDF这样的规范存储格式来进行存储知识数据或者通Neo4j来进行存储知识数据;
认识服务模块,用于为客户端用户提供搜索服务;
语言理解模块,用于对客户端输入的信息进行分析理解,并提供相应的数据给客户端;
推理引擎模块,用于提供交互和推理的模块,使得推理可以按照预设的流程进行下去;
知识抽取模块,用于对数据进行识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中;
处理储存模块,用于对处理后的数据进行存储。
2.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,知识获取模块包括数据获取目标模块、数据获取方式模块和数据清洗与完善模块;
数据获取目标模块,用于分析数据并确定搜索目标;
数据获取方式模块,用于从不同的网站去获取所需要的信息数据;
数据清洗与完善模块,用于,对获取的目标数据进行整合并去除重复以及不正确的数据,对数据进行完善。
3.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,认识服务模块包括语义搜索模块、智能推荐模块、答问交互模块和解释生成模块;
语义搜索模块,用于根据意图分类、意图识别搜索扩展等方式来进行搜索;
智能推荐模块,用于根据实体推荐、上下位推荐和场景推荐等来进行推荐;
答问交互模块,用于根据问题理解、属性匹配和会话引导来进行答复;
解释生成模块,用于根据路径发现、解释匹配、热点捕捉等进行生产数据。
4.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,数据信息包括结构化数据、半结构化数据和非结构化数据。
5.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,知识抽取模块包括实体抽取、关系抽取和属性抽取。
6.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,处理储存模块包括数据整合、数据清洗、数据更新和数据存储。
7.根据权利要求1所述的一种基于端到端的大型知识图谱构建和存储方法和系统,其特征在于,语言理解模块包括实体链接、概念识别、属性理解和主体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110106762.XA CN112732845A (zh) | 2021-01-26 | 2021-01-26 | 一种基于端到端的大型知识图谱构建和存储方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110106762.XA CN112732845A (zh) | 2021-01-26 | 2021-01-26 | 一种基于端到端的大型知识图谱构建和存储方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732845A true CN112732845A (zh) | 2021-04-30 |
Family
ID=75593587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110106762.XA Pending CN112732845A (zh) | 2021-01-26 | 2021-01-26 | 一种基于端到端的大型知识图谱构建和存储方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438199A (zh) * | 2022-11-08 | 2022-12-06 | 眉山环天智慧科技有限公司 | 一种基于智慧城市场景数据中台技术的知识平台系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092474A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Declarative language and visualization system for recommended data transformations and repairs |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN110347811A (zh) * | 2019-06-11 | 2019-10-18 | 福建奇点时空数字科技有限公司 | 一种基于人工智能的专业知识问答机器人系统 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN111078897A (zh) * | 2019-12-26 | 2020-04-28 | 国衡智慧城市科技研究院(北京)有限公司 | 一种生成六维知识图谱的系统 |
CN112148890A (zh) * | 2020-09-23 | 2020-12-29 | 中国科学院自动化研究所 | 基于网络群体智能的教学知识点图谱系统 |
-
2021
- 2021-01-26 CN CN202110106762.XA patent/CN112732845A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092474A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Declarative language and visualization system for recommended data transformations and repairs |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN110347811A (zh) * | 2019-06-11 | 2019-10-18 | 福建奇点时空数字科技有限公司 | 一种基于人工智能的专业知识问答机器人系统 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN111078897A (zh) * | 2019-12-26 | 2020-04-28 | 国衡智慧城市科技研究院(北京)有限公司 | 一种生成六维知识图谱的系统 |
CN112148890A (zh) * | 2020-09-23 | 2020-12-29 | 中国科学院自动化研究所 | 基于网络群体智能的教学知识点图谱系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438199A (zh) * | 2022-11-08 | 2022-12-06 | 眉山环天智慧科技有限公司 | 一种基于智慧城市场景数据中台技术的知识平台系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
CN110941612B (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
CN109582799B (zh) | 知识样本数据集的确定方法、装置及电子设备 | |
CN111353106B (zh) | 推荐方法和装置、电子设备和存储介质 | |
CN111694965B (zh) | 一种基于多模态知识图谱的图像场景检索系统及方法 | |
CN111967761B (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN102968465B (zh) | 网络信息服务平台及其基于该平台的搜索服务方法 | |
CN105893611B (zh) | 一种构建面向社交网络的兴趣主题语义网络的方法 | |
CN110909170B (zh) | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN105512316A (zh) | 一种结合移动终端的知识服务系统 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN111475625A (zh) | 基于知识图谱的新闻稿件生成方法及系统 | |
KR101696499B1 (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
US10380065B2 (en) | Method for establishing a digitized interpretation base of dongba classic ancient books | |
CN113360599A (zh) | 一种基于内容识别的多源异构情报汇聚协同处理平台 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Al-Najran et al. | A requirements specification framework for big data collection and capture | |
CN112732845A (zh) | 一种基于端到端的大型知识图谱构建和存储方法和系统 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
JP5639549B2 (ja) | 情報検索装置及び方法及びプログラム | |
CN116521729A (zh) | 一种基于Elasticsearch的信息分类搜索方法及装置 | |
CN116662342A (zh) | 一种基于知识图谱的异构数据融合索引系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |