CN117271795A - 一种跨领域迁移的知识管理方法及知识库系统 - Google Patents
一种跨领域迁移的知识管理方法及知识库系统 Download PDFInfo
- Publication number
- CN117271795A CN117271795A CN202311217943.5A CN202311217943A CN117271795A CN 117271795 A CN117271795 A CN 117271795A CN 202311217943 A CN202311217943 A CN 202311217943A CN 117271795 A CN117271795 A CN 117271795A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- knowledge base
- target
- classification
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 137
- 230000005012 migration Effects 0.000 title claims abstract description 26
- 238000013508 migration Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000008451 emotion Effects 0.000 claims description 95
- 230000006870 function Effects 0.000 claims description 52
- 230000009471 action Effects 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 15
- 125000000524 functional group Chemical group 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 13
- 239000011664 nicotinic acid Substances 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 230000009193 crawling Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 48
- 238000010586 diagram Methods 0.000 description 21
- 238000012423 maintenance Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- PGLIUCLTXOYQMV-UHFFFAOYSA-N Cetirizine hydrochloride Chemical compound Cl.Cl.C1CN(CCOCC(=O)O)CCN1C(C=1C=CC(Cl)=CC=1)C1=CC=CC=C1 PGLIUCLTXOYQMV-UHFFFAOYSA-N 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种跨领域迁移的知识管理方法及知识库系统,所述方法包括:获取多个领域的知识内容对应的每个领域的目标知识库,将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于知识数据库查询每一领域的知识内容。
Description
技术领域
本申请涉及数据库技术领域,具体而言,涉及一种跨领域迁移的知识管理方法及知识库系统。
背景技术
随着互联网的高速发展,其中的信息也随之急剧增长,这些互联网上拥有的海量的知识内容,具有数据量巨大、数据结构复杂以及组织无序等特点,对此,可以通过构建不同领域的知识数据库来对这些知识内容进行存储,以便于应用。
目前,主要使用自动或者半自动知识抽取方法,通过定制的爬虫对领域内的百科类站点、垂直网站的词汇进行抓取,从而获取网页详情页面的对象属性、表格等半结构化的数据信息以构建该领域对应的知识数据库。
但是,该方法只能对抓取的词汇进行简单的分类,在海量且无序的知识内容中无法更深层的区分抓取到的词汇表达的更具体的用户的需求,并且由于该知识数据库的结构并不合理,使得知识数据库的数据冗余较多,因此在知识数据库中查询数据时,需要花费比较多的时间,且时延较大,使得用户体验较差。
发明内容
有鉴于此,本申请的目的在于提供一种跨领域迁移的知识管理方法及知识库系统,能够将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,通过多个目标知识库之间的关联获得知识数据库,减少了知识数据库的数据冗余,有利于知识数据库的管理和维护,因此在通过该知识数据库进行查询时,减少了查询时间,降低了查询时延,从而提高了用户体验。
第一方面,本申请实施例提供了一种跨领域迁移的知识管理方法,所述方法包括:
获取多个领域的知识内容对应的每个领域的目标知识库;其中,所述目标知识库中的知识内容包括文本信息和图片信息,所述文本信息包括基本属性和创新属性,所述创新属性包括功能属性、发明原理属性和情感词汇,多个领域的知识内容对应的目标知识库不同;
将包括所述文本信息和所述图片信息的每一领域的目标知识库存储到数据库管理系统中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果;
对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格;其中,所述分类表格包括知识内容分类表格和创新属性分类表格,所述创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格;
关联所述数据库管理系统中每一目标知识库对应的所述文本信息表格、所述分类表格和所述分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于所述知识数据库查询每一领域的知识内容。
在一种可能的实施方式中,所述获取多个领域的知识内容对应的每个领域的目标知识库,包括:
基于爬虫工具在网络上分别爬取多个领域的知识内容;
构建所述多个领域的知识内容分别对应的知识表达模板;其中,所述不同领域的知识内容对应不同的知识表达模板,所述知识表达模板包括基本属性模板和创新属性模板;
针对每一个领域的知识内容,确定该领域的知识内容对应的知识表达模板,并将所述知识内容写入对应的所述知识表达模板,以得到每个领域的所述目标知识库;所述目标知识库包括专利库、机电领域知识库、科学效应库、仿生知识库、发明原理库、设计原理库、情感语义库等。
在一种可能的实施方式中,所述将包括所述文本信息和所述图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,包括:
在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格;
基于分布式对象存储器存储所述目标知识库的图片信息,得到该领域的图片信息的图片信息存储结果,并在所述数据库管理系统中关联所述文本信息表格和所述图片信息存储结果。
在一种可能的实施方式中,所述文本信息表格包括基本属性表格和创新属性表格;所述在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格,包括:
获取所述目标知识库的所述文本信息的创新属性;
在所述数据库管理系统中建立所述目标知识库对应的表结构,并基于所述表结构存储对应的所述目标知识库中的所述知识内容的所述基本属性和所述创新属性,以生成每一目标知识库的基本属性表格和创新属性表格;其中,所述创新属性表格包括功能属性表格、发明原理属性表格和情感词汇表格。
在一种可能的实施方式中,所述获取所述目标知识库的所述文本信息的创新属性,包括:
获取预训练语言模型,并对所述预训练语言模型进行训练,以得到对应的文本分类模型;
基于所述文本分类模型提取出所述目标知识库的所述文本信息的创新属性。
在一种可能的实施方式中,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取所述目标知识库的知识内容分类标识,并根据所述知识内容分类标识在所述数据库管理系统中确定对应的知识内容分类标识表格;
在所述目标知识库和所述知识内容分类标识表格之间建立关联,以生成每个目标知识库的知识内容分类表格。
在一种可能的实施方式中,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取标准功能基;其中,所述标准功能基包括功能动作和功能作用对象;
基于所述标准功能基在所述数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立所述目标知识库与所述功能动作表、所述功能作用对象表之间的关联,以得到每个目标知识库的功能属性分类表格。在一种可能的实施方式中,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取所述情感语义库的标准情感词汇分类标识,并将所述标准情感词汇分类标识存储至所述数据库管理系统中,以生成对应的标准情感词汇表格;
在所述数据库管理系统中对所述情感语义库与所述标准情感词汇表格建立连接,以生成每个目标知识库的情感词汇分类表格。
在一种可能的实施方式中,所述方法还包括:
根据用户的查询内容在所述知识数据库中进行查询。
在一种可能的实施方式中,所述根据用户的查询内容在所述知识数据库中进行查询,包括:
响应于用户的查询操作,获取所述用户输入的查询内容;
对所述查询内容进行预处理和向量化表达,以得到对应的查询词向量;
将所述创新属性进行向量化表达,以生成对应的标准词向量;
根据所述查询词向量和所述标准词向量确定对应的用于查询的创新属性,并根据所述创新属性在所述数据库中查询到匹配的所述基本属性;
根据所述基本属性和所述创新属性确定完整的所述目标知识内容,并将所述目标知识内容返回至所述用户。
在一种可能的实施方式中,所述根据所述查询词向量和所述标准词向量确定对应的用于查询的创新属性,包括:
获取所述查询词向量和所述标准词向量的编辑距离;
基于所述编辑距离计算所述查询词向量和所述标准词向量之间的相似度,以得到不同相似度的标准词向量;
将所述查询词向量映射到相似度最高的所述标准词向量,并根据该相似度最高的所述标准词向量确定对应的用于查询的创新属性。
第二方面,本申请实施例还提供了一种跨领域迁移的知识库系统,所述知识库系统包括:
第一获取模块,用于获取多个领域的知识内容对应的每个领域的目标知识库;其中,所述目标知识库中的知识内容包括文本信息和图片信息,所述文本信息包括基本属性和创新属性,多个领域的知识内容对应的目标知识库不同;
存储模块,用于将包括所述文本信息和所述图片信息的每一领域的目标知识库存储到数据库管理系统中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果;
分类模块,用于对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格;其中,所述分类表格包括知识内容分类表格和创新属性分类表格,所述创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格。
第二获取模块,用于关联所述数据库管理系统中每一目标知识库对应的所述文本信息表格、所述分类表格和所述分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于所述知识数据库查询每一领域的知识内容。
在一种可能的实施方式中,所述第一获取模块,具体用于:
基于爬虫工具在网络上分别爬取多个领域的知识内容;
构建所述多个领域的知识内容分别对应的知识表达模板;其中,所述不同领域的知识内容对应不同的知识表达模板,所述知识表达模板包括基本属性模板和创新属性模板;
针对每一个领域的知识内容,确定该领域的知识内容对应的知识表达模板,并将所述知识内容写入对应的所述知识表达模板,以得到每个领域的所述目标知识库;所述目标知识库包括专利库、机电领域知识库、科学效应库、仿生知识库、发明原理库、设计原理库、情感语义库等。
在一种可能的实施方式中,所述存储模块,具体用于:
在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格;
基于分布式对象存储器存储所述目标知识库的图片信息,得到该领域的图片信息的图片信息表格图片信息存储结果,并在所述数据库管理系统中关联所述文本信息表格和所述图片信息存储结果。
在一种可能的实施方式中,所述存储模块,具体用于:
获取所述目标知识库的所述文本信息的创新属性;
在所述数据库管理系统中建立所述目标知识库对应的表结构,并基于所述表结构存储对应的所述目标知识库中的所述知识内容的所述基本属性和所述创新属性,以生成每一目标知识库的基本属性表格和创新属性表格;其中,所述创新属性表格包括功能属性表格、发明原理属性表格和情感词汇表格。
在一种可能的实施方式中,所述存储模块,具体用于:
获取预训练语言模型,并对所述预训练语言模型进行训练,以得到对应的文本分类模型;
基于所述文本分类模型提取出所述目标知识库的所述文本信息的创新属性。
在一种可能的实施方式中,所述分类模块,具体用于:
获取所述目标知识库的知识内容分类标识,并根据所述知识内容分类标识在所述数据库管理系统中确定对应的知识内容分类标识表格;
在所述目标知识库和所述知识内容分类标识表格之间建立关联,以生成每个目标知识库的知识内容分类表格。在一种可能的实施方式中,所述分类模块,具体用于:
获取标准功能基;其中,所述标准功能基包括功能动作和功能作用对象;
基于所述标准功能基在所述数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立所述目标知识库与所述功能动作表、所述功能作用对象表之间的关联,以得到每个目标知识库的功能属性分类表格。
在一种可能的实施方式中,所述分类模块,具体用于:
获取所述情感语义库的标准情感词汇分类标识,并将所述标准情感词汇分类标识存储至所述数据库管理系统中,以生成对应的标准情感词汇表格;
在所述数据库管理系统中对所述情感语义库与所述标准情感词汇表格建立连接,以生成每个目标知识库的情感词汇分类表格。
在一种可能的实施方式中,所述知识库系统,还包括:
查询模块,用于根据用户的查询内容在所述知识数据库中进行查询。
在一种可能的实施方式中,所述查询模块,具体用于:
响应于用户的查询操作,获取所述用户输入的查询内容;
对所述查询内容进行预处理和向量化表达,以得到对应的查询词向量;
将所述创新属性进行向量化表达,以生成对应的标准词向量;
根据所述查询词向量和所述标准词向量确定对应的用于查询的创新属性,并根据所述创新属性在所述数据库中查询到匹配的所述基本属性;
根据所述基本属性和所述创新属性确定完整的所述目标知识内容,并将所述目标知识内容返回至所述用户。
在一种可能的实施方式中,所述查询模块,具体用于:
获取所述查询词向量和所述标准词向量的编辑距离;
基于所述编辑距离计算所述查询词向量和所述标准词向量之间的相似度,以得到不同相似度的标准词向量;
将所述查询词向量映射到相似度最高的所述标准词向量,并根据该相似度最高的所述标准词向量确定对应的用于查询的创新属性。
本申请实施例提供的一种跨领域迁移的知识管理方法及知识库系统,将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于知识数据库查询每一领域的知识内容。本申请,通过多个目标知识库之间的关联获得知识数据库,减少了知识数据库的数据冗余,有利于知识数据库的管理和维护,因此在通过该知识数据库进行查询时,减少了查询时间,降低了查询时延,从而提高了用户体验。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是根据本申请一个实施例的跨领域迁移的知识管理方法的流程图;
图2是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图3是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图4是专利库的文本信息表格的示意图;
图5是机电领域知识库的文本信息表格的示意图;
图6是科学效应库的文本信息表格的示意图;
图7是仿生知识库的文本信息表格的示意图;
图8是发明原理库的文本信息表格的示意图;
图9是设计原理库的文本信息表格的示意图;
图10是情感语义库的文本信息表格的示意图;
图11是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图12是发明原理属性表格的示意图;
图13是情感词汇表格的示意图;
图14是情感词汇与情感语义库的基本属性的关联的示意图;
图15是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图16是专利库的知识内容分类标识表格的示意图;
图17是专利库的知识内容分类表格的示意图;
图18是专利库中的知识内容与IPC号之间的关联的示意图;
图19是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图20是专利库的功能属性分类表格的示意图;
图21是专利库与标准功能基之间的关联的示意图;
图22是专利库的发明原理分类表格的示意图;
图23是专利库与TRIZ40条发明原理之间对应关系的示意图;
图24是根据本申请另一个实施例的跨领域迁移的知识管理方法的流程图;
图25是标准情感词汇表格的示意图;
图26是情感词汇分类表格的示意图;
图27是情感知识库与标准情感词汇表格之间的关联的示意图;
图28是根据本申请一个实施例的跨领域迁移的知识库系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
考虑到在通过构建不同领域的知识数据库来对互联网上的海量的知识内容进行存储时,通常是使用自动或者半自动知识抽取方法,通过定制的爬虫对领域内的百科类站点、垂直网站的词汇进行抓取,从而获取网页详情页面的对象属性、表格等半结构化的数据信息以构建该领域对应的知识数据库。但是,基于该通常的构建知识数据库的方法,只能对抓取的词汇进行简单的分类,在海量且无序的知识内容中无法更深层的区分抓取到的词汇表达的更具体的用户的需求,并且由于该知识数据库的结构并不合理,使得知识数据库的数据冗余较多,因此在知识数据库中查询数据时,需要花费比较多的时间,且时延较大,使得用户体验较差。
针对该问题,本申请提供了一种跨领域迁移的知识管理方法及知识库系统,通过将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,通过多个目标知识库之间的关联获得知识数据库,减少了知识数据库的数据冗余,有利于知识数据库的管理和维护,因此在通过该知识数据库进行查询时,减少了查询时间,降低了查询时延,从而提高了用户体验。
图1是根据本申请一个实施例的跨领域迁移的知识管理方法的流程图,如图1所示,本申请实施例的跨领域迁移的知识管理方法具体可包括:
S101,获取多个领域的知识内容对应的每个领域的目标知识库。
本申请实施例中,目标知识库即每个领域的知识内容对应的知识库,例如,目标知识库包括专利库(patent knowledge)、机电领域知识库(electromechanical field)、科学效应库(scientific_effect)、仿生知识库(bionic_knowledge)、发明原理库(invention_principle_case)、设计原理库(eight_rules)、情感语义库(emotion_knowledge)等,目标知识库中的知识内容包括文本信息和图片信息,文本信息包括基本属性和创新属性,创新属性包括功能属性、发明原理属性和情感词汇等,多个领域的知识内容对应的目标知识库不同,对多个领域的知识内容对应的每个领域的目标知识库进行获取,以进行后续处理。
需要说明的是,基本属性是对知识物理特性的具体表述。例如,上述目标知识库的基本属性中,专利库的基本属性可以包括专利标题、摘要、附图、IPC号、公开号、公开日期、申请号、申请日期、申请人、发明人等,机电领域知识库的基本属性可以包括标题、描述、原理、优缺点、应用、参考文献、附图等,科学效应库的基本属性可以包括科学效应标题、效应描述、公式、应用、参考文献等,仿生知识库的基本属性可以包括仿生知识标题、介绍、生物策略、应用潜能、参考文献、附图等,发明原理库包括TRIZ40条发明原理及其应用实例,其中,TRIZ40条发明原理的基本属性包括发明原理标题、描述等,应用实例的基本属性包括实例标题、背景、问题、案例、优点、参考文献等,设计原理库用于存储TRIZ理论中的八大进化法则,其基本属性可以包括法则标题、法则描述、子法则等,情感语义库的基本属性可以包括标题、附图、设计内容等。
继续来说,创新属性是设计知识的抽象化表达,即上述的功能属性、发明原理属性和情感词汇等创新属性表达了知识的本质,其中,在工程中,用功能可以抽象概括出不同领域的系统能够执行的特定过程、动作或任务,而发明原理是阿奇舒勒从大量专利中总结出的发明创新的40种方法。因此,举例来说,专利知识库的创新属性包括功能属性和发明原理属性,机电领域知识库、科学效应库、仿生知识库的创新属性包括功能属性,而情感语义库由于是用于表达设计情感,因此其创新属性包括情感词汇。
S102,将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果。
本申请实施例中,文本信息表格即存储相应领域的目标知识库中的文本信息的表格,图片信息存储结果即用来存储相应领域的目标知识库中的图片信息,将步骤S101获取的多个领域的知识内容对应的每个领域的目标知识库分别存储到数据库管理系统和分布式对象存储器,以得到对应的文本信息表格和图片信息存储结果。需要说明的是,数据库管理系统即对目标知识库进行存储以生成知识数据库的管理系统,本申请以MySQL数据库作为数据库管理系统为例,具体可以根据实际情况进行设置,本申请对此不做过多限定。
S103,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格。
本申请实施例中,分类表格包括知识内容分类表格和创新属性分类表格,创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格,分类表格包括知识内容分类表格和创新属性分类表格,创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格,知识内容分类表格即目标知识库中的更细分的知识内容类别的表格,创新属性分类表格即对目标知识库中的文本信息包括的创新信息分类的表格,对数据库管理系统中存储的每个目标知识库进行分类,可以得到每个目标知识库对应的分类表格,对数据库管理系统中的每个目标知识库的知识条目进行分类,可以得到每个目标知识库中的知识内容对应的分类表格。需要说明的是,由于目标知识库中的知识内容的类别数量很庞大,不利于用户查看,因此将每种类别知识内容的知识条目按照更细分的类别进行划分即获取目标知识库的知识内容分类表格。
S104,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于知识数据库查询每一领域的知识内容。
本申请实施例中,将数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果图片信息存储结果进行关联,从而获取到多领域下划分为多个类别的知识信息的知识数据库,以后续基于知识数据库对每一领域的知识内容进行查询。可选地,通过在数据库管理系统中使用json格式的字符串将文本信息表格、图片信息存储结果和分类表格进行关联。
本申请实施例提供的跨领域迁移的知识管理方法,将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于知识数据库查询每一领域的知识内容。本申请的跨领域迁移的知识管理方法,通过多个目标知识库之间的关联获得知识数据库,减少了知识数据库的数据冗余,有利于知识数据库的管理和维护,因此在通过该知识数据库进行查询时,减少了查询时间,降低了查询时延,从而提高了用户体验。
进一步的,如图2所示,上述实施例中的步骤S101“获取多个领域的知识内容对应的每个领域的目标知识库”,具体可包括以下步骤:
S201,基于爬虫工具在网络上分别爬取多个领域的知识内容。
本申请实施例中,爬虫工具即爬取知识内容的工具,例如,网络爬虫工具,基于爬虫工具在网络上分别爬取多个领域的知识内容,例如,利用网络爬虫工具从网络上获取专利文本、科技文献、维基百科文本、设计网站中的设计案例等知识内容。需要说明的是,可以在爬取到多个领域的知识内容后,将这些知识内容进行提炼总结,得到提炼总结后的知识内容以供后续应用。
S202,构建多个领域的知识内容分别对应的知识表达模板。
本申请实施例中,不同领域的知识内容对应不同的知识表达模板,知识表达模板包括基本属性模板和创新属性模板,构建多个领域的知识内容分别对应的知识表达模板,以进行后续处理。例如,正如上述实例所述,专利库的基本属性模板为:专利标题、摘要、附图、IPC号、公开号、公开日期、申请号、申请日期、申请人、发明人,其他目标知识库的基本属性模板同上述示例,此处不再进行赘述。
S203,针对每一个领域的知识内容,确定该领域的知识内容对应的知识表达模板,并将知识内容写入对应的知识表达模板,以得到每个领域的目标知识库。
本申请实施例中,根据步骤S202构建的多个领域的知识内容分别对应的知识表达模板和步骤S201爬取的多个领域的知识内容,可确定每一个领域的知识内容对应的知识表达模板,并将该领域的知识内容写入对应的知识表达模板中,即将该领域的知识内容中的文本信息写入对应的基本属性模板和创新属性模板中,以得到每个领域的目标知识库。例如,将专利领域的知识内容写入上述示例中的专利库的基本属性表达模板中,即针对基本属性表达模板中的专利标题、摘要、附图、IPC号、公开号、公开日期、申请号、申请日期、申请人、发明人这些基本属性,将每个基本属性对应的知识内容写入到其中。
进一步的,如图3所示,上述实施例中的步骤S102 “将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果”,具体可包括以下步骤:
S301,在数据库管理系统中确定目标知识库对应的表结构,并基于表结构存储目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格。
本申请实施例中,文本信息表格包括基本属性表格和创新属性表格,表结构即用于存储对应的目标知识库的基础表格结构,在数据库管理系统中确定每一个目标知识库对应的表结构,并基于表结构存储目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格。例如,在MySQL数据库中建立7个表结构,以用于存储专利库、机电领域知识库、科学效应库、仿生知识库、发明原理库、设计原理库、情感语义库这七个目标知识库中的知识内容的基本属性,具体如图4-图10所示,分别表示这七个目标知识库的文本信息表格。
S302,基于分布式对象存储器存储目标知识库的图片信息,得到该领域的图片信息的图片信息存储结果,并在数据库管理系统中关联文本信息表格和图片信息存储结果。
本申请实施例中,分布式对象存储器即一种存储目标知识库的图片信息的存储器,基于分布式对象存储器存储目标知识库的图片信息,可以得到该领域的目标知识库的图片信息对应的图片信息存储结果,并在数据库管理系统中关联文本信息表格和图片信息存储结果。可选的,可以通过在数据库管理系统中使用json格式的字符串将文本信息表格和图片信息存储结果进行关联。
需要说明的是,目标知识库中的知识内容都是富文本形式的,这就表示知识内容不仅包含文字信息还包含图片信息,而图片信息所占内存往往会影响数据库的查询、更新、维护,对此一个最常用的方式是在数据库管理系统即本申请使用的MySQL数据库中直接将图片信息以二进制的形式进行存储,但这种方式往往会占用过多数据库的内存,并且影响输入输出效率。因此在本申请中,用分布式对象存储服务器(MinIO)来单独存储知识内容中的图片信息,即在MinIO中给每个目标知识库中的知识内容都单独建立了一个存储空间(bucket) ,用于存储每个目标知识库中的图片信息。
以仿生知识库中的一个富文本展示的流程为例进行说明,在仿生知识库中的introduce和picture中包含图片,用json格式并以key-value的形式在图片位置存储图片信息,如:{"type": "minio", "images": [{"bucket":"bionic-knowledge","object":"fdc7d596f98f25588c55f0271735e8ff.jpg", "alt": ""}]},其中,type中存储的是minio,表示类型为minio中的内容,image中存储的是图片的具体信息,其中存储空间bucket表示该图片存储在minio中的确定的某个bucket中,object中存储的是该图片的名称,alt中存储的是图片的注释信息。
由于在MinIO的同一个bucket中的图片名称不能相同,如果有多张图片的名称相同则会导致图片覆盖,而随着目标知识库中知识内容的不断增加,难免会造成图片名称的重合,如果在每次添加新的图片之前都检查一下该新的图片是否和bucket中的图片的名称重合,那么这将是一个非常费时费力的工作,导致更新数据的时间成本增加。因此为了有效解决这一问题,本申请采用将图片哈希值作为图片名称的方式,本领域人员可以理解的是,图片的哈希值具有唯一性,因此将图片哈希值作为图片名称不会存在图片名称重复的问题。
进一步的,如图11所示,上述实施例中的步骤S301 “在数据库管理系统中确定目标知识库对应的表结构,并基于表结构存储目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格”,具体可包括以下步骤:
S1101,获取目标知识库的文本信息的创新属性。
本申请实施例中,对目标知识库的文本信息的创新属性进行获取,以进行后续处理。需要说明的是,本申请对文本信息的创新属性的具体获取方式不做过多限定,可根据实际情况进行设置。
作为一种可能的实施方式,获取预训练语言模型,并对预训练语言模型进行训练,以得到对应的文本分类模型,基于文本分类模型提取出目标知识库的文本信息的创新属性。可选的,预训练语言模型可以为深度学习模型,例如BERT(Bidirectional EncoderRepresentation from Transformers)模型。
S1102,在数据库管理系统中建立目标知识库对应的表结构,并基于表结构存储对应的目标知识库中的知识内容的基本属性和创新属性,以生成每一目标知识库对应的基本属性表格和创新属性表格。
本申请实施例中,在数据库管理系统中建立每一个目标知识库对应的表结构,并基于表结构存储对应的目标知识库中的知识内容的基本属性和创新属性,以生成每一目标知识库对应的基本属性表格和创新属性表格,其中,创新属性表格包括功能属性表格、发明原理属性表格和情感词汇表格。需要说明的是,创新属性包括功能属性、发明原理属性和情感词汇,而功能属性由功能动作和功能作用对象共同表示,因此在数据库管理系统即MySQL数据库中建立function_action表存储功能动作,建立function_object表存储功能作用对象,以此作为功能属性表格,对于发明原理属性,则通过建立invention_principle 表来进行存储,例如图12所示,而对于情感词汇,则通过建立emotion_words表进行存储,例如图13所示。
还需要说明的是,在通过建立表结构存储对应的目标知识库的知识内容的基本属性和创新属性,以生成基本属性表格和创新属性表格后,需要通过外键将基本属性表格和创新属性表格进行关联。例如,情感词汇与情感语义库的基本属性建立的关联如图14所示。
进一步的,如图15所示,上述实施例中的步骤S103“对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格”,具体可包括以下步骤:
S1501,获取目标知识库的知识内容分类标识,并根据知识内容分类标识在数据库管理系统中确定对应的知识内容分类标识表格。
本申请实施例中,知识内容分类标识即对目标知识库的知识内容进行分类的标识,对目标知识库的知识内容分类标识进行获取,并根据知识内容分类标识在数据库管理系统中确定对应的知识内容分类标识表格。例如,以专利库这个目标知识库为例,专利库中的关于专利的知识内容是一种众所周知的知识内容,为了提高其普适性,直接用专利中的IPC(International Patent Classification)号作为专利库的知识内容分类标识,具体来说,在MySQL数据库中新建patent_classification表即知识内容分类标识表格,如图16所示,该表是一个自相关表,用于存储专利的IPC号、含义以及IPC号之间的层级从属关系。
S1502,在目标知识库和知识内容分类标识表格之间建立关联,以生成每个目标知识库的知识内容分类表格。
本申请实施例中,关联目标知识库和上述步骤获取的知识内容分类标识表格,以生成每个目标知识库的知识内容分类表格。如上述示例所述,在MySQL数据库建立patent_classification表和patent_knowledge表之间的关联,生成的知识内容分类表格即patent_knowledge_classification表,如图17所示,该表用于存储专利库中的知识内容与IPC号之间的关联,表示专利库与IPC号之间的桥梁,具体如图18所示。
进一步的,如图19所示,上述实施例中的步骤S103 “对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格”,具体还可包括以下步骤:
S1901,获取标准功能基。
本申请实施例中,标准功能基包括功能动作和功能作用对象,对标准功能基进行获取,以进行后续处理。需要说明的是,标准功能基为预先定义的功能基本,其中,标准功能基中的功能动作用动词表示,功能作用对象用名词表示。
S1902,基于标准功能基在数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立目标知识库与功能动作表、功能作用对象表之间的关联,以得到每个目标知识库的对应的功能属性分类表格。
本申请实施例中,功能动作表表示功能动作及其之间的层级关系,功能作用对象表表示功能作用对象及其之间的层级关系,功能属性分类表格表示目标知识库与标准功能基之间的关联,基于步骤S1901获取的标准功能基,在数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立目标知识库与功能动作表、功能作用对象表之间的关联,以得到每个目标知识库的对应的功能属性分类表格。例如,在MySQL数据库中创建自相关表function_action即功能动作表,创建自关联表function_object即功能作用对象表,最后建立专利库与功能动作表、功能作用对象表之间的关联,生成对应的功能属性分类表格即patent_knowledge_function表,如图20所示,而专利库与标准功能基之间的关联关系的表征,如图21所示。
进一步的,将目标知识库中的知识内容根据发明原理进行分类,可以得到对应的每个目标知识库的发明原理分类表格。例如,将专利库中的知识内容按照TRIZ40条发明原理进行分类,将分类的结果存储在MySQL数据库中,以得到专利库的发明原理分类表格,如图22所示,patent_knowledge_principle即专利库的发明原理分类表格,如图23所示,表示专利库与TRIZ40条发明原理之间对应的关系。
进一步的,如图24所示,上述实施例中的步骤S103 “对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格”,具体还可包括以下步骤:
S2401,获取情感语义库的标准情感词汇分类标识,并将标准情感词汇分类标识存储至数据库管理系统中,以生成对应的标准情感词汇表格。
本申请实施例中,标准情感词汇分类标识即对情感语义库的标准情感词汇进行分类的标识,对情感语义库的标准情感词汇分类标识进行获取,并将获取的标准情感词汇分类标识存储至数据库管理系统中,以生成对应的标准情感词汇表格。例如,如图25所示,建立标准情感词汇分类,将情感词汇及词汇之间的层级关系存储在自关联表emotion_words即标准情感词汇表格。
S2402,在数据库管理系统中对情感语义库与标准情感词汇表格建立连接,以生成每个目标知识库的情感词汇分类表格。
本申请实施例中,在数据库管理系统中建立情感语义库与标准情感词汇表格之间的关联,以生成对应的情感词汇分类表格。例如,如图26所示,将情感语义库与标准情感词汇表格即emotion_words表建立连接,生成对应的存储两者连接关系的情感词汇分类表格即emotion_knowledge_notes,其中,情感知识库与标准情感词汇表格之间的关联关系如图27所示。
进一步的,本申请的跨领域迁移的知识管理方法,还可包括以下步骤:
根据用户的查询内容检索,在知识数据库中进行查询。
本申请实施例中,根据用户输入的查询内容在上述步骤生成的知识数据库中进行查询。
进一步的,功能属性分类表格包括功能词汇,情感词汇分类表格包括功能词汇、情感词汇,响应于目标检索方式为功能检索或者情感检索,根据目标检索方式在知识数据库中进行查询。
作为一种可能的实施方式,响应于用户的查询操作,获取用户输入的查询内容,对查询内容进行预处理和向量化表达,以得到对应的查询词向量,将创新属性进行进行向量化表达,以生成对应的标准词向量,根据查询词向量和标准词向量确定对应的用于查询的创新属性,并根据创新属性在数据库中查询到匹配的基本属性,根据基本属性和创新属性确定完整的目标知识内容,并将目标知识内容返回至用户。
需要说明的是,本申请对根据查询词向量和标准词向量确定对应的创新属性的具体方式不做过多限定,可根据实际情况进行。
可选的,获取查询词向量和标准词向量的编辑距离,基于编辑距离计算查询词向量和标准词向量之间的相似度,以得到不同相似度的标准词向量,将查询词向量映射到相似度最高的标准词向量,并根据该相似度最高的标准词向量确定对应的用于查询的创新属性。
继续来说,通过编辑距离的方式计算查询词向量与标准词向量之间的相似度,需要说明的是,编辑距离的核心思想是通过计算将一个文本转化为另一个文本所需的最小操作数,从而计算两个词语之间的相似度,编辑距离可以通过动态规划的方式计算,两个文本字符串用A和B表示,LA,LB分别表示字符串A和B的长度,表示第i个字符串A和第j个字符串B之间的编辑距离,其状态转移方程如下式所示:
计算出查询词向量和标准词向量的编辑距离之后可由下式计算出查询词向量和标准词向量之间的相似度:
将查询词向量映射到与其相似度最高的标准词向量中以作为查询的创新属性,通过基本属性与创新属性之间建立的外键连接,找到与之关联的基本属性,最后将查询到的完整知识内容返回给用户。
图28是根据本申请一个实施例的跨领域迁移的知识库系统的结构图,如图28所示,本申请实施例的跨领域迁移的知识库系统2800,具体可包括:
第一获取模块2801,用于获取多个领域的知识内容对应的每个领域的目标知识库;其中,所述目标知识库中的知识内容包括文本信息和图片信息,所述文本信息包括基本属性和创新属性,多个领域的知识内容对应的目标知识库不同;
存储模块2802,用于将包括所述文本信息和所述图片信息的每一领域的目标知识库存储到数据库管理系统中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果;
分类模块2803,用于对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格;其中,所述分类表格包括知识内容分类表格和创新属性分类表格,所述创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格;
第二获取模块2804,用于关联所述数据库管理系统中每一目标知识库对应的所述文本信息表格、所述分类表格和所述分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于所述知识数据库查询每一领域的知识内容。
进一步的,所述第一获取模块2801,具体用于:
基于爬虫工具在网络上分别爬取多个领域的知识内容;
构建所述多个领域的知识内容分别对应的知识表达模板;其中,所述不同领域的知识内容对应不同的知识表达模板,所述知识表达模板包括基本属性模板和创新属性模板;
针对每一个领域的知识内容,确定该领域的知识内容对应的知识表达模板,并将所述知识内容写入对应的所述知识表达模板,以得到每个领域的所述目标知识库;所述目标知识库包括专利库、机电领域知识库、科学效应库、仿生知识库、发明原理库、设计原理库、情感语义库等。
进一步的,所述存储模块2802,具体用于:
在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格;
基于分布式对象存储器存储所述目标知识库的图片信息,得到该领域的图片信息的图片信息表格图片信息存储结果,并在所述数据库管理系统中关联所述文本信息表格和所述图片信息存储结果。
进一步的,所述存储模块2802,具体用于:
获取所述目标知识库的所述文本信息的创新属性;
在所述数据库管理系统中建立所述目标知识库对应的表结构,并基于所述表结构存储对应的所述目标知识库中的所述知识内容的所述基本属性和所述创新属性,以生成每一目标知识库的基本属性表格和创新属性表格;其中,所述创新属性表格包括功能属性表格、发明原理属性表格和情感词汇表格。
进一步的,所述存储模块2802,具体用于:
获取预训练语言模型,并对所述预训练语言模型进行训练,以得到对应的文本分类模型;
基于所述文本分类模型提取出所述目标知识库的所述文本信息的创新属性。
进一步的,所述分类模块2803,具体用于:
获取所述目标知识库的知识内容分类标识,并根据所述知识内容分类标识在所述数据库管理系统中确定对应的知识内容分类标识表格;
在所述目标知识库和所述知识内容分类标识表格之间建立关联,以生成每个目标知识库的知识内容分类表格。
进一步的,所述分类模块2803,具体用于:
获取标准功能基;其中,所述标准功能基包括功能动作和功能作用对象;
基于所述标准功能基在所述数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立所述目标知识库与所述功能动作表、所述功能作用对象表之间的关联,以得到每个目标知识库的功能属性分类表格。
进一步的,所述分类模块2803,具体用于:
获取所述情感语义库的标准情感词汇分类标识,并将所述标准情感词汇分类标识存储至所述数据库管理系统中,以生成对应的标准情感词汇表格;
在所述数据库管理系统中对所述情感语义库与所述标准情感词汇表格建立连接,以生成每个目标知识库的情感词汇分类表格。
进一步的,所述知识库系统2800,还包括:
第三查询模块,用于根据用户的查询内容在所述知识数据库中进行查询。
本申请实施例提供的跨领域迁移的知识库系统,将包括文本信息和图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,对数据库管理系统中每个目标知识库进行分类,得到每个目标知识库的分类表格,关联数据库管理系统中每一目标知识库对应的文本信息表格、分类表格和分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于知识数据库查询每一领域的知识内容。本申请的跨领域迁移的知识库系统,通过多个目标知识库之间的关联获得知识数据库,减少了知识数据库的数据冗余,有利于知识数据库的管理和维护,因此在通过该知识数据库进行查询时,减少了查询时间,降低了查询时延,从而提高了用户体验。
需要说明的是,上述一种跨领域迁移的知识管理方法及知识库系统,可以称为一种多领域交叉数据库的构建组织方法及系统,也可以称为一种基于知识库的跨领域迁移的知识管理方法及系统。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述部署方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种跨领域迁移的知识管理方法,其特征在于,所述方法包括:
获取多个领域的知识内容对应的每个领域的目标知识库;其中,所述目标知识库中的知识内容包括文本信息和图片信息,所述文本信息包括基本属性和创新属性,所述创新属性包括功能属性、发明原理属性和情感词汇,多个领域的知识内容对应的目标知识库不同;
将包括所述文本信息和所述图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果;
对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格;其中,所述分类表格包括知识内容分类表格和创新属性分类表格,所述创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格;
关联所述数据库管理系统中每一目标知识库对应的所述文本信息表格、所述分类表格和所述分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于所述知识数据库查询每一领域的知识内容。
2.根据权利要求1所述的知识管理方法,其特征在于,所述获取多个领域的知识内容对应的每个领域的目标知识库,包括:
基于爬虫工具在网络上分别爬取多个领域的知识内容;
构建所述多个领域的知识内容分别对应的知识表达模板;其中,所述不同领域的知识内容对应不同的知识表达模板,所述知识表达模板包括基本属性模板和创新属性模板;
针对每一个领域的知识内容,确定该领域的知识内容对应的知识表达模板,并将所述知识内容写入对应的所述知识表达模板,以得到每个领域的所述目标知识库;所述目标知识库包括专利库、机电领域知识库、科学效应库、仿生知识库、发明原理库、设计原理库、情感语义库等。
3.根据权利要求1所述的知识管理方法,其特征在于,所述将包括所述文本信息和所述图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果,包括:
在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格;
基于分布式对象存储器存储所述目标知识库的图片信息,得到该领域的图片信息的图片信息存储结果,并在所述数据库管理系统中关联所述文本信息表格和所述图片信息存储结果。
4.根据权利要求3所述的知识管理方法,其特征在于,所述文本信息表格包括基本属性表格和创新属性表格;所述在所述数据库管理系统中确定所述目标知识库对应的表结构,并基于所述表结构存储所述目标知识库的文本信息,以得到每一目标知识库的存储有相应领域文本信息的文本信息表格,包括:
获取所述目标知识库的所述文本信息的创新属性;
在所述数据库管理系统中建立所述目标知识库对应的表结构,并基于所述表结构存储对应的所述目标知识库中的所述知识内容的所述基本属性和所述创新属性,以生成每一目标知识库的基本属性表格和创新属性表格;其中,所述创新属性表格包括功能属性表格、发明原理属性表格和情感词汇表格。
5.根据权利要求4所述的知识管理方法,其特征在于,所述获取所述目标知识库的所述文本信息的创新属性,包括:
获取预训练语言模型,并对所述预训练语言模型进行训练,以得到对应的文本分类模型;
基于所述文本分类模型提取出所述目标知识库的所述文本信息的创新属性。
6.根据权利要求1所述的知识管理方法,其特征在于,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取所述目标知识库的知识内容分类标识,并根据所述知识内容分类标识在所述数据库管理系统中确定对应的知识内容分类标识表格;
在所述目标知识库和所述知识内容分类标识表格之间建立关联,以生成每个目标知识库的知识内容分类表格。
7.根据权利要求1所述的知识管理方法,其特征在于,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取标准功能基;其中,所述标准功能基包括功能动作和功能作用对象;
基于所述标准功能基在所述数据库管理系统中创建对应的功能动作表和功能作用对象表,并分别建立所述目标知识库与所述功能动作表、所述功能作用对象表之间的关联,以得到每个目标知识库的功能属性分类表格。
8.根据权利要求1所述的知识管理方法,其特征在于,所述对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格,包括:
获取所述情感语义库的标准情感词汇分类标识,并将所述标准情感词汇分类标识存储至所述数据库管理系统中,以生成对应的标准情感词汇表格;
在所述数据库管理系统中对所述情感语义库与所述标准情感词汇表格建立连接,以生成每个目标知识库的情感词汇分类表格。
9.根据权利要求1所述的知识管理方法,其特征在于,所述方法还包括:
根据用户的查询内容在所述知识数据库中进行查询。
10.一种跨领域迁移的知识库系统,其特征在于,所述系统包括:
第一获取模块,用于获取多个领域的知识内容对应的每个领域的目标知识库;其中,所述目标知识库中的知识内容包括文本信息和图片信息,所述文本信息包括基本属性和创新属性,多个领域的知识内容对应的目标知识库不同;
存储模块,用于将包括所述文本信息和所述图片信息的每一领域的目标知识库分别存储到数据库管理系统和分布式对象存储器中,得到每一目标知识库的存储有相应领域文本信息的文本信息表格和该领域的图片信息的图片信息存储结果;
分类模块,用于对所述数据库管理系统中每个所述目标知识库进行分类,得到每个目标知识库的分类表格;其中,所述分类表格包括知识内容分类表格和创新属性分类表格,所述创新属性分类表格包括功能属性分类表格、发明原理分类表格和情感词汇分类表格;
第二获取模块,用于关联所述数据库管理系统中每一目标知识库对应的所述文本信息表格、所述分类表格和所述分布式对象存储器中对应的图片信息存储结果,获取到多领域下划分为多个类别的知识信息的知识数据库,以使基于所述知识数据库查询每一领域的知识内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311217943.5A CN117271795B (zh) | 2023-09-20 | 2023-09-20 | 一种跨领域迁移的知识管理方法及知识库系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311217943.5A CN117271795B (zh) | 2023-09-20 | 2023-09-20 | 一种跨领域迁移的知识管理方法及知识库系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271795A true CN117271795A (zh) | 2023-12-22 |
CN117271795B CN117271795B (zh) | 2024-07-12 |
Family
ID=89200191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311217943.5A Active CN117271795B (zh) | 2023-09-20 | 2023-09-20 | 一种跨领域迁移的知识管理方法及知识库系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271795B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
CN112667606A (zh) * | 2021-01-15 | 2021-04-16 | 中国科学院空天信息创新研究院 | 一种基于多源知识采集技术的知识库系统及其构建方法 |
US20210406270A1 (en) * | 2020-06-30 | 2021-12-30 | Microsoft Technology Licensing, Llc | Leveraging Interlinking Between Information Resources to Determine Shared Knowledge |
US20230022567A1 (en) * | 2021-07-26 | 2023-01-26 | LinkedField Inc. | Intelligent knowledge platform |
WO2023018379A2 (zh) * | 2021-08-12 | 2023-02-16 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN116108853A (zh) * | 2022-12-21 | 2023-05-12 | 重庆邮电大学 | 一种基于知识迁移的跨领域情感分析方法及存储介质 |
-
2023
- 2023-09-20 CN CN202311217943.5A patent/CN117271795B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
US20210406270A1 (en) * | 2020-06-30 | 2021-12-30 | Microsoft Technology Licensing, Llc | Leveraging Interlinking Between Information Resources to Determine Shared Knowledge |
CN112667606A (zh) * | 2021-01-15 | 2021-04-16 | 中国科学院空天信息创新研究院 | 一种基于多源知识采集技术的知识库系统及其构建方法 |
US20230022567A1 (en) * | 2021-07-26 | 2023-01-26 | LinkedField Inc. | Intelligent knowledge platform |
WO2023018379A2 (zh) * | 2021-08-12 | 2023-02-16 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN116108853A (zh) * | 2022-12-21 | 2023-05-12 | 重庆邮电大学 | 一种基于知识迁移的跨领域情感分析方法及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘龙繁;李彦;侯超异;李文强;: "基于功能基的专利信息挖掘与自动分类实验研究", 四川大学学报(工程科学版), no. 05, 30 September 2016 (2016-09-30), pages 105 - 113 * |
Also Published As
Publication number | Publication date |
---|---|
CN117271795B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11327978B2 (en) | Content authoring | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US10740678B2 (en) | Concept hierarchies | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
US20170161619A1 (en) | Concept-Based Navigation | |
US20170262783A1 (en) | Team Formation | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
WO2014107801A1 (en) | Methods and apparatus for identifying concepts corresponding to input information | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
Stuart | Practical ontologies for information professionals | |
Babatunde et al. | Automatic table recognition and extraction from heterogeneous documents | |
CN118193677A (zh) | 关键人物姓名纠错方法、系统、电子设备和存储介质 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
Kayed et al. | Postal address extraction from the web: a comprehensive survey | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 | |
Gonzalez-Mora et al. | Model-driven development of web apis to access integrated tabular open data | |
Janev | Semantic intelligence in big data applications | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
CN116702747A (zh) | Pdf在线阅读器设计方法、装置、计算机设备及介质 | |
CN117271795B (zh) | 一种跨领域迁移的知识管理方法及知识库系统 | |
Korayem et al. | Query sense disambiguation leveraging large scale user behavioral data | |
CN112307219B (zh) | 网站搜索用词汇数据库更新方法、系统及计算机存储介质 | |
CN111723177B (zh) | 信息提取模型的建模方法、装置及电子设备 | |
Reese et al. | Java for Data Science |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |