CN113360678B - 一种基于Neo4j和大数据的初等数学知识图谱构建方法 - Google Patents

一种基于Neo4j和大数据的初等数学知识图谱构建方法 Download PDF

Info

Publication number
CN113360678B
CN113360678B CN202110774302.4A CN202110774302A CN113360678B CN 113360678 B CN113360678 B CN 113360678B CN 202110774302 A CN202110774302 A CN 202110774302A CN 113360678 B CN113360678 B CN 113360678B
Authority
CN
China
Prior art keywords
entity
elementary
mathematical
data
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110774302.4A
Other languages
English (en)
Other versions
CN113360678A (zh
Inventor
钟秀琴
符红光
邓力华
林恭祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110774302.4A priority Critical patent/CN113360678B/zh
Publication of CN113360678A publication Critical patent/CN113360678A/zh
Application granted granted Critical
Publication of CN113360678B publication Critical patent/CN113360678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Neo4j和大数据的初等数学知识图谱构建方法,属于初等数学知识图谱构建技术领域,所述方法包括如下步骤:根据Neo4j图形数据库分别对实体、关系以及属性的定义,自上而下构建初始知识图谱;根据大数据和深度学习自下而上的构建方法完善所述初始知识图谱,得到完整的初等数学知识图谱;本发明解决了将初等数学自然语言文本转换成为初等数学领域知识图谱,并把初等数学题目中的实体与实体之间关系清晰、准确地表示的问题。

Description

一种基于Neo4j和大数据的初等数学知识图谱构建方法
技术领域
本发明属于初等数学知识图谱构建技术领域,尤其涉及一种基于Neo4j和大数据的初等数学知识图谱构建方法。
背景技术
2012年谷歌提出知识图谱概念以来,国内外很多的研究机构及科技公司开始构建知识图谱,涉及到多个领域,如搜索、电商、金融风控系统、医疗、教育等。同时,国内很多互联网公司和高校也在构建知识图谱。如百度公司曾致力于构建以知识图谱为核心的“百度知心”,用于增强公司的搜索引擎;搜狗公司也构建了知识图谱“知立方”来增强其搜索引擎;2018年4月,阿里巴巴领头开始了关于知识引擎研究方面的探讨,构建和研究的知识图谱包含了多个领域,如商品、客户体验、安全、旅游等。阿里巴巴的商品知识图谱包含了百亿级别的核心商品信息的三元组;腾讯云也从金融、安全、政府、企业等方向出发进行知识图谱的构建,用于数据存储和索引查找;腾讯AI Lab在知识图谱方面也有所建树;2019年小米公司开发的小爱同学改良之后的版本,该产品以百度科普为中心,外接垂直类知识图谱和小米业务图谱,三元组规模达到300亿。但目前涉及初等数学领域的知识图谱构建较少,完备性较高的初等数学知识图谱也还没有。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于Neo4j和大数据的初等数学知识图谱构建方法解决了将初等数学自然语言文本转换成为初等数学领域知识图谱,并把初等数学题目中的实体与实体之间关系清晰、准确地表示的问题。
为了达到上述发明目的,本发明采用的技术方案为:
本发明提供一种基于Neo4j和大数据的初等数学知识图谱构建方法,包括如下步骤:
S1、根据Neo4j图形数据库分别对实体、关系以及属性的定义,自上而下构建初始知识图谱;
S2、根据大数据和深度学习自下而上的构建方法完善所述初始知识图谱,得到完整的初等数学知识图谱。
本发明的有益效果为:本发明提供的初等数学知识图谱构建方法所构建的完整初等数学知识图谱,其实体和关系对应准确,可以准确表示初等数学各实体与实体间的语义关系,且可应用于初等数学自然语言理解和问题自动求解,涵盖了初等数学大纲内全部知识点。
进一步地,所述步骤S1包括如下子步骤:
S11、根据初等数学知识体系获取知识图谱数据;
S12、根据知识图谱数据构建初始数据库;
S13、将初始数据库中的实体和关系转换得到Neo4j数据库中的各实体关系三元组,完成初始知识图谱构建。
采用上述进一步方案的有益效果为:根据初等数学知识体系构建初始知识图谱,所述初始知识图谱包括各实体关系三元组,所述实体关系三元组对应首实体、尾实体和首实体与尾实体间对应关系。
进一步地,所述步骤S13包括如下步骤:
A1、在Java项目中建立实体包和关系包;
A2、将实体包和关系包中的实体和关系划分入初始数据库中初等数学知识体系的各知识点模块中;
A3、利用Java语言反射机制获取各知识点模块中实体类的名称和属性,以及各知识点模块中关系类的首实体、尾实体和关系的属性;
A4、根据Java语言反射机制获取结果,利用Neo4j Cypher Java API创建各实体间的关系,得到Neo4j数据库的各实体关系三元组,完成初始知识图谱构建,其中,所述Neo4jCypher Java API自定义cypher并进行封装。
采用上述进一步方案的有益效果为:所述Neo4j Cypher Java API可以执行所有Neo4j支持的数据库操作,需要用户自定义cypher并进行封装,相较于Neo4j自带的简单封装API,更加适合Java与Neo4j之间的交互API进行自定义设计。
进一步地,所述实体关系三元组定义为首实体、尾实体以及首实体与尾实体间的关系;
所述步骤A2中实体包括实体名称和实体包含属性,其中,所述实体包含的属性包括属性key值和value值;
所述步骤A2中关系包括关系名称和关系包含属性,其中,所述关系包含的属性包括属性key值和value值。
采用上述进一步方案的有益效果为:对初等数学知识图谱内容对应的实体关系三元组进行了定义与解释,根据实体、关系和属性可以构成初等数学中各知识模块对应内容。
进一步地,所述步骤S2包括如下子步骤:
S21、利用大数据技术获取非结构化初等数学数据;
S22、利用自然语言处理技术抽取非结构化初等数学数据中的实体和关系;
S23、将抽取得到非结构化初等数学数据中的实体和关系进行数据预处理和相似度比对,得到相似度对比结果;
S24、判断相似度对比结果是否满足与初始知识图谱数据存在不同实体、不同关系和不同属性之一或任意组合的情况,若是,则得到待添加非结构化初等数学数据并进入步骤S25,否则结束流程;
S25、将待添加非结构化初等数学数据添加至所述初始知识图谱,得到完整初等数学知识图谱。
采用上述进一步方案的有益效果为:利用大数据技术获取非结构化初等数学数据,并对非结构化初等数学数据进行预处理和相似度对比,得到初始知识图谱中不存在的若干不同实体、关系和属性,并将其添加进入初始知识图谱,得到完整初等数学知识图谱。
进一步的,所述步骤S22抽取非结构化初等数学数据中的实体和关系的方法如下:
B1、根据语言技术平台LTP和类型递进逻辑采用流水线方式命名非结构化初等数学数据中实体;
B2、利用双向长短期记忆网络和条件随机场建立初等数学实体类型识别模型;
B3、利用初等数学实体类型识别模型识别非结构化初等数学数据中的实体,完成抽取非结构化初等数学数据的实体;
B4、根据非结构化初等数学数据中包含实体关系三元组的若干条数学文本构建初等数学关系库;
B5、利用BERT模型对待抽取关系的数学文本与初等数学关系库中已有数学文本进行相似度计算,并将最相似的待抽取关系的数学文本的实体关系三元组抽取出,得到抽取出文本,完成非结构化初等数学数据中的实体和关系的抽取。
采用上述进一步方案的有益效果为:首先根据语音技术平台LTP对给结构化初等数学数据中实体命名,其次采用深度学习的方法,利用双向长期记忆网络和条件随机场建立初等数学实体类型识别模型,并利用模型抽取非结构化初等数学数据中的实体,根据实体找到实体三元组数学文本,抽取出给结构化初等数学数据中的实体与关系。
进一步地,所述步骤B5中最相似待抽取关系的数学文本的判别方法如下:
C1、将若干条待抽取关系数学文本转换成若干个句向量;
C2、根据各所述句向量通过余弦距离计算得到各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离;
C3、根据所述各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离,将各句向量中余弦距离最近的待抽取关系的数学文本抽取出,得到抽取出文本。
采用上述进一步方案的有益效果为:抽取出与初始知识图谱中最相似待抽取关系数学文本。
进一步地,所述步骤S23中得到的相似度对比结果包括若干实体、若干关系以及若干属性。
进一步地,所述步骤S23包括以下步骤:
D1、非中文数据预处理:通过正则表达式判断非结构化初等数学数据中的非中文字符,并使用成对的美元符号将其包括在中间,得到非中文数据预处理结果;
D2、新定义和命题题目数据预处理:将非中文数据预处理结果中的新定义和命题题目的实体关系三元组封装为已知和结论两部分,得到新定义和命题题目处理预结果;
D3、短截分割数据预处理:将新定义和命题题目处理预结果根据中文标点逗号、分号以及句号进行短句分割,得到若干短句分割处理结果;
D4、实体相似度比对:将各短句分割处理结果中实体名称和实体包含属性抽取出,得到若干实体;
D5、关系相似度比对:将各短句分割处理结果中的首实体、尾实体、关系名称以及关系包含属性抽取出,得到若干关系;
D6、属性相似度比对:将各短句分割处理结果中属性key值和value值抽取出,得到若干属性。
采用上述进一步方案的有益效果为:通过预处理与相似度比对,得到若干实体、若干关系和若干属性,用于与初始知识图谱中的各实体、各关系、各属性进行比对并完善。
进一步地,所述步骤S24中得到的待添加非结构化初等数学数据包括与初始知识图谱数据若干不同实体、若干不同关系和若干不同属性。
采用上述进一步方案的有益效果为:所述待添加非结构化初等数学数据用于补充和完善初始知识图谱中的实体、关系和属性,解释清楚添加入初始知识图谱中数据内容。
附图说明
图1为本发明实施例中知识图谱构建步骤流程图。
图2为本发明实施例中知识图谱构建概念图。
图3为本发明实施例中初等数学知识图谱中单个实体表示方法。
图4为本发明实施例中在Neo4j图形数据库中初等数学知识图谱的平面几何知识点模块图。
图5为本发明实施例中各实体之间的继承和实体关系图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
由于初等数学知识表示的准确性需要,如命题中,根据命题表示需要引入实体已知和实体结论,所述实体已知和实体结论将命题分为两部分,才能满足对实体已知和实体结论间的充要关系精确表述,本发明提出的基于Neo4j和大数据的初等数学知识图谱构建方法将初等数学自然语言文本转换成初等数学领域知识图谱,从而把初等数学题目中的实体与实体间关系清晰准确地表示出,便于初等数学理解与解题。
如图1所示,在本发明的一个实施例中,本发明提供一种基于Neo4j和大数据的初等数学知识图谱构建方法,包括如下步骤:
S1、根据Neo4j图形数据库分别对实体、关系以及属性的定义,自上而下构建初始知识图谱;
S2、根据大数据和深度学习自下而上的构建方法完善所述初始知识图谱,得到完整的初等数学知识图谱。
本发明提供的初等数学知识图谱构建方法所构建的完整初等数学知识图谱,其实体和关系对应准确,可以准确表示初等数学各实体与实体间的语义关系,且可应用于初等数学自然语言理解和问题自动求解,涵盖了初等数学大纲内全部知识点。
如图2所示,所述步骤S1包括如下子步骤:
S11、根据初等数学知识体系获取知识图谱数据;
S12、根据知识图谱数据自上而下构建初始数据库;
S13、将初始数据库中的实体和关系转换得到Neo4j数据库中的各实体关系三元组,完成初始知识图谱构建。
所述步骤S13包括如下步骤:
A1、在Java项目中建立实体包和关系包;
A2、将实体包和关系包中的实体和关系划分入初始数据库中初等数学知识体系的各知识点模块中;
A3、利用Java语言反射机制获取各知识点模块中实体类的名称和属性,以及各知识点模块中关系类的首实体、尾实体和关系的属性;
A4、根据Java语言反射机制获取结果,利用Neo4j Cypher Java API创建各实体间的关系,得到Neo4j数据库的各实体关系三元组,完成初始知识图谱构建,其中,所述Neo4jCypher Java API自定义cypher并进行封装。
所述实体关系三元组定义为首实体A、尾实体B以及首实体A与尾实体B间的关系;
进一步地,所述实体关系三元组定义为首实体、尾实体以及首实体与尾实体间的关系;
所述步骤A2中实体包括实体名称和实体包含属性,其中,所述实体包含的属性包括属性key值和value值;
所述步骤A2中关系包括关系名称和关系包含属性,其中,所述关系包含的属性包括属性key值和value值。
所述初等数学知识图谱内容对应的实体关系三元组的定义与解释,根据实体、关系和属性可以构成初等数学中各知识模块对应内容。
所述步骤S2包括如下子步骤:
S21、利用大数据技术获取非结构化初等数学数据;
S22、利用自然语言处理技术抽取非结构化初等数学数据中的实体和关系;
S23、将抽取得到非结构化初等数学数据中的实体和关系进行数据预处理和相似度比对,得到相似度对比结果;
S24、判断相似度对比结果是否满足与初始知识图谱数据存在不同实体、不同关系和不同属性之一或任意组合的情况,若是,则得到待添加非结构化初等数学数据并进入步骤S25,否则结束流程;
S25、将待添加非结构化初等数学数据添加至所述初始知识图谱,得到完整初等数学知识图谱。
所述步骤S22抽取非结构化初等数学数据中的实体和关系的方法如下:
B1、根据语言技术平台LTP和类型递进逻辑采用流水线方式命名非结构化初等数学数据中实体;
B2、利用双向长短期记忆网络和条件随机场建立初等数学实体类型识别模型;
B3、利用初等数学实体类型识别模型识别非结构化初等数学数据中的实体,完成抽取非结构化初等数学数据的实体;
B4、根据非结构化初等数学数据中包含实体关系三元组的若干条数学文本构建初等数学关系库;
B5、利用BERT模型对待抽取关系的数学文本与初等数学关系库中已有数学文本进行相似度计算,并将最相似的待抽取关系的数学文本的实体关系三元组抽取出,得到抽取出文本,完成非结构化初等数学数据中的实体和关系的抽取。
所述步骤B5中最相似待抽取关系的数学文本的判别方法如下:
C1、将若干条待抽取关系数学文本转换成若干个句向量;
C2、根据各所述句向量通过余弦距离计算得到各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离;
C3、根据所述各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离,将各句向量中余弦距离最近的待抽取关系的数学文本抽取出,得到抽取出文本。
所述步骤S23中得到的相似度对比结果包括若干实体、若干关系以及若干属性。
所述步骤S23包括以下步骤:
D1、非中文数据预处理:通过正则表达式判断非结构化初等数学数据中的非中文字符,并使用成对的美元符号将其包括在中间,得到非中文数据预处理结果;
D2、新定义和命题题目数据预处理:将非中文数据预处理结果中的新定义和命题题目的实体关系三元组封装为已知和结论两部分,得到新定义和命题题目处理预结果;
D3、短截分割数据预处理:将新定义和命题题目处理预结果根据中文标点逗号、分号以及句号进行短句分割,得到若干短句分割处理结果;
D4、实体相似度比对:将各短句分割处理结果中实体名称和实体包含属性抽取出,得到若干实体;
D5、关系相似度比对:将各短句分割处理结果中的首实体、尾实体、关系名称以及关系包含属性抽取出,得到若干关系;
D6、属性相似度比对:将各短句分割处理结果中属性key值和value值抽取出,得到若干属性。
所述步骤S24中得到的待添加非结构化初等数学数据包括与初始知识图谱数据若干不同实体、若干不同关系和若干不同属性。
在本发明的另一个实施例中,根据初等数学知识体系的教辅中得到点、直线和三角形等实体,并定义各实体之间的两两关系,如文本:点在直线上,表示实体点和实体直线之间有在上关系,完成自上向下构建初始知识图谱的步骤;从非结构化初等数学数据的高考题中抽取,如题:设m∈R,过定点A的动直线x+my=0和过定点B的直线mx-y-m+3=0,求直线AB的一般方程,,通过相似度比对得到在此题中含有动直线,判断得到初始知识图谱中没有该实体,则将其添加入初始知识图谱中,对初始知识图谱进行完善。
如图3所示在本发明的另一个实施例中,对初始知识图谱中的单个实体进行表示,该实体为圆实体,包括其概念为平面几何体,编号为165,圆心用O表示,中文名称为圆,直径用D表示,半径用R表示以及英文名称为Circle;
在知识图谱的基本概念定义中,分为实体、关系和属性,分别如下所述:
实体:大多指的是名词,即是现实世界中存在或者虚拟的事务,在知识图谱中可视化表示为一个节点的形式,在初等数学中的实体有范围小,数据精确的特点;
关系:关系是用来表示不同实体或者相同实体之间的某种联系,关系可以拥有方向;
属性:实体和关系都可以拥有属性,在图形数据库中可以设置自己的属性,属性是由Key-Value的形式存在的键值对,属性并不细分实体属性和关系属性的key值一般可以作为一个实体存在于知识图谱中。
例如短句:函数f(x)与x轴相交,包括实体函数f(x)和实体x轴,且实体函数f(x)和实体x轴间存在相交关系;
所述相交关系的属性如表1所示:
表1
Key Value
交点个数(numbers) m
本方案完整初等数学知识图谱中共构建完成实体378个,关系561条,部分实体与关系内容如表2和表3所示:
表2
实体中文名 实体英文名
函数 Function
向量 Vector
集合 Set
三角形 Triangle
Ball
数列 Sequence
表3
关系中文名 关系英文名
相切关系 TangencyRelation
拥有关系 HaveRelation
相交关系 CrossRelation
面积关系 AreaRelation
距离关系 DistanceRelation
如图4和图5所示,在本发明的一个实施实例中,本方案对实体和关系的定义采用了继承的方式,如:实体顶点继承于实体点,关系继承表示关系父类有的关系其关系子类也会有;如:实体点、实体直线和实体点与实体直线间关系为在上关系;实体顶点作为实体点的子类,实体动直线作为实体直线的子类,就会生成:实体顶点、实体动直线和实体顶点与实体动直线间关系为在上关系的实体关系三元组;对于实体三角形,其包括子类有等边三角形、直角三角形、锐角三角形和钝角三角形,拥有边、角和顶点,属于几何图形,则其子类等边三角形、直角三角形、锐角三角形和钝角三角形继承拥有边、角和顶点,且其子类均属于几何图形。

Claims (5)

1.一种基于Neo4j和大数据的初等数学知识图谱构建方法,其特征在于,包括如下步骤:
S1、根据Neo4j图形数据库分别对实体、关系以及属性的定义,自上而下构建初始知识图谱;
所述步骤S1包括如下子步骤:
S11、根据初等数学知识体系获取知识图谱数据;
S12、根据知识图谱数据构建初始数据库;
S13、将初始数据库中的实体和关系转换得到Neo4j数据库中的各实体关系三元组,完成初始知识图谱构建;
S2、根据大数据和深度学习自下而上的构建方法完善所述初始知识图谱,得到完整的初等数学知识图谱;
所述步骤S2包括如下子步骤:
S21、利用大数据技术获取非结构化初等数学数据;
S22、利用自然语言处理技术抽取非结构化初等数学数据中的实体和关系;
所述步骤S22抽取非结构化初等数学数据中的实体和关系的方法如下:
B1、根据语言技术平台LTP和类型递进逻辑采用流水线方式命名非结构化初等数学数据中实体;
B2、利用双向长短期记忆网络和条件随机场建立初等数学实体类型识别模型;
B3、利用初等数学实体类型识别模型识别非结构化初等数学数据中的实体,完成抽取非结构化初等数学数据的实体;
B4、根据非结构化初等数学数据中包含实体关系三元组的若干条数学文本构建初等数学关系库;
B5、利用BERT模型对待抽取关系的数学文本与初等数学关系库中已有数学文本进行相似度计算,并将最相似的待抽取关系的数学文本的实体关系三元组抽取出,得到抽取出文本,完成非结构化初等数学数据中的实体和关系的抽取;
S23、将抽取得到非结构化初等数学数据中的实体和关系进行数据预处理和相似度比对,得到相似度对比结果;
所述步骤S23中得到的相似度对比结果包括若干实体、若干关系以及若干属性;
所述步骤S23包括以下步骤:
D1、非中文数据预处理:通过正则表达式判断非结构化初等数学数据中的非中文字符,并使用成对的美元符号将其包括在中间,得到非中文数据预处理结果;
D2、新定义和命题题目数据预处理:将非中文数据预处理结果中的新定义和命题题目的实体关系三元组封装为已知和结论两部分,得到新定义和命题题目处理预结果;
D3、短截分割数据预处理:将新定义和命题题目处理预结果根据中文标点逗号、分号以及句号进行短句分割,得到若干短句分割处理结果;
D4、实体相似度比对:将各短句分割处理结果中实体名称和实体包含属性抽取出,得到若干实体;
D5、关系相似度比对:将各短句分割处理结果中的首实体、尾实体、关系名称以及关系包含属性抽取出,得到若干关系;
D6、属性相似度比对:将各短句分割处理结果中属性key值和value值抽取出,得到若干属性;
S24、判断相似度对比结果是否满足与初始知识图谱数据存在不同实体、不同关系和不同属性之一或任意组合的情况,若是,则得到待添加非结构化初等数学数据并进入步骤S25,否则结束流程;
S25、将待添加非结构化初等数学数据添加至所述初始知识图谱,得到完整初等数学知识图谱。
2.根据权利要求1所述的基于Neo4j和大数据的初等数学知识图谱构建方法,其特征在于,所述步骤S13包括如下步骤:
A1、在Java项目中建立实体包和关系包;
A2、将实体包和关系包中的实体和关系划分入初始数据库中初等数学知识体系的各知识点模块中;
A3、利用Java语言反射机制获取各知识点模块中实体类的名称和属性,以及各知识点模块中关系类的首实体、尾实体和关系的属性;
A4、根据Java语言反射机制获取结果,利用Neo4j Cypher Java API创建各实体间的关系,得到Neo4j数据库的各实体关系三元组,完成初始知识图谱构建,其中,所述Neo4jCypher Java API自定义cypher并进行封装。
3.根据权利要求2所述的基于Neo4j和大数据的初等数学知识图谱构建方法,其特征在于,所述实体关系三元组定义为首实体、尾实体以及首实体与尾实体间的关系;
所述步骤A2中实体包括实体名称和实体包含属性,其中,所述实体包含的属性包括属性key值和value值;
所述步骤A2中关系包括关系名称和关系包含属性,其中,所述关系包含的属性包括属性key值和value值。
4.根据权利要求1所述的基于Neo4j和大数据的初等数学知识图谱构建方法,其特征在于,所述步骤B5中最相似待抽取关系的数学文本的判别方法如下:
C1、将若干条待抽取关系数学文本转换成若干个句向量;
C2、根据各所述句向量通过余弦距离计算得到各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离;
C3、根据所述各待抽取关系的数学文本与初等数学关系库中已有数学文本的距离,将各句向量中余弦距离最近的待抽取关系的数学文本抽取出,得到抽取出文本。
5.根据权利要求1所述的基于Neo4j和大数据的初等数学知识图谱构建方法,其特征在于,所述步骤S24中得到的待添加非结构化初等数学数据包括与初始知识图谱数据若干不同实体、若干不同关系和若干不同属性。
CN202110774302.4A 2021-07-08 2021-07-08 一种基于Neo4j和大数据的初等数学知识图谱构建方法 Active CN113360678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774302.4A CN113360678B (zh) 2021-07-08 2021-07-08 一种基于Neo4j和大数据的初等数学知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774302.4A CN113360678B (zh) 2021-07-08 2021-07-08 一种基于Neo4j和大数据的初等数学知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113360678A CN113360678A (zh) 2021-09-07
CN113360678B true CN113360678B (zh) 2022-07-15

Family

ID=77538696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774302.4A Active CN113360678B (zh) 2021-07-08 2021-07-08 一种基于Neo4j和大数据的初等数学知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113360678B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821647B (zh) * 2021-11-22 2022-02-22 山东捷瑞数字科技股份有限公司 一种工程机械行业知识图谱构建方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110781681A (zh) * 2019-10-12 2020-02-11 电子科技大学 一种基于翻译模型的初等数学应用题自动求解方法及系统
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN110569369A (zh) * 2019-09-16 2019-12-13 神州数码融信软件有限公司 银行金融系统知识图谱的生成方法及装置、应用方法及装置
CN110704411B (zh) * 2019-09-27 2022-12-09 京东方科技集团股份有限公司 适用于艺术领域的知识图谱搭建方法及装置、电子设备
CN111639190A (zh) * 2020-04-30 2020-09-08 南京理工大学 医疗知识图谱构建方法
CN111723215B (zh) * 2020-06-19 2022-10-04 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110781681A (zh) * 2019-10-12 2020-02-11 电子科技大学 一种基于翻译模型的初等数学应用题自动求解方法及系统
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Knowledge Graph construction of Thangka icon characters based on Neo4j;Sujie Cheng et al;《2020 International Conference on Intelligent Computing and Human-Computer Interaction (ICHCI)》;20201206;218-221 *
初等数学问题知识图谱的半自动构建技术研究及实现;段帅阳;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20200115(第01期);A002-6,第16-24、37-63页 *
基于本体的初等数学知识库的构建与知识搜索研究;阮怀伟 等;《电脑知识与技术》;20180705;第14卷(第19期);203-205 *
基于知识图谱的几何问题自动求解系统设计与实现;胡超杰;《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》;20200715(第07期);H130-637 *
基于知识图谱的推荐算法在问答系统中的研究及应用;许阳;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第07期);I138-1472 *

Also Published As

Publication number Publication date
CN113360678A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
Bharadiya A comprehensive survey of deep learning techniques natural language processing
CN109255031A (zh) 基于知识图谱的数据处理方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN109508385A (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
Burges Towards the machine comprehension of text: An essay
CN117807482B (zh) 海关报关单的分类方法、装置、设备及存储介质
CN113360678B (zh) 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
Lee Natural Language Processing: A Textbook with Python Implementation
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
Luo Automatic short answer grading using deep learning
CN113360606A (zh) 一种基于Filter的知识图谱问答联合训练方法
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备
Wu et al. A text correlation algorithm for stock market news event extraction
Chen et al. Design of exercise grading system based on text similarity computing
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN115146618B (zh) 一种基于对比表示学习的复杂因果关系抽取方法
CN117350276B (zh) 一种数据增强方法及系统
Schlaubitz Natural Language Processing in finance: analysis of sentiment and complexity of news and earnings reports of swiss SMEs and their relevance for stock returns
Sun Relation extraction from financial reports
Kosarava Applying Natural Language Processing Models to Create Recommendations for Professional Skills Development

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant