CN114238663A - 一种材料数据用知识图谱分析方法、系统、电子设备及介质 - Google Patents

一种材料数据用知识图谱分析方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN114238663A
CN114238663A CN202210173874.1A CN202210173874A CN114238663A CN 114238663 A CN114238663 A CN 114238663A CN 202210173874 A CN202210173874 A CN 202210173874A CN 114238663 A CN114238663 A CN 114238663A
Authority
CN
China
Prior art keywords
entity
material data
entities
data
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210173874.1A
Other languages
English (en)
Other versions
CN114238663B (zh
Inventor
张洪梅
程兴旺
肖晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210173874.1A priority Critical patent/CN114238663B/zh
Publication of CN114238663A publication Critical patent/CN114238663A/zh
Application granted granted Critical
Publication of CN114238663B publication Critical patent/CN114238663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,其目的在于提供一种材料数据用知识图谱分析方法、系统、电子设备及介质。其中的方法包括:获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到材料知识图谱;实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,最后将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。本发明解决了材料数据知识的关联与整合问题,可有助于用户快速选取相关满足性能要求的材料。

Description

一种材料数据用知识图谱分析方法、系统、电子设备及介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种材料数据用知识图谱分析方法、系统、电子设备及介质。
背景技术
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,并可利用可视化技术形象描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。基于知识图谱,可把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
现有技术中并针对材料数据构建知识图谱。而由于材料的特性广泛,各条材料数据之间相对独立,材料的属性、各类性能指标及应用等数据项之间缺乏关联性,导致在用户寻找可替换材料等信息时,检索工作较为繁琐,因而,有必要研究一种用于材料数据的知识图谱分析方法。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种材料数据用知识图谱分析方法、系统、电子设备及介质。
本发明采用的技术方案是:
第一方面,本发明提供了一种材料数据用知识图谱分析方法,包括:
获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,并进入下一步;
获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;
将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
在一个可能的设计中,对所述原始材料数据进行实体关系识别处理时,基于实体关系识别模型实现,其中,所述实体关系识别模型包括编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系-客体指针网络、客体识别网络和标识码生成模块;基于所述实体关系识别模型对所述原始材料数据进行实体关系识别处理的步骤如下:
将所述原始材料数据输入所述编码层进行文本编码处理,得到文本向量序列;
将所述文本向量序列输入所述主体识别指针网络进行主体生成处理,得到所述原始材料数据中的所有主体;
将所有主体输入所述主体掩码计算模块进行计算,得到所有主体对应的主体掩码序列;
将所述文本向量序列和所述主体掩码序列输入Transformer层进行处理,得到所有主体对应的主体向量序列;
将所述主体向量序列和所述文本向量序列输入所述关系-客体指针网络进行处理,得到关系-客体向量序列;
将所述关系-客体向量序列输入客体识别网络进行预测处理,得到与所有主体对应的相关客体,其中,所有主体以及与所有主体对应的相关客体即为根据所述原始材料数据得到的实体;
将所述实体输入所述标识码生成模块进行标识码生成处理,得到所述实体对应的标识码。
在一个可能的设计中,所述主体识别指针网络对所述文本向量序列进行主体生成处理,得到所述原始材料数据中的所有主体时,步骤如下:
计算所述文本向量序列中所有文字为主体开始位置的第一概率及为主体结束位置的第二概率;
判断所述文本向量序列中任一文字的第一概率或第二概率是否大于第一阈值,若是,则将该文字所在的位置标记为1,否则将该文字所在的位置标记为0;
从所述文本向量序列的首位文字开始,将所述位置标记为1的文字与所述文本向量序列中位置在该文字之后的所在位置标记为1的文字进行配对处理,得到一个主体,然后将进行该所述位置标记为1的文字之后文字的配对处理,直到得到所述原始材料数据中的所有主体。
在一个可能的设计中,所述文本向量序列中,第i个文字为主体开始位置的第一概率为:
f 1 (i)=σ(W 1 *a(i)+b 1 );
所述文本向量序列中,第i个文字为主体结束位置的第二概率为:
f 2 (i)=σ(W 2 *a(i)+b 2 );
其中,σ为sigmoid函数,W 1 b 1 W 2 b 2 为与关系类型相关的可训练参数,a(i)为所述文本向量序列中第i个文字的位置向量。
在一个可能的设计中,所述原始材料数据从预存的材料数据库获取,所述材料数据库中包括数据属性和性能数据;所述数据属性包括材料类别、名称、生产单位、研制单位、成分、品种、技术标准、工艺、规格和/或批次;所述性能数据包括力学性能数据和/或物理性能数据。
在一个可能的设计中,获取原始材料数据后,所述材料数据用知识图谱分析方法还包括:
对材料数据进行预处理,然后将预处理后实体进行实体关系识别处理;其中,所述预处理包括标准化处理、数据清洗处理和/或数据噪声处理。
在一个可能的设计中,对所述待查询信息进行实体识别时,包括:
采用循环神经网络对所述待查询信息进行句法解析,得到解析后待查询信息;
将解析后待查询信息输入基于LSTM+CRF的序列标注模型,得到与所述待查询信息对应的待检测实体。
本发明通过生成材料知识图谱,解决了材料数据知识的关联与整合问题,还可有助于用户快速选取相关满足性能要求的材料。具体地,本发明在实施过程中,通过对所述原始材料数据进行实体关系识别处理,并进行实体融合等操作,实现了材料数据知识的关联与整合,增强了材料知识的连通性,有利于将材料知识图谱应用于材料数据直接相关、间接相关及隐含相关等数据间关系的挖掘;此外,本发明中,在接收到查询指令以及与所述查询指令对应的待查询信息时,可通过获取所述待查询信息对应的待检测实体及对应的标识码,得到与所述待检测实体的所有相关实体、所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系,然后对所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出,由此便于用户掌握与待查询信息关联的所有信息,从而便于用户进行材料选取等工作。
第二方面,本发明提供了一种材料数据用知识图谱分析系统,用于实现如上述任一项所述的材料数据用知识图谱分析方法;所述材料数据知识图谱构建系统包括:
实体关系识别处理模块,用于获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
知识图谱生成模块,用于将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
查询模块,用于实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,然后获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;
查询结果输出模块,用于将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
第三方面,本发明提供了一种电子设备,包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如上述任一项所述的材料数据用知识图谱分析方法的操作。
第四方面,本发明提供了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如上述任一项所述的材料数据用知识图谱分析方法的操作。
附图说明
图1是本发明中一种材料数据用知识图谱分析方法的流程图;
图2是本发明中材料数据库的结构示意图;
图3是本发明中示例的多个实体之间的token属性绑定的结构示意图;
图4是本发明中示例的对xxxMPa拉伸强度实体的多层级联可视化输出的示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
实施例1:
本实施例第一方面提供了一种材料数据用知识图谱分析方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行,或者由虚拟机执行,以便生成材料知识图谱,并便于用户进行材料选取等工作。
如图1所示,一种材料数据用知识图谱分析方法,可以但不限于包括有如下步骤:
S1.获取原始材料数据;
S2.对材料数据进行预处理,然后将预处理后实体进行实体关系识别处理;其中,所述预处理包括标准化处理、数据清洗处理和/或数据噪声处理。
本实施例中,预处理包括标准化处理、数据清洗处理和数据噪声处理,其中,标准化处理包括:根据预设的规则将材料数据进行规则匹配和/或规范化转换,如对生产单位、研制单位及技术标准等材料数据,根据相应数据的正确表达格式进行规则匹配,又如对力学性能数据及物理性能数据等以数字小时的数据,进行大小写转换、空格删除及单位标准化等规范化转换,从而可提高材料数据的数据质量,进而有助于提高知识图谱构建的准确度。所述数据清洗处理包括:获取所述原始材料数据中的缺失数据、冗余数据及异常数据,然后将所述原始数据中的缺失数据、冗余数据及异常数据删除;数据噪声处理可以通过分箱、聚类及回归的方式实现,以便得到平滑的数据。
S3.对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
需要说明的是,所述原始材料数据可以但不仅限于为非结构化数据、半结构化数据或结构化数据。
当所述原始材料数据为结构化数据时,所述原始材料数据可从预存的材料数据库获取,此时可根据所述材料数据库直接得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码,其中,预存的材料数据库如图2所示,具体地,所述材料数据库中包括数据属性和性能数据;所述数据属性包括材料类别、名称、生产单位、研制单位、成分、品种、技术标准、工艺、规格和/或批次;其中,名称与生产单位、研制单位、成分和品种建立属性关联,品种与技术标准和工艺建立属性关联,工艺与规格建立属性关联,规格与批次建立属性关联,批次与性能数据建立关联。
所述性能数据包括力学性能数据和/或物理性能数据。具体地,力学性能数据包括拉伸性能数据、压缩性能数据、弯曲性能数据、剪切性能数据和/或断裂性能数据,其中拉伸性能数据包括拉伸强度及拉伸模量指标等指标项;物理性能数据包括内耗、热膨胀系数、热导率、比热容、电阻率和弹性模量等指标项。其中,批次与力学性能数据和物理性能数据建立关联,力学性能数据与其包括的拉伸性能数据、压缩性能数据、弯曲性能数据、剪切性能数据和断裂性能数据建立关联,物理性能数据与其包括的内耗、热膨胀系数、热导率、比热容、电阻率和弹性模量建立关联。
本实施例中,所述原始材料数据还可包括基本属性、测试条件、测试数据和测试结果;其中,基本属性是指获取该材料数据的测试的基本信息,如测试对象类型、测试对象名称、测试单位、测试人员、测试时间、测试设备名称、测试设备型号、测试依据标准、取样位置、样品预处理要求、样品数量、样品图片、样品状态、样品方向、样品状态等;测试条件是指获取该材料数据的测试的前置条件,如:测试温度、测试湿度、加载速率等;测试数据是对当前材料测试后获得的材料数据,如:拉升性能测试数据、压缩性能的测试数据、弯曲性能测试数据、剪切性能的测试数据等;测试结果是指测试报告、测试分析结果等。原始材料数据中对应的数据属性实体可基于所述材料数据库直接解析,性能实体可基于所述材料数据库动态识别得出。
当所述原始材料数据为非结构化数据和/或半结构化数据时,对所述原始材料数据进行实体关系识别处理时,基于实体关系识别模型实现,其中,所述实体关系识别模型包括编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系-客体指针网络、客体识别网络和标识码生成模块;本实施例中,所述编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系-客体指针网络、客体识别网络和标识码生成模块依次通信连接;为实现对主体及客体等实体识别的准确率;具体地,本实施例中,基于所述实体关系识别模型对所述原始材料数据进行实体关系识别处理的步骤如下:
S301.将所述原始材料数据输入所述编码层进行文本编码处理,得到文本向量序列;本实施例中,编码层可以但不仅限于采用RoBERTa中文预训练模型中的某一编码层,可快速实现对原始材料数据的文本编码处理;
S302.将所述文本向量序列输入所述主体识别指针网络进行主体生成处理,得到所述原始材料数据中的所有主体;
本实施例中,所述主体识别指针网络对所述文本向量序列进行主体生成处理,得到所述原始材料数据中的所有主体时,步骤如下:
A1.计算所述文本向量序列中所有文字为主体开始位置的第一概率及为主体结束位置的第二概率;
具体地,所述文本向量序列中,第i个文字为主体开始位置的第一概率为:
f 1 (i)=σ(W 1 *a(i)+b 1 );
所述文本向量序列中,第i个文字为主体结束位置的第二概率为:
f 2 (i)=σ(W 2 *a(i)+b 2 );
其中,σ为sigmoid函数,W 1 b 1 W 2 b 2 为与关系类型相关的可训练参数,a(i)为所述文本向量序列中第i个文字的位置向量。
需要说明的是,基于sigmoid函数,可所述文本向量序列中的所有文字映射到(0,1)之间,其求导过程简单快捷,利于加快主体获取的速度。
应当理解的是,所述关系-客体指针网络对所述主体向量序列和所述文本向量序列进行处理时,可以通过计算所述文本向量序列中任一文字与所述主体向量序列中所有主体存在关系的开始位置的概率和结束位置的概率,然后对任一文字与主体存在关系的开始位置的概率和结束位置的概率,对相应文字进行配对处理,以便得到对应的关系-客体向量序列。
A2.判断所述文本向量序列中任一文字的第一概率或第二概率是否大于第一阈值,其中,该第一阈值可根据用户需求设置为0.6-1中的任一数字,此处不予限制,若是,则将该文字所在的位置标记为1,否则将该文字所在的位置标记为0;
A3.从所述文本向量序列的首位文字开始,将所述位置标记为1的文字与所述文本向量序列中位置在该文字之后的所在位置标记为1的文字进行配对处理,得到一个主体,然后将进行该所述位置标记为1的文字之后文字的配对处理,直到得到所述原始材料数据中的所有主体。
S303.将所有主体输入所述主体掩码计算模块进行计算,得到所有主体对应的主体掩码序列;
S304.将所述文本向量序列和所述主体掩码序列输入Transformer层进行处理,得到所有主体对应的主体向量序列;
S305.将所述主体向量序列和所述文本向量序列输入所述关系-客体指针网络进行相加处理,得到关系-客体向量序列;
S306.将所述关系-客体向量序列输入客体识别网络进行预测处理,得到与所有主体对应的相关客体,其中,所有主体以及与所有主体对应的相关客体即为根据所述原始材料数据得到的实体;应当理解的是,本实施例中,所有实体之间的关系与关系-客体向量序列中的所有关系对应;
S307.将所述实体输入所述标识码生成模块进行标识码生成处理,得到所述实体对应的标识码。
S4.将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
本实施例中,得到材料知识图谱后,所述材料数据用知识图谱分析方法还包括:
根据预设的评分函数对所述材料知识图谱中的实体或关系之间的相似度进行评分,并将分数达到第二阈值且未建立连接的实体之间进行关联,以便于更新所述材料知识图谱,使材料知识图谱整体更为完整;本实施例中,所述评分函数为:
g(j)=β|1/logP|+γ|1/∑ j logQ j |;
其中,βγ为权重系数,P为目标实体与待关联实体间的相似度,Q j 为目标实体第j个关系数据与待关联实体的关联度。
需要说明的是,目标实体与待关联实体间的相似度越高,则该两个实体相互关联的概率越大,评分函数数值越大。
S5.实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,应当理解的是,本实施例还在得到待检测实体后,对所述待检测实体标准化处理,以便实现对待检测实体的准确查询;并进入下一步;若否,则在指定时间后循环判断;
本实施例中,对所述待查询信息进行实体识别时,包括:
B1.采用循环神经网络(recurrent neural network,RNN)对所述待查询信息进行句法解析,得到解析后待查询信息;需要说明的是,对所述待查询信息进行句法解析时,还可以但不仅限于采用卷积神经网络(convolutional neural network,CNN)或深度神经网络(Deep Neural Networks,DNN),采用卷积神经网络、循环神经网络或深度神经网络对待查询信息进行句法解析时,可对待查询信息进行多次迭代处理,以得到待查询信息的向量表示,该步骤可有效考虑所述待查询信息中语句的句法结构,利于提高后续获取待检测实体的准确性,由此增加查询结果的精准度;
B2.将解析后待查询信息输入基于LSTM+CRF(Long Short Term Memory +Conditional Random Field,长短期记忆网络+条件随机场)的序列标注模型,其可根据输入的语句、词语序列等形式的待查询信息,得到与所述待查询信息对应的实体信息,即待检测实体。应当理解的是,序列标注模型还可以但不仅限于采用LSTM-CNNs-CRF(Long ShortTerm Memory +Convolutional Neural Networks+ Conditional Random Field,长短期记忆网络+卷积神经网络+条件随机场)模型或基于注意力机制的神经网络模型,此处不予限制。
S6.获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,应当理解的是,由于所述待检测实体和所述相关实体中均绑定有相同的标识码,由此所述相关实体与所述待检测实体存在关联关系,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;需要说明的是,本实施例中,获取所述待检测实体对应的标识码时,通过将所述待检测实体输入预设的标识码生成模块进行标识码生成处理得到;
具体地,本实施例中,所述标识码以token属性的形式与所述实体进行绑定,token属性基于对应的标识码生成,以便于标识实体或关系。本实施例中,根据任一所述待检测实体与知识图谱中其他实体的token属性,即可得知所述待检测实体之间的关联关系,进而便于进行多层级联可视化输出,如图3所示,当所述待检测实体为“实体2”时,选择“实体2”后,“实体2”token属性包含 “token2”、“token3”、“token4”和“token5”,其他所有token属性与“实体2”的token属性有交集的实体可同时被选取。
进一步需要说明的是,Token属性用于标识任一实体所属于的材料数据,为了标识多个实体都曾在同一条材料数据中出现,在材料数据实体识别过程中将材料数据的材料唯一标识码在材料图数据中以token方式存储使用,经实体融合之后,每个实体均可能存在多个token属性,在材料图数据的分析研究中,从材料角度可以快速构建该材料的测试数据构成的所有实体,同时便于高效找出实体间的关系。
S7.将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出,以便于用户快速选取相关满足待检测实体要求的材料信息。
作为示例,当所述待检测实体为xxxMPa拉伸强度时,如图4所示,xxxMPa拉伸强度的材料数据指标实体,与其存在关联的相关实体有“批次01”、“批次02”及“批次03”三个批次实体,采用多层级联可视化输出方式时,相关实体中各批次往上逐层关联的其他相关实体都可进行可视化输出,以便于用户快速获取与所述待检测实体存在关联的所有实体及对应关系。本实施例中,可视化输出可采以但不仅限于才用高亮可视化输出、文本加粗可视化输出等,从而可便于用户快速选取相关满足性能要求的材料。
本实施例通过生成材料知识图谱,解决了材料数据知识的关联与整合问题,还可有助于用户快速选取相关满足性能要求的材料。具体地,本实施例在实施过程中,通过对所述原始材料数据进行实体关系识别处理,并进行实体融合等操作,实现了材料数据知识的关联与整合,增强了材料知识的连通性,有利于将材料知识图谱应用于材料数据直接相关、间接相关及隐含相关等数据间关系的挖掘;此外,本实施例中,在接收到查询指令以及与所述查询指令对应的待查询信息时,可通过获取所述待查询信息对应的待检测实体及对应的标识码,得到与所述待检测实体的所有相关实体、所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系,然后对所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出,由此便于用户掌握与待查询信息关联的所有信息,从而便于用户进行材料选取等工作。
实施例2:
本实施例提供一种材料数据知识图谱构建系统,用于实现实施例1中材料数据用知识图谱分析方法;所述材料数据知识图谱构建系统包括:
实体关系识别处理模块,用于获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
知识图谱生成模块,用于将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
查询模块,用于实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,然后获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;
查询结果输出模块,用于将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
实施例3:
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等,具体地,所述电子设备包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的材料数据用知识图谱分析方法的操作。
实施例4:
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的材料数据用知识图谱分析方法的操作。
需要说明的是,所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种材料数据用知识图谱分析方法,其特征在于:包括:
获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,并进入下一步;
获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;
将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
2.根据权利要求1所述的一种材料数据用知识图谱分析方法,其特征在于:对所述原始材料数据进行实体关系识别处理时,基于实体关系识别模型实现,其中,所述实体关系识别模型包括编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系-客体指针网络、客体识别网络和标识码生成模块;基于所述实体关系识别模型对所述原始材料数据进行实体关系识别处理的步骤如下:
将所述原始材料数据输入所述编码层进行文本编码处理,得到文本向量序列;
将所述文本向量序列输入所述主体识别指针网络进行主体生成处理,得到所述原始材料数据中的所有主体;
将所有主体输入所述主体掩码计算模块进行计算,得到所有主体对应的主体掩码序列;
将所述文本向量序列和所述主体掩码序列输入Transformer层进行处理,得到所有主体对应的主体向量序列;
将所述主体向量序列和所述文本向量序列输入所述关系-客体指针网络进行处理,得到关系-客体向量序列;
将所述关系-客体向量序列输入客体识别网络进行预测处理,得到与所有主体对应的相关客体,其中,所有主体以及与所有主体对应的相关客体即为根据所述原始材料数据得到的实体;
将所述实体输入所述标识码生成模块进行标识码生成处理,得到所述实体对应的标识码。
3.根据权利要求2所述的一种材料数据用知识图谱分析方法,其特征在于:所述主体识别指针网络对所述文本向量序列进行主体生成处理,得到所述原始材料数据中的所有主体时,步骤如下:
计算所述文本向量序列中所有文字为主体开始位置的第一概率及为主体结束位置的第二概率;
判断所述文本向量序列中任一文字的第一概率或第二概率是否大于第一阈值,若是,则将该文字所在的位置标记为1,否则将该文字所在的位置标记为0;
从所述文本向量序列的首位文字开始,将所述位置标记为1的文字与所述文本向量序列中位置在该文字之后的所在位置标记为1的文字进行配对处理,得到一个主体,然后将进行该所述位置标记为1的文字之后文字的配对处理,直到得到所述原始材料数据中的所有主体。
4.根据权利要求3所述的一种材料数据用知识图谱分析方法,其特征在于:所述文本向量序列中,第i个文字为主体开始位置的第一概率为:
f 1 (i)=σ(W 1 *a(i)+b 1 );
所述文本向量序列中,第i个文字为主体结束位置的第二概率为:
f 2 (i)=σ(W 2 *a(i)+b 2 );
其中,σ为sigmoid函数,W 1 b 1 W 2 b 2 为与关系类型相关的可训练参数,a(i)为所述文本向量序列中第i个文字的位置向量。
5.根据权利要求1所述的一种材料数据用知识图谱分析方法,其特征在于:所述原始材料数据从预存的材料数据库获取,所述材料数据库中包括数据属性和性能数据;所述数据属性包括材料类别、名称、生产单位、研制单位、成分、品种、技术标准、工艺、规格和/或批次;其中,名称与生产单位、研制单位、成分和品种建立属性关联,品种与技术标准和工艺建立属性关联,工艺与规格建立属性关联,规格与批次建立属性关联,批次与性能数据建立关联;所述性能数据包括力学性能数据和/或物理性能数据。
6.根据权利要求1所述的一种材料数据用知识图谱分析方法,其特征在于:获取原始材料数据后,所述材料数据用知识图谱分析方法还包括:
对材料数据进行预处理,然后将预处理后实体进行实体关系识别处理;其中,所述预处理包括标准化处理、数据清洗处理和/或数据噪声处理。
7.根据权利要求1所述的一种材料数据用知识图谱分析方法,其特征在于:对所述待查询信息进行实体识别时,包括:
采用循环神经网络对所述待查询信息进行句法解析,得到解析后待查询信息;
将解析后待查询信息输入基于LSTM+CRF的序列标注模型,得到与所述待查询信息对应的待检测实体。
8.一种材料数据知识图谱构建系统,其特征在于:用于实现如权利要求1至7中任一项所述的材料数据用知识图谱分析方法;所述材料数据知识图谱构建系统包括:
实体关系识别处理模块,用于获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;
知识图谱生成模块,用于将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;
查询模块,用于实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,然后获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;
查询结果输出模块,用于将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
9.一种电子设备,其特征在于:包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如权利要求1至7中任一项所述的材料数据用知识图谱分析方法的操作。
10.一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,其特征在于:所述计算机程序指令被配置为运行时执行如权利要求1至7中任一项所述的材料数据用知识图谱分析方法的操作。
CN202210173874.1A 2022-02-25 2022-02-25 一种材料数据用知识图谱分析方法、系统、电子设备及介质 Active CN114238663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173874.1A CN114238663B (zh) 2022-02-25 2022-02-25 一种材料数据用知识图谱分析方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173874.1A CN114238663B (zh) 2022-02-25 2022-02-25 一种材料数据用知识图谱分析方法、系统、电子设备及介质

Publications (2)

Publication Number Publication Date
CN114238663A true CN114238663A (zh) 2022-03-25
CN114238663B CN114238663B (zh) 2022-06-10

Family

ID=80748100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173874.1A Active CN114238663B (zh) 2022-02-25 2022-02-25 一种材料数据用知识图谱分析方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114238663B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650855A (zh) * 2020-12-26 2021-04-13 曙光信息产业股份有限公司 知识图谱工程化构建方法、装置、计算机设备和存储介质
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113505245A (zh) * 2021-09-10 2021-10-15 深圳平安综合金融服务有限公司 知识图谱的生成方法、计算机可读存储介质及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650855A (zh) * 2020-12-26 2021-04-13 曙光信息产业股份有限公司 知识图谱工程化构建方法、装置、计算机设备和存储介质
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113505245A (zh) * 2021-09-10 2021-10-15 深圳平安综合金融服务有限公司 知识图谱的生成方法、计算机可读存储介质及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID MRDJENOVICH,ET AL.: "propnet: A Knowledge Graph for Materials", 《CELL PRESS》 *
汪晶: "磁性材料性能建模与知识库智能设计方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
郑慎鹏 等: "基于主体掩码的实体关系抽取方法", 《大数据》 *

Also Published As

Publication number Publication date
CN114238663B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
US20180137150A1 (en) Automatic entity resolution with rules detection and generation system
CN111581976A (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN108376129B (zh) 一种纠错方法及装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
WO2020233131A1 (zh) 问答处理方法、装置、计算机设备和存储介质
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Puccetti et al. Technology identification from patent texts: A novel named entity recognition method
CN111666766A (zh) 数据处理方法、装置和设备
CN116306504B (zh) 候选实体生成方法、装置、存储介质及电子设备
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
CN112347252A (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN114238663B (zh) 一种材料数据用知识图谱分析方法、系统、电子设备及介质
CN115862840A (zh) 关节疼痛疾病的智能辅助诊断方法和装置
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN114664421A (zh) 一种医患匹配方法、装置、电子设备、介质及产品
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
CN116127053B (zh) 实体词消歧、知识图谱生成和知识推荐方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant