CN113505245A - 知识图谱的生成方法、计算机可读存储介质及计算机设备 - Google Patents

知识图谱的生成方法、计算机可读存储介质及计算机设备 Download PDF

Info

Publication number
CN113505245A
CN113505245A CN202111059802.6A CN202111059802A CN113505245A CN 113505245 A CN113505245 A CN 113505245A CN 202111059802 A CN202111059802 A CN 202111059802A CN 113505245 A CN113505245 A CN 113505245A
Authority
CN
China
Prior art keywords
standard
knowledge
graph
furniture
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111059802.6A
Other languages
English (en)
Inventor
邱冬
张强
朱晓卿
洪云强
张超
滕厚雪
江展威
郑翀
黄智华
林意强
敬军
孙倩
周颖然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Changjiang Furniture Co ltd
Shenzhen Pingan Integrated Financial Services Co ltd
Shenzhen Ping An Comprehensive Financial Services Co Ltd
Original Assignee
Shenzhen Changjiang Furniture Co ltd
Shenzhen Pingan Integrated Financial Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Changjiang Furniture Co ltd, Shenzhen Pingan Integrated Financial Services Co ltd filed Critical Shenzhen Changjiang Furniture Co ltd
Priority to CN202111059802.6A priority Critical patent/CN113505245A/zh
Publication of CN113505245A publication Critical patent/CN113505245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识图谱的生成方法,其特征在于,包括步骤:获得多级结构的产品和材料标签库;整理每个标签的映射规则;拆解家具相关国家标准文件,拆解为标准项及标准值;结合标签库的映射规则,关联产品及材料标签;获取家具行业的专业网站数据,将所述专业网站数据根据标签的映射规则关联标签库;通过标签库关联,以知识卡片形式,形成包括相关标准、相关产品及专业知识的知识图谱。能够集中家居行业的数据,方便系统用户统一查询,并且直接可以对照国标要求,提高了用户的使用效益。

Description

知识图谱的生成方法、计算机可读存储介质及计算机设备
技术领域
本发明属于评标技术领域,具体涉及一种知识图谱的生成方法、计算机可读存储介质及计算机设备。
背景技术
当前是一个信息爆炸的年代,各行各业的咨询数量及来源都是高数量级的情况。而正由于信息众多,行业人员或者公众要对家具行业进行进一步了解及选购,都会比较困难,既要对信息进行筛选,也要对信息进行审核,往往导致整个过程都需要较大量的时间,而且最后了解到的信息及选购结构还不一定可以得到保障。
发明内容
为了克服现有技术的缺陷,提供一种知识图谱的生成方法,其能提供一种知识图谱,提高获取相关信息的系统性及效率。
本发明的第二个目的是为了提供一种计算机可读存储介质及一种计算机设备。
通过以下技术方案:
一种知识图谱的生成方法,包括步骤:
获取多级结构的产品和材料标签库;整理标签的映射规则;拆解家具相关国家标准文件,拆解为标准项及标准值;其中,所述标准项包括关联的标签,所述关联的标签是基于标签库的映射规则实现关联;通过标签库内各标签的关联,形成知识图谱。
作为优选,在形成知识图谱前,获取家具行业的专业网站数据,将所述专业网站数据根据标签的映射规则关联标签库。
作为优选,所述映射规则使用文本块匹配模型。
作为优选,所述拆解家具相关国家标准文件包括以下步骤:文本噪音过滤;关键章节识别;将关键章节内容解析及拆解为标准项和标准值。
作为优选,所述章节内容解析及拆解为标准项和标准值的步骤中,所述章节内容包括表格型内容和文本型内容;
所述表格型内容拆解的方法:
总结标准项规律,发现标准项所属的列;逐层拆解为多级的标准项,并结合章节标题,拼接为最终的多级标准项;总结标准值规律,发现标准值所属的列;
所述文本型内容拆解的方法:
标准项主要为章节标题,标准值同样使用文本块匹配模型,过滤无关内容,进行相应的格式转换及单位转换。
作为优选,所述标准值包括多种形式;拆解家具相关国家标准文件时,将标准值进行格式转换及单位转换。
作为优选,所述文本噪音过滤,包括过滤边界导致的错误换行,过滤页眉、页脚、目录、页码噪音。
作为优选,所述关键章节识别包括根据章节标题特征,找到一、二级章节标题,并确定关键章节;或判断章节内是否存在家具产品信息,确定关键章节。
一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现所述的知识图谱的生成方法。
一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现所述的知识图谱的生成方法。
与现有技术相比,本发明具有以下有益效果:
能够集中家居行业的数据,方便系统用户统一查询,并且直接可以对照国标要求,提高了用户的使用效益;可以在知识图谱中选择的小卡片中推荐的家具产品,直接得到相关家具及符合国标的该类家具产品的介绍及购买网站,进一步提高了用户的效益。也可以给相关行业人员作为学习工具,普及家具行业知识,及规范化。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,其中:
图1为实施例1 所述评标方法的流程图;
图2为实施例3所述计算机设备的结构示意图;
图3为国标文件内容示意图a;
图4为国标文件内容示意图b。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本实施例公开了一种知识图谱的生成方法,其特征在于,包括以下步骤:
S1、获取专家整理的合理的多级结构的产品和材料标签库,并整理标签之间的映射规则。其中,标签库内包含成品标签(比如:木家具、桌类、办公桌),材料标签(比如:人造板、胶合板、异形胶合板), 部件标签(桌类、面板,侧板),属性分类标签(行业分类标签,材质分类标签,空间分类标签,风格分类标签等)等。通过专家提供的多级结构, 形成每类标签和其他分类标签的映射规则。
映射规则使用文本块匹配模型,文本块模式匹配规则举例如下:
4.1.办公椅
4.1.1 办公椅尺寸
4.1.2.1 座面
4.1.2.1.2 座深,应在400mm~540mm之间
初切分和实体识别之后,结果为:办公椅/prd尺寸/n;其中:n代表名词,prd代表产品。
如上例中,4.1,4.1.1,1.1.2.1,4.1.2.1.2,四个层级,由办公椅至部件,再由部件至部件尺寸,类似这样的分级即为上文提及的多级结构。从上述文本块模式匹配规则可见,将成品标签“办公椅”与部件标签“座面”形成映射关系。可见上文提及的映射规则为由多级结构形成的映射关系。
S2、拆解家具行业相关的国家标准文件,拆解为标准项及标准值,其中,标准值为标准
项对应的数值,标准项内包括多级标签。
结合标签库内的映射规则,关联产品标签及材料标签;例如对于GB/T 14532-2017办公家具木制柜、架标准原文中的木制件外观的腐朽材应≤15%, 拆解为标准项(多个标签):柜(架)类->木制件->木制件外观->腐朽材,数值类型,正偏离:小于等于, 值为15 ,单位为%;将材料标签“木制件”关联成品标签为柜(架)类。
S21、拆解家具行业相关的国家标准文件,其中拆卸的国家标准文件可为pdf格式:S22、先对文本噪音进行过滤,包括:
过滤“边界导致的错误换行”,如行尾标点符号特征、长度特征、章节标题符号特征、章节标题特征等。过滤“页眉、页脚、目录、页码”。过滤出“不清晰导致的常用词语、专业词语错误”,并将这些常用词语、专业词语进行纠正。
S23、关键章节识别,包括章节标题抽取,根据章节标题特征(标题中包括家具产品信息,包括家具的产品名称、部件名称,材料名称等、符合的国家标准信息等),寻找一二级章节标题,并确定关键章节;若通过上述章节标题特征的方式无法确认关键章节,即判断章节内是否存在的家具产品信息(所述家具产品信息包括家具的产品名称,产品尺寸,产品主色,价格,品牌等、部件材料信息:部件名称,材料名称等、符合的国家标准信息等),若有,则确定为关键章节。确定关键章节后,将关键章节的关键词(家具产品信息,包括家具的产品名称品、部件名称,材料名称等、符合的国家标准信息等)通过映射规则,关联成多级的标准项。
S24、将关键章节的章节标题及章节内容解析及拆解为标准项和标准值,其中,章节标题包括文本型内容,章节内容包括表格型内容和文本型内容。拆解标准原文得到的标准项和标准值以形成多级结构的标准库。
表格型内容(如图3、图4所示)拆解的方法:总结出标准项所在列(标准项所在列指如图3、图4所示的列出家具产品信息,包括家具的产品名称、部件名称,材料名称等的列)的表头规律,基于该规律,识别表格的表头,发现标准项所属的列;对标准项所属的列逐层拆解为多级的标准项(依据为所在一级标准项所在表格的开始行和结束行所对应的二级标准项目行数),如拆解为“桌面->高度->可调型->最小调整范围”四级的标准项,并结合章节标题的标准项,拼接为最终的多级标准项,如尺寸->办工桌尺寸->桌面->高度->可调型->最小调整范围。总结出标准值所在列(对应标准项的数值列)的表头规律,基于该规律,识别表格的表头,发现标准项所属的列。标准值分为数值型、范围型、文本型、枚举型等多种形式,进行相应的格式转换,例如:不应小于360mm,转为数值型,值为>=360mm;应在20mm~40mm之间,转为范围型,值为20-40mm。通过格式转换,以便后续可引用标准值作为正负偏差的参考值。另外根据标准值在所在表格的索引(行列信息)位置,对该表格对应的单位说明,进行转换,如“单位为毫米”,转换为mm。
文本型内容拆解的方法:标准项主要为章节标题的关键词,标准值同样使用文本块匹配
模型,过滤无关内容,并按数值型、范围型、文本型、枚举型等多种形式,进行相应的格式转换及单位转换:如不应小于360mm,转为数值型,值为>=360mm;应在20mm~40mm之间,转为范围型,值为20-40mm。标准值分为多种形式,进行相应的格式转换;并根据表格位置,找到最接近的单位说明,并进行转换, 使同一份标准文件拆解出来的结构化标准格式一致。
S3、获取家具行业相关的专业网站数据,通过解析产品数据的家具基本属性,成品属性和所用材料属性,并赋予对应的产品标签、材料标签等标签,将所述专业网站数据根据标签的映射规则关联标签库,完成网站数据标签化打标。
S4、通过标签库内各类标签的关联,形成标准项和标准值的结构化专家知识库;并以知
识卡片形式,形成包括相关标准、相关产品及专业知识的知识图谱。
其中的知识图谱为本发明所述的知识图谱生成方法形成的知识图谱,用户可以基于知识图谱,认识各类家具的关系、家具的结构及材料,对于刚入行的行业人员可以快速掌握家具知识,也能够作为一种家具行业学习的学习图谱。
用户通过点击知识产权图谱中的节点(家具的产品名称、部件名称,材料名称等),即会显示出知识卡片,知识卡片会展示该家具相关的产品、部件等的相关资讯、国标要求,甚至购买网点等,能够满足采购、投标人员的需求。后续可以通过搜索文本或者标签库中标签展示相关标准和相关产品以及知识图谱。
实施例2
本实施例提供了一种计算机可读存储介质,可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如实施例1中的知识图谱的生成方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
实施例3
本实施例提供了一种计算机设备,如图3所示,分布式存储系统包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如实施例1中的知识图谱的生成方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,故凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种知识图谱的生成方法,其特征在于,包括步骤:
获取多级结构的产品和材料标签库;整理标签的映射规则;拆解家具相关国家标准文件,拆解为标准项及标准值;其中,所述标准项包括关联的标签,所述关联的标签是基于标签库的映射规则实现关联;通过标签库内各标签的关联,形成知识图谱。
2.根据权利要求1所述的知识图谱的生成方法,其特征在于,在形成知识图谱前,获取家具行业的专业网站数据,将所述专业网站数据根据标签的映射规则关联标签库。
3.根据权利要求1所述的知识图谱的生成方法,其特征在于,所述映射规则使用文本块匹配模型。
4.根据权利要求1所述的知识图谱的生成方法,其特征在于,所述拆解家具相关国家标准文件包括以下步骤:文本噪音过滤;关键章节识别;将关键章节内容解析及拆解为标准项和标准值。
5.根据权利要求4所述的知识图谱的生成方法,其特征在于,所述章节内容解析及拆解为标准项和标准值的步骤中,所述章节内容包括表格型内容和文本型内容;
所述表格型内容拆解的方法:
总结标准项规律,发现标准项所属的列;逐层拆解为多级的标准项,并结合章节标题,拼接为最终的多级标准项;总结标准值规律,发现标准值所属的列;
所述文本型内容拆解的方法:
标准项主要为章节标题,标准值同样使用文本块匹配模型,过滤无关内容,进行相应的格式转换及单位转换。
6.根据权利要求5所述的知识图谱的生成方法,其特征在于,所述标准值包括多种形式;拆解家具相关国家标准文件时,将标准值进行格式转换及单位转换。
7.根据权利要求4所述的知识图谱的生成方法,其特征在于,所述文本噪音过滤,包括过滤边界导致的错误换行,过滤页眉、页脚、目录、页码噪音。
8.根据权利要求4所述的知识图谱的生成方法,其特征在于,所述关键章节识别包括根据章节标题特征,找到一、二级章节标题,并确定关键章节;或判断章节内是否存在家具产品信息,确定关键章节。
9.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的知识图谱的生成方法。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的知识图谱的生成方法。
CN202111059802.6A 2021-09-10 2021-09-10 知识图谱的生成方法、计算机可读存储介质及计算机设备 Pending CN113505245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111059802.6A CN113505245A (zh) 2021-09-10 2021-09-10 知识图谱的生成方法、计算机可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111059802.6A CN113505245A (zh) 2021-09-10 2021-09-10 知识图谱的生成方法、计算机可读存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN113505245A true CN113505245A (zh) 2021-10-15

Family

ID=78017122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111059802.6A Pending CN113505245A (zh) 2021-09-10 2021-09-10 知识图谱的生成方法、计算机可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN113505245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238663A (zh) * 2022-02-25 2022-03-25 北京理工大学 一种材料数据用知识图谱分析方法、系统、电子设备及介质
CN114970564A (zh) * 2022-06-16 2022-08-30 北京汉端科技有限公司 基于云平台微服务化民航安全管理sop系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100049684A1 (en) * 2006-10-13 2010-02-25 Edwin Adriaansen Methods and systems for knowledge discovery
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN106557967A (zh) * 2016-10-27 2017-04-05 浙江大学城市学院 一种产品设计知识构建处理方法
CN107748754A (zh) * 2017-09-15 2018-03-02 广州唯品会研究院有限公司 一种知识图谱完善方法和装置
CN109446341A (zh) * 2018-10-23 2019-03-08 国家电网公司 知识图谱的构建方法及装置
CN110019560A (zh) * 2017-12-28 2019-07-16 中国移动通信集团上海有限公司 一种基于知识图谱的查询方法及装置
CN112380401A (zh) * 2021-01-14 2021-02-19 蚂蚁智信(杭州)信息技术有限公司 业务数据的核对方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100049684A1 (en) * 2006-10-13 2010-02-25 Edwin Adriaansen Methods and systems for knowledge discovery
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN106557967A (zh) * 2016-10-27 2017-04-05 浙江大学城市学院 一种产品设计知识构建处理方法
CN107748754A (zh) * 2017-09-15 2018-03-02 广州唯品会研究院有限公司 一种知识图谱完善方法和装置
CN110019560A (zh) * 2017-12-28 2019-07-16 中国移动通信集团上海有限公司 一种基于知识图谱的查询方法及装置
CN109446341A (zh) * 2018-10-23 2019-03-08 国家电网公司 知识图谱的构建方法及装置
CN112380401A (zh) * 2021-01-14 2021-02-19 蚂蚁智信(杭州)信息技术有限公司 业务数据的核对方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238663A (zh) * 2022-02-25 2022-03-25 北京理工大学 一种材料数据用知识图谱分析方法、系统、电子设备及介质
CN114970564A (zh) * 2022-06-16 2022-08-30 北京汉端科技有限公司 基于云平台微服务化民航安全管理sop系统
CN114970564B (zh) * 2022-06-16 2023-02-03 北京汉端科技有限公司 基于云平台微服务化民航安全管理sop系统

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
US7444325B2 (en) Method and system for information extraction
US11194832B2 (en) Normalization of unstructured catalog data
US20140046899A1 (en) Method and Apparatus of Implementing Navigation of Product Properties
CN111931774B (zh) 药品数据的入库方法及系统
US20070239742A1 (en) Determining data elements in heterogeneous schema definitions for possible mapping
US20060218160A1 (en) Change control management of XML documents
CN113505245A (zh) 知识图谱的生成方法、计算机可读存储介质及计算机设备
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN106776495B (zh) 一种文档逻辑结构重建方法
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN103177075A (zh) 基于知识的实体检测和消歧
CA2610208A1 (en) Learning facts from semi-structured text
JP7089605B2 (ja) データ変形システムおよび方法
CN115203309B (zh) 网页中标数据结构化方法及装置
CN106599153A (zh) 一种基于多个数据源的废旧行业搜索系统以及其方法
CN109857912A (zh) 一种字形识别方法、电子设备及存储介质
CN112163160A (zh) 基于知识图谱的敏感识别方法
CN112989791B (zh) 一种基于文本信息抽取结果的去重方法、系统以及介质
CN114817481A (zh) 基于大数据的智慧供应链可视化方法及装置
CN110969332A (zh) 企业筛选方法及装置
US10146881B2 (en) Scalable processing of heterogeneous user-generated content
CN116090416B (zh) 基于标准知识图谱的标准编写方法、系统、设备及介质
CN110020205B (zh) 数据信息的筛选方法和系统
US20150052028A1 (en) Systems and Methods for Recommending Providers and for Processing Product Inventories of Providers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211015

RJ01 Rejection of invention patent application after publication