CN114547324A - 食品安全国家标准领域本体的构建方法、系统和介质 - Google Patents
食品安全国家标准领域本体的构建方法、系统和介质 Download PDFInfo
- Publication number
- CN114547324A CN114547324A CN202111676407.2A CN202111676407A CN114547324A CN 114547324 A CN114547324 A CN 114547324A CN 202111676407 A CN202111676407 A CN 202111676407A CN 114547324 A CN114547324 A CN 114547324A
- Authority
- CN
- China
- Prior art keywords
- food safety
- standard
- national
- ontology
- food
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000013305 food Nutrition 0.000 title claims abstract description 227
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000010276 construction Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 235000015219 food category Nutrition 0.000 claims description 24
- 235000013373 food additive Nutrition 0.000 claims description 18
- 239000002778 food additive Substances 0.000 claims description 18
- 238000004519 manufacturing process Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 8
- 239000000575 pesticide Substances 0.000 claims description 8
- 231100000678 Mycotoxin Toxicity 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 239000002636 mycotoxin Substances 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 6
- 230000036541 health Effects 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 239000000356 contaminant Substances 0.000 claims description 3
- -1 detection methods Substances 0.000 claims description 3
- 235000015872 dietary supplement Nutrition 0.000 claims 1
- 239000000047 product Substances 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 11
- 230000004927 fusion Effects 0.000 abstract description 5
- 235000015140 cultured milk Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- WPYMKLBDIGXBTP-UHFFFAOYSA-N benzoic acid Chemical compound OC(=O)C1=CC=CC=C1 WPYMKLBDIGXBTP-UHFFFAOYSA-N 0.000 description 6
- 235000013365 dairy product Nutrition 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 239000000654 additive Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 239000003344 environmental pollutant Substances 0.000 description 4
- 235000011194 food seasoning agent Nutrition 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 235000013555 soy sauce Nutrition 0.000 description 4
- 239000005711 Benzoic acid Substances 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 3
- DNIAPMSPPWPWGF-UHFFFAOYSA-N Propylene glycol Chemical compound CC(O)CO DNIAPMSPPWPWGF-UHFFFAOYSA-N 0.000 description 3
- 235000010233 benzoic acid Nutrition 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 231100000719 pollutant Toxicity 0.000 description 3
- 159000000000 sodium salts Chemical class 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- QAOWNCQODCNURD-UHFFFAOYSA-N Sulfuric acid Chemical compound OS(O)(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-N 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- OENHQHLEOONYIE-UKMVMLAPSA-N all-trans beta-carotene Natural products CC=1CCCC(C)(C)C=1/C=C/C(/C)=C/C=C/C(/C)=C/C=C/C=C(C)C=CC=C(C)C=CC1=C(C)CCCC1(C)C OENHQHLEOONYIE-UKMVMLAPSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- TUPZEYHYWIEDIH-WAIFQNFQSA-N beta-carotene Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C1=C(C)CCCC1(C)C)C=CC=C(/C)C=CC2=CCCCC2(C)C TUPZEYHYWIEDIH-WAIFQNFQSA-N 0.000 description 2
- 235000013734 beta-carotene Nutrition 0.000 description 2
- 239000011648 beta-carotene Substances 0.000 description 2
- 229960002747 betacarotene Drugs 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000008157 edible vegetable oil Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 2
- 239000000447 pesticide residue Substances 0.000 description 2
- 235000012015 potatoes Nutrition 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- OENHQHLEOONYIE-JLTXGRSLSA-N β-Carotene Chemical compound CC=1CCCC(C)(C)C=1\C=C\C(\C)=C\C=C\C(\C)=C\C=C\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C OENHQHLEOONYIE-JLTXGRSLSA-N 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- PNEYBMLMFCGWSK-UHFFFAOYSA-N aluminium oxide Inorganic materials [O-2].[O-2].[O-2].[Al+3].[Al+3] PNEYBMLMFCGWSK-UHFFFAOYSA-N 0.000 description 1
- 229940038481 bee pollen Drugs 0.000 description 1
- RIOXQFHNBCKOKP-UHFFFAOYSA-N benomyl Chemical compound C1=CC=C2N(C(=O)NCCCC)C(NC(=O)OC)=NC2=C1 RIOXQFHNBCKOKP-UHFFFAOYSA-N 0.000 description 1
- MITFXPHMIHQXPI-UHFFFAOYSA-N benzoxaprofen Natural products N=1C2=CC(C(C(O)=O)C)=CC=C2OC=1C1=CC=C(Cl)C=C1 MITFXPHMIHQXPI-UHFFFAOYSA-N 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 235000014655 lactic acid Nutrition 0.000 description 1
- 239000004310 lactic acid Substances 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000012488 sample solution Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 235000012239 silicon dioxide Nutrition 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 238000003307 slaughter Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 239000000273 veterinary drug Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种食品安全国家标准领域本体的构建方法、系统和介质,首先,按类型逐一分析食品安全国家标准的内容结构,再按照本体构建法对食品安全标准本体进行类模型建模,再使用基于规则的半自动化知识提取算法从食品安全国家标准中提取实例、实例属性与实例间关系等数据,最后依据之前建立好的类模型,将这些数据导入到本体中,完成本体的构建。建立好的本体能比较完整的展现标准中的重要的概念、术语、操作过程等信息及其相互关系,对未来进行食品安全知识图谱的知识融合与知识推理将起到支撑作用,极大地提升了工作效率,具有非常好的推广使用价值。
Description
技术领域
本发明涉及本体构建技术领域,尤其是涉及一种食品安全国家标准领域本体的构建方法、系统和介质。
背景技术
截至目前,我国已制定公布303部食品安全国家标准,覆盖6000余项食品安全指标。食品生产经营者应当依照法律、法规和食品安全标准从事生产经营活动,建立健全食品安全管理制度,采取有效管理措施,保证食品安全。食品生产经营者对其生产经营的食品安全负责,对社会和公众负责,承担社会责任。
在计算机科学与信息科学领域,本体是指一种"形式化的,对于共享概念体系的明确而又详细的说明"。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。本体作为自顶向下构建知识图谱的模式层,在知识图谱的建设过程中有重要的作用,而食品安全领域本体由于涉及内容广泛而一直少有相关研究,而这也制约了食品安全知识图谱的建设。
发明内容
本发明的目的在于克服上述技术不足,提出一种食品安全国家标准领域本体的构建方法、系统和介质,解决现有技术中食品安全知识图谱的建设方面缺失的技术问题。
为达到上述技术目的,第一方面,本发明的技术方案提供一种食品安全国家标准领域本体的构建方法,包括以下步骤:
(1)获取多种食品安全国家标准;
(2)逐一分析不同种类的所述食品安全国家标准的内容结构,根据所述内容结构构建所述食品安全国家标准的本体类模型;
(3)使用知识提取算法从所述食品安全国家标准中提取实例、实例属性、实例间关系数据;
(4)将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型,以完成所述食品安全国家标准本体的构建。
与现有技术相比,本发明的有益效果包括:
本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析所述食品安全国家标准的内容结构,根据所述内容结构构建所述食品安全国家标准的本体类模型;使用知识提取算法从所述食品安全国家标准中提取实例、实例属性、实例间关系数据;将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型,以完成所述食品安全国家标准本体的构建。
首先,按类型逐一分析食品安全国家标准的内容结构,再按照本体构建法对食品安全标准本体进行类模型建模,再使用基于规则的半自动化知识提取算法从食品安全国家标准中提取实例、实例属性与实例间关系等数据,最后依据之前建立好的类模型,将这些数据导入到本体中,完成本体的构建。建立好的本体能比较完整的展现标准中的重要的概念、术语、操作过程等信息及其相互关系,对未来进行食品安全知识图谱的知识融合与知识推理将起到支撑作用,相较于常规的人工收集食品安全国家标准,然后通过专门的人员根据食品生产企业的领域对食品安全国家标准进行学习的方式,本实施例提供的食品安全国家标准领域本体的构建方法极大地提升了工作效率,具有非常好的推广使用价值。
根据本发明的一些实施例,将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型之后,还包括步骤:
使用可视化软件实现所述食品安全国家标准本体的可视化。
根据本发明的一些实施例,所述食品安全国家标准的本体类模型,包括:设计多级概念模型、实例的定义、关系的定义和属性的定义。
根据本发明的一些实施例,将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型,包括步骤:
根据所述实例、所述实例属性、所述实例间关系数据构建实例关系数据库,将所述实例关系数据库导入所述本体类模型。
根据本发明的一些实施例,所述本体模型的顶层类包括:食品安全标准名称、标准术语、食品安全内容和食品类别。
根据本发明的一些实施例,所述食品安全标准名称的子类包括:检验方法标准、生产经营规范标准、产品标准和通用标准。
根据本发明的一些实施例,所述食品安全内容至少包括以下一种子类:农药、功能剂、污染物、食品产品、真菌毒素、检测方法、食品添加剂、生产卫生规范和食品营养强化剂。
根据本发明的一些实施例,所述实例间关系数据的提取,至少包括以下步骤的一种:
(1)通过读取文档结构和上下文的关系,使用算法识别的方式提取所述实例间关系数据;
(2)通过读取表格的表头,判断所述表格内的所述实例的关系类型,以对所述实例间关系数据进行提取。
第二方面,本发明的技术方案提供一种食品安全国家标准领域本体的构建系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的食品安全国家标准领域本体的构建方法。
与现有技术相比,本发明的有益效果包括:食品安全国家标准领域本体的构建系统应用了如第一方面所述的食品安全国家标准领域本体的构建方法,建立好的食品安全领域的本体能比较完整的展现标准中的重要的概念、术语、操作过程等信息及其相互关系,对未来进行食品安全知识图谱的知识融合与知识推理将起到支撑作用。
第三方面,本发明的技术方案提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面中任意一项所述的食品安全国家标准领域本体的构建方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中摘要附图要与说明书附图的其中一幅完全一致:
图1为本发明的一个实施例提供的食品安全国家标准领域本体的构建方法的流程图;
图2为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的流程图;
图3为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图;
图4为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图;
图5为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图;
图6为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种食品安全国家标准领域本体的构建方法,建立好的本体能比较完整的展现标准中的重要的概念、术语、操作过程等信息及其相互关系,对未来进行食品安全知识图谱的知识融合与知识推理将起到支撑作用。
参考图1至图3,图1为本发明的一个实施例提供的食品安全国家标准领域本体的构建方法的流程图;图2为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的流程图;图3为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图。
食品安全国家标准领域本体的构建方法包括但是不仅限于步骤S110到步骤S140。
步骤S110,获取多种食品安全国家标准;
步骤S120,逐一分析不同种类的食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;
步骤S130,使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;
步骤S140,将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。
在一实施例中,本发明提供了一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;其次,按类型逐一分析食品安全国家标准的内容结构,再按照本体构建法对食品安全标准本体进行类模型建模,再使用基于规则的半自动化知识提取算法从食品安全国家标准中提取实例、实例属性与实例间关系等数据,最后依据之前建立好的类模型,将这些数据导入到本体中,完成本体的构建。建立好的本体能比较完整的展现标准中的重要的概念、术语、操作过程等信息及其相互关系,对未来进行食品安全知识图谱的知识融合与知识推理将起到支撑作用,相较于常规的通过专门的人员根据食品生产企业的领域对食品安全国家标准进行学习的方式,本实施例提供的食品安全国家标准领域本体的构建方法极大地提升了工作效率,具有非常好的推广使用价值。
在食品安全标准文档中,文档的各级标题中往往包含核心词汇,将这些词汇作为候选类纳入类名池中,用于类模型的设计;而将标题下阐述的正文内容作为该类的一个实例。由于在实际抽取文本各级标题与标题后的文本时,会出现标题级不一样的情况,即正文上有的有两级标题,有的有三级标题,或者更多,有时正文内容本身就是末级标题,所以为了辨别类与实例,机器需要识别文档的文本结构,从而能够分别精准抽取出各级标题类与内容实例,同时还需要保留各级标题之间的包含关系。
通过算法可实现文档结构识别,得到相应的元素序列,保留了类与实例的具体内容与类之间的包含关系,算法流程如下:
从文本中抽取属性关系,在文本中包含着类与类,类与实例,实例与实例之间的包含关系,而在抽取实例时,通过上述算法已经获取实例的路径集合,所以接下来可以通过读取路径,得到它们之间的包含关系。
食品安全国家标准领域本体的构建方法包括但是不仅限于步骤S210。
步骤S210,使用可视化软件实现食品安全国家标准本体的可视化。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;其次,按类型逐一分析食品安全国家标准的内容结构,再按照本体构建法对食品安全标准本体进行类模型建模,再使用基于规则的半自动化知识提取算法从食品安全国家标准中提取实例、实例属性与实例间关系等数据,最后依据之前建立好的类模型,将这些数据导入到本体中,完成本体的构建,使用可视化软件实现食品安全国家标准本体的可视化,可以通过protege的模块ontograf实现本体的可视化。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。食品安全国家标准的本体类模型,包括:设计多级概念模型、实例的定义、关系的定义和属性的定义。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。将实例、实例属性、实例间关系数据导入到本体类模型,包括步骤:根据实例、实例属性、实例间关系数据构建实例关系数据库,将实例关系数据库导入本体类模型。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。顶层本体类模型包括:食品安全标准名称、标准术语、食品安全内容和食品类别。
参考图4至图6,图4为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图;图5为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图;图6为本发明的另一个实施例提供的食品安全国家标准领域本体的构建方法的本体类模型结构示意图。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。顶层本体类模型包括:食品安全标准名称、标准术语、食品安全内容和食品类别。食品安全标准名称的子类包括:检验方法标准、生产经营规范标准、产品标准和通用标准。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。顶层本体类模型包括:食品安全标准名称、标准术语、食品安全内容和食品类别。食品安全内容至少包括以下一种子类:农药、功能剂、污染物、食品产品、真菌毒素、检测方法、食品添加剂、生产卫生规范和食品营养强化剂。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。实例间关系数据的提取,至少包括以下步骤的一种:读取文档结构和上下文的关系,使用机器识别的方式提取实例间关系数据;读取表格的表头,判断表格内的实例的关系类型,以对实例间关系数据进行提取。
在一实施例中,本发明提供的一种食品安全国家标准领域本体的构建方法,首先,获取多个食品安全国家标准;逐一分析食品安全国家标准的内容结构,根据内容结构构建食品安全国家标准的本体类模型;使用知识提取算法从食品安全国家标准中提取实例、实例属性、实例间关系数据;将实例、实例属性、实例间关系数据导入到本体类模型,以完成食品安全国家标准本体的构建。
一、食品安全标准本体的类模型结构
采取了自顶向下的构建模式建立本体类模型,即先抽象出顶层类(即父类),再找出其子类,若还能继续细分,则建立第三层类,依次逐步求精。
(1)顶层类结构
主要以四大类作为主体,分别为食品类别实体、食品安全标准名称、标准术语、食品安全内容。
食品类别实体作为食品安全标准中主要被描述与被规定的实体,会在多个通用标准被频繁引用,如GB 2760-2014食品添加剂使用标准中对食品类别实体中允许添加的添加剂种类及其含量进行规定。基于食品类别实体在食品安全标准中的重要地位,将“食品类别实体”作为食品标准本体中的顶层类。此外,为了展示每一项食品安全标准的内容,也将“食品安全标准名称”作为食品安全本体的另一个顶层类。
此外,通过分析标准的目录结构,研究发现“术语和定义”作为标题频繁出现在各类标准中。标准内容中的“术语和定义”部分是对标准内容中出现的一些食品领域专业术语进行解释说明,为了便于非食品领域的人员查询食品安全领域中的一些专有术语的定义,将“标准术语”设计第三个顶层类,确定基本的三大顶层类后,为了进一步展示标准的具体内容,还需要对标准中规定的内容再设计一个顶层类——食品安全内容。
(2)二级类结构
经过标准文档内容与结构分析,确定好顶层类后,本实施例进一步分析并设计了其子类即二级类。
(a)食品类别实体
在现有的GB/T食品安全国家标准中,发现了三套不同的食品分类体系,分别是来源于《GB 2760-2014食品添加剂使用标准》、《GB 2763-2019食品中农药最大残留限量标准》和《GB 2762-2017食品中污染物限量》的分类体系,为了区分开三套不同食品分类体系,将这三套食品分类体系分别设置为二级类“GB2760食品分类体系”,“GB2763食品分类体系”及“GB2762食品分类体系”。它们都是“食品类别实体”的子类。此外,三套分类体系中所定义的食品类别名都设为该子类下的实例。
(b)食品安全标准名称
对于所有的食品安全标准,在收集之初,已经将它们进行了类型划分,包括通用标准,生产经营规范标准,检验方法标准及产品标准。因为每种类别的在标准内容和格式上都有较大差别,所以抽取的实例与关系也大有不同,为了在导入时能区分,也将这些类别的名称作为“食品安全标准名称”的子类。
(c)食品安全内容
在“食品安全内容”二级类的设计上,从食品安全可能涉及的几个常见抽检项目出发,设计了几个子类,如:食品添加剂,农药残留等,而实际的抽取过程证明了大多标准都围绕这几个主题进行规定,如食品添加剂的质量规格标准类,理化检测标准类以及通用标准,都对设计的几个子类进行规定,这说明将这些关键词作为类别是合理而可行的。
此外,还通过“分析标准内容——设计类名——回溯到内容中——确定类名”这一过程,提取了现有标准的所有食品安全内容的二级类。
(3)本体其他下级类
二级类结构之下,根据标准内容的描述程度,还可以继续定义子类。例如,根据生产卫生规范类标准的内容,生产卫生规范作为二级类又可以细分为选址及产区环境、厂房和车间、原料和包装材料要求、设施和设备、产品追溯和召回、产品卫生规范、管理制度和人员、记录和文件管理等三级类。其下还可以继续细分,如厂房和车间子类、厂房和车间的一般要求、厂房设计特性要求、设计和布局、车间温度控制等,
二、食品安全标准本体的实现
(1)本体中的实例定义
确定好本体的类后,还需要确定类的属性,类集合的实例成员以实现本体的完整构建。
在本体概念中,实例表示类的实现,如:丙二醇是食品添加剂的一个实例,二氧化硅也是食品添加剂的实例。根据标准内容的分析,将实例定义的规则设计如下:
(a)在“食品类别”类下的“GB 2760食品分类体系”子类中包括各级食品类别作为实例成员,如01.0乳及乳制品和01.02发酵乳和风味发酵乳。同理,其他分类体系的实例也按照该思路确定。
(b)大多数食品安全性检测项目的实例出现在通用类标准中,通常是一个文档定义一类实例。如《GB 2760-2014食品添加剂使用标准》中列出了食品中允许使用的食品添加剂品种,《GB 2761-2017食品中真菌毒素限量》中列出了可能对公众健康构成较大风险的真菌毒素,《GB 2762-2017视频中污染物限量》中列出了可能对公众健康构成较大风险的污染物,每个标准中所罗列出的具体项目是相应类别的实例。
(c)所有食品安全国家标准的名称是该标准相应类别的实例。如《GB 5009.7-2016食品安全国家标准食品中还原糖的测定》中对还原糖的测定方法进行规定,该标准属于检验方法类,即“GB 5009.7-2016食品安全国家标准食品中还原糖的测定”就是类“检验方法标准”的实例。而每个国家标准内“术语和定义”标题下罗列的术语名词的集合则是“标准术语”的实例成员集合。
(2)本体中关系的定义
(a)不同类的实例间的关系
通过对各类标准的功能进行分析。首先对每个通用类中的标准进行关系定义,再对其它标准的关系进行定义,具体定义方法如下:
通用类标准通常涉及食品类别实例与食品抽检项目相关的实例,如:“食品添加剂”类下的实例“苯甲酸及其钠盐”、“GB2760食品分类体系”类下的实例“配制酱油”,存在<配制酱油><has_FoodAdditive><苯甲酸及其钠盐>的关系,其中<has_FoodAdditive>是关系名,代表“拥有添加剂”的含义;而“GB 2762食品分类体系”类的实例“豆类蔬菜、薯类”可能存在污染物“铅”,则有<豆类蔬菜、薯类><has_Pollutant><铅>,其中<has_Pollutant>是关系名。
功能性标准,如:食品添加剂质量规格及相关标准类中,则存在“测定项目实例”<has试剂和材料>“试剂和材料实例”等关系,如<总乳酸的测定><has试剂和材料><硫酸>,<三氧化二铝的测定><has仪器和设备><分光光度计>,<β-胡萝卜素><has_content><β-胡萝卜素是共轭双键化合物,在波长455nm处有最大吸收,将样品溶液于该波长处测定吸光度,以百分吸收系数(E11cm%)计算质量分数。>,其中,最后一个关系的宾语属于“检测”类的子类“方法原理”的实例。
标准名称也与它所规定的标准内容存在引用关系,为此确定了<prescribe>和<is_prescribed_by>这一对互逆属性。如《GB 10133-2014食品安全国家标准水产调味品》是对“水产调味品”的规定,则本体中添加这一约束<GB10133-2014食品安全国家标准水产调味品><prescribe><水产调味品>,主语宾语调换时使用关系名<is_prescribed_by>。但对于标准术语而言,是标准术语被标准所引用,所以它们间的关系名为<has_term>和<is_term_of>,如<GB12694-2016食品安全国家标准畜禽屠宰加工卫生规范><has_term><清洁区>。而对于非通用性标准来说,更常见的关系名是<has_content>,用来表示该标准的具体规定项目条例。
(b)同类实例间的关系
同类实例间也可以存在关系,而且往往是一对互逆的关系,<父类>和<子类>。在对“食品类别”类的实例定义中,将每个食品分类体系下的每个食品类别定义为实例,但既然它们是类别,彼此间也应存在包含关系,而这种包含关系即为<父类>和<子类>。如GB2760食品分类体系中,“01.0乳及乳制品”是一个食品大类,“01.02发酵乳和风味发酵乳”是“01.0乳及乳制品”的一个子类,它们都是食品类别的实例,且它们之间存在继承关系,则添加约束“乳及乳制品”<子类>“发酵乳和风味发酵乳”,“发酵乳和风味发酵乳”<父类>“乳及乳制品”。
标准术语实例之间也存在这类关系,为区分标准术语实例间的关系与食品类别实例间的关系,将互逆的关系名定义为<has_subterm>和<is_subterm_of>,如<花粉><has_term><蜂花粉>。
(3)本体中的属性定义
因为属性值可以是整数、浮点数、布尔值和字符串,为了能更准确地描述一个实例,属性常用来表示实例的特征。如<苯菌灵><ADI><0.1mg/kg bw>,其中ADI就是一个属性名,而0.1mg/kg bw则是它相应的值。
在GB2760和GB2763中对食品类别在一些食品添加剂和农药上的使用存在限值规定,GB2761对食品生产中滋生的真菌毒素也有限值规定。国家卫生局等机构对食品进行抽检时,对这些限值规定了指标,一旦超过这些限值,则视为危害人体健康程度较大的食品。由于这些限值没有类别归属,且常为数值形式,因此,可把这些限值项目作为食品类别实例的属性,并在本体中添加相应约束关系。如:“配制酱油”在食品添加剂的使用上不允许超过1.0g/kg,则有<配制酱油><苯甲酸及其钠盐限量><1.0g/kg>。
对食品添加剂和农药等添加物,它们本身也存在特征属性,如食品添加剂有CNS号,INS号、感官要求等属性,而农药有农药残留物和每日容许摄入量ADI值等数据类型属性。
三、食品安全标准数据抽取
(1)标准数据抽取
在本体创建与维护上,往往要耗费很多精力与时间,Youn Jason及其团队利用词嵌入的方法,从现有的本体支架中提出了一个自动化本体种群的半监督框架。但由于国内很少有关于食品安全的标注数据集,也没有可靠且开源的食品安全数据库供本研究重用,而机器学习的方法对需要人工进行标注的数据集依赖性较高,考虑到人工成本问题,采取基于规则和正则表达式匹配的方法,辅以人工纠错,实现半自动化提取知识。
提取知识的规则采取的关键词是基于食品安全标准中频繁出现的概念词,如:最大限量、仪器及设备、试剂及材料等,通过机器统计及人工筛选得到。一般而言,同一类标准的文档格式大致相同,需要提取的内容也有明显的中心词,因此在程序自动化提取的过程中,以一类标准为范围进行批量提取,从而获取所有实例。对于实例关系的挖掘则采用两种方法,其
采取机器算法,通过读取文档结构的方式保留上下文的关系,具体的关系名则由人工去定义;
通过读取表格的表头,判断表格内实例的关系类型,按照相应的关系名进行实例间关系的抽取。
此外文档结构的识别主要通过标准文档中的标题结构与编号来判断,从而实现类间的上下级或同级关系组成。对于个别文档存在的特殊内容,可经过人工筛选,依据它们的重要性及与食品安全的相关性来进行选择性保留。
(2)类和实例的抽取
在食品安全标准文档中,文档的各级标题中往往包含核心词汇,本文将这些词汇作为候选类纳入类名池中,用于类模型的设计;而将标题下阐述的正文内容作为该类的一个实例。由于在实际抽取文本各级标题与标题后的文本时,会出现标题级数不一致的情况,即正文上有的有两级标题,有的有三级标题,或者更多,有时正文内容本身就是末级标题,所以为了辨别类与实例,机器算法需要识别文档的文本结构,从而能够分别精准抽取出各级标题类与内容实例,同时还需要保留各级标题之间的包含关系。
标准文档的结构比较复杂,识别它主要通过给各级标题与正文文本打标的方法来实现。以识别“GB 8955-2016食品安全国家标准食用植物油及其制品生产卫生规范”的文档结构为例,具体步骤如下:
1.根据编号判断,标题下是否有下级标题,如:编号为4的标题下有编号为4.1的标题,且内容并非同一个内容,应该划分开来提取,并且它们之间存在包含关系。
2.如果标题后没有下级标题,如:编号4.1标题后换行另起,且开头没有编号,则说明下面的文本是正文内容,同时它是编号为4.1的标题的实例。
3.为每个提取到的内容附加标记。如:文本中编号为4的候选类是一级标题,记录为1;编号为4.1的候选类是二级标题,记录为2;在4.1下的正文内容是实例,与4.1间具有包含关系,于是在4.1的记录值的基础上加1,记录为3。
4.对于编号为4.2的标题候选类,与编号为4.1的标题候选类是平级关系,记录为2。如此循环,对每个所抽取到的标题完成标记。
5.如果标题后没有下级标题,也没有正文文本,如:标题5.1和标题5.2虽然拥有标题编号,但它们之后没有正文内容,也没有下级标题,则它们可以看成是“5设施与设备”下的实例内容。
确定好类与实体的提取规则后,则需考虑它的存储结构,由于每个候选类下都有相应的子类或实例,可以参照树形结构来存储类与实例,即类是各级中间节点,而实例是叶子节点,对于代码中的数据结构,本文考虑采用栈的思想来存储所有候选类与实例。具体思想如下:
(3)元素关系
栈内的元素从栈底到栈顶依次互相有包含关系,它们的标记值也是序列递增的,而当元素需要出栈时,位于栈顶的元素是下一元素的实例,这时需要记录下当前栈内元素序列值,因为实例路径的序列是元素间包含关系的体现。
判断元素是否需要出栈的条件是此前为新入栈的元素标记的值是否在栈中已经出现,若出现,则栈内元素需出栈。直至标记值为新入栈元素的标记值减一的元素成为此时的栈顶,新元素才入栈。如栈中已经依次存入“4厂房和车间”,“4.1一般要求”和4.1内的正文内容“应符合……”,标记值依次为1,2,3,此时需要入栈下一个元素“4.2设计和布局”,它的标记值为2,与“4.1一般要求“相同,程序判断到需要出栈,记录下此时的栈内元素的序列,同时,由于还需要保留内容实例与标准间的来源关系,因此序列首部还需插入标准名称实例,最终得到的序列为[”GB 8955-2016食品安全国家标准食用植物油及其制品生产卫生规范“,“4厂房和车间”,“4.1一般要求”,“应符合……”],之后弹出标记值为2与3的元素,新元素“4.2设计和布局”入栈。
(4)从表格中抽取属性关系
在表格的处理上,由于表格的结构不同于文本结构,抽取知识的方式也不同。标准中出现的表格通常有表标题,表标题介绍该表格所描述的内容,本文通过在类和实例词库中匹配该表标题来判断表格内容是否有本体感兴趣且需要的关系,从而进行进一步处理。在表格中,表头一方面是该列的文本语义,另一方面也是表格描述的实体与内容实例之间的关系,所以本文依据表格所抽取的关系三元组的谓语是表头名,宾语是该列内容属性,主语的确定则需要分情况判断。
表格中的关系三元组的抽取方法是:
需要先获取标准名中的规定的对象,它是一个实例名称,本文是通过先分词、后匹配的方式在实例库中提取的;
然后对关系名进行拼接;
最后找到相应的属性关系值,具体实现见算法3。
四、导入本体
在本体构建的过程,还需要批量导入数据到protege中,本文通过protege软件中的内置模块Cellfie实现这一步骤,该插件用于将电子表格数据导入OWL本体。Cellfie通过创建转换规则将表格数据转换为本体的一部分,编写转换规则所遵循的语法是匹配管理领域定义语言(MappingMaster DSL)。DSL是基于曼彻斯特OWL语法创建的,因此使用DSL可以描述OWL本体,从而实现从电子表格内容到OWL本体的映射。
有了相应的导入工具Cellfie后,便可以对实例及关系进行导入,步骤如下。
(1)打开需要导入的Excel文件,选中需要导入的行;
(2)使用DSL语言编写转换规则,表明哪些数据属于哪一类的实例,哪些实例间拥有什么样的关系;
(3)Cellfie将实例、实例所属类别、实例间关系转换为本体能够识别的形式并按之前设计的本体模型进行存储;
确定将数据导入当前本体后,可以通过protege的模块ontograf实现本体的可视化。
本实施例通过对现有收集到的1182个食品安全国家标准进行内容分析、类框架建模、实例与关系抽取,构建了一个食品安全标准本体。整个本体包括236个类,48个关系名,823个属性名,8812个实例以及131406条约束(关系),描述了国家食品安全标准中规定的各种有关食品安全的概念及语义关系,其中包括食品的分类体系、各类食品的添加剂限量、农药兽药残留、病原微生物污染、重金属和真菌毒素污染以及食品检验、检测与理化分析。建立本体的目的是为自顶向下的食品安全知识图谱的构建提供模式层的支持,由于目前缺少可共享的食品安全标准本体的数据集,所以本实施例提出了一套构建全新食品安全标准领域本体的方法。
本实施例构建的食品安全标准较全面的说明了食品安全标准中的各种概念与关系定义,通过该本体可以清晰的了解某一食品类别里允许存在的各种食品添加剂、农药、污染物名称及需要完成的检验项和限量关系,还结构性的定义了抽检项目的测定、理化检验过程;而且对于未来可能新增加的标准考虑了本体的扩展方法。
本发明还提供一种食品安全国家标准领域本体的构建系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的食品安全国家标准领域本体的构建方法。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
需要说明的是,本实施例中的食品安全国家标准领域本体的构建系统,可以包括有业务处理模块、边缘端数据库、服务端版本信息寄存器、数据同步模块,处理器执行计算机程序时实现如上述应用在食品安全国家标准领域本体的构建系统的食品安全国家标准领域本体的构建方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述终端实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的食品安全国家标准领域本体的构建方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的术语-计算机存储介质包括用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (10)
1.一种食品安全国家标准领域本体的构建方法,其特征在于,包括以下步骤:
(1)获取多种食品安全国家标准;
(2)逐一分析不同种类的所述食品安全国家标准的内容结构,根据所述内容结构构建所述食品安全国家标准的本体类模型;
(3)使用知识提取算法从所述食品安全国家标准中提取实例、实例属性、实例间关系数据;
(4)将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型,以完成所述食品安全国家标准本体的构建。
2.根据权利要求1所述的一种食品安全国家标准领域本体的构建方法,其特征在于,在所述将所述实例、所述实例属性、所述实例间关系数据导入到所述本体类模型之后,还包括步骤:
使用可视化软件实现所述食品安全国家标准本体的可视化。
3.根据权利要求1所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述食品安全国家标准的本体类模型,包括:设计多级概念模型、实例的定义、关系的定义和属性的定义。
4.根据权利要求1或3所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述将所述实例、实例属性、实例间关系数据导入到所述本体类模型,包括步骤:
根据所述实例、所述实例属性、所述实例间关系数据构建实例关系数据库,将所述实例关系数据库导入所述本体类模型。
5.根据权利要求1所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述本体模型的顶层类包括:食品安全标准名称、标准术语、食品安全内容和食品类别。
6.根据权利要求5所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述食品安全标准名称的子类包括:检验方法标准、生产经营规范标准、产品标准和通用标准。
7.根据权利要求5所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述食品安全内容至少包括以下一种子类:农药、功能剂、污染物、食品产品、真菌毒素、检测方法、食品添加剂、生产卫生规范和食品营养强化剂。
8.根据权利要求1所述的一种食品安全国家标准领域本体的构建方法,其特征在于,所述实例间关系数据的提取,至少包括以下步骤的一种:
(1)通过读取文档结构和上下文的关系,使用算法识别的方式提取所述实例间关系数据;
(2)通过读取表格的表头,判断所述表格内的所述实例的关系类型,以对所述实例间关系数据进行提取。
9.一种食品安全国家标准领域本体的构建系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的食品安全国家标准领域本体的构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至8中任意一项所述的食品安全国家标准领域本体的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676407.2A CN114547324B (zh) | 2021-12-31 | 2021-12-31 | 食品安全国家标准领域本体的构建方法、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676407.2A CN114547324B (zh) | 2021-12-31 | 2021-12-31 | 食品安全国家标准领域本体的构建方法、系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547324A true CN114547324A (zh) | 2022-05-27 |
CN114547324B CN114547324B (zh) | 2023-02-14 |
Family
ID=81670351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111676407.2A Active CN114547324B (zh) | 2021-12-31 | 2021-12-31 | 食品安全国家标准领域本体的构建方法、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547324B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907289A (zh) * | 2022-11-01 | 2023-04-04 | 烟台富美特信息科技股份有限公司 | 一种食品品质与生产安全的智能监管方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324789A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 应用建模工具展现本体的方法和装置 |
CN109857870A (zh) * | 2019-01-03 | 2019-06-07 | 成都数联铭品科技有限公司 | 用于知识图谱的可视化本体构建系统及方法 |
CN110674274A (zh) * | 2019-09-23 | 2020-01-10 | 中国农业大学 | 一种针对食品安全法规问答系统的知识图谱构建方法 |
CN111191050A (zh) * | 2020-01-03 | 2020-05-22 | 中国建设银行股份有限公司 | 知识图谱本体模型构建的方法和装置 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN112699248A (zh) * | 2020-12-24 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种知识本体构建方法、终端设备及存储介质 |
CN113157737A (zh) * | 2021-03-30 | 2021-07-23 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 服务实例关联关系动态构建系统 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN113704499A (zh) * | 2020-09-24 | 2021-11-26 | 广东昭阳信息技术有限公司 | 一种准确而高效的智能化教育知识图谱构建方法 |
-
2021
- 2021-12-31 CN CN202111676407.2A patent/CN114547324B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324789A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 应用建模工具展现本体的方法和装置 |
CN109857870A (zh) * | 2019-01-03 | 2019-06-07 | 成都数联铭品科技有限公司 | 用于知识图谱的可视化本体构建系统及方法 |
CN110674274A (zh) * | 2019-09-23 | 2020-01-10 | 中国农业大学 | 一种针对食品安全法规问答系统的知识图谱构建方法 |
CN111191050A (zh) * | 2020-01-03 | 2020-05-22 | 中国建设银行股份有限公司 | 知识图谱本体模型构建的方法和装置 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN113704499A (zh) * | 2020-09-24 | 2021-11-26 | 广东昭阳信息技术有限公司 | 一种准确而高效的智能化教育知识图谱构建方法 |
CN112699248A (zh) * | 2020-12-24 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种知识本体构建方法、终端设备及存储介质 |
CN113157737A (zh) * | 2021-03-30 | 2021-07-23 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 服务实例关联关系动态构建系统 |
Non-Patent Citations (3)
Title |
---|
汤亚芬等: "图情博客本体构建及语义搜索系统的实现", 《农业图书情报学报》 * |
秦丽等: "国家食品安全标准图谱的构建及关联性分析", 《计算机应用》 * |
黄志聃: "利用protege构建新媒体领域本体的探索", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907289A (zh) * | 2022-11-01 | 2023-04-04 | 烟台富美特信息科技股份有限公司 | 一种食品品质与生产安全的智能监管方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114547324B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110799981B (zh) | 用于与领域无关的方面级别情绪检测的系统和方法 | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
US10366116B2 (en) | Discrepancy curator for documents in a corpus of a cognitive computing system | |
CN107205016B (zh) | 物联网设备的检索方法 | |
US11487844B2 (en) | System and method for automatic detection of webpage zones of interest | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN107257970A (zh) | 从结构化和非结构化数据源进行的问题回答 | |
EP3349131B1 (en) | Method and system for extracting user-specific content | |
CN108733748A (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
CN104731958A (zh) | 一种面向用户需求倾向的云制造服务推荐方法 | |
CN109471949A (zh) | 一种宠物知识图谱的半自动化构建方法 | |
CN112732994B (zh) | 网页信息的提取方法、装置、设备及存储介质 | |
CN113177125A (zh) | 标准知识图谱构建、标准查询方法及装置 | |
CN114547324B (zh) | 食品安全国家标准领域本体的构建方法、系统和介质 | |
Heist et al. | Entity extraction from Wikipedia list pages | |
CN113282955A (zh) | 隐私政策中隐私信息提取方法、系统、终端及介质 | |
Scriney et al. | Automating data mart construction from semi-structured data sources | |
WO2022003392A1 (en) | System and method for automatic detection of webpage zones of interest | |
US20230015090A1 (en) | Systems and Methods for Dynamically Classifying Products and Assessing Applicability of Product Regulations | |
CN111881294B (zh) | 一种语料标注系统、方法及存储介质 | |
CN115357700A (zh) | 一种基于事理图谱的压缩机故障诊断方法 | |
CN111898371B (zh) | 设计理性知识的本体构建方法、装置及计算机存储介质 | |
Kumar et al. | An Algorithm for Automatic Text Annotation for Named Entity Recognition using spaCy Framework | |
KR102228585B1 (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법 | |
CN113379211A (zh) | 基于区块链的物流信息平台违约风险管控系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |