CN111897969A - 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统 - Google Patents

一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统 Download PDF

Info

Publication number
CN111897969A
CN111897969A CN202010731183.XA CN202010731183A CN111897969A CN 111897969 A CN111897969 A CN 111897969A CN 202010731183 A CN202010731183 A CN 202010731183A CN 111897969 A CN111897969 A CN 111897969A
Authority
CN
China
Prior art keywords
food
data
knowledge
knowledge graph
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010731183.XA
Other languages
English (en)
Inventor
沈志东
简维勇
宋爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010731183.XA priority Critical patent/CN111897969A/zh
Publication of CN111897969A publication Critical patent/CN111897969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Nutrition Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统,采取爬虫工具和知识图谱相结合的方法,通过精准采取的数据绘制所需知识图谱来直观简便的探索其关联性,根据研究对象的性质和研究的需求确定数据层和模式层,利用知识图谱工具进行数据处理后提取出关系和实体,得到的知识图谱,根据研究对象创建模式层数据层,得到的概念属性关系明确,可视化程度高,结果易读,知识图谱的网络结构简单清晰明了的揭示了研究对象间的关联性,对于对象的共性与差异也一目了然。

Description

一种基于知识图谱的食物成分和营养健康的关联性分析方法 及系统
技术领域
本发明涉及食品安全技术领域,具体涉及一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统。
背景技术
在日常生活中,为了达到健康生活的目的,人们就不得不谈及到食品安全,食品安全的重要性不言而喻,好的食物能让人们保持良好的健康状态,而人们良好的营养和健康状态更是人类经济发展的前提,同样也是社会经济发展的前提。没有好的食物,人们健康不仅会受到损害,从宏观来看,社会也得不到发展。质量糟糕的食物往往会让人们有一番“痛苦的经历”,“病从口入”,差的食物不仅让人们饱受身体病痛的折磨,甚至也会引起心理的不舒畅。因此,在如今的社会中,想要让人类社会持续健康发展,食品安全的保障便是重中之重。
在科学知识领域,我们也取得了各方各面的长足进步。在大数据时代,如何有效地管理并运用海量的数据,如何构建规模庞大,质量还高的知识库是众多科研人员津津乐道的话题。而知识图谱就完美的解决了这个问题。举个例子,我国的辞海是由上万名专家花了十数载编撰而成,然而辞海所拥有的词条不过仅仅十几万条,再看看现在随便一个互联网上的知识图谱例如Dbpedia,轻轻松松就拥有上千万的实体。另一方面,知识图谱作为实现机器认知智能的基础,可以帮助机器实现理解与解释两大过程。使用效率之高,涉及领域之广泛等等优良特点都使得知识图谱在现实如今的学术研究中的地位越来越重要。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
但在我国国内,虽然针对食品安全的研究数不胜数,结合知识图谱的研究较少,且知识图谱多用于食品安全问题研究趋势的文献研究法或问答系统的构建,少有利用知识图谱来分析食物和健康症状关联的研究。现有技术中的研究方法大多具有复杂定位不精确缺点,因此导致分析效果不佳。
发明内容
本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统。用以解决现有技术中关联系性分析效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,包括:
S1:在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
S2:获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
S3:根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
S4:利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
在一种实施方式中,S1中实体包括但不限于食物种类、食物名称、成分和症状。
在一种实施方式中,S2具体包括:
S2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;
S2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。
在一种实施方式中,S3具体包括:
S3.1:利用知识图谱工具创建一个项目;
S3.2:将后处理后的数据进行上传,并构建概念体系;
S3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;
S3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。
在一种实施方式中,S4中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。
在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。
基于同样的发明构思,本发明第二方面提供了一种基于知识图谱的食物成分和营养健康的关联性分析系统,包括:
数据结构定义模块,用于在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
数据获取模块,用于获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
提取模块,用于根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
融合模块,用于利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,首先在模式层进行知识数据库的定义,然后获取待分析的数据并进行后处理,接着,提取出实体和对应关系,再利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。利用爬虫对所研究对象的数据进行爬取后,再利用知识图谱进行处理,将二者工具相结合,可做到对研究对象的进准定位,对研究知识的精准度较高,不会有一些无用操作,也不会有过多的一些无用重复数据。
进一步地,根据研究对象的性质和研究的需求确定数据层和模式层,利用知识图谱工具进行数据处理后提取出关系和实体,得到的知识图谱,得到的概念属性关系明确,可视化程度高,结果易读,知识图谱的网络结构简单清晰明了的揭示了研究对象间的关联性,对于对象的共性与差异也一目了然。
进一步地,由于知识图谱的结构沿用了图论算法,数据的检索和查询沿用了图遍历算法,相比传统检索方式效率大大提高,对于大批量数据的存储和展示更具有优势。
进一步地,由于知识图谱的可更新性,利用此方法研究的对象可以进行保存更新,当某些新数据被发现或者旧数据被纠正可以直接进行更新,可以保障此方法研究问题的生存周期,不会因为数据更新而从头开始研究,工作量大大减少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于知识图谱探究营养健康与食物成分属性关联性的方法的技术框图;
图2为本发明实施例中养生网站食物样例图;
图3为本发明实施例中数据爬取定义规则图;
图4为本发明实施例中数据爬取后的示意图;
图5为本发明实施例中属性的创建以及编辑图;
图6为本发明实施例中资源标注主界面示意图;
图7为本发明实施例中三元组的建立示意图;
图8为本发明实施例中知识融合界面示意图;
图9为本发明实施例中知识图谱局部展示图;
图10为本发明实施例中知识图谱全体与局部展示图。
具体实施方式
本发明主要是基于食品领域提出的一种基于知识图谱探究营养健康与食物成分属性关联性的方法,本发明考虑了传统方法准确度不够高、效率较低、可读性不强和过程较为复杂的缺点,提出更清晰明了的研究方法。通过本发明得出的结果更加直白,更加清晰明了。
本发明基于知识图谱的基础上对安全领域进行研究,从广泛知识图谱构建例子总结而言,知识图谱的构建一般有两种方法:自顶向下以及自底向上两种方法。自顶向下法是指先确认知识图谱的数据模型,再收集数据。先为知识图谱确定好本体和数据模式,利用各种百科维基等数据源提取出本体信息以及模式信息,然后再加入到数据库中,可将其分为两步,构建知识图谱模式层的本体构建以及将所抽取到的知识实体匹配并填充到构建的模式实体中。对于特定领域,由于其组织结构和关系较为明确,在收集数据之前可以清晰的确定好数据组织结构,因此多采用自顶向下的构建方法。而对于自底向下法,则可将其分为三步:知识抽取,知识加工以及知识融合。简单来说,就是从各种百科维基等数据源中提取出实体属性关系,然后往上归纳组织,最后形成一层,称为模式层。由于在公共领域,构建知识图谱涉及到海量的数据,开始的时候不知道数据的范围和使用方法。这样只有在收集到数据后,根据数据的内容和特点,建立相应的数据模型。本发明采用的是自顶向下的方式构建知识图谱。
在知识图谱建立完毕之后,往往会有知识推理和知识更新来进一步完善所制作的知识图谱。知识推理即是由现有的实体和关系推理出知识图谱中没有明确表示的关系或者属性。一般知识推理可以分为两类,基于图的推理以及逻辑推理。而知识更新则更加强调的是知识图谱随着时间流逝发生改变而另外需要的增加或者删除等操作,知识更新实际意义上就是一个知识库的更新迭代的过程。知识更新主要分为两个部分:概念层的更新和数据层的更新。前者增加或者删除新老的概念,更改知识图谱的结构。后者则是实体属性和关系的更新,需考虑到数据源的准确性以及一致性。由于知识更新的存在,此方法的得到的实验结果也可以进行更新,通过更新数据,从而更新实验结果,并不需要从头开始,故实验结果的生命周期长。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,该方法包括:
S1:在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
S2:获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
S3:根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
S4:利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
具体来说,其主要步骤包括数据模式层的定义(S1)、数据的获取和后处理 (S2)以及知识图谱的绘制(S3~S4)。
请参见图1,为整体的技术路线图。
S1中,在本质上,知识图谱可以看作三元组“实体-属性-实体”组成的结构化知识库,主要就由模式层和数据层组成。具体地说,信息可视化技术、信息科学、图形学等等学科的知识的综合利用并结合计量引文分析、引文分析来对研究事物的核心结构、发展历史等等信息加以表述的工具就可以成为知识图谱。为了对众多的数据进行统一的,标准化的归纳整理,从而得到自己所需要的语义信息,需要对数据模式层进行定义。模式层需要对实体-关系-实体的三元组成的知识数据库进行定义,这个三元组描述了现实世界中的实体和关系。
S2是针对数据源提取数据和对数据进行后处理,以便于基于知识图谱对成分属性和营养健康的关联性进行分析,
S3和S4是基于爬虫获取并处理好的数据,利用知识图谱工具对成分属性和营养健康的关联性进行分析。
在一种实施方式中,S1中实体包括但不限于食物种类、食物名称、成分和症状。
举例来说,例如“开心”就是“心情”的一个实例。本文定义了四个重要的概念,分别是:食物种类,食物名称、食物成分、症状。“食物种类”指的是食物的所属种类,例如蔬菜、水果等等,“食物名称”就是泛指人们日常生活中所食用的各类食品称呼,例如鸡蛋、豆腐、韭菜等等,而“食物成分”也可以看成食物所含的物质,可以是“营养物质(元素)”也可以是“有害物质”。而“症状”这里指的有好的症状,比如“健脾养胃”“生津解渴”等等,也包含了不好的症状,比如“血糖升高”“血压升高”等等。
在一种实施方式中,S2具体包括:
S2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;
S2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。
具体来说,首先确定爬虫工具,然后通过使用爬虫工具,对目标网站进行所需数据的批量爬取,得到所需要的目标数据。再通过爬虫工具自带的数据下载功能,对数据的导入和导出,将爬取数据的数据格式转换为之后知识图谱可处理的格式。
在具体的实施过程中,数据源的获取主要来自养生网站,利用爬虫软件例如集搜客对食材养身网页进行数据爬取,所选取的养生网站样例如图2所示。使用爬虫工具定义爬取规则,图3为爬取定义规则,爬取所需要的数据。
数据爬取完之后,将数据进行下载后并导入导出,得到最后表格模式的数据源。在本次实验中,数据采取了514项。如图4,为部分数据采集之后导出的表格数据。
在一种实施方式中,S3具体包括:
S3.1:利用知识图谱工具创建一个项目;
S3.2:将后处理后的数据进行上传,并构建概念体系;
S3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;
S3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。
下面介绍知识图谱的相关知识,从知识图谱概念问世以来,再经过“大数据时代”的进一步发展,知识图谱技术渐渐得到了越来越多的关注,然而技术资料的稀少使得人们并没有完全了解到知识图谱的内涵和价值。在2006年就有了关于语义网的概念,随着人们对数据搜索的需要以及搜索质量的要求,知识图谱技术成为了人们研究的热潮。
近些年来,因为知识图谱能够很好的表明知识的发展进程和结构关系的这一特性,利用知识图谱进行研究已经成为了普遍现象。有对中国能源生物质能源研究的知识图谱,也有对中医知识图谱的构建,用知识图谱去研究大学生课程信息关联分析等等,知识图谱涉及领域极其广泛,其未来的发展与应用也是呈一片欣欣向荣之势。另一方面,科技的发展带动了人民生活质量的提高,其中最为普遍提及的便是食物了,从早期社会的食不果腹走向了如今年年有鱼。“民以食为天”,食物与健康的话题并不会像流行事物一样随着时间流逝而热度消散,相反的,这个自古以来就受到人们关注的话题越来越受到重视并显示出其拥有被研究的价值。仿佛流行事物一般,食物与健康的研究从来没被冷落过:喻兵等人的多维度的饮食健康推荐,为人们阐述了什么是多维度的饮食健康,并系统的推荐了健康饮食。还有赵红艳等人对回族饮食习俗以及健康状况的研究,以宁夏回族为例进行饮食与健康的状况的研究,以发现饮食与健康之间紧密的关系。以及从食物类别上研究的功能性食品与健康等等,并且其研究热度甚至愈演愈烈。
其中,步骤S3.1利用知识图谱工具为所进行的研究,创建一个新的项目并为新创建的项目进行命名和保存,作为项目的开始。
步骤S3.2将导入导出后的数据即转换格式后的数据进行资源上传,并就研究的对象创建相应的概念体系。
具体实施是,在项目创建完毕之后进入创建的项目之中,然后可以进行上传整理后的搜取数据。数据格式可以是多种,如doc,xls等等,上传完毕之后,随后进行概念体系的构建,在本次研究的概念体系中,主要定义了“食物种类”“食物名称”“症状”三个概念,而“食物种类”下又包含四个子概念,分别为“蔬菜”“水果”“水产”“肉类”,在系统中分别进行输入。
步骤S3.3根据概念体系针对研究对象即对每一个实体对象进行其属性的创建以及编辑,确认实体的属性值和实体之间关系的属性值。
在进行概念体系构建完毕之后就可以进行属性管理了,依次进行属性的创建、属性的编辑,本次实验中创建的属性有三个,分别是“归属”“成分包含”“症状”,对每个属性一一进行创建与编辑,完成之后结果如图5所示。
步骤S3.4对上传的文本资源按照三元组对应的主谓宾关系进行文档标注并进行相应三元组的建立,创建实体关系属性三元集,根据三元组可以直接创建知识图谱。实体和关系的对应示意图如下:
Figure BDA0002603417090000081
Figure BDA0002603417090000091
属性的建立之后,就需要进行最后的文档的标注以及三元组的建立。点击资源的标注按钮,进入标注主界面,标注各个名称或者说明作为主语谓语还是宾语,之后再展开功能面板,即可以进行三元组的建立。如图6和图7所示。
S4利用共消指解的方法进行知识融合步骤,将同名的实体概念进行融合,将知识图谱的冗余降到最低,形成并展示最终所需要的知识图谱。知识图谱实施例的示意图如下:
食物种类 食物名称 成分 症状
蔬菜 红薯 类雌性激素 减缓衰老
在一种实施方式中,S4中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。
具体来说,成分属性和健康症状是最直接的关联实体,将成分所属的食物和类别同时提取出来进行分析,使得整个分析结构清晰直观。首先对实体类间的关系进行定义,从收集到的数据中逐一提取出实体和对应关系。
需要说明的是,本发明的分析方法与其他方法的不同之处在于,食品的成分和类别既属于食品的属性,又被作为一项单独实体与食品并列分析。健康症状本与成分属性直接关联,将成分作为实体并列出来,可以将健康症状与食品相对应,也将症状与食品类别模糊地对应。本发明的分析不仅局限于成分属性与健康症状的分析,而是基于整个食物的大框架,对食物进行分类的条件下,将健康症状与食物各项属性相关联,构成较为健全的网络结构,不仅用于关联性分析,也可以作为智能搜索、推荐的数据基础。
在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。
当所有三元组创立完毕之后,再将同名的实体进行知识融合,将重复的食物名称或者概括总称进行同一融合,这样在知识图谱的现实中就不会是零零散散的棍球模型,而是散发状的星型模型。之后在概览界面选择图谱一览的选项便看到所制作的知识图谱。图8、图9以及图10分别是知识融合界面以及知识融合之后的知识图谱展示。
从所绘制的知识图谱可以看出,知识图谱和传统的文字数据相比具有很明显的优势,首先,知识图谱沿用了图论中的图遍历算法,在搜索上的效率比传统关系型数据的检索效率高,在数据量大的情况下对比尤为明显。(可视化程度高,小范围的检索更加迅速和简洁。)传统的文字检索,除了繁杂的缺点之外,还容易让人产生疲劳感,而使用知识图谱研究此问题时将过程变得清晰明了化,搜索时的目的性更强。其次,知识图谱的网络图结构,符合人们的认知习惯,可读性强。在知识图谱中我们很明显可以看出食物成分和营养健康关联性,食物的优质成分会对营养健康有积极的影响,如西红柿的多种酸可以帮助消化,而食物中中性成分对营养健康有双面的影响,如猪肉的高蛋白高脂肪对身体虚弱的人来而言可以强身健体,而对于肥胖的人来说有可能导致身体肥胖,高血压高血脂的风险。此外,知识图谱以三元组的结构形式存储,对于知识的更新、增删和修改都不会影响到原有数据,利用知识图谱存储和展示食物成分和营养健康的关联,可以随时实现知识的更新和补充,对于大批量知识的可操作性和实用性较强。
从本发明方法得出来的知识图谱结论,可以看出知识图谱在研究过程中可以起到让人“耳聪目明”的作用,实体、属性、关系在知识图谱之中层次分明,不仅仅可以简便研究对象时的操作,还可以作为知识库保存以待之后的查阅以及检索。
实施例二
基于与实施例一同样的发明构思,本实施例提供了一种基于知识图谱的食物成分和营养健康的关联性分析系统,包括:
数据结构定义模块,用于在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
数据获取模块,用于获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
提取模块,用于根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
融合模块,用于利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
在一种实施方式中,数据结构定义模块中实体包括但不限于食物种类、食物名称、成分和症状。
在一种实施方式中,数据获取模块具体用于执行下述步骤:
S2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;
S2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。
在一种实施方式中,提取模块具体用于执行下述步骤:
S3.1:利用知识图谱工具创建一个项目;
S3.2:将后处理后的数据进行上传,并构建概念体系;
S3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;
S3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。
在一种实施方式中,融合模块中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。
在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于知识图谱的食物成分和营养健康的关联性分析方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于知识图谱的食物成分和营养健康的关联性分析方法,其特征在于,包括:
S1:在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
S2:获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
S3:根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
S4:利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
2.如权利要求1所述的关联性分析方法,其特征在于,S1中实体包括但不限于食物种类、食物名称、成分和症状。
3.如权利要求1所述的关联性分析方法,其特征在于,S2具体包括:
S2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;
S2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。
4.如权利要求1所述的关联性分析方法,其特征在于,S3具体包括:
S3.1:利用知识图谱工具创建一个项目;
S3.2:将后处理后的数据进行上传,并构建概念体系;
S3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;
S3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。
5.如权利要求1所述的关联性分析方法,其特征在于,S4中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。
6.如权利要求1所述的关联性分析方法,其特征在于,最终的分析结果中成分属性与健康症状直接关联。
7.一种基于知识图谱的食物成分和营养健康的关联性分析系统,其特征在于,包括:
数据结构定义模块,用于在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;
数据获取模块,用于获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;
提取模块,用于根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;
融合模块,用于利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。
CN202010731183.XA 2020-07-27 2020-07-27 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统 Pending CN111897969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010731183.XA CN111897969A (zh) 2020-07-27 2020-07-27 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010731183.XA CN111897969A (zh) 2020-07-27 2020-07-27 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统

Publications (1)

Publication Number Publication Date
CN111897969A true CN111897969A (zh) 2020-11-06

Family

ID=73189710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010731183.XA Pending CN111897969A (zh) 2020-07-27 2020-07-27 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统

Country Status (1)

Country Link
CN (1) CN111897969A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380356A (zh) * 2020-11-30 2021-02-19 百度国际科技(深圳)有限公司 用于构建配餐知识图谱的方法、装置、电子设备及介质
CN112487208A (zh) * 2020-12-14 2021-03-12 杭州安恒信息技术股份有限公司 一种网络安全数据关联分析方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332157A1 (en) * 2014-05-15 2015-11-19 International Business Machines Corporation Probability mapping model for location of natural resources
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110633364A (zh) * 2019-09-23 2019-12-31 中国农业大学 基于图数据库的食品安全知识图谱构建方法和展示模式
CN110781315A (zh) * 2019-10-16 2020-02-11 华中农业大学 一种食品安全知识图谱及相关智能问答系统的构建方法
CN110970112A (zh) * 2018-09-29 2020-04-07 九阳股份有限公司 一种面向营养健康的知识图谱构建方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332157A1 (en) * 2014-05-15 2015-11-19 International Business Machines Corporation Probability mapping model for location of natural resources
CN110970112A (zh) * 2018-09-29 2020-04-07 九阳股份有限公司 一种面向营养健康的知识图谱构建方法和系统
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110633364A (zh) * 2019-09-23 2019-12-31 中国农业大学 基于图数据库的食品安全知识图谱构建方法和展示模式
CN110781315A (zh) * 2019-10-16 2020-02-11 华中农业大学 一种食品安全知识图谱及相关智能问答系统的构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380356A (zh) * 2020-11-30 2021-02-19 百度国际科技(深圳)有限公司 用于构建配餐知识图谱的方法、装置、电子设备及介质
CN112487208A (zh) * 2020-12-14 2021-03-12 杭州安恒信息技术股份有限公司 一种网络安全数据关联分析方法、装置、设备及存储介质
CN112487208B (zh) * 2020-12-14 2023-06-30 杭州安恒信息技术股份有限公司 一种网络安全数据关联分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Zhao et al. Analysis and visualization of citation networks
US9870550B2 (en) Modifying existing recipes to incorporate additional or replace existing ingredients
Wang et al. Substructure similarity measurement in chinese recipes
Yang et al. Association rule mining and network analysis in oriental medicine
Fried et al. Maps of computer science
Baek et al. Educational data mining versus learning analytics: A review of publications from 2015 to 2019
Xie et al. A hybrid semantic item model for recipe search by example
Wagner et al. Semantic stability in social tagging streams
CN111897969A (zh) 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统
Dang et al. Theory-informed design and evaluation of an advanced search and knowledge mapping system in nanotechnology
Kaur et al. Food image-based nutritional management system to overcome polycystic Ovary Syndrome using DeepLearning: A systematic review
CN111651614A (zh) 药膳知识图谱的构建方法、系统、电子设备及存储介质
CN115714001A (zh) 一种面向健康饮食的多模态知识图谱服务平台构建方法
Zhang et al. Discovering small-world in association link networks for association learning
White Examining scientific vocabulary: mapping controlled vocabularies with free text keywords
JP2008181188A (ja) 健康関連情報提供システム
CN110970112A (zh) 一种面向营养健康的知识图谱构建方法和系统
IL264228A (en) Extracting information from data
Ratisoontorn Recipe recommendations for toddlers using integrated nutritional and ingredient similarity measures
CN115905554A (zh) 一种基于多学科分类的中文学术知识图谱构建方法
TWI733453B (zh) 集群分析方法、集群分析系統、及集群分析程式
Guo Meat substitutes in Media Discourse
CN114528415A (zh) 一种基于知识图谱的医疗知识快速检索方法及系统
CN113051402A (zh) 一种基于知识图谱的渔业知识推荐方法
Du et al. Automatic extraction of clinical symptoms in traditional Chinese medicine for electronic medical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106