CN113590837A - 一种基于深度学习的食品及健康知识图谱构建方法 - Google Patents

一种基于深度学习的食品及健康知识图谱构建方法 Download PDF

Info

Publication number
CN113590837A
CN113590837A CN202110864488.2A CN202110864488A CN113590837A CN 113590837 A CN113590837 A CN 113590837A CN 202110864488 A CN202110864488 A CN 202110864488A CN 113590837 A CN113590837 A CN 113590837A
Authority
CN
China
Prior art keywords
entity
food
data
relation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110864488.2A
Other languages
English (en)
Inventor
赵良
廖子逸
张赵玥
董滨源
牛恬瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN202110864488.2A priority Critical patent/CN113590837A/zh
Publication of CN113590837A publication Critical patent/CN113590837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度学习的食品及健康知识图谱构建方法,从信息抽取、知识表示、知识融合、知识存储、知识推理和知识图谱应用六个方面构建和应用面向食品安全领域的知识图谱,实现了高效查询食品安全数据和科学分析食品安全问题的功能。本发明在信息抽取阶段,基于手动标注数据集应用的深度学习方法有:基于BiLSTM‑CRF模型实现了实体识别,基于Transformer模型实现了关系抽取。在此基础上,本发明采用(实体,关系,实体)的三元组类型作为知识图谱表示学习的输入,通过表示学习将高维度的知识进行Embedding,有效解决了数据稀疏性,提高了计算效率,可以应用到实体相似度计算以及关系预测。

Description

一种基于深度学习的食品及健康知识图谱构建方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于深度学习的食品及健康知识图谱构建方法。
背景技术
食品安全是一个非常重要,同时又非常复杂的领域。现有大量的面向食品安全方面的标准文件,但其数量庞大、覆盖面广、内容繁复,很难人工统一处理。所以引入知识图谱可以帮助人们更加精确化的分析食品安全问题,比如各种食品中的添加剂限量,限量超标会引发什么症状、疾病及其治疗信息等与食品安全息息相关的数据。
知识图谱(Knowledge Graph,KG)最早是作为语义网络(Semantic Web)研究内容之一出现的。国内外的知识库、知识图谱产品层出不穷,在许多领域都存在专有知识库并且构建了领域知识图谱,但是在农业与食品安全方面的专有知识库非常稀少,且国内尚无食品统一国家编码;2018年国外统一的食品本体库FoodOn发布,但由于本体在语言翻译过程中产生的不确定性,加上我国食品文化博大精深,具有浓厚的地理特色等原因,FoodOn很难直接作为国内基于食品安全的知识图谱构建的知识库;所以构建知识图谱的数据需要从大量标准文件以及网络数据中提取。由于缺少足够的标注数据,对于非关系型数据无法进行自动提取。在手动标注足够数据后,基于BiLSTM-CRF模型实现了实体识别,基于神经网络的Transformer模型实现了关系抽取。在知识表示中使用了RDF三元组和表示学习两种知识表示方式。在表示学习使用了TransE、TransR、TransD和TransH四种模型进行嵌入。知识存储主要分为基于RDF三元组的存储和基于图数据库的存储。知识推理使用基于图数据库的路径查询和基于知识图谱嵌入推理两种方式。问答方面通过编写问题模板以及对应的查询语句实现。
由于食品领域的知识十分复杂,甚至对应食品还没有统一的编号系统,在知识融合过程中存在较大难点,即使使用表示学习来进行实体聚类,也可能因为同一物质的不同名称的实体没有收集全而效果不佳。
基于图数据库的知识存储方式接近实际业务需求,但其结构因人为设计完成,所以查询检索等效率会收到数据库建模影响。特别在领域知识图谱构建中,在模式层的搭建上最好是由该领域专家完成,使得模式层更加科学、高效。
发明内容
本发明要解决的技术问题是:提供一种基于深度学习的食品及健康知识图谱构建方法,用于高效查询食品安全数据和科学分析食品安全问题。
本发明为解决上述技术问题所采取的技术方案为:一种基于深度学习的食品及健康知识图谱构建方法,包括以下步骤:S1:从国家标准文件和网络提取源数据;
S2:对源数据抽取信息,包括通过Python脚本分别抽取结构化数据和半结构化数据,对非结构化数据采取字符级别的手动标注,且基于手动标注数据形成数据集,实现包括基于BiLSTM-CRF模型进行的实体识别和基于Transformer模型进行的关系抽取;
S3:分类整理提取的数据内容,设计知识图谱概念层,数据库建模,包括统一的实体、关系类别以及对应的字段名称,将多源异构数据融合在同一个知识图谱中;
S4:选取四种KGE模型TransE、TransH、TransR、TransD对(头实体,关系,尾实体)类型的三元组数据进行嵌入Embedding,应用于实体相似度计算以及关系预测;
S5:设计问题模板,搭建问答系统,查询整合结果。
按上述方案,所述的步骤S1中,数据源是未三元组化的知识,包括食品类、农产品类、国家标准类、食品营养值类、食品添加剂类、农药类、兽药类、污染物类、疾病与症状类;食品类的实体属性包括食品名称和食品分类;农产品类的实体属性包括农产品名称和农产品分类;国家标准类的实体属性包括标准名称和标准内容;食品营养值类的实体属性包括营养名称和营养值;食品添加剂类的实体属性包括添加剂名称和添加剂值;农药类的实体属性包括农药名称、农药分类、农药限量值;兽药类的实体属性包括兽药名称、兽药分类、兽药限量值;污染物类的实体属性包括污染物名称和污染物限量值;疾病与症状类的实体属性包括疾病名称、症状名称、疾病就诊科室、治疗药物。
按上述方案,所述的步骤S2中,具体步骤为:
S21:通过BiLSTM-CRF模型进行实体识别,结合经典模型条件随机场CRF与双向长短期记忆网络BiLSTM,通过命名实体识别NER提取文本中的包括专有名词和量词的事实信息;
S22:通过Transformer模型进行关系抽取RE,从文本中抽取实体与实体之间或者实体与属性之间的语义关系;对输入的句子和实体计算既定的每种关系对于该实体在句子中的可能性,取最高的可能性作为目标关系;
S23:将所有数据转换成RDF三元组形式的知识并保存为.csv格式。
进一步的,所述的步骤S22中,Transformer模型采用多层注意力机制,包括Encoder内部和Decoder内部的多头自注意力模块,以及encoder和decoder之间的多头注意力模块;Encoder和Decoder分别包括自注意力机制,Decoder在自注意力机制的基础上加入Encoder的反馈信息形成多头自注意力机制;Transformer模型用于使输入的句子和实体经过嵌入层转换成对应向量,依次经过Encoder、Decoder、分类器得到实体关系。
按上述方案,所述的步骤S3中,具体步骤为:
S31:采用嵌入Embedding后的相似的向量对应的实体判断相似实体,将不同名称映射到同一实体上,解决同物异名的问题;
S32:在图数据库中为同名实体设置分类标签,解决同名异物的问题。
按上述方案,所述的步骤S3后,还包括以下步骤:通过图数据库存储方法存储基于RDF三元组的数据内容用于信息检索和查询;存储的RDF三元组包括(农产品,包含,农产品)、(食品,包含,食品)、(农药,包含,杀虫剂、杀菌剂、增效剂等)、(食品,含有,营养值、农药、添加剂等)、(农产品,含有,营养值、农药、添加剂等)、(食品、农产品,参考标准,国家标准)、(国家标准,检测项目,食品、农产品)、(国家标准,引用,国家标准)、(食品,限量,农药、添加剂、污染物、兽药)、(农产品,限量,农药、添加剂、污染物、兽药)、(食品,营养值,营养物质)、(疾病,症状,症状)、(食品,原料,食品、农产品)、(农产品,原料,食品、农产品)、(农药、添加剂等,导致,症状)、(疾病,治疗药物,药物)、(疾病,治疗方式,治疗方法)、(疾病,所属科室,科室)、(疾病,疾病检查项,医疗检查项目);包含关系的关系内容为父子类关系,含有关系的关系内容为各种含有量或参考限量,参考标准关系的关系内容为参考标准和参考内容,检测项目关系的关系内容为某国标的检测项目,引用关系的关系内容为某国标引用某国标,限量关系的关系内容为具体限量值,营养值关系的关系内容为具体营养值,症状关系的关系内容为某疾病的症状,原料关系的关系内容为某食品、农产品的原料,导致关系的关系内容为某物质超标引发的症状,治疗药物关系的关系内容为某疾病的治疗药物,治疗方式关系的关系内容为某疾病的治疗方式,所属科室关系的关系内容为某基本所属科室,疾病检查项关系的关系内容为某疾病的医疗检查项目。
按上述方案,所述的步骤S4中,具体步骤为:
S41:设知识图谱为G=(E,R,T),其中所有实体的集合为E={e1,e2,...e|E|},实体的个数为|E|;所有关系的集合为R={r1,r2,...r|R|},关系的个数为|R|;三元组集合Triplet为T=E×R×E;单个三元组为(h,r,t),其中三元组的头实体head为h,尾实体tail为t,头实体和尾实体的关系为r;嵌入Embedding后的头实体向量为vh、关系向量为vr、尾实体向量为vt;vh
Figure BDA0003187054110000041
设正样本数据集合为:
P={(h,r,t)},
负样本数据集合为:
N={(h′,r,t)|h′≠h∧(h,r,t)∈P}∪{(h,r,t′)|t′≠t∧(h,r,t)∈P};
TransE模型将三元组(h,r,t)的r看作h到t的平移,通过TransE模型得到关系:
vh+vr≈vt
设TransE模型的损失函数为:
Figure BDA0003187054110000042
vh+vr与vt的L1或L2距离表示头实体+关系到尾实体的距离,距离越近越好;
向TransE模型添加负样本数据后的得分函数为:
Figure BDA0003187054110000051
其中:
Figure BDA0003187054110000052
TransH模型将vh和vt投影在关系vr的超平面上,使投影后的向量满足TransE模型的假设:
对于三元组(h,r,t),定义wr为关系r所在超平面的与vr正交的法向量,把vh和vt投影在r所在的超平面得到
Figure BDA0003187054110000053
Figure BDA0003187054110000054
则:
Figure BDA0003187054110000055
Figure BDA0003187054110000056
TransH的损失函数为:
Figure BDA0003187054110000057
TransH的得分函数与TransE一致,为:
Figure BDA0003187054110000058
TransR模型分别给实体和关系创建不同的语义空间,将实体翻译到关系所在的语义空间再计算得分;
对三元组(h,r,t)的每一个关系创建翻译矩阵
Figure BDA0003187054110000059
通过翻译矩阵Mr将vh和vt分别翻译在关系语义空间得到
Figure BDA00031870541100000510
Figure BDA00031870541100000511
Figure BDA00031870541100000512
Figure BDA00031870541100000513
TransR模型的损失函数、得分函数均与TransH模型一致;
TransD模型中设置翻译矩阵Mhr和Mtr分别用于将头实体h和尾实体t翻译至关系语义空间;设参数向量
Figure BDA0003187054110000061
下标P表示该向量为参数向量;其中实体向量
Figure BDA0003187054110000062
关系向量
Figure BDA0003187054110000063
翻译矩阵
Figure BDA0003187054110000064
则:
Figure BDA0003187054110000065
Figure BDA0003187054110000066
将头实体和尾实体翻译后的向量记为
Figure BDA0003187054110000067
Figure BDA0003187054110000068
则:
Figure BDA0003187054110000069
Figure BDA00031870541100000610
TransD模型的损失函数和得分函数均与TransR模型相同;
S42:基于TransR模型进行两两实体间的关系预测,在实验中采用预测关系的前两位作为结果计算准确度;
S43:基于TransR模型进行相似实体预测,使用嵌入Embedding后的向量相似度预测实体相似度;采用被判断为相似的两个实体之间的公共路径条数作为判断相似实体预测结果的好坏指标。
按上述方案,所述的步骤S5中,搭建问答系统的具体步骤为:
S51:设变量x和cla为问题参数,根据收集到的数据类型设计问题模板包括:
查询名叫x的食品含有哪些营养;
查询名叫x的食品有什么食品添加剂;
某查询名叫x的食品相关的国家标准;
查询名叫x的国家标准中的抽检项目;
查询name为x的节点;
查询lable为x的节点;
查询名叫x的食品、农产品中名叫cla的物质的最大残留量;
查询名叫x节点的类别;
查询名叫x的物质超量可能导致的症状和疾病;
查询名叫x的疾病属于什么科室;
查询名叫x的疾病的治疗药物;
查询名叫x的疾病的治疗方法;
查询名叫x的疾病的症状;
查询名叫x的疾病的医疗检查项目;
S52:采用Jieba工具和自定义词典进行词性标注,提取问题参数;
S53:对每个问题模板编写问题集,采用Tfidf经典文本分类算法匹配问题模板;
S54:通过Py2neo工具封装Cypher语句进行数据查询,通过Python后台整合结果并返回。
按上述方案,所述的步骤S5中,还包括搭建Web端应用,具体步骤为:使用PythonFlask框架搭建Web系统,采用Neovis实现图数据可视化部分,采用Bootstrap美化前端框架;采用Ajax完成前后端信息交互;实现包括实体识别、关系抽取、智能问答、固定类型查询、路径查询的功能。
一种基于深度学习的食品及健康知识图谱,包括数据层和模式层;数据层采用RDF三元组和图数据存储数据源;模式层采用本体库对实体构造规则和约束。
本发明的有益效果为:
1.本发明的一种基于深度学习的食品及健康知识图谱构建方法,从信息抽取、知识表示、知识融合、知识存储、知识推理和知识图谱应用六个方面构建和应用面向食品安全领域的知识图谱,实现了高效查询食品安全数据和科学分析食品安全问题的功能。
2.本发明在信息抽取阶段,基于手动标注数据集应用的深度学习方法有:基于BiLSTM-CRF模型实现了实体识别,基于Transformer模型实现了关系抽取。
3.本发明采用(实体,关系,实体)的三元组类型作为知识图谱表示学习的输入,通过表示学习将高维度的知识进行Embedding,有效解决了数据稀疏性,提高了计算效率,可以应用到实体相似度计算以及关系预测。
附图说明
图1是本发明实施例的领域知识图谱架构图。
图2是本发明实施例的信息抽取流程图。
图3是本发明实施例的实体识别的数据标注示例图。
图4是本发明实施例的实体识别结果示例图。
图5是本发明实施例的Transformer模型架构图。
图6是本发明实施例的关系抽取数据量图。
图7是本发明实施例的关系抽取示例图。
图8是本发明实施例的图数据库建模图。
图9是本发明实施例的图数据库的可视化展示图。
图10是本发明实施例的TransE模型示例图。
图11是本发明实施例的TransH模型示例图。
图12是本发明实施例的TransR模型示例图。
图13是本发明实施例的TransD模式示例图。
图14是本发明实施例的关系预测示例图。
图15是本发明实施例的关系预测结果验证图。
图16是本发明实施例的问答系统的流程图。
图17是本发明实施例的问答演示示例图。
图18是本发明实施例的Web端菜单栏图。
图19是本发明实施例的固定类型查询图。
图20是本发明实施例的自然语言问题输入的问答系统示例图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的构建过程参见图1。
1面向食品安全领域知识图谱的构建
1.1领域知识图谱构建架构
基于食品安全的知识图谱因其具有内容偏专业、数据要求严格且准确、更高的知识深度和更细的知识粒度等特点,属于领域知识图谱。
在逻辑层面上,知识图谱分为数据层和模式层:数据层用来存储事实数据,通常是用RDF三元组方式和图数据进行存储;模式层用来对实体构造规则和约束,通常使用本体库来实现。
领域知识图谱因对源数据(知识)在准确度上要求较高,需要花费大量人力检查处理知识,且也要求本体层相对完整,符合精确而深入的行业要求,所以在构建方法上采取自底向上和自顶向下相结合的方式进行构建。领域知识图谱的构建架构如图1所示。
1.2源数据
数据来源主要分为两部分:(1)国家标准文件中提取的数据。(2)网络上爬取的数据。收集来的数据中,大部分都为结构和半结构化数据,主要是具体限量值等数据;而物质超标引发症状这类数据多为非结构化数据。
1.3信息抽取
信息抽取按信息来源可以分为三类:对结构化数据进行抽取;对半结构化数据进行抽取;对非结构化数据进行抽取,如图2所示。
结构化和半结构化数据通过编写Python脚本提取;由于非结构化数据缺少训练集,无监督模型准确率太低,所以需要手动标注。最终所有数据都转换成三元组形式,存为.csv格式。
经过整理、分类,现有数据9大类,如表1所示。
表格1收集到的数据
数据类别 实体属性
食品 食品名称,分类等
农产品 农产品名称,分类等
国家标准(GB) 标准名称,标准内容等
食品营养值 营养名称,营养值
食品添加剂 添加剂名称,添加剂值
农药 农药名称,分类,限量值等
兽药 兽药名称,分类,限量值等
污染物 污染物名称,限量值等
疾病与症状 疾病名称,症状名称,疾病就诊科室,治疗药物等
在手动标注数据后,基于全监督模型BiLSTM-CRF模型实现了实体识别,基于神经网络的全监督模型Transformer实现了关系抽取。
1.3.1基于BiLSTM-CRF模型的实体识别
命名实体识别(Named Entity Recognition,NER)目的是将文本中的专有名词、量词等事实信息提取出来,比如在句子“糖精钠是食品工业中常用的合成甜味剂”中提取出“糖精钠”和“甜味剂”两个实体。目前较为主流的命名实体识别采用的是基于深度学习的方法。基于BiLSTM-CRF的命名实体方法将中文命名实体识别看作序列标注问题,通过结合序列标注问题中的经典模型条件随机场(CRF)与双向长短期记忆网络(BiLSTM)实现。
在实际模型训练中,需要将非结构化数据进行字符级别的序列标注,如图3所示。
如图4所示为实体识别结果的示例,BiLSTM-CRF模型的训练数据为:4000条句子作为训练集,1000条句子作为测试集,结果为:准确度(P):87.39%,召回率(R):87.69%,F1均值:0.8754。
1.3.2基于Transformer模型的关系抽取
关系抽取(Relation extraction,RE)作为信息抽取的核心任务和重要环节,能够从文本中抽取实体与实体之间或者实体与属性之间的语义关系,比如句子“人在短期内若吸入大量氨气,会出现流泪等症状”通过关系抽取得到实体“氨气”与“流泪”含有“导致”这种关系。非结构化数据经过关系抽取后即可得到RDF三元组知识表示形式的知识。
Transformer模型架构图如图5所示,Transformer模型与传统CNN模型不同的是其添加了多层注意力机制。多层注意力机制包含多头自注意力模块(encoder内部和decoder内部)及多头注意力模块(encoder和decoder之间)。具体来说,在Encoder中含有自注意力机制,在Decoder中在自注意力机制基础上加入Encoder的反馈信息形成多头自注意力机制。整个流程先输入句子和实体,经过嵌入层转换成对应向量,最终由Transformer网络加上分类器得到实体关系。Transformer模型优点在于可以学习长距离的上下文特征,提高准确率;缺点在于训练参数过多,导致模型训练时间长。
手动标注的数据中可作为关系抽取数据集的数据量如图6所示。
在实际训练过程中,训练集有7006条,测试集有1785条,验证集有1605条,最终得到结果为正确率(Acc):82.73%,精确率(P):79.09%,召回率(R):80.01%,F1均值:77.21%。
如图7所示为关系抽取示例,输入句子和实体后能计算既定的每种关系对于该实体在句子中的可能性,取最高的即为目标关系。
1.4知识表示
本发明使用了基于RDF三元组和表示学习两种知识表示方式。基于RDF三元组的知识表示主要分为(头实体,关系,尾实体)和(实体,属性,属性值)两类。因本发明涉及的表示学习模型是基于头尾实体翻译假设的,所以只能对(头实体,关系,尾实体)这类数据进行表示学习。
1.5知识融合
知识融合是指将信息抽取过程中不同来源的异构数据进行融合,使得可以存在于同一个知识图谱中。
本发明采取的知识融合方法是构建统一的概念层来进行知识融合。具体来说便是按提取的数据内容进行分类整理,最后设计统一的实体、关系类别以及对应的字段名称,系统方面对应的便是数据库设计,知识融合主要解决的有两个问题:共指消解和实体消歧。
共指消解即是同物异名问题,这种问题在农产品、食品方面尤其显著,比如“红薯、白薯、番薯、山芋其实属于同一本体。番薯,山芋是这一本体东西的两种叫法。红薯,白薯是这一本体皮色不同的两个品种”。解决此问题的关键在于如何将不同名称映射到同一实体上,最简单的做法便是建立名称-本体对应表,但在国内的农产品、食品领域甚至还未存在统一的编号,食品名称又附带地域特点,缺少标准且完整的数据支撑,很难建立完整的对应表。另一种办法便是利用表示学习,将Embedding后的相似的向量所对应的实体来判断相似实体。
实体消歧即同名异物问题,比如“苹果”是农产品,也是食品,甚至是一个公司名字,解决方法便是为同名实体打上分类标签,这在图数据库Neo4j中可以较好实现。
1.6知识存储
本发明采取的存储方法主要是图数据库存储方法。基于RDF三元组的存储主要用于作为图数据库存储的前置数据以及表示学习的数据输入,图数据库存储方式主要用于信息检索、查询。
依据信息抽取内容,关系设计如表2所示。
表格2关系及其内容
Figure BDA0003187054110000111
Figure BDA0003187054110000121
图数据库建模如图8所示。
其中,图8中带“中间节点”的节点不是实体节点,设计中间节点是为了便于查询,可视化效果美观,同时防止图数据库中直接链接食品、农产品节点的节点过多,提高查询效率,也利于结果分类。
所有数据全部导入Neo4j,依据数据库统计显示,共有节点(实体节点加中间节点)52636个,关系239889条,属性532398个。知识在图数据库Neo4j中存储的可视化展示如图9所示。
2表示学习
表示学习的价值在于能够量化语义信息,进而计算概念间和实体间的相似度,实现关系抽取、实体对齐和知识推理的效果。经Freebase等知识库中的数据集验证,TransE模型较之前的表示学习模型在性能上有着显著提升,并因其较少的参数和简洁的函数,在大规模知识图谱上的效率也十分可观。所以自TransE之后的大量表示学习研究都是以TransE为基础的翻译模型进行补充和改进的。
本发明选取的KGE模型为翻译模型中的TransE、TransH、TransR和TransD。
在介绍模型之前,先定义几种后文需要用到的符号。知识图谱表示为G=(E,R,T),其中E={e1,e2,...e|E|}表示所有实体的集合,|E|是实体的个数;R={r1,r2,...r|R|}表示所有关系的集合,|R|是关系的个数;T=E×R×E代表三元组集合(Triplet);单个三元组用(h,r,t)表示,其中h和t是三元组的头实体(head)和尾实体(tail),r表示头实体和尾实体的关系;Embedding后的头实体向量、关系向量和尾实体向量分别记为vh、vr和vt,实体向量vh
Figure BDA0003187054110000131
关系向量
Figure BDA0003187054110000132
定义P={(h,r,t)}为正样本数据集合,负样本数据集合定义为
N={(h′,r,t)|h′≠h∧(h,r,t)∈P}∪{(h,r,t′)|t′≠t∧(h,r,t)∈P}
即把正确三元组中的头尾实体进行替换即是负样本。
2.1.1TransE
对于每个三元组(h,r,t)来说,Bordes等人根据Mikolov等人发现的语义平移现象,希望h和t在embedding后的低纬度空间中仍然保持与三元组(h,r,t)相同的语义关系。如图10所示,在TransE中,对于三元组(h,r,t),TransE将r看作是h到t的平移(或者叫翻译,translate embedding也由此命名)TransE希望得到以下关系:
vh+vr≈vt
定义的损失函数如下:
Figure BDA0003187054110000133
即对于三元组(h,r,t)来说,vh+vr与vt的L1或L2距离表示头实体+关系到尾实体的距离,距离越近越好。
在实际的机器学习训练过程中,通常会添加负样本数据,对于TransE来说,加入负样本的后的得分函数如下:
Figure BDA0003187054110000134
其中:
Figure BDA0003187054110000135
2.1.2TransH
为了解决TransE模型在面对一对多、多对一、多对多关系时的问题,TransH的解决方法是将vh和vt投影在关系vr的超平面上,使得投影之后的向量满足TransE中的假设,如图11所示。具体内容如下:
对于三元组(h,r,t),定义wr为关系r所在超平面的法向量,为了简单,一般选取与vr正交的法向量wr。把vh和vt投影在超平面后得到
Figure BDA0003187054110000141
Figure BDA0003187054110000142
通过wr很容易得到:
Figure BDA0003187054110000143
Figure BDA0003187054110000144
TransH的损失函数如下:
Figure BDA0003187054110000145
TransH的得分函数与TransE一致:
Figure BDA0003187054110000146
2.1.3TransR
TransR认为,实体和关系使用同一语义空间是不合适的,理由如下:
(1)从数据量上来说,在知识图谱中实体的数量|E|会远大于关系的数量|R|,而同一语义空间则意味着实体和关系使用了同一空间维度k。
(2)从定义上来说,实体需要描述的是实体属性,而关系需要描述的是实体关系和关系属性。
如图12所示,TransR给实体和关系创建不同的语义空间,然后将实体翻译到关系所在的语义空间再计算得分。
具体来说,对于三元组(h,r,t),先对每一个关系创建翻译矩阵
Figure BDA0003187054110000147
利用翻译矩阵将vh和vt翻译在关系语义空间后得到
Figure BDA0003187054110000148
Figure BDA0003187054110000149
其中:
Figure BDA0003187054110000151
Figure BDA0003187054110000152
TransR的损失函数与得分函数均与TransH一致。
2.1.4TransD
为了解决以下问题:(1)翻译矩阵是由关系来确定的,和实体类型无关。(2)翻译矩阵大小为m×n,参数数量很大,学习过程中计算量很大。Ji等人提出了一个TransR的改进模型TransD,如图13所示。
具体来说,对于三元组(h,r,t),TransD创建了两个翻译矩阵Mhr和Mtr分别用来将头实体h和尾实体t翻译至关系语义空间中。定义一些参数向量
Figure BDA0003187054110000153
Figure BDA0003187054110000154
其中下标P代表该向量为参数向量,实体向量
Figure BDA0003187054110000155
关系向量
Figure BDA0003187054110000156
翻译矩阵
Figure BDA0003187054110000157
其中:
Figure BDA0003187054110000158
Figure BDA0003187054110000159
将头实体和尾实体翻译后的向量记为
Figure BDA00031870541100001510
Figure BDA00031870541100001511
则有:
Figure BDA00031870541100001512
Figure BDA00031870541100001513
TransD的损失函数和得分函数均与TransR相同。
因模型的定义是基于头尾实体平移(翻译)假设的,所以表示学习的输入三元组只能是(头实体,关系,尾实体)类型,而没有(实体,属性,属性值)这类三元组。所以在输入数据上需要整理出(头实体,关系,尾实体)这类三元组,经整理后,共有此类三元组约24万条,其中实体47915个,关系26种。
2.2基于TransR的关系预测
关系预测也叫链接预测,是知识图谱补全的一部分。本发明基于TransR嵌入模型实现了两两实体间的关系预测。如图14所示,在预测“油菜籽”与“甲基硫菌灵”的关系时,按照loss值排序后,前两个结果分别是“杀菌剂检测项目”与“农药检测项目”,如图15所示,在图数据中验证后发现关系预测结果符合事实。
在进行关系预测测试时,随机抽取了162个正三元组,然后通过以上方法进行验证,最终得到结果为:正确的关系出现在预测关系前两位中的概率为85.19%,其中选择在预测关系前两位中取结果原因是知识存在包含关系,比如在图15中,概率最大的两种预测关系分别是“杀菌剂检测项目”和“杀虫剂检测项目”,而杀菌剂是属于杀虫剂的,所以“油菜籽”和“甲基硫菌灵”的预测关系中“杀菌剂检测项目”和“杀虫剂检测项目”都是正确的。
2.3基于TransR的相似实体预测
根据表示学习的特点,可以使用Embedding后的向量相似度来预测实体相似度。因为表示学习输入的只有(实体,关系,实体),在图结果中即是节点与边,所以实际上是将知识图谱的图结构进行了表示学习。因此,对于相似实体判断结果,采用了被判断为相似的两个实体之间的公共路径条数来认定结果的好坏。作为测试,随机抽取了约1500个实体作为输入,通过基于TransR模型的表示学习来计算与其相似的5个实体,然后在图数据库中通过Cypher语句计算被判断相似的两个实体间的公共路径数量。
经计算得出,结果中没有公共路径的比例为9.83%,即约9成结果是含有公共路径的,平均每个相似实体对含有公共路径1248条。
3应用系统搭建
3.1问答系统搭建
本发明构建的知识图谱为领域知识图谱,覆盖面小但知识深度高,涉及的问题类型较少,但含有复杂问题,所以选用了基于问题模板的实现方法。
问答系统的流程图如图16所示。
问答系统主要需要设计问题模板,根据收集到的数据类型,编写了如下问题模板:
(1)x含有哪些营养?(查询名叫x的食品含有哪些营养)。
(2)x有什么食品添加剂?(查询名叫x的食品有什么食品添加剂)
(3)x相关的国家标准?(某查询名叫x的食品相关的国家标准)
(4)x中相关的抽检项目?(查询名叫x的国家标准中的抽检项目)
(5)查询特定x的节点。(查询name为x的节点)
(6)查询特定lable(类型)为x的节点(查询lable为x的节点)
(7)x中某cla的最大残留量(最大值,规定值)是多少?(查询名叫x的食品、农产品中名叫cla的物质的最大残留量)
(8)x属于某cla吗?x属于哪一cla?(查询名叫x节点的类别)
(9)超量的x会导致什么症状,该症状可能是什么疾病?(查询名叫x的物质超量可能导致的症状和疾病)
(10)x的治疗科室/看病科室是什么?(查询名叫x的疾病属于什么科室)
(11)x的治疗药物是什么?(查询名叫x的疾病的治疗药物)
(12)x的治疗方法有哪些?(查询名叫x的疾病的治疗方法)
(13)x的症状有哪些?(查询名叫x的疾病的症状)
(14)x的检查项目有哪些?(查询名叫x的疾病的医疗检查项目)
其中x和cla等是变量,是问题参数,比如当x为“玉米”时,若匹配到第一个问题模板,则问题为“玉米含有哪些营养”,然后去数据库查询与玉米营养值有关的节点并整合内容。
提取问题参数过程使用了Jieba工具外加自定义词典进行词性标注完成。
匹配问题模板可以看成是文本分类问题,所以需要预先对每个问题模板编写尽可能多、全的问题集。由于人为编写问题集数量十分有限,所以没有采取复杂的文本分类算法,本发明选取的Tfidf经典文本分类算法实现问题模板匹配。
最后,通过Python加上Py2neo工具封装Cypher语句外壳进行结果查询与整合。
集成数据库查询的问答功能演示示例如图17所示。
3.2Web系统
Web系统使用Python Flask框架搭建,其中图数据可视化部分使用Neo4j官方实验室产品Neovis进行实现;前端使用Bootstrap框架美化;前后端信息交互主要使用Ajax完成。
如图18所示,完成了实体识别、关系抽取、智能问答、固定类型查询和路径查询五类功能。
图19所示为第8类问题的固定类型查询,查询的是“氯菊酯”超量可能引发的症状和疾病,在结果整合过程中,因为症状到疾病的路径过多,所以按照症状到路径链接的条数来对结果进行排序,并输出了数量最多的前10种疾病,表示最可能引发的疾病。
图20为以自然语言问题输入的问答系统示例。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:包括以下步骤:
S1:从国家标准文件和网络提取源数据;
S2:对源数据抽取信息,包括通过Python脚本分别抽取结构化数据和半结构化数据,对非结构化数据采取字符级别的手动标注,且基于手动标注数据形成数据集,实现包括基于BiLSTM-CRF模型进行的实体识别和基于Transformer模型进行的关系抽取;
S3:分类整理提取的数据内容,设计知识图谱概念层,数据库建模,包括统一的实体、关系类别以及对应的字段名称,将多源异构数据融合在同一个知识图谱中;
S4:选取四种KGE模型TransE、TransH、TransR、TransD对(头实体,关系,尾实体)类型的三元组数据进行嵌入Embedding,应用于实体相似度计算以及关系预测;
S5:设计问题模板,搭建问答系统,查询整合结果。
2.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S1中,
数据源是未三元组化的知识,包括食品类、农产品类、国家标准类、食品营养值类、食品添加剂类、农药类、兽药类、污染物类、疾病与症状类;
食品类的实体属性包括食品名称和食品分类;
农产品类的实体属性包括农产品名称和农产品分类;
国家标准类的实体属性包括标准名称和标准内容;
食品营养值类的实体属性包括营养名称和营养值;
食品添加剂类的实体属性包括添加剂名称和添加剂值;
农药类的实体属性包括农药名称、农药分类、农药限量值;
兽药类的实体属性包括兽药名称、兽药分类、兽药限量值;
污染物类的实体属性包括污染物名称和污染物限量值;
疾病与症状类的实体属性包括疾病名称、症状名称、疾病就诊科室、治疗药物。
3.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:通过BiLSTM-CRF模型进行实体识别,结合经典模型条件随机场CRF与双向长短期记忆网络BiLSTM,通过命名实体识别NER提取文本中的包括专有名词和量词的事实信息;
S22:通过Transformer模型进行关系抽取RE,从文本中抽取实体与实体之间或者实体与属性之间的语义关系;对输入的句子和实体计算既定的每种关系对于该实体在句子中的可能性,取最高的可能性作为目标关系;
S23:将所有数据转换成RDF三元组形式的知识并保存为.csv格式。
4.根据权利要求3所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S22中,
Transformer模型采用多层注意力机制,包括Encoder内部和Decoder内部的多头自注意力模块,以及encoder和decoder之间的多头注意力模块;
Encoder和Decoder分别包括自注意力机制,Decoder在自注意力机制的基础上加入Encoder的反馈信息形成多头自注意力机制;
Transformer模型用于使输入的句子和实体经过嵌入层转换成对应向量,依次经过Encoder、Decoder、分类器得到实体关系。
5.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:采用嵌入Embedding后的相似的向量对应的实体判断相似实体,将不同名称映射到同一实体上,解决同物异名的问题;
S32:在图数据库中为同名实体设置分类标签,解决同名异物的问题。
6.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S3后,还包括以下步骤:通过图数据库存储方法存储基于RDF三元组的数据内容用于信息检索和查询;
存储的RDF三元组包括(农产品,包含,农产品)、(食品,包含,食品)、(农药,包含,杀虫剂、杀菌剂、增效剂等)、(食品,含有,营养值、农药、添加剂等)、(农产品,含有,营养值、农药、添加剂等)、(食品、农产品,参考标准,国家标准)、(国家标准,检测项目,食品、农产品)、(国家标准,引用,国家标准)、(食品,限量,农药、添加剂、污染物、兽药)、(农产品,限量,农药、添加剂、污染物、兽药)、(食品,营养值,营养物质)、(疾病,症状,症状)、(食品,原料,食品、农产品)、(农产品,原料,食品、农产品)、(农药、添加剂等,导致,症状)、(疾病,治疗药物,药物)、(疾病,治疗方式,治疗方法)、(疾病,所属科室,科室)、(疾病,疾病检查项,医疗检查项目);
包含关系的关系内容为父子类关系,
含有关系的关系内容为各种含有量或参考限量,
参考标准关系的关系内容为参考标准和参考内容,
检测项目关系的关系内容为某国标的检测项目,
引用关系的关系内容为某国标引用某国标,
限量关系的关系内容为具体限量值,
营养值关系的关系内容为具体营养值,
症状关系的关系内容为某疾病的症状,
原料关系的关系内容为某食品、农产品的原料,
导致关系的关系内容为某物质超标引发的症状,
治疗药物关系的关系内容为某疾病的治疗药物,
治疗方式关系的关系内容为某疾病的治疗方式,
所属科室关系的关系内容为某基本所属科室,
疾病检查项关系的关系内容为某疾病的医疗检查项目。
7.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S4中,具体步骤为:
S41:设知识图谱为G=(E,R,T),其中所有实体的集合为E={e1,e2,...e|E|},实体的个数为|E|;所有关系的集合为R={r1,r2,...r|R|},关系的个数为|R|;三元组集合Triplet为T=E×R×E;单个三元组为(h,r,t),其中三元组的头实体head为h,尾实体tail为t,头实体和尾实体的关系为r;嵌入Embedding后的头实体向量为vh、关系向量为vr、尾实体向量为vt;vh
Figure FDA0003187054100000031
设正样本数据集合为:
P={(h,r,t)},
负样本数据集合为:
N={(h′,r,t)|h′≠h∧(h,r,t)∈P}∪{(h,r,t′)|t′≠t∧(h,r,t)∈P};TransE模型将三元组(h,r,t)的r看作h到t的平移,通过TransE模型得到关系:
vh+vr≈vt
设TransE模型的损失函数为:
Figure FDA0003187054100000041
vh+vr与vt的L1或L2距离表示头实体+关系到尾实体的距离,距离越近越好;
向TransE模型添加负样本数据后的得分函数为:
Figure FDA0003187054100000042
其中:
Figure FDA0003187054100000043
TransH模型将vh和vt投影在关系vr的超平面上,使投影后的向量满足TransE模型的假设:
对于三元组(h,r,t),定义wr为关系r所在超平面的与vr正交的法向量,把vh和vt投影在r所在的超平面得到
Figure FDA0003187054100000044
Figure FDA0003187054100000045
则:
Figure FDA0003187054100000046
Figure FDA0003187054100000047
TransH的损失函数为:
Figure FDA0003187054100000048
TransH的得分函数与TransE一致,为:
Figure FDA0003187054100000049
TransR模型分别给实体和关系创建不同的语义空间,将实体翻译到关系所在的语义空间再计算得分;
对三元组(h,r,t)的每一个关系创建翻译矩阵
Figure FDA0003187054100000051
通过翻译矩阵Mr将vh和vt分别翻译在关系语义空间得到
Figure FDA0003187054100000052
Figure FDA0003187054100000053
Figure FDA0003187054100000054
Figure FDA0003187054100000055
TransR模型的损失函数、得分函数均与TransH模型一致;
TransD模型中设置翻译矩阵Mhr和Mtr分别用于将头实体h和尾实体t翻译至关系语义空间;设参数向量
Figure FDA0003187054100000056
下标P表示该向量为参数向量;其中实体向量
Figure FDA0003187054100000057
关系向量
Figure FDA0003187054100000058
翻译矩阵Mhr
Figure FDA0003187054100000059
则:
Figure FDA00031870541000000510
Figure FDA00031870541000000511
将头实体和尾实体翻译后的向量记为
Figure FDA00031870541000000512
Figure FDA00031870541000000513
则:
Figure FDA00031870541000000514
Figure FDA00031870541000000515
TransD模型的损失函数和得分函数均与TransR模型相同;
S42:基于TransR模型进行两两实体间的关系预测,在实验中采用预测关系的前两位作为结果计算准确度;
S43:基于TransR模型进行相似实体预测,使用嵌入Embedding后的向量相似度预测实体相似度;采用被判断为相似的两个实体之间的公共路径条数作为判断相似实体预测结果的好坏指标。
8.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S5中,搭建问答系统的具体步骤为:
S51:设变量x和cla为问题参数,根据收集到的数据类型设计问题模板包括:查询名叫x的食品含有哪些营养;
查询名叫x的食品有什么食品添加剂;
某查询名叫x的食品相关的国家标准;
查询名叫x的国家标准中的抽检项目;
查询name为x的节点;
查询lable为x的节点;
查询名叫x的食品、农产品中名叫cla的物质的最大残留量;
查询名叫x节点的类别;
查询名叫x的物质超量可能导致的症状和疾病;
查询名叫x的疾病属于什么科室;
查询名叫x的疾病的治疗药物;
查询名叫x的疾病的治疗方法;
查询名叫x的疾病的症状;
查询名叫x的疾病的医疗检查项目;
S52:采用Jieba工具和自定义词典进行词性标注,提取问题参数;
S53:对每个问题模板编写问题集,采用Tfidf经典文本分类算法匹配问题模板;
S54:通过Py2neo工具封装Cypher语句进行数据查询,通过Python后台整合结果并返回。
9.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法,其特征在于:所述的步骤S5中,还包括搭建Web端应用,具体步骤为:
使用Python Flask框架搭建Web系统,采用Neovis实现图数据可视化部分,采用Bootstrap美化前端框架;采用Ajax完成前后端信息交互;实现包括实体识别、关系抽取、智能问答、固定类型查询、路径查询的功能。
10.一种基于深度学习的食品及健康知识图谱,其特征在于:包括数据层和模式层;数据层采用RDF三元组和图数据存储数据源;模式层采用本体库对实体构造规则和约束。
CN202110864488.2A 2021-07-29 2021-07-29 一种基于深度学习的食品及健康知识图谱构建方法 Pending CN113590837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864488.2A CN113590837A (zh) 2021-07-29 2021-07-29 一种基于深度学习的食品及健康知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864488.2A CN113590837A (zh) 2021-07-29 2021-07-29 一种基于深度学习的食品及健康知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN113590837A true CN113590837A (zh) 2021-11-02

Family

ID=78251853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864488.2A Pending CN113590837A (zh) 2021-07-29 2021-07-29 一种基于深度学习的食品及健康知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113590837A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114595459A (zh) * 2021-12-22 2022-06-07 中电信数智科技有限公司 基于深度学习的问题整改建议生成方法
CN114758749A (zh) * 2022-03-23 2022-07-15 清华大学 基于妊娠期的营养饮食管理图谱创建方法及装置
CN115600226A (zh) * 2022-10-13 2023-01-13 厦门智康力奇数字科技有限公司(Cn) 一种仓单质押数据加密方法
CN116108169A (zh) * 2022-12-12 2023-05-12 长三角信息智能创新研究院 一种基于知识图谱的热线工单智能分派方法
CN116541472A (zh) * 2023-03-22 2023-08-04 麦博(上海)健康科技有限公司 一种医疗领域知识图谱构建的方法
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质
CN116992959A (zh) * 2023-06-02 2023-11-03 广州数说故事信息科技有限公司 一种基于知识图谱的食品类产品创意概念生成验证方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326422A (zh) * 2016-08-24 2017-01-11 北京大学 一种基于知识本体的食品安全数据信息检索的方法及系统
CN110321460A (zh) * 2019-07-01 2019-10-11 成都数之联科技有限公司 一种食品安全关联图谱构建方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110909881A (zh) * 2019-11-01 2020-03-24 中电科大数据研究院有限公司 一种面向跨媒体知识推理任务的知识表示方法
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
US20200342954A1 (en) * 2019-04-24 2020-10-29 Accenture Global Solutions Limited Polypharmacy Side Effect Prediction With Relational Representation Learning
CN113010693A (zh) * 2021-04-09 2021-06-22 大连民族大学 融合指针生成网络的知识图谱智能问答方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326422A (zh) * 2016-08-24 2017-01-11 北京大学 一种基于知识本体的食品安全数据信息检索的方法及系统
US20200342954A1 (en) * 2019-04-24 2020-10-29 Accenture Global Solutions Limited Polypharmacy Side Effect Prediction With Relational Representation Learning
CN110321460A (zh) * 2019-07-01 2019-10-11 成都数之联科技有限公司 一种食品安全关联图谱构建方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110909881A (zh) * 2019-11-01 2020-03-24 中电科大数据研究院有限公司 一种面向跨媒体知识推理任务的知识表示方法
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN113010693A (zh) * 2021-04-09 2021-06-22 大连民族大学 融合指针生成网络的知识图谱智能问答方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595459B (zh) * 2021-12-22 2022-08-16 中电信数智科技有限公司 基于深度学习的问题整改建议生成方法
CN114595459A (zh) * 2021-12-22 2022-06-07 中电信数智科技有限公司 基于深度学习的问题整改建议生成方法
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114758749A (zh) * 2022-03-23 2022-07-15 清华大学 基于妊娠期的营养饮食管理图谱创建方法及装置
CN114758749B (zh) * 2022-03-23 2023-08-25 清华大学 基于妊娠期的营养饮食管理图谱创建方法及装置
CN115600226A (zh) * 2022-10-13 2023-01-13 厦门智康力奇数字科技有限公司(Cn) 一种仓单质押数据加密方法
CN116108169A (zh) * 2022-12-12 2023-05-12 长三角信息智能创新研究院 一种基于知识图谱的热线工单智能分派方法
CN116108169B (zh) * 2022-12-12 2024-02-20 长三角信息智能创新研究院 一种基于知识图谱的热线工单智能分派方法
CN116541472A (zh) * 2023-03-22 2023-08-04 麦博(上海)健康科技有限公司 一种医疗领域知识图谱构建的方法
CN116992959A (zh) * 2023-06-02 2023-11-03 广州数说故事信息科技有限公司 一种基于知识图谱的食品类产品创意概念生成验证方法
CN116992959B (zh) * 2023-06-02 2024-03-15 广州数说故事信息科技有限公司 一种基于知识图谱的食品类产品创意概念生成验证方法
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113590837A (zh) 一种基于深度学习的食品及健康知识图谱构建方法
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
Pasca et al. High performance question/answering
CN110209787B (zh) 一种基于宠物知识图谱的智能问答方法及系统
CN105843897B (zh) 一种面向垂直领域的智能问答系统
CN112148851A (zh) 一种基于知识图谱的医药知识问答系统的构建方法
CN110032648A (zh) 一种基于医学领域实体的病历结构化解析方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN109766417A (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN114036281B (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN111858896B (zh) 一种基于深度学习的知识库问答方法
US9460076B1 (en) Method for unsupervised learning of grammatical parsers
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN111026884A (zh) 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN116719913A (zh) 一种基于改进命名实体识别的医疗问答系统及其构建方法
CN112100394A (zh) 一种用于推荐医疗专家的知识图谱构建方法
CN110781681A (zh) 一种基于翻译模型的初等数学应用题自动求解方法及系统
CN112256878A (zh) 一种基于深度卷积的水稻知识文本分类方法
CN112132420A (zh) 一种面向sql查询的细化评分方法
CN116010564A (zh) 一种基于多模态知识图谱的水稻病虫害问答系统的构建方法
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN113742469B (zh) 基于Pipeline处理和ES储存问答系统构建方法
CN114780740A (zh) 一种茶叶知识图谱的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination