CN107391906B - 基于神经网络和图谱结构的健康饮食知识网络构建方法 - Google Patents
基于神经网络和图谱结构的健康饮食知识网络构建方法 Download PDFInfo
- Publication number
- CN107391906B CN107391906B CN201710463725.8A CN201710463725A CN107391906B CN 107391906 B CN107391906 B CN 107391906B CN 201710463725 A CN201710463725 A CN 201710463725A CN 107391906 B CN107391906 B CN 107391906B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- query
- entity nodes
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 235000004280 healthy diet Nutrition 0.000 title claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 125
- 239000000463 material Substances 0.000 claims abstract description 108
- 201000010099 disease Diseases 0.000 claims abstract description 83
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 83
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000012512 characterization method Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 33
- 208000024891 symptom Diseases 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 21
- 230000008092 positive effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 239000003814 drug Substances 0.000 description 22
- 230000036541 health Effects 0.000 description 15
- 238000012423 maintenance Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000009411 base construction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 235000005911 diet Nutrition 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 208000019229 Spleen disease Diseases 0.000 description 2
- 208000031971 Yin Deficiency Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000378 dietary effect Effects 0.000 description 2
- 241000411851 herbal medicine Species 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 210000000952 spleen Anatomy 0.000 description 2
- 208000027140 splenic disease Diseases 0.000 description 2
- 208000018556 stomach disease Diseases 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000015872 dietary supplement Nutrition 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Coloring Foods And Improving Nutritive Qualities (AREA)
Abstract
本发明公开了一种基于神经网络和图谱结构的健康饮食知识网络构建方法,包括:对文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度;抽取食材和病症实体节点,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;将每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;设计基于深度神经网络的分类框架,输入表征矩阵,并对实体节点之间边关系的极性进行分类。本发明有效解决了传统健康饮食知识库自动化程度不高,领域限制明显等问题。
Description
技术领域
本发明涉及一种健康饮食知识网络构建方法,尤其是一种基于神经网络和图谱结构的健康饮食知识网络构建方法,属于知识表示及知识库搭建技术领域。
背景技术
随着人们生活水平的提升,越来越多的人开始关注自身的饮食健康问题。传统中医自古以来就讲究“药补不如食补”、“是药三分毒”,日常生活自然不能经常食用药物,合理健康的饮食及搭配是保持健康生活的好方法。但是现代社会节奏快速、压力大,人们很难有时间专门咨询医生或是营养师,让人们在闲暇上网时就能获得精准有效的健康饮食指导是非常迫切的需求,为了达到这个目的,构建智能的健康饮食知识网络具有极大的意义。
知识库是人工智能和数据库结合的产物,其中所存储的是高结构化的数据,以方便用户进行深层次的知识挖掘,实现由原始文本到抽象知识点的快速检索、推理以及预测[谷建军.基于叙词表的中医古籍文献领域本体建模方法研究.中国中医科学院,2006.]。
在国际上,美国、欧洲的一些研究机构和人工智能公司已经利用图谱式的结构对关联知识进行了有效的组织和挖掘,利用图谱化知识的存储方式,极大地丰富了知识的表现形式,结合最新的深度神经网络技术,使得搜索以及各种预测的效果和体验提升到了一个新的高度。
上述结合神经网络以及知识图谱的知识组织和挖掘方法同样被国外研究机构很成功地应用于医疗健康领域,其中,具有代表的工作是Google对病患电子病历进行基于深度神经网络的表示学习构建知识网络,从而达到预测病患身体状况并给出健康指导的目的[Deep Patient:An Unsupervised Representation to Predict the Future ofPatients from the Electronic Health Records.Scientific Reports,2016,6:1-10]。但是,由于语言以及文化,特别是医学文化的差异,这些已有的成果还无法在面对中文的中医养身及健康饮食指导文献时得到很好的使用。
因此,研发适合对中文的中医养身、健康饮食文献自动抽取、挖掘并给予有效组织存储,兼备智能预测、高度自动化和方便查询的健康饮食知识网络称为亟待实施的工作。
在过去的研究成果中,国内已经有一些以中医知识为主方便健康指导的知识库构建方法,如:王连新等[中药知识库设计浅析.世界中医药,2011,6(6):535-537.]提出了基于关系型数据库中医药材知识库的构建方案;车立娟等[基于“肺阴虚证”本体的中医证候知识库构建方法研究.上海中医药大学学报,2009,23(4):18-20.]基于本体构建工具Prot构建了着重表述“肺阴虚证”病理机制的本体知识库;李新霞[基于本体的中医学脾胃病知识库的构建.南京:南京理工大学硕士学位论文,2008:63.]使用语义网络处理工具Jena进行了专攻于中医脾胃病领域的知识库构建;王海舜等[一种基于产生式规则的保健知识库架构设计.医学信息,2009,22(8):1391-1394.]提出了基于产生式规则设计的保健知识库整体架构。
上述传统的健康饮食养生知识库构建方法尚需克服的问题:1)这些专注于中医经验和健康养生的知识库大多基于固定的本体,遵循严格的关联规则,构建及维护过程成本高,自动化程度较低,需要耗费大量的人力物力;2)正是因为第1点,导致此类知识库的可扩展性同样不高,故通常固定在某个特定的医学领域之内,使得此类知识库的应用范围不广,不能福及全部的病患用户;3)上述中医知识库的关注对象多集中于专业医学知识,基本单位大多为中医病症或是中草药材,而百姓日常的食材涉及较少,侧重点多在于临床药疗而非日常食疗养生。
发明内容
本发明的目的是为了提供一种基于神经网络和图谱结构的健康饮食知识网络构建方法,该方法基于图谱结构并利用深度神经网络算法对知识图谱内部的关联细节进行自动生成及调控,有效解决了传统健康饮食知识库自动化程度不高,领域限制明显等问题,大大降低了健康饮食知识库的构建及维护成本;同时,在兼顾中医药材的同时,更加着重于日常食材,实现了从文本数据中对病症、食材实体间关系的全自动链接和标注,并且无特定领域限制。
本发明的目的可以通过采取如下技术方案达到:
基于神经网络和图谱结构的健康饮食知识网络构建方法,所述方法包括:
对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;
使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度;
抽取食材和病症实体节点,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;
将每组的每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;
设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类。
进一步的,所述构建实体节点间的边关系包括:
对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
定义所有实体节点间的边关系类别,分别为不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系,其中不同食材之间的相容或相克关系和不同病症之间的关联关系称为领域内关联关系,食材与病症之间的利害关系称为跨领域关联关系;
利用词向量查询与该词向量余弦相似度最高的若干词汇,并从中过滤得到相同领域的其他实体节点,建立领域内关联关系;
利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系;
描述边关系,具体如下:
对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合;
对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合;
对于跨领域关联关系,基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合。
进一步的,所述对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量,具体为:
通过词向量工具对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,将文本语料的所有非停用词映射到一个固定维度的词向量空间中,如下:
设医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料的集合为S={T1,T2,…,Tm},每个文本则是一组词汇的集合ST={w1,w2,…,wsize(t)},建模完成后,词汇在映射空间中被表示为一个固定维度n的词向量,形式为:
进一步的,所述两个词向量之间的余弦相似度,计算公式如下式:
其中,ws,wt表示两个词向量,1≤s,t≤n。
进一步的,所述固定维度为150~200维度。
进一步的,所述利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系,具体包括:
第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,将正、负作用词对应的词向量进行加减,如下式:
其中,wi表示正作用词,wj表示负作用词;
查询中间过渡词的操作的函数表示如下式:
MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm})
通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
TAG=que(pos{w1,w2,…,wn}-NULL)
至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点。
进一步的,所述将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
进一步的,所述将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
进一步的,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
vector[q]=vector[wf]+vector[wd]
其中,wf,wd表示存在关联关系的食材节点和病症节点。
进一步的,所述设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类,具体包括:
设计基于深度神经网络的分类框架,该框架结构由卷积层、池化层、改进的循环层和激活层组成;
表征矩阵的输入数据经过卷积层进行滤波,获得重构的特征矩阵,卷积核k融入加权Wk和偏置项bk进行特征重构映射的函数为:
重构的特征矩阵经过最大池化层进行最大池化操作,再加入改进的循环层,最后通过激活层输出极性分类结果。
本发明相对于现有技术具有如下的有益效果:
1、本发明提出并实现了一个基于深度神经网络作为学习和预测技术,图谱数据库作为存储形式的健康饮食知识网络构建方法,为相关研究人员和健康推荐及指导应用开发人员提供了一种高效组织健康饮食知识的解决方案,应用范围广泛,所涉及的问题牵扯到民众健康,具有重要的研究意义。
2、本发明在传统中医健康知识库的构建方法基础上,进行了创新,引入了word2vec词嵌入模型、neo4j图谱型数据库、表征词和词向量的关系矩阵表示、基于组合神经网络的关系分类等新技术,有效解决了传统知识库建模方法自动化程度不高,领域限制明显,构建及维护成本高等缺点。并在中医药材实体的基础上加入对常见食材实体的考虑,使应用方向更加贴近用户的日常生活。
附图说明
图1为本发明实施例1的健康知识网络构建方法总流程图。
图2为本发明实施例1的领域内关联关系的检测及建立方法示意图。
图3为本发明实施例1的领域内关联关系的检测及建立方法示意图。
图4为本发明实施例1的健康饮食知识网络的表征矩阵示意图。
图5为本发明实施例1的基于深度神经网络的分类框架结构图。
图6为本发明实施例2的健康饮食知识网络构建方法整体架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
本实施例的健康饮食知识网络使用的数据库是NoSQL的图谱数据库Neo4J,相比于传统知识库所采用的关系型数据库,图谱数据库能够以更加丰富的形式存储实体及实体间的关系,同时提供更为便捷快速的查询方法。
如图1所示,本实施例提供了基于神经网络和图谱结构的健康知识网络构建方法,该方法包括以下步骤:
(一)对参与学习训练的全部文本语料进行词向量建模
本实施例的“词向量”是指2013年Google提出的基于神经网络词嵌入建模算法及其配套的建模工具word2vec,对已经分好词的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料输入词向量工具word2vec,对其进行词向量建模,建模的结果是:除了停用词以外,文本语料出现过的每个词均被统一映射到一个固定维度150~200的词向量空间中,即文本语料中每个非停用词都对应一个固定长度的词向量,如下:
设医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料的集合为S={T1,T2,…,Tm},每个文本则是一组词汇的集合ST={w1,w2,…,wsize(t)},建模完成后,词汇在映射空间中被表示为一个固定维度n的词向量,形式如下公式
包含图谱中食材及病症命名实体的全体词汇均被表示成这样的形式后,可以通过求解它们之间的余弦相似度(或者其他空间距离)来衡量两个实体之间的关联程度,两个词向量ws和wt的余弦相似度计算公式如下:
其中,1≤s,t≤n。
(二)抽取食材、病症节点并建立边关系
从医学百科以及食材百科中收集食材及病症词汇作为种子词典,维护此这两部分词库分别形成食材实体节点集合以及病症实体节点集合,另外,以这些种子词汇进行训练,采用常见的NER(命名实体识别)技术,可以获得更多的食材或者病症实体节点,但也会损失一定的精度。获得健康饮食知识网络中的食材和病症节点后,接下来需要建立食材与食材自身、食材到病症以及病症自身之间的边关系,构建实体节点之间的边关系分为两个阶段:
1)对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
首先定义所有实体间的边关系类别,共有三类,分别是不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系。
由于第一种和第三种关系都是同领域实体自身之间的关系,故又将这两种关系称为领域内关联关系,而第二种关系也被称为跨领域关联关系。
如图2所示,领域内关联关系(第一种关系和第三种关系)的建立方法为:对于每个实体节点wi,获得其映射得到的词向量在该步骤建立的涵盖全部词汇的词嵌入空间中,借助余弦相似度查询与其最接近的topN个词汇,并从中过滤得到相同领域的其他节点,以此确定查询节点与结果当中得到的其他实体节点之间存在领域内关系,这些实体之间在词嵌入空间上相似度高说明其存在一定的共现关系并且在文本中的出现情形会较为相似,该方法对与食材实体领域内关系构建和病症实体领域内关系构建均适用。
如图3所示,跨领域关联关系建立方法(第二种关系)的建立方法为:与领域内关联关系相比,建立方式稍微复杂一些,由于直接按照上述查询方法查询某个食材实体的topN相关词汇时,大多数会是其他的食材实体或是该食材的烹饪、口味等属性描述词汇,很少出现跨越领域的病症实体,这样就会导致食材实体与病症实体之间的关系匮乏,无法正常地完成健康饮食知识网络的构建。于是,从食材实体向病症实体的查询过程中,需要加入中间过渡词,具体的方法设计如下:
在word2vec算法提出的原始文献中可以知道,映射算法将语料中出现的各个词汇表示为纯粹的向量形式,所以可以像正常的向量一样进行加减;利用这个性质,首先,将查询食材实体wf输入词向量空间进行初次查询,从结果中过滤出食材实体集合和其他词汇集合E={w1',w2',…,wn'};第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,正负作用词就是将对应的词向量进行加减,如下式:
其中,wi表示正作用词,wj表示负作用词;
查询中间过渡词的操作的函数表示如下式:
MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm}) (4)
通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
TAG=que(pos{w1,w2,…,wn}-NULL) (6)
至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点,确定原始的查询食材实体节点到这些病症实体节点间存在关联边,在查询过渡词的步骤中设置反向作用查询词是为了让查询结果更专注于查询食材实体本身而过滤其他食材实体的噪音。
2)描述边关系
已知健康饮食知识网络中的食材和病症节点,以及它们之间存在的边关系,对这些边关系进行描述同样基于词向量空间的查询。
对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点和同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数如下式:
对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点和同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
对于跨领域关联关系,与领域内边关系的描述方法基本相同,只需在过滤结果时剔除两边领域的其他实体词,即基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合,设有存在关联关系的食材实体节点wf和病症实体节点wd,查询向量计算及查询函数,如下式:
vector[q]=vector[wf]+vector[wd] (11)
经过这一阶段后,形成图谱结构,使健康饮食知识网络中的实体节点之间的边关系都被一组表征词所描述。
(三)实体边关系的标记预测
由于食材实体之间的领域内关系和食材实体到病症实体的跨领域关系均存在搭配或相克以及利或害的极性区分,故需要对这些边关系的极性标记进行分类预测。如图4所示,健康饮食知识网络中的实体关系均被一组表征词表示,将每个表征词对应的向量表示排列后将得到该实体关系的表征矩阵,但是由于表征词数量不统一(表征词集最大尺寸可固定),不能作为神经网络算法的批量输入数据,故设置输入矩阵的固定长度为表征词集的最大长度,如果表征词数量不足,则使用全零向量补全。
得到了输入数据的矩阵表示,容易将其送入神经网络分类算法进行训练,执行食材实体容克关系和食材到病症利害关系分类任务的基于深度神经网络的分类框架,该框架结构由卷积层N01、池化层N02、改进的循环层(LSTM)NO3和Sigmoid激活层NO4组成,序列化矩阵的输入数据首先经过卷积层N01进行滤波,获得重构的特征矩阵,卷积核k融入加权Wk和偏置项bk进行特征重构映射的函数为:
再经过池化层N02进行最大池化(MaxPooling)操作,为了适应文本数据序列化的特点,加入改进的循环层N03,最后通过Sigmoid激活层N04输出分类结果。
病症实体之间的关联关系不存在极性区分,故不参加分类预测,将食材实体关系极性标签和食材到病症关系极性标签标注到健康饮食知识网络中。
实施例2:
本实施例是具体的应用实例,以中间件的形式供相关研究者和应用开发人员调用,由以下一些组件组成:1)图谱数据库维护组件P01,包含对图谱数据库的查询,节点及边的增删,安全备份等功能;2)词向量操作组件P02;3)关联检测及表示组件P03;4)神经网络关系分类组件P04;5)辅助功能组件P05,包含文本预处理、文本原始数据管理、阶段结果缓存管理等功能。发明所述的方法的整体架构如图6所示,各个组件的具体功能及使用技术如下表1所示。
表1各个组件的具体功能及使用技术表
本实施例的方法处理的文本数据包含但不限于:互联网健康饮食博客,各类食材、药材百科,各类病症百科,病患对自身病症状态的描述,中医健康饮食及食疗电子文献,中医病症诊疗及预防科学电子文献等。所述方法除了保存并管理这些原始文本数据D01外,还保存并维护食材实体种子词库D02a和病症实体种子词库D02b。
首先使用图谱数据库维护组件P01在部署服务器上建立空数据库G01,作为发明所述的知识网络。
扫描食材实体词库D02a和病症实体词库D02b并保证其每个元素在原始文本数据库均有出现,剔除未出现的词汇,之后使用图谱数据库维护组件P01在所述知识网络G01中建立对应的实体节点,并标注对应的实体类别(食材或病症)。
使用辅助功能组件P05读出原始文本数据并进行文本预处理。将原始文本数据D01逐行输入,使用词向量操作组件P02进行词向量建模,并在部署服务器磁盘上存储词向量模型,后缀名为“.vector”,Gensim工具会自动生成另外两个“.npy”缓存文件,务必保证其和“.vector”文件处在同一目录下。
扫描食材实体节点,使用关联检测及表示组件P03查询各个食材实体在词向量空间中的高关联度词汇,从中过滤得到与查询食材实体相关的其他食材实体,利用同样的方法检测每个病症实体节点到其他病症实体的关联关系。领域内实体关系的检测及构建方法示意图如图3所示。再次扫描食材实体节点,使用关联检测及表示组件P03,查询各个食材实体在词向量空间中的高关联度词汇,从中过滤得到非食材实体词汇和食材实体词汇,将前者和原查询词作为正相关查询项,后者作为负相关查询项,再次进行查询,得到中间过渡词汇,将原查询词和过渡词汇作为正查询项再次进行查询,从这次查询结果中过滤得到与原查询食材实体相关的病症实体,使用图数据维护组件P01于存在关联关系的实体间建立有向边。
使用关联检测及表示组件P03查询并表示出每条关联边的表征词汇,在查询时设置表征词集的最大尺寸,再使用图数据维护组件P01将实体关系表征词以规则字符串的形式写入对应边的属性中。
使用图数据维护组件P01将食材到病症,食材到食材的关联边分别取出,获得其表征词,使用词向量操作组件P02查询得到各个表征词的向量表示,形成关联边的矩阵表示。使用神经网络关系分类组件P05进行关系极性分类预测,这里可以将训练的神经网络分类器持久化存储到部署服务器上并再次载入,以实现增量训练和离线评测。使用图数据维护组件P01将关系极性分类预测的结果标签写入图谱数据库中的边属性中(0表示正极,1表示负极),健康饮食知识网络就此构建完成,部分实体关系及其表征词的示例如下表2所示。
表2部分实体关系及其表征词的示例
使用人员可以根据需要,依据图中的网络结构直接进行基于边关系的查询,或者依据边关系上的极性标记进行正/负指向查询,或者依据边关系上的表征词结合当前查询的输入文本进行更为深层的语义查询。
本实施例中,健康饮食知识网络规模取决于食材和病症实体词库的大小和参与训练学习的语料集大小。可选利用第三方工具在原始文本语料集中进行食材和病症的命名实体识别以扩展食材和病症实体词库,健康饮食知识网络构建方法中不包含此功能组件。
综上所述,本发明提出并实现了一个基于深度神经网络作为学习和预测技术,图谱数据库作为存储形式的健康饮食知识网络构建方法,为相关研究人员和健康推荐及指导应用开发人员提供了一种高效组织健康饮食知识的解决方案,应用范围广泛,所涉及的问题牵扯到民众健康,具有重要的研究意义。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (8)
1.基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述方法包括:
对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;
使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度;
抽取食材和病症实体节点,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;
将每组的每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;
设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类;
所述构建实体节点之间的边关系包括:
对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
定义所有实体节点间的边关系类别,分别为不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系,其中不同食材之间的相容或相克关系和不同病症之间的关联关系称为领域内关联关系,食材与病症之间的利害关系称为跨领域关联关系;
利用词向量查询与该词向量余弦相似度最高的若干词汇,并从中过滤得到相同领域的其他实体节点,建立领域内关联关系;
利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系;
描述边关系,具体如下:
对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合;
对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合;
对于跨领域关联关系,基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合;
所述利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系,具体包括:
第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,将正、负作用词对应的词向量进行加减,如下式:
其中,wi表示正作用词,wj表示负作用词;
查询中间过渡词的操作的函数表示如下式:
MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm})
通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
TAG=que(pos{w1,w2,…,wn}-NULL)
至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点。
2.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量,具体为:
通过词向量工具对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,将文本语料的所有非停用词映射到一个固定维度的词向量空间中,如下:
4.根据权利要求2所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述固定维度为150~200维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463725.8A CN107391906B (zh) | 2017-06-19 | 2017-06-19 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463725.8A CN107391906B (zh) | 2017-06-19 | 2017-06-19 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391906A CN107391906A (zh) | 2017-11-24 |
CN107391906B true CN107391906B (zh) | 2020-04-28 |
Family
ID=60332415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710463725.8A Expired - Fee Related CN107391906B (zh) | 2017-06-19 | 2017-06-19 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391906B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509479B (zh) * | 2017-12-13 | 2022-02-11 | 深圳市腾讯计算机系统有限公司 | 实体推荐方法及装置、终端及可读存储介质 |
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN108389614B (zh) * | 2018-03-02 | 2021-01-19 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN108510110A (zh) * | 2018-03-13 | 2018-09-07 | 浙江禹控科技有限公司 | 一种基于知识图谱的水位趋势分析方法 |
CN110310721B (zh) * | 2018-03-27 | 2023-05-02 | 九阳股份有限公司 | 一种基于知识图谱构建食谱推荐策略的方法及装置 |
CN109145119A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 健康管理领域的知识图谱构建装置及构建方法 |
CN109448817A (zh) * | 2018-09-28 | 2019-03-08 | 小伍健康科技(上海)有限责任公司 | 一种基于深度神经网络的食谱推荐方法及设备 |
CN109214719B (zh) * | 2018-11-02 | 2021-07-13 | 广东电网有限责任公司 | 一种基于人工智能的营销稽查分析的系统和方法 |
US11205050B2 (en) * | 2018-11-02 | 2021-12-21 | Oracle International Corporation | Learning property graph representations edge-by-edge |
CN109658996B (zh) * | 2018-11-26 | 2020-08-18 | 浙江大学山东工业技术研究院 | 一种基于边信息的体检数据补全方法、装置及应用 |
CN109597856B (zh) * | 2018-12-05 | 2020-12-25 | 北京知道创宇信息技术股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
CN109635125B (zh) * | 2018-12-20 | 2021-01-26 | 广东小天才科技有限公司 | 一种词汇图谱搭建方法及电子设备 |
CN111488460B (zh) * | 2019-04-30 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN110188147B (zh) * | 2019-05-22 | 2022-06-07 | 厦门无常师教育科技有限公司 | 基于知识图谱的文献实体关系发现方法及系统 |
CN110287306B (zh) * | 2019-06-26 | 2021-07-13 | 珠海格力电器股份有限公司 | 一种食谱推荐方法及设备 |
CN110659420B (zh) * | 2019-09-25 | 2022-05-20 | 广州西思数字科技有限公司 | 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法 |
CN111383731B (zh) * | 2020-03-06 | 2023-04-18 | 宁波方太厨具有限公司 | 药膳推荐方法、系统、电子设备及存储介质 |
CN111488467B (zh) * | 2020-04-30 | 2022-04-05 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN111724876B (zh) * | 2020-07-21 | 2023-03-24 | 四川大学华西医院 | 一种用药交代与指导系统及方法 |
CN113486186A (zh) * | 2020-08-27 | 2021-10-08 | 青岛海信电子产业控股股份有限公司 | 一种健康饮食知识图谱构建、食材推荐方法 |
CN112580716B (zh) * | 2020-12-16 | 2023-07-11 | 北京百度网讯科技有限公司 | 图谱中边类型的识别方法、装置、设备及存储介质 |
CN113076411B (zh) * | 2021-04-26 | 2022-06-03 | 同济大学 | 一种基于知识图谱的医疗查询扩展方法 |
CN113220866B (zh) * | 2021-04-28 | 2023-01-06 | 西安电子科技大学 | 基于用户社交网络和产品相似度的推荐方法 |
CN113837554B (zh) * | 2021-08-30 | 2023-07-21 | 中华人民共和国青岛海关 | 基于多模态关键信息匹配的食品安全风险识别方法及系统 |
CN114676746B (zh) * | 2022-02-18 | 2024-08-06 | 上海交通大学 | 一种自然灾害下电力设备故障概率预测方法及系统 |
CN115186674B (zh) * | 2022-06-20 | 2024-07-12 | 成都飞机工业(集团)有限责任公司 | 一种航空失效案例管理方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10074041B2 (en) * | 2015-04-17 | 2018-09-11 | Nec Corporation | Fine-grained image classification by exploring bipartite-graph labels |
CN106844738B (zh) * | 2017-02-14 | 2019-07-16 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
-
2017
- 2017-06-19 CN CN201710463725.8A patent/CN107391906B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107391906A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391906B (zh) | 基于神经网络和图谱结构的健康饮食知识网络构建方法 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
Zhang et al. | Chinese medical question answer selection via hybrid models based on CNN and GRU | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN113707297A (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
CN108062978B (zh) | 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法 | |
Shah et al. | Neural networks for mining the associations between diseases and symptoms in clinical notes | |
CN112232065A (zh) | 挖掘同义词的方法及装置 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
Stanescu et al. | Creating new medical ontologies for image annotation: a case study | |
CN113409907A (zh) | 一种基于互联网医院的智能预问诊方法及系统 | |
CN116227594A (zh) | 面向多源数据的医疗行业高可信度知识图谱的构建方法 | |
Liu et al. | Knowledge-aware deep dual networks for text-based mortality prediction | |
CN113380360A (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Ding et al. | Diagnosing crop diseases based on domain-adaptive pre-training BERT of electronic medical records | |
Shen et al. | Detecting adverse drug reactions from social media based on multi-channel convolutional neural networks | |
Feng et al. | A Chinese question answering system in medical domain | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
Saranya et al. | Intelligent medical data storage system using machine learning approach | |
Fan et al. | A data-driven analysis of global research trends in medical image: A survey | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
CN112349367B (zh) | 一种生成仿真病历的方法、装置、电子设备及存储介质 | |
Zeng et al. | Exploring the topic evolution of Dunhuang murals through image classification | |
CN116110594B (zh) | 基于关联文献的医学知识图谱的知识评价方法及系统 | |
CN103440261A (zh) | 基于内容和结构的生物医疗流程图检索的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200428 Termination date: 20200619 |