CN111883228B

CN111883228B - 基于知识图谱的健康信息推荐方法、装置、设备及介质

Info

Publication number: CN111883228B
Application number: CN202010737217.6A
Authority: CN
Inventors: 左磊; 赵惟; 徐卓扬; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-07-07
Anticipated expiration: 2040-07-28
Also published as: CN111883228A; WO2021135429A1

Abstract

本发明涉及人工智能技术领域，应用于智慧医疗中，揭露了一种基于知识图谱的健康信息推荐方法、装置、设备及介质。该方法通过将获取目标对象的目标特征信息输入至预设的健康特征相似度模型中，得到与目标特征信息对应的健康分类标签；自基于知识图谱构建的预设的健康推荐数据库中，获取具有与健康分类标签相同的样本分类标签的所有样本三元组；自获取的所有样本三元组中提取样本健康信息以及与样本健康信息关联的推荐值，根据推荐值向目标对象推送与其关联的样本健康信息。本申请根据基于知识图谱构建的健康推荐数据库中的样本三元组，给目标对象推荐与其匹配的样本健康信息，提高该样本健康信息推荐的准确率，通过本申请能够推动智慧城市的建设。

Description

基于知识图谱的健康信息推荐方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识图谱的健康信息推荐方法、装置、设备及介质。

背景技术

随着社会与经济的发展，人们对健康的意识越来越强烈，不管是健康人群还是亚健康人群，甚至患者，都可以从运动和饮食方面对自身身体状况进行调节。目前，大部分人对自己运动和饮食的规划源于网络上广为流传的方法，盲目地模仿别人的运动计划和饮食安排反而可能会造成不良后果。比如，对于糖尿病患者来说，需要控制碳水化合物摄入，以免使血糖升高，还需要适当运动；但是，在缺乏专业医生的指导下，患者对于碳水化合物的摄入量和运动量的适当的判断准确度低，其实用性也层次不齐，很难实现自我调节血糖水平；在盲目使用错误调节方式的状况下，甚至会导致病情加重。

发明内容

本发明实施例提供一种基于知识图谱的健康信息推荐方法、装置、设备及介质，以解决关于饮食和运动等健康信息的判断的实用性低以及准确率较低的问题。

一种基于知识图谱的健康信息推荐方法，包括：

获取目标对象的目标特征信息；所述目标对象为请求推送健康信息的用户；所述目标特征信息指的是目标对象的个体特征信息；

将所述目标特征信息输入至预设的健康特征相似度模型中，得到与所述目标特征信息对应的健康分类标签；

自基于知识图谱构建的预设的健康推荐数据库中，获取具有与所述健康分类标签相同的样本分类标签的所有样本三元组；所述样本三元组是由样本分类标签、样本健康信息以及与样本健康信息和样本分类标签均关联的推荐值关联构成；

自获取的所有所述三元组中提取样本健康信息以及与所述样本健康信息关联的推荐值，根据所述推荐值向所述目标对象的移动终端推送与其关联的所述样本健康信息。

一种基于知识图谱的健康信息推荐装置，包括：

特征信息获取模块，用于获取目标对象的目标特征信息；所述目标对象为请求推送健康信息的用户；所述目标特征信息指的是目标对象的个体特征信息；

分类标签确定模块，用于将所述目标特征信息输入至预设的健康特征相似度模型中，得到与所述目标特征信息对应的健康分类标签；

样本三元组获取模块，用于自基于知识图谱构建的预设的健康推荐数据库中，获取具有与所述健康分类标签相同的样本分类标签的所有样本三元组；所述样本三元组是由样本分类标签、样本健康信息以及与样本健康信息和样本分类标签均关联的推荐值关联构成；

健康信息推荐模块，用于自获取的所有所述三元组中提取样本健康信息以及与所述样本健康信息关联的推荐值，根据所述推荐值向所述目标对象的移动终端推送与其关联的所述样本健康信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于知识图谱的健康信息推荐方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于知识图谱的健康信息推荐方法。

上述基于知识图谱的健康信息推荐方法、装置、设备及介质，通过将获取目标对象的目标特征信息输入至预设的健康特征相似度模型中，得到与目标特征信息对应的健康分类标签；自基于知识图谱构建的预设的健康推荐数据库中，获取具有与健康分类标签相同的样本分类标签的所有样本三元组；自获取的所有样本三元组中提取样本健康信息以及与样本健康信息关联的推荐值，根据推荐值向目标对象推送与其关联的样本健康信息。本申请根据基于知识图谱构建的健康推荐数据库中的样本三元组，给目标对象推荐与其匹配的样本健康信息，提高该样本健康信息推荐的准确率；同时根据推荐值与用户推荐需求来确定推送样本健康信息，可以为用户提供更多选择方案，且这些方案均有相应的推荐值，从而在有保障的情况下，提高用户的可选性。本申请属于智慧医疗领域，且涉及与健康管理相关的数字医疗，通过本申请能够推动智慧城市的建设。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于知识图谱的健康信息推荐方法的一应用环境示意图；

图2是本发明一实施例中基于知识图谱的健康信息推荐方法的一流程图；

图3是本发明一实施例中基于知识图谱的健康信息推荐方法的另一流程图；

图4是本发明一实施例中基于知识图谱的健康信息推荐方法中步骤S24的一流程图；

图5是本发明一实施例中基于知识图谱的健康信息推荐方法中步骤S24的另一流程图；

图6是本发明一实施例中基于知识图谱的健康信息推荐装置的一原理框图；

图7是本发明一实施例中基于知识图谱的健康信息推荐装置的另一原理框图；

图8是本发明一实施例中基于知识图谱的健康信息推荐装置中数据库构建模块的一原理框图；

图9是本发明一实施例中基于知识图谱的健康信息推荐装置中数据库构建模块的另一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于知识图谱的健康信息推荐方法，该基于知识图谱的健康信息推荐方法可应用如图1所示的应用环境中。具体地，该基于知识图谱的健康信息推荐方法应用在基于知识图谱的健康信息推荐系统中，该基于知识图谱的健康信息推荐系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决关于饮食和运动等健康信息的判断的实用性低以及准确率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于知识图谱的健康信息推荐方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取目标对象的目标特征信息。所述目标对象为请求推送健康信息的用户；所述目标特征信息指的是目标对象的个体特征信息。

其中，本发明提供的基于知识图谱的健康信息推荐方法可以应用于一些应用程序中，则此时的目标对象可以为请求推送健康信息的用户。目标特征信息指的是目标对象的个体特征信息，示例性地，目标对象的年龄、身高或者体重等。

S12：将目标特征信息输入至预设的健康特征相似度模型中，得到与目标特征信息对应的健康分类标签。

其中，预设的健康特征相似度模型用于确定与目标特征信息对应的健康分类标签，预设的健康特征相似度模型中包括多组与健康信息关联的分类标签，该分类标签表征与其对应的对象的特征信息，根据目标特征信息确定在健康特征相似度模型中与其相似的特征信息，进而确定健康分类标签。健康分类标签指的是与目标特征信息对应的分类标签，该健康分类标签表征了目标对象的目标特征信息，示例性地，健康分类标签可以为BMI(Body Mass Index，体质指数)指数，也即根据目标特征信息中的身高以及体重生成的标签，可以将不同BMI指数进行分类以得到与BMI指数对应的分类标签；健康分类标签还可以根据不同年龄层进行划分，如30-40岁为一个分类标签，40-50岁为一个分类标签；进一步地，健康分类标签可以由上述多组分类标签共同组合得到，也即健康分类标签可以为：年龄在40-50岁范围内且BMI指数在19-21之间。

具体地，在获取目标对象的目标特征信息之后，将该目标特征信息输入至预设的健康特征相似度模型中，根据目标特征信息，确定该目标特征信息对应的分类标签，也即健康分类标签。

S13：自基于知识图谱构建的预设的健康推荐数据库中，获取具有与健康分类标签相同的样本分类标签的所有样本三元组。所述样本三元组是由样本分类标签、样本健康信息以及与样本健康信息和样本分类标签均关联的推荐值关联构成。

其中，预设的健康推荐数据库中存储多组样本三元组，该样本三元组中包含样本分类标签以及与其对应的样本健康信息，也即预设的健康推荐数据库用于给具有相同标签的用户提供样本健康信息的数据库。样本分类标签与健康分类标签均是对数据进行分类标识，该样本分类标签是根据预设的样本对象的样本特征信息生成的，样本分类标签中可能包含与健康分类标签相同的标签。样本三元组指的是由样本分类标签、样本健康信息以及与样本健康信息和样本分类标签均关联的推荐值(也即衡量将样本健康信息推荐给具有对应的样本分类标签的对象的优先程度的数据)构成的，示例性地，假设样本分类标签为45-50岁，样本健康信息为清淡饮食+低强度运动，推荐值为85，则该三元组则为(45-50，清淡饮食+低强度运动，85)。

具体地，在将目标特征信息输入至预设的健康特征相似度模型中，得到与目标特征信息对应的健康分类标签之后，从基于知识图谱构建的预设的健康推荐数据库的所有样本分类标签中，匹配出具有与健康分类标签相同的样本分类标签，进而获取与该样本分类标签的所有样本三元组。其中，由于与样本分类标签对应的样本健康信息存在多组，且每一对应的样本健康信息关联的推荐值也可能不同，故每一样本分类标签存在多组不同的样本三元组。

S14：自获取的所有样本三元组中提取样本健康信息以及与样本健康信息关联的推荐值，根据推荐值向目标对象推送与其关联的样本健康信息。

其中，样本健康信息为向目标对象推荐的健康信息，该样本健康信息中可以包括但不限于关于健康运动以及关于健康饮食的信息。推荐值为衡量将样本健康信息推荐给具有对应的样本分类标签的对象的优先程度的数据。

具体地，在自基于知识图谱构建的预设的健康推荐数据库中，获取具有与健康分类标签相同的样本分类标签的所有样本三元组之后，从获取的所有样本三元组中提取样本健康信息以及与样本健康信息关联的推荐值；可以根据目标对象的推荐需求，确定需要推荐的样本健康信息的数量，进而可以根据推荐值从高到低，将与推荐需求对应数量的健康信息推荐给目标对象。示例性地，假设目标对象设置的推荐需求为2个样本健康信息，则在从所有样本三元组中提取样本健康信息以及与样本健康信息关联的推荐值后，从高到低选取两个推荐值对应的样本健康信息，并将这两个样本健康信息发送至目标对象的移动终端或者通过其它有效的发送方式推送给目标对象；进一步地，若根据从高到低的方法提取完毕之后，存在多组相同推荐值对应的样本健康信息时，则可以采取随机选取或其它方法，从这些相同推荐值对应的样本健康信息中提取，等同于目标对象设置的推荐需求中样本健康信息的数量。

在本实施例中，根据基于知识图谱构建的健康推荐数据库中的样本三元组，给目标对象推荐与其匹配的样本健康信息，提高该样本健康信息推荐的准确率；同时根据推荐值与用户推荐需求来确定推送样本健康信息，可以为用户提供更多选择方案，且这些方案均有相应的推荐值，从而在有保障的情况下，提高用户的可选性。

作为优选，为了保证上述实施例中预设的健康特征相似度模型以及预设的健康推荐数据库的私密以及安全性，可以将预设的健康特征相似度模型以及预设的健康推荐数据库存储在区块链中。其中，区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

在一实施例中，如图3所示，步骤S12之前，还包括如下步骤：

S21：获取日常样本数据集以及根据知识图谱构建的预设的知识数据库；日常样本数据集中包含至少一个样本健康信息以及与样本健康信息一一对应关联的样本对象的样本对象特征。

其中，日常样本数据集是通过收集大量样本对象的身体状况(也即样本对象特征，如年龄，身高，体重，体脂率，心率，疾病史，骨骼健康状态等)、真实运动情况(如运动类型、时间、强度及频率等)以及饮食情况(如三餐比例、膳食种类及膳食量等)等得到的。样本对象是通过随机调查选取的对象，该样本对象可以选择不同职业、年龄以及身体健康状态的人群，以令日常样本数据集中的数据范围更广，进而使得后续为其它对象提供的样本健康信息的范围更广。样本对象特征包括但不限于样本对象的年龄、体重或者身体健康状态等。预设的知识数据库指的是通过知识图谱框架，并根据从运动医学书籍、饮食书籍、文献、临床指南、专家共识等知识数据收集到的权威数据构建生成的数据库。

S22：根据预设的知识数据库，对日常样本数据集中的不合理信息进行清洗处理；所述不合理信息是指相互关联且不匹配的样本对象特征以及样本健康信息。

具体地，在获取日常样本数据集以及根据知识图谱构建的预设的知识数据库之后，根据预设的知识数据库中的数据，对日常样本数据集中的不合理信息进行清洗处理。示例性地，如根据预设的知识数据库，判断日常样本数据集中的运动类型对与其对应的样本对象特征来说是否合理、或者运动强度是否合理、亦或者饮食搭配是否均衡等。如果发现有不合理信息，将其从日常样本数据集中清洗删除。

S23：根据清洗处理之后的日常样本数据集中的样本对象特征生成样本分类标签，并将样本分类标签和与其对应的样本健康信息关联。

具体地，在根据预设的知识数据库，对日常样本数据集中的不合理信息进行清洗处理之后，根据清洗处理之后的日常样本数据集中的样本对象特征生成样本分类标签，并将样本分类标签和与其对应的样本健康信息关联。示例性地，可以根据样本对象特征生成多组不同的样本分类标签，如年龄40-50岁，50-60岁或者根据BMI指数分类，分为BMI正常、BMI偏低或者BMI偏高等样本分类标签，并将样本分类标签与对应的样本健康信息关联，也即每一样本分类标签至少一组对应的样本健康信息，以供其它服务器根据样本分类标签获取对应的样本健康信息并推荐给目标对象。

S24：根据样本分类标签、样本健康信息以及预设的推荐算法构建预设的健康推荐数据库。

其中，预设的推荐算法用于确定与样本分类标签关联的样本健康信息对应的推荐值的算法。

具体地，在根据清洗处理之后的所述日常样本数据集中的样本对象特征生成样本分类标签，并将所述样本分类标签和与其对应的样本健康信息关联之后，根据样本分类标签、样本健康信息以及预设的推荐算法，生成与样本分类标签以及样本健康信息均关联的推荐值，以根据样本分类标签、样本健康信息以及推荐值构建样本三元组，进而根据所有样本三元组构建预设的健康推荐数据库。

在本实施例中，通过基于知识图谱构建的知识数据库，对日常样本数据集中不合理的信息进行清洗处理，提高日常样本数据集中与样本特征信息关联的样本健康信息的准确率。

在一实施例中，如图4所示，步骤S24中，具体包括如下步骤：

S241：根据样本分类标签以及与其对应的样本健康信息构建样本实体关系。

其中，样本实体关系指的是每一样本分类标签与对应的样本健康信息之间的关系，示例性地，假设样本分类标签A对应的有样本健康信息B以及样本健康信息C，则样本分类标签A与样本健康信息B为一组样本实体关系；样本分类标签A与样本健康信息C为另一组样本实体关系。

具体地，在根据清洗处理之后的所述日常样本数据集中的样本对象特征生成样本分类标签，并将所述样本分类标签和与其对应的样本健康信息关联之后，根据样本分类标签以及与其对应的样本健康信息构建样本实体关系。

S242：获取每一样本实体关系在预设的健康推荐数据库的支持频率。

其中，支持频率指的是每一样本实体关系在预设的健康推荐数据库中出现的频率，支持频率的取值范围为0-1中任意一个数值，如0.5,0.6。

具体地，在根据样本分类标签以及与其对应的样本健康信息构建样本实体关系之后，获取每一样本实体关系在预设的健康推荐数据库的支持频率。进一步地，可以根据如下表达式确定每一样本实体关系对应的支持频率：

其中，Support()为支持频率函数；X→Y表示X发生或者存在时，Y发生的概率；X为任意一个样本分类标签；Y为任意一个样本健康信息；X∪Y为预设的健康推荐数据库中同时包含X和Y的数据(也即可以认为包含X和Y的样本实体关系的数量)；Z为预设的健康推荐数据库中数据的总数(也即所有样本实体关系的总数量)。

S243：在样本实体关系的支持频率大于或等于预设支持度阈值时，按照预设的频率优先级规则，根据实体关系的支持频率提升样本实体关系的推荐优先级。

其中，支持频率的实质为该样本实体关系在预设的健康推荐数据库中出现的总次数。预设支持度阈值可以根据样本实体关系的数量进行调整(如在样本实体关系的总量较小时，该预设支持度阈值可以设置为如0.3，0.4等，以保证后续为用户推送的样本健康信息的数量；在样本实体关系的总量较大时，该预设支持度阈值可以设置为如0.6,0.7等，以进一步对样本实体关系的筛选，提高后续推送的样本健康信息的准确率)，也可以通过用户需求进行设定。

具体地，在获取每一样本实体关系在预设的健康推荐数据库的支持频率之后，若存在支持频率大于或等于预设支持度阈值的样本实体关系，按照预设的频率优先级规则，根据样本实体关系的支持频率提升样本实体关系的推荐优先级。示例性地，假设某一样本实体关系的支持频率为0.7，预设支持度阈值为0.5，假设每一样本实体关系的基础推荐优先级均为5级，预设的频率优先级规则为根据支持频率与预设支持度阈值之差提升推荐优先级(示例性地，若支持频率与预设支持度阈值之差为0.1，则提升1级)，而该支持频率与预设支持度阈值之差为0.7-0.5＝0.2，进而该样本实体关系的推荐优先级从5级提升两个等级至7级。

S244：根据提升之后的推荐优先级以及预设的推荐算法确定样本实体关系中的样本健康信息的推荐值。

具体地，在样本实体关系的支持频率大于或等于预设支持度阈值时，按照预设的频率优先级规则，根据实体关系的支持频率提升样本实体关系的推荐优先级之后，根据提升之后的推荐优先级以及预设的推荐算法确定样本实体关系的样本健康信息的推荐值。示例性地，如上述样本实体关系的提升之后的推荐优先级为7级，预设的推荐算法可以为将提升后的推荐优先级对应的级数转换为推荐值(如提升后的推荐优先级为5级，则对应的推荐值可以为50)，因此该样本实体关系的样本健康信息的推荐值为70。

S245：将相互对应的推荐值、样本分类标签以及样本健康信息关联为一个样本三元组之后，根据样本三元组构建预设的健康推荐数据库。

具体地，在根据提升之后的推荐优先级以及预设的推荐算法确定样本实体关系中的样本健康信息的推荐值，将相互对应的推荐值、样本分类标签以及样本健康信息关联为一个样本三元组，也即如(样本分类标签，样本健康信息，推荐值)的样本三元组；根据所有样本三元组构建预设的健康推荐数据库。

在一实施例中，如图5所示，在步骤S241之后，还包括：

S246：获取每一样本实体关系在预设的健康推荐数据库的置信度。

具体地，在根据样本分类标签以及与其对应的样本健康信息构建样本实体关系之后，获取每一样本实体关系在预设的健康推荐数据库的置信度。进一步地，可以根据如下表达式确定每一样本实体关系对应的置信度：

其中，Conf()为置信度函数；X→Y表示X发生或者存在时，Y发生或者存在的概率；X为任意一个样本分类标签；Y为任意一个样本健康信息；X∪Y为预设的健康推荐数据库中同时包含X和Y的数据(也即可以认为包含X和Y的样本实体关系的数量)。

S247：在实体关系的置信度大于或等于预设置信度阈值时，按照预设的置信优先级规则，根据实体关系的置信度提升实体关系的推荐优先级。

其中，置信度为样本实体关系在预设的健康推荐数据库中的可信程度。预设置信度阈值可以根据预设的健康推荐数据库中的样本实体关系的总数进行调整确定。

具体地，在获取每一样本实体关系在预设的健康推荐数据库的置信度之后，若存在置信度大于或等于预设支持度阈值的样本实体关系，按照预设的置信优先级规则，根据样本实体关系的置信度提升样本实体关系的推荐优先级。示例性地，假设某一样本实体关系的置信度为0.8，预设支持度阈值为0.4，假设每一样本实体关系的基础推荐优先级均为5级，预设的置信优先级规则为根据置信度与预设置信度阈值之差提升推荐优先级(示例性地，若支持频率与预设支持度阈值之差为0.1，则提升1级)，而该支持频率与预设支持度阈值之差为0.8-0.4＝0.4，进而该样本实体关系的推荐优先级从5级提升四个等级至9级。

在一实施例中，步骤S21之前，也即在获取日常样本数据集以及根据知识图谱构建的预设的知识数据库之前，还包括：

获取知识样本数据集，所述知识样本数据集包含至少一个知识样本数据。

其中，知识样本数据集中的所有知识样本数据均可以从运动医学书籍、饮食书籍、文献、临床指南、专家共识等数据源中采集得到。

提取知识样本数据中的所有样本实体，并根据知识样本数据中各数据与每一样本实体之间的距离，获取与提取的各样本实体关联的位置编码向量。

其中，样本实体包括但不限于运动实体(如运动分类、运动强度)、饮食实体(如食品种类、营养成分)等。位置编码向量是根据知识样本数据中各数据与每一样本实体之间的距离进行编码生成的。

具体地，在获取知识样本数据集之后，提取知识样本数据集中每一知识样本数据的所有样本实体。并根据每一知识样本数据中各数据与对应的每一样本实体之间的距离进行位置编码，以获取与提取的各样本实体关联的位置编码向量。

示例性地，假设一个知识样本数据为“慢跑是日常生活中常见的运动方式，属于中等强度运动类型”，该知识样本数据中包含两个样本实体为“慢跑”以及“中等强度”，以“慢跑”为样本实体时，根据各数据与“慢跑”之间的距离进行位置编码后，得到的位置编码向量为pos_1＝[0,1,2,3,...](此时将慢跑在该知识样本数据中的位置编码为0)；以“中等强度”为样本实体时，根据各数据与“中等强度”之间的距离进行位置编码后，得到的位置编码向量为pos_2＝[...,-3,-2,-1,0,1,2](此时将中等强度在该知识样本数据中的位置编码为0)。作为优选，在对知识样本数据进行位置编码时，按照分词的规则，以词为单位进行编码，如上述知识样本数据中的“运动”为一个词位置编码，“类型”为一个词位置编码，故在以“中等强度”为样本实体时，“运动”位置编码为1，“类型”位置编码为2，该分词的规则可以根据如结巴分词等方法进行分词。

对知识样本数据进行特征识别，得到知识样本数据对应的样本特征向量。

作为优选，在获取知识样本数据集之后，对知识样本数据集中的知识样本数据进行特征识别，且在进行特征识别过程中，是按照词的识别方式，也即对知识样本数据进行特征识别不是单个字符识别，而是对一组词进行识别，如“慢跑是日常生活中常见的运动方式，属于中等强度运动类型”中的“慢跑”，“运动”，“方式”等，进而得到知识样本数据对应的样本特征向量。可以理解地，对知识样本数据进行特征识别，只是从字词或者字符的角度进行识别，不带有上述实施例中的位置编码。

将所述样本特征向量以及所有所述位置编码向量输入至预设的卷积神经网络中，得到样本分类结果，所述样本分类结果表征了至少两个所述样本实体之间的亲密度。

在得到样本特征向量以及所有位置编码向量之后，将样本特征向量以及所有位置编码向量进行拼接后，输入至预设的卷积神经网络中进行特征提取，以得到样本分类结果，该样本分类结果表征了至少两个所述样本实体之间的亲密度。可以理解地，该样本分类结果表征了两个实体之间的关系或者关联程度，例如上述实施例中“慢跑是日常生活中常见的运动方式，属于中等强度运动类型”最后得到的样本分类结果为：“慢跑”与“中等强度”之间是关联的，或者说慢跑与中等强度之间存在较强的关联关系(也即慢跑是中等强度运动类型)。

在一实施例中，所述将所述样本特征向量以及所述位置编码向量输入至预设的卷积神经网络中，得到用于对所述日常样本数据集进行清洗处理的样本分类结果，包括：

在对样本特征向量以及所述位置编码向量进行第一拼接处理得到样本拼接向量之后，将样本拼接向量输入至预设的卷积神经网络中，通过预设的卷积神经网络对样本拼接向量进行特征提取，得到至少一个特征提取向量。

其中，第一拼接处理指的是将样本特征向量与位置编码向量拼接在一起，以作为词向量表示，也即待输入至预设的卷积神经网络中的向量。特征提取向量为对样本拼接向量进行特征提取之后得到的，该特征提取向量表征了每一样本实体对应的特征信息。

具体地，在对知识样本数据进行特征识别，得到知识样本数据对应的样本特征向量，以及根据知识样本数据中各数据与每一样本实体之间的距离，获取与提取的各样本实体关联的位置编码向量之后，对样本特征向量以及位置编码向量进行第一拼接处理，以作为待输入至预设的卷积神经网络的词向量表示，也即样本拼接向量；将该样本拼接向量输入至预设的卷积神经网络中，通过预设的卷积神经网络中的卷积层对样本拼接向量进行特征提取，得到至少一个特征提取向量。

作为优选，为了提取到的特征提取向量更加全面和精确，在对样本拼接向量进行特征提取时，可以设计多个不同尺寸的卷结核，不同尺寸的卷积核的数量可以根据样本实体的数量确定；示例性地，上述实施例中“慢跑是日常生活中常见的运动方式，属于中等强度运动类型”包含“慢跑”和“中等强度”两个样本实体，故可以设计两个不同尺寸大小的卷积核(如3*3,5*5等)，以对样本拼接向量进行更精确的特征提取，得到更全面的特征提取向量。

通过预设的卷积神经网络的池化层对各特征提取向量进行池化处理后，将池化处理后的各特征提取向量进行第二拼接处理，得到特征拼接向量。

其中，池化处理是为了减少特征提取向量的数量，防止数据过拟合，减少后续计算复杂度。

具体地，在通过预设的卷积神经网络对样本拼接向量进行特征提取，得到至少一个特征提取向量之后，通过预设的卷积神经网络的池化层对各特征提取向量进行池化处理，进一步降低参数数量，从而降低计算复杂度，并将池化处理后的各特征提取向量进行第二拼接处理，得到特征拼接向量。

通过预设的卷积神经网络的全连接层对特征拼接向量进行分类识别，得到样本分类结果。

具体地，在通过预设的卷积神经网络的池化层对各特征提取向量进行池化处理后，将池化处理后的各特征提取向量进行第二拼接处理，得到特征拼接向量之后，将特征拼接向量输入至全连接层(也即softmax层)，对特征拼接向量进行分类识别，得到样本分类结果。

在一实施例中，所述根据预设的知识数据库，对日常样本数据集中的不合理信息进行清洗处理，包括如下步骤：

根据样本分类结果，获取日常样本数据集中每一样本健康信息以及与其对应的样本对象特征之间的匹配度。

具体地，在将所述样本特征向量以及所有所述位置编码向量输入至预设的卷积神经网络中，得到样本分类结果之后，根据样本分类结果，确定日常样本数据集中样本健康信息与对应的样本对象特征之间是否匹配，进而确定每一样本健康信息和与其关联的样本对象的样本对象特征之间的匹配度。示例性地，假设一个样本对象的样本对象特征为50-60岁且患有糖尿病，而对应的样本健康信息中包括运动信息为中等强度运动，或者饮食信息中没有提及不能吃太多与糖相关的食物时，表征运动推荐的不是最适合该样本对象特征的，且饮食推荐不够完善，进而该样本健康信息与对应的样本对象特征的匹配度较低。

将匹配度低于预设匹配阈值的样本对象特征以及样本健康信息记录为不合理信息，以对不合理信息进行清洗处理。

具体地，在根据样本分类结果，获取日常样本数据集中每一样本健康信息和与其关联的样本对象的样本对象特征之间的匹配度之后，将匹配度低于预设匹配阈值，且相互关联的样本对象特征以及所述样本健康信息记录为不合理信息，以对不合理信息进行清洗处理。其中，预设匹配阈值可以为80％，85％或者90％等，该预设匹配阈值可以根据面向的目标对象的不同群体进行变换。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于知识图谱的健康信息推荐装置，该基于知识图谱的健康信息推荐装置与上述实施例中基于知识图谱的健康信息推荐方法一一对应。如图6所示，该基于知识图谱的健康信息推荐装置包括特征信息获取模块11、分类标签确定模块12、样本三元组获取模块13和健康信息推荐模块14。各功能模块详细说明如下：

特征信息获取模块11，用于获取目标对象的目标特征信息。所述目标对象为请求推送健康信息的用户；所述目标特征信息指的是目标对象的个体特征信息。

分类标签确定模块12，用于将所述目标特征信息输入至预设的健康特征相似度模型中，得到与所述目标特征信息对应的健康分类标签。

样本三元组获取模块13，用于自基于知识图谱构建的预设的健康推荐数据库中，获取具有与所述健康分类标签相同的样本分类标签的所有样本三元组。所述样本三元组是由样本分类标签、样本健康信息以及与样本健康信息和样本分类标签均关联的推荐值关联构成。

健康信息推荐模块14，用于自获取的所有所述三元组中提取样本健康信息以及与所述样本健康信息关联的推荐值，根据所述推荐值向所述目标对象的移动终端推送与其关联的所述样本健康信息。

优选地，如图7所示，基于知识图谱的健康信息推荐装置还包括如下模块：

数据获取模块21，用于获取日常样本数据集以及根据知识图谱构建的预设的知识数据库；所述日常样本数据集中包含至少一个样本健康信息以及与所述样本健康信息一一对应关联的样本对象的样本对象特征。

数据清洗模块22，用于根据所述预设的知识数据库，对所述日常样本数据集中的不合理信息进行清洗处理；所述不合理信息是指相互关联且不匹配的所述样本对象特征以及所述样本健康信息。

分类标签生成模块23，用于根据清洗处理之后的所述日常样本数据集中的样本对象特征生成样本分类标签，并将所述样本分类标签和与其对应的样本健康信息关联。

数据库构建模块24，用于根据所述样本分类标签、所述样本健康信息以及预设的推荐算法构建所述预设的健康推荐数据库。

优选地，如图8所示，数据库构建模块包括如下单元：

实体关系构建单元241，用于根据所述样本分类标签以及与其对应的所述样本健康信息构建样本实体关系。

支持频率获取单元242，用于获取每一所述样本实体关系在所述预设的健康推荐数据库的支持频率。

第一优先级提升单元243，用于在所述实体关系的支持频率大于或等于预设支持度阈值时，按照预设的频率优先级规则，根据所述实体关系的支持频率提升所述实体关系的推荐优先级。

推荐值确定单元244，用于根据提升之后的所述推荐优先级以及预设的推荐算法确定所述实体关系中的所述样本健康信息的所述推荐值。

数据库构建单元245，用于将相互对应的所述推荐值、所述样本分类标签以及所述样本健康信息关联为一个样本三元组之后，根据所述样本三元组构建所述预设的健康推荐数据库。

优选地，如图9所示，数据库构建模块还包括如下单元：

置信度获取单元246，用于获取每一所述样本实体关系在所述预设的健康推荐数据库的置信度。

第二优先级提升单元247，用于在所述实体关系的置信度大于或等于预设置信度阈值时，按照预设的置信优先级规则，根据所述实体关系的置信度提升所述实体关系的推荐优先级。

优选地，基于知识图谱的健康信息推荐装置还包括如下模块：

样本数据集获取模块，用于获取知识样本数据集，所述知识样本数据集包含至少一个知识样本数据。

样本实体提取模块，用于提取所述知识样本数据中的所有样本实体，并根据所述知识样本数据中各数据与每一所述样本实体之间的距离，获取与提取的各所述样本实体关联的位置编码向量。

样本特征识别模块，用于对所述知识样本数据进行特征识别，得到所述知识样本数据对应的样本特征向量。

样本分类结果生成模块，用于将所述样本特征向量以及所有所述位置编码向量输入至预设的卷积神经网络中，得到样本分类结果，所述样本分类结果表征了至少两个所述样本实体之间的亲密度。

优选地，样本分类结果生成模块包括：

第一拼接单元，用于在对将所述样本特征向量以及所述位置编码向量进行第一拼接处理得到样本拼接向量之后，将所述样本拼接向量输入至预设的卷积神经网络中，通过所述预设的卷积神经网络对所述样本特征向量以及各所述位置编码向量进行第一拼接处理，得到至少一个样本拼接向量。

特征提取单元，用于将所述拼接向量输入至通过所述预设的卷积神经网络中，对所述样本拼接向量进行特征提取，得到至少一个特征提取向量。

第二拼接单元，用于在通过所述预设的卷积神经网络的池化层对各所述特征提取向量进行池化处理后，将池化处理后的各所述特征提取向量进行第二拼接处理，得到特征拼接向量。

样本分类结果生成单元，用于通过所述预设的卷积神经网络的全连接层对所述特征拼接向量进行分类识别，得到所述样本分类结果。

优选地，数据清洗模块还包括如下单元：

匹配度获取单元，用于根据所述样本分类结果，获取所述日常样本数据集中每一样本健康信息和与其关联的样本对象的样本对象特征之间的匹配度；

数据清洗单元，用于将所述匹配度低于预设匹配阈值，且相互关联的所述样本对象特征以及所述样本健康信息记录为不合理信息，以对所述不合理信息进行清洗处理。

关于基于知识图谱的健康信息推荐装置的具体限定可以参见上文中对于基于知识图谱的健康信息推荐方法的限定，在此不再赘述。上述基于知识图谱的健康信息推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的基于知识图谱的健康信息推荐方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的健康信息推荐方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的基于知识图谱的健康信息推荐方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的基于知识图谱的健康信息推荐方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的健康信息推荐方法，其特征在于，包括：

自获取的所有所述样本三元组中提取样本健康信息以及与所述样本健康信息关联的推荐值，根据所述推荐值向所述目标对象推送与其关联的所述样本健康信息；

所述自基于知识图谱构建的预设的健康推荐数据库中，获取具有与所述健康分类标签相同的样本分类标签的所有样本三元组之前，还包括：

获取日常样本数据集以及根据知识图谱构建的预设的知识数据库；所述日常样本数据集中包含至少一个样本健康信息以及与所述样本健康信息一一对应关联的样本对象的样本对象特征；

根据所述预设的知识数据库，对所述日常样本数据集中的不合理信息进行清洗处理；所述不合理信息是指相互关联且不匹配的所述样本对象特征以及所述样本健康信息；

根据清洗处理之后的所述日常样本数据集中的样本对象特征生成样本分类标签，并将所述样本分类标签和与其对应的样本健康信息关联；

根据所述样本分类标签、所述样本健康信息以及预设的推荐算法构建所述预设的健康推荐数据库；

所述根据所述样本分类标签、所述样本健康信息以及预设的推荐算法构建所述预设的健康推荐数据库，包括：

根据所述样本分类标签以及与其对应的所述样本健康信息构建样本实体关系；

获取每一所述样本实体关系在所述预设的健康推荐数据库的支持频率；

在所述样本实体关系的支持频率大于或等于预设支持度阈值时，按照预设的频率优先级规则，根据所述样本实体关系的支持频率提升所述样本实体关系的推荐优先级；

根据提升之后的所述推荐优先级以及预设的推荐算法确定所述样本实体关系中的所述样本健康信息的所述推荐值；

将相互对应的所述推荐值、所述样本分类标签以及所述样本健康信息关联为一个样本三元组之后，根据所述样本三元组构建所述预设的健康推荐数据库。

2.如权利要求1所述的基于知识图谱的健康信息推荐方法，其特征在于，所述根据所述样本分类标签以及与其对应的所述样本健康信息构建样本实体关系之后，还包括：

获取每一所述样本实体关系在所述预设的健康推荐数据库的置信度；

在所述样本实体关系的置信度大于或等于预设置信度阈值时，按照预设的置信优先级规则，根据所述样本实体关系的置信度提升所述样本实体关系的推荐优先级。

3.如权利要求1所述的基于知识图谱的健康信息推荐方法，其特征在于，所述获取日常样本数据集以及根据知识图谱构建的预设的知识数据库之前，还包括：

获取知识样本数据集，所述知识样本数据集包含至少一个知识样本数据；

提取所述知识样本数据中的所有样本实体，并根据所述知识样本数据中各数据与每一所述样本实体之间的距离，获取与提取的各所述样本实体关联的位置编码向量；

对所述知识样本数据进行特征识别，得到所述知识样本数据对应的样本特征向量；

4.如权利要求3所述的基于知识图谱的健康信息推荐方法，其特征在于，所述将所述样本特征向量以及所有所述位置编码向量输入至预设的卷积神经网络中，得到样本分类结果，包括：

在对所述样本特征向量以及所述位置编码向量进行第一拼接处理得到样本拼接向量之后，将所述样本拼接向量输入至预设的卷积神经网络中，通过所述预设的卷积神经网络对所述样本拼接向量进行特征提取，得到至少一个特征提取向量；

通过所述预设的卷积神经网络的池化层对各所述特征提取向量进行池化处理后，将池化处理后的各所述特征提取向量进行第二拼接处理，得到特征拼接向量；

通过所述预设的卷积神经网络的全连接层对所述特征拼接向量进行分类识别，得到所述样本分类结果。

5.如权利要求3所述的基于知识图谱的健康信息推荐方法，其特征在于，

所述根据所述预设的知识数据库，对所述日常样本数据集中的不合理信息进行清洗处理，包括：

根据所述样本分类结果，获取所述日常样本数据集中每一样本健康信息以及与其对应的样本对象特征之间的匹配度；

将所述匹配度低于预设匹配阈值的所述样本对象特征以及所述样本健康信息记录为不合理信息，并对所述不合理信息进行清洗处理。

6.一种基于知识图谱的健康信息推荐装置，其特征在于，包括：

健康信息推荐模块，用于自获取的所有所述三元组中提取样本健康信息以及与所述样本健康信息关联的推荐值，根据所述推荐值向所述目标对象的移动终端推送与其关联的所述样本健康信息；

基于知识图谱的健康信息推荐装置还包括如下模块：

数据获取模块，用于获取日常样本数据集以及根据知识图谱构建的预设的知识数据库；所述日常样本数据集中包含至少一个样本健康信息以及与所述样本健康信息一一对应关联的样本对象的样本对象特征；

数据清洗模块，用于根据所述预设的知识数据库，对所述日常样本数据集中的不合理信息进行清洗处理；所述不合理信息是指相互关联且不匹配的所述样本对象特征以及所述样本健康信息；

分类标签生成模块，用于根据清洗处理之后的所述日常样本数据集中的样本对象特征生成样本分类标签，并将所述样本分类标签和与其对应的样本健康信息关联；

数据库构建模块，用于根据所述样本分类标签、所述样本健康信息以及预设的推荐算法构建所述预设的健康推荐数据库；

数据库构建模块包括如下单元：

实体关系构建单元，用于根据所述样本分类标签以及与其对应的所述样本健康信息构建样本实体关系；

支持频率获取单元，用于获取每一所述样本实体关系在所述预设的健康推荐数据库的支持频率；

第一优先级提升单元，用于在所述实体关系的支持频率大于或等于预设支持度阈值时，按照预设的频率优先级规则，根据所述实体关系的支持频率提升所述实体关系的推荐优先级；

推荐值确定单元，用于根据提升之后的所述推荐优先级以及预设的推荐算法确定所述实体关系中的所述样本健康信息的所述推荐值；

数据库构建单元，用于将相互对应的所述推荐值、所述样本分类标签以及所述样本健康信息关联为一个样本三元组之后，根据所述样本三元组构建所述预设的健康推荐数据库。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于知识图谱的健康信息推荐方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于知识图谱的健康信息推荐方法。