CN114496231A

CN114496231A - 基于知识图谱的体质识别方法、装置、设备和存储介质

Info

Publication number: CN114496231A
Application number: CN202210143573.4A
Authority: CN
Inventors: 金晓辉; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-13
Anticipated expiration: 2042-02-16
Also published as: CN114496231B

Abstract

本发明公开了一种基于知识图谱的体质识别方法、装置、设备和存储介质，可广泛应用于人工智能技术领域；本发明的方法包括：获取症状文本数据；从症状文本数据中提取得到症状特征数据；将症状特征数据输入到知识图谱中，得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据；根据知识图谱与症状特征数据对应的强关联症状数据和/或弱关联症状数据，得到症状特征数据对应若干预设体质类别数据的分数数据；根据症状特征数据对应若干预设体质类别数据的分数数据，确定症状特征数据对应的体质类别数据，其中，预设体质类别数据包括体质类别数据，本发明能够有效提高体质识别准确性，保证诊断效果。

Description

基于知识图谱的体质识别方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其是一种基于知识图谱的体质识别方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，医疗诊断技术也逐渐智能化，目前可支持疾病辅助诊断、健康管理、远程会诊等功能。相关技术中，通常利用机器学习对人体体质进行识别，但存在以下的缺陷：首先，大多使用CV(计算机视觉)技术对患者舌诊、面诊进行体质识别，但识别效果通常不理想；其次，体质识别任务与患者自身对症状描述息息相关，但患者自身对症状描述通常具有不确定性和多样性，通过直接根据获取的患者症状描述来进行体质识别，将导致识别的体质的准确性较低，容易影响诊断效果。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于知识图谱的体质识别方法、装置、设备和存储介质，能够有效提高体质识别准确性，保证诊断效果。

第一方面，本发明实施例提供了一种基于知识图谱的体质识别方法，包括：

获取症状文本数据；

从所述症状文本数据中提取得到症状特征数据；

将所述症状特征数据输入到知识图谱中，得到与所述症状特征数据对应的强关联症状数据和/或弱关联症状数据，其中，所述知识图谱由多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据构建得到，每一所述预设体质类别数据均对应有至少一个所述强关联症状数据，若干所述强关联症状数据分别对应有至少一个所述弱关联症状数据；

根据所述知识图谱与所述症状特征数据对应的所述强关联症状数据和/或所述弱关联症状数据，得到所述症状特征数据对应若干所述预设体质类别数据的分数数据；

根据所述症状特征数据对应若干所述预设体质类别数据的所述分数数据，确定所述症状特征数据对应的体质类别数据，其中，所述预设体质类别数据包括所述体质类别数据。

第二方面，本发明实施例提供了一种基于知识图谱的体质识别装置，包括：

数据获取模块，用于获取症状文本数据；

数据提取模块，用于从所述症状文本数据中提取得到症状特征数据；

数据输入模块，用于将所述症状特征数据输入到知识图谱中，得到与所述症状特征数据对应的强关联症状数据和/或弱关联症状数据，其中，所述知识图谱由多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据构建得到，每一所述预设体质类别数据均对应有至少一个所述强关联症状数据，若干所述强关联症状数据分别对应有至少一个所述弱关联症状数据；

分数获取模块，用于根据所述知识图谱与所述症状特征数据对应的所述强关联症状数据和/或所述弱关联症状数据，得到所述症状特征数据对应若干所述预设体质类别数据的分数数据；

体质确定模块，用于根据所述症状特征数据对应若干所述预设体质类别数据的所述分数数据，确定所述症状特征数据对应的体质类别数据，其中，所述预设体质类别数据包括所述体质类别数据。

第三方面，本发明实施例提供了一种基于知识图谱的体质识别设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前面实施例的基于知识图谱的体质识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行前面实施例的基于知识图谱的体质识别方法。

本发明实施例的有益效果包括：通过先获取症状文本数据，再从症状文本数据中提取得到症状特征数据，之后将症状特征数据输入到知识图谱中，得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据，本发明实施例的知识图谱由多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据构建得到，每一预设体质类别数据均对应有至少一个强关联症状数据，若干强关联症状数据分别对应有至少一个弱关联症状数据，之后，根据知识图谱与症状特征数据对应的强关联症状数据和/或弱关联症状数据，得到症状特征数据对应若干预设体质类别数据的分数数据，最后根据症状特征数据对应若干预设体质类别数据的分数数据，确定症状特征数据对应的体质类别数据，其中，预设体质类别数据包括体质类别数据。与相关技术相比，本发明实施例能够有效提高体质识别准确性，保证诊断效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的基于知识图谱的体质识别方法的流程示意图；

图2为本发明实施例的知识图谱的示意图；

图3为本发明实施例的知识图谱的构建过程的流程示意图；

图4为本发明实施例的第一权重数据的流程示意图；

图5为本发明实施例的第二权重数据的流程示意图；

图6为本发明实施例的构建得到知识图谱的流程示意图；

图7为本发明实施例的分数数据的流程示意图；

图8为本发明实施例的确定体质类别数据的流程示意图；

图9为本发明实施例的基于知识图谱的体质识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

随着人工智能的快速发展，语音合成技术也逐渐发展成能够利用AI技术来生成高质量的语音。相关技术中，语音合成标记语言规范通常都是基于可扩展标记语言这种标记语言的。然而，可扩展标记语言具有严格的格式要求，故在输入语音合成标记语言时，多一个字或少一个字都有可能导致整个语音合成标记语言不合法，进而导致无法解析。因此，通过这种语音合成的方式，由于用户通常难以书写出规范的语音合成标记语言，导致容易出错，从而造成语音无法合成。

可以理解的是，体质是人体生命活动的一种重要表现形式，是指人体生命过程中，在先天禀赋和后天获得的基础上所形成的形态结构、生理功能和心理状态方面综合的、相对稳定的固有特质。中医体质学旨在研究人体不同体质构成的特点、演变规律、影响因素、分类标准等，从而应用于指导疾病的预防、诊治、康复与养生等方面。

目前利用人工智能技术(AI)进行体质识别的方式较少，大多数都是依据专家诊断或者采用仪器设备诊断。相关技术中，通常利用机器学习对人体体质进行识别，但存在以下的缺陷：首先，大多使用CV(计算机视觉)技术对患者舌诊、面诊进行体质识别，但识别效果通常不理想；其次，体质识别任务与患者自身对症状描述息息相关，但患者自身对症状描述通常具有不确定性和多样性，通过直接根据获取的患者症状描述来进行体质识别，将导致识别的体质的准确性较低，容易影响诊断效果。

基于此，本发明实施例提供了一种基于知识图谱的体质识别方法、装置、设备和存储介质。本发明实施例能够有效提高体质识别准确性，保证诊断效果。

具体地，参照图1，本发明实施例提供一种基于知识图谱的体质识别方法，包括但不限于以下步骤：

步骤S100、获取症状文本数据；

可以理解的是，可先通过获取症状语音数据，通过对症状语音数据进行文本转换处理，得到症状文本数据。

具体地，可通过医疗平台/医疗系统获取症状语音数据，例如医疗平台/医疗系统可以为移动终端设备，也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、手持计算机、掌上电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、可穿戴设备、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备等；非移动终端设备可以为个人计算机、柜员机或者自助机等，本发明实施方案不作具体限定。

可理解的是，本发明实施例的医疗平台/医疗系统可应用于智慧医疗领域、数字医疗领域、智慧就医领域、数字就医领域、智慧就诊领域、数字就诊领域、智慧挂号领域、数字挂号领域、智慧问诊领域或数字问诊领域中。

如一些实施例中，患者进入医疗平台/医疗系统时，可以通过与医疗平台/医疗系统进行多轮智能对话，以便对自己的症状进行描述，即可通过医疗平台/医疗系统获取患者的症状语音数据。从多轮智能对话过程中，采集患者的症状语音数据，之后对症状语音数据进行文本转换处理。例如采用语音识别方法，将识别得到的症状语音数据，通过转换得到症状文本数据，该症状文本数据通常为患者自身描述的长文本数据。

步骤S200、从症状文本数据中提取得到症状特征数据；

可以理解的是，由于通过患者描述得到的症状文本数据中，可能存在多个疾病症状。因此，本发明实施例通过采用文本挖掘方法，可以从症状文本数据中提取得到症状特征数据，该症状特征数据表征通过患者描述得到的症状文本数据中所提及的所有疾病症状数据。例如一些实施例中，可通过预设关键词数据，根据关键词数据，从症状文本数据中提取得到症状特征数据，即关键词数据与症状特征数据关联，又例如，根据关键词数据，对症状文本数据进行模糊搜索，以从症状文本数据中提取得到症状特征数据，在此不作具体限定。

需说明的是，文本挖掘方法具体包括：

信息检索，信息检索是从满足信息需求的非结构化数据集合中查找信息资源(通常指文本)的行为；

自然语言处理，自然语言处理是计算机科学、人工智能和语言学的子领域，旨在通过运用计算机理解自然语言；

文本信息提取，信息提取是从非结构化或半结构化文本中自动提取信息或事实的任务；

文本摘要，文本挖掘应用程序中需要总结文本，以便对大型文本或某一主题的文本集合作出简要概述；

无监督学习方法(文本)，无监督学习方法是尝试从未标注文本中获取隐藏数据结构的方法，例如使用聚类方法将相似文本分为同一类；

监督学习方法(文本)，监督学习方法从标注训练数据中学习分类器或推断功能，以对未知数据执行预测的机器学习技术；

文本挖掘的概率方法，包括无监督主题模型(如概率潜在语义分析模型(pLSA)、文本主题生成模型(LDA))和监督学习方法(如可在文本挖掘语境中使用的条件随机场)；

生物医学文本挖掘，生物医学文本挖掘是指对生物医学科学领域的文本进行文本挖掘的任务，等等。

如表1所示，一些实施例中，通过患者描述得到症状文本数据，并从症状文本数据中提取得到症状特征数据，该症状特征数据表征患者的所有疾病症状数据。

表1患者的症状特征数据

可理解的是，表1中的身份标识号对应患者的身份识别，症状特征数据即为根据患者描述得到症状文本数据中提取得到的。表1仅为患者的症状特征数据的一个示例，并非是对症状特征数据的限制，本发明实施例对此不作具体限定。

步骤S300、将症状特征数据输入到知识图谱中，得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据，其中，知识图谱由多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据构建得到，每一预设体质类别数据均对应有至少一个强关联症状数据，若干强关联症状数据分别对应有至少一个弱关联症状数据；

可以理解的是，本发明实施例可以应用于中医诊断识别，即可通过本发明实施例的基于知识图谱的体质识别方法来识别中医人体体质。

具体地，按照中医诊断学，从《中医诊断学》中获取872类标准的中医疾病症状数据。之后，根据中医体质研究名师王琦的《王琦中医体质量表》，从《王琦中医体质量表》中提取出每种预设体质类别数据下的疾病症状数据，总计195个，并将其定义为强关联症状数据，将其余的677个疾病症状数据定义为弱关联症状数据。即中医症状数据包括强关联症状数据和弱关联症状数据。

可以理解的是，预设体质类别数据设置有多个。通过根据多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据，构建得到知识图谱。

参照图2，为本发明实施例的一个知识图谱的示意图。可以理解的是，在本发明实施例的知识图谱中，多个预设体质类别数据与预设的强关联症状数据、预设的弱关联症状数据之间是具有对应关系的。具体地，每一预设体质类别数据均对应有至少一个强关联症状数据。例如，本发明实施例共包括有8个预设体质类别数据，分别为气虚质、痰湿质、湿热质、血瘀质、气郁质、特禀质、阳虚质、阴虚质。而在每一个预设体质类别数据下，均对应有至少一个强关联症状数据，例如，以预设体质类别数据为阳虚质为例，阳虚质对应有三个强关联症状数据，分别为畏寒、腰膝无力、面白。此外，若干强关联症状数据分别对应有至少一个弱关联症状数据，例如，对于强关联症状数据为畏寒，则畏寒对应有两个弱关联症状数据，分别为肢体酸痛、早泄；对于强关联症状数据为腰膝无力，则腰膝无力对应有一个弱关联症状数据，为痛经；对于强关联症状数据为面白，则面白对应有一个弱关联症状数据，为头痛。

需说明的是，并非每一强关联症状数据均对应有至少一个弱关联症状数据，在知识图谱中，也可以存在有：某个预设体质类别数据下对应有若干强关联症状数据，而在若干强关联症状数据中的某个强关联症状数据为独立类别，其下不存在分支(即无弱关联症状数据对应)，例如图2中的特禀质对应的右侧分支。

需说明的是，上述仅为一个具体示例，并非是对预设体质类别数据/强关联症状数据/弱关联症状数据进行限制。在其他实施例中，预设体质类别数据还可以为其他体质类别数据，而阳虚质可以对应十个或二十个或其他数量的强关联症状数据，而畏寒也可以对应两个或三个或其他数量的弱关联症状数据，即预设体质类别数据对应的强关联症状数据，以及强关联症状数据对应的弱关联症状数据均可根据实际情况而定，本发明实施例对此不作具体限定。

还需说明的是，图2仅为知识图谱的一个示意图，并非是对知识图谱的限制，在其他实施例中，知识图谱还可以为其他的形式，本发明实施例对此不作具体限定。

可以理解的是，症状特征数据可对应知识图谱中的强关联症状数据，或者弱关联症状数据。由于通过患者描述得到的症状文本数据中，可能存在多个疾病症状，因此，从症状文本数据中提取得到的症状特征数据也有多个。由此，当症状特征数据具有多个时，通过将症状特征数据输入到知识图谱中，此时的一个症状特征数据可以对应到某一预设体质类别数据下的某一强关联症状数据，而另一个症状特征数据可以对应到另一强关联症状数据下的某一弱关联症状数据。

还可以理解的是，根据患者描述的症状文本数据中，包括的疾病症状通常是多样性或不确定性的，因此，存在有症状特征数据分别对应到，多个不同的预设体质类别数据下的多个强关联症状数据和/或多个弱关联症状数据的情况。故通过将症状特征数据输入到知识图谱时，能够得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据。

步骤S400、根据知识图谱与症状特征数据对应的强关联症状数据和/或弱关联症状数据，得到症状特征数据对应若干预设体质类别数据的分数数据；

可以理解的是，通过所构建的知识图谱，可得到输入的症状特征数据所对应若干预设体质类别数据的分数数据。由于在知识图谱中，对于多个预设体质类别数据分别对应的多个强关联症状数据以及若干强关联症状数据分别对应的多个弱关联症状数据，均各自对应有一个权重数据，因此，根据知识图谱和上述的与症状特征数据对应的强关联症状数据和/或弱关联症状数据，可计算得到症状特征数据对应若干预设体质类别数据的分数数据。

步骤S500、根据症状特征数据对应若干预设体质类别数据的分数数据，确定症状特征数据对应的体质类别数据，其中，预设体质类别数据包括体质类别数据。

可以理解的是，通过计算得到症状特征数据对应若干预设体质类别数据的分数数据之后，可对上述分数数据进行筛选处理，以确定症状特征数据对应的体质类别数据。即将多个症状特征数据输入到知识图谱后，多个症状特征数据会对应到不同的预设体质类别数据下的分支中，通过数据处理，可得到症状特征数据对应不同的预设体质类别数据的分数数据。需说明的是，由于症状特征数据是对应于预设体质类别数据的，因此，本发明实施例最终确定的体质类别数据，是从若干预设体质类别数据中得到的。

本发明实施例通过获取患者自身对症状描述、患者诊断的历史记录等非结构化的症状文本数据，并对其进行深度挖掘。再根据中医体质辨识/诊断理论得到体质识别方法，具体利用机器学习方式得到多个预设体质类别数据、和预设体质类别数据下的多个预设的强关联症状数据和多个预设的弱关联症状数据。将以上数据进行知识入库，利用知识图谱连接各个预设体质类别数据、强关联症状数据和弱关联症状数据，以用于进行体质识别。本发明实施例通过步骤S100至步骤S500，相比于相关技术，能够有效提高体质识别准确性，保证诊断效果。

参照图3，知识图谱的构建过程，包括但不限于以下步骤：

步骤S310、根据预设体质类别数据和强关联症状数据，得到强关联症状数据对应预设体质类别数据的第一权重数据；

步骤S320、根据强关联症状数据和弱关联症状数据，得到弱关联症状数据对应强关联症状数据的第二权重数据；

步骤S330、根据预设体质类别数据、强关联症状数据、弱关联症状数据、第一权重数据和第二权重数据，构建得到知识图谱。

可以理解的是，本发明实施例通过计算得到强关联症状数据对应预设体质类别数据的第一权重数据，以及计算得到弱关联症状数据对应强关联症状数据的第二权重数据，以此来构建知识图谱。所得到的第一权重数据用以量化强关联症状数据对预设体质类别数据的贡献度，而所得到的第二权重数据用以量化弱关联症状数据对强关联症状数据的贡献度。

具体参照图4，步骤S310中，根据预设体质类别数据和强关联症状数据，得到强关联症状数据对应预设体质类别数据的第一权重数据，包括但不限于以下步骤：

步骤S311、获取预设体质类别数据对应的正样本集和负样本集；

步骤S312、将正样本集和负样本集输入到预设的随机森林模型中，得到强关联症状数据对应预设体质类别数据的第一权重数据，其中，正样本集和负样本集包括强关联症状数据。

可以理解的是，本发明实施例中的所有强关联症状数据均可作为特征数据，以便进行数据处理。在构建知识图谱的过程中，由于多个预设体质类别数据是确定的，但对应预设体质类别数据下的强关联症状数据为不确定性的，因此，可先获取每一预设体质类别数据所对应的正样本集和负样本集，通过随机森林模型对正样本集和负样本集进行训练，从而得到强关联症状数据对应预设体质类别数据的第一权重数据。可以理解的是，正样本集和负样本集中，包括有强关联症状数据以及其他症状数据，通过预设的随机森林模型，能够将强关联症状数据从正样本集和负样本集中分类出来，且能够输出得到第一权重数据。

本发明实施例的随机森林模型，是指利用多棵树对训练样本(即正样本集和负样本集)进行训练并预测的一种分类器。在机器学习中，随机森林模型是一个具有多个决策树的分类器，并且其输出的类别数据是由个别树输出的类别数据的众数而定的。

具体地，可根据以下方法来建造每棵树：

用N来表示训练样本对应的数量，M表示特征数据的个数，即本发明实施例中的强关联症状数据的个数；输入m个强关联症状数据，用于确定决策树上一个节点的决策结果，其中m远小于M；从N个训练样本(即正样本集和负样本集)中以有放回抽样的方式，共取样N次，以形成一个训练集，并用未抽到的训练样本作为测试集，用作预测以评估其误差；对于每一个节点，随机选择m个特征数据，决策树上每个节点的决定都是基于这些特征数据(即强关联症状数据)确定的。根据这m个特征数据，计算其最佳的分裂方式。可理解的是，每棵树都会完整成长而不会剪枝，在建完一棵正常树状分类器后可被采用。

本发明实施例的随机森林模型为一个可以产生高准确度的分类器，它可以处理大量的输入数据，并且学习过程是快速的。

例如参照图2，预测预设体质类别数据为气虚质时，将所有气虚质对应的训练样本作为正样本集，再根据气虚质，获取所有非气虚质对应的训练样本作为负样本集。再利用随机森林模型对正样本集和负样本集进行预训练，得到强关联症状数据对应预设体质类别数据的第一权重数据。如表2所示，表2为强关联症状数据对应预设体质类别数据为气虚质时的第一权重数据。

表2强关联症状数据对应气虚质的第一权重数据

需说明的是，由于对应预设体质类别数据为气虚质时，所得到的强关联症状数据可以有多个，例如表2中的肢体无力、泄泻、气短等，而强关联症状数据对应的第一权重数据也不同，因此，在一些实施例中，可根据第一权重数据对强关联症状数据进行排序，以得到第一排序数据。第一排序数据表征特征数据即强关联症状数据对随机森林模型输出的预测结果的重要性排序，即该重要性作为强关联症状数据对应预设体质类别数据的第一权重数据。可理解的是，表2仅为第一权重数据对应的一个示例，并非是对第一权重数据的限制，本发明实施例对此不作具体限定。

在一些实施例中，还可以将对应预设体质类别数据的第一权重数据较小的强关联症状数据进行剔除，例如，根据第一排序数据，将最后几个强关联症状数据进行剔除，或者，根据预设阈值，将第一权重数据低于预设阈值的强关联症状数据进行剔除，例如，将第一权重数据为0.01的强关联症状数据进行剔除等等，本发明实施例对此不作具体限定。通过保留第一权重数据较大的强关联症状数据，能够保证体质识别的准确性和识别效率。

参照图5，步骤S320中，根据强关联症状数据和弱关联症状数据，得到弱关联症状数据对应强关联症状数据的第二权重数据，包括但不限于以下步骤：

步骤S321、利用关联规则算法，对强关联症状数据和弱关联症状数据之间的共现频率进行计算，得到弱关联症状数据对应强关联症状数据的第二权重数据。

可以理解的是，关联规则算法可以为Apriori算法，Apriori算法是一种挖掘关联规则的频繁项集算法，其利用逐层搜索的迭代方法来找出数据库中项集的关系，以形成规则，其过程由连接(类矩阵运算)与剪枝(去掉不必要的中间结果)组成。该算法中项集的概念即为项的集合，包含k个项的集合为k项集。项集出现的频率是包含项集的事务数，称为项集的频率。如果某项集满足最小支持度，则称它为频繁项集。

可以理解的是，本发明实施例通过利用关联规则算法，以计算得到弱关联症状数据对应强关联症状数据的第二权重数据，所得到的第二权重数据用以量化弱关联症状数据对强关联症状数据的贡献度。如表3所示，表3为弱关联症状数据对应强关联症状数据的第二权重数据。

表3弱关联症状数据对应强关联症状数据的第二权重数据

需说明的是，在一些实施例中，可根据第二权重数据对弱关联症状数据进行排序，以得到第二排序数据，例如表3所示。

可以理解的是，强关联症状数据可以对应多个弱关联症状数据，例如表3中的强关联症状数据为肢体无力，肢体无力所对应的弱关联症状数据有3个，分别为肢体疼痛、肢体酸痛和肢体麻木。此外，对于不同的强关联症状数据，也可对应相同的弱关联症状数据，例如，肢体无力(强关联症状数据)可对应肢体酸痛(弱关联症状数据)，而畏寒(强关联症状数据)也可对应肢体酸痛(弱关联症状数据)。可理解的是，表3仅为第二权重数据对应的一个示例，并非是对第二权重数据的限制，本发明实施例对此不作具体限定。

参照图6，步骤S330中，根据预设体质类别数据、强关联症状数据、弱关联症状数据、第一权重数据和第二权重数据，构建得到知识图谱，包括但不限于以下步骤：

步骤S331、根据图数据库，分别构建多个体质类别节点、每一体质类别节点对应连接的强关联症状节点与若干强关联症状节点对应连接的弱关联症状节点，其中，体质类别节点对应预设体质类别数据，强关联症状节点对应强关联症状数据，弱关联症状节点对应弱关联症状数据；

步骤S332、根据第一权重数据，对每一强关联症状节点对应体质类别节点间的第一权重进行赋值，得到第一权重赋值数据；

步骤S333、根据第二权重数据，对每一弱关联症状节点对应强关联症状节点间的第二权重进行赋值，得到第二权重赋值数据；

步骤S334、根据体质类别节点、强关联症状节点、弱关联症状节点、第一权重赋值数据和第二权重赋值数据，得到知识图谱。

可以理解的是，参照图2，具体为知识图谱的一个示意图。以位于簇头节点的分数数据出发，连接簇头节点的为多个体质类别节点，分别与每一体质类别节点对应连接的为强关联症状节点，分别与若干强关联症状节点对应连接的为弱关联症状节点。在本发明实施例中，以预设体质类别数据为阳虚质为例，阳虚质对应一个体质类别节点，与阳虚质对应的体质类别节点连接的强关联症状节点，分别为：畏寒对应的强关联症状节点、腰膝无力对应的强关联症状节点、面白对应的强关联症状节点；而与每一强关联症状节点对应连接的弱关联症状节点，即与畏寒对应的强关联症状节点对应连接的弱关联症状节点，为：肢体酸痛对应的弱关联症状节点、早泄对应的弱关联症状节点；与腰膝无力对应的强关联症状节点对应连接的弱关联症状节点，为：痛经头痛对应的弱关联症状节点；与面白对应的强关联症状节点对应连接的弱关联症状节点，为：头痛对应的弱关联症状节点。

由此，根据图数据库，可在图数据库中先构建出与预设体质类别数据对应的多个体质类别节点，由于强关联症状节点对应每一体质类别节点，而弱关联症状节点对应若干强关联症状节点，以此可构建出一个初始知识图谱，此时的初始知识图谱并未赋值。可理解的是，弱关联症状节点对应若干强关联症状节点，是因为，并非所有的强关联症状节点均可对应有弱关联症状节点。

之后，执行步骤S332至步骤S333，具体地，对每一强关联症状节点对应体质类别节点间的第一权重进行赋值，得到第一权重赋值数据，对每一弱关联症状节点对应强关联症状节点间的第二权重进行赋值，得到第二权重赋值数据。例如图2所示，对于畏寒对应的强关联症状节点，对其对应于阳虚质对应的体质类别节点间的第一权重进行赋值，得到权重：0.3，即第一权重赋值数据。可以理解的是，0.3即为通过步骤S311至步骤S312，所得到的第一权重数据。对于肢体酸痛对应的弱关联症状节点，对其对应于畏寒对应的强关联症状节点间的第二权重进行赋值，得到权重：0.17，即第二权重赋值数据。可以理解的是，0.17即为通过步骤S321，所得到的第二权重数据。以此类推，图2中的权重：0.15、权重：0.1均为第一权重赋值数据，权重：0.46、权重：0.35、权重：0.15均为第二权重赋值数据。可以理解的是，根据所有第一权重数据和第二权重数据，可得到对应的第一权重赋值数据和第二权重赋值数据，可根据实际情况进行设置，本发明实施例对此不作具体限定。

通过将以上得到的节点和权重数据进行知识入库。具体地，本发明实施例可选取Neo4j图数据库，分别构建体质类别节点，强关联症状节点和弱关联症状节点，再对节点间的权重进行赋值。即根据体质类别节点、强关联症状节点、弱关联症状节点、第一权重赋值数据和第二权重赋值数据，构建得到知识图谱。

可以理解的是，Neo4j图数据库是一个高性能的NOSQL图形数据库或图引擎，它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。其是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。

参照图7，步骤S400中，根据知识图谱与症状特征数据对应的强关联症状数据和/或弱关联症状数据，得到症状特征数据对应若干预设体质类别数据的分数数据，包括但不限于以下步骤：

步骤S410、当症状特征数据对应强关联症状节点，获取强关联症状节点对应体质类别节点的第一权重赋值数据；

步骤S420、当症状特征数据对应弱关联症状节点，获取弱关联症状节点对应强关联症状节点的第二权重赋值数据；

步骤S430、根据第一权重赋值数据和/或第二权重赋值数据，计算得到症状特征数据对应知识图谱中若干体质类别节点对应的分数数据。

可以理解的是，将多个症状特征数据输入到知识图谱中，可得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据，此时，判断多个症状特征数据中是对应强关联症状节点，或是对应弱关联症状节点。当症状特征数据对应弱关联症状节点，则获取弱关联症状节点对应强关联症状节点的第二权重赋值数据，当症状特征数据对应弱关联症状节点，则获取弱关联症状节点对应强关联症状节点的第二权重赋值数据，以计算得到症状特征数据对应知识图谱中若干体质类别节点对应的分数数据。

例如图2所示，当多个症状特征数据输入到知识图谱中，其中，一个症状特征数据为：在阳虚质对应的体质类别节点且位于畏寒对应的强关联症状节点下，对应到肢体酸痛对应的弱关联症状节点中，则该症状特征数据有两个权重赋值数据，分别为畏寒对应的强关联症状节点对应阳虚质的体质类别节点的第一权重赋值数据，即权重0.3，以及肢体酸痛对应的弱关联症状节点对应畏寒的强关联症状节点的第二权重赋值数据，即权重0.46。而对于另一个症状特征数据为：在阳虚质对应的体质类别节点下，对应到面白对应的强关联症状节点中，则该另一个症状特征数据有一个权重赋值数据，即面白对应的强关联症状节点对应阳虚质的体质类别节点的第一权重赋值数据，即权重0.15。以输入的症状特征数据中，以上述对应阳虚质的体质类别节点下的症状特征数据为例，计算阳虚质的体质类别节点对应的分数数据。计算方式可以为：当症状特征数据对应弱关联症状节点，则将对应的第一权重赋值数据乘以对应的第二权重赋值数据，如将畏寒的权重0.3乘以肢体酸痛的权重0.17，得到一个第一分数数据，而当症状特征数据对应强关联症状节点，则直接获取强关联症状节点的第一权重赋值数据，如面白的权重0.15，作为第二分数数据，之后，将第一分数数据和第二分数数据进行求和计算，得到阳虚质对应的分数数据，即Y＝0.3×0.17+0.15＝0.201，Y表征体质类别节点对应的分数数据。由于症状特征数据具有多个，则症状特征数据可对应到阳虚质的体质类别节点，也可以对应到气虚质的体质类别节点、痰湿质的体质类别节点、湿热质的体质类别节点等，均通过上述计算方式后，可计算得到若干体质类别节点对应的分数数据。

需说明的是，在其他实施例中，还可以采用其他计算方式来计算得到症状特征数据对应知识图谱中若干体质类别节点对应的分数数据，例如直接采用累加求和等方式，而不局限于本发明实施例，在此不再赘述。

在得到症状特征数据对应知识图谱中若干体质类别节点对应的分数数据之后，参照图8，步骤S500中，根据症状特征数据对应若干预设体质类别数据的分数数据，确定症状特征数据对应的体质类别数据，包括但不限于以下步骤：

步骤S510、从症状特征数据对应知识图谱中若干体质类别节点对应的分数数据中，确定最大分数数据；

步骤S520、将最大分数数据对应的体质类别节点的预设体质类别数据，作为症状特征数据对应的体质类别数据。

由于预设体质类别数据的分数数据具有若干个，若预设体质类别数据的分数数据为一个，则此时的预设体质类别数据即为症状特征数据对应的体质类别数据，若预设体质类别数据的分数数据为多个，则执行步骤S510至步骤步骤S520。

具体地，可对症状特征数据对应知识图谱中，若干体质类别节点对应的分数数据进行筛选处理，以从若干体质类别节点对应的分数数据中，确定出最大分数数据。由于最大分数数据表征与症状特征数据的关联性最大，故将最大分数数据对应的体质类别节点的预设体质类别数据，作为症状特征数据对应的体质类别数据，从而实现对症状特征数据对应的体质的识别。

可以理解的是，由于中医体质辨识理论是严谨且复杂的，根据中医诊断学得到872类标准的中医疾病症状数据。并且，根据专家经验得到每种预设体质类别数据下的明显症状，即得到每种预设体质类别数据下的强关联症状数据，以用于预测人体体质，本发明实施例的基于知识图谱的体质识别方法，符合中医体质辨识的严谨逻辑，可解释性强。

本发明实施例根据以上的195个强关联症状数据，采用随机森林模型得到特征数据即强关联症状数据对应预设体质类别数据的第一权重数据，能够体现强关联症状数据对各个预设体质类别数据的贡献度；其余的弱关联症状数据采用Apriori算法挖掘出强关联症状数据和弱关联症状数据之间的共现频率，得到弱关联症状数据对应强关联症状数据的第二权重数据，以体现弱关联症状数据对强关联症状数据的贡献度。将所有症状数据用作知识图谱的构建，深度利用了根据患者描述得到的症状文本数据，避免了数据的浪费和数据的浪费后的预测偏差。

可以理解的是，本发明实施例的基于知识图谱的体质识别方法，能够清晰体现出预设体质类别数据、强关联症状数据和弱关联症状数据之间的层级结构和相互间的贡献度。将患者对应的症状特征数据映射到知识图谱中，以便获取若干体质类别节点对应的分数数据，进而输出得到症状特征数据对应的体质类别数据，即体质识别结果，与相关技术相比，本发明实施例能够有效提高体质识别准确性，保证诊断效果。

参照图9，本发明一个实施例还提供了一种基于知识图谱的体质识别装置，包括但不限于以下模块：

数据获取模块100，用于获取症状文本数据；

数据提取模块200，用于从症状文本数据中提取得到症状特征数据；

数据输入模块300，用于将症状特征数据输入到知识图谱中，得到与症状特征数据对应的强关联症状数据和/或弱关联症状数据，其中，知识图谱由多个预设体质类别数据、多个预设的强关联症状数据和多个预设的弱关联症状数据构建得到，每一预设体质类别数据均对应有至少一个强关联症状数据，若干强关联症状数据分别对应有至少一个弱关联症状数据；

分数获取模块400，用于根据知识图谱与症状特征数据对应的强关联症状数据和/或弱关联症状数据，得到症状特征数据对应若干预设体质类别数据的分数数据；

体质确定模块500，用于根据症状特征数据对应若干预设体质类别数据的分数数据，确定症状特征数据对应的体质类别数据，其中，预设体质类别数据包括体质类别数据。

需说明的是，本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同，在此不再赘述。

另外，本发明一个实施例还提供了一种基于知识图谱的体质识别设备，该基于知识图谱的体质识别设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

需要说明的是，本发明实施例中的基于知识图谱的体质识别设备，可以应用为如上述实施例的基于知识图谱的体质识别方法，本发明实施例中的基于知识图谱的体质识别设备和如上述实施例的基于知识图谱的体质识别方法具有相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。

实现上述实施例的基于知识图谱的体质识别方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的基于知识图谱的体质识别方法，例如，执行以上描述的图1中的方法步骤S100至S500、图3中的方法步骤S310至S330、图4中的方法步骤S311至S312、图5中的方法步骤S321、图6中的方法步骤S331至S334、图7中的方法步骤S410至S430、图8中的方法步骤S510至S520。

以上所描述的基于知识图谱的体质识别设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

此外，本发明一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述基于知识图谱的体质识别设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于知识图谱的体质识别方法，例如，执行以上描述的图1中的方法步骤S100至S500、图3中的方法步骤S310至S330、图4中的方法步骤S311至S312、图5中的方法步骤S321、图6中的方法步骤S331至S334、图7中的方法步骤S410至S430、图8中的方法步骤S510至S520。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于知识图谱的体质识别方法，其特征在于，包括：

获取症状文本数据；

从所述症状文本数据中提取得到症状特征数据；

2.根据权利要求1所述的基于知识图谱的体质识别方法，其特征在于，所述知识图谱的构建过程，包括：

根据所述预设体质类别数据和所述强关联症状数据，得到所述强关联症状数据对应所述预设体质类别数据的第一权重数据；

根据所述强关联症状数据和所述弱关联症状数据，得到所述弱关联症状数据对应所述强关联症状数据的第二权重数据；

根据所述预设体质类别数据、所述强关联症状数据、所述弱关联症状数据、所述第一权重数据和所述第二权重数据，构建得到所述知识图谱。

3.根据权利要求2所述的基于知识图谱的体质识别方法，其特征在于，所述根据所述预设体质类别数据和所述强关联症状数据，得到所述强关联症状数据对应所述预设体质类别数据的第一权重数据，包括：

获取所述预设体质类别数据对应的正样本集和负样本集；

将所述正样本集和所述负样本集输入到预设的随机森林模型中，得到所述强关联症状数据对应所述预设体质类别数据的第一权重数据，其中，所述正样本集和所述负样本集包括所述强关联症状数据。

4.根据权利要求2所述的基于知识图谱的体质识别方法，其特征在于，所述根据所述强关联症状数据和所述弱关联症状数据，得到所述弱关联症状数据对应所述强关联症状数据的第二权重数据，包括：

利用关联规则算法，对所述强关联症状数据和所述弱关联症状数据之间的共现频率进行计算，得到所述弱关联症状数据对应所述强关联症状数据的第二权重数据。

5.根据权利要求2所述的基于知识图谱的体质识别方法，其特征在于，所述根据所述预设体质类别数据、所述强关联症状数据、所述弱关联症状数据、所述第一权重数据和所述第二权重数据，构建得到所述知识图谱，包括：

根据图数据库，分别构建多个体质类别节点、每一所述体质类别节点对应连接的强关联症状节点与若干所述强关联症状节点对应连接的弱关联症状节点，其中，所述体质类别节点对应所述预设体质类别数据，所述强关联症状节点对应所述强关联症状数据，弱关联症状节点对应所述弱关联症状数据；

根据所述第一权重数据，对每一所述强关联症状节点对应所述体质类别节点间的第一权重进行赋值，得到第一权重赋值数据；

根据所述第二权重数据，对每一所述弱关联症状节点对应所述强关联症状节点间的第二权重进行赋值，得到第二权重赋值数据；

根据所述体质类别节点、所述强关联症状节点、所述弱关联症状节点、所述第一权重赋值数据和所述第二权重赋值数据，得到所述知识图谱。

6.根据权利要求5所述的基于知识图谱的体质识别方法，其特征在于，所述根据所述知识图谱与所述症状特征数据对应的所述强关联症状数据和/或所述弱关联症状数据，得到所述症状特征数据对应若干所述预设体质类别数据的分数数据，包括：

当所述症状特征数据对应所述强关联症状节点，获取所述强关联症状节点对应所述体质类别节点的第一权重赋值数据；

当所述症状特征数据对应所述弱关联症状节点，获取所述弱关联症状节点对应所述强关联症状节点的第二权重赋值数据；

根据所述第一权重赋值数据和/或所述第二权重赋值数据，计算得到所述症状特征数据对应所述知识图谱中若干所述体质类别节点对应的分数数据。

7.根据权利要求6所述的基于知识图谱的体质识别方法，其特征在于，所述根据所述症状特征数据对应若干所述预设体质类别数据的所述分数数据，确定所述症状特征数据对应的体质类别数据，包括：

从所述症状特征数据对应所述知识图谱中若干所述体质类别节点对应的所述分数数据中，确定最大分数数据；

将所述最大分数数据对应的所述体质类别节点的所述预设体质类别数据，作为所述症状特征数据对应的所述体质类别数据。

8.一种基于知识图谱的体质识别装置，其特征在于，包括：

数据获取模块，用于获取症状文本数据；

9.一种基于知识图谱的体质识别设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于知识图谱的体质识别方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的基于知识图谱的体质识别方法。