CN116130088A

CN116130088A - 多模态面诊问诊方法、装置及相关设备

Info

Publication number: CN116130088A
Application number: CN202310067920.4A
Authority: CN
Inventors: 刘伟华; 左勇; 林超超; 肖恒玉
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-05-16

Abstract

本发明公开了一种多模态面诊问诊方法、装置、计算机设备及存储介质，所述方法包括：获取面诊用户的图像数据和文本数据，图像数据包括面部图像，文本数据包括病情描述文本；将图像数据和文本数据融合并得到面诊融合数据；将面诊融合数据输入至目标检测网络确定面部图像中的五官位置，并基于该位置进行裁剪得到包含五官的裁剪图像；将裁剪图像输入至分类网络得到分类结果；基于面诊数据库对分类结果进行匹配查询，输入与该分类结果关联的体质状态和调理策略。采用本发明可以提高面诊问诊的灵活性，提高面诊结果的准确性。

Description

多模态面诊问诊方法、装置及相关设备

技术领域

本发明涉及自然语言处理和计算机视觉领域，尤其涉及一种多模态面诊问诊方法、装置、计算机设备及存储介质。

背景技术

中医在我国的应用已有上千年的历史，通过“望，闻，问，切”等手段探究病因，探求病位。通过长期大量的实践，发现不同病色反映不同病症的规律，通过观察面部形态、颜色、皮肤等改变，可以得知脏腑、经络、气血功能的状态，并以此判断人体全身与局部的病变情况，这样就可以通过面诊发现疾病的迹象，从而可以及时有效的避免疾病的发生。

传统的面诊问诊技术是中医重要的诊疗方法之一，面诊时由医生或专家通过观察患者面部形态、颜色、皮肤等改变，判断患者脏腑、经络、气血功能的状态，然后经过相关判断后为患者提供相关建议。但是这种方式不够灵活，受到时间和空间上的限制，且严重依赖于医生的专业知识与肉眼观察到的患者的面部特征，另外由于各个医生的水平不一致，对面部特征无法进行客观的量化分析，导致其结果存在一定的主观性，不够准确。

因此，如何提高面诊问诊的灵活性，对面部特征进行准确分析从而保证面诊结果的准确性是目前亟待解决的问题。

发明内容

本发明实施例提供一种多模态面诊问诊方法、装置、计算机设备和存储介质，能够提高面诊问诊的灵活性，提高面诊结果的准确性。

为了解决上述技术问题，本申请实施例提供一种多模态面诊问诊方法，包括以下步骤：获取面诊用户的面诊数据，所述面诊数据包括图像数据和文本数据，所述图像数据包括用户的面部图像，所述文本数据包括用户的病情描述文本；将所述图像数据和所述文本数据进行融合处理，得到面诊融合数据；将所述面诊融合数据输入至目标检测网络，确定所述面部图像中的五官位置，并基于所述五官位置对所述面部图像进行裁剪，得到包含五官的裁剪图像；将所述裁剪图像输入至分类网络，得到分类结果，所述分类结果包括所述用户的面诊特征；基于面诊数据库对所述分类结果进行匹配查询，输出与所述分类结果关联的体质状态和调理策略，其中，所述面诊数据库包括关联表，所述关联表记录了面诊特征、体质状态和调理策略的映射关系。

在一种可能的实现方式中，对所述图像数据和所述文本数据分别进行预处理，得到所述图像数据对应的图像特征和所述文本数据对应的文本语义特征；利用注意力机制对所述图像特征和所述文本语义特征进行特征融合，确定所述图像特征和所述文本语义特征之间的依赖关系，得到所述面诊融合数据。

在另一种可能的实现方式中，所述文本数据包括用户输入的文字或语音信息，利用语音识别算法将所述用户语音信息映射为数字信息，并提取得到所述数字信息中的梅尔倒谱系数特征；基于所述梅尔倒谱系数特征，建立语音特征和音素的映射关系并计算得到所述音素的先验概率；根据所述先验概率对所述数字信息进行解码，得到所述文本语义特征。

在另一种可能的实现方式中，获取样本面诊数据，所述样本面诊数据包括样本图像数据和与所述样本图像数据对应的样本文本数据，所述样本图像数据包括样本面部图像，所述样本文本数据包括病情描述文本；对所述样本面部图像中的五官位置进行位置标注，对所述样本面部图像中的整体面部进行神经特征标注和颜色特征标注，对所述样本面部图像中的五官进行颜色特征标注，其中，所述神经特征包括有神、无神、少神和假神，所述颜色特征包括青色、赤色、黄色、白色和黑色。

在另一种可能的实现方式中，将经过标注的样本面诊数据输入至初始目标检测网络；所述初始目标检测网络确定所述样本面部图像中的五官位置，并将得到的五官位置与所述位置标注进行比对，计算得到位置损失函数；根据所述位置损失函数对所述初始目标检测网络中的参数和权重进行调整，得到所述目标检测网络。

在另一种可能的实现方式中，将经过标注的样本面诊数据输入至初始分类网络；所述初始分类网络确定所述样本面部图像中完整面部的神经特征和颜色特征，以及所述样本面部图像中五官的颜色特征，并将得到的完整面部的神经特征和颜色特征与所述样本面部图像中的整体面部神经特征标注和颜色特征标注进行比对，计算得到完整面部神经特征和颜色特征损失函数，将得到的五官的颜色特征与所述样本面部图像中的五官颜色特征标注进行比对，计算得到五官颜色特征损失函数；根据所述完整面部神经特征和颜色特征损失函数和五官颜色特征损失函数对所述初始分类网络中的参数和权重进行调整，得到所述分类网络。

在另一种可能的实现方式中，通过用户交互模块输出与所述分类结果关联的体质状态和调理策略至终端设备进行显示，所述终端设备包括与所述面诊用户关联的电子设备。

为了解决上述技术问题，本申请实施例还提供一种面诊数据处理装置，包括：数据获取模块，用于获取面诊用户的面诊数据，所述面诊数据包括图像数据和文本数据，所述图像数据包括用户的面部图像，所述文本数据包括用户的病情描述文本；融合模块，用于将所述图像数据和所述文本数据进行融合处理，得到面诊融合数据；检测模块，用于确定所述面部图像中的五官位置，并基于所述五官位置对所述面部图像进行裁剪，得到包含五官的裁剪图像；分类模块，用于对所述裁剪图像进行分类，得到分类结果，所述分类结果包括用户的面诊特征；匹配查询模块，用于基于面诊数据库对所述分类结果进行匹配查询，输入与所述分类结果关联的体质状态和调理策略，其中，所述面诊数据库包括关联表，所述关联表记录了面诊特征、体质状态和调理策略的映射关系。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的多模态面诊问诊方法、装置、计算机设备及存储介质，通过获取面诊用户的面部图像和病情描述文本，并将其进行融合得到融合数据，然后利用目标检测网络确定面部图像中的五官位置，接着利用分类网络进一步分析得到完整面部对应的神经特征和颜色特征，以及五官对应的颜色特征，最后根据得到的这些特征与面诊数据库中搜索，查找出与这些特征相匹配的体质状态和调理策略，并输出反馈给面诊用户。通过这种方式，可以提高面诊问诊的灵活性，打破时间和空间对面诊用户造成的困扰，帮助用户摆脱固有问诊场景的限制，提高用户的体验，同时利用目标检测网络和分类网络对面诊数据进行处理，不需要人为参与，进一步提高了面诊结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图。

图2是本申请的多模态面诊问诊方法的一个实施例的流程图。

图3是本申请的五官位置检测的一个示意图。

图4是本申请的网络训练过程的一个实施例的流程图。

图5是根据本申请的面诊数据处理装置的一个实施例的结构示意图。

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。网络120用以在终端设备110和服务器130之间提供通信链路的介质。网络120可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备110通过网络120与服务器130交互，以接收或发送消息等。

终端设备110可以是具有显示屏并且支持网页浏览和拍摄功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器130可以是提供各种服务的服务器，例如对终端设备110上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的多模态面诊问诊方法由服务器执行，相应地，面诊数据处理装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备110具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种多模态面诊问诊方法，以该方法应用在图1中的服务端为例进行说明，详述如下。

S201、获取面诊用户的面诊数据。

具体地，面诊用户可以通过终端设备(例如手机)拍摄包含自己整个面部图像的照片，然后将感受最明显的病症描述以文字或语音的方式将其输入至终端设备，并将该照片以及相对应的病情描述文本通过网络发送至服务器，或者是将预先存储的包含整个面部图像的照片以及照片对应的病情描述文本发送至服务器，由服务器对该照片以及病情描述文本进行进一步处理。需要说明的是，不管是拍摄得到的图像还是预先存储的图像都是RGB三通道图像，包括正面、左侧面和右侧面三部分，即针对同一个面诊用户来说，可以同时获取正面面部图像、左侧面面部图像和右侧面面部图像。

可选的，服务器在接收到面诊用户的面诊数据之后，对该面诊数据进行预处理，例如将面部图像进行缩放处理，将图像缩放到同一尺度，或对面部图像进行归一化和减均值处理，从而保证在后续处理过程中，所有的数据都具有统一性，提高数据处理效率，以及对病情描述文本进行分词和停用词处理，使用词向量模型对其进行向量化。

S202、将图像数据和文本数据进行融合处理，得到面诊融合数据。

具体地，服务器在接收到用户面部图像和病情描述文本后，对用户面部图像进行预处理可以得到相应的图像特征，对病情描述文本进行预处理后可以得到相应的文本语义特征，然后针对图像特征和文本语义特征，采用注意力机制方式增强特征信息，即通过卷积以及一系列线性和非线性变换捕获图像特征和文本语义特征之间的依赖关系，实现多模态的特征融合，从而得到融合数据。

可以理解，相较于仅获取面诊用户正面面部图像并进行特征提取，本申请可以同时获取面诊用户的正面面部图像、左侧面面部图像和右侧面面部图像并进行特征提取，并将提取到的图像特征与文本语义特征进行融合，并依据融合结果完成后续的数据处理和判断，从而可以提高面诊结果专业性和准确性。

在一种可能的实现方式中，所述文本数据包括用户语音信息，利用语音识别算法将所述用户语音信息映射为数字信息，并提取得到所述数字信息中的梅尔倒谱系数特征；基于所述梅尔倒谱系数特征，建立语音特征和音素的映射关系并计算得到所述音素的先验概率；根据所述先验概率对所述数字信息进行解码，得到所述文本语义特征。

具体地，面诊用户在通过语音输入病情描述文本时，需要使用语音识别(ASR)算法，例如基于动态时间规整算法(DTW)、基于参数模型的隐马尔科夫模型算法(HMM)等，通过编码过程将语音信息映射为数字信息，然后提取其中的梅尔倒谱系数(MFCC)特征进行处理，然后利用DNN-HMM声学模型建立关于语音特征和音素的映射关系，利用基于循环神经网络(RNN)的语言模型计算音素的先验概率，最后将编码得到的向量解码为文本内容，进而可以得到文本语义特征。

S203、将面诊融合数据输入至目标检测网络，确定面部图像中的五官位置。

具体地，将经过融合处理之后的面诊融合数据输入至目标检测网络进行检测，目标检测网络提取面部图像的面部轮廓，然后对该面部轮廓的不同区域分别进行检测，并将检测到的五官位置通过边界框在面部图像中标注出来，五官为眼部、鼻部、耳部、嘴部和额头部，它们位于面部图像的不同区域，最后根据边界框对面部图像进行裁剪完成五官区域切割，将整个面部分割为5个子区域，每个子区域包含不同的器官。如图3所示，面部图像在经过目标检测网络之后，将会用矩形框标出图像中的眼部、鼻部、耳部、嘴部和额头部。

需要说明的是，目标检测网络是基于卷积神经网络构建的检测模型，例如YOLO模型，在利用其进行目标检测之前，需要先对其进行训练以使得其具备目标检测能力，后面将对目标检测网络的训练过程进行详细说明。

S204、将裁剪图像输入至分类网络，得到分类结果。

具体地，在经过目标检测网络初步处理之后，得到包含五官的裁剪图像，然后分类网络对裁剪图像以及整体面部图像进行进一步的运算和分析，并输出该裁剪图像所包含的五官对应的颜色特征，例如眼部颜色、鼻部颜色、耳部颜色、嘴部颜色和额头部颜色等，以及整体面部图像对应的神色特征，例如有神且为白色、少神且为黄色、无神且为黑色等，五官的颜色特征与整体面部的神色特征统称为用户的面诊特征。

值得说明的是，分类网络与目标检测网络类似，也是基于卷积神经网络构建的分类模型，例如ResNet网络模型，在利用其进行分类之前，同样需要先对其进行训练以使其具备分类能力，后面将对分类网络的训练过程进行详细说明。

S205、基于面诊数据库对分类结果进行匹配查询，输出与分类结果关联的体质状态和调理策略。

具体地，分类网络通过分析得到完整面部的神色特征和五官的颜色特征之后，遍历面诊数据库，该数据库是通过知识图谱和专家知识预先建立的，其中存储了不同面诊特征及其对应的体质状态和调理策略，因此，在遍历过程中，通过已经得到的面诊特征，可以找到与之匹配的体质特征和调理策略，其中，调理策略可以包括饮食调养、药品干预、情志调养、保健穴位、运动建议等。

可选的，服务器在查找到相对应的体质状态和调理策略之后，将其发送至与用户关联的终端设备上进行显示，面诊用户可以直观的获取到面诊结果和相关建议，这样可以帮助用户不受地域和时间的限制，可以随时随地的进行面诊问诊并准确的获得面诊结果及相关调理策略，提升了用户体验。

下面将对目标检测网络的训练过程和分类网络的训练过程进行说明，请参见图4。

S401、获取样本面诊数据。

具体地，样本面诊数据包括样本图像数据和与该样本图像数据对应的样本文本数据，基于已有的图像采集终端，在真实自然开放环境下采集RGB三通道的样本面部图像，包括正面、左侧面和右侧面三部分，或者是从面部图像数据库中获取面部图像，并构建样本面部图像和对应病情描述文本的样本对，即每一个面部图像都有一个相对应的病情描述文本。

需要说明的是，在获取样本面诊数据的过程中，需要采集具备不同面诊特征的舌象图像，从而扩大模型的适用范围。

S402、对样本面部图像进行标注。

具体地，在得到样本面部图像之后，由中医专家对每个样本面部图像进行标注，主要标注整体面部的神经特征和颜色特征、五官的类型和位置以及五官对应的颜色特征，其中，神经特征包括有神、无神、少神和假神，颜色特征包括青色、赤色、黄色、白色和黑色。容易理解，通过中医专家完成标注过程，这样可以进一步提高标注的准确性，从而提高面诊结果的准确性。

可选的，在完成样本面部图像标注之后，可以对标注后的面部图像进行筛选、图像缩放、归一化等处理，对该面部图像对应的样本文本进行分词和停用词处理并进行向量化。

S403、将标注好的样本面诊数据输入至初始目标检测网络进行训练。

具体地，初始目标检测网络在输入样本面部图像之后，检测人脸的五个区域，并利用方框在样本面部图像中分别将五官框起来，然后与专家所标注的方框进行比较，计算得到位置损失函数，根据该位置损失函数对初始目标检测网络中的参数和权重进行调整，通过不断的迭代执行，即不断调整网络中的参数和权重，直至检测网络所输出的五官位置与专家所标注的五官位置的误差小于阈值(或位置损失函数收敛)，此时，目标检测网络训练完成，其已经具备目标(五官)检测的能力。

S404、将标注好的样本面诊数据输入分类网络进行训练。

具体地，目标检测网络在训练完成具备五官检测能力之后，对样本面部图像进行五官检测，然后根据检测后区域的边界框在样本面部图像上进行五官区域裁剪，将整个面部分割成五个子区域，每个子区域包含一个器官。

进一步的，将样本面部图像以及对该样本面部图像分割裁剪得到的五个子区域裁剪图像输入到初始分类网络，初始分类网络进行相关运算和分析，得到面诊特征，即完整面部的神经特征和颜色特征以及五官的颜色特征，然后将完整面部的神色特征与专家所标注的完整面部神色特征进行比对，计算得到完整面部神色特征损失函数，将五官颜色特征与专家所标注的五官颜色特征进行比对，计算得到五官颜色特征损失函数，估计该完整面部神色特征损失函数和五官颜色特征损失函数对初始分类网络中的参数和权重进行调整，通过不断迭代执行，直至分类网络所输出的完整面部神色特征与专家所标注的完整面部神色特征的误差小于阈值(即完整面部神色特征损失函数收敛)以及五官颜色特征与专家所标注的五官颜色特征的误差小于阈值(即五官颜色特征损失函数收敛)，此时，分类网络训练完成，分类网络具备了对完整面部神色分类以及对五官颜色分类的能力。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图5示出与上述实施例多模态面诊问诊方法一一对应的面诊数据处理装置的原理框图。如图5所示，该面诊数据处理装置500包括数据获取模块510、融合模块520、检测模块530、分类模块540、匹配查询模块550。各功能模块详细说明如下。

数据获取模块510，用于获取面诊用户的面诊数据，所述面诊数据包括图像数据和文本数据，所述图像数据包括用户的面部图像，所述文本数据包括用户的病情描述文本。

融合模块520，用于所述图像数据和所述文本数据进行融合处理，得到面诊融合数据。

检测模块530，用于确定所述面部图像中的五官位置，并基于所述五官位置对所述面部图像进行裁剪，得到包含五官的裁剪图像。

分类模块540，用于对所述裁剪图像进行分类，得到分类结果，所述分类结果包括用户的面诊特征。

匹配查询模块550，用于基于面诊数据库对所述分类结果进行匹配查询，输入与所述分类结果关联的体质状态和调理策略，其中，所述面诊数据库包括关联表，所述关联表记录了面诊特征、体质状态和调理策略的映射关系。

关于面诊数据处理装置的具体限定可以参见上文中对于多模态面诊问诊方法的限定，在此不再赘述。上述面诊数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

所述计算机设备600包括通过系统总线相互通信连接存储器610、处理器620、网络接口630。需要指出的是，图中仅示出了具有组件连接存储器610、处理器620、网络接口630的计算机设备600，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器610至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器610可以是所述计算机设备600的内部存储单元，例如该计算机设备600的硬盘或内存。在另一些实施例中，所述存储器610也可以是所述计算机设备600的外部存储设备，例如该计算机设备600上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器610还可以既包括所述计算机设备600的内部存储单元也包括其外部存储设备。本实施例中，所述存储器610通常用于存储安装于所述计算机设备600的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器620在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器620通常用于控制所述计算机设备600的总体操作。本实施例中，所述处理器620用于运行所述存储器610中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口630可包括无线网络接口或有线网络接口，该网络接口630通常用于在所述计算机设备600与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的图像库构建方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种多模态面诊问诊方法，其特征在于，所述方法包括：

获取面诊用户的面诊数据，所述面诊数据包括图像数据和文本数据，所述图像数据包括用户的面部图像，所述文本数据包括用户的病情描述文本；

将所述图像数据和所述文本数据进行融合处理，得到面诊融合数据；

将所述面诊融合数据输入至目标检测网络，确定所述面部图像中的五官位置，并基于所述五官位置对所述面部图像进行裁剪，得到包含五官的裁剪图像；

将所述裁剪图像输入至分类网络，得到分类结果，所述分类结果包括所述用户的面诊特征；

基于面诊数据库对所述分类结果进行匹配查询，输出与所述分类结果关联的体质状态和调理策略，其中，所述面诊数据库包括关联表，所述关联表记录了面诊特征、体质状态和调理策略的映射关系。

2.如权利要求1所述的方法，其特征在于，所述将所述图像数据和所述文本数据进行融合处理，得到面诊融合数据包括：

对所述图像数据和所述文本数据分别进行预处理，得到所述图像数据对应的图像特征和所述文本数据对应的文本语义特征；

利用注意力机制对所述图像特征和所述文本语义特征进行特征融合，确定所述图像特征和所述文本语义特征之间的依赖关系，得到所述面诊融合数据。

3.如权利要求2所述的方法，其特征在于，所述文本数据包括用户输入的文字或语音信息，对所述文本数据进行预处理得到所述文本数据对应的文本语义特征包括：

利用语音识别算法将所述用户语音信息映射为数字信息，并提取得到所述数字信息中的梅尔倒谱系数特征；

基于所述梅尔倒谱系数特征，建立语音特征和音素的映射关系并计算得到所述音素的先验概率；

根据所述先验概率对所述数字信息进行解码，得到所述文本语义特征。

4.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取样本面诊数据，所述样本面诊数据包括样本图像数据和与所述样本图像数据对应的样本文本数据，所述样本图像数据包括样本面部图像，所述样本文本数据包括病情描述文本；

对所述样本面部图像中的五官位置进行位置标注，对所述样本面部图像中的整体面部进行神经特征标注和颜色特征标注，对所述样本面部图像中的五官进行颜色特征标注，其中，所述神经特征包括有神、无神、少神和假神，所述颜色特征包括青色、赤色、黄色、白色和黑色。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

将经过标注的样本面诊数据输入至初始目标检测网络；

所述初始目标检测网络确定所述样本面部图像中的五官位置，并将得到的五官位置与所述位置标注进行比对，计算得到位置损失函数；

根据所述位置损失函数对所述初始目标检测网络中的参数和权重进行调整，得到所述目标检测网络。

6.如权利要求4所述的方法，其特征在于，所述方法还包括：

将经过标注的样本面诊数据输入至初始分类网络；

所述初始分类网络确定所述样本面部图像中完整面部的神经特征和颜色特征，以及所述样本面部图像中五官的颜色特征，并将得到的完整面部的神经特征和颜色特征与所述样本面部图像中的整体面部神经特征标注和颜色特征标注进行比对，计算得到完整面部神经特征和颜色特征损失函数，将得到的五官的颜色特征与所述样本面部图像中的五官颜色特征标注进行比对，计算得到五官颜色特征损失函数；

根据所述完整面部神经特征和颜色特征损失函数和五官颜色特征损失函数对所述初始分类网络中的参数和权重进行调整，得到所述分类网络。

7.如权利要求1所述的方法，其特征在于，所述输出与所述分类结果关联的体质状态和调理策略，包括：

通过用户交互模块输出与所述分类结果关联的体质状态和调理策略至终端设备进行显示，所述终端设备包括与所述面诊用户关联的电子设备。

8.一种面诊数据处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取面诊用户的面诊数据，所述面诊数据包括图像数据和文本数据，所述图像数据包括用户的面部图像，所述文本数据包括用户的病情描述文本；

融合模块，用于将所述图像数据和所述文本数据进行融合处理，得到面诊融合数据；

检测模块，用于确定所述面部图像中的五官位置，并基于所述五官位置对所述面部图像进行裁剪，得到包含五官的裁剪图像；

分类模块，用于对所述裁剪图像进行分类，得到分类结果，所述分类结果包括用户的面诊特征；

匹配查询模块，用于基于面诊数据库对所述分类结果进行匹配查询，输入与所述分类结果关联的体质状态和调理策略，其中，所述面诊数据库包括关联表，所述关联表记录了面诊特征、体质状态和调理策略的映射关系。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。