CN113488200B

CN113488200B - 智能问诊的方法、装置、计算机设备及存储介质

Info

Publication number: CN113488200B
Application number: CN202110844310.1A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-07-25
Anticipated expiration: 2041-07-26
Also published as: CN113488200A

Abstract

本发明公开了一种智能问诊的方法，应用于人工智能技术领域，用于解决目前的智能问诊系统诊断出的病症准确性不高、误诊风险大的技术问题。本发明提供的方法包括：获取用于描述用户的病症的语音数据，通过语音语义识别网络对所述语音数据进行特征提取，得到病症语音特征；获取拍摄有所述用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；获取拍摄有用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到融合特征；将该融合特征输入至预先训练好的疾病预测模型的分类器，得到所述用户所患疾病的最终预测结果。

Description

智能问诊的方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能问诊的方法、装置、计算机设备及存储介质。

背景技术

随着老龄化社会的到来，医疗服务的市场前景巨大。在看病的过程中，问诊是很重要的过程。传统的问诊方式是让有经验的医生与患者一对一的沟通，然而，有经验的医生数量不多，难以应付庞大的患者群体，有些患者甚至需要长途跋涉来到大医院问诊，这样的问诊方式很低效，小医院的医生没有经验也很容易误诊。

随着互联网和人工智能技术的发展，最近几年出现了一些小型的问诊系统，通过简单的预先设置好的对话和辅助选项来实现智能问诊。但是这种问诊系统也存在弊端，一方面，患者很难将自己所有的症状都完整描述出来，另一方面，对话诊断的方式无法像有经验的医生通过观察患者的表情、面貌、身体异样来进行提问和综合诊断，最终导致智能问诊诊断出的病症准确性不高，误诊风险大。

发明内容

本发明实施例提供一种智能问诊的方法、装置、计算机设备及存储介质，以解决目前的智能问诊系统诊断出的病症准确性不高、误诊风险大的技术问题。

一种智能问诊的方法，该方法包括：

获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征；

获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；

获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；

将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征；

将该融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果。

一种智能问诊的装置，该装置包括：

语音特征提取模块，用于获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征；

图像特征提取模块，用于获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；

视频特征提取模块，用于获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；

融合模块，用于将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到融合特征；预测模块，用于将所述融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述智能问诊的方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述智能问诊的方法的步骤。

本发明提出的智能问诊的方法、装置、计算机设备及存储介质，通过获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征；获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征；将该融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果，本发明用于进行最终结果预测的融合特征综合考虑了用于描述用户病症的语音数据、拍摄有该用户病症的图像和拍摄有该用户病症的视频，提高智能问诊诊断出的病症的准确性，降低智能问诊出现误诊的风险。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中智能问诊的方法的一应用环境示意图；

图2是本发明一实施例中智能问诊的方法的一流程图；

图3是本发明一实施例中训练疾病预测模型的一流程图；

图4是本发明一实施例中智能问诊模型的一网络结构示意图；

图5是本发明一实施例中智能问诊的装置的结构示意图；

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的智能问诊的方法，可应用在如图1的应用环境中，其中，该计算机设备通过网络与服务器进行通信。其中，该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图1所示，提供一种智能问诊的方法，以该方法应用在图1中的计算机设备为例进行说明，包括如下步骤S101至S105：

S101、获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征。

可以理解的是，该用于描述用户病症的语音数据可以是本端移动终端实时接收的用户输入的语音，也可以是存储在本端计算机设备中的语音数据，还可以是接收到的其它外部设备发送的语音数据。该语音数据主要用于语音描述用户的病症。

进一步地，该语音语义识别网络可以这样实现：基于docker分布式技术，创建一个容器作为语言识别模块，其中部署经典的语音语义识别网络DNN(Deep Neural Networks，深度神经网络)+LM(Language Model，神经网络语言模型)。

可以理解的是，该语音语义识别网络需要预先进行训练，该语音语义识别网络作为语音特征提取器可以将该语音语义识别网络部署在语音疾病预测模型上，例如部署在DNN深度神经网络上，该语音语义识别网络后面连接一个Softmax分类器作为语音特征的分类器，训练样本可以选用确诊用户的样本语音，将该确诊用户的确诊疾病作为待训练的语音疾病预测模型的输出目标，通过该语音样本对该待训练的语音疾病预测模型进行训练，当该待训练的语音疾病预测模型对该语音样本的输出结果与该确诊用户的确诊疾病相同时，得到训练好的语音疾病预测模型，可将该训练好的语音疾病预测模型中的语音特征提取器(即语音语义识别网络)应用在步骤S101中。

在其中一个实施例中，在获取用于描述用户的病症的语音数据的步骤之后，该方法还包括：

将该用户的病症的语音数据转换为梅尔频谱；

该通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征的步骤具体包括：

通过该语音语义识别网络对该梅尔频谱进行特征提取，得到病症语音特征。

该语音数据对应的声谱图往往是很大的一张声谱图，声音信号是一维的时域信号，直观上很难看出频率变化规律，为了得到合适大小的声音特征和规律的变化频率，可以通过梅尔标度滤波器组(mel-scale filter banks)将该语音数据变换为梅尔频谱。

S102、获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征。

可以理解的是，该拍摄有用户病症的图像例如拍摄有湿疹病人的病症区域皮肤的图片，拍摄有红眼病病人的眼睛的图片等等。

在其中一个实施例中，该图像语义提取网络可以这样实现：基于docker分布式技术，创建一个容器作为图片处理模块，其中部署经典的图像语义提取网络Yolov5。

可以理解的是，该图像语义提取网络也需要预先进行训练，该图像语义提取网络作为图像特征提取器可以将该图像语义提取网络部署在图像疾病预测模型上，同样也可以部署在DNN深度神经网络上，该图像语义识别网络后面连接一个Softmax分类器作为图像特征的分类器，训练样本可以选用确诊用户的样本图像，将该确诊用户的确诊疾病作为待训练的图像疾病预测模型的输出目标，通过该图像样本对该待训练的图像疾病预测模型进行训练，当该待训练的图像疾病预测模型对该图像样本的输出结果与该确诊用户的确诊疾病相同时，得到训练好的图像疾病预测模型，可将该训练好的图像疾病预测模型中的图像语义识别网络应用在步骤S102中。

S103、获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征。

在其中一个实施例中，该视频语义提取网络可以这样实现：基于docker分布式技术，创建一个容器作为视频处理模块，其中部署经典的视频行为识别网络Yolov5，并且将视频语义提取网络的输出语义作为视频病症分类器的输入。

在其中一个实施例中，拍摄有该用户病症的视频例如拍摄的用户癫痫发作时的视频、拍摄的用户梦游时的视频等。可以理解的是，该拍摄有该用户病症的视频可以是本端移动终端实时拍摄的病人发病时的视频，也可以是存储在本端计算机设备中的视频，还可以是接收到的其它外部设备发送的视频数据。该视频主要用于记载用户发病时的病症表现。

可以理解的是，该视频语义提取网络也需要预先进行训练，该视频语义提取网络作为视频特征提取器可以将该视频语义提取网络部署在视频疾病预测模型上，该视频疾病预测模型例如可以选用DNN深度神经网络，该视频语义识别网络后面连接一个Softmax分类器作为视频特征的分类器，训练样本可以选用确诊用户的样本视频，将该确诊用户的确诊疾病作为待训练的视频疾病预测模型的输出目标，通过该视频样本对该待训练的视频疾病预测模型进行训练，当该待训练的视频疾病预测模型对该视频样本的输出结果与该确诊用户的确诊疾病相同时，得到训练好的视频疾病预测模型，可将该训练好的视频疾病预测模型中的视频语义识别网络应用在步骤S103中。

S104、将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征。

在其中一个实施例中，该融合特征也可以通过拼接得到，即将该病症语音特征、该病症图像特征和该病症视频特征进行拼接得到该融合特征，但是拼接后的融合特征在横向或者纵向的维度会增加，而通过堆叠融合得到的融合特征的维度与进行升维/降维后的同一维度相同，本实施例优选通过堆叠融合得到该融合特征，使得利用堆叠融合得到的融合特征参与后续计算时，可以降低计算量，提高疾病预测模型的训练速度和预测速度。

在其中一个实施例中，该将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征的步骤包括：

通过merge函数将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到该融合特征。

使用merge函数去融合该病症语音特征、该病症图像特征和该病症视频特征，其强大之处在于可以在不同的数据框中标识共同的列或行，以便于该融合特征包含该病症语音特征、该病症图像特征和该病症视频特征中更多相同的信息，以将用户的病症特征集中化，进一步提高该疾病预测模型的预测准确性。

在其中一个实施例中，在该通过merge函数将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到该融合特征的步骤之前，该方法还包括：

对该病症语音特征进行升维处理；

对该病症图像特征和该病症视频特征进行降维处理，使得该病症图像特征和该病症视频特征的维度均与该病症语音特征的维度相同。

在通过merge函数进行堆叠融合操作时，需要将该病症语音特征、该病症图像特征和该病症视频特征作为数据输入，输入至该merge函数，即可得到该融合特征。

由于病症语音特征是一维向量，该病症图像特征和该病症视频特征都为三维向量，对该病症语音特征进行升维处理，将一维的病症语音特征转换为二维的病症语音特征，同时对该病症图像特征和该病症视频特征进行降维处理，将三维的病症图像特征和病症视频特征转成二维特征，便于对该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合。

可以理解的是，进行堆叠融合后得到的融合特征的特征维度与升维后的病症语音特征、降维处理后的病症图像特征和病症视频特征的维度相同。S105、将该融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果。

图3是本发明一实施例中训练疾病预测模型的一流程图，在其中一个实施例中，如图3所示，训练该疾病预测模型的步骤包括以下步骤S301至S303：

S301、获取同一确诊用户的样本语音、拍摄有该确诊用户的病症的样本图像和样本视频，作为训练样本，该样本语音用于描述该确诊用户的病症；

S302、将该确诊用户的确诊疾病作为待训练的该疾病预测模型的输出目标，通过该训练样本对该待训练的疾病预测模型进行训练；

S303、当该待训练的疾病预测模型对该训练样本的输出结果与该确诊用户的确诊疾病相同时，得到训练好的疾病预测模型。

图4是本发明一实施例中智能问诊模型的一网络结构示意图，本实施例提出的智能问诊模型参照图4所示，包括语音语义识别网络、图像语义识别网络和视频语义识别网络，图4中的x、y、z分别表示用于描述用户病症的语音数据、拍摄有用户病症的图像以及拍摄有用户病症的视频，其中x’、y’、z’分别表示病症语音特征、病症图像特征和病症视频特征，图4中的“C”表示堆叠融合操作，最终通过堆叠融合得到的融合特征对该用户的病症进行预测。

如图4所示，可以理解的是，该疾病预测模型包括语音语义识别网络、图像语义提取网络、视频语义提取网络和分类器，该疾病预测模型的分类器也可以选用Softmax分类器，由于语音语义识别网络、图像语义提取网络、视频语义提取网络已在前期训练完成，在训练该疾病预测模型时，主要是调节该疾病预测模型的分类器的参数，使得该疾病预测模型的预测结果更接近真实的确诊结果。

可以理解的是，该疾病预测模型的分类器预测出的结果为疾病的置信度，置信度越高表示该用户得该病的可能性越大，可以将置信度最高的疾病作为该用户所患疾病的最终预测结果。例如在该分类器的预测结果中，用户得湿疹的置信度为70％，得皮炎的置信度为30％，则该疾病预测模型的分类器的最终预测结果为湿疹。

本发明提出的智能问诊的方法，通过获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征；获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征；将该融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果，本实施例用于进行最终结果预测的融合特征综合考虑了用于描述用户病症的语音数据、拍摄有该用户病症的图像和拍摄有该用户病症的视频，提高智能问诊诊断出的病症的准确性，降低智能问诊出现误诊的风险。

在其中一个实施例中，在该得到该用户所患疾病的最终预测结果的步骤之后，该方法还包括：

获取与该最终预测结果对应保存的注意事项；

显示该注意事项。

可以理解是，该计算机设备的存储器中预先存储有与各种疾病一一对应的注意事项，例如与湿疹对应的注意事项为：避免食用海鲜等过敏性食物、避免接触花粉、注意保持皮肤干燥、涂润肤霜等。

本实施例通过将与预测结果对应保存的注意事项进行显示，便于在预测出用户得某一种疾病后，能够便捷地了解得该病的注意事项，可以避免患者的病症进一步加重。

获取与该最终预测结果对应保存的诊疗方案；

显示该诊疗方案。

可以理解是，该计算机设备的存储器中预先存储有与各种疾病一一对应的诊疗方案，例如与感冒相对应的诊疗方案、与湿疹相对应的诊疗方案等。

本实施例通过显示与预测结果对应保存的诊疗方案，便于在预测出用户得某一种疾病后，给出诊疗建议，一方面使得用户对于小病可以自行处理、居家治疗，另一方面，在用户对于智能问诊模型给出的诊疗方案不十分确信时，也便于用户在医院实际挂号时挂对科室，避免挂错科室耽误病人的治疗时间。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种智能问诊的装置，该智能问诊的装置与上述实施例中智能问诊的方法一一对应。如图5所示，该智能问诊的装置100包括语音特征提取模块11、图像特征提取模块12、视频特征提取模块13、融合模块14和预测模块15。各功能模块详细说明如下：

语音特征提取模块11，用于获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征。

图像特征提取模块12，用于获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征。

视频特征提取模块13，用于获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征。

融合模块14，用于将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到融合特征。其中，该融合特征也可以通过拼接得到，即将该病症语音特征、该病症图像特征和该病症视频特征进行拼接得到该融合特征，但是拼接后的融合特征在横向或者纵向的维度会增加，而通过堆叠融合得到的融合特征的维度与进行升维/降维后的同一维度相同，本实施例优选通过堆叠融合得到该融合特征，使得利用堆叠融合得到的融合特征参与后续计算时，可以降低计算量，提高疾病预测模型的训练速度和预测速度。

预测模块15，用于将所述融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果。

可以理解的是，该疾病预测模型的分类器预测出的结果为疾病的置信度，置信度越高表示该用户得该病的可能性越大，可以将置信度最高的疾病作为该用户所患疾病的最终预测结果。例如在该分类器的预测结果中，用户得湿疹的置信度为70％，得皮炎的置信度为30％，则该疾病预测模型的分类器语音病症的最终预测结果为湿疹。

本发明提出的智能问诊的装置，通过语音特征提取模块获取用于描述用户的病症的语音数据，通过语音语义识别网络对该语音数据进行特征提取，得到病症语音特征；通过图像特征提取模块获取拍摄有该用户的病症的图像，通过图像语义提取网络对该图像进行特征提取，得到病症图像特征；通过视频特征提取模块获取拍摄有该用户的病症的视频，通过视频语义提取网络对该视频进行特征提取，得到病症视频特征；将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到融合特征；将该融合特征输入至预先训练好的疾病预测模型的分类器，得到该用户所患疾病的最终预测结果，本实施例用于进行最终结果预测的融合特征综合考虑了用于描述用户病症的语音数据、拍摄有该用户病症的图像和拍摄有该用户病症的视频，提高智能问诊诊断出的病症的准确性，降低智能问诊出现误诊的风险。

在其中一个实施例中，该智能问诊的装置100进一步包括：

梅尔频谱转换模块，用于将该用户的病症的语音数据转换为梅尔频谱；

该语音特征提取模块具体用于通过该语音语义识别网络对该梅尔频谱进行特征提取，得到病症语音特征。

在其中一个实施例中，该融合模块14具体用于通过merge函数将该病症语音特征、该病症图像特征和该病症视频特征进行堆叠融合，得到该融合特征。

在其中一个实施例中，该智能问诊的装置100还包括：

升维处理模块，用于对该病症语音特征进行升维处理；

降维处理模块，用于对该病症图像特征和该病症视频特征进行降维处理，使得该病症图像特征和该病症视频特征的维度均与该病症语音特征的维度相同。

该融合模块在通过merge函数进行堆叠融合操作时，需要将该病症语音特征、该病症图像特征和该病症视频特征作为数据输入，输入至该merge函数，即可得到该融合特征。

可以理解的是，进行堆叠融合后得到的融合特征的特征维度与升维后的病症语音特征、降维处理后的病症图像特征和病症视频特征的维度相同。

在其中一个实施例中，该智能问诊的装置100还包括：

训练样本获取模块，用于获取同一确诊用户的样本语音、拍摄有该确诊用户的病症的样本图像和样本视频，作为训练样本，该样本语音用于描述该确诊用户的病症；

训练模块，用于将该确诊用户的确诊疾病作为待训练的该疾病预测模型的输出目标，通过该训练样本对该待训练的疾病预测模型进行训练；

判断模块，用于当该待训练的疾病预测模型对该训练样本的输出结果与该确诊用户的确诊疾病相同时，得到训练好的疾病预测模型。

在其中一个实施例中，该智能问诊的装置100还包括：

注意事项获取模块，用于获取与该最终预测结果对应保存的注意事项；

第一显示模块，用于显示该注意事项。

本实施例通过第一显示模块将与预测结果对应保存的注意事项进行显示，便于在预测出用户得某一种疾病后，能够便捷地了解得该病的注意事项，可以避免患者的病症进一步加重。

在其中一个实施例中，该智能问诊的装置100还包括

诊疗方案获取模块，用于获取与该最终预测结果对应保存的诊疗方案；

第二显示模块，用于显示该诊疗方案。

本实施例通过第二显示模块显示与预测结果对应保存的诊疗方案，便于在预测出用户得某一种疾病后，给出诊疗建议，一方面使得用户对于小病可以自行处理、居家治疗，另一方面，在用户对于智能问诊模型给出的诊疗方案不十分确信时，也便于用户在医院实际挂号时挂对科室，避免挂错科室耽误病人的治疗时间。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于智能问诊的装置的具体限定可以参见上文中对于智能问诊的方法的限定，在此不再赘述。上述智能问诊的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置，其中，该输入设备包括麦克风和摄像头，该麦克风用于采集用于描述用户病症的语音数据，该摄像头用于拍摄用户病症的图像，还用于拍摄用户病症的视频。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质包括非易失性存储介质和/或易失性的存储介质，该存储介质存储有操作系统和计算机程序。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种智能问诊的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中智能问诊的方法的步骤，例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中智能问诊的装置的各模块/单元的功能，例如图5所示模块11至模块15的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中智能问诊的方法的步骤，例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中智能问诊的装置的各模块/单元的功能，例如图5所示模块11至模块15的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性和/或易失性的计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种智能问诊的方法，其特征在于，所述方法包括：

获取用于描述用户的病症的语音数据，将所述用户的病症的语音数据转换为梅尔频谱，通过语音语义识别网络对所述语音数据进行特征提取，得到病症语音特征的步骤具体包括：通过所述语音语义识别网络对所述梅尔频谱进行特征提取，得到病症语音特征；

获取拍摄有所述用户的病症的图像，通过图像语义提取网络对所述图像进行特征提取，得到病症图像特征；

获取拍摄有所述用户的病症的视频，通过视频语义提取网络对所述视频进行特征提取，得到病症视频特征；

将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到融合特征的步骤包括：

通过merge函数将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到所述融合特征；

将所述融合特征输入至预先训练好的疾病预测模型的分类器，得到所述用户所患疾病的最终预测结果。

2.根据权利要求1所述的智能问诊的方法，其特征在于，在所述通过merge函数将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到所述融合特征的步骤之前，所述方法还包括：

对所述病症语音特征进行升维处理；

对所述病症图像特征和所述病症视频特征进行降维处理，使得所述病症图像特征和所述病症视频特征的维度均与所述病症语音特征的维度相同。

3.根据权利要求1所述的智能问诊的方法，其特征在于，训练所述疾病预测模型的步骤包括：

获取同一确诊用户的样本语音、拍摄有所述确诊用户的病症的样本图像和样本视频，作为训练样本，所述样本语音用于描述所述确诊用户的病症；

将所述确诊用户的确诊疾病作为待训练的所述疾病预测模型的输出目标，通过所述训练样本对所述待训练的疾病预测模型进行训练；

当所述待训练的疾病预测模型对所述训练样本的输出结果与所述确诊用户的确诊疾病相同时，得到训练好的疾病预测模型。

4.根据权利要求1所述的智能问诊的方法，其特征在于，在所述得到所述用户所患疾病的最终预测结果的步骤之后，所述方法还包括：

获取与所述最终预测结果对应保存的注意事项；

显示所述注意事项。

5.根据权利要求1所述的智能问诊的方法，其特征在于，在所述得到所述用户所患疾病的最终预测结果的步骤之后，所述方法还包括：

获取与所述最终预测结果对应保存的诊疗方案；

显示所述诊疗方案。

6.一种智能问诊的装置，其特征在于，所述装置包括：

语音特征提取模块，用于获取用于描述用户的病症的语音数据，将所述用户的病症的语音数据转换为梅尔频谱，通过语音语义识别网络对所述语音数据进行特征提取，得到病症语音特征的步骤具体包括：通过所述语音语义识别网络对所述梅尔频谱进行特征提取，得到病症语音特征；

图像特征提取模块，用于获取拍摄有所述用户的病症的图像，通过图像语义提取网络对所述图像进行特征提取，得到病症图像特征；

视频特征提取模块，用于获取拍摄有所述用户的病症的视频，通过视频语义提取网络对所述视频进行特征提取，得到病症视频特征；

融合模块，用于将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到融合特征的步骤包括：

通过merge函数将所述病症语音特征、所述病症图像特征和所述病症视频特征进行堆叠融合，得到所述融合特征；预测模块，用于将所述融合特征输入至预先训练好的疾病预测模型的分类器，得到所述用户所患疾病的最终预测结果。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述智能问诊的方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述智能问诊的方法的步骤。