发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于智能手表的多模态交互系统及方法,包括:
一种基于智能手表的多模态交互方法,包括:
通过智能手表获取的图像信息和/或语音信息输入多模态模型;
基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;
依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
可选地,所述通过智能手表获取的图像信息和/或语音信息输入多模态模型,包括:
开启配置于所述智能手表上的摄像头获取图像信息和/或麦克风获取语音信息;
对语音信息和所述图像信息的有效性进行验证,将验证成功后的所述图像信息和/或语音信息输入多模态模型。
可选地,所述基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求,包括:
基于所述多模态模型,对所述语音信息和图像信息进行识别,确定所述语音信息对应的语义描述,以及确定图像信息对应的信息表述;
依据所述语义描述和/或信息表述,确定用户需求。
可选地,所述开启配置于所述智能手表上的摄像头获取图像信息和/或麦克风获取语音信息,还包括:
基于所述多模态模型的输入,使用麦克风获取用于语音交互的语音信息,其包括确定使用麦克风录制用于语音交互的语音信息;以及
使用摄像头拍摄用于图像交互的视频或图片;
或,
截取预存于的所述智能手表内的图像信息和/或语音信息;
对用于作为所述多模态模型输入的所述语音信息、视频信息以及图片信息进行的容量阈值匹配。
可选地,所述基于所述多模态模型,对所述语音信息和图像信息进行识别,确定所述语音信息对应的语义描述,以及确定图像信息对应的信息表述,包括:
所述基于所述多模态模型,对所述语音信息和图像信息进行分别进行编码,获得对应于所述语音信息的第一特征向量和对应于所述图像数据的第二特征向量;
对所述第一特征向量和所述第二特征向量,通过一神经网络进行融合学习,获得特征向量的联合表示;
通过将所述联合表示通过一个或多个全连接层传递,输出最终的预测,其中,所述预测包括所述语音信息对应的语义描述,以及确定图像信息对应的信息表述。
可选地,所述依据所述语义描述和/或信息表述,确定用户需求,包括:
依据所述语义描述和/或信息表述,确定用户所需的交互方式,所述交互方式包括视频语音效以及语音文本交互。
可选地,所述依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频,包括:
依据所述用户需求,通过无线网络从云端服务器获取与所述用户需求相对应的多媒体信息通过所述智能手表的显示屏和扬声器进行输出,以及
持续通过所述智能手表中的麦克风和/或触摸屏更新所述用户需求;
依据更新的用户需求,重复上述依据所述用户需求,通过无线网络从云端服务器获取与所述用户需求相对应的多媒体信息通过所述智能手表的显示屏和扬声器进行输出的步骤,直至交互结束。
可选地,还包括:
依据所述用户需求,通过无线网络从云端服务器获取对应于用户需求的问题答案,并将所述答案通过所述智能手表输出给所述用户;
或,
获得所述用户输入的语音所包含的问题关联的推荐信息,将所述推荐信息通过所述智能手表输出给所述用户。
一种基于智能手表的多模态交互系统,包括:
信息获取模块,用于通过智能手表获取的图像信息和/或语音信息输入多模态模型;
需求确认模块,用于基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;
信息交互模块,用于依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
一种设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时基于智能手表的多模态交互方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时基于智能手表的多模态交互方法。
本申请具有以下优点:
在本申请的实施例中,通过智能手表获取的图像信息和/或语音信息输入多模态模型;基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。通过将智能手表与多模态模型算法相结合,通过多模态模型算法将图像和声音数据相结合,提供相关信息和答案,用户可以通过简单的语音命令获取复杂的信息,这提供了更便捷的使用体验。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1所示,示出了本申请一实施例提供的一种基于智能手表的多模态交互方法的步骤流程图,其包括:
步骤S101、通过智能手表获取的图像信息和/或语音信息输入多模态模型;
步骤S102、基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;
步骤S103、依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
在本实施例中,通过上述基于智能手表的多模态交互方法,解决了目前智能手表不具备较好的交互功能,特别是多模态交互方面功能欠缺的问题,上述基于智能手表的多模态交互方法,它结合了摄像头、麦克风、多模态模型算法和语音控制的功能,实现了更高级别的多模态交互。通过智能手表配置的摄像头和麦克风,以及网络模块,能够通过WIFI或蜂窝网络连接到服务器,它可以截取照片和声音,用于后续的处理。采用多模态模型算法,用于处理从手表设备传输过来的数据,该算法具备多模态处理能力,可以同时处理图像和声音数据,并将它们结合起来进行分析和解释;使用摄像头拍摄到的照片和麦克风录制的声音传递给多模态模型算法。然后,用户可以使用语音控制与智能手表进行交互。例如,用户可以通过语音询问手表有关拍摄物体的信息,如食物的卡路里计算、书籍或电影的评价等。多模态模型算法将图像和声音数据相结合,提供相关信息和答案;本申请将智能手表与多模态模型算法相结合,实现了更高级别的多模态交互,用户可以通过简单的语音命令获取复杂的信息,这提供了更便捷的使用体验。
下面,将对本示例性实施例中一种基于智能手表的多模态交互方法作进一步地说明。
在本发明一实施例中,可以结合下列描述进一步说明步骤S101所述“通过智能手表获取的图像信息和/或语音信息输入多模态模型”的具体过程。
开启配置于所述智能手表上的摄像头获取图像信息和/或麦克风获取语音信息;可以在智能手表上设置触发按键或者通过特定的语音进行触发启动,例如通过语音“小宝小宝”进行触发开启;
对语音信息和所述图像信息的有效性进行验证,将验证成功后的所述图像信息和/或语音信息输入多模态模型,通过对语音信息和图像信息进行有效性验证,以确保输入的信息是有效的,而不是噪声或其他不相关的信息。
在本发明一实施例中,可以结合下列描述进一步说明步骤S102所述“基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求”的具体过程,包括:
基于所述多模态模型,对所述语音信息和图像信息进行识别,确定所述语音信息对应的语义描述,以及确定图像信息对应的信息表述;例如,通过摄像头拍摄食一种食物的图片,通过语音消息给出“查询这种食物的热量”;结合语音消息和图片消息的解析,依据所述语义描述和/或信息表述,确定用户需求是查询图片中食物的热量。
在本申请一实施例中,所述开启配置于所述智能手表上的摄像头获取图像信息和/或麦克风获取语音信息,还包括:基于所述多模态模型的输入,使用麦克风获取用于语音交互的语音信息,其包括确定使用麦克风录制用于语音交互的语音信息;以及使用摄像头拍摄用于图像交互的视频或图片;其中,图像信息包括视频和图片;
或,截取预存于的所述智能手表内的图像信息和/或语音信息;对用于作为所述多模态模型输入的所述语音信息、视频信息以及图片信息进行的容量阈值匹配。
需要说明的是,作为多模态模型的输入信息,其可以是直接拍摄的图像信息和通过麦克风录制的语音信息,也可以是预先录制好的视频和语音、图片等。
在本申请一实施例中,所述基于所述多模态模型,对所述语音信息和图像信息进行识别,确定所述语音信息对应的语义描述,以及确定图像信息对应的信息表述,包括:
所述基于所述多模态模型,对所述语音信息和图像信息进行分别进行编码,获得对应于所述语音信息的第一特征向量和对应于所述图像数据的第二特征向量;该过程为编码过程,通过编码器从每个模态的输入数据中提取特征,并将它们转换为一个通用的表示,可以被模型后续的层处理。编码器通常由多层神经网络组成,它们使用非线性变换从输入数据中提取越来越抽象的特征。编码器的输入可以由来自多个模态的数据组成,如图像、音频和文本,它们通常被分别处理。每个模态都有自己的编码器,将输入数据转换为一组特征向量。然后将每个编码器的输出组合成一个单一的表示,捕捉每个模态的相关信息。组合各个编码器输出的一种流行方法是将它们拼接成一个单一的向量。另一种方法是使用注意力机制来根据它们对任务的相关性来权衡每个模态的贡献。编码器的总体目标是捕捉多个模态的输入数据之间的潜在结构和关系,使模型能够根据这种多模态输入做出更准确的预测或生成新的输出。
对所述第一特征向量和所述第二特征向量,通过一神经网络进行融合学习,获得特征向量的联合表示;该过程为融合的过程;融合是将来自不同模态(如文本、图像、音频)的信息组合成一个单一的表示,可以用于下游任务,如分类、回归或生成。融合模块可以根据具体的架构和任务采取不同的形式。可以将各个模态的特征拼接起来,并通过一个神经网络来学习一个联合表示。融合的目标是捕捉不同模态之间的互补信息,并创建一个更稳健和信息丰富的表示用于下游任务。这在诸如视频分析之类的应用中尤为重要,其中结合视觉和音频线索可以大大提高性能。
通过将所述联合表示通过一个或多个全连接层传递,输出最终的预测,其中,所述预测包括所述语音信息对应的语义描述,以及确定图像信息对应的信息表述。该过程为分类的过程,其通过分类模块接收融合模块生成的联合表示,并使用它来做出预测或决策,分类模块的具体架构和方法可以根据任务和处理的数据类型而有所不同。
在许多情况下,分类模块采用神经网络的形式,其中联合表示通过一个或多个全连接层传递,然后做出最终的预测。这些层可以包括非线性激活函数、dropout和其他技术,以帮助防止过拟合和提高泛化性能。分类模块的输出取决于具体的任务。例如,在一个多模态情感分析任务中,输出将是一个二元决策,指示文本和图像输入是积极的还是消极的。在一个多模态图像描述任务中,输出可能是一个描述图像内容的句子。分类模块通常使用监督学习的方法进行训练,其中输入模态及其相应的标签或目标用于优化模型的参数。这种优化通常使用基于梯度的优化方法,如随机梯度下降或其变体。
为了进一步提高语义的准确性,在模型训练中还可以引入对齐的过程,而对齐是指确保来自不同模态的数据在时间、空间或其他相关维度上同步或对齐的过程。模态之间缺乏对齐会导致不一致或不完整的表示,从而对模型的性能产生负面影响。在模态之间存在时间或来源差异的场景中,对齐尤其具有挑战性。一个对齐难以解决的典型例子是视频分析。由于数据采集过程引入的延迟,将音频与视觉信息对齐可能很困难。同样,在语音识别中,由于说话速率、口音和背景噪音的变化,将音频与相应的转录对齐也很困难。
为了解决多模态机器学习模型中的对齐问题,使用对齐的过程。例如,可以使用时间对齐方法来对齐数据,通过估计模态之间的时间偏移。空间对齐方法可以用来在空间上对齐数据,通过识别不同模态中相应的点或特征。此外,还可以使用深度学习技术,如注意力机制,在模型训练过程中自动对齐数据。然而,每种对齐技术都有其优势和局限性,选择哪种对齐方法取决于具体问题和数据的特征。
在本申请一实施例中,所述依据所述语义描述和/或信息表述,确定用户需求,包括:依据所述语义描述和/或信息表述,确定用户所需的交互方式,所述交互方式包括视频语音效果以及语音文本交互。
在本发明一实施例中,可以结合下列描述进一步说明步骤S103所述“依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频”的具体过程,包括:
依据所述用户需求,通过无线网络从云端服务器获取与所述用户需求相对应的多媒体信息通过所述智能手表的显示屏和扬声器进行输出,以及
持续通过所述智能手表中的麦克风和/或触摸屏更新所述用户需求;
依据更新的用户需求,重复上述依据所述用户需求,通过无线网络从云端服务器获取与所述用户需求相对应的多媒体信息通过所述智能手表的显示屏和扬声器进行输出的步骤,直至交互结束。
在本实施例中,通过上述步骤,还可以使用进行持续交互,也即,从而解决了目前的智能设备只能通过单次交互的问题,例如,目前智能设备,通过语音交互,具体如通过语音控制智能设备播放音乐,在交互完成后,如需要切换,还需要重复唤醒交互功能;通过本申请上述过程,可以持续的进行交互,确保交互的高效性。
在本发明一实施例中,还包括:依据所述用户需求,通过无线网络从云端服务器获取对应于用户需求的问题答案,并将所述答案通过所述智能手表输出给所述用户;或,获得所述用户输入的语音所包含的问题关联的推荐信息,将所述推荐信息通过所述智能手输出给所述用户。
将智能手表与多模态模型算法相结合,通过多模态模型算法将图像和声音数据相结合,提供相关信息和答案,用户可以通过简单的语音命令获取复杂的信息,这提供了更便捷的使用体验。
对于装置实施例而言,由于其与上述方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图2,示出了本申请一实施例提供的一种基于智能手表的多模态交互系统的模块结构示意图,其包括:
信息获取模块201,用于通过智能手表获取的图像信息和/或语音信息输入多模态模型;
需求确认模块202,用于基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;
信息交互模块203,用于依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
上述基于智能手表的多模态交互系统,它结合了摄像头、麦克风、多模态模型算法和语音控制的功能,实现了更高级别的多模态交互。
参照图3,示出了本发明的一种用于自动化控制的控制方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得医护人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图3中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种基于智能手表的多模态交互方法。
也即,上述处理单元16执行上述程序时实现:通过智能手表获取的图像信息和/或语音信息输入多模态模型;基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种基于智能手表的多模态交互方法:
也即,给程序被处理器执行时实现:通过智能手表获取的图像信息和/或语音信息输入多模态模型;基于所述多模态模型,对所述语音信息和所述图像信息进行分析识别处理,确定用户需求;依据所述用户需求,基于所述多模态模型的输出,使用麦克风和摄像头分别获取用于语音交互的语音信息和用于视频交互的图像信息,以及通过显示屏和扬声器分别输出图像和音频。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在医护人员计算机上执行、部分地在医护人员计算机上执行、作为一个独立的软件包执行、部分在医护人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到医护人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于智能手表的多模态交互系统及方法进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。