CN115951787B

CN115951787B - 近眼显示设备的交互方法、存储介质及近眼显示设备

Info

Publication number: CN115951787B
Application number: CN202310247029.9A
Authority: CN
Inventors: 刘天一; 吴斐; 张立; 郑潇毅; 娄身强; 梁祥龙
Original assignee: Beijing LLvision Technology Co ltd
Current assignee: Beijing LLvision Technology Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-07-25
Anticipated expiration: 2043-03-15
Also published as: CN115951787A

Abstract

本发明提供近眼显示设备的交互方法、存储介质及近眼显示设备，涉及人机数据交互技术领域，包括：响应于用户指令，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息；将第一语义信息和第二语义信息按照预设规则整理为语义文本；将语义文本输入至第一预训练模型，得到第一分析结果和第一反馈信息；将第一分析结果输入至第二预训练模型，得到第二反馈信息。本发明实现了对不同模态感知数据的整合处理，将不同的感知数据分别处理为语义信息后再按照预设规则整理为语义文本；并且，通过多个预训练模型对语义文本进行训练，使得近眼显示设备上能够呈现多样化的交互反馈信息，以满足用户不同的交互需求，提高用户体验。

Description

近眼显示设备的交互方法、存储介质及近眼显示设备

技术领域

本发明涉及人机数据交互技术领域，尤其涉及一种近眼显示设备的交互方法、存储介质及近眼显示设备。

背景技术

近眼显示(Near-Eye Display，NED)，也称头戴显示或可穿戴显示，可在单眼或双眼视场中创建虚像，近眼显示是通过置于人眼非明视距离内的显示设备，向人眼渲染出光场信息，进而在眼前重建虚拟场景的技术。

随着近眼显示设备技术的不断改进，近眼显示设备越来越智能化，人们对基于近眼显示设备的交互体验也提出了更高的要求。

然而，目前的近眼显示设备每次只聚焦于用户单个模态的交互数据输入并反馈交互结果，无法同时对用户不同模态的信息进行整合处理，导致生成的交互反馈信息单一，无法在近眼显示设备上呈现多样化的交互反馈信息，难以满足用户的交互需求。

发明内容

本发明提供一种近眼显示设备的交互方法、存储介质及近眼显示设备，用以解决现有技术中近眼显示设备无法对多模态的信息进行整合处理，交互反馈信息单一，难以满足用户的交互需求的缺陷。

本发明提供一种近眼显示设备的交互方法，包括：获取近眼显示设备的第一感知数据和第二感知数据；响应于用户指令，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息；将第一语义信息和第二语义信息按照预设规则整理为语义文本；将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息；将第一分析结果输入至第二预训练模型，得到第二预训练模型输出的第二反馈信息；其中，第一反馈信息和第二反馈信息的呈现类型和/或呈现内容不相同。

根据本发明提供的一种近眼显示设备的交互方法，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息，包括：记录将第一感知数据整理为第一语义信息的第一时间；记录将第二感知数据整理为第二语义信息的第二时间；将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：基于第一时间和第二时间，将第一语义信息和第二语义信息按照时间先后顺序整理为语义文本。

根据本发明提供的一种近眼显示设备的交互方法，将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：根据信息类型，将第一语义信息和第二语义信息按照预设类型顺序整理为语义文本。

根据本发明提供的一种近眼显示设备的交互方法，将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：获取近眼显示设备的第三感知数据；响应于用户指令，将第三感知数据整理为第三语义信息；将第一语义信息、第二语义信息和第三语义信息按照预设规则整理为语义文本。

根据本发明提供的一种近眼显示设备的交互方法，得到第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：在近眼显示设备的显示区域中以第一窗口的方式显示文字形式的第一反馈信息；得到第二预训练模型输出的第二反馈信息之后，包括：在近眼显示设备的显示区域中以第二窗口的方式显示第二反馈信息；和/或，以语音播报的形式呈现第二反馈信息；其中，第一反馈信息为文本信息；第二反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

根据本发明提供的一种近眼显示设备的交互方法，将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：将第一分析结果输入至第三预训练模型，得到第三预训练模型输出的第三反馈信息；其中，第一反馈信息、第二反馈信息和第三反馈信息的呈现类型和/或呈现内容互不相同。

根据本发明提供的一种近眼显示设备的交互方法，得到第三预训练模型输出的第三反馈信息之后，包括：在近眼显示设备的显示区域中以第三窗口的方式显示第三反馈信息；和/或，以语音播报的形式呈现第三反馈信息；其中，第三反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

根据本发明提供的一种近眼显示设备的交互方法，将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息，包括：第一预训练模型对语义文本进行分析，得到第一分析结果和第一反馈信息，其中，第一反馈信息包括直接回答用户指令的信息；第一分析结果包括预测用户意图的信息和第一文本；将第一分析结果输入至第二预训练模型，包括：基于预测用户意图的信息从多个专项预训练模型中确定出第二预训练模型，并将第一文本发送至第二预训练模型。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述近眼显示设备的交互方法。

本发明还提供一种近眼显示设备，包括近眼显示设备本体、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，存储器和处理器设置在近眼显示设备本体上，处理器执行计算机程序时实现如上述任一种所述近眼显示设备的交互方法。

本发明提供的近眼显示设备的交互方法、存储介质及近眼显示设备，将不同的感知数据分别处理为语义信息后再按照预设规则整理为语义文本，通过多个预训练模型对语义文本进行训练，得到不同的反馈信息。本发明实现了对不同模态感知数据的整合处理，将不同的感知数据分别处理为语义信息后再按照预设规则整理为语义文本；并且，通过多个预训练模型对语义文本进行训练，使得近眼显示设备上能够呈现多样化的交互反馈信息，以满足用户不同的交互需求，提高用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明近眼显示设备的交互方法的流程示意图之一；

图2是本发明近眼显示设备的交互方法的流程示意图之二；

图3是本发明近眼显示设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着近眼显示设备技术的不断改进，近眼显示设备越来越智能化，人们对基于近眼显示设备的交互体验也提出了更高的要求。然而，目前的近眼显示设备每次只聚焦于用户单个模态的交互数据输入并反馈交互结果，无法同时对用户不同模态的信息进行整合处理，导致生成的交互反馈信息单一，无法在近眼显示设备上呈现多样化的交互反馈信息，难以满足用户的交互需求。

基于此，本发明提供一种近眼显示设备的交互方法、存储介质及近眼显示设备，实现了对不同模态感知数据的整合处理，将不同的感知数据分别处理为语义信息后再按照预设规则整理为语义文本；并且，通过多个预训练模型对语义文本进行训练，使得近眼显示设备上能够呈现多样化的交互反馈信息，以满足用户不同的交互需求，提高用户体验。

请参阅图1，图1是本发明近眼显示设备的交互方法的流程示意图之一，在本实施例中，近眼显示设备的交互方法具体包括步骤110至步骤150，各步骤具体如下：

步骤110：获取近眼显示设备的第一感知数据和第二感知数据。

近眼显示（Near-Eye Display，NED）设备是现代显示设备中的一种。为了提高用户体验，虚拟现实（Virtual Reality，VR）技术、增强现实(Augmented Reality，AR)技术和混合现实（Mixed Reality，MR）技术已被广泛运用于近眼显示设备，可将视觉对象和信息投射到靠近用户眼部的位置，涵盖用户的全角度视野，放大亮度和色彩变化产生的视觉细节，从而创建模拟的增强世界。

为了创建更真实的模拟世界，近眼显示设备需要设置多个感知模块，用于采集用户不同模态的感知数据，进而根据用户指令和不同模态的感知数据生成交互信息。近眼显示设备可以包括声音感知模块、视觉感知模块、动作感知模块、生理特征感知模块、网络感知模块和触觉感知模块等，本实施例对此不作限定。

需要说明的是，近眼显示设备的不同感知模块采集信息的方式可以不同。例如，声音感知模块可以通过麦克风采集用户的语音信息，并通过语音识别引擎进行语音识别，从而获得用户的声音感知数据。

视觉感知模块可以通过摄像头采集用户的手势信息和周围的环境信息，再分别通过手势识别算法和环境识别算法识别出用户的手势指令和周围的环境数据，视觉感知模块获取到的数据为视觉感知数据。

动作感知模块可以通过陀螺仪、重力感应器、传感器等设备采集的数据分析出用户的动作感知数据，例如头部转动。

生理特征感知模块可以通过脑电仪、眼动仪、皮电仪等设备采集用户的脑电、眼电、皮电数据，生理特征感知模块获取到的数据为生理特征感知数据。

网络感知模块可以通过网络连接获取用户的其它设备（例如手机、平板电脑、计算机等）上的相关数据，例如个人资料数据、应用操作记录数据、社交信息数据、卫星定位数据等，网络感知模块获取到的数据为网络感知数据。

在本实施例中，近眼显示设备可以是基于AR（或MR、VR）技术的眼镜、头盔、近眼显示器等，本实施例对此不作限定。

步骤120：响应于用户指令，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息。

其中，第一感知数据为声音感知数据、视觉感知数据、动作感知数据、生理特征感知数据、网络感知数据中的至少一种；第二感知数据为声音感知数据、视觉感知数据、动作感知数据、生理特征感知数据、网络感知数据中的至少一种；第一感知数据和第二感知数据不相同。

近眼显示设备可以实时采集用户不同的感知数据和用户输入的指令。由于用户不同模态的数据可以包含不同的信息，例如网络感知数据可以包含用户的偏好信息，动作感知数据可以包含用户当前的姿势信息等，不同的信息对于交互反馈信息的生成均有一定的作用，因此为了得到更丰富的交互反馈信息，需要对不同的感知数据进行整合处理，以满足用户的交互需求，提高用户体验。

当只根据用户的一种感知数据生成交互反馈信息时，生成的交互反馈信息单一。例如，当用户输入语音指令“开始导航”时，近眼显示设备在根据语音指令进入导航界面后就完成了此次交互，只有在用户继续输入目的地和出发地后再进行导航。但是采用多种感知数据生成交互反馈信息时，生成的交互反馈信息将更丰富。例如，假设第一感知数据为视觉感知数据和动作感知数据，第二感知数据为网络感知数据，当用户输入语音指令“开始导航”时，近眼显示设备通过摄像头采集用户周围的环境信息，并检测到用户向右转动头部，则可以推测用户可能会选择右侧的街道，再结合网络感知数据中用户对某店铺的搜索记录，确定某店铺在右侧街道上，则进入导航界面，自动生成目的地和出发地信息，进行自动导航，若此时用户向左转动头部，则可以再结合其他网络感知数据推测用户可能的目的地。

不同模态感知数据的建模处理方式不同，整合处理的方法也不同，而能同时处理多种模态感知数据的模型又会对系统造成极大的开销，因此，为了整合不同模态的感知数据，可以先将不同模态的感知数据转化成相同或相近的形式，再进行整合。

在本实施例中，可以将不同模态的感知数据整理成语义信息，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息。例如，假设第一感知数据为生理特征感知数据，第二感知数据为声音感知数据，当近眼显示设备检测到用户正在凝视某购物网页的某件衣物时，则可以生成第一语义信息“用户当前正在浏览某购物网站的某衣物”，当用户在浏览某购物网站的某衣物时发出语音信息“我穿这件衣服好看吗”，则可以生成第二语义信息“用户对设备发送语音：我穿这件衣服好看吗”。

步骤130：将第一语义信息和第二语义信息按照预设规则整理为语义文本。

用户的第一感知数据和第二感知数据可以同时为多种感知数据，对于所有采集的感知数据，均可以整理为语义信息。为了便于模型的识别和分析，可以对所有语义信息按照预设规则整理为语义文本，将整理后的语义文本作为一个整体输入模型。例如，可以将第一语义信息“用户当前正在浏览某购物网站的某衣物”和第二语义信息“用户对设备发送语音：我穿这件衣服好看吗”按语义信息生成时间的先后顺序整理成语义文本，也可以按照预设的信息类型顺序整理成语义文本，以文本形式的信息作为模型的输入。

预设规则可以由本领域技术人员根据实际需要进行适应性的调整，本实施例对此不作限定。

步骤140：将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息。

预训练模型（Pre-trained Models,PTMs）是一个通过大量数据进行训练并被保存下来的网络，即先在一个原始任务上预先训练一个初始模型，然后在目标任务上使用该初始模型，并针对目标任务的特性，对该初始模型进行精调，从而达到解决目标任务的目的。

文本信息具有天然的标注特征，因为文本信息是可以根据已输入的数据进行预测的，例如可以根据已知的文本推测下文可能的语句或主题，而且由于文本包含大量词语，文本中的词语也可以构成训练数据，进而可以利用文本中的词语进行自监督的预训练。因此，预训练模型在对文本信息的处理上具有明显的优势。

将语义文本输入至第一预训练模型，可以得到第一预训练模型输出的第一分析结果和第一反馈信息。优选地，在得到第一预训练模型输出的第一分析结果和第一反馈信息后，可以先在近眼显示设备中呈现第一反馈信息，以降低用户获得反馈信息的时间，提高用户体验。

步骤150：将第一分析结果输入至第二预训练模型，得到第二预训练模型输出的第二反馈信息。

其中，第一反馈信息和第二反馈信息的呈现类型和/或呈现内容不相同。

在本实施例中，第一预训练模型输出的第一分析结果可以作为第二预训练模型的输入。具体地，将第一分析结果输入至第二预训练模型，得到第二预训练模型输出的第二反馈信息。第二反馈信息可以是基于第一分析结果获得的，第二反馈信息包含的信息可以比第一反馈信息更丰富，并作为第一反馈信息的补充。

例如，当用户输入的指令为“去最近的商城”，第一反馈信息可以是确定目的地并进行自动导航，第二反馈信息则可以是商城信息、商城内的商品信息、沿途的路况信息等。其中，第一反馈信息和第二反馈信息的呈现类型和/或呈现内容不相同。例如，导航信息可以是语音导航，也可以在虚拟页面显示导航信息，商城信息可以是文本形式的介绍，也可以是视频介绍，商品信息可以是图片或立体模型等。

本实施例实现了对不同模态感知数据的整合处理，将不同的感知数据分别处理为语义信息后再按照预设规则整理为语义文本；并且，通过多个预训练模型对语义文本进行训练，使得近眼显示设备上能够呈现多样化的交互反馈信息，以满足用户不同的交互需求，提高用户体验。

在一些实施例中，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息，包括：记录将第一感知数据整理为第一语义信息的第一时间；记录将第二感知数据整理为第二语义信息的第二时间；将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：基于第一时间和第二时间，将第一语义信息和第二语义信息按照时间先后顺序整理为语义文本。

不同模态的感知数据整理为对应的语义信息所需要的时长不一样，例如，对于文本形式的数据，可以直接提取文本信息作为语义信息，语义信息的生成时间短，但对于音频、手势、动作等形式的数据，需要先进行识别分析，再转化为对应的语义信息，语义信息的生成时间长。若在所有语义信息生成后再进行整理，会增加用户的等待时间，因此，可以将第一语义信息和第二语义信息按照时间先后顺序整理为语义文本，以降低用户的等待时长。

在一些实施例中，将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：根据信息类型，将第一语义信息和第二语义信息按照预设类型顺序整理为语义文本。

由于用户的感知数据有多种类型，例如音频、视频、文本等，在输入模型前，可以先根据信息类型将第一语义信息和第二语义信息按照预设类型顺序整理为语义文本，便于模型根据语义文本中语句的相对位置判断感知数据的类型。

例如，第一语义信息包含文字输入指令和视频输入指令，语义信息分别为“用户向设备输入文字：打开视频播放器”，“用户进行导入视频操作”，第二语义信息包含音频指令，语义信息为“用户对设备发送语音：10分钟后播放这个视频”，语义文本按照文字、语音、视频的顺序整理，则可以生成对应的语义文本，语义文本为“用户向设备输入文字：打开视频播放器。用户对设备发送语音：10分钟后播放这个视频。用户进行导入视频操作”。将该语义文本输入模型时，模型可以根据语义信息的相对位置判断出：“用户向设备输入文字：打开视频播放器”是用户输入的文字指令，“用户对设备发送语音：10分钟后播放这个视频”是用户输入的音频指令，“用户进行导入视频操作”为用户的视频输入指令。

在一些实施例中，将第一语义信息和第二语义信息按照预设规则整理为语义文本，包括：获取近眼显示设备的第三感知数据；响应于用户指令，将第三感知数据整理为第三语义信息；将第一语义信息、第二语义信息和第三语义信息按照预设规则整理为语义文本。

其中，第三感知数据为声音感知数据、视觉感知数据、动作感知数据、生理特征感知数据、网络感知数据中的至少一种；第一感知数据、第二感知数据和第三感知数据不相同。

在用户进行人机交互的过程中，近眼显示设备可以实时采集感知数据。为了保证交互信息的完整性和丰富性，近眼显示设备可以采集多个模态的信息，以生成语义文本。

例如，用户的第一感知数据可以为声音感知数据，第二感知数据可以为视觉感知数据，第三感知数据可以为网络感知数据。

在一些实施例中，得到第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：在近眼显示设备的显示区域中以第一窗口的方式显示文字形式的第一反馈信息；得到第二预训练模型输出的第二反馈信息之后，包括：在近眼显示设备的显示区域中以第二窗口的方式显示第二反馈信息；和/或，以语音播报的形式呈现第二反馈信息；其中，第一反馈信息为文本信息；第二反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

在本实施例中，得到第一预训练模型输出的第一分析结果和第一反馈信息之后，可以在近眼显示设备的显示区域中以第一窗口的方式显示文字形式的第一反馈信息，其中，第一反馈信息为文本信息。如果用户在输入指令后，等待反馈的时间过长，会降低用户体验，而相对于其他形式的信息，设备对文字形式的信息的处理速度更快，因此，以窗口的方式显示文字形式的第一反馈信息可以有效降低用户的等待时间，提高用户体验。

得到第二预训练模型输出的第二反馈信息之后，可以在近眼显示设备的显示区域中以第二窗口的方式显示第二反馈信息；和/或，以语音播报的形式呈现第二反馈信息；第二反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

例如，对于用户输入的语音信息“我好看吗”，第一预训练模型输出的第一反馈信息可以是“当然，您长得很好看”，则在近眼显示设备的显示区域中可以先以窗口的方式显示文字反馈信息“当然，您长得很好看”；第二预训练模型输出的第二反馈信息是服装的搭配建议和对应的服装商品信息，则在近眼显示设备的显示区域中以第二窗口的方式显示服装的搭配建议和对应的服装商品信息，同时可以通过语音的方式向用户播放搭配建议，并以动态模型的形式向用户呈现对应的服装商品。

在一些实施例中，将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：将第一分析结果输入至第三预训练模型，得到第三预训练模型输出的第三反馈信息；其中，第一反馈信息、第二反馈信息和第三反馈信息的呈现类型和/或呈现内容互不相同。

为了提高反馈信息的多样性和丰富性，反馈信息可以包含多种类型，例如反馈信息可以包括文字、语音、图片、视频和模型等，对于不同类型的反馈信息，可以由不同的预训练模型输出。由于模型对不同类型的数据处理方式不同，利用单个模型生成不同类型的数据，容易影响反馈信息生成的速度，因此，可以用多个专项预训练模型输出不同类型的数据。

例如，本次的反馈信息包括语音、图片、视频和模型，则可以利用4个专项预训练模型分别生成语音信息、图片信息、视频信息和模型信息，再在近眼显示设备的显示区域中以不同的形式呈现。

本实施例先通过预训练模型对语义文本进行分析，得到作为基础分析结果的第一分析结果和作为基础反馈信息的第一反馈信息，再将基础分析结果分成多路分别输入不同的专项预训练模型，以获得不同类型的信息，不仅可以提高反馈信息生成的速度，还能确保交互反馈结果的丰富性。

可选地，不同的预训练模型可以部署在不同的预训练服务器上。

为了方便交互服务的迭代更新，避免在引入新算法时大幅重构对应的软件架构，不同的预训练生成算法对应的模型可以部署在不同的预训练服务器上并独立运行，不同的预训练服务器之间可以通过数据接口连接，以实现数据的传输。

需要说明的是，不同的预训练服务器可以由不同的公司提供。由于不同公司提供的预训练服务器的网络延迟、计算处理耗时不一定相同，采用的数据结构也不一定相同，兼容性低，因此，可以向不同的预训练模型同时发送数据，再分别生成反馈信息，以节约反馈信息生成的时间。

在一些实施例中，得到第三预训练模型输出的第三反馈信息之后，包括：在近眼显示设备的显示区域中以第三窗口的方式显示第三反馈信息；和/或，以语音播报的形式呈现第三反馈信息；其中，第三反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

例如，第一反馈信息为文本信息，第二反馈信息可以是音频信息，第三反馈信息可以是模型信息。文本信息的生成时间比其他类型的信息的生成时间更短，因此第一反馈信息为文本信息可以让用户在更短的时间内获取到反馈信息。

在一些实施例中，将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息，包括：第一预训练模型对语义文本进行分析，得到第一分析结果和第一反馈信息，其中，第一反馈信息包括直接回答用户指令的信息；第一分析结果包括预测用户意图的信息和第一文本；将第一分析结果输入至第二预训练模型，包括：基于预测用户意图的信息从多个专项预训练模型中确定出第二预训练模型，并将第一文本发送至第二预训练模型。

第一预训练模型可以对语义文本进行分析，得到第一分析结果和第一反馈信息，其中，第一反馈信息包括直接回答用户指令的信息。例如，对于用户输入的指令“今天是几月几号”，则第一反馈信息包括直接回答用户指令的信息“今天是5月6号”。可以理解地，对于用户输入的不同指令，第一反馈信息中直接回答用户指令的信息不同。

第一分析结果包括预测用户意图的信息和第一文本，在获得第一分析结果和第一反馈信息后，可以基于预测用户意图的信息从多个专项预训练模型中确定出第二预训练模型，并将第一文本发送至第二预训练模型。

例如，对于用户输入的指令“今天是几月几号”，第一反馈信息包括直接回答用户指令的信息“今天是5月6号”，假定5月6号为工作日，则第一分析结果可以包括预测用户意图的信息，例如用户即将乘坐私家车上班，和第一文本“用户即将乘坐私家车上班，可能开启语音导航，出发地为当前位置，目的地为某公司”，基于预测用户意图的信息，可以从多个专项预训练模型中确定出用于生成语音的预训练模型，并将第一文本发送至用于生成语音信息的预训练模型，以生成对应的语音导航信息。

本实施例先通过预训练模型对语义文本进行分析，可以得到预测用户意图的信息和直接回答用户指令的信息，再将预测用户意图的信息输入专项预训练模型进行分析，可以生成适应用户不同场景的交互反馈信息，从而满足用户多样化的交互需求，提高用户体验。

请参阅图2，图2是本发明近眼显示设备的交互方法的流程示意图之二。

本发明还提供了近眼显示设备的交互方法的一个具体实施例，具体如下：

在本实施例中，获取的近眼显示设备的感知数据包括声音感知数据、视觉感知数据、动作感知数据、生理特征感知数据、网络感知数据。

具体地，声音感知数据包括用户向设备发送的语音信息“刚才表现如何”；视觉感知数据包括用户的手势信息（食指指尖正指向虚拟界面中显示的运动数据）；动作感知数据包括用户的运动信息（1小时内行走20000步）；生理特征感知数据包括用户的眼电信息（眼睛凝视虚拟界面中的运动记录）；网络感知数据包括应用软件操作历史记录（用户在6个月内访问某电商平台50次，并购买某品牌运动饮料）、社交网络关系（用户在某平台拥有1000个好友）、日程和任务信息（用户于2分钟前完成运动，运动时长为1小时）、时间信息（当前时间为早上8点57分）和位置信息（用户当前位置为某中学北门）。

将声音感知数据整理为语义信息“用户对设备发送语音：刚才表现如何”；将视觉感知数据整理为语义信息“用户食指指尖指向虚拟界面中显示的运动数据”；将动作感知数据整理为语义信息“用户在1小时内行走20000步”；将生理特征感知数据整理为语义信息“用户正在凝视虚拟界面中的运动记录”；将网络感知数据整理为语义信息“用户在6个月内访问某电商平台50次，并购买某品牌运动饮料；用户在某平台拥有1000个好友；用户于2分钟前完成运动，运动时长为1小时；当前时间为早上8点57分；用户当前位置为某中学北门”。

在本实施例中，可以将语义信息按照语义信息生成的时间先后顺序整理为语义文本。

按照语义信息生成的时间先后顺序排序，依次为网络感知数据对应的语义信息、声音感知数据对应的语义信息、视觉感知数据对应的语义信息、动作感知数据对应的语义信息、生理特征感知数据对应的语义信息，则整理后的语义文本为“用户在6个月内访问某电商平台50次，并购买某品牌运动饮料；用户在某平台拥有1000个好友；用户于2分钟前完成运动，运动时长为1小时；当前时间为早上8点57分；用户当前位置为某中学北门。用户对设备发送语音：刚才表现如何。用户食指指尖指向虚拟界面中显示的运动数据。用户在1小时内行走20000步。用户正在凝视虚拟界面中的运动记录。”。

在本实施例中，预训练模型可以是生成式预训练（Generative Pre-Training，GPT）模型。

需要说明的是，生成式预训练算法的核心思想是采用生成式预训练与判别式任务微调相结合的自然语言处理范式，先在大量无标注的数据上预训练一个语言模型，学习丰富的上下文信息，再将训练好的模型适配到下游任务中，使用有标注的数据学习判别式任务，即基于对已有数据的判别分析和归纳总结，依据应用场景进行模仿式的创造，生成新的内容（例如生成新的文本、图片、音频、视频、模型和代码等）。生成式预训练算法在人机交互领域具有显著的优势，基于生成式预训练算法生成的模型（GPT模型）可以实现特定任务场景的内容生成，通过与用户交互反馈的过程进行强化训练，进而优化模型的生成能力，逐步进化出满足用户需求的内容生成能力，增加交互反馈结果的丰富性，提升用户的交互体验。

将语义文本输入至第一预训练模型后，可以得到第一预训练模型输出的第一分析结果和第一反馈信息，第一反馈信息包括直接回答用户指令的信息，第一分析结果包括预测用户意图的信息和第一文本。

具体地，用户指令是“刚才表现如何”，则第一反馈信息可以是“您刚才表现得非常好，已超过92.5%的好友”；第一分析结果包括预测用户意图的信息和第一文本，预测用户意图的信息可以是“用户可能想休息”，第一文本可以是“用户在运动后需要休息”。

优选地，在获得第一反馈信息后，将第一反馈信息发送至近眼显示设备，在近眼显示设备的显示区域中以窗口的方式显示文字形式的第一反馈信息“您刚才表现得非常好，已超过92.5%的好友”。

在得到第一预训练模型输出的第一分析结果和第一反馈信息后，将第一分析结果输入至第二预训练模型，得到第二预训练模型输出的第二反馈信息。在本实施例中，第二预训练模型可以有多个，分别用于输出不同类型的数据。

具体地，第二预训练模型可以是4个，分别用于生成语音信息、文本信息、视频信息和模型信息。将第一分析结果分别输入4个预训练模型，分别生成语音信息、文本信息、视频信息和模型信息。其中，语音信息可以是“您刚才表现得非常好，已超过92.5%的好友。现在您需要休息，位于您西北方350米的便利店预计在3分钟后开始营业，您可以去购买某品牌运动饮料，补充水分和电解质”；文本信息可以是用户的运动数据信息和排名信息；视频信息可以是便利店的相关视频，用以展示便利店的环境和商品；模型信息可以是某品牌运动饮料的立体模型，用以展示某品牌运动饮料的名称、价格、外观等信息，也可以是便利店的立体模型，并展示前往该便利店的导航信息。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的近眼显示设备的交互方法，其步骤和原理在上述方法已详细介绍，在此不再赘述。

本发明还提供一种近眼显示设备，请参阅图3，图3是本发明近眼显示设备的结构示意图。在本实施例中，近眼显示设备可以包括近眼显示设备本体、存储器(memory)320、处理器(processor)310及存储在存储器320上并可在处理器310上运行的计算机程序，存储器320和处理器310设置在近眼显示设备本体上，处理器310执行计算机程序时实现上述各方法所提供的近眼显示设备的交互方法。

可选地，近眼显示设备还可以包括通信总线330和通信接口(CommunicationsInterface)340，其中，处理器310，通信接口340，存储器320通过通信总线330完成相互间的通信。处理器310可以调用存储器320中的逻辑指令，以执行近眼显示设备的交互方法，该方法包括：获取近眼显示设备的第一感知数据和第二感知数据；响应于用户指令，将第一感知数据整理为第一语义信息，将第二感知数据整理为第二语义信息；将第一语义信息和第二语义信息按照预设规则整理为语义文本；将语义文本输入至第一预训练模型，得到第一预训练模型输出的第一分析结果和第一反馈信息；将第一分析结果输入至第二预训练模型，得到第二预训练模型输出的第二反馈信息；其中，第一反馈信息和第二反馈信息的呈现类型和/或呈现内容不相同。

此外，上述的存储器320中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种近眼显示设备的交互方法，其特征在于，包括：

获取近眼显示设备的第一感知数据和第二感知数据；

响应于用户指令，将所述第一感知数据整理为第一语义信息，将所述第二感知数据整理为第二语义信息；

将所述第一语义信息和所述第二语义信息按照预设规则整理为语义文本；

将所述语义文本输入至第一预训练模型，得到所述第一预训练模型输出的第一分析结果和第一反馈信息；

将所述第一分析结果输入至第二预训练模型，得到所述第二预训练模型输出的第二反馈信息；

其中，所述第一反馈信息和所述第二反馈信息的呈现类型和/或呈现内容不相同；

所述将所述第一感知数据整理为第一语义信息，将所述第二感知数据整理为第二语义信息，包括：

记录将所述第一感知数据整理为所述第一语义信息的第一时间；

记录将所述第二感知数据整理为所述第二语义信息的第二时间；

所述将所述第一语义信息和所述第二语义信息按照预设规则整理为语义文本，包括：

基于所述第一时间和所述第二时间，将所述第一语义信息和所述第二语义信息按照时间先后顺序整理为所述语义文本。

2.根据权利要求1所述的近眼显示设备的交互方法，其特征在于，所述将所述第一语义信息和所述第二语义信息按照预设规则整理为语义文本，包括：

根据信息类型，将所述第一语义信息和所述第二语义信息按照预设类型顺序整理为所述语义文本。

3.根据权利要求1所述的近眼显示设备的交互方法，其特征在于，所述将所述第一语义信息和所述第二语义信息按照预设规则整理为语义文本，包括：

获取近眼显示设备的第三感知数据；

响应于所述用户指令，将所述第三感知数据整理为第三语义信息；

将所述第一语义信息、所述第二语义信息和所述第三语义信息按照预设规则整理为所述语义文本。

4.根据权利要求1所述的近眼显示设备的交互方法，其特征在于，所述得到所述第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：

在所述近眼显示设备的显示区域中以第一窗口的方式显示文字形式的第一反馈信息；

所述得到所述第二预训练模型输出的第二反馈信息之后，包括：

在所述近眼显示设备的显示区域中以第二窗口的方式显示所述第二反馈信息；和/或，

以语音播报的形式呈现所述第二反馈信息；

其中，所述第一反馈信息为文本信息；所述第二反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

5.根据权利要求4所述的近眼显示设备的交互方法，其特征在于，所述将所述语义文本输入至第一预训练模型，得到所述第一预训练模型输出的第一分析结果和第一反馈信息之后，包括：

将所述第一分析结果输入至第三预训练模型，得到所述第三预训练模型输出的第三反馈信息；

其中，所述第一反馈信息、所述第二反馈信息和所述第三反馈信息的呈现类型和/或呈现内容互不相同。

6.根据权利要求5所述的近眼显示设备的交互方法，其特征在于，所述得到所述第三预训练模型输出的第三反馈信息之后，包括：

在所述近眼显示设备的显示区域中以第三窗口的方式显示所述第三反馈信息；和/或，

以语音播报的形式呈现所述第三反馈信息；

其中，所述第三反馈信息为文本信息、音频信息、模型信息或视频信息中的其中一种。

7.根据权利要求1所述的近眼显示设备的交互方法，其特征在于，所述将所述语义文本输入至第一预训练模型，得到所述第一预训练模型输出的第一分析结果和第一反馈信息，包括：

所述第一预训练模型对所述语义文本进行分析，得到所述第一分析结果和所述第一反馈信息，其中，所述第一反馈信息包括直接回答所述用户指令的信息；所述第一分析结果包括预测用户意图的信息和第一文本；

所述将所述第一分析结果输入至第二预训练模型，包括：

基于所述预测用户意图的信息从多个专项预训练模型中确定出所述第二预训练模型，并将所述第一文本发送至所述第二预训练模型。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述近眼显示设备的交互方法。

9.一种近眼显示设备，其特征在于，包括近眼显示设备本体、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述存储器和所述处理器设置在所述近眼显示设备本体上，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述近眼显示设备的交互方法。