CN113283246B

CN113283246B - 视觉交互方法、装置、设备及存储介质

Info

Publication number: CN113283246B
Application number: CN202110663631.1A
Authority: CN
Inventors: 张健
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2024-01-30
Anticipated expiration: 2041-06-15
Also published as: CN113283246A

Abstract

本申请公开了一种视觉交互方法、装置、设备及存储介质，该方法通过通过在服务器端接收终端设备发送的用户观看目标多媒体时的互动数据；基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。互动方式更灵活，可交互的内容更多，交互限制性更小，用户的体验更好，解决现有技术中交互的内容受限，无法满足用户的需求的技术问题。

Description

视觉交互方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视觉交互方法、装置、设备及存储介质。

背景技术

随着社会的进步，人们对各种体验的要求越来越高。在视频播放服务中，用户的需求已经从单纯的观看逐渐演变为参与互动。目前，在观看视频时的互动方式除了常见的弹幕或评论外，还有基于用户的输入进行视频跳转的互动，这种互动方式仅限于视频的跳转，交互的内容受限，无法满足用户的需求。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种视觉交互方法、装置、设备及存储介质，旨在解决相关技术中视频分段播放的方式无法满足用户的实时需求的问题。

为实现上述目的，本申请实施例提供一种视觉交互方法，用于服务器，所述方法包括：

接收终端设备发送的用户观看目标多媒体时的互动数据；

基于所述互动数据，获得目标问题；

基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；

将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

可选地，所述互动数据包括音频数据和第一视线数据；所述基于所述互动数据，获得目标问题的步骤，包括：

基于所述第一视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体；

若是，则获取所述预设播放时间段的目标视频数据；并将所述音频数据转换为文本数据，对所述文本数据进行语义识别，获得语义识别结果；

基于所述语义识别结果，判断所述用户的意图；

若所述意图为互动问答，基于所述目标视频数据和所述语义识别结果，获得目标问题。

可选地，所述接收终端设备发送的用户观看目标多媒体的互动数据的步骤之前，所述方法还包括：

获取针对所述目标多媒体的历史互动提问数据以及根据所述提问数据获得的历史推荐答案信息；

基于所述历史互动提问数据以及所述历史推荐答案信息，训练获得所述视觉问答模型。

可选地，所述基于所述互动数据，获得目标问题的步骤之后，所述方法还包括：

对所述互动数据进行存储；

所述将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

利用所述目标答案以及存储的所述互动数据，对所述视觉问答模型进行更新。

此外，为实现上述目的，本申请实施例还提供一种视觉交互方法，用于终端设备，所述方法包括：

获取用户观看目标多媒体时的互动数据；

将所述互动数据发送至服务器，以使所述服务器基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；

接收所述服务器发送的所述推荐答案信息，并输出所述推荐答案信息对应的答案选项；

在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

可选地，所述在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

获取所述用户观看所述目标答案的第二视线数据；

基于所述第二视线数据，获得表征所述用户对所述目标答案感兴趣程度的关注度值；

若所述关注度值大于关注度阈值，则确定所述目标答案为正确答案。

此外，为实现上述目的，本申请的实施例还提出一种视觉交互装置，用于服务器，包括：

数据接收模块，用于接收终端设备发送的用户观看目标多媒体时的互动数据；

问题获得模块，用于基于所述互动数据，获得目标问题；

答案获得模块，用于基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；

答案推送模块，用于将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

此外，为实现上述目的，本申请的实施例还提出一种视觉交互装置，用于终端设备，包括：

数据获取模块，用于获取用户观看目标多媒体时的互动数据；

数据发送模块，用于将所述互动数据发送至服务器，以使所述服务器基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；

答案接收模块，用于接收所述服务器发送的所述推荐答案信息，并输出所述推荐答案信息对应的答案选项；

答案输出模块，用于在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

此外，为实现上述目的，本申请还提供一种电子设备，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现上述方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现上述方法的步骤。

本申请实施例提出的一种视觉交互方法，通过在服务器端接收终端设备发送的用户观看目标多媒体时的互动数据；基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。由此可见，本申请的方法通过利用互动数据获得目标问题，并基于目标问题推荐答案，实现了观看目标多媒体时的问答交互，通过提问的方式互动，相较于现有的仅仅根据用户的语音数据进行视频跳转，互动方式更灵活，可交互的内容更多，交互限制性更小，用户的体验更好，解决现有技术中交互的内容受限，无法满足用户的需求的技术问题。

附图说明

图1为本申请实施例涉及的硬件运行环境的电子设备结构示意图；

图2为本申请实施例涉及的一种视频服务系统图；

图3为本申请实施例的一种视觉交互方法流程示意图；

图4为图3中S40的一种具体方法流程示意图；

图5为本申请实施例另一种视觉交互方法流程示意图；

图6为本申请实施例中终端设备的界面图；

图7为本申请实施例涉及的另一种视频播放系统图；

图8为本申请实施例的一种视觉交互装置的结构图；

图9为本申请实施例的另一种视觉交互装置的结构图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请实施例的主要解决方案是：提供一种视觉交互方法，通过在服务器端接收终端设备发送的用户观看目标多媒体时的互动数据；基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

现有技术在观看视频时的互动方式除了常见的弹幕或评论外，还有基于用户的输入进行视频跳转的互动，这种互动方式仅限于视频的跳转，交互的内容受限，无法满足用户的需求。本申请的实施例的方法通过利用互动数据获得目标问题，并基于目标问题推荐答案，实现了观看目标多媒体时的问答交互，通过提问的方式互动，相较于现有的仅仅根据用户的语音数据进行视频跳转，互动方式更灵活，可交互的内容更多，交互限制性更小，用户的体验更好，解决现有技术中交互的内容受限，无法满足用户的需求的技术问题。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的电子设备结构示意图。

如图1所示，该电子设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。

在图1所示的电子设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中，所述电子设备通过处理器1001调用存储器1005中存储的视觉交互方法程序，并执行本申请实施例提供的视觉交互方法。

参见图2，图2为本申请的实施例涉及的一种视频服务系统图，该系统包括用于播放视频的终端设备和用于提供视频服务的服务器，终端设备与服务器通信连接。其中，服务器可以是给用户提供常规视频服务的视频服务器，比如点播、录播、直播等。终端设备可以主动从视频服务器获取常规的视频服务信息，包括视频的基本描述信息、视频源的地址等，主要通过基于UDP/TCP/HTTP等实现的视频协议或其他通信协议等。

因此，本申请的视觉交互方法的执行主体包括终端设备和服务器，其中，该服务器除了具备常规的视频服务功能外，还需要安装有本实施例的视频播放程序，以执行本申请的视觉交互方法。

参照图3，基于前述的终端设备和一个安装有本实施例的视频播放程序的服务器，本申请的第一实施例提供一种视觉交互方法，用于该服务器，该方法包括：

步骤S20、接收终端设备发送的用户观看目标多媒体时的互动数据；

在具体实施过程中，终端设备可以是计算机(一体机、显示器)、手机、平板、智能电视、头戴式显示设备等具有显示功能的智能终端。

目标多媒体可以是视频、图片、幻灯片、PPT等可以播放的多媒体。

互动数据是指用户在观看目标多媒体时产生的互动数据，可以包括：动作表情数据UD_Video(t)、语音数据UD_Video(t)、视线数据UD_Eye_Line(t)，当然也可以包括输入的文本数据等。此外，互动数据中还可以包括目标多媒体以及终端设备的相关数据。相应的，可以通过终端设备自带的或是外接的设备获取互动数据，例如，麦克风获取语音数据，摄像头或体感设备采集动作表情数据，摄像头、红外设备和图像采集设备采集视线数据。以观看目标视频为例，互动数据U_D(t)的一种表达形式为:<终端设备ID，时间UD_Time，目标视频V_ID，UD_Video(t),UD_Audio(t),UD_Eye_Line(t)>。

作为一种可选的实施方式，互动数据可以是在用户正在观看所述目标多媒体时获取的。例如，在用户正在看着视频，突然问“某某身边这个人是谁？在哪出现过？”。

步骤S40、基于所述互动数据，获得目标问题。

在具体实施过程中，目标问题是基于互动数据获得的，为了进行视觉互动，需要首先获得目标问题。

作为一种可选的实施方式，参见图4，在互动数据包括音频数据和第一视线数据时；所述基于所述互动数据，获得目标问题的步骤，包括：

S401、基于所述视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体。

在具体实施过程中，第一视线数据UD_Eye_Line(t)可以包括视线焦点位置、移动线路、移动速度、停留时间等。因此，可以基于第一视线数据通过一定时间范围内[t0,t1,…,t]的时序数据[U_D(t0),U_D(t1),…，U_D(tn-1),U_D(t)]计算用户在[t0,…,t]时间范围内看视频并针对视频提出问题的可能性。具体的，设定一个时间阈值s(即预设播放时间段，比如s为t-t0),如果用户从时间范围[t0,t]内视线的焦点(来自于视线数据UD_Eye_Line)都一直在看目标多媒体，则代表用户在预设播放时间段内持续关注该目标多媒体，据此，可以得出用户可能是在尝试做一个针对目标多媒体的问答的结论，此时，执行S402。

S402、若是，则获取所述预设播放时间段的目标视频数据；并将所述音频数据转换为文本数据，对所述文本数据进行语义识别，获得语义识别结果。

在具体实施过程中，如果用户在预设播放时间段内持续关注所述目标多媒体，则可能是需要进行后续的问答互动。因此，为了后续能准确的识获得目标问题，需要获取所述预设播放时间段的目标视频数据。

其中，目标视频数据可以包括在预设播放时间段的视频帧以及视频帧对应的文本或语音等视频数据。具体可以通过获取预设播放时间段，来从视频源服务器中获取预设播放时间段所对应的视频文件中的视频帧以及视频帧对应的文本或语音等视频数据。同时，将所述音频数据转换为文本数据，对所述文本数据进行语义识别，获得语义识别结果。可以理解的是，语义识别结果可以获得目标问题的语义构成，在此基础上，可以通过图像识别等技术从目标视频数据中获取目标问题的重要信息，例如，当语音数据为“某某身边这个人是谁？在哪出现过？”时，可以通过从目标视频数据中“认”出用户说的‘某某’指的是谁？以及‘某某身边这个人’又指的是谁？。这样，通过语义识别结果和目标视频数据得出的目标问题更准确，因此，可以提高获得目标问题的准确率，从而提升互动体验。

S403、基于所述语义识别结果，判断所述用户的意图。

在具体实施过程中，语义识别结果是在用户是在预设播放时间段内持续关注所述目标多媒体的情况下获得的，因此，如果语义识别结果也表明是在提问，则可以判断用户的意图为互动问答。因此，此时，基于语义识别结果，可以判断所述用户的意图，则执行S404。

作为一种实施方式，如果语义识别结果不是提问，则代表用户虽然一直在关注目标多媒体，但没有进行互动问答，因此，为了节约系统资源，可以丢弃之前获得的目标视频数据，以提高互动交互的流畅度。

S404、若所述意图为互动问答，基于所述目标视频数据和所述语义识别结果，获得目标问题。

在具体实施过程中，如果语义识别结果也表明是在提问，则通过语义识别结果和目标视频数据得出的目标问题更准确。

步骤S60、基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息。

在具体实施过程中，视觉问答模型是根据历史数据，利用机器学习的方法训练获得的。它可以根据输入的目标问题，输出推荐答案信息。

作为一种实施方式，所述接收终端设备发送的用户观看目标多媒体的互动数据的步骤之前，所述方法还包括：

在具体实施过程中，历史互动提问数据以及历史推荐答案信息可以是从以往的其他互动方式获得的数据，例如，评论区的问答数据，弹幕的问答数据等。根据这些数据利用机器学习的方法，可以获得视觉问答模型。利用训练好的视觉问答模型，来快速获取推荐答案信息，即准确又高效。

其中，推荐答案信息中可以包括多个答案信息，以推送给终端设备，供用户选择，以避免单一答案推送错误的情况，这样可以进一步提高答案推送的准确率，从而提高用户体验。

步骤S80、将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

在具体实施过程中，在获得推荐答案信息后，将推荐答案信息发送给所述终端设备，终端设备输出推荐答案信息对应的答案选项，展示给用户，用户从答案选项中选择出目标答案选项。具体来说，推荐答案信息中一般包括答案的访问地址或标识。终端设备可以基于访问地址或标识，输出与访问地址链接的答案选项。通过用户的选择操作，可以访问该访问地址，以从服务器中的申请输出所述目标答案信息对应的目标答案。

举例来说，答案为视频文件的形式，则访问地址或标识为该视频文件的访问地址和标识，对应的答案选项链接该视频文件的访问地址。具体的实施方式请参见后续实施例。

作为一种实施方式，所述基于所述互动数据，获得目标问题的步骤之后，所述方法还包括：

对所述互动数据进行存储；

相应的，所述将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

可以理解的是，随着用户的个性化需求，在互动问答时的问题也会持续的更新，因此，为了提高视觉问答模型的准确率，需要实时或定时的对视觉问答模型进行更新。因此，可以对每次的互动数据进行存储。以根据互动数据以及获得的目标答案，以及从其他途径获得的答案信息对视觉问答模型进行更新。

应当理解的是，以上仅为举例说明，对本申请的技术方案并不构成任何限制，本领域的技术人员在实际应用中可以基于需要进行设置，此处不做限制。

通过上述描述不难发现，本实施例的方法在服务器端接收终端设备发送的用户观看目标多媒体时的互动数据；基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。由此可见，本申请的方法通过利用互动数据获得目标问题，并基于目标问题推荐答案，实现了观看目标多媒体时的问答交互，通过提问的方式互动，相较于现有的仅仅根据用户的语音数据进行视频跳转，互动方式更灵活，可交互的内容更多，交互限制性更小，用户的体验更好，解决现有技术中交互的内容受限，无法满足用户的需求的技术问题。

参见图5，图5为本申请的第二实施例提供的另一种视觉交互方法，用于第一实施例中的终端设备，该方法包括：

S200、获取用户观看目标多媒体时的互动数据。

S400、将所述互动数据发送至服务器，以使所述服务器基于所述互动数据，获得目标问题；基于所述目标问题，调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；

在具体实施过程中，在获取到互动数据后，为了得到推荐答案，需要将互动数据发送给服务器。具体的，服务器如何基于互动数据获得推荐答案，已经在前述实施例一中进行详细阐述，这里不再赘述。

S600、接收所述服务器发送的所述推荐答案信息，并输出所述推荐答案信息对应的答案选项。

在具体实施过程中，服务器在获取到推荐答案信息后，将推荐答案信息发送给终端设备。推荐答案信息中一般包括答案的访问地址或标识。终端设备可以基于访问地址或标识，输出与访问地址链接的答案选项。通过用户的选择操作，可以访问该访问地址，以从服务器中的申请输出所述目标答案信息对应的目标答案

具体的，由于答案的呈现形式不同，输出推荐答案信息对应的答案选项的方式包括多种，例如，在终端设备的屏幕下方或者侧边显示，语音播报的方式，文本框显示等。

在一种实施方式中，所述在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

获取所述用户观看所述目标答案的第二视线数据；

在具体实施过程中，由于输出的答案选项不一定包括正确的答案，因此，选择的目标答案也不一定是正确答案。因此，为了确定目标答案是否正确，可以在目标答案的播放过程中，获取所述用户观看所述目标答案的第二视线数据，该第二实现数据与前述实施例的格式和内容都基本相同，因此，采用常用的时序数据回归分析，即可得出表征所述用户对所述目标答案感兴趣程度的关注度值。

关注度阈值可以根据实际情况进行设置，比如，通过采集若干用户对视频的视线数据所得出的关注度值，进行拟合，取拐点值为关注度阈值。

可以理解的是，确定目标答案为正确答案后，可以将目标答案和目标问题输入视觉问答模型进行模型更新，以提高视觉问答模型的准确率，从而在后续互动问答时，提升答案输出的准确率，提升用户体验。

S800、在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

在具体实施过程中，选择操作可以是通过鼠标或触控的方式实现，也可以是语音输入或手势输入，同样基于前述实施例的外接或自带的设备接收可能的选择操作。

输出目标答案的方式也包括多种，例如，在终端设备的屏幕下方或者侧边显示，语音播报的方式，文本框显示等。

参见图6，图6是在终端设备的屏幕中显示答案选项的示意图。图中显示的答案选项为三个答案视频，即答案视频1、答案视频2和答案视频3。三个答案视频的选项中可以播放视频的主要图像，通过选择其中的选项，以播放答案视频。也可以直接循环播放答案视频，在接收到用户的选择操作后，放大或者全屏播放。

通过上述描述不难发现，本实施例的方法中的通过利用互动数据获得目标问题，并基于目标问题推荐答案，实现了观看目标多媒体时的问答交互，通过提问的方式互动，相较于现有的仅仅根据用户的语音数据进行视频跳转，互动方式更灵活，可交互的内容更多，交互限制性更小，用户的体验更好，解决现有技术中交互的内容受限，无法满足用户的需求的技术问题。

参见图7，图7为实现本申请的视觉交互方法的另一种视频服务系统图，该系统除了包括提供基本视频服务的视频服务器和视频源服务器外，还包括第一服务器、第二服务器、第三服务器、第四服务器以及第五服务器。其中，第一服务器与终端设备连接，第二服务器分别与第一服务器和终端设备连接，第三服务器分别与第二服务器、视频源服务器、第四服务器和第五服务器连接，第四服务器分别与视频源服务器、第三服务器和第五服务器连接，第五服务器分别与第一服务器、第四服务器和第五服务器连接。

下面针对多个服务器如何实现视频分段播放进行详细说明。

视频服务器和视频源服务器提供常规的视频服务，这里不再赘述。在本实施例中，目标多媒体为目标视频。

第一服务器，用于接收终端设备发送的用户观看目标多媒体时的互动数据，并基于所述互动数据中的第一视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体；若是，则获取所述预设播放时间段的目标视频数据；并将所述音频数据转换为文本数据，对所述文本数据进行语义识别，获得语义识别结果；基于所述语义识别结果，判断所述用户的意图。将用户的意图发送给第二服务器。

具体的，第一服务器的功能包括：

(1)接收并存储来自终端设备传过来的互动数据U_D(t)。

(2)处理U_D(t)，其过程为先通过U_D(t)中的声音数据UD_Audio(t)生成语音转成文本数据UD_Text(t)。

(3)将U_D(t)扩展为<U_D(t)，UD_Text(t)>发送给‘第五服务器’存储。

(4)进一步处理U_D(t)，具体为：根据用户的第一视线数据UD_Eye_Line(t)和文本数据UD_Text(t)，判断用户的意图(用户的意图包括：是/否尝试做一个针对目标视频的问答)，其具体过程为：

通过一定时间范围内[t0,t1,…,t]的时序数据[U_D(t0),U_D(t1),…，U_D(tn-1),U_D(t)]，计算用户在[t0,…,t]时间范围内看目标视频并针对目标视频提出问题的可能性，其中t0，t1,..,tn-1，表示t时间点之前的n个时间点，每个时间点的U_D,不同的时间点采集的数据肯定不同。

计算方法包括：设定一个时间阈值s(即预设播放时间段，比如s为t-t0),如果用户从时间范围[t0,t]内视线的焦点(来自于视线数据UD_Eye_Line)都一直在看目标视频。则表明用户可能是在尝试做一个针对目标视频的问答，然后在进一步使用自然语义识别技术判断用户是真的提出了一个跟目标视频相关的问题(输入为UD_Text)。也就是说，首先根据U_D(t)中的第一视线数据UD_Eye_Line，判断用户在s时间段([t0,t]的时间段)内视线的焦点是否一直在看目标视频，若是则进一步根据[t0,t]内的各个UD_Audio(t)(也可以为U_D_Text(t))，并使用自然语义识别技术判断用户是否提出了一个跟目标视频相关的问题，若是则该用户的意图为尝试做一个针对视频的互动问答。

(5)如果判断用户的意图为是尝试做一个针对目标视频的互动问答，发送通知给‘第二服务器’做‘视觉问答’或者其他处理方法，通知数据的格式为：<终端设备ID，处理方式ActionType>。其中，‘处理方式ActionType‘是可以扩展数据选项，用于指示‘第二服务器’的互动处理方法，可以为：进行视觉问答(当上述步骤判断出用户意图为“尝试做一个针对目标视频的互动问答时”)、不做处理(当上述步骤判断出用户意图为“不尝试做一个针对目标视频的互动问答时”)、或者其他行为定义。数据传输可以基于UDP/TCP/HTTP等实现的任何自定义的通信协议。

第二服务器，用于若所述意图为互动问答，基于所述目标视频数据和所述语义识别结果，获得目标问题；并基于所述目标问题，从第三服务器中调用训练获得的视觉问答模型，以获取所述目标问题的推荐答案信息；并将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到的对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案。

具体的，第二服务器的主要功能是：

(1)接收来自‘第一服务器’的通知:<终端设备ID，处理方式ActionType>，并根据其中的‘处理方式ActionType’去做互动处理。

(2)如果‘处理方式ActionType’为‘进行视觉问答’，则远程调用‘第三服务器’的视觉问答能力(视觉问答模型)，得到问题的可能答案的列表U_Answer(即推荐答案列表)，其中U_Answer格式为:<文本数据U_D_Text(t)，目标问题对应的视频列表answer_list>，answer_list是对应的目标问题的视频的访问地址或标识。

(3)得到U_Answer后，根据终端设备ID，向终端设备推送视觉问答的结果数据U_Answer。

此外，第二服务器给‘终端设备’推送了一个用户的视觉问答问题的可能的答案列表(即推荐答案列表)。‘终端设备’根据视觉问答的答案中的可能的访问地址列表从‘视频服务器’中请求相关的答案视频，并在屏幕的下方或者侧边显示，供用户观看或者选择全屏播放问题。

第三服务器，用于存储视觉问答模型，以为第二服务器输出推荐答案信息。

第四服务器，用于从第五服务器和视频源服务器中获取针对所述目标多媒体的历史互动提问数据以及根据所述提问数据获得的历史推荐答案信息；并基于历史互动提问数据以及历史推荐答案信息，训练获得所述视觉问答模型。

第五服务器，用于存储第一服务器的互动数据，以生成目标问题，供第四服务器调用，更新视觉问答模型。

需要说明的是，第一服务器、第二服务器、第三服务器、第四服务器和第五服务器，具体执行的步骤与前述实施例中的服务器执行的步骤相同，可以理解为前述实施例中的服务器的多个模块。设置多个服务器分别执行通过交互分别执行上述步骤，可以提高数据处理效率，减少视觉问答的延迟，提升用户体验。

请参见图8，基于与前述实施例同样的发明思路，本申请的实施例还提出一种视觉交互装置，用于服务器，包括：

问题获得模块，用于基于所述互动数据，获得目标问题；

需要说明的是，本实施中的视觉交互装置与前述实施例中的视觉交互方法一一对应，因此，其各种实施方式以及达到的技术效果都可以参照前述实施例一，这里不再赘述。

请参见图9，基于与前述实施例同样的发明思路，本申请的实施例还提出一种视觉交互装置，用于终端设备，包括：

此外，在一种实施例中，还提供一种电子设备，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法的步骤。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例一中方法的步骤。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

此外，在一种实施例中，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述实施例中方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视觉交互方法，其特征在于，用于服务器，所述方法包括：

接收终端设备发送的用户观看目标多媒体时的互动数据；

基于所述互动数据，获得目标问题；

将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案；

所述互动数据包括音频数据和第一视线数据；所述基于所述互动数据，获得目标问题的步骤，包括：

若是，则获取所述预设播放时间段的目标视频数据；并对所述音频数据进行语义识别，获得语义识别结果；

基于所述语义识别结果，判断所述用户的意图；

若所述意图为互动问答，则基于所述目标视频数据和所述语义识别结果，获得目标问题。

2.如权利要求1所述的方法，其特征在于，所述对所述音频数据进行语义识别，获得语义识别结果的步骤，包括：

将所述音频数据转换为文本数据，对所述文本数据进行语义识别，获得语义识别结果。

3.如权利要求1所述的方法，其特征在于，所述接收终端设备发送的用户观看目标多媒体的互动数据的步骤之前，所述方法还包括：

获取针对所述目标多媒体的历史互动提问数据以及根据所述历史互动提问数据获得的历史推荐答案信息；

4.如权利要求1所述的方法，其特征在于，所述接收终端设备发送的用户观看目标多媒体时的互动数据的步骤之后，所述方法还包括：

对所述互动数据进行存储；

所述将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

5.一种视觉交互方法，其特征在于，用于终端设备，所述方法包括：

获取用户观看目标多媒体时的互动数据；

在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案；

所述互动数据包括音频数据和第一视线数据；所述将所述互动数据发送至服务器，以使所述服务器基于所述互动数据，获得目标问题的步骤，包括：

将所述互动数据发送至服务器，以使所述服务器基于所述第一视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体；若是，则获取所述预设播放时间段的目标视频数据；并对所述音频数据进行语义识别，获得语义识别结果；基于所述语义识别结果，判断所述用户的意图；若所述意图为互动问答，则基于所述目标视频数据和所述语义识别结果，获得目标问题。

6.如权利要求5所述的方法，其特征在于，所述在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案的步骤之后，所述方法还包括：

获取所述用户观看所述目标答案的第二视线数据；

7.一种视觉交互装置，其特征在于，用于服务器，包括：

问题获得模块，用于基于所述互动数据，获得目标问题；

答案推送模块，用于将所述推荐答案信息发送给所述终端设备，以使所述终端设备输出所述推荐答案信息对应的答案选项，并在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案；

所述互动数据包括音频数据和第一视线数据；所述问题获得模块还用于：基于所述第一视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体；若是，则获取所述预设播放时间段的目标视频数据；并对所述音频数据进行语义识别，获得语义识别结果；基于所述语义识别结果，判断所述用户的意图；若所述意图为互动问答，则基于所述目标视频数据和所述语义识别结果，获得目标问题。

8.一种视觉交互装置，其特征在于，用于终端设备，包括：

答案输出模块，用于在接收到对所述答案选项中目标答案选项的选择操作时，输出所述目标答案选项对应的目标答案；

所述互动数据包括音频数据和第一视线数据；所述数据发送模块还用于：将所述互动数据发送至服务器，以使所述服务器基于所述第一视线数据，判断所述用户是否在预设播放时间段内持续关注所述目标多媒体；若是，则获取所述预设播放时间段的目标视频数据；并对所述音频数据进行语义识别，获得语义识别结果；基于所述语义识别结果，判断所述用户的意图；若所述意图为互动问答，则基于所述目标视频数据和所述语义识别结果，获得目标问题。

9.一种电子设备，其特征在于，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现如权利要求1-4或5-6中任一项所述方法的步骤。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如权利要求1-4或5-6中任一项所述方法的步骤。