CN117479165A

CN117479165A - 一种基于新通信架构的人机物交互通信方法

Info

Publication number: CN117479165A
Application number: CN202311401283.6A
Authority: CN
Inventors: 胡高生; 贾志强; 常剑; 陈家志; 汪秋波; 李韩; 庞文刚; 谢舒安; 邹西山; 范娴君; 车天龙; 侯桂清
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-30

Abstract

本发明公开了一种基于新通信架构的人机物交互通信方法，人机物交互技术领域。本发明的用户端可通过核心网网元下达管理设备端的指令，设备端所拍摄的视频流将上传到核心网网元，并以视频描述语句的方式发送到用户端，用户在设备端被管理后接收有意义、有变化或重要的视频描述语句信息，实现人机物借助通信利用文本进行交互，从而减少用户对视频的关注度。

Description

一种基于新通信架构的人机物交互通信方法

技术领域

本公开涉及人机物交互技术领域，具体而言，涉及一种基于新通信架构的人机物交互通信方法。

背景技术

随着技术的快速发展，新一代的通信网络技术，能够支持更高速率、更低延迟的通讯，能够提供更丰富的移动业务，更具具有开放的结构，将更充分的与无线局域网、蓝牙、WiMAX、UWB和卫星网络相结合，同时可更好的支持各种终端的功能。新一代通信网络技术，还是一个高度自治的自适应网络，能对其结构进行自适应管理，可采用分布式管理和多跳结构，从而满足用户在业务和容量上的变化和演进。可是，新一代通信在需求端的发展仍然不足，一方面不能挖掘用户的真正需求，另一方面将导致通信的发展逐渐迟滞。

在目前的信息技术中，人机物三者之间常常存在空间和时间的阻隔。以对某个现场的视频监控为例。用户需要通过设备了解设备所拍摄物体的状态，用户和设备之间存在强的绑定关系。若用户和设备被隔开，则不能较好地了解设备的状态。若用户和设备之间建立有通信，则占用用户的时间。因此，目前的人机物交互方案存在问题，使用户不能很好地建立众多设备联系，也不能很多地设备所监控物体状态。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于新通信架构的人机物交互通信方法，进而至少在一定程度上改善人机物交互较为单一、不利于人机物之间进行进一步通信场景交互的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

一种基于新通信架构的人机物交互通信方法，应用于建立有通信的用户端、设备端与设备端的系统中，其中，该方法包括以下步骤：

响应于用户在用户端的交互界面中输入的管理请求指令，所述核心网网元与设备端建立通讯；

响应于核心网网元的请求，设备端拍摄生成视频流并将视频流上传到核心网网元；

核心网网元将视频流通过转换方式获取视频描述语句，其中，所述视频描述语句为视频流中物体所对应地自然语言标识组成；

核心网网元将视频描述语句自动发送到用户端。

在本公开的一种示例性实施例中，基于前述方案，所述的核心网网元将视频流通过转换方式获取视频描述语句，包括：按照预设的管理框架，若视频描述语句符合管理框架的条件，则核心网网元将视频描述语句发送到用户端，若视频描述语句符合管理框架的条件，则核心网网元将视频描述语句存储在服务器中。

在本公开的一种示例性实施例中，基于前述方案，响应于用户在用户端的交互界面中输入的管理变更指令，核心网网元根据所述管理框架的参数。

在本公开的一种示例性实施例中，基于前述方案，所述核心网网元从视频流中处理并获得的与视频描述语句相对应的截取视频片段和/或截取图像帧，其中，所述截取视频片段为对应视频描述语句的连续图形帧，所述截取图像帧为从截取视频片段中截取的关键图像帧。

在本公开的一种示例性实施例中，基于前述方案，所述核心网网元以自动的方式向用户端发送所述截取视频片段和/或截取图像帧；或者，响应于用户在用户端的交互界面中输入的查阅请求指令，所述核心网网元向用户端发送所述截取视频片段和/或截取图像帧。

在本公开的一种示例性实施例中，基于前述方案，所述的核心网网元将视频流数据和视频描述语句数据存储于服务器中，响应于用户在用户端的交互界面中输入的检索请求指令，所述核心网网元根据检索请求指令的内容获取匹配的视频描述语句、截取视频片段或截取图像帧。

在本公开的一种示例性实施例中，基于前述方案，响应于用户在用户端的交互界面中输入的监视请求指令，核心网网元以通话方式与户端建立通信连接，并将设备端上传的视频流发送到用户端并在用户端展示。

在本公开的一种示例性实施例中，基于前述方案，核心网网元通过语言描述模型提取出视频特征，视频特征相对应的语义标识，并根据语义标识组合生成视频描述语句，所述语言描述模型初始描述语句数据和原始网络视频数训练获得。

在本公开的一种示例性实施例中，基于前述方案，交互界面配置有控件，响应于用户在在用户端的交互界面中对所述控件的操作，所述核心网网元修改对应用户端的账户下的设置选项。

在本公开的一种示例性实施例中，基于前述方案，随着核心网网元向用户端发送视频描述语句，所述核心网网元还向用户端发送指令指示信息。

与相关技术相比，在本公开中，用户端可通过核心网网元下达管理设备端的指令，设备端所拍摄的视频流将上传到核心网网元，并以视频描述语句的方式发送到用户端，用户在设备端被管理后接收有意义、有变化或重要的视频描述语句信息，实现人机物借助通信利用文本进行交互，从而减少用户对视频的关注度，但能满足用户对监控设备的使用需求，解决视频数据占用存储空间大的问题，实现提高安全性，避免隐私被误公开等效果。

附图说明

图1本发明实施例的一种基于新通信架构的人机物交互通信方法的架构示意图；

图2本发明实施例的一种基于新通信架构的人机物交互通信方法的流程示意图；

图3本发明实施例的一种基于新通信架构的人机物交互通信方法的交互界面的第一状态示意图；

图4本发明实施例的一种基于新通信架构的人机物交互通信方法的交互界面的第二状态示意图。

具体实施方式

为更好的说明本发明的目的、技术方案和优点，下面结合附图和实施例对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不作为限制本发明的范围。

参考图1，图1示出了可以应用本公开实施例的人机物交互通信方法的一种通信架构系统。该通信架构系统包括用户端10、核心网网元30与设备端20。其中，用户端10、核心网网元30与设备端20之间可借助各种通信形式建立有通信通信连接。如用户端10和核心网网元30建立有无线蜂窝通信。又如，设备端20通过局域通信和有限宽带建立与核心网网元30的通信。用户端10可以是手机、计算机等由用户所控制的设备。设备端20是属于用户并由用户绑定至核心网的设备。用户为设备端20配备了基本功能，如拍摄并获得视频流，又如通过通信方式与核心网网元30建立通信。

具体来说，为实现本申请的目的，核心网网元30包括认证模块31、交互模块32、数据模块34和语言描述模型33。

其中，认证模块31用于在核心网网元30与用户端10之间建立通信连接时进行用户账户的认证，若符合则允许接入并提供相应的服务，若不符合则停止提供服务。同时，认证模块31还用户在核心网网元30和设备端20之间建立通信连接时进行认证，若符合条件则按用户端10的指示进行交互，若不符合条件则向用户端10报错。

其中，数据模块34用于存储整个交互过程所需要的数据流。

其中，语言描述模型33用于将视频流通过转换方式获取视频描述语句，而视频描述语句为视频流中物体所对应地自然语言标识组成。具体来说，所述的核心网网元30将视频流数据和视频描述语句数据存储于服务器中，响应于用户在用户端10的交互界面中输入的检索请求指令，所述核心网网元30根据检索请求指令的内容获取匹配的视频描述语句、截取视频片段或截取图像帧。因此，视频流中的图像帧中的特征，如人物，动物等物体，以及上述物体所对应的名词语义；又如人物，动物等物体的具体特征；以及上述具体特征对应的注入人物的年龄、性别等特征形容词语义。视频流中的连续的图像集合，可获取人物/动物的姿态、行为的持续时间或所处位置特征，以及上述连续特征对应的状态词语义。根据上述自然语言标识进行语句的组合，可以获得设备端20所拍摄物体对应的视频描述语句。

其中，交互模块32用于接收用户端10的各种指令，并按照指令及指令对应的程序而提供与设备端20相关的服务。特别是，交互模块32响应于用户在用户端10的交互界面中输入的管理请求指令，指示设备端20拍摄生成视频流并将视频流上传，并将经语言描述模型33转换的视频描述语句发送到用户端10。

由此可见，本实施例中用户端10可通过核心网网元30下达管理设备端20的指令，设备端20所拍摄的视频流将上传到核心网网元30，并以视频描述语句的方式发送到用户端10，用户在设备端20被管理后接收有意义、有变化或重要的视频描述语句信息，实现人机物借助通信利用文本进行交互，从而减少用户对视频的关注度，但能满足用户对监控设备的使用需求，解决视频数据占用存储空间大的问题，实现提高安全性，避免隐私被误公开等效果。

参考图2，图2示出了可以应用本公开实施例的人机物交互通信方法。该方法包括步骤：

S101、响应于用户在用户端10的交互界面中输入的管理请求指令，所述核心网网元30与设备端20建立通讯。值得说明的是，用户端10可通过各种通信方式与核心网网元30建立通信。用户端10和设备端20均在核心网网元30中获得认证，核心网网元30将指示用户对属于用户的一个或多个设备端20提供相应的服务。

S102、响应于核心网网元30的请求，设备端20拍摄生成视频流并将视频流上传到核心网网元30。值得说明的是，设备端20可通过各种通信方式与核心网网元30建立通信。设备端20将拍摄的视频流以要求的格式上传到核心网网元30。同样，设备端20也可以将视频流记录并保存在本地。

S103、核心网网元30将视频流通过转换方式获取视频描述语句，其中，所述视频描述语句为视频流中物体所对应地自然语言标识组成。可以理解的是，核心网网元30配置有已训练的语言描述模型33。语言描述模型33可以将从设备端20获取的视频流转换为视频描述语句。所述的核心网网元30将视频流数据和视频描述语句数据存储于服务器中，响应于用户在用户端10的交互界面中输入的检索请求指令，所述核心网网元30根据检索请求指令的内容获取匹配的视频描述语句、截取视频片段或截取图像帧。

S104、核心网网元30将视频描述语句自动发送到用户端10。值得说明的是，用户获得了视频描述语句，用户端10将被通知，用户可以根据视频描述语句想象设备段的状态，并判断是否进行实质性的操作。

由此可见，本实施例中，用户在设备端20被管理后接收有意义、有变化或重要的视频描述语句信息，实现人机物借助通信利用文本进行交互，从而减少用户对视频的关注度。

具体来说，步骤S103包括：核心网网元30按照预设的管理框架，若视频描述语句符合管理框架的条件，则核心网网元30将视频描述语句发送到用户端10，若视频描述语句符合管理框架的条件，则核心网网元30将视频描述语句存储在服务器中。管理框架可以由用户根据设备端20的所拍摄的物体的特点进行具体的选择。管理框架里面设定了初始的管理策略，例如判断重要性的关键词，或者关键性、关键时间段、关键事件等。响应于用户的操作，响应于用户在用户端10的交互界面中输入的管理变更指令，核心网网元30根据所述管理框架的参数。例如，用户通过约定指令加关键词描述文本发送给核心网网元30，核心网网元30将修改管理框架对应的关键词。

具体来说，所述核心网网元30从视频流中处理并获得的与视频描述语句相对应的截取视频片段和/或截取图像帧，其中，所述截取视频片段为对应视频描述语句的连续图形帧，所述截取图像帧为从截取视频片段中截取的关键图像帧。核心网网元30为符合管理框架的视频描述语句生成独立的截取视频片段和/或截取图像帧。截取视频片段和截取图像帧能够反向展现对应视频描述语句的特点。一方面，所述截取视频片段和/或截取图像帧，是由核心网网元30以自动的方式向用户端10发送。在另一方面，所述截取视频片段和/或截取图像帧，响应于用户在用户端10的交互界面中输入的查阅请求指令，由核心网网元30发送。查阅请求指令可以集成于用户界面的一功能控件。

具体来说，为了方面用户，在用户的配置下，所述的核心网网元30将视频流数据和视频描述语句数据存储于服务器中。当用户在用户端10的交互界面中输入的检索请求指令，响应于用户的检索请求指令，所述核心网网元30根据检索请求指令的内容获取匹配的视频描述语句、截取视频片段或截取图像帧。检索请求指令可以是由约定指令加检索请求文本组成。

具体来说，为了方面用户关注实时状态，用户在用户端10的交互界面中输入的监视请求指令，响应于用户的监视请求指令，核心网网元30以通话方式与户端建立通信连接，并将设备端20上传的视频流发送到用户端10并在用户端10展示。

具体来说，交互界面配置有控件，响应于用户在在用户端10的交互界面中对所述控件的操作，所述核心网网元30修改对应用户端10的账户下的设置选项。

具体来说，随着核心网网元30向用户端10发送视频描述语句，所述核心网网元30还向用户端10发送指令指示信息。在发送一次视频描述语句后，指令指示信息可以提示用户进行后续的操作。

由此可见，通过新通信架构，用户端10和设备端20所需的配置极少，极大方便持有各类端设备的用户接入核心网网元30并获取相应的服务。

参考图3，图3示出了可以应用本公开实施例的人机物交互通信方法中的交互界面的第一状态。用户在交互界面中看到核心网网元30所发送的视频描述语句。视频描述语句为中文，包含了对管理中的设备端20所拍摄物体的描述。用户在交互界面中还看到截取图像帧。截取图像帧为JPG格式，截取图像帧可展示视频描述语句的全部内容及未表达的细节。用户在交互界面中还看到截取视频片段，截取图像帧可展示视频描述语句的全部内容和过程，以及未表达的细节。交互界面设置有输入栏，用户可以编辑各种指令，并发送到核心网网元30。交互界面设置有功能控件，用户可以操作功功能控件，可以选择具体的空间。参考图4，图4示出了可以应用本公开实施例的人机物交互通信方法中的交互界面的第二状态。用户在功能控件可看到多种功能控件。

以上实施例主要描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于新通信架构的人机物交互通信方法，应用于建立有通信的用户端(10)、设备端(20)与设备端(20)的系统中，其特征在于，该方法包括以下步骤：

响应于用户在用户端(10)的交互界面中输入的管理请求指令，所述核心网网元(30)与设备端(20)建立通讯；

响应于核心网网元(30)的请求，设备端(20)拍摄生成视频流并将视频流上传到核心网网元(30)；

核心网网元(30)将视频流通过转换方式获取视频描述语句，其中，所述视频描述语句为视频流中物体所对应地自然语言标识组成；

核心网网元(30)将视频描述语句自动发送到用户端(10)。

2.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，所述的核心网网元(30)将视频流通过转换方式获取视频描述语句，包括：按照预设的管理框架，若视频描述语句符合管理框架的条件，则核心网网元(30)将视频描述语句发送到用户端(10)，若视频描述语句符合管理框架的条件，则核心网网元(30)将视频描述语句存储在服务器中。

3.根据权利要求2所述的基于新通信架构的人机物交互通信方法，其特征在于，响应于用户在用户端(10)的交互界面中输入的管理变更指令，核心网网元(30)根据所述管理框架的参数。

4.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，所述核心网网元(30)从视频流中处理并获得的与视频描述语句相对应的截取视频片段和/或截取图像帧，其中，所述截取视频片段为对应视频描述语句的连续图形帧，所述截取图像帧为从截取视频片段中截取的关键图像帧。

5.根据权利要求4所述的基于新通信架构的人机物交互通信方法，其特征在于，所述核心网网元(30)以自动的方式向用户端(10)发送所述截取视频片段和/或截取图像帧；或者，响应于用户在用户端(10)的交互界面中输入的查阅请求指令，所述核心网网元(30)向用户端(10)发送所述截取视频片段和/或截取图像帧。

6.根据权利要求4所述的基于新通信架构的人机物交互通信方法，其特征在于，所述的核心网网元(30)将视频流数据和视频描述语句数据存储于服务器中，响应于用户在用户端(10)的交互界面中输入的检索请求指令，所述核心网网元(30)根据检索请求指令的内容获取匹配的视频描述语句、截取视频片段或截取图像帧。

7.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，响应于用户在用户端(10)的交互界面中输入的监视请求指令，核心网网元(30)以通话方式与户端建立通信连接，并将设备端(20)上传的视频流发送到用户端(10)并在用户端(10)展示。

8.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，核心网网元(30)通过语言描述模型提取出视频特征，视频特征相对应的语义标识，并根据语义标识组合生成视频描述语句，所述语言描述模型初始描述语句数据和原始网络视频数训练获得。

9.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，交互界面配置有控件，响应于用户在在用户端(10)的交互界面中对所述控件的操作，所述核心网网元(30)修改对应用户端(10)的账户下的设置选项。

10.根据权利要求1所述的基于新通信架构的人机物交互通信方法，其特征在于，随着核心网网元(30)向用户端(10)发送视频描述语句，所述核心网网元(30)还向用户端(10)发送指令指示信息。