CN114821257B

CN114821257B - 导航中视频流与自然语言的智能处理方法和装置、设备

Info

Publication number: CN114821257B
Application number: CN202210447540.9A
Authority: CN
Inventors: 刘慧�
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2024-04-05
Anticipated expiration: 2042-04-26
Also published as: CN114821257A

Abstract

本发明公开了一种导航中视频流与自然语言的智能处理方法和装置、设备，包括：形成自然语言图像知识库；提取自然语言中的决策语言和语义；分割决策语言部分和非决策语言部分；将非决策语言部分的自然语言识别翻译成图像帧序列；图像帧序列形成视频流或者将图像帧序列与视频流相匹配融合；在视频流帧图像中建立时空极坐标系；分析时空极坐标系下的动态图像和非动态图像；建立决策树结构化模型机制，遍历决策树标注多维度参数；形成图像内容语言矩阵和视频流内容语言矩阵，完成视频流到自然语言的智能处理；根据自然语言进行导航语义理解；本发明的优点是：相互映射、匹配和融合效率高，提高智能导航的精准性、实时性和安全性，提升体验度。

Description

导航中视频流与自然语言的智能处理方法和装置、设备

技术领域

本发明涉及视频流与自然语言的智能处理技术领域，特别涉及一种导航中视频流与自然语言的智能处理方法和装置、设备。

背景技术

目前，随着空天地海信息网络的蓬勃发展，各种智能移动终端在快速改变着人们的生活，如行星、卫星、飞机、舰艇、汽车、手机、热气球、军民用各类机器人等，发展如火如荼。“互联网+机器人”正在逐步升级，需求十分旺盛。

同时人们对各种智能移动终端的导航智能化要求不断提高，自动驾驶和避障技术受到越来越多的关注，导航中视频流与自然语言的智能处理成为导航技术发展进程中需要研究的重要课题。视频流可以和文字、声音、图像、符号等形式的数据相互转化，具有灵活性、统一性、可传输性等特点，由传感器或监控摄像头获取的视频流与自然语言更智能的相互转化符合了当今社会对智能化导航的需求。该项研究将帮助和促进可视导航中机器会看又会说的加速实现，不仅有利于导航技术的完善和优化，更能服务于广大社会群体，对交通安全、生活质量、残障人士的帮助都有着积极意义。

现有技术中，较多的文献研究集中在视频图像的检测、分割和识别方面和较多的文献研究集中在自然语言处理方面，视频流与自然语言之间的智能处理相对研究还很不成熟，导航中视频流与自然语言的智能处理研究更是具有前瞻性、基础性和挑战性，是国际研究的前沿，相关研究还很缺乏。

发明内容

本发明针对现有技术的缺陷，提供了一种导航中视频流与自然语言的智能处理方法和装置、设备，有助于高效实现文字、图像、视频流的相互映射、匹配和融合，提高智能导航的精准性、实时性和安全性，提升良好用户体验度，为实现可视导航中机器会看又会说提供必要的技术支撑。

为了实现以上发明目的，本发明提供一种导航中视频流与自然语言的智能处理方法，包括：

S1：将自然语言文字、词语、句子、符号分类分度图像化，形成自然语言图像知识库；

S2：根据自然语言图像知识库识别提取所获自然语言中的决策语言和语义；分割所获自然语言中决策语言部分和非决策语言部分，保持语义，将所获自然语言转换为更利于导航的语言；

S3：采用Transformer模型或其改进模型按照一定的顺序、规则、逻辑或结构将非决策语言部分的自然语言识别翻译成图像帧序列；

S4：根据决策语言和语义按照相关规则或逻辑将图像帧序列形成视频流或者将图像帧序列与所获导航视频流相匹配融合，完成自然语言到视频流的智能处理；

S5：在所获视频流帧图像中建立一个或多个时空极坐标系；

S6：分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像，时空极坐标系之间独立或者关联；

S7：根据需要和自然语言图像知识库，将每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制，遍历决策树标注多维度参数，多维度参数包括：时间、时空极坐标系定位坐标、颜色、尺寸、重量、密度、动态类别、动态状态、动态曲线、动态逻辑、事件、语义；

S8：根据标注的多维度参数分别将每个坐标系下的视频流帧图像内容定位结构化、逻辑化、规范化、模型化、语言化，形成图像内容语言矩阵，进而使得视频流内容定位结构化逻辑化规范化模型化语言化，形成视频流内容语言矩阵，也就是将视频流内容数据规范模型语言化，形成视频流语言；

S9：采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言，完成视频流到自然语言的智能处理；

S10：根据自然语言进行导航语义理解。

进一步地，S1中分类分度包括：

根据时空极坐标系进行分类分度图形图像化，不易或不适合图形图像化的自然语言根据决策和询问类别进行语言分类分度；

分类包括：实体对象的种类、语言的种类、词语的种类、符号的种类、场景的种类、动作的种类、句型的种类、颜色的种类、语法的种类；

分度包括：深浅度、长短度、远近度、清晰度、模糊度、密度、稀疏度、严重度、力度和速度，包括与程度相关的分类，包括与形容词相关的不同程度的分类；

各类声音分类分度图像化和或自然语言化，包括：声音音量、长度、宽度、厚度、男声、女声、孩童声、救护车声和汽笛声。

进一步地，S4包括：

根据导航中各类移动终端的行驶速度计算相应所述图像帧之间的时间间隔形成序列形成视频流；

根据决策语言和语义将多帧图像调整尺寸布局组合形成一帧或多帧一定尺寸的图像，根据决策语言和语义将多帧图像调整尺寸布局融合匹配到所获视频流中的特定的一帧或多帧图像中；

根据行驶速度、行驶加速度、相关规则将形成的帧图像插入到所获视频流中，相融合匹配得到视频流帧图像。

进一步地，所述S5中的时空极坐标系是时钟-时间空间-极坐标系，简称时空极坐标系；

时空极坐标系包括极点、极轴、时钟表盘、时间轴，极点即是时钟表盘的中心点，极轴即是始于极点指向表盘的3点钟方向，时间轴穿过极点，时间轴为直线或曲线，时间轴和极轴所在平面垂直于时钟表盘面，时间轴垂直于极轴或不垂直于极轴，一个时空极坐标系内有一条或一条以上时间轴；所述时空极坐标系与时钟坐标系、极坐标系、空间坐标系之间能够坐标相互转换；

时空极坐标系时间轴上的帧图像为移动终端上的传感器或摄像机当前位置当前视野中的视频流帧图像，或为其他相关地方传感器或摄像机视野中的视频流帧图像通过网络传输到该坐标系时间轴上的相应时刻，作为相应移动终端路径规划的预测依据；

根据存储的相关历史视频流和或虚拟数字视频流和或数字地图视频流和或帧图像和由所述视频流和帧图像转换出的自然语言、文本、语义，作为当前时刻导航视频流的参考和或参照，比较生成当前时刻导航视频流的自然语言和或语义表述和或文本信息；比较当前时刻导航视频流和存储的相关历史视频流和或虚拟数字视频流和或数字地图视频流和或帧图像的差别和相关性，根据相关性参考和或参照和或差别，匹配定位和或编码标注相关路径和或终端和或障碍物和或相关导航点和或导航相关事物对象，计算预测终端未来时刻行驶速度、加速度、路径路线，即帮助当前导航的前方预测和当前导航的自然语言生成和表述。

进一步地，S6包括：

根据自然语言图像知识库对视频流和或帧图像中相关事物和或对象的匹配和识别；

根据自然语言图像知识库，联合Transformer模型和或CNN(ConvolutionalNeural Networks,CNN)模型建立识别方法对视频流和或帧图像中相关事物和或对象进行匹配、识别和标注；

定位动态图像和非动态图像的关键边界和关键边界点；

跟踪定位视频流帧图像中动态图像和非动态图像的相关轨迹、关键边界和关键边界点；

将相关轨迹、关键边界和关键边界点在视频流帧图像中用示意几何图形标定化，所述相关轨迹、关键边界和关键边界点及其示意几何图形标定随时间轴变化而演进移动变化；

跟踪定位规划视频流帧图像路径导航点、路径路线、路径空间、路径边界和路径边界点；

将路径导航点、路径路线、路径空间、路径边界、路径边界点在视频流帧图像中用示意几何图形标定化，所述路径导航点、路径路线、路径空间、路径边界、路径边界点及其示意几何图形标定随时间轴变化而演进移动变化；

每个时空极坐标系下的对象定位有一个或多个时空极坐标系下的坐标；

根据视频流帧图像各种对象的跟踪定位规划状况，计算所述视频流帧图像各种对象的物理世界的相应尺寸、位置、动态速度、动态加速度、动态频率、轨迹的动态状况；

根据视频流帧图像各种对象的跟踪定位规划状况，计算物理世界中与之相关各种移动终端的相对尺寸、相对位置、相对动态速度、相对动态加速度、相对动态频率、轨迹的动态状况；

根据所述各种相对状况，计算规划预测相关各种移动终端的路径、路线、导航点、速度、加速度。

进一步地，S7包括：

将视频流帧图像中所有相关对象按照位置关系、事件逻辑关系、事件结构关系、语义关系建立一个或多个对象决策树；

将视频流帧图像中所有相关对象的属性维度根据对象不同分别对每个对象按照位置关系、事件逻辑关系、事件结构关系、语义关系、描述习惯建立一个或多个属性维度决策树；

所述对象决策树和属性维度决策树合并为一个决策树，即决策树中既有对象，也有对象的属性维度，用一套二进制和或多进制编码方式进行统一编码或多套编码方式混合编码；

所述决策树拆分为多个决策树，拆分之后分别单独编码或多套编码或与原决策树统一一套编码；

视频流帧图像中相关对象每一维度的参数设置一个或多个符号来代表该参数和代表该参数的状态；

根据相关规则、策略合理设置维度参数对应的数值、公式或语句，包括：大小、范围、类别、长度。

进一步地，S8包括：

根据视频流帧图像中对象的各种布局将标注定位；

将各对象标注排序定位包括：根据时空极坐标系顺时针或逆时针方向排序定位，根据极轴方向或极轴反方向排序定位，根据空间距离排序定位；

根据标注排序定位结构，将图像各对象标注排列形成矩阵，即形成图像内容语言矩阵，并存储和更新；

根据视频流中帧图像相关内容的变化和帧图像的时间间隔，和或行驶速度、加速度，存储、更新和或增加新的图像内容语言矩阵，并依次排序，按照时间发生顺序排列或按照特定需求排列，形成视频流内容语言矩阵。

进一步地，S8还包括：

在所获视频流帧图像中以某一事物对象和或多个事物对象为参照物，分别建立基准点；

分析定位分割所获视频流帧图像中每个参照物下的相关动态图像和非动态图像，参照物之间相互关联或独立存在；

根据需要和自然语言图像知识库，将每个参照物下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制，遍历决策树标注多维度参数，多维度参数包括：时间、与参照物的相对位置及关系、颜色、动态类别、动态状态、动态曲线、动态逻辑、事件、语义；

根据标注分别将每个参照物下的视频流帧图像内容定位结构化逻辑化规范化模型化语言化，如形成图像内容语言矩阵，进而使得视频流内容定位结构化逻辑化规范化模型化语言化，形成视频流内容语言矩阵，也就是将视频流内容数据规范模型语言化，形成一种语言，视频流语言。

进一步地，S9包括：

根据自然语言图像知识库和时空极坐标系或参照物，联合Transformer模型和或CNN模型等建立视频流帧图像中相关对象的分析定位分割方法对视频流和或帧图像中相关事物和或对象进行自动定位分割；

根据自然语言图像知识库和时空极坐标系或参照物以及定位分割状况，联合Transformer模型和或CNN模型等建立识别方法对视频流和或帧图像中相关事物和或对象进行自动匹配和识别；

根据自然语言图像知识库和时空极坐标系或参照物以及匹配和识别状况，联合Transformer模型和或CNN模型等建立标注方法对视频流和或帧图像中相关事物和或对象进行自动标注；

根据自然语言图像知识库和时空极坐标系或参照物以及标注状况，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关对象或事物和标注进行自动定位结构化逻辑化的方式方法，以对视频流和或帧图像中相关对象或事物和标注进行自动定位结构化逻辑化；

根据自然语言图像知识库和时空极坐标系或参照物以及视频流和或帧图像中相关对象或事物和标注定位结构化逻辑化状况，联合Transformer模型和或CNN模型等自动建立形成视频流语言和或帧图像语言；

根据图像内容语言矩阵采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言；

根据视频流内容语言矩阵采用Transformer模型或其改进模型将图像帧序列、视频流翻译成自然语言；

根据视频流和或帧图像和或自然语言进行导航语义理解。

进一步地，S10包括：

根据视频流和或帧图像和或自然语言进行导航语义理解；

根据自然语言进行导航语义理解；

将自然语言采用Transformer模型或其改进模型翻译成图像内容语言矩阵，进而融合匹配形成图像、图像帧序列和视频流；

将自然语言采用Transformer模型或其改进模型翻译成视频流内容语言矩阵，进而融合匹配形成图像、图像帧序列和视频流。

进一步地，S10还包括：

将各种类自然语言量子化，将视频流语言和帧图像语言量子化，形成量子自然语言，量子视频流语言和量子帧图像语言，统称量子化语言；

将各种类自然语言按照各种类自然语言的语言基量子化；

将各种类自然语言相应文字、符号、句子转化为二进制数和或多进制数；

视频流和帧图像的标注根据相应自然语言二进制数化和或多进制数化的方法和结果也转化为二进制数和或多进制数；

视频流语言和帧图像语言根据相应自然语言二进制数化和或多进制数化的方法和结果也转化为二进制数和或多进制数；

根据自然语言图像知识库，联合Transformer模型和或CNN模型建立对视频流和或帧图像中相关事物和或对象进行匹配、识别、标注和对视频流和或帧图像内容定位结构化逻辑化自动形成量子化语言的方式方法；

量子化语言和隐私保护技术、密码相结合，联合Transformer模型和或CNN模型建立对视频流和或帧图像和或各种类自然语言进行量子化加解密的方式方法；

自然语言图像知识库中自然语言、图像和量子化语言可以相互映射和匹配；

根据视频流内容语言矩阵采用Transformer模型或其改进模型将图像帧序列、视频流翻译成量子化语言；

根据图像内容语言矩阵采用Transformer模型或其改进模型将图像帧序列、视频流翻译成量子化语言；

各种类自然语言和或量子化语言之间的相互翻译或智能转化，利用多层Transformer模型或其改进模型联合翻译完成，每一层Transformer模型或其改进模型翻译都将一种逻辑机理和结构机理翻译成了另外一种逻辑机理和结构机理。

进一步地，S10还包括：

将各种类自然语言按照各种类自然语言的语言基量子化；比如英文的字母、符号、语调及其顺序可构成英语的语言基；比如中文自然语言的一种方言或者普通话的拼音字母、音调、符号、笔画、部首、结构、逻辑、组成部分、元素及其顺序等的各种组合可构成相应方言或者普通话的语言基；将各种类自然语言按照各种类自然语言的语言基进行二进制数化和或多进制数化属于将各种类自然语言量子化的实施方法；

英文自然语言中26个字母可按照26个英文字母顺序或逆序编码二进制数化，逗号、引号、句点等符号可单独编码，也可与26个英文字母一起编码二进制数化；也可以采取多进制编码方法；英文单词和句子均是字母、符号等的组合，从而也二进制数化或多进制数化了；

中文自然语言拼音及符号同理按照拼音的顺序或逆序和逻辑可进行二进制数化或多进制数化，从而拼音词组和句子均可二进制数化或多进制数化；中文自然语言汉字及符号可按照汉字的组成部分、元素、结构和逻辑进行二进制数化或多进制数化，中文词组和句子从而均可二进制数化或多进制数化；

同理，各种类自然语言包括方言等按照各自种类自然语言的规则、结构、逻辑、顺序等转化为二进制数和或多进制数；各种类自然语言转化为二进制数和或多进制数的方法可不同也可相同；

在转化为二进制数和或多进制数的过程中，对于一种自然语言和其包含的所有文字、符号、句子、逻辑等均可统一标准化转化方法，以确保可识别性、可读性、准确性和使用性。

本发明还公开了一种导航中视频流与自然语言的智能处理装置，包括：

获取模块，所述获取模块用于获取视频流和用于获取自然语言；

提取模块，所述提取模块用于识别提取所获自然语言中的决策语言和语义；分割所获自然语言中决策语言部分和非决策语言部分；

定位分割模块，所述定位分割模块用于根据自然语言图像知识库和时空极坐标系或参照物，联合Transformer模型和或CNN模型等建立视频流帧图像中相关对象的分析定位分割方法对视频流和或帧图像中相关事物和或对象进行自动定位分割；

匹配识别模块，所述匹配识别模块用于根据自然语言图像知识库和时空极坐标系或参照物以及定位分割状况，联合Transformer模型和或CNN模型等建立识别方法对视频流和或帧图像中相关事物和或对象进行自动匹配和识别，包括对视频流和或帧图像中相关事物和或对象进行自动匹配和识别到自然语言相关文字、符号和语义；所述匹配识别模块还用于根据自然语言图像知识库和时空极坐标系或参照物以及定位分割状况，联合Transformer模型和或CNN模型等建立识别方法对所获自然语言中相关事物和或对象与所获视频流和或帧图像中相关事物和或对象进行自动匹配和识别；

融合模块，所述融合模块用于根据决策语言和语义按照相关规则或逻辑，将从所获自然语言翻译转化得到的图像帧序列形成视频流或者将从所获自然语言翻译转化得到的图像或图像帧序列插入、匹配融合到所获导航视频流中或所获导航视频流帧图像中；

标注模块，所述标注模块用于根据自然语言图像知识库和时空极坐标系或参照物以及匹配和识别状况，联合Transformer模型和或CNN模型等建立标注方法对视频流和或帧图像中相关事物和或对象进行自动标注；

结构化逻辑化模块，所述结构化逻辑化模块用于根据自然语言图像知识库和时空极坐标系或参照物以及标注状况，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关对象或事物和标注进行自动定位结构化逻辑化的方式方法，以对视频流和或帧图像中相关对象或事物和标注进行自动定位结构化逻辑化；

视频流语言模块，所述视频流语言模块用于根据自然语言图像知识库和时空极坐标系或参照物以及视频流和或帧图像中相关对象或事物和标注定位结构化逻辑化状况，联合Transformer模型和或CNN模型等自动建立形成视频流语言和帧图像语言；

语言翻译模块，所述语言翻译模块用于将视频流语言和或帧图像语言翻译成各种类自然语言和或量子化语言；所述语言翻译模块还用于将各种类自然语言和或量子化语言翻译成视频流语言和或帧图像语言；

量子化语言模块，所述量子化语言模块用于将各种类自然语言量子化，将视频流语言和帧图像语言量子化，形成量子化语言；所述量子化语言模块还用于将量子化语言翻译成自然语言，将视频流语言的量子化语言自然语言化和帧图像语言的量子化语言自然语言化；

加解密模块，所述加解密模块用于对视频流和或帧图像和或各种类自然语言和或视频流语言和或帧图像语言和或量子化语言进行加解密，并建立形成加解密算法、方法、模型数据库，实时自动更新和存储；

图像语言模块，所述图像语言模块用于根据自然语言图像知识库和时空极坐标系或参照物以及视频流和或帧图像中相关对象或事物和标注定位结构化逻辑化状况，联合Transformer模型和或CNN模型等自动建立形成帧图像语言；所述图像语言模块还用于根据一定的规则或算法或时间或导航中移动终端行驶速度、加速度等，提取视频流语言模块或语言翻译模块或量子化语言模块或加解密模块形成的视频流语言中的帧图像语言。

本发明还公开了一种导航中视频流与自然语言的智能处理装置或设备，包括：控制器、运算器和存储器，以及输入和输出，互联互通；

控制器根据运算器和存储器提供的计算预测的机器运动的路线、速度、加速度控制视频流和自然语言的传输、处理和转换速度、加速度，同时为机器的各种运动、各种操作、各种语言交流提供恰当实时的控制信息和数据；控制器同时也具有根据运算器、存储器计算、预测和存储的信息数据，为可视导航相关数据的网络相关传输提供安全控制信息功能；

运算器为导航中视频流和自然语言智能处理提供各种计算和预测，包括能耗、网络状况，同时将相关信息和或数据传递给控制器和存储器，同时将相关信息数据通过网络传输接口进行网络安全传输；

存储器存储控制器和运算器产生的各种相关信息和数据，存储视频流和自然语言以及相关知识库，存储网络传输相关信息，存储各种安全实施策略相关信息，供控制器和运算器各种循环使用，同时将相关信息数据通过网络传输接口进行网络安全传输；

控制器和运算器根据存储器相关信息和数据具有各种学习功能；控制器和运算器以软件或硬件实现。

进一步地，所述的装置或设备，还包括：一个或多个安全计算防护器，其作用为导航装置、设备提供多重安全防护，为数据安全传输提供安全认证、加解密、漏洞发现、安全自学习算法、安全补丁防护措施；多个安全计算防护器单独使用和或联合使用和或备份使用，单个或多个损坏激发其他安全计算防护器继续防护。

与现有技术相比，本发明的优点在于：

将知识库、时空极坐标系、决策树和Transformer模型相结合，有助于高效实现文字、图像、视频流的相互映射、匹配和融合，提高智能导航的精准性、实时性和安全性，提升良好用户体验度，为实现可视导航中机器会看又会说提供必要的技术支撑。本发明所采用Transformer模型将一种非逻辑化非结构化的具有时空特征的逻辑机理和结构机理与另外一种逻辑化结构化的逻辑机理和结构机理相互翻译和转化，对已有Transformer模型需进行改进和创新。

附图说明

图1为本发明实施例导航中视频流与自然语言的智能处理方法步骤S1至S4的流程示意图；

图2为本发明实施例导航中视频流与自然语言的智能处理方法步骤S5至S10的流程示意图；

图3为本发明实施例导航中视频流与自然语言的智能处理方法采用参照物的情况下的流程示意图；

图4为本发明实施例在图3基础上增加了根据视频流和或帧图像和或自然语言进行导航语义理解模块的流程示意图；

图5为本发明实施例模块或程序进程结构示意图；

图6为本发明实施例在图5的基础上拓展了云知识平台网络化的结构示意图；

图7为本发明实施例在图6的基础上增加了导航翻译NaviT结构示意图；

图8为本发明实施例提供的时空极坐标系I示意图；

图9为本发明实施例提供的时空极坐标系II示意图；

图10为本发明实施例提供的时空极坐标系III示意图；

图11为本发明实施例提供的时空极坐标系IV示意图；

图12为本发明实施例提供的时空极坐标系V示意图；

图13为本发明实施例提供的分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像I示意图；

图14为本发明实施例提供的分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像II示意图；

图15为本发明实施例提供的分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像III示意图；

图16为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制I示意图；

图17为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制II示意图；

图18为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制III示意图；

图19为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制IV示意图；

图20为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制V示意图；

图21为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制VI示意图；

图22为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度决策树结构化模型机制VII示意图；

图23为本发明实施例提供的飞行器飞行时或机器人移动时所获视频流帧图像中时空极坐标系下所需关注的水平面和垂直面动态图像和非动态图像及其属性维度决策树结构化模型机制示意图；

图24为本发明实施例提供的为所获视频流帧图像中每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度定位分割标注结构化模型机制示意图；

图25为本发明实施例提供的将所获视频流和或帧图像和各种类自然语言相互翻译的Transformer模型机制流程示意图；

图26为本发明实施例提供的导航中视频流与自然语言的智能处理装置或设备结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图1和2所示，一种导航中视频流与自然语言的智能处理方法，包括：

S1：将自然语言文字、词语、句子、符号等分类分度图像化，形成自然语言图像知识库；

S2：根据自然语言图像知识库识别提取所获自然语言中的决策语言和语义；

S3：采用Transformer模型或其改进模型将非决策语言部分的自然语言识别翻译成图像帧序列；

S4：根据决策语言和语义按照相关规则或逻辑将图像帧序列形成视频流或者将图像帧序列与视频流相匹配融合，完成自然语言到视频流的智能处理。

S5：在所获视频流帧图像中建立一个或多个时空极坐标系；

在所获视频流帧图像中建立一个或多个时空极坐标系，可根据关注视频流帧图像中对象的不同选取一个点或多个点作为极点；极点可以选在动态图像部分中，随动态图像的变动而变动；也可以选在静态图像部分中，以静态对象做参照在视频流中极点保持不变。

S6：分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像，时空极坐标系之间可有关联，也可各自独立存在；

其中分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像包括：

根据自然语言图像知识库对视频流和或帧图像中相关事物和或对象的匹配和识别；和或根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立识别方法对视频流和或帧图像中相关事物和或对象进行匹配和识别；

S7：根据需要和自然语言图像知识库，将每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制，遍历决策树标注多维度参数，多维度参数如：时间、时空极坐标系定位坐标(视频流帧图像中坐标和或实际物理世界坐标)、颜色、尺寸、重量、密度、动态类别、动态状态、动态曲线、动态逻辑、事件、语义等；

S8：根据标注的多维度参数分别将每个坐标系下的视频流帧图像内容定位结构化逻辑化规范化模型化语言化，如形成图像内容语言矩阵，进而使得视频流内容定位结构化逻辑化规范化模型化语言化，形成视频流内容语言矩阵，也就是将视频流内容数据规范模型语言化，形成一种语言，视频流语言；

也可根据视频流帧图像中某一事物对象和或多个事物对象为参照，不使用时空极坐标系或隐藏时空极坐标系，形成视频流语言，其中事物对象可为动态事物对象和或非动态事物对象；

S9：按照一定的规则、决策、逻辑和或顺序、结构等，采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言，完成视频流到自然语言的智能处理；

根据视频流和或帧图像和或自然语言进行导航语义理解；

S10：根据自然语言进行导航语义理解；

进一步地，所述S9中按照一定的规则、决策、逻辑和或顺序、结构等，采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言，完成视频流到自然语言的智能处理包括：

根据视频流和或帧图像和或自然语言进行导航语义理解。

所述S9中按照一定的规则、决策、逻辑和或顺序、结构等，采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言，完成视频流到自然语言的智能处理，和所述S10，还包括：

将各种类自然语言量子化，将视频流语言和帧图像语言量子化，形成量子自然语言，量子视频流语言和量子帧图像语言，统称为量子化语言；

将各种类自然语言相应文字、符号、句子等按照一定规则、逻辑和或结构等转化为二进制数和或多进制数；

在转化为二进制数和或多进制数的过程中，对于一种自然语言和其包含的所有文字、符号、句子、逻辑等均可统一标准化转化方法，以确保可识别性、可读性、准确性和使用性；

这样视频流和自然语言之间的转化计算就是二进制数和或多进制数的计算，提高计算效率；

视频流和帧图像的处理也是二进制数和或多进制数的计算，提高计算效率；

各种类自然语言之间的转化计算也是二进制数和或多进制数的计算，提高计算效率；

将量子化语言和隐私保护技术相结合，量子化语言和密码相结合，生成各种安全保密策略和加解密算法，增强安全智能导航；

根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关事物和或对象进行匹配、识别、标注和对视频流和或帧图像内容定位结构化逻辑化形成量子化语言的方式方法；

量子化语言和隐私保护技术、密码相结合，联合Transformer模型和或CNN模型等建立对视频流和或帧图像和或各种类自然语言进行量子化加解密的方式方法。

如图3所示，

所述S8中根据视频流帧图像中某一事物对象和或多个事物对象为参照，不使用时空极坐标系或隐藏时空极坐标系，形成视频流语言；

其中事物对象为动态事物对象和或非动态事物对象，包括：

分析定位分割所获视频流帧图像中每个参照物下的相关动态图像和非动态图像，参照物之间可有关联，也可各自独立存在；

根据需要和自然语言图像知识库，将每个参照物下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制，遍历决策树标注多维度参数，如：时间、与参照物的相对位置及关系、颜色、动态类别、动态状态、动态曲线、动态逻辑、事件、语义等；

根据标注分别将每个参照物下的视频流帧图像内容定位结构化逻辑化规范化模型化语言化，如形成图像内容语言矩阵，进而使得视频流内容定位结构化逻辑化规范化模型化语言化，形成视频流内容语言矩阵，也就是将视频流内容数据规范模型语言化，形成一种语言，视频流语言；

根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关事物和或对象进行匹配、识别、标注和对视频流和或帧图像内容定位结构化逻辑化形成视频流语言和或帧图像语言的方式方法。

如图4所示，该方法包括：

图4示意图在图3的基础上，增加了根据视频流和或帧图像和或自然语言进行导航语义理解模块，同时该模块与其他模块相互连通，相互补充；当然，该模块也可与其他其中几个或一个模块相互连通相互补充。同理，该根据视频流和或帧图像和或自然语言进行导航语义理解模块也可补充到图2流程示意图中，与其他模块相互连通相互补充，当然，该模块也可与其他其中几个或一个模块相互连通相互补充。本发明没有再单独给出其他相关流程示意图，图4只是作为一个实施例，并不是对其他相关实施例的限制。

具体所述S10包括：

根据视频流和或帧图像和或自然语言进行导航语义理解；

根据自然语言进行导航语义理解；

将自然语言采用Transformer模型或其改进模型翻译成视频流内容语言矩阵，进而融合匹配形成图像、图像帧序列和视频流；

将各种类自然语言量子化，将视频流语言和帧图像语言量子化，形成量子自然语言，量子视频流语言和量子帧图像语言，可以统称量子化语言；

如图5所示，具有如下模块或程序进程：自然语言分类分度图像化图像知识库或形成云知识平台或Internet、视频按时间排序、分析定位分割视频流帧图像内容、视频流和帧图像依时空极坐标或参照物结构化、将结构化视频流和帧图像内容多维标注、根据多维标注将视频流和帧图像形成结构化语言、根据时空极坐标系和或参照物和次序规则形成帧图像语言和视频流语言、Transformer模型和或改进模型、各种类自然语言、识别提取或形成自然语言决策语言和语义部分和非决策语言和语义部分。上述模块或程序进程可以根据效率、性能、需求、规则等组合并行处理和或串行处理，自然语言分类分度图像化图像知识库或形成云知识平台或Internet与各模块或程序进程相互连通，提供实时信息互通，同时通过学习相互优化。在可行的条件情况下，根据时空极坐标系和或参照物和次序规则形成帧图像语言和视频流语言模块也可以与各种类自然语言模块直接相互翻译，不通过Transformer模型和或其改进模型。

如图6所示，在图5的基础上拓展了自然语言分类分度图像化图像知识库或形成云知识平台或Internet，形成云知识平台网络化，相关服务网络节点可分布在全球或宇宙不同的位置区域，可固定可移动可大型化数据服务中心也可小型化平板、电脑、手机、U盘等服务设备或相关装置，如分布在道路周边附近或空间站或飞行飞机上，为导航语言翻译提供信息和优化服务。将图5中除去自然语言分类分度图像化图像知识库或形成云知识平台或Internet的其他部分，命名为NaviTransformer，即导航语言翻译，简称NaviT，即导航翻译，NaviT可与网络化云知识平台的各种类相关服务节点相互连接，为用户提供智能导航服务。

如图7所示，即导航信息翻译网络或导航翻译网络或导航网络，导航翻译NaviT可与网络化云知识平台的各种类各地区区域相关服务节点相互连接，连接方式可以是近程、远程、有线、无线、集中式、分布式等连接，不做限制，每个NaviT可以同时与多个用户形成网络化连接、传输和服务方式，NaviT也可以作为模块集成到单个Navi用户相关设备中，NaviT和语言图像知识库也可以作为模块集成到单个Navi用户相关设备中，其中语言图像知识库可以与网络化云知识平台的各种类各地区区域相关服务节点相互连接，不同用户的NaviT之间可以相互连接。或者单个Navi用户相关设备可以与其他相关用户、可以与其他NaviT设备或模块或装置、可以与网络化云知识平台的各种类各地区区域相关服务节点等以各种方式相互连接，形成传输网络，从而不同用户的NaviT之间可以相互连通传输数据、不同用户的语言图像知识库之间可以相互连通传输数据、不同用户的语言图像知识库可以与网络化云知识平台的各种类各地区区域相关服务节点相互连通传输数据。该导航网络可以是命名和地址相结合的网络，网络中内容、节点和或用户均可采用命名的方式接入网络各个相关层，提高信息传输的效率和安全性。

如图8所示，时钟-时间空间-极坐标系，简称时空极坐标系。在本发明导航中视频流与自然语言的智能处理方法和装置、设备实施例中时钟坐标系、极坐标系、空间坐标系、时空极坐标系等均可单独或混合使用，各种坐标系之间可相互转换。时空极坐标系包括极点、极轴、时钟表盘、时间轴，极点即是时钟表盘的中心点，极轴即是始于极点指向表盘的3点钟方向，时间轴穿过极点，时间轴可为直线也可为曲线，时间轴和极轴所在平面垂直于时钟表盘面，时间轴可垂直于极轴，也可不垂直于极轴，一个时空极坐标系内可有1条或两条或多条时间轴。如图8中a图和b图所示，a图中具有时钟的分针、时针和秒针，分别代表指向几点钟方向，即分针、时针和秒针指向代表方向，例如分针指向9点钟方向，a图中具有极轴x和时间轴t，时钟面代表视频流帧图像面，也是极坐标面，时间轴上可具有视频流的所有帧图像面也是时钟极坐标面，时间轴也可以是距离自定义设置起始点的位置距离轴。图b表示在实际应用中，时空极坐标系的极点、极轴、极线、时钟表盘、时间轴、极坐标等均可根据需求在可视化画面中适当省略，相关时空极坐标系也可以在可视化画面中省略，适用于本发明所画所有举例示意图的实施应用，适用于本发明的所有相关实施应用，相关数据可存储保留计算等。采用时空极坐标系可提高计算效率，利于视频流数据的结构化。在所获视频流帧图像中可建立一个或多个时空极坐标系，根据关注视频流帧图像中对象的不同选取一个点或多个点作为极点；极点可以选在动态图像部分中，随动态图像的变动而变动；也可以选在静态图像部分中，以静态对象做参照在视频流中极点保持不变。

如图9所示，可标注视频流帧图像中一个或多个关键物体或对象的相关若干关键点，将若干关键点连接成区域，表示该区域有障碍物或是行驶禁区需避开绕行。如图9中关键点M1M2M3连成的区域为需避开绕行的区域。

如图10所示，在该时空极坐标系中，表示了一个时间轴，该同一时间轴上表示了三个不同时刻的极点、极轴、帧图像和或时钟面，或者说同一时间轴上表示了三个不同时刻的时钟极坐标系，时间轴也可以是位置距离轴，如图中所示时间轴t1时刻设定为当前时刻，t1时刻极点位置为当前位置，时间轴t2时刻极点位置为预测t1+k时刻或预测距离t1时刻位置m米处，时间轴t3时刻极点位置为预测t1+q时刻或预测距离t1时刻位置n米处，当然该时间轴上还可以表示更多时刻的时钟极坐标系和更远距离的时钟极坐标系。图10中时空极坐标系包含多个时钟极坐标系，时钟极坐标系即是某一时刻或某一位置点的坐标系，某一时空极坐标系中的所有时钟极坐标系和相应视频流帧图像等相关信息可以根据时间发生序列和或距离极点位置距离的远近和或不同位置不同类型区域道路等进行编码标注，形成不同类型不同区域位置路径上的坐标系系列和视频流帧图像系列和系列之中的不同序列。在图10中，根据坐标系帧图像中障碍物关键点的标注和实际道路的长宽高以及移动终端的行驶所需路径的长宽高等，可规划出移动终端的行驶所需路径的长宽高，假设图10中移动终端在露天水平面道路上行驶，也就是假设道路的高处没有障碍物，那么图中两条细线之间是规划的所需路径，两条细线是t1时刻规划的道路边界，中间粗虚线是t1时刻规划道路中心线，移动终端的中间位置可与中间粗虚线对准，即与规划道路中心线对准行驶，在移动终端本身边界不超出规划的道路边界的情况下，移动终端的中间位置也可以适当偏离中间粗虚线或者规划道路中心线行驶。图10中两条粗实线是实际道路边界。时空极坐标系的极点可以在移动终端的中间位置上或者规划道路中心线上，也可以不在移动终端的中间位置上或者不在规划道路中心线上，可以在其他位置上，可以根据需求、摄像头、传感器或规则等自定义设置极点与移动终端的位置关系。

如图11所示，该时空极坐标系中具有四个时间轴或者位置距离轴，该四个轴分别可以是直线也可以是曲线，根据需求可以预测各个不同方向不同位置的路况信息，尤其交叉路口处，也包括显示和存储历史的路径规划相关信息，每一条时间轴上视频流帧图像和时钟极坐标系的布局和路径的规划预测等均可与图10中所示具有单一时间轴的时空极坐标系中视频流帧图像和时钟极坐标系的布局和路径的规划预测等具有同样的功效和同样的方式编码标注，但不是局限，也可根据实际情况自定义其他功能和编码标注方式。图11主要说明一个时空极坐标系中可以有多种方向和多种状况和多种时间类型等上的时间轴或距离轴，该轴可以是直线、曲线、连续线和不连续线等。

图12为本发明实施例提供的时空极坐标系V示意图。如图12所示，时空极坐标系中时间轴t00在预测到t3时刻或者更远距离的时刻之后，在后面的一交叉路口分为时间轴t001和时间轴t002，时间轴t001和时间轴t002可以延续到更远距离路径的规划和预测。时空极坐标系中时间轴的命名方式可以如12图所示二进制和十进制混合命名法，如第一层时间轴可为t00，t01，t10，t11，也可以为，t000，t001，t010，t011，…，依次类推，第一层时间轴t00的第二层时间轴可为t001，t002，t003，t004，…，第一层时间轴t01的第二层时间轴可为t011，t012，t013，t014，…，依次类推，也可以采用其他命名机制，本发明此处仅是一种混合进制命名举例说明，类似命名方法不再枚举，也可采用其他命名机制，本发明不做限制。时间轴上的视频流帧图像可以通过移动终端当前摄像头获取，也可以通过道路上设置的固定摄像头获取，或者由不同位置的其他终端通过网络传输获取。时空极坐标系中坐标的完整形式可如图中M1-M5坐标所示，组成为(极径,极角,时间轴:极点时刻,极点与当前时刻0极点位置的距离)，如图中S1＝0，此五项坐标组成顺序本发明不做限制，可以调整和根据需求设置，实际应用中也可省略其中一项或几项进行应用和标注，不做限制。

图13为本发明实施例提供的分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像I示意图。如图13所示，在时空极坐标系下的三个时钟极坐标系中，对汽车、行人、残障人小车和树进行了定位分割，并标注了它们与t1时刻极点位置处汽车的相对速度大小和相对移动方向。根据坐标系中极线上标注的关键点可以将障碍物连成区域，同时根据实际道路边界和实际道路车道边界，可以预测规划出t1时刻当前汽车可行驶移动的道路车道边界和中心线。相对速度大小和方向可以根据两个和或多个时间上相邻或相关联视频流帧图像的差别预测计算得出。如图13时空极坐标系中表示了t1时刻的视频流帧图像，还可以继续表示t1+Δt时刻，t1+2Δt时刻，t1+3Δt时刻，…，等时刻的视频流帧图像，Δt一般较小足以预测计算得出多个时间上相邻或相关联视频流帧图像的差别和动态图像的相对速度相对加速度等即可，可以根据该时空极坐标系中相应时刻时钟极坐标系的坐标之间的变换关系进行视频流帧图像的差别和动态图像的相对速度相对加速度等计算。也可以直接根据多个时间上相邻或相关联视频流帧图像中动态图像和非动态图像之间的位置参照即位置相对关系的差别变化进行动态图像的相对速度相对加速度等计算。也可以将t1+Δt时刻，t1+2Δt时刻，t1+3Δt时刻，…，等时刻的视频流帧图像分别表示在t1+Δt时刻，t1+2Δt时刻，t1+3Δt时刻，…，等时刻的时空极坐标系中，需要根据坐标系之间的关系进行坐标变换计算。

如图14所示，与图13的区别是省略了时空极坐标系的极线，图14中时空极坐标系、规划道路边界、规划道路中心线等均可在可视化中省略，相关数据可在后台存储和计算，也可根据权限、规则、加解密计算等随时调出可视化显示在相关设备和或装置上，移动终端根据计算结果数据行驶移动即可。

如图15所示，根据不同视角的视频流帧图像，t1时刻时空极坐标系中t1极点位置的移动终端前后左右的动态图像和非动态图像均进行了定位分割，并标注了它们与t1时刻极点位置处汽车的相对速度大小和相对移动方向。时间轴t2时刻为预测t1+k时刻或预测距离t1时刻位置m米处，时间轴t3时刻为预测t1+q时刻或预测距离t1时刻位置n米处。图15中t1极点位置的移动终端后方行人位置处的时钟极坐标系没有显示，省略；t1和t2位置处的时钟极坐标系的时钟面也没有显示，省略。

如图16所示，可为在道路上可能出现的事物或对象及其维度的动态存储数据库，包括index编号、事物或对象的图像和或相关表示符号和相关自然语言名称和或语义等，每个事物或对象都有一个其属性维度列表，维度方面包括：维度可选填，维度可添加；维度可选填是指数据库中已有的维度，可根据需求有些维度可填写，有些维度可不填写，维度可添加是指数据库中没有的维度，但根据需求需要的维度，则可随时添加在数据库中，并可填写上相应数据。图16表中只是举例示例，所有项目均可动态添加或维护、修改等，索引方法可根据index编号索引，并设计相关索引算法，如图16中“1010(10)yewan night”可设计采用二进制和十进制和拼音和英文分别索引法也可混合索引法，索引编号中也可加入汉字比如“夜晚”等进行文字索引；也可根据事物或对象进行索引，并设计相关索引算法；也可根据index编号和事物或对象和维度等相关数据进行混合索引，并设计相关索引算法。索引算法有助于提高索引的快速性，标注的实时性，从而提高视频流与自然语言的转化效率。图16所示为总体属性维度数据库可分布式存储在图5-图7所示的自然语言分类分度图像化图像知识库和或云知识平台中，也可单独存储，存储方式存储介质均不做限制，在视频流与自然语言转化中，根据视频流帧图像中需标注的事物和或对象，实时地查找该总体属性维度数据库，实时自动生成当前视频流相关事物和或对象需要标注的对应属性维度数据库，即当前视频流的相关事物和或对象实时标注属性维度数据库，以结构化语言化视频流和帧图像，提高视频流和自然语言的转化效率。从自然语言转化成视频流，也可根据总体属性维度数据库先将自然语言转化成相关事物和或对象实时标注属性维度数据库，从而将相关事物和或对象实时标注属性维度数据库转化成帧图像和视频流。

如图17所示，对时空极坐标系及其视频流帧图像中所需关注的动态图像和非动态图像进行定位分割，采用适当的相对位置排列方式，根据距离远近采用多层次的方式和二进制的编码方法对相关事物和或对象进行编排可自动生成图17中决策树(a)图，根据(a)图决策树编码和数据可自动生成视频流帧图像中相关事物和或对象的数据结构图(b)，根据图17中(b)图和图16可自动实时生成图17中(b)图对应的相关事物和或对象实时标注属性维度数据库。其中图17中(b)图对应的相关事物和或对象实时标注属性维度数据库的数据矩阵中t1L1-和t1L2-可以省略，即如：t1L1-0000、t1L2-0010等直接写为0000、0010即可，利于提高计算效率。

具体图17是对图15中时空极坐标系的t1时刻时钟极坐标系下视频流帧图像的标注。决策树每层从左到右相关事物和或对象的相对位置关系排列是采用t1时刻从极轴开始逆时针转的位置关系，也可采用其他相对位置关系比如顺时针转等，根据应用场景可自适应调整，可依次或同时标注水平面或者从时间轴开始向两侧分别同时标注水平面t1-0，也就是水平面用0表示，垂直面用1表示，距离当前终端10米以内的水平面作为一个层次用L1表示，总体记为t1L1-0，即t1时刻水平面0的第一个层次L1。距离当前终端10米以外20米以内的水平面作为第二层次用L2表示，总体记为t1L2-0，即t1时刻水平面0的第二个层次L2。然后依次标注每个事物或对象，图17中采用二进制的方式标注，如距离当前终端10米以内的水平面第一个层次L1上的000表示右侧树，不同层次上的事物或对象的二进制标注可以相同也可以不同，如距离当前终端10米以外20米以内的水平面第二个层次L2上的000也表示右侧树。见图17中(b)图中事物或对象的总体表示方法可知，两个层次上的000右侧树是两个不同位置上的两颗树，即t1L1-0000和t1L2-0000。图17中(b)图中0表示距离当前终端10米以外20米以内的水平面第二个层次L2与L1相对应的当前终端的后方对应位置没有障碍物，没有什么相关事物或对象，也就是在图16所示的总体属性维度数据库中0表示没有障碍物，没有什么相关事物或对象，也可以用其他符号表示，如“无”、“nothing”等，本发明不做限制，本发明数据规范编码方法只是示例，并不是对本发明的限制。水平面是时间轴与极轴所在平面，也是路面，垂直面是时钟面所在平面，可以有其他表示方式，本发明不做限制。水平面上或垂直面上层次的划分可根据实际应用需求划分，划分依据可以是距离、区域、规则、特定要求等。

如图18所示，具体图18是对图15中时空极坐标系的t1时刻时钟极坐标系下视频流帧图像的标注。决策树每层从左到右相关事物和或对象的相对位置关系排列是采用t1时刻从极轴开始逆时针转的位置关系，也可采用其他相对位置关系比如顺时针转等，根据应用场景可自适应调整，可依次或同时标注垂直面或者从时钟面12点方向开始向两侧分别同时标注垂直面t1-1，也就是水平面用0表示，垂直面用1表示，距离当前终端10米以内的垂直面作为一个层次用V1表示，总体记为t1V1-1，即t1时刻垂直面1的第一个层次V1。距离当前终端10米以外20米以内的垂直面作为第二层次用V2表示，总体记为t1V2-1，即t1时刻垂直面1的第二个层次V2。图18中对应的相关事物和或对象实时标注属性维度数据库中，在没有障碍物的位置的相关事物和或对象实时标注属性维度数据矩阵中的相应数据填充了0，利于计算，提高效率。

如图19所示，根据图16，图19是对图17中(b)图中数据矩阵中的t1L1-0010事物的特有属性维度的细化标注或描述形成数据矩阵，数据矩阵中没有数据的地方可填充0。导航视频流和帧图像中每个对应事物和或对象均可以实时自动生成特有属性维度数据矩阵，所述所有特有属性维度数据矩阵经有机有序综合，由导航中视频流和或帧图像可以自动生成导航视频流实时特有属性维度数据库或导航视频流帧图像实时特有属性维度数据库。

如图20所示，在图15-图19的基础上，该决策树结构图的左侧是对导航中视频流和帧图像中水平面事物和或对象属性维度的标注，根据时间发生序列或者距离当前位置由近及远进行了依次排列，每一个时刻可有多个层次的水平面相关事物和或对象的属性维度标注；该决策树结构图左侧标注的数据矩阵为：相关事物和或对象的实时标注属性维度数据矩阵、每个相关事物和或对象特有属性维度的实时标注数据矩阵，这两种数据矩阵可分开单独存储，然后相互关联，也可如图16和图21所示合并为一个数据矩阵，提高计算效率。同理，如图20所示，在图15-图19的基础上，该决策树结构图的右侧是对导航中视频流和帧图像中垂直面事物和或对象属性维度的标注，根据时间发生序列或者距离当前位置由近及远进行了依次排列，每一个时刻可有多个层次的垂直面相关事物和或对象的属性维度标注；该决策树结构图右侧标注的数据矩阵为：相关事物和或对象的实时标注属性维度数据矩阵、每个相关事物和或对象特有属性维度的实时标注数据矩阵，这两种数据矩阵可分开单独存储，然后相互关联，也可如图16和图21所示合并为一个数据矩阵，提高计算效率。根据属性维度需要，还可以包含更多面，比如一定角度的倾斜面等，决策树可以是多叉树结构如图21。

如图21所示，在图15-图20的基础上，将视频流和帧图像数据按照位置、属性、维度、逻辑等结构化，形成一种视频流数据矩阵和帧图像数据矩阵，即一种视频流语言和帧图像语言。在图21中，决策树的左侧是水平面视频流数据，决策树的中间是垂直面视频流数据，决策树的右侧是水平面逆时针向垂直面转30度角所在的平面的视频流数据。图21中视频流语言和或帧图像语言的二进制数表示代表的是属性维度和种类，属性维度和种类直接的表示是自然语言中的文字、符号等，因此此处二进制数表示与自然语言文字符号的二进制数化不同，这两类二进制数化处于不同的级别，但可以区分。图21中视频流语言和或帧图像语言的二进制数表示也可以采用其他编码机制，此处只是示例。

如图22所示，在图15-图21的基础上，图22表示了视频流和帧图像属性维度决策树标注的结构、流程和方法，具体该决策树左侧是水平面，右侧是垂直面，水平面代表水平面上相关事物和或对象的实时结构化逻辑化标注，垂直面代表垂直面上相关事物和或对象的实时结构化逻辑化标注。根据时空极坐标系，水平面和垂直面视频流帧图像的标注是按照从t1时刻开始的时间变化序列或距离t1时刻极点的距离变化序列，每一个水平面和每一个垂直面均关联着其面上每一个相关事物或对象的特有属性维度的实时自动标注数据矩阵，形成属性维度数据库，对视频流和帧图像来说，形成视频流语言和帧图像语言，视频流语言和帧图像语言均可二进制数化和或多进制数化，提高计算效率。

如图23所示，四角形可代表空中飞行器或医用体内微小机器人，飞行器空中飞行时或医用微小机器人移动时，飞行器飞行方向或医用微小机器人移动方向是黑色箭头方向，垂直面是图23中时空极坐标系的时钟圆面，水平面是圆面边际两条平行线所成平面，在图15-图22的基础上，可知沿着箭头方向连续飞行或移动，则视频流和或帧图像中所需关注的水平面和垂直面动态图像和非动态图像飞行环境或医术环境属性维度决策树结构化模型机制运作的时间序列排序示意图如图23中连续排列的时钟极坐标系的时钟圆面序列和两条平行线所成平面的延伸继续。这样形成飞行环境或医术环境相关事物和或对象实时标注属性维度数据库，形成视频流语言和或帧图像语言，较好地可以描述覆盖飞行器或医用微小机器人的周围飞行环境或移动医术环境。

如图24所示，所获视频流帧图像中每个时空极坐标系下，通过极线定位分割将视频流和或帧图像结构化，将所需关注的动态图像和非动态图像定位分割为多个区域，每个区域可有一个事物或对象，也可有多个事物或对象，分割区域可根据极坐标系坐标编排结构化，也可根据时钟圆面刻度编排结构化，区域大小可按照一定规则、算法和或尺寸分割，可均匀也可不均匀。视频流和或帧图像极线定位分割结构化，本实施例可采用Transformer模型完成，进而继续采用Transformer模型进行结构化标注，形成视频流和或帧图像语言，如图16-22所示，进而继续采用Transformer模型将视频流和或帧图像语言翻译成各种类自然语言；反之，可将各种类自然语言翻译成视频流和或帧图像。图24中是视频流和或帧图像极线定位分割结构化逻辑化，也可利用参照物对视频流和或帧图像定位分割结构化逻辑化。本实施例中所采用Transformer模型将一种非逻辑化非结构化的具有时空特征的逻辑机理和结构机理与另外一种逻辑化结构化的逻辑机理和结构机理相互翻译和转化，对已有Transformer模型需进行改进和创新。

如图25所示，根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立识别方法对视频流和或帧图像中相关事物和或对象进行匹配和识别；根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关事物和或对象进行匹配、识别和标注的方式方法；根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关事物和或对象进行匹配、识别、标注和对视频流和或帧图像内容定位结构化逻辑化形成视频流语言和或帧图像语言的方式方法；根据自然语言图像知识库，联合Transformer模型和或CNN模型等建立对视频流和或帧图像中相关事物和或对象进行匹配、识别、标注和对视频流和或帧图像内容定位结构化逻辑化形成量子化语言的方式方法；量子化语言和隐私保护技术、密码相结合，联合Transformer模型和或CNN模型等建立对视频流和或帧图像和或各种类自然语言进行量子化加解密的方式方法。其中自然语言图像知识库中自然语言、图像和量子化语言可以相互映射和匹配。本实施例中视频流和各种类自然语言和或量子化语言之间的相互翻译或智能转化，利用多层Transformer模型或其改进模型联合翻译完成，每一层Transformer模型或其改进模型翻译都将一种逻辑机理和结构机理翻译成了另外一种逻辑机理和结构机理。本发明所采用Transformer模型将一种非逻辑化非结构化的具有时空特征的逻辑机理和结构机理与另外一种逻辑化结构化的逻辑机理和结构机理相互翻译和转化，对已有Transformer模型需进行改进和创新。

如图26中图(a)(b)(c)所示，装置、设备和或芯片设计示例，导航控制器、导航运算器和导航存储器以及安全的布局和关联，可以是并行、串行和并串混合型，也可以是无线关联型。其中如图26中(c)图可以将安全和导航控制器、导航运算器、导航存储器的关联体相互分离设计，启动后可以相互融合，根据安全、计算性能和效率等的需求，图(c)中两方安全可以启动一方，也可以同时启动两方，或者间隔时间启动或关闭。图26是发明示例，不是对本发明的限制。具体各部分功能、作用等如下描述。

包括控制器、运算器和存储器，以及输入和输出，互联互通；

控制器根据运算器和存储器提供的计算预测的机器运动的路线、速度、加速度等控制视频流和自然语言的传输、处理和转换速度、加速度等，同时为机器的各种运动、各种操作、各种语言交流等提供恰当实时的控制信息和数据；控制器同时也具有根据运算器、存储器等计算、预测和存储的信息数据，为可视导航相关数据的网络相关传输提供安全控制信息等功能；

运算器为导航中视频流和自然语言智能处理提供各种计算和预测，包括能耗、网络等状况，同时将相关信息和或数据传递给控制器和存储器，同时可将相关信息数据通过网络传输接口进行网络安全传输；

存储器存储控制器和运算器产生的各种相关信息和数据，存储视频流和自然语言以及相关知识库，存储网络传输、各种安全实施策略等各种相关信息，供控制器和运算器各种循环使用，同时可将相关信息数据通过网络传输接口进行网络安全传输；

控制器和运算器根据存储器相关信息和数据可以具有各种学习功能，以实现更好的可视导航控制、运算、传输、安全以及拓展；

单个、两个或多个安全计算防护器，其作用为导航装置、设备等提供多重安全防护，为数据安全传输提供安全认证、加解密、漏洞发现、安全自学习算法、安全补丁等防护措施；多个安全计算防护器可单独使用和或联合使用和或备份使用，单个或多个损坏可激发其他安全计算防护器继续防护。

控制器和运算器可以以软件的方式实现，也可以以硬件的方式实现。

所述导航中视频流与自然语言的智能处理方法和装置、设备还包括：

导航中视频流在网络中传输的优先级较高，优先传输最靠近当前时刻的视频流和或帧图像，次靠近当前时刻或较早的视频流和或帧图像若没有及时成功传输将可以忽略不再传输；

导航中由视频流和或帧图像转换出的自然语言、文本、语义等信息在网络中传输的优先级较高，优先传输最靠近当前时刻的视频流和或帧图像转换出的自然语言、文本、语义等信息，次靠近当前时刻或较早的视频流和或帧图像转换出的自然语言、文本、语义等信息若没有及时成功转换或成功传输将可以忽略不再转换或不再传输；

导航中可存储有终端所走道路路径的历史视频流和相关帧图像、虚拟数字视频流和相关帧图像、数字地图视频流和相关帧图像和由所述视频流和帧图像转换出的自然语言、文本、语义等相关信息，作为当前时刻导航视频流的参考和或参照，比较当前时刻导航视频流和存储的相关历史视频流和或虚拟数字视频流和或数字地图视频流和或帧图像的差别和相关性，根据相关性参考和或参照和或差别，计算预测终端未来时刻行驶速度、加速度、路径路线等，即帮助当前导航的前方预测和当前导航的自然语言生成和表述。

视频流中声音和或语音和自然语言之间的识别智能转化处理。

根据时空极坐标系时间轴、自然语言图像知识库、移动终端移动或飞行状况等，自适应分割视频流时间段，完成视频流中声音和或语音和自然语言之间的识别智能转化处理；根据本发明导航中视频流与自然语言的智能处理方法完成自然语言、文字、符号、声音、语音等与视频流的智能匹配融合处理。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的导航中视频流与自然语言的智能处理方法和装置、设备。

在本发明所提供的实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种导航中视频流与自然语言的智能处理方法，其特征在于，包括以下步骤：

S5：在所获视频流帧图像中建立一个或多个时空极坐标系；

S10：根据自然语言进行导航语义理解。

2.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S1中分类分度包括：

3.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S4包括：

4.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S5包括：

所述S5中的时空极坐标系是时钟-时间空间-极坐标系，简称时空极坐标系；

5.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S6包括：

根据自然语言图像知识库，联合Transformer模型和或CNN模型建立识别方法对视频流和或帧图像中相关事物和或对象进行匹配、识别和标注；

定位动态图像和非动态图像的关键边界和关键边界点；

6.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S7包括：

7.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于，S8包括：

根据视频流帧图像中对象的各种布局将标注定位；

8.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S8还包括：

9.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S9包括：

根据视频流和或帧图像和或自然语言进行导航语义理解。

10.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S10包括：

根据视频流和或帧图像和或自然语言进行导航语义理解；

根据自然语言进行导航语义理解；

11.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S10还包括：

将各种类自然语言按照各种类自然语言的语言基量子化；

12.根据权利要求11所述的一种导航中视频流与自然语言的智能处理方法，其特征在于：S10还包括：

13.一种导航中视频流与自然语言的智能处理装置，其特征在于，包括：