CN114461078B - 一种基于人工智能的人机交互方法 - Google Patents
一种基于人工智能的人机交互方法 Download PDFInfo
- Publication number
- CN114461078B CN114461078B CN202210376694.3A CN202210376694A CN114461078B CN 114461078 B CN114461078 B CN 114461078B CN 202210376694 A CN202210376694 A CN 202210376694A CN 114461078 B CN114461078 B CN 114461078B
- Authority
- CN
- China
- Prior art keywords
- video
- submodel
- optical flow
- flow estimation
- dynamic gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人工智能的人机交互方法,包括以下步骤:建立识别模型;将视频输入识别模型,对视频识别,获得视频中人物的动态手势;所述识别模型包括空间通道子模型和时间通道子模型,空间通道子模型处理针对视频帧的空间信息,时间通道子模型处理针对视频片段时序信息、运动特征的信息。本发明公开的基于人工智能的人机交互方法,具有识别精度高、帧率高、速度快等诸多优点。
Description
技术领域
本发明涉及一种基于人工智能的人机交互方法,具体涉及一种动态会议手势识别方法,属于图像识别检测技术领域。
背景技术
在计算机视觉识别中,我们可以对图像进行分类,对图像中的目标进行检测。目前基于卷积神经网络的模型已经实现图像认知上的任务,然而此类模型对于图像序列的理解存在十分严重的局限性,无法识别连续图像之间的语义关联性,即无法对于动态的行为进行识别或理解。
但现实世界中,绝大多数的行为是无法通过静态图片判断的,例如从缩小或放大手势的中间过程抽取一张图片,其静态图片基本一致,即便是人类,也难以区分。
虽然已有如Kinect的动态手势识别产品或方法,但其都需要特定的硬件设备,因此不具备通用性;除此之外,此类产品或方法对使用者的要求较高,且使用前的操作步骤繁杂。
并且,传统的识别方法,对动态手势的识别准确性和稳定性较低,识别速度较慢,用户体验较差。
因此,有必要提供一种对硬件要求低、准确率、稳定性较高、识别速度快的动态手势识别方法。
发明内容
为了克服上述问题,本发明人进行了深入研究,设计出一种基于人工智能的人机交互方法,其特征在于,包括以下步骤:
建立识别模型;
将视频输入识别模型,对视频识别,获得视频中人物的动态手势。
进一步地,所述识别模型包括空间通道子模型和时间通道子模型,
空间通道子模型处理针对视频帧的空间信息,时间通道子模型处理针对视频片段时序信息、运动特征的信息。
在一个优选的实施方式中,在对视频识别时,从视频中获得帧图片和光流估计,将帧图片输入所述空间通道子模型中,获得第一动态手势行为概率;将光流估计输入所述时间通道子模型中,获得第二动态手势行为概率;将第一动态手势行为概率和第二动态手势行为概率加权平均,获得最终识别结果。
在一个优选的实施方式中,所述空间通道子模型为通过视频帧图片对I3D模型训练得到;所述时间通道子模型为通过视频光流估计对I3D模型训练得到。
在一个优选的实施方式中,训练用视频帧图片和视频光流估计为对视频训练集处理获得;
所述视频训练集中包含多个具有会议手势动作的视频片段。
在一个优选的实施方式中,对视频识别时,采用多线程技术,将获得帧图片和光流估计作为第一独立线程,将获得第一动态手势行为概率、第二动态手势行为概率以及二者的加权平均作为第二独立线程,提高识别效率。
在一个优选的实施方式中,第一独立线程由CPU执行,在第一独立线程执行完毕后,检测GPU是否空闲:
若GPU空闲,由GPU执行第二独立线程,待第二独立线程执行完毕后,再次进行第一独立线程对后续视频进行识别;
若GPU不处于空闲状态,则重复执行第一线程,对后续视频进行帧图片和光流估计的获取。
在一个优选的实施方式中,在对视频识别时,还对会议主持人的人脸进行识别,在获取帧图片和光流估计时,仅保留主持人的相关信息,删除其它人的相关信息。
此外,本发明还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
此外,本发明还提供了一种存储有计算机指令的计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
本发明所具有的有益效果包括:
(1)摆脱了特定硬件的束缚,只需普通电脑,便可实现动态会议手势识别;
(2)识别结果正确率高;
(3)利用的多线程技术,成功解决了高参量I3D模型及FaceNet人脸识别模型的实时使用问题,且实现了主持人身份认证功能,识别帧率高、识别速度快。
附图说明
图1示出根据本发明一种优选实施方式的基于人工智能的人机交互方法流程图;
图2示出根据本发明一种优选实施方式的基于人工智能的人机交互方法中I3D模型的结构图;
图3示出某动态手势的光流估计结果灰度图;
图4示出根据本发明一种优选实施方式的基于人工智能的人机交互方法中多线程分配示意图;
图5示出实施例1中空间通道子模型的训练误差变化曲线图;
图6示出实施例1中时间通道子模型的训练误差变化曲线图。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
根据本发明提供的一种基于人工智能的人机交互方法,其特征在于,包括以下步骤:
建立识别模型;
将视频输入识别模型,对视频识别,获得视频中人物的动态手势。
在本发明中,所述动态手势包括但不限于缩放、平移、点击、抓取、旋转操作。
根据本发明,不同于传统的动作识别模型,所述识别模型包括空间通道子模型和时间通道子模型,
其中,空间通道子模型处理针对视频帧的空间信息,时间通道子模型处理针对视频片段时序信息、运动特征的信息。本发明将视频帧的空间信息与视频片段时序信息、运动特征相结合,极大提高了动作识别的准确性和稳定性。
进一步地,在对视频识别时,从视频中获得帧图片和光流估计,将帧图片输入所述空间通道子模型中,获得第一动态手势行为概率;将光流估计输入所述时间通道子模型中,获得第二动态手势行为概率;将第一动态手势行为概率和第二动态手势行为概率加权平均,通过加权平均能够实现动态手势识别的错误率的降低。例如,第一动态手势行为预测错误,第二动态手势行为预测正确,则存在加权平均后手势行为预测正确的可能性。
进一步地,两个子模型的输出是每种动态手势的概率,通过获得最大概率值的位置索引,映射为手势类别,从而获得最终识别结果。
优选地,两个子模型权重选择均为0.5。
传统的手势识别方法,仅对帧图片进行识别,在本发明中,通过加入光流估计识别,表征连续帧图片中移动物体的运动信息,以提高动态手势的识别准确率。
根据本发明一个优选的实施方式,所述空间通道子模型为通过视频帧图片对I3D模型训练得到;所述时间通道子模型为通过视频光流估计对I3D模型训练得到。
所述I3D模型为CVPR2017年会议中提出的一种模型,其结构如图2所示,主要由三维卷积神经网络、三维池化层组成,优选地,所述I3D模型通过TensorFlow深度学习引擎搭建。
在一个优选的实施方式中,所述视频帧图片通过OpenCV对视频训练集中视频片段逐帧抽取获得,
所述光流估计通过Farnback方法对视频训练集处理获得,处理获得的光流估计结果如图3所示。
OpenCV是一个基于Apache2.0许可发行的跨平台计算机视觉和机器学习软件库,是视频处理常用的软件之一;Farnback方法是光流跟踪的常用方法之一,在本发明中不做赘述。
进一步地,训练用视频帧图片和视频光流估计为对视频训练集处理获得;所述视频训练集中包含多个具有会议手势动作的视频片段。
在一个优选的实施方式中,所述视频训练集通过爬取、自制、获取开源中的一种或多种方式获得。
其中,所述爬取是指通过YouTube、哔哩哔哩、西瓜视频等视频网站截取符合要求的视频片段;
所述自制是指通过直接录制会议动态手势获得视频片段;
所述获取开源是指获得开源的手势识别视频。
在一个优选的实施方式中,对视频识别时,采用多线程技术,将获得帧图片和光流估计作为第一独立线程,将获得第一动态手势行为概率、第二动态手势行为概率以及二者的加权平均作为第二独立线程,提高识别效率。
优选地,如图4所示,第一独立线程由CPU执行,在第一独立线程执行完毕后,检测GPU是否空闲:
若GPU空闲,由GPU执行第二独立线程,待第二独立线程执行完毕后,再次进行第一独立线程对后续视频进行识别;
若GPU不处于空闲状态,则重复执行第一线程,对后续视频进行帧图片和光流估计的获取。
在本发明中,利用CPU的多线程优势,灵活排布GPU调用与光流估计,实现高帧率、高稳定性的实时应用效果。
在一个优选的实施方式中,在对视频识别时,还对会议主持人的人脸进行识别,在获取帧图片和光流估计时,仅保留主持人的相关信息,删除其它人的相关信息,不仅防止其他参会者进行误操作,还降低了识别数据量,提高了识别精度。
优选地,所述人脸识别基于FaceNet模型进行,FaceNet模型是CVPR会议2015年2月发布的一种模型,在本发明中对其具体结构不做赘述。
本发明中以上描述的方法的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的方法和装置,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的方法和装置实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与V P S服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
实施例
实施例1
通过爬取以及结合开源的手势识别视频共创建了15G的视频训练集,视频中的动态手势包括缩放、平移、点击、抓取、旋转。
通过TensorFlow深度学习引擎搭建识别模型,识别模型包括空间通道子模型和时间通道子模型,均为I3D模型,其结构如图2所示。
对视频训练集中的视频片段进行处理,采用OpenCV对视频片段逐帧抽取获得视频帧图片,通过Farnback方法对视频片段处理获得光流估计,采用帧图片对空间通道子模型进行训练,共训练6000步,训练后误差趋近于0,训练误差变化曲线如图5所示;采用光流估计对时间通道子模型进行训练,共训练9000步,训练后误差趋近于0,训练误差变化曲线图6所示。
在本实施例中,采用RTX2080平台进行训练,训练时长共24小时。
将训练好的识别模型搭载在笔记本电脑上,通过笔记本摄像头获取含有动态手势的视频,通过OpenCV对视频片段逐帧抽取获得视频帧图片,通过Farnback方法对视频片段处理获得光流估计,将帧图片输入空间通道子模型中,获得第一动态手势行为概率;将光流估计输入时间通道子模型中,获得第二动态手势行为概率;将第一动态手势行为概率和第二动态手势行为概率加权平均,获得最终识别结果。
面对笔记本电脑摄像头进行动态手势测试,做超过500组动态手势动作,检查手势识别率,其中,点击、平移、抓取动作的准确率高达99%,旋转、缩放动作的准确率高达95%。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接普通;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (2)
1.一种基于人工智能的人机交互方法,其特征在于,包括以下步骤:
建立识别模型;
将视频输入识别模型,对视频识别,获得视频中人物的动态手势;
所述识别模型包括空间通道子模型和时间通道子模型,
空间通道子模型处理针对视频帧的空间信息,时间通道子模型处理针对视频片段时序信息、运动特征的信息;
在对视频识别时,从视频中获得帧图片和光流估计,将帧图片输入所述空间通道子模型中,获得第一动态手势行为概率;
将光流估计输入所述时间通道子模型中,获得第二动态手势行为概率;
将第一动态手势行为概率和第二动态手势行为概率加权平均,获得最终识别结果;
所述空间通道子模型为通过视频帧图片对I3D模型训练得到;所述时间通道子模型为通过视频光流估计对I3D模型训练得到;
采用OpenCV对视频片段逐帧抽取获得视频帧图片,通过Farnback方法对视频片段处理获得光流估计;
在对视频识别时,采用多线程技术,将获得帧图片和光流估计作为第一独立线程,将获得第一动态手势行为概率、第二动态手势行为概率以及二者的加权平均作为第二独立线程;
第一独立线程由CPU执行,在第一独立线程执行完毕后,检测GPU是否空闲:若GPU空闲,由GPU执行第二独立线程,待第二独立线程执行完毕后,再次进行第一独立线程对后续视频进行识别;若GPU不处于空闲状态,则重复执行第一线程,对后续视频进行帧图片和光流估计的获取;
在对视频识别时,还对会议主持人的人脸进行识别,在获取帧图片和光流估计时,仅保留主持人的相关信息,删除其它人的相关信息。
2.根据权利要求1所述的基于人工智能的人机交互方法,其特征在于,
训练用视频帧图片和视频光流估计为对视频训练集处理获得;
所述视频训练集中包含多个具有会议手势动作的视频片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376694.3A CN114461078B (zh) | 2022-04-12 | 2022-04-12 | 一种基于人工智能的人机交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376694.3A CN114461078B (zh) | 2022-04-12 | 2022-04-12 | 一种基于人工智能的人机交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114461078A CN114461078A (zh) | 2022-05-10 |
CN114461078B true CN114461078B (zh) | 2022-07-15 |
Family
ID=81417437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210376694.3A Active CN114461078B (zh) | 2022-04-12 | 2022-04-12 | 一种基于人工智能的人机交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461078B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115813755B (zh) * | 2023-02-06 | 2023-05-12 | 国仁慈安(北京)中医研究院 | 一种基于人工智能姿态调节的多功能理疗艾灸仪 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956059B (zh) * | 2018-09-27 | 2023-08-01 | 深圳云天励飞技术有限公司 | 一种动态手势识别方法、装置和电子设备 |
CN113378641B (zh) * | 2021-05-12 | 2024-04-09 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN113378770B (zh) * | 2021-06-28 | 2023-06-27 | 北京百度网讯科技有限公司 | 手势识别方法、装置、设备、存储介质 |
CN113743247A (zh) * | 2021-08-16 | 2021-12-03 | 电子科技大学 | 基于Reders模型的手势识别方法 |
-
2022
- 2022-04-12 CN CN202210376694.3A patent/CN114461078B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114461078A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114902294B (zh) | 移动增强现实中的细粒度视觉识别 | |
US10762644B1 (en) | Multiple object tracking in video by combining neural networks within a bayesian framework | |
US20230013170A1 (en) | Method and apparatus for detecting jitter in video, electronic device, and storage medium | |
US11915447B2 (en) | Audio acquisition device positioning method and apparatus, and speaker recognition method and system | |
CN114743196B (zh) | 文本识别的方法及装置、神经网络的训练方法 | |
CN113642431A (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN113313650A (zh) | 图像画质增强方法、装置、设备和介质 | |
CN114972958B (zh) | 关键点检测方法、神经网络的训练方法、装置和设备 | |
CN114092759A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
JP2022020588A (ja) | アクティブインタラクションの方法、装置、電子デバイス及び可読記憶媒体 | |
CN114461078B (zh) | 一种基于人工智能的人机交互方法 | |
CN113810765B (zh) | 视频处理方法、装置、设备和介质 | |
CN108734718B (zh) | 用于图像分割的处理方法、装置、存储介质及设备 | |
CN110889392B (zh) | 人脸图像处理的方法及装置 | |
CN113033774A (zh) | 图处理网络模型的训练方法、装置、电子设备和存储介质 | |
CN116228867B (zh) | 位姿确定方法、装置、电子设备、介质 | |
CN116167426A (zh) | 人脸关键点定位模型的训练方法及人脸关键点定位方法 | |
CN115393514A (zh) | 三维重建模型的训练方法、三维重建方法、装置、设备 | |
CN115359092A (zh) | 一种注视点预测模型的训练方法、装置及电子设备 | |
CN115511779A (zh) | 图像检测方法、装置、电子设备和存储介质 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN112733879A (zh) | 针对不同场景的模型蒸馏方法和装置 | |
CN115131562B (zh) | 三维场景分割方法、模型训练方法、装置和电子设备 | |
CN113221920B (zh) | 图像识别方法、装置、设备、存储介质以及计算机程序产品 | |
EP3822857B1 (en) | Target tracking method, device, electronic apparatus and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |