CN117591896A - 一种基于人工智能的数字人机交互平台系统 - Google Patents
一种基于人工智能的数字人机交互平台系统 Download PDFInfo
- Publication number
- CN117591896A CN117591896A CN202311588294.XA CN202311588294A CN117591896A CN 117591896 A CN117591896 A CN 117591896A CN 202311588294 A CN202311588294 A CN 202311588294A CN 117591896 A CN117591896 A CN 117591896A
- Authority
- CN
- China
- Prior art keywords
- unit
- data link
- module
- link signal
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 30
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 238000011176 pooling Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims abstract description 18
- 230000004913 activation Effects 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims description 41
- 238000012790 confirmation Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000001537 neural effect Effects 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 11
- 238000010606 normalization Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 14
- 230000000295 complement effect Effects 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 4
- 238000011524 similarity measure Methods 0.000 description 4
- 208000006440 Open Bite Diseases 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于人工智能的数字人机交互平台系统,涉及人工智能技术领域。该基于人工智能的数字人机交互平台系统,包括二值掩码矩阵模块,所述二值掩码矩阵模块通过数据链接信号连接权重构建模块,所述权重构建模块通过数据链接信号连接特征识别模块,所述特征识别模块通过数据链接信号连接权重构建模块,所述权重构建模块通过数据链接信号连接双线性池化模型模。通过从特征图生成隐含不同区域之间语义关系的可学习亲和力图,由再由亲和力图通过标准的conv、层的归一化和激活进行反馈训练得到最终的权重模块,该权重模块通过与原特征图做对应相乘得到输出结果,TVConv的主要目的是实现不同局部块使用不同的权重进行卷积运算。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种基于人工智能的数字人机交互平台系统。
背景技术
人脸面部表情是人类自然具有的一种语言,在表达人的情绪和心理活动方面具有无法替代的准确性和通用可识别性。在日常的工作和生活中,人脸面部表情实现了相当一部分的信息交流。
人工智能是一门计算机科学领域,研究如何使计算机系统能够模仿和执行类似人类智能行为的技术和方法,人工智能旨在创造能够感知、理解、学习、推理和解决问题的智能系统。
目前,人机交互系统主要通过人的手工机械式输入和输出,此类操作方式方法的学习不仅需要一定时间的积累,而且造成了信息交互过程中信息的失真和一定程度的延迟,实现人机之间的人脸面部表情控制,对于人的手指的解放,具有重大的意义和作用,为了简化人机交互过程的操作流程,缩短信息交互所需时间,并且在一定程度提高信息交互的精度,需要对人脸面部表情的自然信息模式识别进而转化为系统的控制指令以代替现在的人机交互方法。
发明内容
针对现有技术的不足,本发明提供了一种基于人工智能的数字人机交互平台系统,解决了人机交互主要通过人的手工机械式输入和输出,此类操作方式方法的学习不仅需要一定时间的积累,而且造成了信息交互过程中信息的失真和一定程度的延迟的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于人工智能的数字人机交互平台系统,包括二值掩码矩阵模块,所述二值掩码矩阵模块通过数据链接信号连接权重构建模块,所述权重构建模块通过数据链接信号连接特征识别模块,所述特征识别模块通过数据链接信号连接权重构建模块,所述权重构建模块通过数据链接信号连接双线性池化模型模块;
所述相似性损失确认模块包括非线性函数监控单元,所述非线性函数监控单元通过数据链接信号连接步长参数监控单元、函数梯度监控单元、正则化监控单元与损失函数监控单元,所述步长参数监控单元、函数梯度监控单元、正则化监控单元与损失函数监控单元通过数据链接信号连接反馈训练确认单元,所述反馈训练确认单元通过数据链接信号连接权重图确认单元,所述权重图确认单元通过数据链接信号连接任务执行发出单元。
优选的,所述二值掩码矩阵模块包括矩阵元素确认单元,所述矩阵元素确认单元、矩阵行数采集单元、矩阵列数采集单元、矩阵维度采集单元、掩码区域采集单元与进制数值采集单元均通过数据链接信号连接二值掩码矩阵创建单元。
优选的,所述权重构建模块包括数据库导入单元,所述数据库导入单元通过数据链接信号连接二值掩码矩阵创建单元,所述数据库导入单元通过数据链接信号连接上下文区域读取单元、上下文特征读取单元、相似性度量读取单元、正则化项读取单元与神经隐变量读取单元。
优选的,所述特征识别模块包括函数激活转换单元,所述函数激活转换单元通过数据链接信号连接损失算法优化单元,所述函数激活转换单元分别连接有Flatten层跟进单元与卷积核转化单元,所述卷积核转化单元通过数据链接信号连接非线性函数建立单元。
优选的,所述双线性池化模型模块包括双线性池化单元,所述双线性池化单元、池化特征输出单元与反向传播训练单元通过数据链接信号连接双线性池化模型。
优选的,所述非线性函数监控单元通过数据链接信号连接非线性函数建立单元。
优选的,所述双线性池化单元通过数据链接信号连接任务执行发出单元,所述池化特征输出单元通过数据链接信号连接权重图确认单元,所述反向传播训练单元通过数据链接信号连接神经隐变量读取单元、上下文特征读取单元、相似性度量读取单元、正则化项读取单元与神经隐变量读取单元通过数据链接信号连接相似性损失确认单元,所述相似性损失确认单元通过数据链接信号连接损失算法优化单元。
工作原理:S1、遮挡处理:
首先根据MA-Net网络二值掩码矩阵模块建立一个与局部遮挡图像等大的二值掩码矩阵Ma,其元素值为0表示像素被遮挡,否则为1,为不失一般性,假设比较准确的矩阵Ma能够在图像补全之前被确定,人脸补全算法通过优化图像真实性,上下文相似性和平滑性目标来更新图像补全网络的输入隐变量z,对输入图像中被Ma标记的遮挡区域进行图像补全,图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失Lr定义为:
Ls=δ(G(z;OG)⊙Ma,I⊙Ma)
其中,z~N(0,1)是输入生成器网络的隐变量,G(z;θG)表示由θG参数化的生成器网络的输出图像,D(z;θD)表示由θD参数化的判别器网络的输出,度量了补全图像与真实图像之间的概率分布距离,随着判别器网络损失的逐渐降低,生成图像将逐渐接近训练集中的真实人脸;
S2、图像补全:
图像补全其中的权重构建模块迫使图像补全网络在生成图像空间中搜索与遮挡图像中无遮挡部分最相似的样本来优化输入隐变量,保持无遮挡部分与补全部分之间的上下文一致性,最大程度保留特征提取信息,并计算获得遮挡图像和生成图像中的无遮挡部分之间的相似性损失Ls;
S3、特征识别:
根据相似性损失Ls特征识别模块采用VGG16作为面部特征提取网络Nf,使用在MS-Celeb-1M上预训练的参数初始化其前三组卷积层并固定,保留VGG16对低层视觉特征的感知能力,使用深度学习框架如TensorFlow或PyTorch加载预训练的VGG16模型,然后在训练过程中调优图像中无遮挡部分的隐变量,同时根据图像补全网络的输入隐变量z补全图,将图像数据输入到VGG16模型中,通过前向传播获得特征表示,对于面部特征识别任务,建立一个能够区分7类面部特征的多层感知器网络Ne;对于身份识别任务,使用另一个能够区分m类用户身份的多层感知器网络Nu;
S4、可学习亲和力:
通过权重构建模块从特征图生成隐含不同区域之间语义关系的可学习亲和力图,再由亲和力图通过标准的conv层、归一化和激活进行反馈训练得到最终的权重模块,该权重模块通过与原特征图做对应相乘得到输出结果,TVConv的主要目的是实现不同局部块使用不同的权重进行卷积运算;
S5、双线性池化:
根据双线性池化模型模块构建分层双线性池化模型,将经粗细尺度主干网络提取的特征图记为hwcXR,其中h、w、c分别为特征图的高度、宽度、通道数,并通过分层双线性池化模型进行人机交互作业,分层双线性池化模型包括以下公式:
Z=PT(UTXOVTX);
其中,zi为双线性模型的输出,Wi为投影矩阵。
本发明提供了一种基于人工智能的数字人机交互平台系统。具备以下有益效果:
1、本发明通过从特征图生成隐含不同区域之间语义关系的可学习亲和力图,由再由亲和力图通过标准的conv、层的归一化和激活进行反馈训练得到最终的权重模块,该权重模块通过与原特征图做对应相乘得到输出结果,TVConv的主要目的是实现不同局部块使用不同的权重进行卷积运算,在全局多尺度模块中使用高效转换变体卷积(TVConv)替代普通卷积,使输入特征图的每个卷积区域都使用相应的卷积参数,从而实现更加精确的特征提取。
2、本发明通过构建分层双线性池化模型,将经粗细尺度主干网络提取的特征图记为hwcXR,其中h、w、c分别为特征图的高度、宽度、通道数,从而简化了人机交互过程,缩短了时间,提高了人机交互效率,达到了解放双手进行模式识别控制的目标。
附图说明
图1为本发明的主体架构示意图;
图2为本发明的二值掩码矩阵模块架构示意图;
图3为本发明的权重构建模块架构示意图;
图4为本发明的特征识别模块架构示意图;
图5为本发明的权重构建模块架构示意图;
图6为本发明的双线性池化模型模块架构示意图;
图7为本发明交互方法步骤示意图。
其中,1、二值掩码矩阵模块;2、相似性损失确认模块;3、特征识别模块;4、权重构建模块;5、双线性池化模型模块;11、矩阵元素确认单元;12、矩阵行数采集单元;13、矩阵列数采集单元;14、矩阵维度采集单元;15、掩码区域采集单元;16、进制数值采集单元;17、二值掩码矩阵创建单元;21、数据库导入单元;22、上下文区域读取单元;23、上下文特征读取单元;24、相似性度量读取单元;25、正则化项读取单元;26、神经隐变量读取单元;27、相似性损失确认单元;28、损失算法优化单元;31、函数激活转换单元;32、Flatten层跟进单元;33、卷积核转化单元;34、非线性函数建立单元;41、非线性函数监控单元;42、步长参数监控单元;43、函数梯度监控单元;44、正则化监控单元;45、损失函数监控单元;46、反馈训练确认单元;47、权重图确认单元;48、任务执行发出单元;51、双线性池化单元;52、池化特征输出单元;53、反向传播训练单元;54、双线性池化模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明实施例提供一种基于人工智能的数字人机交互平台系统,包括二值掩码矩阵模块1,二值掩码矩阵模块1通过数据链接信号连接相似性损失确认模块2,相似性损失确认模块2通过数据链接信号连接特征识别模块3,特征识别模块3通过数据链接信号连接权重构建模块4,权重构建模块4通过数据链接信号连接双线性池化模型模块5;
如图2所示,二值掩码矩阵模块1包括矩阵元素确认单元11,矩阵元素确认单元11、矩阵行数采集单元12、矩阵列数采集单元13、矩阵维度采集单元14、掩码区域采集单元15与进制数值采集单元16均通过数据链接信号连接二值掩码矩阵创建单元17,矩阵元素确认单元11元素代表矩阵中的一个格子或像素,可以取两个离散值之一,通常是0或1,0通常表示遮挡或条件未满足,1表示未遮挡或条件满足,矩阵行数采集单元12矩阵中的水平排列单元,每一行包含多个元素,矩阵列数采集单元13矩阵中的垂直排列单元,每一列包含多个元素,矩阵维度采集单元14矩阵的维度表示矩阵的大小,通常以“行数×列数”的形式表示,用来描述矩阵的尺寸,掩码区域采集单元15二值掩码矩阵常被称为掩码,因为它可以被用来遮挡或控制某些图像或数据的部分区域,通常通过将元素值设置为0来表示遮挡,进制数值采集单元16矩阵中的元素只能取二进制数值,通常是0和1,以表示某种情况或条件的满足与否;
如图3所示,相似性损失确认模块2包括数据库导入单元21,数据库导入单元21通过数据链接信号连接二值掩码矩阵创建单元17,数据库导入单元21通过数据链接信号连接上下文区域读取单元22、上下文特征读取单元23、相似性度量读取单元24、正则化项读取单元25与神经隐变量读取单元26,上下文区域读取单元22、上下文特征读取单元23、相似性度量读取单元24、正则化项读取单元25与神经隐变量读取单元26通过数据链接信号连接相似性损失确认单元27,相似性损失确认单元27通过数据链接信号连接损失算法优化单元28,上下文区域读取单元22上下文区域的特征表示,通常通过特征提取器获得,这些特征包括了上下文区域中的信息,上下文特征读取单元23用于衡量生成的图像与上下文区域之间的相似性,损失越小,表示生成的图像越接近上下文区域的特征,从而保持了上下文一致性,相似性度量读取单元24用于比较生成的图像与上下文特征之间的相似性,相似性度量包括像素级的均方误差、结构相似性指数,正则化项读取单元25包括在损失函数中的额外项,以帮助控制生成的图像的平滑度、细节等属性,以确保生成的图像不仅相似,还具有合理的视觉质量,神经隐变量读取单元26用于生成遮挡部分的图像内容的神经网络;
如图4所示,特征识别模块3包括函数激活转换单元31,函数激活转换单元31通过数据链接信号连接损失算法优化单元28,函数激活转换单元31通常位于各个层之后,用于引入非线性,函数激活转换单元31分别连接有Flatten层跟进单元32与卷积核转化单元33,Flatten层跟进单元32在全连接层之前,通常需要将高维的特征图拉平成一维向量,以便输入全连接层,卷积核转化单元33通过数据链接信号连接非线性函数建立单元34;
如图5所示,权重构建模块4包括非线性函数监控单元41,非线性函数监控单元41通过数据链接信号连接步长参数监控单元42、函数梯度监控单元43、正则化监控单元44与损失函数监控单元45,步长参数监控单元42、函数梯度监控单元43、正则化监控单元44与损失函数监控单元45通过数据链接信号连接反馈训练确认单元46,函数梯度监控单元43根据损失函数的梯度来更新权重,正则化监控单元44包括L1正则化、L2正则化,用于减少过拟合,并确保权重不会变得过于复杂,损失函数监控单元45用于衡量模型输出与实际目标之间的差异,这个损失函数可以帮助网络调整权重,以减小预测与真实值之间的差距反馈训练确认单元46通过数据链接信号连接权重图确认单元47,反馈训练确认单元46学习权重模块经过反馈训练,以最小化某个损失函数,该损失函数通常包括与任务相关的标签或目标,通过反馈训练,权重模块不断优化以提高任务性能,权重图确认单元47学习到的权重模块生成最终的权重图,该权重图用于指导分割、聚类或修复任务的执行权重图确认单元47通过数据链接信号连接任务执行发出单元48,非线性函数监控单元41通过数据链接信号连接非线性函数建立单元34;
如图6所示,双线性池化模型模块5包括双线性池化单元51,双线性池化单元51、池化特征输出单元52与反向传播训练单元53通过数据链接信号连接双线性池化模型54,双线性池化单元51通过数据链接信号连接任务执行发出单元48,双线性池化单元51执行双线性池化操作,它们将不同特征图的信息相互交互以捕捉特征之间的关系,双线性池化通常涉及将特征图相乘,然后进行降采样或其他操作,池化特征输出单元52通过数据链接信号连接权重图确认单元47,反向传播训练单元53通过数据链接信号连接神经隐变量读取单元26,反向传播训练单元53在训练过程中根据损失函数调整模型参数,以提高性能。
根据附图7,S1、首先根据MA-Net网络建立一个与局部遮挡图像等大的二值掩码矩阵Ma,其元素值为0表示像素被遮挡,否则为1,为不失一般性,假设比较准确的矩阵Ma能够在图像补全之前被确定,人脸补全算法通过优化图像真实性,上下文相似性和平滑性目标来更新图像补全网络的输入隐变量z,对输入图像中被Ma标记的遮挡区域进行图像补全,图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失Lr定义为:
LR=D(G(z;OG);OD)
其中,z~N(0,1)是输入生成器网络的隐变量,G(z;θG)表示由θG参数化的生成器网络的输出图像,D(z;θD)表示由θD参数化的判别器网络的输出,度量了补全图像与真实图像之间的概率分布距离,随着判别器网络损失的逐渐降低,生成图像将逐渐接近训练集中的真实人脸;
S2、图像补全其中的上下文相似性约束迫使图像补全网络在生成图像空间中搜索与遮挡图像中无遮挡部分最相似的样本来优化输入隐变量,保持无遮挡部分与补全部分之间的上下文一致性,最大程度保留特征提取信息,将遮挡图像和生成图像中的无遮挡部分之间的相似性损失Ls,Ls定义为:
Ls=δ(G(z;OG)⊙Ma,I⊙Ma)
其中,δ(·)表示度量矩阵间相似度的函数,本文取为L2范数;I表示遮挡图像,Ma是对应的掩码矩阵,☉表示元素级乘法运算;
S3、根据相似性损失Ls采用VGG16作为面部特征提取网络Nf,使用在ImageNet上预训练的参数初始化其前三组卷积层并固定,保留VGG16对低层视觉特征的感知能力,然后在训练过程中调优其余参数,对于面部特征识别任务,建立一个能够区分q类面部特征的多层感知器网络Ne;对于身份识别任务,使用另一个能够区分m类用户身份的多层感知器网络Nu;
S4、通过从特征图生成隐含不同区域之间语义关系的可学习亲和力,由再由亲和力图通过标准的conv、层的归一化和激活(例如Relu)进行反馈训练得到最终的权重模块,该权重模块通过与原特征图做对应相乘得到输出结果,TVConv的主要目的是实现不同局部块使用不同的权重进行卷积运算,卷积运算包括以下形式:
非线性函数包括以下表达形式:
W=B(A)
S5、构建分层双线性池化模型,将经粗细尺度主干网络提取的特征图记为hwcXR,其中h、w、c分别为特征图的高度、宽度、通道数,记[1,2,...,]Tc为X上的一个空间位置c维描述符,分层双线性池化模型包括以下公式:
Zi=XTWiX
其中,zi为双线性模型的输出,Wi为投影矩阵;
S6、对分层双线性池化模型进行低阶外积分解运算,所述低阶外积分解运算包括以下形式:
Z=PT(UTXOVTX)
其中P为分类矩阵,d为决定嵌入维度的超参数,o为图像分类类别总数,U和V为从c维特征向量中获得d维池化特征向量的投影矩阵,0为哈达玛积。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于人工智能的数字人机交互平台系统,包括二值掩码矩阵模块(1),其特征在于:所述二值掩码矩阵模块(1)通过数据链接信号连接相似性损失确认模块(2),所述相似性损失确认模块(2)通过数据链接信号连接特征识别模块(3),所述特征识别模块(3)通过数据链接信号连接权重构建模块(4),所述权重构建模块(4)通过数据链接信号连接双线性池化模型模块(5);
所述权重构建模块(4)包括非线性函数监控单元(41),所述非线性函数监控单元(41)通过数据链接信号连接步长参数监控单元(42)、函数梯度监控单元(43)、正则化监控单元(44)与损失函数监控单元(45),所述步长参数监控单元(42)、函数梯度监控单元(43)、正则化监控单元(44)与损失函数监控单元(45)通过数据链接信号连接反馈训练确认单元(46),所述反馈训练确认单元(46)通过数据链接信号连接权重图确认单元(47),所述权重图确认单元(47)通过数据链接信号连接任务执行发出单元(48)。
2.根据权利要求1所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述二值掩码矩阵模块(1)包括矩阵元素确认单元(11),所述矩阵元素确认单元(11)、矩阵行数采集单元(12)、矩阵列数采集单元(13)、矩阵维度采集单元(14)、掩码区域采集单元(15)与进制数值采集单元(16)均通过数据链接信号连接二值掩码矩阵创建单元(17)。
3.根据权利要求1所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述相似性损失确认模块(2)包括数据库导入单元(21),所述数据库导入单元(21)通过数据链接信号连接二值掩码矩阵创建单元(17),所述数据库导入单元(21)通过数据链接信号连接上下文区域读取单元(22)、上下文特征读取单元(23)、相似性度量读取单元(24)、正则化项读取单元(25)与神经隐变量读取单元(26)。
4.根据权利要求1所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述特征识别模块(3)包括函数激活转换单元(31),所述函数激活转换单元(31)通过数据链接信号连接损失算法优化单元(28),所述函数激活转换单元(31)分别连接有Flatten层跟进单元(32)与卷积核转化单元(33),所述卷积核转化单元(33)通过数据链接信号连接非线性函数建立单元(34)。
5.根据权利要求1所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述双线性池化模型模块(5)包括双线性池化单元(51),所述双线性池化单元(51)、池化特征输出单元(52)与反向传播训练单元(53)通过数据链接信号连接双线性池化模型(54)。
6.根据权利要求1所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述非线性函数监控单元(41)通过数据链接信号连接非线性函数建立单元(34)。
7.根据权利要求5所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述双线性池化单元(51)通过数据链接信号连接任务执行发出单元(48),所述池化特征输出单元(52)通过数据链接信号连接权重图确认单元(47),所述反向传播训练单元(53)通过数据链接信号连接神经隐变量读取单元(26)。
8.根据权利要求3所述的一种基于人工智能的数字人机交互平台系统,其特征在于:所述上下文区域读取单元(22)、上下文特征读取单元(23)、相似性度量读取单元(24)、正则化项读取单元(25)与神经隐变量读取单元(26)通过数据链接信号连接相似性损失确认单元(27),所述相似性损失确认单元(27)通过数据链接信号连接损失算法优化单元(28)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588294.XA CN117591896A (zh) | 2023-11-27 | 2023-11-27 | 一种基于人工智能的数字人机交互平台系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588294.XA CN117591896A (zh) | 2023-11-27 | 2023-11-27 | 一种基于人工智能的数字人机交互平台系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591896A true CN117591896A (zh) | 2024-02-23 |
Family
ID=89919658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311588294.XA Pending CN117591896A (zh) | 2023-11-27 | 2023-11-27 | 一种基于人工智能的数字人机交互平台系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591896A (zh) |
-
2023
- 2023-11-27 CN CN202311588294.XA patent/CN117591896A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021051B (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN109977757B (zh) | 一种基于混合深度回归网络的多模态的头部姿态估计方法 | |
WO2005119589A1 (en) | Information processing method and apparatus, and image pickup device | |
CN110244689A (zh) | 一种基于判别性特征学习方法的auv自适应故障诊断方法 | |
CN114386582B (zh) | 一种基于对抗训练注意力机制的人体动作预测方法 | |
CN112560639B (zh) | 人脸关键点数目转换方法、系统、电子设备及存储介质 | |
CN114839881B (zh) | 智能化垃圾清理与环境参数大数据物联网系统 | |
CN116340796B (zh) | 时序数据分析方法、装置、设备及存储介质 | |
Sanchez et al. | Analyzing the influence of contrast in large-scale recognition of natural images | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN117274750B (zh) | 一种知识蒸馏半自动可视化标注方法及系统 | |
Zhang | Application of artificial intelligence recognition technology in digital image processing | |
Zhang et al. | Zero-small sample classification method with model structure self-optimization and its application in capability evaluation | |
CN117909881A (zh) | 多源数据融合的抽油机的故障诊断方法及装置 | |
Singaravel et al. | Explainable deep convolutional learning for intuitive model development by non–machine learning domain experts | |
Shukla et al. | UBOL: User-Behavior-aware one-shot learning for safe autonomous driving | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN117591896A (zh) | 一种基于人工智能的数字人机交互平台系统 | |
CN115512214A (zh) | 一种基于因果注意力的室内视觉导航方法 | |
CN116012903A (zh) | 一种人脸表情自动标注的方法及系统 | |
CN113066094A (zh) | 一种基于生成对抗网络的地理栅格智能化局部脱敏方法 | |
Udendhran et al. | Enhancing representational learning for cloud robotic vision through explainable fuzzy convolutional autoencoder framework | |
CN112365456A (zh) | 基于三维点云数据的变电站设备分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |