CN117133277B - 用于人机交互的虚拟人物表情控制方法及系统 - Google Patents
用于人机交互的虚拟人物表情控制方法及系统 Download PDFInfo
- Publication number
- CN117133277B CN117133277B CN202311360473.8A CN202311360473A CN117133277B CN 117133277 B CN117133277 B CN 117133277B CN 202311360473 A CN202311360473 A CN 202311360473A CN 117133277 B CN117133277 B CN 117133277B
- Authority
- CN
- China
- Prior art keywords
- voice command
- data
- command data
- standard voice
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003993 interaction Effects 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 162
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 52
- 238000004364 calculation method Methods 0.000 claims description 46
- 230000009467 reduction Effects 0.000 claims description 34
- 238000012937 correction Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000002790 cross-validation Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 93
- 230000008569 process Effects 0.000 description 23
- 238000012549 training Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000010339 dilation Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种用于人机交互的虚拟人物表情控制方法及系统,用于提高用于人机交互的虚拟人物表情控制的准确率。包括:对每个标准语音命令数据的可信度分数进行非线性变换,获得每个标准语音命令数据与对应表情模式的关联可信度分数;建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;对每个邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,构建命令识别模型;采集用户语音命令数据,对用户语音命令数据进行识别,获得表情模式流数据,并通过表情模式流数据对虚拟人物进行表情控制。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于人机交互的虚拟人物表情控制方法及系统。
背景技术
随着虚拟人物和人工智能技术的快速发展,我们越来越依赖虚拟人物来执行各种任务,例如虚拟助手、虚拟游戏角色、在线培训教师等。这些虚拟人物的目标是与用户进行自然、情感丰富的互动,以提供更好的用户体验。在这个背景下,语音命令识别和表情控制成为了关键技术,因为它们可以使虚拟人物更智能化和人性化。
传统的语音命令识别技术已经取得了一定的进展,但仍然存在诸多挑战。例如,噪声环境下的识别准确性下降,不同用户的发音差异较大,需要个性化的适应性。另一方面,虚拟人物的表情控制通常是基于预定义的模式,缺乏与用户的实际语音命令相关联的个性化表现,限制了其情感表达的多样性。即现有方案的准确率较低。
发明内容
本发明提供了一种用于人机交互的虚拟人物表情控制方法及系统,用于提高用于人机交互的虚拟人物表情控制的准确率。
本发明第一方面提供了一种用于人机交互的虚拟人物表情控制方法,所述用于人机交互的虚拟人物表情控制方法包括:根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数;
通过预置的多层感知机分别对每个所述标准语音命令数据的可信度分数进行非线性变换,获得每个所述标准语音命令数据与对应表情模式的关联可信度分数;
基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个所述扩展感受野数据构建命令识别模型;
采集用户语音命令数据,并基于所述命令识别模型对所述用户语音命令数据进行识别,获得表情模式流数据,并通过所述表情模式流数据对所述虚拟人物进行表情控制。
结合第一方面,在本发明第一方面的第一实施方式中,所述根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据,包括:
对所述虚拟人物的每种表情模式进行模式参数定义,得到每种所述表情模式的模式参数集合;
分别对每种所述表情模式的模式参数集合进行数据格式转换,得到多个转换参数数据;
对多个所述转换参数数据进行数据标识符构建,得到每个所述转换参数数据对应的数据标识符;
通过每个所述转换参数数据对应的数据标识符,对所述模板语音命令数据进行数据截取,得到多个所述标准语音命令数据。
结合第一方面,在本发明第一方面的第二实施方式中,所述分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数,包括:
分别对每个所述标准语音命令数据进行数据折叠数量分析,得到每个所述标准语音命令数据的数据折叠数量;
基于每个所述标准语音命令数据的数据折叠数量,分别对每个所述标准语音命令数据进行数据折叠,得到每个所述标准语音命令数据对应的多个分割数据;
分别对每个所述标准语音命令数据进行循环迭代交叉验证,直至每个所述标准语音命令数据满足预设验证指标时,输出每个所述标准语音命令数据对应的性能指标数据;
基于每个所述标准语音命令数据对应的性能指标数据,通过预置的目标分布随机邻域嵌入算法将每个所述标准语音命令数据映射至所述二维空间,获得每个所述标准语音命令数据的可信度分数。
结合第一方面的第二实施方式,在本发明第一方面的第三实施方式中,所述基于每个所述标准语音命令数据对应的性能指标数据,通过预置的目标分布随机邻域嵌入算法将每个所述标准语音命令数据映射至所述二维空间,获得每个所述标准语音命令数据的可信度分数,包括:
对每个所述标准语音命令数据对应的性能指标数据进行算法修正系数计算,得到目标算法修正系数;
通过所述目标算法修正系数对预置的初始分布随机邻域嵌入算法进行算法系数修正,得到目标分布随机邻域嵌入算法;
通过所述目标分布随机邻域嵌入算法对每个所述标准语音命令数据进行数据降维处理,得到降维命令数据集合,并获取所述降维命令数据集合对应的二维空间位置信息;
基于所述二维空间位置信息,对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数。
结合第一方面的第三实施方式,在本发明第一方面的第四实施方式中,所述基于所述二维空间位置信息,对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数,包括:
通过所述二维空间位置信息,对所述降维命令数据集合进行数据点映射,得到多个数据点信息;
对多个所述数据点信息进行相对位置计算,得到相对位置数据集合;
通过所述相对位置数据集合对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数。
结合第一方面,在本发明第一方面的第五实施方式中,所述基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵,包括:
对每个所述标准语音命令数据与对应表情模式的关联可信度分数进行关联节点构建,得到每个所述标准语音命令数据对应的多个关联节点;
对每个所述标准语音命令数据对应的多个关联节点进行节点权重计算,得到每个所述标准语音命令数据的节点权重集合;
基于每个所述标准语音命令数据的节点权重集合,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵。
结合第一方面,在本发明第一方面的第六实施方式中,所述通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵,包括:
通过预置的方言数据库分别对每个所述邻接矩阵进行度矩阵计算,得到每个所述邻接矩阵对应的度矩阵;
通过每个所述邻接矩阵对应的度矩阵,分别对每个所述邻接矩阵进行矩阵差值计算,得到每个所述邻接矩阵对应的拉普拉斯矩阵;
对每个所述邻接矩阵对应的拉普拉斯矩阵进行逆矩阵计算,得到每个所述邻接矩阵对应的逆矩阵;
分别对每个所述邻接矩阵对应的逆矩阵与每个所述邻接矩阵进行矩阵点积计算,得到多个标准化矩阵。
本发明第二方面提供了一种用于人机交互的虚拟人物表情控制系统,所述用于人机交互的虚拟人物表情控制系统包括:
截取模块,用于根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
映射模块,用于分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数;
变换模块,用于通过预置的多层感知机分别对每个所述标准语音命令数据的可信度分数进行非线性变换,获得每个所述标准语音命令数据与对应表情模式的关联可信度分数;
建立模块,用于基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
处理模块,用于通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
卷积模块,用于对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个所述扩展感受野数据构建命令识别模型;
识别模块,用于采集用户语音命令数据,并基于所述命令识别模型对所述用户语音命令数据进行识别,获得表情模式流数据,并通过所述表情模式流数据对所述虚拟人物进行表情控制。
本发明第三方面提供了一种用于人机交互的虚拟人物表情控制设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述用于人机交互的虚拟人物表情控制设备执行上述的用于人机交互的虚拟人物表情控制方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的用于人机交互的虚拟人物表情控制方法。
本发明提供的技术方案中,根据虚拟人物的每种表情模式对模板语音命令数据进行数据截取,得到多个标准语音命令数据;分别对每个标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个标准语音命令数据的可信度分数;通过多层感知机分别对每个标准语音命令数据的可信度分数进行非线性变换,获得每个标准语音命令数据与对应表情模式的关联可信度分数;基于每个标准语音命令数据与对应表情模式的关联可信度分数,建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;通过方言数据库分别对每个邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个扩展感受野数据构建命令识别模型;采集用户语音命令数据,并基于命令识别模型对用户语音命令数据进行识别,获得表情模式流数据,并通过表情模式流数据对虚拟人物进行表情控制。在本申请方案中,通过迭代交叉验证和非线性变换,该方案可以提高语音命令识别的准确性。通过与每个标准语音命令数据的关联可信度分数,虚拟人物可以根据用户的语音命令和表情模式之间的关系来实现个性化的表情控制。采用多层感知机进行非线性变换有助于捕获复杂的语音特征和表情模式之间的关系,从而提高了可信度分数的准确性。能够更好地区分不同的语音命令和表情模式。标准化处理和扩展感受野的应用有助于提高数据的稳定性和特征提取的能力。这可以改善命令识别模型的性能,使其更适应不同的用户和语音环境。
附图说明
图1为本发明实施例中用于人机交互的虚拟人物表情控制方法的一个实施例示意图;
图2为本发明实施例中分别对每个标准语音命令数据进行迭代交叉验证的流程图;
图3为本发明实施例中通过预置的目标分布随机邻域嵌入算法将每个标准语音命令数据映射至二维空间的流程图;
图4为本发明实施例中对降维命令数据集合进行可信度分数计算的流程图;
图5为本发明实施例中用于人机交互的虚拟人物表情控制系统的一个实施例示意图;
图6为本发明实施例中用于人机交互的虚拟人物表情控制设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种用于人机交互的虚拟人物表情控制方法及系统,用于提高用于人机交互的虚拟人物表情控制的准确率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中用于人机交互的虚拟人物表情控制方法的一个实施例包括:
S101、根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
可以理解的是,本发明的执行主体可以为用于人机交互的虚拟人物表情控制系统,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,对每一种虚拟人物的表情模式进行详细的参数定义。为每个表情模式确定了一组模式参数,这些参数描述了虚拟人物的表情在空间和时间上的特征。这些参数通常包括面部肌肉的活动程度、眼睛的位置、嘴巴的张合度等等。这些模式参数的定义是确保表情控制的准确性和精确性的关键。对每种表情模式的模式参数集合需要进行数据格式转换。这一步骤的目的是将模式参数以一种合适的格式表示,以便后续处理。这种格式可以是数字、向量、矩阵等等,具体取决于所采用的数据表示方式。每种表情模式的模式参数集合转换完成后,需要为每个转换后的参数数据分配一个数据标识符。这个数据标识符是用来唯一标识每个参数数据的符号或编码,以便在后续的处理中进行识别和检索。数据标识符的创建确保了数据的唯一性和可管理性。最后,通过使用每个转换参数数据对应的数据标识符,可以对预置的模板语音命令数据进行数据截取。对于每个表情模式,系统会根据相关的参数数据标识符从模板语音命令数据中提取相关的信息,以创建多个标准语音命令数据。这些标准语音命令数据将用于后续的表情控制过程。举例来说,假设一个虚拟人物可以展示微笑、愤怒和惊讶等三种表情模式。服务器为每种表情模式定义了相应的模式参数集合,例如微笑的参数包括嘴巴弯曲度和眼睛皱纹深度。服务器对这些参数进行了数据格式转换,将它们表示为数字向量。为每个参数集合分配了唯一的数据标识符。最后,使用这些数据标识符,服务器从模板语音命令数据中截取出多个标准语音命令数据,以供虚拟人物的表情控制使用。
S102、分别对每个标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个标准语音命令数据的可信度分数;
具体的,针对每个标准语音命令数据,首先进行数据折叠数量分析。确定在数据交叉验证过程中将使用多少数据折叠(folds)。数据折叠是将数据集分成多个子集的过程,以便进行迭代验证。基于确定的数据折叠数量,将每个标准语音命令数据分成相应数量的子集。这些子集将用于交叉验证,每次将一个子集作为验证集,其余子集作为训练集,以评估模型性能。对每个标准语音命令数据进行循环迭代的交叉验证。在每次迭代中,不同的子集被选择为验证集和训练集。这是为了确保充分地评估每个语音命令数据的性能。在每次交叉验证迭代中,评估语音命令数据的性能,并输出相应的性能指标数据。这些指标可以包括准确度、精确度、召回率、F1分数等,用于衡量语音命令数据的质量。基于每个语音命令数据的性能指标数据,使用预置的目标分布随机邻域嵌入算法将每个语音命令数据映射至二维空间。这个算法有助于将高维数据(性能指标数据)映射到低维空间(二维空间),以便后续分析。通过这个过程,服务器获得每个标准语音命令数据在二维空间中的位置,这些位置可以表示其可信度分数。具体来说,距离二维空间中某个点的远近可以表示该语音命令数据与表情模式的关联程度。较近的点表示更高的可信度,较远的点表示较低的可信度。
其中,对于每个标准语音命令数据,首先计算算法修正系数。这些系数将用于修正预置的初始分布随机邻域嵌入算法,以更好地适应性能指标数据。算法修正系数的计算可以基于不同的统计方法,例如线性回归或梯度下降,以确保最佳修正系数。使用计算得到的目标算法修正系数,对预置的初始分布随机邻域嵌入算法进行修正。这个修正过程旨在调整嵌入算法,使其更好地反映性能指标数据与二维空间映射之间的关系。利用修正后的目标分布随机邻域嵌入算法,对每个标准语音命令数据进行数据降维处理。这一步骤将原始高维性能指标数据映射到二维空间中,得到一个降维命令数据集合。这个集合中的每个数据点都对应着一个标准语音命令数据,并在二维空间中具有位置信息。基于降维命令数据集合中的二维空间位置信息,可以计算每个标准语音命令数据的可信度分数。这个分数可以根据数据点在二维空间中的位置来确定,通常是距离某个参考点的距离或与其他数据点的关联程度。更接近参考点或与其他数据点关联性更高的数据点将具有较高的可信度分数,反之亦然。
其中,根据降维命令数据集合的二维空间位置信息,将每个数据点映射到具体的坐标位置。这些坐标位置表示了每个数据点在二维空间中的精确位置。对多个数据点信息进行相对位置计算。计算每个数据点与其他数据点之间的相对位置关系。这可以通过计算数据点之间的距离、角度或其他空间关系来实现。这一步骤的目的是获取数据点之间的相对布局信息,以反映它们在空间中的位置关系。基于相对位置数据集合,可以进行可信度分数计算。这个计算的目的是确定每个标准语音命令数据的可信度分数。可信度分数通常与数据点在二维空间中的相对位置有关,具体规则可以根据问题的特定需求而定。
S103、通过预置的多层感知机分别对每个标准语音命令数据的可信度分数进行非线性变换,获得每个标准语音命令数据与对应表情模式的关联可信度分数;
具体的,多层感知机(MLP)是一种人工神经网络结构,通常由多个神经元层组成,每个神经元层与前一层和后一层的神经元层之间存在全连接。每个神经元将输入的权重和加权和经过激活函数进行非线性转换,然后传递给下一层神经元。这种非线性转换的特性使得MLP能够捕捉输入数据的复杂关系。在虚拟人物表情控制中,服务器的目标是将标准语音命令数据映射到与表情模式的关联可信度分数。每个标准语音命令数据被输入到MLP中。这些数据包括语音特征、性能指标或其他与语音命令相关的数据。MLP通常包括一个或多个隐藏层,这些层包含多个神经元。每个神经元计算其输入数据的加权和,并将结果通过激活函数进行非线性变换。这个非线性变换是关键,因为它允许MLP捕捉数据之间的复杂关系。在MLP的最后一个隐藏层之后,通常有一个输出层,其中每个神经元代表一个表情模式。每个神经元计算与对应表情模式的关联可信度分数。这个分数表示语音命令数据与该特定表情模式之间的关联程度。MLP的权重和参数需要进行训练,以使其能够准确地捕捉语音命令数据和表情模式之间的关系。这可以通过监督学习、反向传播等技术来实现。训练数据通常包括已知的语音命令和相应的表情模式关联。
S104、基于每个标准语音命令数据与对应表情模式的关联可信度分数,建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
具体的,基于先前计算的每个标准语音命令数据与对应表情模式的关联可信度分数,为每个语音命令数据构建一个有序的关联节点列表。这个列表按照关联可信度分数的降序排列,将可信度较高的节点排在前面。可以根据具体需求设置一个关联可信度分数的阈值,用于筛选出与语音命令数据高度相关的节点。只有分数高于阈值的节点才会被保留作为关联节点。对于每个标准语音命令数据,从关联节点列表中选择与之相关的节点,构建一个关联节点集合。这个集合包含了与该语音命令数据强相关的表情模式节点。对于每个标准语音命令数据,确定如何计算关联节点的权重。权重计算方法可以基于关联可信度分数、节点之间的距离、节点在关联节点集合中的位置等因素。不同的权重计算方法可以根据需求灵活调整。使用所选的权重计算方法,为关联节点计算权重值。这些权重值表示了每个节点对于表情模式与语音命令数据之间关联的贡献程度。定义矩阵的结构。通常,邻接矩阵是一个二维矩阵,其中行表示标准语音命令数据,列表示表情模式节点。根据每个标准语音命令数据的关联节点集合和节点权重集合,填充邻接矩阵的相应条目。这些条目可以表示语音命令数据与表情模式节点之间的关联程度,可以是权重值或其他相似性度量。
S105、通过预置的方言数据库分别对每个邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
具体的,针对每个邻接矩阵,需要计算相应的度矩阵。度矩阵是一个对角矩阵,其对角线元素表示每个节点的度(即与该节点相连的边的数量)。度矩阵通常表示为D。通过度矩阵和邻接矩阵,可以计算相应的拉普拉斯矩阵。拉普拉斯矩阵是一个特殊的矩阵,用于描述图或网络的拓扑结构。一种常见的拉普拉斯矩阵定义是拉普拉斯矩阵L等于度矩阵D减去邻接矩阵A。即L=D-A。需要对每个拉普拉斯矩阵进行逆矩阵计算,以获得其逆矩阵。逆矩阵通常表示为L^-1。最后,通过将逆矩阵与原始邻接矩阵进行矩阵点积运算,得到标准化矩阵。这个标准化矩阵包含了每个节点的标准化值,用于后续的分析和处理。
S106、对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个扩展感受野数据构建命令识别模型;
具体的,服务器将多个标准化矩阵作为输入数据传递给扩张卷积操作。扩张卷积是一种卷积神经网络中的卷积操作,其特点是通过引入扩张率或膨胀率来增加感受野的大小,从而更好地捕获输入数据的上下文信息。这个过程允许服务器在更大范围内分析标准化矩阵,以便更好地理解语音命令数据与表情模式之间的关系。扩张卷积操作的结果是从每个标准化矩阵中提取的特征。这些特征包含了关于语音命令和表情模式之间关联的信息。服务器将这些特征用于构建命令识别模型。命令识别模型是一个关键组成部分,它可以采用不同的深度学习架构,如卷积神经网络(CNN)或循环神经网络(RNN)。这个模型的任务是将提取的特征映射到不同语音命令对应的表情模式。通过训练这个模型,服务器使其能够自动识别用户发出的语音命令并相应地控制虚拟人物的表情。在训练模型之前,服务器准备带有标记的训练数据集,以便模型学习正确的语音命令与表情模式之间的映射关系。一旦模型完成训练,服务器使用测试数据来评估其性能。如果模型的性能不够理想,服务器通过调整模型架构、优化超参数或增加更多的训练数据来提高其性能。
S107、采集用户语音命令数据,并基于命令识别模型对用户语音命令数据进行识别,获得表情模式流数据,并通过表情模式流数据对虚拟人物进行表情控制。
具体的,建立一个数据采集系统,以收集用户发出的语音命令数据。这可以通过麦克风或语音识别设备来实现。用户可以用口头方式发出指令。这些语音命令将被捕获并存储以供后续处理。服务器将已采集的用户语音命令数据传递给事先训练好的命令识别模型。这个模型是在前面的步骤中构建和训练的,它的任务是将用户的语音命令映射到相应的表情模式。命令识别模型使用深度学习技术,如卷积神经网络(CNN)或循环神经网络(RNN),来分析语音命令并识别其含义。采集到的用户语音命令数据(例如"Smile")被传递给命令识别模型。这个模型通过分析语音数据并与其已学习的命令模式进行比较,来确定用户所发出的确切命令。本实施例中,命令识别模型成功地将输入识别为"Smile"。命令识别模型就可以映射到相应的表情模式。这将触发虚拟人物的特定表情模式生成。表情模式可以是虚拟人物的面部表情、身体动作或其他交互元素。最后,通过生成的表情模式流数据,虚拟人物将被控制以表现出与用户命令相对应的表情。这可以通过调整虚拟人物的三维模型、面部动画或其他交互元素来实现。
本发明实施例中,根据虚拟人物的每种表情模式对模板语音命令数据进行数据截取,得到多个标准语音命令数据;分别对每个标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个标准语音命令数据的可信度分数;通过多层感知机分别对每个标准语音命令数据的可信度分数进行非线性变换,获得每个标准语音命令数据与对应表情模式的关联可信度分数;基于每个标准语音命令数据与对应表情模式的关联可信度分数,建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;通过方言数据库分别对每个邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个扩展感受野数据构建命令识别模型;采集用户语音命令数据,并基于命令识别模型对用户语音命令数据进行识别,获得表情模式流数据,并通过表情模式流数据对虚拟人物进行表情控制。在本申请方案中,通过迭代交叉验证和非线性变换,该方案可以提高语音命令识别的准确性。通过与每个标准语音命令数据的关联可信度分数,虚拟人物可以根据用户的语音命令和表情模式之间的关系来实现个性化的表情控制。采用多层感知机进行非线性变换有助于捕获复杂的语音特征和表情模式之间的关系,从而提高了可信度分数的准确性。能够更好地区分不同的语音命令和表情模式。标准化处理和扩展感受野的应用有助于提高数据的稳定性和特征提取的能力。这可以改善命令识别模型的性能,使其更适应不同的用户和语音环境。
在一具体实施例中,执行步骤S101的过程可以具体包括如下步骤:
(1)对虚拟人物的每种表情模式进行模式参数定义,得到每种表情模式的模式参数集合;
(2)分别对每种表情模式的模式参数集合进行数据格式转换,得到多个转换参数数据;
(3)对多个转换参数数据进行数据标识符构建,得到每个转换参数数据对应的数据标识符;
(4)通过每个转换参数数据对应的数据标识符,对模板语音命令数据进行数据截取,得到多个标准语音命令数据。
具体的,针对虚拟人物的每种表情模式,需要定义模式参数。这些模式参数通常是一组数值或属性,用来描述表情的特征和行为。例如,对于微笑表情,会定义模式参数,如嘴巴弯曲度、眼睛眯缝度和面部肌肉紧张度等。每个参数都用来表示特定表情模式的某个方面。对每种表情模式进行数据采集,以获得模式参数集合。这个过程可以通过使用传感器、面部捕捉技术或计算机视觉算法来实现。通过对实际表情的监测和测量,可以得到一组数字,这些数字构成了每种表情模式的模式参数集合。获得模式参数集合后,对这些数据进行格式转换,以确保它们与后续处理步骤兼容。数据格式转换可以包括将数据从原始采集格式转换为标准化格式,例如数值的标度化或归一化。这有助于确保不同表情模式的参数在后续处理中具有一致的尺度和范围。为了跟踪和管理每个模式参数集合,需要为它们构建唯一的数据标识符。数据标识符通常是独特的字符串或数字,可以用来标识特定的参数集合。这有助于组织和检索模式参数集合,以备后续使用。通过每个模式参数集合对应的数据标识符,可以将模板语音命令数据与相应的表情模式关联起来。对于每种表情模式,都可以使用与之相关联的数据标识符来截取对应的标准语音命令数据。这些标准语音命令数据将用于后续的模型训练和表情控制。例如,假设有两种表情模式:微笑和愤怒。为微笑模式定义了模式参数,包括嘴巴弯曲度、眼睛眯缝度和面部肌肉紧张度。同样,为愤怒模式也定义了相应的模式参数集合。通过使用面部捕捉技术,监测了不同用户表现出的微笑和愤怒表情,并将这些数据转换成数字格式,形成模式参数集合。这些集合包含了每个用户在微笑和愤怒表情中的模式参数数据。将这些参数数据标准化,并为每个数据集合构建唯一的数据标识符。最后,通过这些数据标识符,可以将模板语音命令数据与相应的表情模式关联起来。
在一具体实施例中,如图2所示,执行步骤S102的过程可以具体包括如下步骤:
S201、分别对每个标准语音命令数据进行数据折叠数量分析,得到每个标准语音命令数据的数据折叠数量;
S202、基于每个标准语音命令数据的数据折叠数量,分别对每个标准语音命令数据进行数据折叠,得到每个标准语音命令数据对应的多个分割数据;
S203、分别对每个标准语音命令数据进行循环迭代交叉验证,直至每个标准语音命令数据满足预设验证指标时,输出每个标准语音命令数据对应的性能指标数据;
S204、基于每个标准语音命令数据对应的性能指标数据,通过预置的目标分布随机邻域嵌入算法将每个标准语音命令数据映射至二维空间,获得每个标准语音命令数据的可信度分数。
具体的,针对每个标准语音命令数据,需要确定数据折叠的数量。数据折叠是指将数据集分成多个子集,用于交叉验证。这个数量通常根据可用数据量和验证需求来确定。例如,如果有100个标准语音命令数据,可以选择将其分成5个折叠,每个折叠包含20个数据点。将每个标准语音命令数据分别折叠成相应数量的子集。这些子集将在交叉验证中使用,以确保模型的训练和验证在不同的数据子集上进行。对每个标准语音命令数据进行循环迭代的交叉验证。这是一个迭代过程,其中每个折叠将轮流作为验证集,其余折叠用于训练模型。这个过程重复多次,确保每个标准语音命令数据都在不同的验证集中被测试。在每个迭代中,性能指标如准确率、召回率等将被计算。在每个交叉验证迭代结束后,可以计算每个标准语音命令数据的性能指标。这些指标可以用于评估模型的性能,例如,模型在识别特定命令时的准确度。如果性能未达到预设的验证指标,可以根据需要进行调整和改进模型。最后,使用预置的目标分布随机邻域嵌入算法。这个算法用于将高维性能指标数据映射到低维的二维空间,以获取每个标准语音命令数据的可信度分数。
在一具体实施例中,如图3所示,执行步骤S204的过程可以具体包括如下步骤:
S301、对每个标准语音命令数据对应的性能指标数据进行算法修正系数计算,得到目标算法修正系数;
S302、通过目标算法修正系数对预置的初始分布随机邻域嵌入算法进行算法系数修正,得到目标分布随机邻域嵌入算法;
S303、通过目标分布随机邻域嵌入算法对每个标准语音命令数据进行数据降维处理,得到降维命令数据集合,并获取降维命令数据集合对应的二维空间位置信息;
S304、基于二维空间位置信息,对降维命令数据集合进行可信度分数计算,得到每个标准语音命令数据对应的可信度分数。
具体的,对每个标准语音命令数据对应的性能指标数据进行算法修正系数计算。这些修正系数用于调整性能指标数据,以使它们更好地反映数据的特性和分布。修正系数的计算通常涉及统计学和数据分析方法,以确保性能指标在后续处理中具有更好的可用性和准确性。获得修正系数后,使用这些目标算法修正系数来对预置的初始分布随机邻域嵌入算法进行算法系数修正。这个修正过程的目的是调整嵌入算法,以更好地满足任务需求和数据特性。修正后的算法将用于接下来的数据降维和可信度分数计算。通过目标分布随机邻域嵌入算法,对每个标准语音命令数据进行数据降维处理。降维是将高维数据映射到低维空间的过程,以减少数据的复杂性和提高计算效率。在这个过程中,每个标准语音命令数据被映射到二维空间,以获取其在该空间中的位置信息。一旦完成数据降维,就可以获得降维命令数据集合对应的二维空间位置信息。这些信息反映了每个标准语音命令数据在降维空间中的位置,可以用于后续的可信度分数计算。最后,基于二维空间位置信息,对降维命令数据集合进行可信度分数计算。这个过程涉及使用预定义的方法来确定每个标准语音命令数据的可信度。可信度分数反映了数据点在降维空间中的相对重要性或可信度,可以用于决策和分类任务。
在一具体实施例中,如图4所示,执行步骤S304的过程可以具体包括如下步骤:
S401、通过二维空间位置信息,对降维命令数据集合进行数据点映射,得到多个数据点信息;
S402、对多个数据点信息进行相对位置计算,得到相对位置数据集合;
S403、通过相对位置数据集合对降维命令数据集合进行可信度分数计算,得到每个标准语音命令数据对应的可信度分数。
具体的,服务器收集了一组标准语音命令数据,每个命令对应一个虚拟人物的表情模式。服务器使用一种降维技术,将这些语音命令数据映射到一个平面上,类似于将它们放在一个二维地图上的不同点。这个地图上的每个点代表一个命令,有了二维坐标位置。服务器计算每对命令之间的相对位置,即它们在地图上的距离关系。例如,坐标点A和B之间的距离较短,而坐标点A和C之间的距离较长。最后,通过相对位置信息,服务器估计每个命令的可信度分数。例如,如果两个命令在地图上靠得很近,它们的可信度分数较高,因为它们在表情上更相似。如果两个命令在地图上相距较远,它们的可信度分数较低,因为它们在表情上差异较大。例如,如果用户发出了命令"笑",服务器查看它与其他命令之间的距离,然后为"笑"分配一个可信度分数。如果距离最近的是"笑"和"高兴",那么"笑"命令的可信度分数较高,因为它在地图上更接近"高兴",这意味着它们在表情上更相似。
在一具体实施例中,执行步骤S104的过程可以具体包括如下步骤:
(1)对每个标准语音命令数据与对应表情模式的关联可信度分数进行关联节点构建,得到每个标准语音命令数据对应的多个关联节点;
(2)对每个标准语音命令数据对应的多个关联节点进行节点权重计算,得到每个标准语音命令数据的节点权重集合;
(3)基于每个标准语音命令数据的节点权重集合,建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵。
具体的,为每个标准语音命令数据和对应的表情模式建立关联节点。这些关联节点代表了语音命令和表情模式之间的关联关系。将每个标准语音命令数据与其相关联的表情模式进行匹配。这可以基于先前的数据截取和处理,确保每个命令都与一个或多个表情模式关联。对于每个关联,创建一个节点,表示该语音命令与表情模式之间的关系。这些节点将构成一个关联网络。例如,如果有一个标准语音命令是“微笑”,它可以与表情模式“开心”和“愉快”建立关联节点。为了确定每个关联节点的重要性,需要为它们分配权重。这些权重反映了每个节点在语音命令与表情模式关联中的贡献度。节点权重计算可以考虑以下因素:语音命令的使用频率:如果某个语音命令被用户频繁使用,与之关联的节点具有较高的权重;用户反馈:根据用户的反馈和情感数据,可以调整节点的权重。用户反馈可以包括情感分析、用户满意度等信息;上下文信息:考虑语音命令的上下文信息,以确定节点的权重。例如,某些命令在特定情境下更重要。通过综合考虑这些因素,可以为每个关联节点分配相应的权重,形成节点权重集合。使用计算得到的节点权重集合,可以建立邻接矩阵。邻接矩阵是一个矩阵数据结构,用于表示关联节点之间的连接强度。在邻接矩阵中,每一行和每一列分别对应于关联节点,矩阵元素表示节点之间的连接权重。例如,如果存在两个关联节点,一个表示命令“微笑”与表情模式“开心”的关联,另一个表示命令“微笑”与表情模式“愉快”的关联,矩阵元素表示了命令“微笑”与不同表情模式之间的关联强度,数值表示节点权重。这个邻接矩阵将有助于虚拟人物在接收到特定命令时选择适当的表情模式。
在一具体实施例中,执行步骤S105的过程可以具体包括如下步骤:
(1)通过预置的方言数据库分别对每个邻接矩阵进行度矩阵计算,得到每个邻接矩阵对应的度矩阵;
(2)通过每个邻接矩阵对应的度矩阵,分别对每个邻接矩阵进行矩阵差值计算,得到每个邻接矩阵对应的拉普拉斯矩阵;
(3)对每个邻接矩阵对应的拉普拉斯矩阵进行逆矩阵计算,得到每个邻接矩阵对应的逆矩阵;
(4)分别对每个邻接矩阵对应的逆矩阵与每个邻接矩阵进行矩阵点积计算,得到多个标准化矩阵。
具体的,对于每个邻接矩阵,通过预置的方言数据库分别对每个邻接矩阵进行度矩阵计算,得到每个邻接矩阵对应的度矩阵。度矩阵是一个对角矩阵,其对角线元素表示每个节点的度(即与该节点相连的边的数量)。度矩阵的计算可以通过遍历邻接矩阵的每一行,并将该行的元素之和赋值给对应节点的度矩阵对角线元素。例如,如果邻接矩阵中的一行表示一个节点与其他节点的连接情况,该行的和即为该节点的度。在获得每个邻接矩阵对应的度矩阵后,可以计算相应的拉普拉斯矩阵。拉普拉斯矩阵通常有两种形式:未标准化的拉普拉斯矩阵和标准化的拉普拉斯矩阵。未标准化的拉普拉斯矩阵可以通过以下方式计算:计算拉普拉斯矩阵的度矩阵部分,即度矩阵。计算邻接矩阵与度矩阵的差,得到未标准化的拉普拉斯矩阵。标准化的拉普拉斯矩阵可以通过以下方式计算:计算度矩阵的逆矩阵的平方根。计算拉普拉斯矩阵的度矩阵部分,即度矩阵。计算度矩阵的逆矩阵的平方根与邻接矩阵的点积,得到标准化的拉普拉斯矩阵。对于每个邻接矩阵得到的拉普拉斯矩阵(无论是标准化还是未标准化的),可以进行逆矩阵的计算。逆矩阵是矩阵的倒数,可以通过矩阵运算库或线性代数库来计算。最后,可以将每个邻接矩阵的逆矩阵与原始邻接矩阵进行点积计算,得到标准化矩阵。标准化矩阵是将原始邻接矩阵进行了特定的变换,以便后续的数据处理和分析。
通过以上步骤,服务器得到多个标准化矩阵,每个矩阵都对应一个邻接矩阵,用于描述关联节点之间的连接关系。这些标准化矩阵可以在后续的数据分析和机器学习任务中使用,以更好地理解和利用节点之间的关联信息。
上面对本发明实施例中用于人机交互的虚拟人物表情控制方法进行了描述,下面对本发明实施例中用于人机交互的虚拟人物表情控制系统进行描述,请参阅图5,本发明实施例中用于人机交互的虚拟人物表情控制系统一个实施例包括:
截取模块501,用于根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
映射模块502,用于分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数;
变换模块503,用于通过预置的多层感知机分别对每个所述标准语音命令数据的可信度分数进行非线性变换,获得每个所述标准语音命令数据与对应表情模式的关联可信度分数;
建立模块504,用于基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
处理模块505,用于通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
卷积模块506,用于对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个所述扩展感受野数据构建命令识别模型;
识别模块507,用于采集用户语音命令数据,并基于所述命令识别模型对所述用户语音命令数据进行识别,获得表情模式流数据,并通过所述表情模式流数据对所述虚拟人物进行表情控制。
通过上述各个组成部分的协同合作,根据虚拟人物的每种表情模式对模板语音命令数据进行数据截取,得到多个标准语音命令数据;分别对每个标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个标准语音命令数据的可信度分数;通过多层感知机分别对每个标准语音命令数据的可信度分数进行非线性变换,获得每个标准语音命令数据与对应表情模式的关联可信度分数;基于每个标准语音命令数据与对应表情模式的关联可信度分数,建立每个标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;通过方言数据库分别对每个邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个扩展感受野数据构建命令识别模型;采集用户语音命令数据,并基于命令识别模型对用户语音命令数据进行识别,获得表情模式流数据,并通过表情模式流数据对虚拟人物进行表情控制。在本申请方案中,通过迭代交叉验证和非线性变换,该方案可以提高语音命令识别的准确性。通过与每个标准语音命令数据的关联可信度分数,虚拟人物可以根据用户的语音命令和表情模式之间的关系来实现个性化的表情控制。采用多层感知机进行非线性变换有助于捕获复杂的语音特征和表情模式之间的关系,从而提高了可信度分数的准确性。能够更好地区分不同的语音命令和表情模式。标准化处理和扩展感受野的应用有助于提高数据的稳定性和特征提取的能力。这可以改善命令识别模型的性能,使其更适应不同的用户和语音环境。
上面图5从模块化功能实体的角度对本发明实施例中的用于人机交互的虚拟人物表情控制系统进行详细描述,下面从硬件处理的角度对本发明实施例中用于人机交互的虚拟人物表情控制设备进行详细描述。
图6是本发明实施例提供的一种用于人机交互的虚拟人物表情控制设备的结构示意图,该用于人机交互的虚拟人物表情控制设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对用于人机交互的虚拟人物表情控制设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在用于人机交互的虚拟人物表情控制设备600上执行存储介质630中的一系列指令操作。
用于人机交互的虚拟人物表情控制设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如WindowsServe,MacOSX,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的用于人机交互的虚拟人物表情控制设备结构并不构成对用于人机交互的虚拟人物表情控制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种用于人机交互的虚拟人物表情控制设备,所述用于人机交互的虚拟人物表情控制设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述用于人机交互的虚拟人物表情控制方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述用于人机交互的虚拟人物表情控制方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或通过时,可以存储在一个计算机可读取存储介质中。基于的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(randomacceSmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种用于人机交互的虚拟人物表情控制方法,其特征在于,所述用于人机交互的虚拟人物表情控制方法包括:
根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数;具体包括:分别对每个所述标准语音命令数据进行数据折叠数量分析,得到每个所述标准语音命令数据的数据折叠数量;基于每个所述标准语音命令数据的数据折叠数量,分别对每个所述标准语音命令数据进行数据折叠,得到每个所述标准语音命令数据对应的多个分割数据;分别对每个所述标准语音命令数据进行循环迭代交叉验证,直至每个所述标准语音命令数据满足预设验证指标时,输出每个所述标准语音命令数据对应的性能指标数据;基于每个所述标准语音命令数据对应的性能指标数据,通过预置的目标分布随机邻域嵌入算法将每个所述标准语音命令数据映射至所述二维空间,获得每个所述标准语音命令数据的可信度分数;其中,对每个所述标准语音命令数据对应的性能指标数据进行算法修正系数计算,得到目标算法修正系数;通过所述目标算法修正系数对预置的初始分布随机邻域嵌入算法进行算法系数修正,得到目标分布随机邻域嵌入算法;通过所述目标分布随机邻域嵌入算法对每个所述标准语音命令数据进行数据降维处理,得到降维命令数据集合,并获取所述降维命令数据集合对应的二维空间位置信息;基于所述二维空间位置信息,对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数;其中,通过所述二维空间位置信息,对所述降维命令数据集合进行数据点映射,得到多个数据点信息;对多个所述数据点信息进行相对位置计算,得到相对位置数据集合;通过所述相对位置数据集合对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数;
通过预置的多层感知机分别对每个所述标准语音命令数据的可信度分数进行非线性变换,获得每个所述标准语音命令数据与对应表情模式的关联可信度分数;
基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个所述扩展感受野数据构建命令识别模型;
采集用户语音命令数据,并基于所述命令识别模型对所述用户语音命令数据进行识别,获得表情模式流数据,并通过所述表情模式流数据对所述虚拟人物进行表情控制。
2.根据权利要求1所述的用于人机交互的虚拟人物表情控制方法,其特征在于,所述根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据,包括:
对所述虚拟人物的每种表情模式进行模式参数定义,得到每种所述表情模式的模式参数集合;
分别对每种所述表情模式的模式参数集合进行数据格式转换,得到多个转换参数数据;
对多个所述转换参数数据进行数据标识符构建,得到每个所述转换参数数据对应的数据标识符;
通过每个所述转换参数数据对应的数据标识符,对所述模板语音命令数据进行数据截取,得到多个所述标准语音命令数据。
3.根据权利要求1所述的用于人机交互的虚拟人物表情控制方法,其特征在于,所述基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵,包括:
对每个所述标准语音命令数据与对应表情模式的关联可信度分数进行关联节点构建,得到每个所述标准语音命令数据对应的多个关联节点;
对每个所述标准语音命令数据对应的多个关联节点进行节点权重计算,得到每个所述标准语音命令数据的节点权重集合;
基于每个所述标准语音命令数据的节点权重集合,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵。
4.根据权利要求1所述的用于人机交互的虚拟人物表情控制方法,其特征在于,所述通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵,包括:
通过预置的方言数据库分别对每个所述邻接矩阵进行度矩阵计算,得到每个所述邻接矩阵对应的度矩阵;
通过每个所述邻接矩阵对应的度矩阵,分别对每个所述邻接矩阵进行矩阵差值计算,得到每个所述邻接矩阵对应的拉普拉斯矩阵;
对每个所述邻接矩阵对应的拉普拉斯矩阵进行逆矩阵计算,得到每个所述邻接矩阵对应的逆矩阵;
分别对每个所述邻接矩阵对应的逆矩阵与每个所述邻接矩阵进行矩阵点积计算,得到多个标准化矩阵。
5.一种用于人机交互的虚拟人物表情控制系统,其特征在于,所述用于人机交互的虚拟人物表情控制系统包括:
截取模块,用于根据预置的虚拟人物的每种表情模式对预置的模板语音命令数据进行数据截取,得到多个标准语音命令数据;
映射模块,用于分别对每个所述标准语音命令数据进行迭代交叉验证并映射至二维空间,获得每个所述标准语音命令数据的可信度分数;具体包括:分别对每个所述标准语音命令数据进行数据折叠数量分析,得到每个所述标准语音命令数据的数据折叠数量;基于每个所述标准语音命令数据的数据折叠数量,分别对每个所述标准语音命令数据进行数据折叠,得到每个所述标准语音命令数据对应的多个分割数据;分别对每个所述标准语音命令数据进行循环迭代交叉验证,直至每个所述标准语音命令数据满足预设验证指标时,输出每个所述标准语音命令数据对应的性能指标数据;基于每个所述标准语音命令数据对应的性能指标数据,通过预置的目标分布随机邻域嵌入算法将每个所述标准语音命令数据映射至所述二维空间,获得每个所述标准语音命令数据的可信度分数;其中,对每个所述标准语音命令数据对应的性能指标数据进行算法修正系数计算,得到目标算法修正系数;通过所述目标算法修正系数对预置的初始分布随机邻域嵌入算法进行算法系数修正,得到目标分布随机邻域嵌入算法;通过所述目标分布随机邻域嵌入算法对每个所述标准语音命令数据进行数据降维处理,得到降维命令数据集合,并获取所述降维命令数据集合对应的二维空间位置信息;基于所述二维空间位置信息,对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数;其中,通过所述二维空间位置信息,对所述降维命令数据集合进行数据点映射,得到多个数据点信息;对多个所述数据点信息进行相对位置计算,得到相对位置数据集合;通过所述相对位置数据集合对所述降维命令数据集合进行可信度分数计算,得到每个所述标准语音命令数据对应的可信度分数;
变换模块,用于通过预置的多层感知机分别对每个所述标准语音命令数据的可信度分数进行非线性变换,获得每个所述标准语音命令数据与对应表情模式的关联可信度分数;
建立模块,用于基于每个所述标准语音命令数据与对应表情模式的关联可信度分数,建立每个所述标准语音命令数据与对应表情模式的邻接矩阵,得到多个邻接矩阵;
处理模块,用于通过预置的方言数据库分别对每个所述邻接矩阵进行拉普拉斯标准化处理,得到多个标准化矩阵;
卷积模块,用于对多个标准化矩阵进行扩张卷积,得到多个扩展感受野数据,并基于多个所述扩展感受野数据构建命令识别模型;
识别模块,用于采集用户语音命令数据,并基于所述命令识别模型对所述用户语音命令数据进行识别,获得表情模式流数据,并通过所述表情模式流数据对所述虚拟人物进行表情控制。
6.一种用于人机交互的虚拟人物表情控制设备,其特征在于,所述用于人机交互的虚拟人物表情控制设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述用于人机交互的虚拟人物表情控制设备执行如权利要求1-4中任一项所述的用于人机交互的虚拟人物表情控制方法。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-4中任一项所述的用于人机交互的虚拟人物表情控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360473.8A CN117133277B (zh) | 2023-10-20 | 2023-10-20 | 用于人机交互的虚拟人物表情控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360473.8A CN117133277B (zh) | 2023-10-20 | 2023-10-20 | 用于人机交互的虚拟人物表情控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117133277A CN117133277A (zh) | 2023-11-28 |
CN117133277B true CN117133277B (zh) | 2024-01-05 |
Family
ID=88860326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311360473.8A Active CN117133277B (zh) | 2023-10-20 | 2023-10-20 | 用于人机交互的虚拟人物表情控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133277B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950592A (zh) * | 2020-07-10 | 2020-11-17 | 南京邮电大学 | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
CN112418166A (zh) * | 2020-12-10 | 2021-02-26 | 南京理工大学 | 一种基于多模态信息的情感分布学习方法 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN113853161A (zh) * | 2019-05-16 | 2021-12-28 | 托尼有限责任公司 | 用于识别和测量情感状态的系统和方法 |
CN114639374A (zh) * | 2021-12-08 | 2022-06-17 | 南京大学 | 一种实时语音驱动的照片级真实感人脸肖像视频生成方法 |
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593349B2 (en) * | 2016-06-16 | 2020-03-17 | The George Washington University | Emotional interaction apparatus |
-
2023
- 2023-10-20 CN CN202311360473.8A patent/CN117133277B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113853161A (zh) * | 2019-05-16 | 2021-12-28 | 托尼有限责任公司 | 用于识别和测量情感状态的系统和方法 |
CN111950592A (zh) * | 2020-07-10 | 2020-11-17 | 南京邮电大学 | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
CN112418166A (zh) * | 2020-12-10 | 2021-02-26 | 南京理工大学 | 一种基于多模态信息的情感分布学习方法 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN114639374A (zh) * | 2021-12-08 | 2022-06-17 | 南京大学 | 一种实时语音驱动的照片级真实感人脸肖像视频生成方法 |
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117133277A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027487B (zh) | 基于多卷积核残差网络的行为识别系统、方法、介质及设备 | |
Várkonyi-Kóczy et al. | Human–computer interaction for smart environment applications using fuzzy hand posture and gesture models | |
CN107273936B (zh) | 一种gan图像处理方法及系统 | |
CN109993102A (zh) | 相似人脸检索方法、装置及存储介质 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN111542841A (zh) | 一种内容识别的系统和方法 | |
US11514315B2 (en) | Deep neural network training method and apparatus, and computer device | |
CN111275780B (zh) | 人物图像的生成方法及装置 | |
CN104915009B (zh) | 手势预判的方法及系统 | |
KR102363879B1 (ko) | 환자의 상지 동작에 의해 도출되는 특징값을 이용한 임상평가척도 예측 방법 | |
CN107346207B (zh) | 一种基于隐马尔科夫模型的动态手势切分识别方法 | |
JP3896868B2 (ja) | パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置 | |
CN117133277B (zh) | 用于人机交互的虚拟人物表情控制方法及系统 | |
CN109992106B (zh) | 手势轨迹识别方法、电子设备及存储介质 | |
JPH08115408A (ja) | 手話認識装置 | |
JP2020160815A (ja) | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 | |
Jian et al. | Mobile terminal trajectory recognition based on improved LSTM model | |
CN109165586A (zh) | 用于ai芯片的智能图像处理方法 | |
CN114822562A (zh) | 声纹识别模型的训练方法、声纹识别方法及相关设备 | |
US20230086261A1 (en) | Clustering device, clustering method, and clustering program | |
JP4852086B2 (ja) | パターン認識装置 | |
JP7347750B2 (ja) | 照合装置、学習装置、方法、及びプログラム | |
CN113643283A (zh) | 一种人体衰老状况的检测方法、装置、设备及存储介质 | |
Farouk | Principal component pyramids using image blurring for nonlinearity reduction in hand shape recognition | |
CN112507940A (zh) | 一种基于差分指导表示学习网络的骨骼动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 701, 7th floor, and 801, 8th floor, Building 1, Courtyard 8, Gouzitou Street, Changping District, Beijing, 102200 Patentee after: Zhongying Nian Nian (Beijing) Technology Co.,Ltd. Country or region after: China Address before: No. 6304, Beijing shunhouyu Business Co., Ltd., No. 32, Wangfu street, Beiqijia Town, Changping District, Beijing 102200 Patentee before: China Film annual (Beijing) culture media Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |