CN111091810A

CN111091810A - 基于语音信息的vr游戏人物表情控制方法及存储介质

Info

Publication number: CN111091810A
Application number: CN201911316446.4A
Authority: CN
Inventors: 曹明亮; 谢天华
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-01

Abstract

本发明涉及基于语音信息的VR游戏人物表情控制方法，包括：步骤101、获取用户的测试请求信息，在取得用户的测试请求信息后，显示词条库列表供用户挑选其中的一条词条信息并提示用户进行朗读；步骤102、获取用户的朗读时长T、用户朗读的音量B，并对用户朗读的词条进行语音识别；步骤103、根据语音识别的结果结合朗读时长评判规则以及朗读音量评判规则得出用户的情感意向；步骤104、根据得出的情感意向结果控制VR游戏人物做出相应的表情。本发明能够通过用户的朗读来对用户朗读的词条进行识别，并根据识别的结果以及用户朗读的音量以及语速预测用户的情感意向，并根据预测的结果对VR游戏人物的表情进行控制，计算相对简单且具有一定的趣味性。

Description

基于语音信息的VR游戏人物表情控制方法及存储介质

技术领域

本发明涉及VR领域，尤其涉及基于语音信息的VR游戏人物表情控制方法及存储介质。

背景技术

在VR游戏中，虚拟环境提供了一种很好的沉浸式情感诱发材料，在现有的情感诱发系统中，主要的诱发材料有情感图片、语音、视频及音乐。在情感评估领域，情感诱发的方式为被动式诱发，即通过观看情感诱发材料来诱发对应的情感。

当今市场在对VR游戏人物的控制时，虽然也存在通过预测用户的自身情感来对游戏人物的表情进行同步控制，但是这种计算往往十分复杂，需要通过对用户的多个生理信息进行整合计算，计算量十分大，当今市场需要一种较为简单的通过预测用户的自身情感对VR游戏人物进行控制的方法。

发明内容

本发明的目的是解决现有技术的不足，提供基于语音信息的VR游戏人物表情控制方法及存储介质，能够通过用户的朗读来对用户朗读的词条进行识别，并根据识别的结果以及用户朗读的音量以及语速对用户的情感意向进行预测，并根据预测的结果对VR游戏人物的表情进行控制，计算相对简单且具有一定的趣味性。

为了实现上述目的，本发明采用以下的技术方案：

提出一种基于生理信息的情感评估系统，包括以下：

步骤101、获取用户的测试请求信息，在取得用户的测试请求信息后，显示词条库列表供用户挑选其中的一条词条信息并提示用户进行朗读；

步骤102、获取用户的朗读时长T、用户朗读的音量B，并对用户朗读的词条进行语音识别；

步骤103、根据语音识别的结果结合朗读时长评判规则以及朗读音量评判规则得出用户的情感意向；

步骤104、根据得出的情感意向结果控制VR游戏人物做出相应的表情。

进一步，上述步骤102中的对用户朗读的词条进行语音识别的操作具体包括以下：

步骤201、对用户朗读的语音信息进行预处理操作得到第一语音信息；

步骤202、对所述第一语音信息进行特征提取后进行语音识别。

进一步，上述步骤201中的对用户朗读的词条进行预处理操作具体包括以下：

步骤301、对用户的语音信息进行预加重处理得到中间语音信息，所述预加重具体为如下关系式，

B_n＝A_n-a*A_n-1，

其中B_n代表中间语音信息，A_n代表用户的语音信息，a为常数，a的取值范围为[0.90，1.00]；

步骤302、对中间语音信息进行加窗处理得到第一语音信息，所述加窗具体为如下关系式，

C_n＝B_n*W(n)，

其中C_n代表第一语音信号，W(n)为窗函数，W(n)具体为

步骤303、通过短时能量的形式对第一语音信息进行端点检测区分清音段与浊音段。

进一步，上述步骤202中的对第一语音信息进行特征提取的具体方式包括以下：

步骤401、将第一语音信息经过傅立叶变换得到每个语音帧的时域信号c(n)；

步骤402、将时域信号c(n)进行末位补0的形式形成程度为N的序列，通过离散傅立叶变换得到该序列的线性频谱X(k)，具体转换形式为：

步骤403、将线性频谱X(k)通过MEL频率滤波器组得到MEL频谱，对MEL频谱通过对数能量的处理得到对数频谱Q(m)，

其中MEL频率滤波器组包括不少于2个带通滤波器，每个带通滤波器的传递函数为：

其中0≤m≤M，M为滤波器的个数，而

当中的f_h以及f_l分别表示滤波器的频率的最高应用以及最低应用的情况，F_s为采样频率，N为进行离散傅立叶变换的窗函数的窗宽，而

x表示自变量；

相应的，

步骤404、将对数频谱Q(m)经过离散余弦变换得到MFCC系数d(n)为：

进一步，上述步骤103中的情感意向的得出具体包括以下：

步骤501、根据语音识别的结果结合语句预置分数得到第一分数；

步骤502、根据用户的朗读时长T，划分时长得分段，判断用户的朗读时长T落在对应得分段的区间得到第二分数；

步骤503、根据用户的朗读音量B，划分音量得分段，判断用户的朗读音量落在对应得分段的区间得到第三分数；

步骤504、计算第一分数、第二分数以及第三分数的总和，划分总和得分段，每一个得分段对应一种情感状态，判断用户的得分总和所属的得分段得到用户的情感状态。

进一步，上述步骤501中的语句预置分数通过以下方法得到：

在收录相关语句时，根据语句的语意评估得到语句的预置分数，并与所述语句共同形成数据库表格，当语音识别得到语句时，通过查表的方式得到该语句的预置分数。

还提出了一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。

本发明的有益效果为：

本发明能够以用户读词条的趣味游戏方式来获取用户的情感状态，通过对用户所读词条进行语音识别，结合用户的语速以及音量来对用户的情感状态进行判断。

附图说明

图1所示为本发明基于语音信息的VR游戏人物表情控制方法流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

参照图1，包括以下：

作为本发明的优选实施方式，上述步骤102中的对用户朗读的词条进行语音识别的操作具体包括以下：

作为本发明的优选实施方式，上述步骤201中的对用户朗读的词条进行预处理操作具体包括以下：

B_n＝A_n-a*A_n-1，

C_n＝B_n*W(n)，

其中C_n代表第一语音信号，W(n)为窗函数，W(n)具体为

作为本发明的优选实施方式，上述步骤202中的对第一语音信息进行特征提取的具体方式包括以下：

其中0≤m≤M，M为滤波器的个数，而

x表示自变量；

相应的，

作为本发明的优选实施方式，上述步骤103中的情感意向的得出具体包括以下：

步骤504、计算第一分数、第二分数以及第三分数的总和，划分总和得分段，每一个得分段对应一种情感状态，判断用户的得分总和所属的得分段得到用户的情感意向。

具体的，在实施时，收录的语句均为10字语句，并且根据收录语句的心情愉悦程度划分为5个等级分别为1-5分，而用户的朗读时长T由5-10秒均等的划分为5个等级，分别为5-1分，超过10秒的记为10秒，低于5秒的记为5秒，朗读音量B由40-80分贝均等的划分为5个等级，分别1-5分，低于40分贝的记为40分贝，高于80分贝的记为80分贝，而最终得分的区间则为3-15分，其中3-6分对应沮丧表情，6-9分对应自然表情，9-12分对应开心表情，12-15分对应激动表情。

作为本发明的优选实施方式，上述步骤501中的语句预置分数通过以下方法得到：

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。