CN113643703B

CN113643703B - 一种语音驱动虚拟人的口令理解方法

Info

Publication number: CN113643703B
Application number: CN202110903859.3A
Authority: CN
Inventors: 樊养余; 刘洋; 殷丽丽; 张新景; 何雯清; 粟晨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2024-02-27
Anticipated expiration: 2041-08-06
Also published as: CN113643703A

Abstract

本发明公开了一种语音驱动虚拟人的口令理解方法，包括：确定待理解口令文本；将待理解口令文本输入至口令理解模型中，得到口令理解模型输出的口令理解结果；口令理解模型包含词向量训练模块、词向量修正模块、余弦相似度计算模块三部分；词向量训练模块基于训练集采用D‑Skip‑Gram算法进行词向量学习，得到词向量空间；词向量修正模块基于虚拟人动作指令库建立语义约束条件，得到修正后的词向量空间；余弦相似度计算模块在修正后的词向量空间中计算余弦相似度，实现对口令文本的理解。本发明方法能将同一涵义不同语言表达的口令理解为同一个动作指令，使用户以自己的口语表达习惯来表示意图，有益于提升语音驱动虚拟人的用户体验感。

Description

一种语音驱动虚拟人的口令理解方法

技术领域

本发明属于虚拟现实技术领域，具体涉及一种虚拟人的口令理解方法。

背景技术

随着虚拟现实技术的发展，人们希望参与到观看到的VR场景中，目前较为普遍的VR场景交互方式为用户通过佩戴头盔以第一视角沉浸在VR场景中，然后利用操作手柄进行姿态变换、物体抓取等动作实现交互。但现有的这种交互方式建立在肢体动作或手动操作基础上，对于虚拟人的操作还不够简单，而通过语音控制方式直接驱动虚拟人动作，能简化虚拟人的操作过程，减少现实中的肢体交互动作，使得虚拟人物的控制方式更加自然、方便、灵活，也有益于用户接受。

实现语音驱动虚拟人，需将用户口令进行语音识别，并根据语音识别得到的文本理解出用户的意图，以便进一步的控制虚拟人做出相应的动作。由于人类语言具有多样性和复杂性，针对于一种意图的语言表达可能有多种形式，因此经过语音识别得到的文本表达也具有多样性，具体来讲，存在多种不同的语言表达最后是控制虚拟人执行同一个动作。而目前针对语音驱动虚拟人运动的研究中，大多是通过对固定口令进行语音识别，然后根据语音识别出的文本直接匹配虚拟人动作变量，从而实现虚拟人运动控制的，当用户想要虚拟人执行“抬头”动作，就必须要发出“抬头”的规定口令，当发出“抬起头”、“仰头”、“仰望”、“抬头看”、“看上面”、“往上看”等这些与“抬头”同一动作不同语言表达的口令时，虚拟人不能顺利执行“抬头”动作。虚拟现实强调沉浸感，若用户仅能以规定口令来控制虚拟人运动的话，将影响用户体验感和在VR场景的沉浸感。

发明内容

为了克服现有技术的不足，本发明提供了一种语音驱动虚拟人的口令理解方法，包括：确定待理解口令文本；将待理解口令文本输入至口令理解模型中，得到口令理解模型输出的口令理解结果；口令理解模型包含词向量训练模块、词向量修正模块、余弦相似度计算模块三部分；词向量训练模块基于训练集采用D-Skip-Gram算法进行词向量学习，得到词向量空间；词向量修正模块基于虚拟人动作指令库建立语义约束条件，得到修正后的词向量空间；余弦相似度计算模块在修正后的词向量空间中计算余弦相似度，实现对口令文本的理解。本发明方法能将同一涵义不同语言表达的口令理解为同一个动作指令，使用户以自己的口语表达习惯来表示意图，有益于提升语音驱动虚拟人的用户体验感。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：确定待理解口令文本；待理解口令文本即需要进行意图理解的文本，是对用户输入的口令进行语音识别得到的；

步骤2：将所述待理解口令文本输入至口令理解模型中，得到口令理解结果；其中，所述口令理解模型包括词向量训练模块、词向量修正模块和余弦相似度计算模块三部分；

步骤2-1：所述词向量训练模块对训练集采用D-Skip-Gram算法进行词向量学习，得到词向量空间；

步骤2-2：所述词向量修正模块基于虚拟人动作指令库建立语义约束条件，进而构造出词向量修正函数，对词向量进行修正，得到修正后的词向量空间；

步骤2-3：所述余弦相似度计算模块在修正后的词向量空间中，计算出与待理解口令文本词向量的余弦距离最近的词向量所对应的虚拟人动作指令，进而输出这一虚拟人动作指令，得到口令理解结果。

进一步地，所述步骤2-1中的训练集获取方法如下：

使用结巴分词器读取开源语料库文本，先采用精确模式进行分词，得到分词后的文本集，判断文本集中的词是否与停用词表匹配，若匹配则删除该词，若不匹配，则保留该词，直到将分词后的文本集中的每个词都遍历完，完成文本预处理操作，得到训练集V＝{w₁，w₂，w₃，…，w_t，…w_|V|}，w_t表示训练集的第t个词。

进一步地，所述D-Skip-Gram算法是在Skip-gram算法的模型基础上为每个词引入一个方向标签，结合词在上下文中的共现信息和方向信息共同学习词的向量表示，具体步骤为：

步骤2-1-1：计算给定词w_t时的上下文词w_t+i的出现概率p(w_t+i|w_t)：

式中，exp表示以e为底的指数函数；V表示训练集；是词w_t的词向量表示；当i＜0时，w_t+i表示词w_t的上文第i个词，当i＞0时，w_t+i表示词w_t的下文第i个词；/>是词w_t+i的词向量表示，/>是/>的转置矩阵；

步骤2-1-2：定义方向函数g(w_t+i，w_t)，用来度量上下文词与给定词之间的方向信息，计算公式为：

式中，表示上下文词w_t+i相对于给定词w_t的方向向量，/>是/>的转置矩阵；

步骤2-1-3：构造D-Skip-Gram算法的目标函数L_D-SG，计算公式为：

式中，L_D-SG表示D-Skip-Gram算法的目标函数，|V|表示训练集的词汇数；c是上下文词的窗口的大小；

步骤2-1-4：采用反向传播算法和随机梯度下降法更新D-Skip-Gram算法的目标函数L_D-SG的参数，使函数值L_D-SG最大化，更新范式为：

其中，分别是词w_t更新后和更新前的词向量；分别是w_t+i相对于w_t更新后和更新前的方向向量；η是学习率；D是w_t+i相对于w_t的方向标签，定义为：

当w_t+i位于w_i左侧时，D＝1，当w_t+i位于w_t右侧时，D＝0；

经过迭代后，得到词向量空间其中，下标N是词向量的个数，且N＝|V|，即与训练集的词数相等。

进一步地，所述基于虚拟人动作指令库建立语义约束条件，约束条件包括同义词约束集S和异义词约束集A，具体如下：

根据虚拟人动作指令库，从《同义词词林》和CSC中文语义词库中找出虚拟人动作指令的同义及近义表达，将虚拟人动作指令及其同义和近义表达两两搭配组成同义词约束集S，不同指令的各种表达方式两两搭配组成异义词约束集A；两个约束集中均以词对(w_p，w_q)的形式保存具有同义关系或异义关系的词。

进一步地，所述构造出词向量修正函数，对词向量进行修正，得到修正后的词向量空间的方法为：所述词向量修正函数包括同义词吸引子函数、异义词排斥子函数、词向量保持子函数，将步骤2-1训练出的词向量输入到词向量修正函数中，并采用随机梯度下降法最小化损失，得到修正后的词向量空间，具体步骤如下：

步骤2-2-1：基于同义词约束集S和余弦距离构造同义词吸引子函数计算公式为：

式中，是损失函数；(w_p，w_q)是同义词约束集S中的同义词词对；分别是词w_p，w_q修正后的词向量表示；/>表示/>的余弦距离；α表示同义词词向量间的理想最大距离；

步骤2-2-2：基于异义词约束集A和余弦距离构造异义词排斥子函数计一算公式为：

式中，(w_p，w_q)是异义词约束集A中的异义词词对；β表示异义词词向量间的理想最小距离；

步骤2-2-3：基于余弦距离构造词向量保持子函数计算公式为：

其中，是词w_t修正后的词向量表示；

步骤2-2-4：分配权值，结合同义词吸引子函数、异义词排斥子函数和词向量保持子函数构造出词向量修正函数，对词向量进行修正，计算公式为：

γ₁+γ₂+γ₃＝1 (11)

式中，表示词向量修正方法的目标函数，由三部分函数损失加权确定，γ₁、γ₂、γ₃是控制三部分子函数权重的参数；

采用随机梯度下降法对目标函数的最小值进行求解，迭代得到修正后的词向量空间

进一步地，所述步骤2-3具体包括：

获取输入的待理解口令文本在修正后的词向量空间中对应的词向量；计算待理解口令文本词向量与虚拟人动作指令库中的所有动作指令的词向量的余弦距离，选取余弦距离最接近1的词向量所对应的动作指令，并输出这一动作指令作为口令文本的理解结果。

进一步地，所述余弦距离定义为：

式中，n是词向量的维数；分别表示词向量/>的在第i个维度上的向量分量。

进一步地，所述c＝5，η＝0.025，α＝0，β＝1，γ₁＝0.33，γ₂＝0.33，γ₃＝0.34。

本发明的有益效果如下：

1、本发明基于Skip-Gram算法提出了一种带方向标签的D-Skip-Gram算法，能根据上下文信息和方向信息训练词向量，得到词向量空间；以虚拟人动作指令库为基础建立语义约束条件，构造词向量修正函数对词向量进行轻量级修正，进而得到修正后的词向量空间，解决了因同义词和反义词拥有相似的上下文信息而存在的词向量空间中反义词词向量比近义词词向量更接近的问题，使在修正后的词向量空间中，同义词的词向量互相靠近，异义词的词向量互相远离，进而有利于在修正后的词向量空间，通过计算余弦相似度实现对口令文本的理解。

2、本发明所提供的一种语音驱动虚拟人的口令理解方法，在修正后的词向量空间，通过词向量的相似度计算，得到口令文本的理解结果，能将具有同一涵义、不同语言表达的口令理解为同一个动作指令，使不同用户以自己的口语表达习惯来表示意图，进而语音控制虚拟人执行相关动作，这一方法克服规定口令控制规定动作的局限性，能进一步增强用户语音驱动虚拟人的体验感和在虚拟现实环境中的沉浸感。

附图说明

图1是本发明一种语音驱动虚拟人的口令理解方法的流程示意图。

图2是本发明口令理解模型的模块示意图。

图3是本发明中文本预处理的流程示意图。

图4是本发明中Skip-Gram算法的模型示意图。

图5是本发明中D-Skip-Gram算法的模型示意图。

图6是本发明中词向量修正的流程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明目的在于提供一种语音驱动虚拟人的口令理解方法，将具有同一涵义、不同语言表达的口令理解为同一个动作指令，使单一用户可以使用表示同一意图的多种口令来语音控制虚拟人执行同一个动作，或者使多个用户能以自己的口语表达习惯来表示意图，进而语音控制虚拟人执行相关动作，这一方法的应用将进一步增强用户的体验感和在虚拟现实环境中的沉浸感。

如图1所示，一种语音驱动虚拟人的口令理解方法，包括如下步骤：

步骤1：确定待理解口令文本；待理解口令文本即需要进行意图理解的文本，是对用户输入的口令进行语音识别得到的；例如用户发出口令“把门打开”，此处“把门打开”即为待理解口令文本；

步骤2：将所述待理解口令文本输入至口令理解模型中，得到口令理解结果；如图2所示，其中，所述口令理解模型包括词向量训练模块、词向量修正模块和余弦相似度计算模块三部分；

步骤2-1：所述词向量训练模块对训练集采用D-Skip-Gram算法进行词向量学习，得到词向量空间；其中，所述训练集是对中文语料库进行分词、去除停用词的文本预处理操作后生成的；所述D-Skip-Gram算法是在Skip-Gram算法基础上添加方向标签构造得到的，能通过学习上下文信息来用词向量的方式表征词的语义信息，进而使得语义上相似的词在词向量空间内距离接近；

步骤2-2：所述词向量修正模块基于虚拟人动作指令库建立语义约束条件，进而构造出词向量修正函数，对词向量进行轻量级修正，得到修正后的词向量空间；其中，所述虚拟人动作指令库是虚拟人可执行的交互动作的集合；所述语义约束条件包含虚拟人动作指令的同义词约束集和异义词约束集；所述词向量修正函数由同义词吸引子函数、异义词排斥子函数、词向量保持子函数三个子函数构成；所述词向量轻量级修正是通过所述词向量修正函数，对词向量进行修正，得到修正后的词向量空间；

进一步地，所述步骤2-1中的训练集获取方法如下：

如图3所示，对文本预处理，使用结巴分词器读取开源语料库文本，先采用精确模式进行分词，得到分词后的文本集，判断文本集中的词是否与停用词表匹配，若匹配则删除该词，若不匹配，则保留该词，直到将分词后的文本集中的每个词都遍历完，完成文本预处理操作，得到训练集V＝{w₁，w₂，w₃，…，w_t，…w_|V|}，w_t表示训练集的第t个词。

进一步地，所述D-Skip-Gram算法是在Skip-gram算法的模型基础上为每个词引入一个方向标签，结合词在上下文中的共现信息和方向信息共同学习词的向量表示；

图4是Skip-Gram算法的模型示意图，Skip-Gram算法是一个包括输入层、隐藏层和输出层的三层神经网络模型，其中，模型输入为词w_I，输出是w_I的上下文相邻词…，w_OI-2，w_OI-1，w_OI+1，w_OI+2，…，输出词个数由模型上下文词窗口大小决定；隐藏层的权重矩阵包含了训练集所有词汇的输出词向量，模型通过反向传播算法和随机梯度下降法来更新权重矩阵，训练词向量。

如图5所示，是本发明中D-Skip-Gram算法的模型示意图，D-Skip-Gram算法是在Skip-gram算法的模型基础上为每个词引入一个方向标签，结合词在上下文中的共现信息和方向信息共同学习词的向量表示，即D-Skip-Gram算法训练出的词向量将多一个维度来表示方向信息，这使词向量信息更丰富。

D-Skip-Gram算法的具体步骤为：

步骤2-1-3：构造D-Skip-Gram算法的目标函数L_D-SG，计算公式为：

式中，L_D-SG表示D-Skip-Gram算法的目标函数，|V|表示训练集的词汇数；c是上下文词的窗口的大小，本发明实施例设c＝5；

其中，分别是词w_t更新后和更新前的词向量；分别是w_t+i相对于w_t更新后和更新前的方向向量；η是学习率，本实施例初始学习率设为0.025；D是w_t+i相对于w_t的方向标签，定义为：

当w_t+i位于w_t左侧时，D＝1，当w_t+i位于w_t右侧时，D＝0；

本实施例经过5次迭代后，得到词向量空间其中，下标N是词向量的个数，且N＝|V|，即与训练集的词数相等。

所述虚拟人动作指令库是虚拟人可执行的交互动作的集合，根据虚拟人动作指令库，结合人们日常表达习惯从《同义词词林》和CSC中文语义词库中找出虚拟人动作指令的同义及近义表达，将虚拟人动作指令及其同义和近义表达两两搭配组成同义词约束集S，不同指令的各种表达方式两两搭配组成异义词约束集A；两个约束集中均以词对(w_p，w_q)的形式保存具有同义关系或异义关系的词。

进一步地，所述构造出词向量修正函数，对词向量进行修正，得到修正后的词向量空间的方法为：如图6所示，所述词向量修正函数包括同义词吸引子函数、异义词排斥子函数、词向量保持子函数，将步骤2-1训练出的词向量输入到词向量修正函数中，并采用随机梯度下降法最小化损失，得到修正后的词向量空间，具体步骤如下：

式中，是损失函数；(w_p，w_q)是同义词约束集S中的同义词词对；分别是词w_p，w_q修正后的词向量表示；/>表示/>的余弦距离；α表示同义词词向量间的理想最大距离，本实施例设为0，即同义约束的优化目标是同义词对的词向量相同。

步骤2-2-2：基于异义词约束集A和余弦距离构造异义词排斥子函数计算公式为：

式中，(w_p，w_q)是异义词约束集A中的异义词词对；β表示异义词词向量间的理想最小距离，本实施例设为1，即异义约束的优化目标是异义词对的词向量正交。

其中，是词w_t修正后的词向量表示；

γ₁+γ₂+γ₃＝1 (11)

式中，表示词向量修正方法的目标函数，由三部分函数损失加权确定，γ₁、γ₂、γ₃是控制三部分子函数权重的参数，本实施例设为γ₁＝0.33，γ₂＝0.33，γ₃＝0.34；

进一步地，所述步骤2-3具体包括：

进一步地，所述余弦距离定义为：

本发明实施例建立的虚拟人动作指令库包含42个虚拟人可执行的交互动作，如“打招呼”、“拥抱”、“跑步”、“抬头”、“低头”等。为突出本发明的优点，以42个动作指令为口令基础，补充虚拟人可执行动作的多种近义口语表达，如“打招呼”的近义表达“打招呼、打声招呼、打个招呼、问好”，“低头”的近义表达“俯首、垂头、看下面、看下边、往下看”等，最后组成了一个包含了256个虚拟人驱动口令的口令测试集，经过语音测试，采用本发明所提出的口令理解方法对于256个虚拟人驱动口令可以正确理解其中249个口令的意图信息，口令理解正确率可达到97.266％。这一方法的应用有益于用户使用多样化的口令来语音驱动虚拟人执行同一动作，更有益于不同用户以自己的口语表达习惯来表示意图，进而语音驱动虚拟人执行相关动作。

Claims

1.一种语音驱动虚拟人的口令理解方法，其特征在于，包括以下步骤：

使用结巴分词器读取开源语料库文本，先采用精确模式进行分词，得到分词后的文本集，判断文本集中的词是否与停用词表匹配，若匹配则删除该词，若不匹配，则保留该词，直到将分词后的文本集中的每个词都遍历完，完成文本预处理操作，得到训练集V＝{w₁,w₂,w₃,…,w_t,…w_|V|}，w_t表示训练集的第t个词；

所述D-Skip-Gram算法是在Skip-gram算法的模型基础上为每个词引入一个方向标签，结合词在上下文中的共现信息和方向信息共同学习词的向量表示，具体步骤为：

式中，exp表示以e为底的指数函数；V表示训练集；是词w_t的词向量表示；当i<0时，w_t+i表示词w_t的上文第i个词，当i>0时，w_t+i表示词w_t的下文第i个词；/>是词w_t+i的词向量表示，/>是/>的转置矩阵；

步骤2-1-2：定义方向函数g(w_t+i,w_t)，用来度量上下文词与给定词之间的方向信息，计算公式为：

步骤2-1-3：构造D-Skip-Gram算法的目标函数L_D-SG，计算公式为：

其中，分别是词w_t更新后和更新前的词向量；/>分别是w_t+i相对于w_t更新后和更新前的方向向量；η是学习率；D是w_t+i相对于w_t的方向标签，定义为：

当w_t+i位于w_t左侧时，D＝1，当w_t+i位于w_t右侧时，D＝0；

经过迭代后，得到词向量空间其中，下标N是词向量的个数，且N＝|V|，即与训练集的词数相等；

所述构造出词向量修正函数，对词向量进行修正，得到修正后的词向量空间的方法为：所述词向量修正函数包括同义词吸引子函数、异义词排斥子函数、词向量保持子函数，将步骤2-1训练出的词向量输入到词向量修正函数中，并采用随机梯度下降法最小化损失，得到修正后的词向量空间，具体步骤如下：

式中，是损失函数；(w_p,w_q)是同义词约束集S中的同义词词对；分别是词w_p,w_q修正后的词向量表示；/>表示/>的余弦距离；α表示同义词词向量间的理想最大距离；

式中，(w_p,w_q)是异义词约束集A中的异义词词对；β表示异义词词向量间的理想最小距离；

其中，是词w_t修正后的词向量表示；

γ₁+γ₂+γ₃＝1 (11)

2.根据权利要求1所述的一种语音驱动虚拟人的口令理解方法，其特征在于，所述步骤2-3具体包括：

3.根据权利要求2所述的一种语音驱动虚拟人的口令理解方法，其特征在于，所述余弦距离定义为：

4.根据权利要求3所述的一种语音驱动虚拟人的口令理解方法，其特征在于，所述c＝5，η＝0.025，α＝0，β＝1，γ₁＝0.33，γ₂＝0.33，γ₃＝0.34。