CN107773982A

CN107773982A - 游戏语音交互方法及装置

Info

Publication number: CN107773982A
Application number: CN201710986387.6A
Authority: CN
Inventors: 梅林海; 陈志刚; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: Beijing Xunfei Jizhi Technology Co ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2018-03-09
Anticipated expiration: 2037-10-20
Also published as: CN107773982B

Abstract

本发明实施例提供一种游戏语音交互方法及装置，属于语音识别领域。该方法包括：获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量；基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。由于游戏玩家通过语音输入的方式，除了实现与其它游戏玩家之间互相沟通之外，还可实现对其对应的游戏角色进行操控，从而在便捷游戏玩家操控的同时，拓展了游戏中语音交互的功能，进而在整体层面上提升了游戏玩家的体验。

Description

游戏语音交互方法及装置

技术领域

本发明实施例涉及语音识别领域，更具体地，涉及一种游戏语音交互方法及装置。

背景技术

目前在网络游戏中，游戏玩家通常需要与其它玩家进行互动，如通过键盘或者游戏手柄等输入设备，与其它游戏玩家进行文字聊天或者其它类型的交互。而随着语音识别技术的逐渐兴起，在游戏中进行语音交互成为游戏玩家越来越青睐的互动方式。相关技术中在进行游戏语音交互时，通常是获取游戏玩家的语音数据，并将该游戏玩家的语音数据直接转发给其它游戏玩家，并直接播放给其它游戏玩家或者转化为文本显示给其它游戏玩家。由于游戏语音交互过程仅限于语音数据的转发播放或转发显示，从而游戏语音交互的功能比较局限。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的游戏语音交互及装置。

根据本发明实施例的第一方面，提供了一种游戏语音交互方法，该方法包括：

获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；

基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

本发明实施例提供的方法，通过获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量。基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式，除了实现与其它游戏玩家之间互相沟通之外，还可实现对其对应的游戏角色进行操控，从而在便捷游戏玩家操控的同时，拓展了游戏中语音交互的功能，进而在整体层面上提升了游戏玩家的体验。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，该方法还包括：

对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，提取播放时间段内的语音数据对应的声学特征；和/或，

对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征；

相应地，基于每一文本向量，生成特征矩阵，包括：

基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征，包括：

从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。

结合第一方面的第二种可能的实现方式，在第四种可能的实现方式中，基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵，包括：

将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接，得到对应的行向量；

将得到的所有行向量进行纵向拼接，得到对应的特征矩阵。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令之后，还包括：

若操作指令为游戏指令，则根据操作指令操控游戏角色，若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，则确定游戏玩家待沟通的目标游戏玩家，并将语音数据转发至目标游戏玩家。

结合第一方面的第一种可能的实现方式，在第六种可能的实现方式中，将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令之前，还包括：

获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据，并获取每一训练语音数据对应的训练文本向量；

基于每一训练文本向量对预设分类模型进行训练，以得到指令识别模型。

结合第一方面的第二种可能的实现方式，在第七种可能的实现方式中，将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令之前，还包括：

获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征；

基于每一训练文本向量，以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练，以得到指令识别模型。

根据本发明实施例的第二方面，提供了一种游戏语音交互装置，该装置包括：

转化模块，用于获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；

指令识别模块，用于基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，该装置还包括：

提取模块，用于对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，提取播放时间段内的语音数据对应的声学特征；和/或，

获取模块，用于对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征；

相应地，指令识别模块，还用于基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，获取模块，用于从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。

根据本发明实施例的第三方面，提供了一种游戏语音交互设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的游戏语音交互方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的游戏语音交互方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种游戏语音交互方法的流程示意图；

图2为本发明实施例的一种游戏语音交互系统的结构示意图；

图3为本发明实施例的一种游戏语音交互装置的框图；

图4为本发明实施例的一种游戏语音交互设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

目前语音识别技术逐渐融入到游戏领域中，游戏玩家通常通过语音交互实现与其它游戏玩家之间的互动，如何基于语音识别技术提高游戏体验逐渐成为人们关注的问题。

针对上述情形，本发明实施例提供了一种游戏语音交互方法。该方法可应用于带有语音采集功能的终端或系统，本发明实施例对此不作具体限定。参见图1，该方法包括：101、获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；102、基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

在执行上述步骤101之前，可先通过音频采集模块实时采集语音数据。相应地，游戏玩家可通过音频采集模块实现语音输入。在采集到语音数据后，可将语音数据送至语音识别模块以对语音数据进行识别，并转化得到相应的文本数据，本发明实施例对此不作具体限定。在获取语音数据对应的文本数据后，可将文本数据转化为文本向量，也即将自然语言符号化，变为计算机可识别的数据。其中，文本向量可以为字向量或词向量。相应地，在将文本数据转化为文本向量时，若需将文本数据转化为字向量，则可先将文本数据拆分成一个个字(文本元素)，再将拆分得到的一个个字转化为字向量。若需将文本数据转化为词向量，则可先将文本数据拆分成一个个词(文本元素)，再将拆分得到的一个个词转化为词向量。其中，文本向量可以均为行向量，行向量的列数(也即维数)可根据需求设置，如采用128维，本发明实施例对此不作具体限定。

通过上述过程在得到文本向量后，为了便于后续通过指令识别模型识别出语音数据对应的操作指令，可先基于每一文本向量，生成特征矩阵。具体地，由于每一文本向量均为行向量，从而可将每一文本向量进行纵向拼接，即可得到特征矩阵。其中，特征矩阵的列数即为文本向量的维度，特征矩阵的行数即为文本向量的个数。

在生成特征矩阵后，可将特征矩阵输入至指令识别模型，以输出语音数据的操作指令。其中，指令识别模型为预先训练得到，通过指令识别模型即可确定游戏玩家在输入语音数据时，是想要操控其对应的游戏角色行动，还是想要与其它游戏玩家沟通。相应地，操作指令可以为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

基于上述实施例中的内容，若仅将文本向量作为输入量，通过指令识别模型识别语音数据对应的操作指令，可能会存在识别不够精准的问题。例如，若游戏玩家输入的语音数据为“前进”，单从字面上理解，可以理解为该游戏玩家是想要其操控的游戏角色前进，也可以理解为该游戏玩家是想要其队友(其它游戏玩家)前进。基于上述情形，除了提取文本向量以作为识别特征之外，作为一种可选实施例，本发明还提供了一种特征提取方法，包括但不限于：对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，提取播放时间段内的语音数据对应的声学特征；和/或，

对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征。

在提取到上述两种特征后，可同样作为指令识别模型的输入量。相应地，本发明实施例还提供了一种生成特征矩阵的方法，包括但不限于：基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵。

其中，声学特征可以为感知线性预测(Perceptual Linear Predictive，PLP)特征和/或Pitch基音周期特征，本发明实施例对此不作具体限定。声学特征主要用于表示游戏玩家在输入语音数据时的情感表现，如游戏玩家在输入语音数据时可能会是感叹语气、还可能是疑问语气，通过声学特征即可捕捉游戏玩家说话时的情感。

场景特征可用于描述游戏玩家操控的游戏角色在游戏场景中的状态，本发明实施例对此不作具体限定。需要说明的是，由于游戏场景中游戏玩家操控的游戏角色是不断在行动的，也即游戏角色在游戏场景中的状态也在不断变化，从而在获取游戏角色所处游戏场景的场景特征时，可按照游戏玩家输入语音数据时的时间段来实时获取，也即按照每一文本元素在语音数据中的播放时间段，获取游戏角色在该播放时间段内所处游戏场景的场景特征。其中，游戏场景可以为具体的游戏地图，也可以为游戏地图中的某一地形区域等，本发明实施例对此不作具体限定。

通过提取到的声学特征和/或场景特征，可更精准地识别出游戏玩家输入的语音数据其对应的含义。例如，若游戏玩家输入的语音数据是“前进”，而此时该游戏玩家操控的游戏角色周围没有其它游戏角色(场景特征)，从而可基本确定游戏玩家输入的语音数据是想要操控游戏角色行动，而非与其它游戏玩家沟通。再例如，通过提取到的声学特征，若确定游戏玩家在输入语音数据时说话的语气是疑问语气，由于游戏玩家若需要操控游戏角色行动，通常并不会输入疑问句，从而可基本确定游戏玩家输入的语音数据是想要与其它游戏玩家沟通，而非操控游戏角色行动。

本发明实施例提供的方法，通过提取每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵，从而后续将包含场景特征和/或声学特征的特征矩阵作为指令识别模型的输入量，以输出语音数据对应的操作指令。由于基于场景特征兼顾了游戏场景中游戏角色的状态，基于声学特征兼顾了游戏玩家输入语音数据时的情感表现，从而能够更精准地识别出游戏玩家的操作需求。

基于上述实施例中的内容，由于如何提取场景特征决定了后续识别精准度的高低，从而作为一种可选实施例，本发明实施例还提供了一种提取场景特征的方法，包括但不限于：从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。

在上述提取过程中，主要是将游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于上述数据都是瞬时的，而任一文本元素在语音数据中的播放时间段是一段时间，从而可以先从播放时间段内选取任意时刻作为目标时刻，并提取目标时刻下的上述数据。

其中，当游戏场景为地图时，游戏场景的场景标识可以为地图标识，本发明实施例对此不作具体限定。其它游戏角色可以为其它游戏玩家在游戏中操控的游戏角色，还可以为非游戏玩家控制角色等，本发明实施例对此不作具体限定。另外，游戏角色与其它游戏角色之间的距离可以为欧式距离，在获取两者间的距离时可根据两者的坐标来获取。

以游戏场景为地图为例，游戏玩家控制的游戏角色坐标通常使用地图X-Y坐标来表示。其中，原点为地图左上角，X为基于游戏地图的横坐标，Y为基于游戏地图的纵坐标。游戏角色与其它游戏角色的具体坐标值可由系统直接获取到。例如，游戏角色A坐标为(xa，ya)，游戏角色B坐标为(xb，yb)，则游戏角色A与游戏角色B之间的欧式距离为：

另外，游戏角色与其它游戏角色之间的互动状态，可以包括攻击状态或被攻击状态。当然，互动状态还可以包括交易状态、等待状态等，本发明实施例对此不作具体限定。游戏角色的互动状态可通过游戏引擎直接获取，互动状态可以用布尔值1或0来表示，如对于游戏角色是否被攻击，1表示该游戏角色正在被攻击，0表示该游戏角色未被攻击。基于上述内容，游戏角色所处游戏场景的场景特征可如下表1所示：

表1

本发明实施例提供的方法，通过从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于游戏玩家在输入语音数据时，通常需要依据游戏场景中其操控的游戏角色与其它游戏角色之间的互动情况，从而将上述数据作为场景特征，在一定程度上能够反映游戏玩家输入语音数据的操作意图，进而后续可基于场景特征更精准地识别出游戏玩家的操作需求。

基于上述实施例的内容，本发明实施例不对基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵的方式作具体限定，包括但不限于：

将得到的所有行向量进行纵向拼接，得到对应的特征矩阵。

例如，以文本数据为“都往前上，前进”为例。若拆分成的文本元素为字，则可以拆分为“都”、“往”、“前”、“上”、“前”、“进”。相应地，字向量依次为E1、E2、E3、E4、E5、E6。PLP特征依次为PLP1、PLP2、PLP3、PLP4、PLP5、PLP6。Pitch特征依次为Pitch1、Pitch2、Pitch3、Pitch4、Pitch5、Pitch6。场景特征依次为Sceneinfo1、Sceneinfo2、Sceneinfo3、Sceneinfo4、Sceneinfo5、Sceneinfo6。

将文本元素“都”对应的字向量“E1”、PLP特征“PLP1”、Pitch特征“Pitch1”，场景特征“Sceneinfo1”进行横向拼接，可得到一个行向量。按照相同的方式对剩下的五组数据进行横向拼接，可得到五个行向量。将上述6个行向量进行纵向拼接，即可得到对应的特征矩阵。如下表2所示：

表2

都	E1	PLP1	Pitch1	Sceneinfo1
					往	E2	PLP2	Pitch2	Sceneinfo2
前	E3	PLP3	Pitch3	Sceneinfo3
					上	E4	PLP4	Pitch4	Sceneinfo4
前	E5	PLP5	Pitch5	Sceneinfo5
					进	E6	PLP6	Pitch6	Sceneinfo6

需要说明的是，上述PLP特征的维度可以为39维，Pitch特征的维度可以为1维，字向量的维度可以为128维。由上表1可知，场景特征同样可以采用行向量表示，对应的维度可以为10维，本发明实施例对此不作具体限定。在得到上述特征矩阵后，可将该特征矩阵输入至指令识别模型中，输出语音数据对应的操作指令。

基于上述实施例的内容，在输出语音数据对应的操作指令后，可根据操作指令实现对应的语音操作。作为一种可选实施例，本发明实施例还提供了一种通过操作指令实现不同语音操作的方法，包括但不限于：若操作指令为游戏指令，则根据操作指令操控游戏角色，若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，则确定游戏玩家待沟通的目标游戏玩家，并将语音数据转发至目标游戏玩家。

其中，游戏指令可以为用于控制游戏角色前进的前进指令、用于控制游戏角色后退的后退指令，用于控制游戏角色释放技能的技能释放指令等，本发明实施例不对游戏指令的类型作具体限定。通过上述指令识别模型的输入及输出过程，可直接得到游戏指令的具体类型，并按照游戏指令的具体类型操控游戏角色行动。对于游戏指令之外的非游戏指令，可进一步判断语音数据是否为游戏玩家之间的语音沟通数据，如果是的话，则可先确定与游戏玩家当前正在互动的其它游戏玩家，并作为游戏玩家待沟通的目标游戏玩家，从而将语音数据转发至该目标游戏玩家。

本发明实施例提供的方法，通过在操作指令为游戏指令时，根据操作指令操控游戏角色。若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，则确定游戏玩家待沟通的目标游戏玩家，并将语音数据转发至目标游戏玩家。由于游戏玩家通过语音输入的方式，除了实现与其它游戏玩家之间互相沟通之外，还可实现对其对应的游戏角色进行操控，从而在便捷游戏玩家操控的同时，拓展了游戏中语音交互的功能，进而在整体层面上提升了游戏玩家的体验。

基于上述实施例的内容，若特征矩阵中仅包含文本向量，作为一种可选实施例，本发明实施例还提供了一种对应的指令识别模型训练方法，包括但不限于：获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据，并获取每一训练语音数据对应的训练文本向量；基于每一训练文本向量对预设分类模型进行训练，以得到指令识别模型。

其中，预设分类模型可以为卷积神经网络模型CNN，支持向量机模型SVM等，本发明实施例对此不作具体限定。具体训练时，可先标注每一训练语音数据的游戏指令类型。例如，对于任一训练语音数据，可先标注该训练语音数据是前进指令、还是后退指令、还是技能释放指令，还是除上述游戏指令之外的非游戏指令。在确定每一训练语音数据的游戏指令类型后，可根据每一训练语音数据对应的训练文本向量及游戏指令类型，对预设分类模型进行训练，以得到指令识别模型。

另外，在获取训练语音数据对应的训练文本向量时，可参考上述实施例中获取文本向量的过程，此处不再赘述。需要说明的是，由上述实施例的内容可知，在通过指令识别模型输出语音数据对应的操作指令时，可先基于每一文本向量，生成特征矩阵，从而本发明实施例在对预设分类模型进行训练之前，也可先基于每一训练文本向量，生成训练特征矩阵，从而根据训练特征矩阵对预设分类模型进行训练。

基于上述实施例的内容，若特征矩阵中包含文本向量，以及文本向量对应的声学特征和/或场景特征，作为一种可选实施例，本发明实施例还提供了一种对应的指令识别模型训练方法，包括但不限于：获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据，并获取每一训练语音数据对应的训练文本向量；获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征；基于每一训练文本向量，以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练，以得到指令识别模型。

其中，在获取训练语音数据对应的训练文本向量、训练文本向量的声学特征和/或训练文本向量对应的场景特征时，可参考上述实施例中的内容，此处不再赘述。需要说明的是，由上述实施例的内容可知，在通过指令识别模型输出语音数据对应的操作指令时，可先基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵，从而本发明实施例在对预设分类模型进行训练之前，也可先基于每一训练文本向量，以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征，生成训练特征矩阵，从而根据训练特征矩阵对预设分类模型进行训练。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例还提供了一种带有语音采集功能的游戏语音交互系统，该游戏语音交互系统可用于执行上述任意方法实施例所提供的游戏语音交互方法。参见图2，该系统包括：硬件输入模块、音频采集模块、语音活动检测(Voice ActivityDetection，VAD)模块、特征提取模块、语音识别模块、指令识别模块及数据传输模块。

其中，硬件输入模块与音频采集模块均可作为外界输入模块。硬件输入模块可以为传统的游戏输入设备，如键盘、游戏手柄等。音频采集模块可以为音频采集设备，如麦克风、头戴式耳机等。而VAD模块、特征提取模块、语音识别模块、指令识别模块及数据传输模块可集成在一个芯片中，本发明实施例对此不作具体限定。

VAD模块可以通过VAD检测，将语音数据分段，得到语音有效活动帧数据。

语音识别模块可以用于将语音数据转换为文本数据。

特征提取模块可以用于提取语音数据或游戏角色相关的特征，可包括上述实施例中的文本向量、以及文本向量对应的声学特征和/或场景特征。

指令识别模块可用于根据特征提取模块提取到的特征，识别语音数据对应的操作指令，即执行上述实施例中指令识别模型的功能。其中，操作指令可以为游戏指令或非游戏指令。

数据传输模块可用于当操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，将语音数据或者语音数据识别后的文本数据转发至目标游戏玩家。

基于上述实施例的内容，本发明实施例提供了一种游戏语音交互装置，该游戏语音交互装置用于执行上述方法实施例中的游戏语音交互方法。参见图3，该装置包括：

转化模块301，用于获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；

指令识别模块302，用于基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

作为一种可选实施例，该装置还包括：

第一获取模块，用于对于任一文本元素，基于任一文本元素在语音数据中的播放时间段，获取游戏玩家对应的游戏角色在播放时间段内所处游戏场景的场景特征；

相应地，指令识别模块302，还用于基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵。

作为一种可选实施例，第一获取模块，用于从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，其它游戏角色与游戏角色处于同一游戏场景且位于以游戏角色为中心的预设范围内。

作为一种可选实施例，指令识别模块302，还用于将每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征进行横向拼接，得到对应的行向量；将得到的所有行向量进行纵向拼接，得到对应的特征矩阵。

作为一种可选实施例，该装置还包括：

操控模块，用于当操作指令为游戏指令时，则根据操作指令操控游戏角色，若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，则确定游戏玩家待沟通的目标游戏玩家，并将语音数据转发至目标游戏玩家。

作为一种可选实施例，该装置还包括：

第二获取模块，用于获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据，并获取每一训练语音数据对应的训练文本向量；

第一训练模块，用于基于每一训练文本向量对预设分类模型进行训练，以得到指令识别模型。

作为一种可选实施例，该装置还包括：

第三获取模块，用于获取游戏指令对应的训练语音数据以及非游戏指令对应的训练语音数据，并获取每一训练语音数据对应的训练文本向量；

第四获取模块，用于获取每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征；

第二训练模块，用于基于每一训练文本向量，以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练，以得到指令识别模型。

本发明实施例提供的装置，通过获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量。基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令。由于游戏玩家通过语音输入的方式，除了实现与其它游戏玩家之间互相沟通之外，还可实现对其对应的游戏角色进行操控，从而在便捷游戏玩家操控的同时，拓展了游戏中语音交互的功能，进而在整体层面上提升了游戏玩家的体验。

其次，通过提取每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵，从而后续将包含场景特征和/或声学特征的特征矩阵作为指令识别模型的输入量，以输出语音数据对应的操作指令。由于基于场景特征兼顾了游戏场景中游戏角色的状态，基于声学特征兼顾了游戏玩家输入语音数据时的情感表现，从而能够更精准地识别出游戏玩家的操作需求。

另外，通过从播放时间段内选取任意时刻作为目标时刻，获取游戏角色在目标时刻下所处游戏场景的场景标识、游戏角色与其它游戏角色之间的距离以及互动状态，将场景标识、游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征。由于游戏玩家在输入语音数据时，通常需要依据游戏场景中其操控的游戏角色与其它游戏角色之间的互动情况，从而将上述数据作为场景特征，在一定程度上能够反映游戏玩家输入语音数据的操作意图，进而后续可基于场景特征更精准地识别出游戏玩家的操作需求。

最后，通过在操作指令为游戏指令时，根据操作指令操控游戏角色。若操作指令为非游戏指令且语音数据为游戏玩家之间的语音沟通数据，则确定游戏玩家待沟通的目标游戏玩家，并将语音数据转发至目标游戏玩家。由于游戏玩家通过语音输入的方式，除了实现与其它游戏玩家之间互相沟通之外，还可实现对其对应的游戏角色进行操控，从而在便捷游戏玩家操控的同时，拓展了游戏中语音交互的功能，进而在整体层面上提升了游戏玩家的体验。

本发明实施例提供了一种游戏语音交互设备。参见图4，该设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，处理器401及存储器402分别通过总线403完成相互间的通信；

处理器401用于调用存储器402中的程序指令，以执行上述实施例所提供的游戏语音交互方法，例如包括：获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的游戏语音交互方法，例如包括：获取对语音数据进行语音识别后得到的文本数据，将文本数据拆分为文本元素，并将每一文本元素转化为文本向量，语音数据由游戏玩家输入，文本元素为字或词，文本向量为字向量或词向量；基于每一文本向量，生成特征矩阵，并将特征矩阵输入至指令识别模型，输出语音数据对应的操作指令，操作指令为游戏指令或非游戏指令，游戏指令用于操控游戏玩家对应的游戏角色，非游戏指令用于游戏玩家之间互相沟通。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的信息交互设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种游戏语音交互方法，其特征在于，包括：

获取对语音数据进行语音识别后得到的文本数据，将所述文本数据拆分为文本元素，并将每一文本元素转化为文本向量，所述语音数据由所述游戏玩家输入，所述文本元素为字或词，所述文本向量为字向量或词向量；

基于每一文本向量，生成特征矩阵，并将所述特征矩阵输入至指令识别模型，输出所述语音数据对应的操作指令，所述操作指令为游戏指令或非游戏指令，所述游戏指令用于操控所述游戏玩家对应的游戏角色，所述非游戏指令用于游戏玩家之间互相沟通。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于任一文本元素，基于所述任一文本元素在所述语音数据中的播放时间段，提取所述播放时间段内的语音数据对应的声学特征；和/或，

对于任一文本元素，基于所述任一文本元素在所述语音数据中的播放时间段，获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征；

相应地，所述基于每一文本向量，生成特征矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征，包括：

从所述播放时间段内选取任意时刻作为目标时刻，获取所述游戏角色在所述目标时刻下所处游戏场景的场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态，将所述场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，所述其它游戏角色与所述游戏角色处于同一游戏场景且位于以所述游戏角色为中心的预设范围内。

4.根据权利要求2所述的方法，其特征在于，所述基于每一文本向量以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵，包括：

将得到的所有行向量进行纵向拼接，得到对应的特征矩阵。

5.根据权利要求1所述的方法，其特征在于，所述将所述特征矩阵输入至指令识别模型，输出所述语音数据对应的操作指令之后，还包括：

若所述操作指令为游戏指令，则根据所述操作指令操控所述游戏角色，若所述操作指令为非游戏指令且所述语音数据为游戏玩家之间的语音沟通数据，则确定所述游戏玩家待沟通的目标游戏玩家，并将所述语音数据转发至所述目标游戏玩家。

6.根据权利要求1所述的方法，其特征在于，所述将所述特征矩阵输入至指令识别模型，输出所述语音数据对应的操作指令之前，还包括：

基于每一训练文本向量对预设分类模型进行训练，以得到所述指令识别模型。

7.根据权利要求2所述的方法，其特征在于，所述将所述特征矩阵输入至指令识别模型，输出所述语音数据对应的操作指令之前，还包括：

基于每一训练文本向量，以及每一训练文本向量对应的声学特征和/或每一训练文本向量对应的场景特征对预设分类模型进行训练，以得到所述指令识别模型。

8.一种游戏语音交互装置，其特征在于，包括：

转化模块，用于获取对语音数据进行语音识别后得到的文本数据，将所述文本数据拆分为文本元素，并将每一文本元素转化为文本向量，所述语音数据由所述游戏玩家输入，所述文本元素为字或词，所述文本向量为字向量或词向量；

指令识别模块，用于基于每一文本向量，生成特征矩阵，并将所述特征矩阵输入至指令识别模型，输出所述语音数据对应的操作指令，所述操作指令为游戏指令或非游戏指令，所述游戏指令用于操控所述游戏玩家对应的游戏角色，所述非游戏指令用于游戏玩家之间互相沟通。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

提取模块，用于对于任一文本元素，基于所述任一文本元素在所述语音数据中的播放时间段，提取所述播放时间段内的语音数据对应的声学特征；和/或，

获取模块，用于对于任一文本元素，基于所述任一文本元素在所述语音数据中的播放时间段，获取所述游戏玩家对应的游戏角色在所述播放时间段内所处游戏场景的场景特征；

相应地，所述指令识别模块，还用于基于每一文本向量，以及每一文本向量对应的声学特征和/或每一文本向量对应的场景特征，生成特征矩阵。

10.根据权利要求9所述的装置，其特征在于，所述获取模块，用于从所述播放时间段内选取任意时刻作为目标时刻，获取所述游戏角色在所述目标时刻下所处游戏场景的场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态，将所述场景标识、所述游戏角色与其它游戏角色之间的距离以及互动状态作为场景特征，所述其它游戏角色与所述游戏角色处于同一游戏场景且位于以所述游戏角色为中心的预设范围内。

11.一种游戏语音交互设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

12.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。