CN109331470B

CN109331470B - 基于语音识别的抢答游戏处理方法、装置、设备及介质

Info

Publication number: CN109331470B
Application number: CN201810952221.7A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2023-09-26
Anticipated expiration: 2038-08-21
Also published as: CN109331470A

Abstract

本发明公开了一种基于语音识别的抢答游戏处理方法、装置、设备及介质，该方法包括获取用户端发送的抢答游戏访问请求；获取与群组标识对应的抢答游戏界面，并在抢答游戏界面上显示一待抢答数据；接收用户端发送的待识别语音数据；根据时间标注对待识别语音数据进行排序，形成待识别语音数据序列；采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则对目标文字数据进行判断；当目标文字数据不符合预设抢答游戏规则，则抢答失败；当目标文字数据符合预设抢答游戏规则，则抢答成功，以实现抢答游戏从线下转至线上，解决抢答游戏场地的局限性。

Description

基于语音识别的抢答游戏处理方法、装置、设备及介质

技术领域

本发明涉及计算机领域，尤其涉及一种基于语音识别的抢答游戏处理方法、装置、设备及介质。

背景技术

目前，很多抢答游戏通常只能由少量活动人员现场参与，无法支持异地组织活动。通过现场参与方式，只能线下进行抢答活动，会导致抢答游戏场地具有局限性，从而降低用户的体验。

发明内容

本发明实施例提供一种基于语音识别的抢答游戏处理方法、装置、设备及介质，以解决只能线下进行抢答游戏的问题。

一种基于语音识别的抢答游戏处理方法，包括：

获取用户端发送的抢答游戏访问请求，所述抢答游戏访问请求包括目标URL、群组标识和用户登录账号；

根据所述目标URL和所述群组标识，获取与所述群组标识对应的抢答游戏界面，在所述抢答游戏界面上显示一待抢答数据；

接收用户端发送的待识别语音数据，所述待识别语音数据携带用户登录账号和时间标注；

根据所述时间标注对所述待识别语音数据进行排序，形成待识别语音数据序列；

采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则；

当所述目标文字数据不符合预设抢答游戏规则，则抢答失败，删除所述待识别语音数据序列中的第一个待识别语音数据，更新所述待识别语音数据序列，重复执行所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则的步骤，直至所述待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合所述预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤；

当所述目标文字数据符合所述预设抢答游戏规则，则抢答成功，将所述目标文字数据作为更新的待抢答数据，并在所述抢答游戏界面上显示，并执行接收用户端发送的针对所述更新的待抢答数据对应的待识别语音数据的步骤。

一种基于语音识别的抢答游戏处理装置，包括：

获取模块，用于获取用户端发送的抢答游戏访问请求，所述抢答游戏访问请求包括目标URL、群组标识和用户登录账号；

显示模块，用于根据所述目标URL和所述群组标识，获取与所述群组标识对应的抢答游戏界面，在所述抢答游戏界面上显示一待抢答数据；

数据接收模块，用于接收用户端发送的待识别语音数据，所述待识别语音数据携带用户登录账号和时间标注；

排序模块，用于根据所述时间标注对所述待识别语音数据进行排序，形成待识别语音数据序列；

语音处理模块，用于采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则；

第一判定模块，用于当所述目标文字数据不符合预设抢答游戏规则，则抢答失败，删除所述待识别语音数据序列中的第一个待识别语音数据，更新所述待识别语音数据序列，重复执行所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则的步骤，直至所述待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合所述预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤；

第二判定模块，用于当所述目标文字数据符合所述预设抢答游戏规则，则抢答成功，将所述目标文字数据作为更新的待抢答数据，并在所述抢答游戏界面上显示，并执行接收用户端发送的针对所述更新的待抢答数据对应的待识别语音数据的步骤。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于语音识别的抢答游戏处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于语音识别的抢答游戏处理方法的步骤。

上述基于语音识别的抢答游戏处理方法、装置、设备及介质中，该方法中根据抢答游戏访问请求中目标URL和群组标识，获取与群组标识对应的抢答游戏界面，在抢答游戏界面上显示一待抢答数据，以便基于待抢答数据进行游戏抢答，以实现多人在线异地登录同一抢答游戏界面参与游戏活动。接收用户端发送的待识别语音数据中携带的时间标注进行排序，以形成待识别语音序列，以符合抢答游戏中需要抢答的特性，提高抢答游戏的趣味性。采用语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，首先只对第一个待识别语音数据转换成目标文字数据，减少对其他待识别语音数据的转换，提高转换效率。根据预设抢答游戏规则对目标文字数据进行判断，以确定是否抢答成功，若抢答成功，则更新待抢答数据；若抢答失败，则对待识别语音序列中的其他待识别语音数据进行处理，直至所有待识别语音数据均不符合预设抢答游戏规则时，游戏结束，以实现将抢答游戏从线下转换到线上，解决抢答游戏场地的局限性，并支持大规模人员异地活动，提高游戏趣味性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于语音识别的抢答游戏处理方法的一应用环境示意图；

图2是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图3是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图4是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图5是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图6是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图7是本发明一实施例中基于语音识别的抢答游戏处理方法的一流程图；

图8是本发明一实施例中基于语音识别的抢答游戏处理装置的一原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于语音识别的抢答游戏处理方法，可应用在如图1的应用环境中，其中，用户端通过网络与服务端进行通信，该网络可以是有线网络或者无线网络，用户端访问服务端，并参与游戏抢答活动，服务端对用户端发送的语音数据进行排列和识别，并判断是否符合游戏规则，若符合，则抢答成功，若不符合则抢答失败，并进入下一轮，实现多人在线抢答游戏，解决活动场地局限性的问题。其中，服务端和用户端之间通过网络进行连接，其中，用户端可以但不限于个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。

在一实施例中，如图2所示，提供一种基于语音识别的抢答游戏处理方法，以该方法具体为成语接龙基于语音识别的抢答游戏处理方法，具体应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取用户端发送的抢答游戏访问请求，抢答游戏访问请求包括目标URL、群组标识和用户登录账号。

其中，目标URL是指抢答游戏的网络地址。群组标识是指抢答游戏中群组的标识，通过群组标识可在抢答游戏找到唯一的群组。用户登录账号是指用于登录抢答游戏的账号。

具体地，用户端初次访问抢答游戏地址，需注册用户登录账号，以根据用户登录账号实现登录操作，并在抢答游戏中建立群组，可用于公司、同学和朋友等用户群体在线上参与异地活动。用户端可向群组中成员发送链接推送消息，群组成员通过链接推送消息向服务端发送抢答游戏访问请求，抢答游戏访问请求中包括目标URL、群组标识和用户登录账号，服务端根据用户登录账号检测是否为已注册的用户，若为第三方登录账号，则需对抢答游戏进行注册操作，若为已注册的用户登录账号，则后续根据目标URL和群组标识，获取与群组标识对应的抢答游戏界面。

S20：根据目标URL和群组标识，获取与群组标识对应的抢答游戏界面，在抢答游戏界面上显示一待抢答数据。

其中，待抢答数据是指在抢答游戏中，服务端提供的一需要进行抢答数据，可以理解为需要进行抢答的问题。

具体地，服务端根据目标URL和群组标识，获取与群组标识对应的抢答游戏界面，当开始抢答游戏时，服务端在预设的数据库中随机抽取一待抢答数据，将待抢答数据在游戏界面进行显示，并开始进行倒计时。在成语接龙抢答游戏中，该待抢答数据为需要进行成语接龙的成语。

S30：接收用户端发送的待识别语音数据，待识别语音数据携带用户登录账号和时间标注。

其中，时间标注是用户端发送待识别语音数据的时间。

具体地，用户可通过查询抢答游戏界面的待抢答数据，根据待抢答数据进行抢答，使得用户端可采集到待识别语音数据，并将该待识别语音数据发送给服务端。服务端获取用户端发送的待识别语音数据，待识别语音数据中携带有用户登录账号和时间标注。其中，预设规则根据抢答游戏中待抢答数据不同，而规则不同，例如，若待抢答数据为成语接龙抢答游戏时，预设规则为待识别语音数据的成语首字与待抢答数据的成语尾字相同。例如，待识别语音数据的成语“时移世改”的首字“时”与待抢答数据的成语“生不遇时”的尾字“时”应相同。

S40：根据时间标注对待识别语音数据进行排序，形成待识别语音数据序列。

具体地，用户端发送的待识别语音数据携带有用户登录账号和时间标注，根据时间标注对每一用户端发送的待识别语音数据进行排序，越短时间内向服务端发送的待识别语音数据，则待识别数据排序越靠前，通过对所有用户端发送的待识别语音数据根据时间标注进行排序，以获取到待识别语音数据序列，实现快速对待识别语音数据进行排序，以便后续根据待识别语音数据序列确定是否需要对待识别语音数据进行处理，以提高对待识别语音数据的处理效率。

S50：采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则对目标文字数据进行判断。

其中，语音识别模型是预先训练的模型，目标文字数据是指对第一个待识别语音数据进行语音识别获取到的文字数据。

具体地，服务端获取待识别语音数据序列中第一个待识别语音数据，对第一个待识别语音数据进行特征提取，获取目标声纹特征。其中，目标声纹特征具体为MFCC特征。将目标声纹特征输入至预先训练好的语音识别模型中，通过语音识别模型可获取到与目标声纹特征对应的目标文字数据。其中，语音识别模型是由声学模型、音素字典和语言模型等组成。声学模型是通过对语音数据进行训练所获得，输入的是目标声纹特征，输出的是音素。音素字典是音素与字的映射关系库，输入的是音素，输出的是字。语言模型是通过对大量的文本信息进行训练获得，可得到字之间的相关联概率，输入的是单个的字，输出的是目标文字数据(即将最大概率词序列数据作为目标文字数据)。更具体地，通过将目标声纹特征输入至语音识别模型中的声学模型，获取与目标声纹特征对应的音素，将音素输入至语音识别模型中的音素字典，获取与音素对应的字，将字输入至语音识别模型中的语言模型，获取与字对应的目标文字数据。

其中，预设抢答游戏规则是预先设定的规则，例如，若待抢答数据为成语接龙抢答游戏时，在预设时间段内根据待抢答数据的成语进行抢答，且待识别语音数据的成语首字与待抢答数据的成语尾字应相同。服务端根据预设抢答游戏规则对目标文字数据进行判断，若符合预设抢答游戏规则，则抢答成功，若不符合预设抢答游戏规则，则抢答失败。

S60：当目标文字数据不符合预设抢答游戏规则，则抢答失败，删除待识别语音数据序列中的第一个待识别语音数据，更新待识别语音数据序列；重复执行采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断目标文字数据是否符合预设抢答游戏规则的步骤，直至待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

具体地，服务端通过预设抢答游戏规则对目标文字数据进行判断，若目标文字数据不符合预设抢答游戏规则。例如，待抢答数据为成语接龙抢答游戏时，目标文字数据的成语首字与待抢答数据的成语尾字应相同，当目标文字数据的成语“师出无名”的首字“师”与待抢答数据的成语“生不遇时”的尾字“时”不相同时，则目标文字数据不符合预设抢答游戏规则，则第一个待识别语音数据对应的用户端抢答失败，服务端删除待识别语音数据序列中第一个待识别语音数据，更新待识别语音数据序列，即将待识别语音数据序列中原先第二个待识别语音数据作为更新的待识别语音数据序列中第一个待识别语音数据，以此类推，并重复执行采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断目标文字数据是否符合预设抢答游戏规则(即步骤S50)的步骤，当待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合预设抢答游戏规则时，则本轮抢答结束，并执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤(即步骤S30)。

S70：当目标文字数据符合预设抢答游戏规则，则抢答成功，将目标文字数据作为更新的待抢答数据，并在抢答游戏界面上显示，并执行接收用户端发送的针对更新的待抢答数据对应的待识别语音数据的步骤。

具体地，服务端通过预设抢答游戏规则对目标文字数据进行判断，若目标文字数据符合预设抢答游戏规则。例如，待抢答数据为成语接龙抢答游戏时，目标文字数据的成语首字与待抢答数据的成语尾字应相同，如当目标文字数据的成语“时移世改”的首字“时”与待抢答数据成语“生不遇时”的尾字“时”相同时，则目标文字数据符合预设抢答游戏规则，则抢答成功，将目标文字数据“时移世改”作为更新的待抢答数据，并在抢答游戏界面上显示，并执行接收用户端发送的针对更新的待抢答数据“时移世改”对应的待识别语音数据(即步骤S30)的步骤。

步骤S10-S70中，服务端通过根据抢答游戏访问请求中目标URL和群组标识，获取与群组标识对应的抢答游戏界面，在抢答游戏界面上显示一待抢答数据，以便基于待抢答数据进行游戏抢答，以实现多人在线异地登录同一抢答游戏界面参与游戏活动。接收用户端发送的待识别语音数据中携带的时间标注进行排序，以形成待识别语音序列，以符合抢答游戏中需要抢答的特性，提高抢答游戏的趣味性。采用语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，首先只对第一个待识别语音数据转换成目标文字数据，减少对其他待识别语音数据的转换，提高转换效率。根据预设抢答游戏规则判断目标文字数据是否符合预设抢答游戏规则，以确定是否抢答成功，若抢答成功，则更新待抢答数据；若抢答失败，则对待识别语音序列中的其他待识别语音数据进行处理，直至所有待识别语音数据均不符合预设抢答游戏规则时，游戏结束，以实现将抢答游戏从线下转换到线上，解决抢答游戏场地的局限性，并支持大规模人员异地活动，提高游戏趣味性。

在一实施例中，步骤S20中的在抢答游戏界面上显示一待抢答数据，具体包括：从成语数据库中随机选取一成语作为待抢答数据，并在抢答游戏界面上显示待抢答数据和与待抢答数据对应的抢答期限。

其中，抢答期限是指预设的进行抢答的期限。如，预设在20秒之内进行抢答。

具体地，当抢答游戏为成语接龙抢答游戏时，服务端中预设有成语数据库。其中，成语数据库中存储有大量的成语，将成语词典录入至成语数据库中。服务端从成语数据库中随机选取一成语作为待抢答数据，在抢答游戏显示页面对该待抢答数据进行显示，当服务端获取到游戏开始指令时，在抢答游戏显示页面显示待抢答数据及其对应的抢答期限，并开始倒计时。例如，服务端从成语数据库中选取一成语为“生不遇时”，在抢答游戏显示页面显示“生不遇时”，当服务端获取到游戏开始指令时，在抢答游戏显示页面显示抢答期限(如20秒)，并开始倒计时。

进一步地，步骤S40中，即根据时间标注对待识别语音数据进行排序，形成待识别语音数据序列中，包括：

(1)若时间标注在抢答期限内，则时间标注对应的待识别语音数据为有效的待识别语音数据，根据时间标注的先后顺序对有效的待识别语音数据进行排序，形成待识别语音数据序列。

其中，有效的待识别语音数据为在抢答期限内的用户端发送的待识别语音数据。

具体地，服务端获取每一用户端发送的待识别语音数据，待识别语音数据携带用户登录账号和时间标注，判断时间标注是否在抢答期限内。例如，在抢答游戏显示页面进行抢答的开始时间为18:00:00，抢答期限为20秒，那么18:00:00-18:00:20时间内接收到的待识别语音数据为有效的待识别语音数据。当用户端向服务端发送待识别语音数据时，该待识别语音数据携带有时间标注，如，某一用户端在18:00:06时向服务端发送待识别语音数据，则将18:00:06作为该待识别语音数据的时间标注，而待识别语音数据的时间标注18:00:06在抢答期限20秒(18:00:00-18:00:20)内，进而将时间标注18:00:06对应的待识别语音数据作为有效的待识别语音数据。然后，根据时间标注对每一有效的待识别语音数据的进行排序，即在抢答期限(18:00:00-18:00:20)之内获取到的每一有效待识别语音数据根据时间标注进行排序，服务端将越先获取到的待识别语音数据排序越靠前，以形成待识别语音数据序列。

(2)若时间标注不在抢答期限内，则时间标注对应的待识别语音数据为无效的待识别语音数据，当所有待识别语音数据均为无效的待识别语音数据，则执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

具体地，服务端获取每一用户端发送的待识别语音数据，待识别语音数据携带用户登录账号和时间标注，判断时间标注是否在抢答期限内。例如，在抢答游戏显示页面进行抢答的开始时间为18:00:00，抢答期限为20秒，那么18:00:00-18:00:20时间之外接收到的待识别语音数据为无效的待识别语音数据。当用户端向服务端发送待识别语音数据时，该待识别语音数据携带有时间标注，如，某一用户端在18:00:22时向服务端发送待识别语音数据，则将18:00:22作为该待识别语音数据的时间标注，而待识别语音数据的时间标注18:00:22不在抢答期限20秒(18:00:00-18:00:20)内，进而将时间标注18:00:22对应的待识别语音数据作为无效的待识别语音数据，不对无效的待识别语音数据进行排序，减少服务端的排序处理量，提高排序速度。可以理解地，当所有用户端发送的待识别语音数据的时间标注均不在抢答期限内，则所有待识别语音数据均为无效的待识别语音数据，该轮抢答游戏结束，进入下一轮游戏，并执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

在一实施例中，如图3所示，在S60步骤之后，即在执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤的步骤之后，基于语音识别的抢答游戏处理方法还包括如下步骤：

S601：获取群组标识对应的所有用户登录帐号的抢答记录，抢答记录包括抢答成功和抢答失败。

其中，抢答记录为本轮抢答游戏中每一次抢答的结果。具体地，当服务端判定本轮游戏结束后，服务端获取群组标识对应的本轮游戏中所有参与的用户登录账号，并对每一用户登录账号对应的抢答记录进行统计分析，获取每一用户登录账户对应的抢答记录。例如，某一群组标识为A，A对应的本轮游戏中参与的用户登录账号有用户1、用户2和用户3，获取用户1、用户2和用户3对应的抢答记录。其中，本轮游戏中总的抢答成功的题数为所有用户抢答成功的题数。例如，本轮游戏进行5题抢答后结束本轮游戏，那么用户1抢答成功2题，用户2抢答成功2题，用户3抢答成功1题。

S602：依据预设计分规则对每一用户登录帐号的抢答记录进行计分，获取对应的抢答分值。

其中，预设计分规则是预先设定的与抢答游戏对应的计分规则。具体地，服务端获取每一用户登录账号对应的抢答记录，基于抢答记录，根据预设计分规则获取每一用户登录账号所对应的抢答分值。例如，预设计分规则可以是当用户在本轮游戏中，答对1题分值为1分，并设置连续答对的成语越多，所累积的分值越高，如连续答对5题时，每题分值为2分，当超过5题时，第6个起每个所得的分值为3分；此时，若用户1答对5题，则分值为5分，用户2连续答对5题，则分值为10分，用户3连续答对6题，则分值为13分。

S603：选取抢答分值最高的用户登录账号对应的用户信息作为目标用户信息，在抢答游戏界面上显示目标用户信息、抢答记录和抢答分值。

其中，用户信息是指用户的基本信息。例如，用户登录账号和名称等。

具体地，服务端获取每一用户登录账号对应的抢答分值，并根据抢答分值获取抢答分值最高的用户登录账号，将与抢答分值最高的用户登录账号对应的用户信息作为目标用户信息，并在抢答游戏界面上显示目标用户信息、抢答记录和抢答分值。例如，用户1分值为5分，用户2分值为10分，用户3分值为13分，获取用户3对应的用户信息作为目标用户信息，在抢答游戏界面上显示用户3的目标用户信息、抢答记录和抢答分值13分。其中，抢答记录包括抢答成功或抢答失败，还可包括用户抢答成功对应的待抢答数据、目标文字数据和对应的分值。

步骤S601-S603，通过先获取群组标识对应的所有用户登录帐号的抢答记录，以便后续根据抢答记录进行计分统计。依据预设计分规则对每一用户登录帐号的抢答记录进行计分，获取对应的抢答分值，实现对每一用户进行计分统计。选取抢答分值最高的用户登录账号对应的用户信息作为目标用户信息，以实现选取出本轮游戏最终获胜者。

在一实施例中，如图4所示，在S602的步骤之前，即在依据预设计分规则对每一用户登录帐号的抢答记录进行计分的步骤之前，基于语音识别的抢答游戏处理方法还具体包括如下步骤：

S6021：获取每一用户登录帐号对应的抢答成功的目标文字数据；基于目标文字数据，获取对应的待识别语音数据作为待处理语音数据，对待处理语音数据进行声纹提取，获取与待处理语音数据对应的待处理声纹特征。

具体地，服务端获取群组标识对应的所有用户登录帐号的抢答记录，根据抢答记录获取每一用户登录账号对应的目标文字数据，并根据目标文字数据查找数据库，获取与目标文字数据对应的待识别语音数据，将待识别语音数据作为待处理语音数据。例如，根据抢答记录获得用户1答对1题，获取用户答对的目标文字数据“生不遇时”，并根据“生不遇时”查找数据库，将用户登录账户对应的“生不遇时”的待识语音数据作为待处理语音数据，通过对待处理语音数据进行声纹提取，获取与待处理语音数据对应的待处理声纹特征。其中，可采用MFCC(Mel-frequency Cepstrum Coefficients，梅尔频率倒谱系数)算法对待处理语音数据进行声纹特征提取，提取的待处理声纹特征为MFCC特征。本实施例中，只对抢答成功的目标文字数据进行声纹提取，减少服务端对抢答失败的目标文字数据进行声纹提取的时间，提高服务端处理效率。

S6022：获取与用户登录账号对应的标准声纹特征，对待处理声纹特征与标准声纹特征进行相似度计算，获取相似度。

具体地，当用户端注册抢答游戏的用户登录账号时，采集每一用户登录账号对应的用户的标准声纹特征，并将用户登录账号与标准声纹特征一一对应存储至数据库中。服务端获取抢答成功的目标文字数据，确定哪些用户登录账号包含抢答成功的目标文字数据，若没有包含抢答成功的目标文字数据，则不需获取用户登录账号对应的标准声纹特征，若包含抢答成功的目标文字数据，则获取目标文字数据对应的用户登录账号，并查询数据库，获取与用户登录账号对应的标准声纹特征，将标准声纹特征与待处理声纹特征进行相似度计算，获取相似度。

进一步地，可采用余弦相似度计算公式对待处理声纹特征与标准声纹特征进行相似度计算，余弦相似度计算公式为S为相似度，A_i为待处理声纹特征，B_i为标准声纹特征，i为第i维特征，n为维度数量。

S6023：当相似度大于或等于预设阈值时，则对本轮抢答成功的目标文字数据进行计分。

具体地，服务端在相似度大于或等于预设阈值时，则对抢答成功的目标文字数据进行分数统计。例如，某一目标文字数据对应的待处理声纹特征与目标文字数据对应的标准声纹特征的相似度为88％，而预设阈值为85％，则相似度大于预设阈值，对大于预设阈值对应的目标文字数据进行分数统计。

S6024：当相似度小于预设阈值时，则对本轮抢答成功的目标文字数据不计分。

具体地，服务端在相似度小于预设阈值时，则对抢答成功的目标文字数据不计分。例如，某一目标文字数据对应的待处理声纹特征与目标文字数据对应的标准声纹特征的相似度为84％，而预设阈值为85％，则相似度小于预设阈值，对小于预设阈值对应的目标文字数据不进行积分统计。

步骤S6021-S6024中，通过获取每一用户登录帐号对应的抢答成功的目标文字数据，基于目标文字数据，获取对应的待识别语音数据作为待处理语音数据，对待处理语音数据进行声纹提取，获取与待处理语音数据对应的待处理声纹特征，以实现对抢答成功目标文字数据进行特征提取，以便后续进行相似度计算，减少服务端对抢答失败进行特征提取的步骤，提高转换效率。获取与用户登录账号对应的标准声纹特征，对待处理声纹特征与标准声纹特征进行相似度计算，获取相似度，通过对待处理声纹特征与标准声纹特征进行相似度计算，提高抢答游戏的准确性，以确保是用户登录账号对应的用户本人参与本次抢答游戏，以保证抢答游戏的公平性。当相似度大于预设阈值时，则对本轮抢答成功的目标文字数据进行计分，且当相似度小于预设阈值时，则对本轮抢答成功的目标文字数据不计分，以使最终计算得到的抢答分值均为用户本人抢答的抢答分值，保证抢答游戏的公平性，且可减少服务端进行计分的处理数量，提高服务端的计分处理效率。

在一实施例中，如图5所示，在S50步骤之前，在采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据的步骤之前，基于语音识别的抢答游戏处理方法还具体包括如下步骤：

S51：获取待识别语音数据序列中的第一个待识别语音数据，对第一个待识别语音数据进行预加重处理，获取预处理语音数据。

具体地，对第一个待识别语音数据作预加重处理，该预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，即语音数据在时域上表达的语音的幅值(幅度)，s_n-1为与s_n相对的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0，取值越大预加重的效果比较好。采用该预加重处理能够消除发声过程中声带和嘴唇等造成的干扰，可以有效补偿第一个待识别语音数据被压抑的高频部分，并且能够突显待识别语音数据高频的共振峰，加强待识别语音数据的信号幅度，有助于提取待识别语音数据的目标声纹特征。

S52：采用分帧和加窗的方式对预处理语音数据进行处理，获取语音帧。

具体地，在对第一个待识别语音数据进行预加重处理，获取预处理语音数据后，还应对预处理语音数据进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术，每帧的大小在10-30ms的范围内，以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域，能够避免相邻两帧变化过大的问题。对预处理语音数据进行分帧处理，能够将预处理语音数据分成若干段的语音数据，可以细分预处理语音数据，便于目标声纹特征的提取。在对预处理语音数据进行分帧处理后，每一帧的起始段和末尾端都会出现不连续的地方，所以分帧越多与待识别语音的误差也就越大，采用加窗能够解决这个问题，可以使分帧后的待识别语音变得连续，并且使得每一帧能够表现出周期函数的特征。将分帧后的预处理语音数据进行加窗处理，获取语音帧，有助于提取待识别语音数据的目标声纹特征。其中，加窗处理可通过可采用汉明窗和汉宁窗来进行处理。

S53：对语音帧将进行静默音分离处理，获取目标语音帧。

具体地，采集到的待识别语音数据可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。在采集过程中在每次发音前后，均会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行目标声纹特征提取的时候，需要检测出静默期状态，将语音帧的静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

其中，检测静默音状态的方式包括但不限于：语音端点检测、FFMPEG探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。

S54：对目标语音帧进行声纹特征提取，获取目标声纹特征。

具体地，在经过预加重处理、分帧和加窗和静默音分离之后，获取了稳定性强的声纹样本，使用该样本进行声纹特征的提取。其中，声纹特征提取是提取并选择对用户的声纹具有可分性强、稳定性高等特性的声学或语言特征。优选地，本实施例中选择提取的声纹特征为声学特征中的线性倒谱特征(MFCC特征)。

其中，倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换，由于一般傅里叶谱是复数谱，因而倒谱又称复倒谱。

S55：采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据。

具体地，服务端获取目标声纹特征，将目标声纹特征输入至预先训练好的语音识别模型中，通过语音识别模型可获取到与目标声纹特征对应的目标文字数据。其中，语音识别模型是由声学模型、音素字典和语言模型等组成。声学模型是通过对语音数据进行训练所获得，输入的是目标声纹特征，输出的是音素。音素字典是音素与字的映射关系库，输入的是音素，输出的是字。语言模型是通过对大量的文本信息进行训练获得，可得到字与字之间的相关联概率，输入的是单个的字，输出的是目标文字数据(即将最大概率词序列数据作为目标文字数据)。更具体地，通过将目标声纹特征输入至语音识别模型中的声学模型，获取与目标声纹特征对应的音素数据，将音素数据输入至语音识别模型中的音素字典，获取与音素数据对应的目标字，将目标字输入至语音识别模型中的语言模型，获取与目标字对应的目标文字数据。

步骤S51-S55中，通过获取待识别语音数据序列中的第一个待识别语音数据，对第一个待识别语音数据进行预加重处理，有效补偿待识别语音数据被压抑的高频部分，并且能够突显待识别语音数据高频的共振峰，加强待识别语音数据的信号幅度，有助于提取待识别语音数据的目标声纹特征。采用分帧和加窗的方式对预处理语音数据进行处理，细分预处理语音数据，有助于提取待识别语音数据的目标声纹特征。对语音帧进行静默音分离处理，以获取到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。对目标语音帧进行声纹特征提取，有助于后续的语音识别。采用预先训练的语音识别模型对目标声纹特征进行识别，识别方法简单快速，提高识别效率。

在一实施例中，语音识别模型包括声学模型、音素字典和语言模型。如图6所示，步骤S55中，即采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应目标文字数据中，具体包括以下步骤：

S551：采用声学模型对目标声纹特征进行转换，获取音素数据。

具体地，服务端采用MFCC算法对第一个待识别语音数据进行声纹特征提取，获取目标声纹特征。假设声学特征为12维，n列的矩阵(即总帧数)，则MFCC特征中包括12维n列矩阵，根据人耳的生理特性，将每一帧波形用12维的向量表示。其中，若干帧波形对应一个状态，每三个状态组合成一个音素，通过声学模型确定每帧波形对应的状态，并根据状态转换成音素数据。进一步地，声学模型由隐马尔可夫模型(Hidden Markov Model，HMM)对训练语音数据进行训练所获得的模型，通过构建一个网络，从状态网络中寻找帧与状态间最匹配路径，将最匹配路径对应的状态作为目标状态，从状态网络中寻找状态与音素间最匹配路径，将最匹配路径对应的音素作为目标音素，其中，路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径，进而实现将目标声纹特征转换为音素数据。

S552：根据音素字典中音素与字的映射关系，将音素数据转换为目标字。

其中，英语中单词的音标是由音素构成，常用的音素集是卡内基梅隆大学的一套由39个音素构成的英语音素集，汉语中用声母和韵母的组合(即拼音)作为汉语音素集。具体地，建立英语音素集与单词的映射关系，并建立汉语音素集与汉字的映射关系，以获取到音素字典，并根据音素字典将音素数据转换为目标字。

S553：采用语言模型将目标字转换为目标文字数据。

具体地，采用语音模型将目标字转换成目标文字数据，具体包括以下步骤：

(1)通过语言模型将目标字转换成M个词序列，其中，M为大于1的正整数。

其中，将获取到的目标字前后组合得到M个词序列。其中，词序列是指将目标字按照某种标准进行排列的序列。例如，目标字为“百”、“里”、“挑”、“一”、“白”、“李”、“挑”和“衣”，将目标字根据预设规则进行前后组合得到词序列为“百里挑一”，词序列还可为“白李挑衣”。通过获取目标字进行组合，获取到不同的词序列，以便后续根据词序列获取到文字数据。

(2)基于M个词序列获取至少一个词序列数据，计算每个词序列数据的发生概率。

其中，词序列数据是指将目标字按照某种标准进行排列形成的数据，如步骤(1)中，“百里挑一”和“白李挑衣”为词序列数据。具体地，根据(1)中获取到的词序列数据，对每个词序列数据进行发生概率计算，得到M个词序列数据的发生概率。对词序列数据进行发生概率计算具体可使用马尔科夫假设理论：第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。

即：为第n个分词出现在n-1个分词组成的词序列之后的概率，P(T)为整句出现的概率，通常使用最大似然估计(Maximum Likelihood Estimate)来计算/>即

其中，C(W_n)为第n个分词在训练语料库中的词序列频度，C(W₁W₂......W_n)为(W₁W₂......W_n)序列在训练语料库中的词序列频度，C(W₁W₂......W_n-1)为(W₁W₂......W_n-1)序列在训练语料库中的词序列频度。其中，词序列频度指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例，这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。

例如，C(W₁W₂......W_n)为词序列数据1“百里挑一”在训练语料库中的词序列频度，C(W₁W₂......W_n-1)为词序列数据1“百里挑一”出现在“以一警百”在训练语料库中的之后的词序列频度，可计算出词序列数据1“百里挑一”出现在“以一警百”之后的发生概率。计算出词序列数据1“百里挑一”出现在“以一警百”之后的发生概率和计算词序列数据2“白李挑衣”出现在“以一警百”之后的发生概率。

(3)至少一个词序列数据的发生概率中，选取最大发生概率对应的词序列数据，作为目标词序列。

具体地，具体地，针对至少一个词序列数据，通过步骤(2)的计算词序列数据的发生概率，获取每个词序列数据的发生概率，选取最大的发生概率对应的作为有效发生概率，进而找到有效发生概率对应的词序列数据，将该词序列数据作为目标词序列。例如，步骤(2)中，计算出词序列数据1对应的发生概率为90％，词序列数据2对应的发生概率为20％，将词序列数据1和词序列数据2中最大发生概率对应的词序列数据作为目标词序列，即将词序列数据1作为目标词序列。通过将最大发生概率对应的词序列数据作为目标词序列，从而使得选取的目标词序列更为接近用户端表达的含义，提高了转换文字的准确率。

(4)从语言模型中获取与目标词序列对应的文字，作为目标字对应的目标文字数据。

具体地，获取目标词序列，将目标词序列组成文字数据，并将文字数据作为目标字对应的文字数据。通过将目标词序列的文字数据作为目标字的文字数据，以获取到的文字数据更加准确。

步骤S551-S553，采用声学模型对目标声纹特征进行转换，获取音素数据，通过将最匹配路径对应的音素作为目标音素，以便获取到的音素数据更加准确。根据音素字典中音素与字的映射关系，将音素数据转换为目标字，实现音素与字之间的转换。采用语言模型将目标字转换为目标文字数据，将最大发生概率对应词序列数据作为目标文字数据，使得获取到的目标文字数据更加接近用户端表达的含义。

在一实施例中，如图7所示，在步骤S50之前，即在采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据的步骤之前，基于语音识别的抢答游戏处理方法还具体包括如下步骤：

S501：根据成语数据库生成训练语料库，训练语料库包括训练文字数据。

具体地，具体地，训练语料库是对语言模型进行训练的语料库。其中，语料库(Corpus)是指经科学取样和加工的大规模电子文本库。本实施例中，训练语料库中的训练文字数据包含但不限于成语语料和通用语料等，其中，成语语料是进行抢答游戏时，所用到的成语等，通用语料中包含是语言学研究的基础资源，也是经验主义语言研究方法的主要资源，应用于词典编纂、语言教学和传统语言研究，自然语言处理中基于统计或实例的研究等方面。

S502：将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型。

其中，N-gram模型是一种基于统计语言模型的算法，N-gram模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的目标字转换成词序列数据(即成语)时，可以计算出具有最大概率的成语，从而实现目标字与词序列数据间的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音的重码问题。

具体地，将训练语料库中的训练文字数据输入到N-gram模型进行模型训练，通过N-gram模型对训练语料库中训练文字数据进行统计分析，获取训练文字数据中词序列占整个训练语料库中分词出现次数的词序列频度，通过词序列频度即可获取词序列出现的概率，以获取语言。其中，分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列(即成语)。

S503：基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型。

具体地，声学模型包括状态模型和音素模型，预先将训练语音数据进行声学特征(MFCC特征)提取。其中，MFCC特征可采用多维特征向量(m维n列)的方式表达，m维1列向量为一帧波形，若干帧波形对应一个状态，每三个状态组合成一个音素。针对每一状态，使用属于该状态的声学特征中的状态特征对初始隐马尔可夫模型进行训练，获得状态模型；针对每一音素，使用属于该音素的声学特征中的音素特征对初始隐马尔可夫模型进行训练，获得音素模型。通过状态模型计算声学特征每一帧波形属于某一状态的概率，通过将最大概率作为目标状态，通过音素模型计算声学特征中每一状态属于某一音素的概率，将最大概率对应的音素作为目标音素。

其中，隐马尔可夫模型是一种统计分析模型，用来描述一个含有隐含未知参数的马尔可夫过程，即从可观察的参数中确定该过程的隐含参数。根据其HMM采用全连接结构或left-right结构，通过训练HMM模型参数λ＝(A，B，π)，找到λ的局部最优解，其中，A，B，π分别为HMM模型中的训练参数，A为与状态转移概率矩阵，B为预设的给定状态下观测向量的概率矩阵，π为初始状态概率矩阵。对HMM模型进行训练的具体步骤如下：

(1)对初始隐马尔可夫模型进行初始化，提取初始状态下的状态转移概率矩阵A(0)和观测向量概率矩阵B(0)，以及初始概率分布π(0)，即λ(0)＝(A(0)，B(0)，π(0))。

(2)将声学特征中音素特征向量或者状态特征向量作为观测向量，使用Baum-Welch算法对初始化后的初始隐马尔可夫模型进行k次递推迭代，其中，k为正整数。其中，Baum-Welch算法是为了解决HMM的参数估计问题而提出的，通过观测向量估计模型参数λ＝(A，B，π)，使得在该模型下观测向量概率P(O|λ)最大，O为观测向量，λ为估计模型参数。

(3)将第k次递推迭代得到的模型参数λ(k+1)＝(A(k+1)，B(k+1)，π(k+1))作为最终模型参数，即为λ的局部最优解。

例如，当k＝10时，λ的局部最优解为λ(10)＝(A(10)，B(10)，π(10))。

S504：基于音素字典、语言模型和声学模型，获取语音识别模型。

具体地，将预先训练好的语言模型、声学模型和音素字典组合成语音识别模型，声学模型是将获取到目标声纹特征进行转换，获取音素数据；音素字典是将音素数据进行转换，获取目标字；语言模型是将目标字转换成词序列数据，将最大发生概率的对应的词序列数据作为目标文字数据，以实现通过语音识别模型将目标声纹特征转换为目标文字数据。

步骤S501-S504，根据成语数据库生成训练语料库，为后续通过训练文字数据进行训练，有助于获取语言模型。将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型，以实现语言模型的训练，以便后续通过语音模型获取到的目标文字数据更加精准。基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型，以实现声学模型的训练，为后续通过声学模型将声纹特征转换为音素提供技术支持。基于音素字典、语言模型和声学模型，以获取语音识别模型，为后续通过语音识别模型对目标声纹特征进行语音识别，并获取到对应的目标文字数据提供技术支持，通过语音识别模型进行语音识别，实时将用户端发送的待识别语音数据进行转换，以提高抢答游戏的处理效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于语音识别的抢答游戏处理装置，该基于语音识别的抢答游戏处理装置与上述实施例中基于语音识别的抢答游戏处理方法一一对应。如图8所示，该基于语音识别的抢答游戏处理装置包括获取模块10、显示模块20、数据接收模块30、排序模块40、语音处理模块50、第一判定模块60和第二判定模块70。各功能模块详细说明如下：

获取模块10，用于获取用户端发送的抢答游戏访问请求，抢答游戏访问请求包括目标URL、群组标识和用户登录账号。

显示模块20，用于根据目标URL和群组标识，获取与群组标识对应的抢答游戏界面，在抢答游戏界面上显示一待抢答数据。

数据接收模块30，用于接收用户端发送的待识别语音数据，待识别语音数据携带用户登录账号和时间标注。

排序模块40，用于根据时间标注对待识别语音数据进行排序，形成待识别语音数据序列。

语音处理模块50，用于采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则对目标文字数据进行判断。

第一判定模块60，用于当目标文字数据不符合预设抢答游戏规则，则抢答失败，删除待识别语音数据序列中的第一个待识别语音数据，更新待识别语音数据序列，重复执行采用预先训练的语音识别模型对待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断目标文字数据是否符合预设抢答游戏规则的步骤，直至待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

第二判定模块70，用于当目标文字数据符合预设抢答游戏规则，则抢答成功，将目标文字数据作为更新的待抢答数据，并在抢答游戏界面上显示，并执行接收用户端发送的针对更新的待抢答数据对应的待识别语音数据的步骤。

在一实施例中，显示模块20还用于从成语数据库中随机选取一成语作为待抢答数据，并在抢答游戏界面上显示待抢答数据和与待抢答数据对应的抢答期限。

进一步地，排序模块40包括待识别语音数据序列形成单元41和游戏结束判定单元42。

待识别语音数据序列形成单元41，用于若时间标注在抢答期限内，则时间标注对应的待识别语音数据为有效的待识别语音数据，根据时间标注的先后顺序对有效的待识别语音数据进行排序，形成待识别语音数据序列。

游戏结束判定单元42，用于若时间标注不在抢答期限内，则时间标注对应的待识别语音数据为无效的待识别语音数据，当所有待识别语音数据均为无效的待识别语音数据，则执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

在一实施例中，在第一判定模块60之后，基于语音识别的抢答游戏处理装置还包括抢答记录获取单元601、分值获取单元602和最终显示单元603。

抢答记录获取单元601，用于获取群组标识对应的所有用户登录帐号的抢答记录，抢答记录包括抢答成功和抢答失败。

分值获取单元602，用于依据预设计分规则对每一用户登录帐号的抢答记录进行计分，获取对应的抢答分值。

最终显示单元603，用于选取抢答分值最高的用户登录账号对应的用户信息作为目标用户信息，在抢答游戏界面上显示目标用户信息、抢答记录和抢答分值。

在一实施例中，在分值获取单元602元的步骤之前，基于语音识别的抢答游戏处理装置还包括待处理声纹特征获取单元6021、相似度获取单元6022、第一计分判定单元6023和第二计分判定单元6024。

待处理声纹特征获取单元6021，用于获取每一用户登录帐号对应的抢答成功的目标文字数据，基于目标文字数据，获取对应的待识别语音数据作为待处理语音数据，对待处理语音数据进行声纹提取，获取与待处理语音数据对应的待处理声纹特征。

相似度获取单元6022，用于获取与用户登录账号对应的标准声纹特征，对待处理声纹特征与标准声纹特征进行相似度计算，获取相似度。

第一计分判定单元6023，用于当相似度大于或等于预设阈值时，则对本轮抢答成功的目标文字数据进行计分。

第二计分判定单元6024，当相似度小于预设阈值时，则对本轮抢答成功的目标文字数据不计分。

在一实施例中，在语音处理模块50之前，基于语音识别的抢答游戏处理装置还包括预加重单元51、分帧加窗单元52、静默音分离处理单元53、声纹特征提取单元54和语音识别单元55。

预加重单元51，用于获取待识别语音数据序列中的第一个待识别语音数据，对第一个待识别语音数据进行预加重处理，获取预处理语音数据。

分帧加窗单元52，用于采用分帧和加窗的方式对预处理语音数据进行处理，获取语音帧。

静默音分离处理单元53，用于对语音帧进行静默音分离处理，获取目标语音帧。

声纹特征提取单元54，用于对目标语音帧进行声纹特征提取，获取目标声纹特征。

语音识别单元55，用于采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据。

在一实施例中，语音识别模型包括声学模型、音素字典和语言模型。

语音识别单元55还包括音素数据获取子单元551、目标字获取子单元552和目标文字数据获取子单元553。

音素数据获取子单元551，用于采用声学模型对目标声纹特征进行转换，获取音素数据。

目标字获取子单元552，用于根据音素字典中音素与字的映射关系，将音素数据转换为目标字。

目标文字数据获取子单元553，用于采用语言模型将目标字转换为目标文字数据。

在一实施例中，在语音处理模块50之前，基于语音识别的抢答游戏处理装置还包括语料库生成单元501、语言模型获取单元502、声学模型获取单元503和语音识别模型获取单元504。

语料库生成单元501，用于根据成语数据库生成训练语料库，训练语料库包括训练文字数据。

语言模型获取单元502，用于将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型。

声学模型获取单元503，用于基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型。

语音识别模型获取单元504，用于基于音素字典、语言模型和声学模型，获取语音识别模型。

关于基于语音识别的抢答游戏处理装置的具体限定可以参见上文中对于基于语音识别的抢答游戏处理方法的限定，在此不再赘述。上述基于语音识别的抢答游戏处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待抢答数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的抢答游戏处理方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于语音识别的抢答游戏处理方法的步骤，例如，图2所示的步骤S10至步骤S70，或者，处理器执行计算机程序时实现上述实施例中基于语音识别的抢答游戏处理装置中的各模块/单元/子单元的功能，例如，图8所示模块10至模块70的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中基于语音识别的抢答游戏处理方法的步骤，例如，图2所示的步骤S10至步骤S70，或者，该计算机程序被处理器执行时实现上述装置中基于语音识别的抢答游戏处理装置中的各模块/单元/子单元的功能，例如，图8所示模块10至模块70的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别的抢答游戏处理方法，其特征在于，包括：

当所述目标文字数据不符合预设抢答游戏规则，则抢答失败，删除所述待识别语音数据序列中的第一个待识别语音数据，更新所述待识别语音数据序列；重复执行所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则的步骤，直至所述待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合所述预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤；

当所述目标文字数据符合所述预设抢答游戏规则，则抢答成功，将所述目标文字数据作为更新的待抢答数据，并在所述抢答游戏界面上显示，并执行接收用户端发送的针对所述更新的待抢答数据对应的待识别语音数据的步骤；

若抢答成功，根据抢答成功对应的待识别语音数据所携带用户登录账号，获取所述用户登录账号对应的标准声纹特征；

对待处理语音数据进行声纹提取，获取与所述待处理语音数据对应的待处理声纹特征；

根据所述标准声纹特征和所述待识别语音数据对应的待处理声纹特征，获取相似度；

当所述相似度大于或等于预设阈值时，则对本轮抢答成功的目标文字数据进行计分；

当所述相似度小于预设阈值时，则对本轮抢答成功的目标文字数据不计分。

2.如权利要求1所述的基于语音识别的抢答游戏处理方法，其特征在于，所述在所述抢答游戏界面上显示一待抢答数据，包括：

从成语数据库中随机选取一成语作为待抢答数据，并在所述抢答游戏界面上显示所述待抢答数据和与所述待抢答数据对应的抢答期限；

所述根据所述时间标注对所述待识别语音数据进行排序，形成待识别语音数据序列，包括：

若所述时间标注在所述抢答期限内，则所述时间标注对应的待识别语音数据为有效的待识别语音数据，根据所述时间标注的先后顺序对所述有效的待识别语音数据进行排序，形成待识别语音数据序列；

若所述时间标注不在所述抢答期限内，则所述时间标注对应的待识别语音数据为无效的待识别语音数据，当所有待识别语音数据均为无效的待识别语音数据，则执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤。

3.如权利要求1所述的基于语音识别的抢答游戏处理方法，其特征在于，在所述执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤之后，所述基于语音识别的抢答游戏处理方法还包括：

获取所述群组标识对应的所有用户登录账号的抢答记录，所述抢答记录包括抢答成功和抢答失败；

依据预设计分规则对每一所述用户登录账号的抢答记录进行计分，获取对应的抢答分值；

选取抢答分值最高的用户登录账号对应的用户信息作为目标用户信息，在所述抢答游戏界面上显示所述目标用户信息、所述抢答记录和所述抢答分值。

4.如权利要求1所述的基于语音识别的抢答游戏处理方法，其特征在于，所述对所述待处理语音数据进行声纹提取，获取与所述待处理语音数据对应的待处理声纹特征，包括：

获取每一所述用户登录账号对应的抢答成功的目标文字数据，基于所述目标文字数据，获取对应的待识别语音数据作为待处理语音数据，对所述待处理语音数据进行声纹提取，获取与所述待处理语音数据对应的待处理声纹特征。

5.如权利要求1所述的基于语音识别的抢答游戏处理方法，其特征在于，在所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据的步骤之前，所述基于语音识别的抢答游戏处理方法还包括：

获取所述待识别语音数据序列中的第一个待识别语音数据，对所述第一个待识别语音数据进行预加重处理，获取预处理语音数据；

采用分帧和加窗的方式对所述预处理语音数据进行处理，获取语音帧；

对所述语音帧进行静默音分离处理，获取目标语音帧；

对所述目标语音帧进行声纹特征提取，获取目标声纹特征；

采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应的目标文字数据。

6.如权利要求5所述的基于语音识别的抢答游戏处理方法，其特征在于，所述语音识别模型包括声学模型、音素字典和语言模型；

所述采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应目标文字数据，包括：

采用所述声学模型对所述目标声纹特征进行转换，获取音素数据；

根据所述音素字典中音素与字的映射关系，将所述音素数据转换为目标字；

采用所述语言模型将所述目标字转换为目标文字数据。

7.如权利要求1所述的基于语音识别的抢答游戏处理方法，其特征在于，在所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据的步骤之前，所述基于语音识别的抢答游戏处理方法包括：

根据成语数据库生成训练语料库，所述训练语料库包括训练文字数据；

将所述训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型；

基于所述训练文字数据获取训练语音数据，将所述训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型；

基于音素字典、所述语言模型和所述声学模型，获取语音识别模型。

8.一种基于语音识别的抢答游戏处理装置，其特征在于，包括：

第一判定模块，用于当所述目标文字数据不符合预设抢答游戏规则，则抢答失败，删除所述待识别语音数据序列中的第一个待识别语音数据，更新所述待识别语音数据序列；重复执行所述采用预先训练的语音识别模型对所述待识别语音数据序列中的第一个待识别语音数据进行识别，获取目标文字数据，并根据预设抢答游戏规则判断所述目标文字数据是否符合所述预设抢答游戏规则的步骤，直至所述待识别语音数据序列中最后一个待识别语音数据识别出的目标文字数据不符合所述预设抢答游戏规则时，执行接收用户端发送的新一轮待抢答数据对应的待识别语音数据的步骤；

第二判定模块，用于当所述目标文字数据符合所述预设抢答游戏规则，则抢答成功，将所述目标文字数据作为更新的待抢答数据，并在所述抢答游戏界面上显示，并执行接收用户端发送的针对所述更新的待抢答数据对应的待识别语音数据的步骤若抢答成功，根据抢答成功对应的待识别语音数据所携带用户登录账号，获取所述用户登录账号对应的标准声纹特征；对待处理语音数据进行声纹提取，获取与所述待处理语音数据对应的待处理声纹特征；根据所述标准声纹特征和所待识别语音数据对应的待处理声纹特征，获取相似度；当所述相似度大于或等于预设阈值时，则对本轮抢答成功的目标文字数据进行计分；当所述相似度小于预设阈值时，则对本轮抢答成功的目标文字数据不计分。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于语音识别的抢答游戏处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于语音识别的抢答游戏处理方法的步骤。