CN111128237B

CN111128237B - 语音评测方法、装置、存储介质和电子设备

Info

Publication number: CN111128237B
Application number: CN201911362364.3A
Authority: CN
Inventors: 王贺; 张特; 骆曦; 张頔; 徐放
Original assignee: Future Vipkid Ltd
Current assignee: Future Vipkid Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-12-30
Anticipated expiration: 2039-12-26
Also published as: CN111128237A

Abstract

本申请提供的语音评测方法、装置、存储介质和电子设备，获取第一视频，提取所述第一视频中的第一音频；获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。第一视频可以是系统中预存的标准视频，也可以是来自于教师录制的视频。通过将第一视频对应的第一音频和第二音频进行比对，可得到目标用户的语音评测结果。目标用户可根据语音评测结果了解自身的学习情况，并制订符合自身的学习计划，以方便后续的学习。

Description

语音评测方法、装置、存储介质和电子设备

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音评测方法、装置、存储介质和电子设备。

背景技术

随着互联网技术的发展，借助于互联网进行在线学习和在线教学已成为一种趋势。通过互联网在线学习，使学生可以随时随地学习，不必受限于场地、人数等环境因素。

但学生进行语音表达的发声练习时，在线学习系统往往没有评测机制，造成学生对自己的学习情况和提升程度了解较少，不利于学生的学习和进步。

发明内容

为了解决上述问题，本申请实施例提供了一种语音评测方法、装置和电子设备。

第一方面，本申请实施例提供了一种语音评测方法，包括以下步骤：

获取第一视频，提取所述第一视频中的第一音频；

获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。

可选地，所述根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果，包括：

对所述第一音频进行识别，得到第一文本，以及对所述第二音频进行识别，得到第二文本；

基于所述第一文本和所述第二文本，确定所述第一音频的校验起始点和校验结束点；

根据所述校验起始点和所述校验结束点，计算所述第一音频对应的第一语音信息；

计算所述第二音频对应的第二语音信息；

根据所述第一语音信息和所述第二语音信息，确定所述目标用户的语音评测结果。

可选地，所述根据所述校验起始点和所述校验结束点，计算所述第一音频对应的第一语音信息，包括：

将第一音频中所述校验起始点和所述校验结束点之间的音频数据拆分成至少一个第一子音频，计算所述至少一个第一子音频的第一发声频率，其中，所述第一语音信息包括所述至少一个第一发声频率；

所述计算所述第二音频的第二语音信息，包括：

将所述第二音频拆分成多个第二子音频，计算所述至少一个第二子音频的第二发声频率，其中，所述第二语音信息包括所述至少一个第二发声频率；

所述根据所述第一语音信息和所述第二语音信息，确定所述目标用户的语音评测结果，包括：

根据所述至少一个第一发声频率和所述至少一个第二发声频率，计算所述目标用户的节奏信息；

根据所述节奏信息，确定所述目标用户的语音评测结果。

可选地，所述根据所述节奏信息，确定所述目标用户的语音评测结果，包括：

根据所述第一文本和所述第二文本，计算所述目标用户的准确率信息；

根据所述节奏信息和所述准确率信息，确定所述目标用户的语音评测结果。

可选地，所述方法还包括：

对所述第一音频进行识别，生成所述第一视频的字幕，并将所述字幕添加到所述第一视频中；

所述获取来自目标用户的第二音频，包括：

基于所述目标用户的播放指令，播放添加字幕后的所述第一视频；

获取来自所述目标用户的所述第二音频，所述第二音频为所述目标用户基于所述添加字幕后的第一视频生成的。

可选地，所述方法还包括：

识别所述字幕中的关键词；以及

根据用户指令控制词典的开启和/或关闭，所述词典用于对所述关键词进行解析。

可选地，所述方法还包括：

根据所述语音评测结果和/或所述第一视频，确定至少一个推荐视频；以及

向所述目标用户推荐所述推荐视频。

第二方面，本申请实施例提供了一种语音评测装置，包括：

提取单元，用于获取第一视频，提取所述第一视频中的第一音频；

获取单元，用于获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

确定单元，用于根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

附图说明

图1为可以应用本申请实施例的语音评测方法或装置的示例性系统架构的示意图；

图2是本申请实施例提供的一种语音评测方法的流程示意图；

图3是本申请实施例提供的一种确定目标用户语音的语音评测结果方法的流程示意图；

图4是本申请实施例提供的另一种语音评测方法的流程示意图；

图5是本申请实施例提供的一种语音评测装置的结构示意图；

图6为本申请实施例所涉及的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

图1为可以应用本申请实施例的语音评测方法或装置的示例性系统架构的示意图。如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，终端104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

终端设备101、102、103可以是设置有语音采集功能的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。目标用户可以使用终端设备101、102、103通过网络104与服务器105交互，进行在线学习或在线教学。终端设备101、102、103采集目标用户发出的音频信号或视频信号，并将音频信号或视频信号发送给服务器105。服务器105提取第一视频中包含的第一音频，第一视频可以是系统中预存的标准视频，也可以是来自于教师录制的视频。服务器105基于第一音频和目标用户的音频信号或视频信号，得到目标用户的语音评测结果，用以指导目标用户后续的学习。

参见图2，图2是本申请实施例提供的一种语音评测方法的流程示意图，在本申请实施例中，所述方法包括：

S201、获取第一视频，提取所述第一视频中的第一音频。

第一视频可以是系统中预存的标准视频，或来自于教师录制的视频。第一视频中提取出来的第一音频可以是带有标准发音的音频。第一音频作为语音评测方法的比对标准。本申请实施例的方法基于目标用户发出的第二音频与第一音频的匹配程度，对目标用户的语言进行评测。

S202、获取来自目标用户的第二音频，所述第二音频对应于所述第一音频。

用户终端上可安装有麦克风等音频采集设备，采集目标用户的第二音频信息，并将第二音频信息发送给服务器端。用户终端可通过多种方式采集目标用户的第二音频。例如，用户终端播放第一视频，并引导目标用户跟随第一视频进行跟读。用户终端也可直接显示第一音频对应的文本信息，引导目标用户朗读该文本信息。

可选地，上述第一音频和第二音频都以无损格式进行存储，例如WAV、FLAC、APE、ALAC、WavPack(WV)等。通过无损格式存储上述音频数据，相比通过有损格式存储上述音频数据，可提高语音评测结果的准确性。

S203、根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。

可先分别确定第一音频和第二音频的特征信息，特征信息包括但不限于：音强、音高、音长和音色等。再根据第一音频和第二音频的特征信息，确定所述目标用户的语音评测结果。语音评测结果表征了目标用户的口语能力评估的结果。语音评测结果可通过分数、等级等多种形式来表示。如语音评测结果可以是满分为100分或10分的分数。评估结果还可以表示为优秀、较好、一般、较差等。

本申请实施例提供的语音评测方法，通过将第一视频对应的第一音频和来自目标用户的第二音频进行比对，可得到目标用户的语音评测结果。因此，本申请实施例的方法可解决在线学习系统往往没有评测机制，造成学生对自己的学习情况和提升程度了解较少的问题。

可选地，步骤S203包括：

计算所述第二音频对应的第二语音信息；

由于目标用户经常无法完整跟读全部的音频内容，即目标用户发出的第二音频常常是第一音频的一部分。可先通过语音识别技术，分别识别出第一音频对应的文字信息和第二音频对应的文字信息。在第一音频对应的文字信息上，找到与第二音频对应的文字信息匹配的位置信息，即在第一音频上确定出的校验起始点和校验结束点。

第一语音信息为可用于以表征第一音频的特征信息，第一语音信息包括但不限于：音强、音高、音长和音色等。第二语音信息为可用于表征第二音频的特征信息，第二语音信息包括但不限于：音强、音高、音长和音色等。计算校验起始点和校验结束点之间的第一音频的第一语音信息，再根据第一语音信息和第二语音信息，确定目标用户的语音评测结果。

所述计算所述第二音频的第二语音信息，包括：

根据所述节奏信息，确定所述目标用户的语音评测结果。

人们说话时，词与词之间存在一定的时间间隔。如某音频为用户说“在线学习”的音频，该音频中可能存在有3个时间间隔，将该音频分为4个子音频。4个子音频分别对应了“在”、“线”、“学”和“习”。

可先预设时间间隔，再以该时间间隔，将音频文件分为多个子音频文件。在较理想的情况下，上述子音频文件分别对应了单个字或词。上述时间间隔可根据实际需要和经验进行设定。需要说明的是，如时间间隔设置的过大，则分割后的子音频文件中可能包含了多个字或词，可能使后续基于子音频文件的语音评测结果不准确。如时间间隔设置的过小，则可能将同一单词拆分到不同的子音频文件中。如英文单词“apple”的发音音标为

则可能被拆分到

和/pl/的两个子音频文件中。

节奏信息可用于表征用户发声时的韵律和节拍与标准音频的匹配程度。节奏信息可通过分数、等级等多种形式来表示。发声频率是用户发声时声音的振动频率，用户朗读不同字或单词时，其发声频率都是不一样的。可通过发声频率的比对，确定目标用户的节奏信息。用户的发音是否标准，用户的外语说的是否流利和地道，很大程度取决于用户发出音频中的节奏信息。

根据预设时间间隔，将校验起始点和校验结束点之间的第一音频拆分成多个第一子音频，并计算所述多个第一子音频的多个第一发声频率。根据预设时间间隔，将所述第二音频拆分成多个第二子音频，计算所述多个第二子音频的多个第二发声频率。根据所述多个第一发声频率和所述多个第二发声频率，计算所述目标用户的节奏信息。根据所述节奏信息，确定所述目标用户的语音评测结果。具体地，如果第一发声频率与第二发声频率的匹配数量较多，则目标用户的节奏信息可以为较好，目标用户的语音评测结果也为较好。如果第一发声频率与第二发声频率的匹配数量较少，则目标用户的节奏信息可以为较差，目标用户的语音评测结果也较差。

可选地，所述方法还包括：

向所述目标用户推荐所述推荐视频。

当目标用户播放了至少一个第一视频后，可根据语音评测结果和/或用户播放的第一视频的特征信息，确定目标用户的兴趣倾向。第一视频记录的特征信息包括但不限于：视频题材、视频类型、视频作者、相关人物等。可根据用户的兴趣倾向，为目标用户添加标签，标签可包括兴趣题材、兴趣类型、兴趣人物等。并根据用户的兴趣倾向，向用户推荐相关视频，以使用户可较方便地查找到感兴趣的视频。

参见图3，图3是本申请实施例提供的一种确定目标用户的语音评测结果方法的流程示意图，在本申请实施例中，所述方法包括：

S301、对所述第一音频进行识别，得到第一文本，以及对所述第二音频进行识别，得到第二文本。

S302、基于所述第一文本和所述第二文本，确定所述第一音频的校验起始点和校验结束点。

S303、将第一音频中所述校验起始点和所述校验结束点之间的音频数据拆分成至少一个第一子音频，计算所述至少一个第一子音频的第一发声频率，其中，所述第一语音信息包括所述至少一个第一发声频率。

S304、将所述第二音频拆分成多个第二子音频，计算所述至少一个第二子音频的第二发声频率，其中，所述第二语音信息包括所述至少一个第二发声频率。

S305、根据所述至少一个第一发声频率和所述至少一个第二发声频率，计算所述目标用户的节奏信息。

S306、根据所述第一文本和所述第二文本，计算所述目标用户的准确率信息。

具体地，第一音频对应的文字信息和第二音频对应的文字信息匹配的越多，目标用户的准确率越高；第一音频对应的文字信息和第二音频对应的文字信息匹配的越少，目标用户的准确率越低。

S307、根据所述节奏信息和所述准确率信息，确定所述目标用户的语音评测结果。

可通过多种方式确定目标用户的语音评测结果。具体地，在节奏信息和准确率信息都为数值的情况下，可为节奏信息和准确率信息设置不同的系数，再将两者分别乘以对应，最后加和，确定目标用户的语音评测结果。在节奏信息和准确率信息都通过等级表示的情况下，可根据系统中的预设关系，确定目标用户的语音评测结果。如节奏信息为较好、准确率信息为高、则目标用户的语音评测结果可为较好。节奏信息为较差、准确率信息为高、则目标用户的语音评测结果可为一般。

节奏信息可用于表征用户发声时的韵律和节拍与标准音频的匹配程度。用户的发音是否标准，用户的外语说的是否流利和地道，很大程度取决于用户发出音频中的节奏信息。本申请实施例提供的确定目标用户的语音评测结果的方法，综合考虑了目标用户发出的音频信息的节奏信息和准确率信息。因此，本申请实施例提供的确定目标用户的语音评测结果的方法可较准确地确定出目标用户的语音评测结果。

参见图4，图4是本申请实施例提供的一种语音评测方法的流程示意图，在本申请实施例中，所述方法包括：

S401、获取第一视频，提取所述第一视频中的第一音频。

S402、对所述第一音频进行识别，生成所述第一视频的字幕，并将所述字幕添加到所述第一视频中。

可通过语音识别技术，识别第一音频中的文字信息，并根据该文字信息，生成第一视频的字幕。

S403、基于所述目标用户的播放指令，播放添加字幕后的所述第一视频。

可选地，S403可包括：

识别所述字幕中的关键词，

可在系统中预先设定第一视频中的关键词，在播放添加字幕后的第一视频的过程中，以高亮或不同颜色等方式突出显示字幕中的关键词。系统可接收用户指令，以控制词典功能的开启或关闭，词典中可包含有对关键词的注释、发音、例句等内容。

S404、获取来自所述目标用户的所述第二音频，所述第二音频为所述目标用户基于所述添加字幕后的第一视频生成的。

系统可将第一视频中原有的语音信息去除或静音，使用户可针对添加字幕后的第一视频进行朗读，用户可感觉自己像是在对第一视频进行“配音”。

进一步地，采集来自所述目标用户的第二视频，所述第二视频对应于所述第二音频；将所述添加字幕后的第一视频和所述第二视频组合成为播放视频；播放所述播放视频。

通过上述方式，用户可通过视频画面同时观看到原有第一视频和自己的第二视频，提高了用户学习的趣味性。

S405、根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。

本申请实施例提供的语音评测方法，使用户可对添加字幕后的第一视频进行朗读，用户可感觉自己像是在对第一视频进行“配音”，提升了用户学习的乐趣，增加了学习过程中的互动性，可提升用户主动学习的积极性。

上述图2～图4详细阐述了本申请实施例的语音评测方法。请参见图5，图5是本申请实施例提供的一种语音评测装置的结构示意图，如图5所示，所述语音评测装置包括：

提取单元501，用于获取第一视频，提取所述第一视频中的第一音频；

获取单元502，用于获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

确定单元503，用于根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果。

可选地，所述确定单元503具体用于：

计算所述第二音频对应的第二语音信息；

可选地，所述确定单元503具体用于：

所述确定单元503具体用于：

根据所述节奏信息，确定所述目标用户的语音评测结果。

可选地，所述确定单元503具体用于：

可选地，所述装置还包括：

文字识别单元504，用于对所述第一音频进行识别，生成所述第一视频的字幕，并将所述字幕添加到所述第一视频中；

所述获取单元502具体用于：

可选地，所述获取单元502具体用于：

识别所述字幕中的关键词；以及

可选地，所述装置还包括：

推荐单元505：用于根据所述语音评测结果和/或所述第一视频，确定至少一个推荐视频；以及

向所述目标用户推荐所述推荐视频。

本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等。

本申请实施例的各处理单元和/或模块，可通过实现本申请实施例所述的功能的模拟电路而实现，也可以通过执行本申请实施例所述的功能的软件而实现。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述语音评测方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

参见图6，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施上述实施例中语音评测方法。具体来讲：

存储器620可用于存储软件程序以及模块，处理器690通过运行存储在存储器620的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器620还可以包括存储器控制器，以提供处理器690和输入单元630对存储器620的访问。

输入单元630可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元630可包括触敏表面631(例如：触摸屏、触摸板或触摸框)。触敏表面631，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631上或在触敏表面631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器690，并能接收处理器690发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的，触敏表面631可覆盖显示面板641，当触敏表面631检测到在其上或附近的触摸操作后，传送给处理器690以确定触摸事件的类型，随后处理器690根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触敏表面631与显示面板641是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面631与显示面板641集成而实现输入和输出功能。

处理器690是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器690可包括一个或多个处理核心；其中，处理器690可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器690中。

具体在本实施例中，终端设备的显示单元是触摸屏显示器，终端设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现上述语音评测方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上介绍仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音评测方法，其特征在于，所述方法包括：

获取第一视频，提取所述第一视频中的第一音频；

根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果；

其中，所述根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果，包括：对所述第一音频进行识别，得到第一文本，以及对所述第二音频进行识别，得到第二文本；基于所述第一文本和所述第二文本，确定所述第一音频的校验起始点和校验结束点；根据所述校验起始点和所述校验结束点，计算所述第一音频对应的第一语音信息；计算所述第二音频对应的第二语音信息；根据所述第一语音信息和所述第二语音信息，确定所述目标用户的语音评测结果；

所述根据所述校验起始点和所述校验结束点，计算所述第一音频对应的第一语音信息，包括：将第一音频中所述校验起始点和所述校验结束点之间的音频数据拆分成至少一个第一子音频，计算所述至少一个第一子音频的第一发声频率，其中，所述第一语音信息包括所述至少一个第一发声频率；所述计算所述第二音频的第二语音信息，包括：将所述第二音频拆分成多个第二子音频，计算所述至少一个第二子音频的第二发声频率，其中，所述第二语音信息包括所述至少一个第二发声频率；所述根据所述第一语音信息和所述第二语音信息，确定所述目标用户的语音评测结果，包括：根据所述至少一个第一发声频率和所述至少一个第二发声频率，计算所述目标用户的节奏信息；根据所述节奏信息，确定所述目标用户的语音评测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述节奏信息，确定所述目标用户的语音评测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述获取来自目标用户的第二音频，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

识别所述字幕中的关键词；以及

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

向所述目标用户推荐所述推荐视频。

6.一种语音评测装置，其特征在于，所述装置包括：

确定单元，用于根据所述第一音频和所述第二音频，确定所述目标用户的语音评测结果；

所述确定单元，具体用于对所述第一音频进行识别，得到第一文本，以及对所述第二音频进行识别，得到第二文本；基于所述第一文本和所述第二文本，确定所述第一音频的校验起始点和校验结束点；根据所述校验起始点和所述校验结束点，计算所述第一音频对应的第一语音信息；计算所述第二音频对应的第二语音信息；根据所述第一语音信息和所述第二语音信息，确定所述目标用户的语音评测结果；

所述确定单元具体用于：将第一音频中所述校验起始点和所述校验结束点之间的音频数据拆分成至少一个第一子音频，计算所述至少一个第一子音频的第一发声频率，其中，所述第一语音信息包括所述至少一个第一发声频率；

所述确定单元具体用于：将所述第二音频拆分成多个第二子音频，计算所述至少一个第二子音频的第二发声频率，其中，所述第二语音信息包括所述至少一个第二发声频率；

所述确定单元具体用于：根据所述至少一个第一发声频率和所述至少一个第二发声频率，计算所述目标用户的节奏信息；根据所述节奏信息，确定所述目标用户的语音评测结果。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-5中任一项所述方法的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-5中任一项所述方法的步骤。