CN113838479B

CN113838479B - 单词发音评测方法、服务器及系统

Info

Publication number: CN113838479B
Application number: CN202111256490.8A
Authority: CN
Inventors: 于仲海; 许丽星; 王凯欣
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-10-24
Anticipated expiration: 2041-10-27
Also published as: CN113838479A

Abstract

本申请实施例公开了一种单词发音评测方法、服务器及系统，属于音频信号处理技术领域。所述方法包括：接收第一用户终端发送的发音评测请求，基于单词拼写内容，获取第一单词的整体标准发音音频以及第一单词中各个音节的标准发音音频，基于该用户发音音频、第一单词的整体标准发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果，基于各个音节的发音评测结果，确定第一单词的整体发音评测结果，向第一用户终端发送第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。本申请实施例通过各个音节的发音评测结果能够精确地确定出第一单词的整体发音评测结果，从而提高了单词发音评测的准确性。

Description

单词发音评测方法、服务器及系统

技术领域

本申请实施例涉及音频信号处理技术领域，特别涉及一种单词发音评测方法、服务器及系统。

背景技术

随着生活水平的提高，人们对教育问题越来越关注。目前，智能教育领域的教学工具和辅助手段日益丰富。用户能够通过教学工具和辅助手段对学生的发音音频进行评测，以此来评价学生的口语能力。因此，如何进行单词发音评测成为目前亟待解决的问题。

发明内容

本申请实施例提供了一种单词发音评测方法、服务器及系统。所述技术方案如下：

一方面，提供了一种单词发音评测方法，所述方法包括：

接收第一用户终端发送的发音评测请求，所述发音评测请求携带第一用户关于第一单词的用户发音音频和所述第一单词的单词拼写内容；

基于所述单词拼写内容，获取所述第一单词的整体标准发音音频以及所述第一单词中各个音节的标准发音音频；

基于所述用户发音音频、所述第一单词的整体标准发音音频和所述各个音节的标准发音音频，确定所述各个音节的发音评测结果；

基于所述各个音节的发音评测结果，确定所述第一单词的整体发音评测结果；

向所述第一用户终端发送所述第一单词的整体发音评测结果和所述第一单词中各个音节的发音评测结果。

另一方面，提供了一种单词发音评测装置，所述装置包括：

第一接收模块，用于接收第一用户终端发送的发音评测请求，所述发音评测请求携带第一用户关于第一单词的用户发音音频和所述第一单词的单词拼写内容；

第一获取模块，用于基于所述单词拼写内容，获取所述第一单词的整体标准发音音频以及所述第一单词中各个音节的标准发音音频；

第一确定模块，用于基于所述用户发音音频、所述第一单词的整体标准发音音频和所述各个音节的标准发音音频，确定所述各个音节的发音评测结果；

第二确定模块，用于基于所述各个音节的发音评测结果，确定所述第一单词的整体发音评测结果；

第一发送模块，用于向所述第一用户终端发送所述第一单词的整体发音评测结果和所述第一单词中各个音节的发音评测结果。

另一方面，提供了一种服务器，所述服务器包括处理器，所述处理器用于：

另一方面，提供了一种单词发音评测系统，所述系统包括第一用户终端和服务器；

所述服务器用于执行上述所述的单词发音评测方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述单词发音评测方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述所述的单词发音评测方法的步骤。

本申请实施例提供的技术方案至少可以带来以下有益效果：

本申请实施例中，在获取到第一用户关于第一单词的用户发音音频之后，能够基于第一用户关于第一单词的用户发音音频，对第一单词中各个音节的发音进行评测，进而通过各个音节的发音评测结果对第一单词的整体发音进行评测。由于第一用户关于第一单词的用户发音音频包括第一单词中各个音节的发音音频，所以，通过各个音节的发音评测结果能够精确地确定出第一单词的整体发音评测结果，从而提高了单词发音评测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构的示意图；

图2是本申请实施例提供的一种单词发音评测方法的流程图；

图3是本申请实施例提供的一种确定第一单词的整体发音评测结果的示意图；

图4是本申请实施例提供的一种向第一用户终端推荐题目的示意图；

图5是本申请实施例提供的另一种向第一用户终端推荐题目的示意图；

图6是本申请实施例提供的一种整体流程的示意图；

图7是本申请实施例提供的一种单词发音评测装置的结构示意图；

图8是本申请实施例提供的一种终端的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的单词发音评测方法进行详细的解释说明之前，先对本申请实施例提供的系统架构进行介绍。

请参考图1，图1是根据一示例性实施例示出的一种单词发音评测系统的架构示意图。该单词发音评测系统包括第一用户终端101和服务器102，第一用户终端101与服务器102进行通信连接。该通信连接可以为有线或者无线连接，本申请实施例对此不做限定。

在进行第一单词的发音评测时，第一用户通过读第一单词，以得到第一用户关于第一单词的用户发音音频。这样，第一用户终端101向服务器102发送发音评测请求，该发音评测请求携带第一用户关于第一单词的用户发音音频和第一单词的单词拼写内容。服务器102接收第一用户终端101发送的发音评测请求，基于第一单词的单词拼写内容，获取第一单词的整体标准发音音频以及第一单词中各个音节的标准发音音频，然后，基于该用户发音音频、第一单词的整体标准发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果，进而基于各个音节的发音评测结果，确定第一单词的整体发音评测结果。

之后，服务器102向第一用户终端101发送第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。第一用户终端101接收服务器102发送的第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果，并将第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果呈现给用户。

其中，第一用户终端101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(PersonalComputer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。

服务器102可以是一台独立的服务器，也可以是由多台物理服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是一个云计算服务中心。

本领域技术人员应能理解上述第一用户终端101和服务器102仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请实施例，也应包含在本申请实施例保护范围以内，并在此以引用方式包含于此。

需要说明的是，本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来对本申请实施例提供的单词发音评测方法进行详细的解释说明。

图2是本申请实施例提供的一种单词发音评测方法的流程图，请参考图2，该方法包括如下步骤。

步骤201：第一用户终端向服务器发送发音评测请求，该发音评测请求携带第一用户关于第一单词的用户发音音频和第一单词的单词拼写内容。

第一用户终端在用户界面中显示第一单词的单词拼写内容，在第一用户获知第一单词的单词拼写内容的情况下，录制第一用户关于第一单词的用户发音音频。即，当第一用户终端检测到第一用户的录制操作时，录制第一用户关于第一单词的用户发音音频。之后，第一用户终端向服务器发送发音评测请求，该发音评测请求携带第一用户关于第一单词的用户发音音频和第一单词的单词拼写内容。

示例地，第一用户终端在用户界面中显示第一单词的单词拼写内容时，用户界面上还包括“录制”的按钮，第一用户可以点击该按钮来触发录制操作。

步骤202：服务器接收第一用户终端发送的发音评测请求，基于第一单词的单词拼写内容，获取第一单词的整体标准发音音频以及第一单词中各个音节的标准发音音频。

服务器在接收到第一用户终端发送的发音评测请求之后，基于第一单词的单词拼写内容，从标准音频库中获取第一单词的整体标准发音音频。基于第一单词的单词拼写内容，从音标库中获取第一单词的整体音标。对第一单词的整体音标进行分割，以得到第一单词中各个音节的音标。基于各个音节的音标，从标准音频库中获取各个音节的标准发音音频。

其中，标准音频库存储有单词拼写内容与单词的整体标准发音音频之间的对应关系。因此，服务器接收到发音评测请求后，基于第一单词的单词拼写内容，从该标准音频库存储的单词拼写内容与单词的整体标准发音音频之间的对应关系中，获取对应的整体标准发音音频，将获取的整体标准发音音频确定为第一单词的整体标准发音音频。

音标库存储有单词拼写内容与单词的整体音标之间的对应关系。因此，服务器基于第一单词的单词拼写内容，从该音标库存储的单词拼写内容与单词的整体音标之间的对应关系中，获取对应的整体音标，将获取的整体音标确定为第一单词的整体音标。

标准音频库还存储有音节的音标与音节的标准发音音频之间的对应关系。因此，服务器基于第一单词中各个音节的音标，从该标准音频库存储的音节的音标与音节的标准发音音频之间的对应关系中，获取第一单词中各个音节的标准发音音频。

例如，第一单词为classical，服务器能够基于第一单词classical的单词拼写内容，从标准音频库中获取classical的整体标准发音音频。基于第一单词classical的单词拼写内容，从音标库中获取第一单词classical的整体音标为对第一单词classical的整体音标/>进行分割，以得到第一单词classical中各个音节的音标，分别为音标k、音标l、音标/>音标s、音标I、音标k以及音标l。基于classical中各个音节的音标，从标准音频库中获取classical中各个音节的标准发音音频。

步骤203：服务器基于该用户发音音频、第一单词的整体标准发音音频和第一单词中各个音节的标准发音音频，确定各个音节的发音评测结果。

服务器将该用户发音音频与第一单词的整体标准发音音频进行匹配，以从该用户发音音频中确定第一单词的起始发音位置和结束发音位置。基于第一单词中各个音节的标准发音音频，按照各个音节的顺序，从该用户发音音频中位于起始发音位置与结束发音位置之间的音频段中截取出各个音节的发音音频。基于该用户发音音频中各个音节的发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果。

由于该用户发音音频中不仅包括第一用户读第一单词的音频，还可能包括一些额外的噪音音频。因此，服务器在确定第一单词中各个音节的发音评测结果之前，需要将该用户发音音频与第一单词的整体标准发音音频进行匹配，以确定第一单词的起始发音位置和结束发音位置，然后通过位于该起始发音位置和结束发音位置之间的音频段来确定各个音节的发音评测结果。这样，能够提高服务器确定第一单词中各个音节的发音评测结果的准确度。

服务器将该用户发音音频与第一单词的整体标准发音音频进行匹配的过程中，由于每个用户的发音时长不同，第一用户读第一单词的音频的时长无法完全与第一单词的整体标准发音音频的时长保持一致。因此，采用动态时间弯曲算法，将该用户发音音频与第一单词的整体标准发音音频进行相似度匹配。

例如，服务器将该用户发音音频与第一单词的整体标准发音音频进行随机匹配，将两个音频信号相似度最高的时间段的起始位置作为第一单词的起始发音位置，将该时间段的结束位置作为第一单词的结束发音位置，将位于该起始发音位置和结束发音位置之间的音频段作为第一用户读第一单词的音频。

作为一种示例，服务器基于第一单词中各个音节的标准发音音频，按照各个音节的顺序，从该用户发音音频中位于起始发音位置与结束发音位置之间的音频段中截取出各个音节的发音音频的实现过程包括：从该音频段中的起始发音位置开始，将该音频段与第一个音节的标准发音音频进行匹配，以从该音频段中确定与第一个音节的标准发音音频之间的相似度最高的时间段，将该音频段中位于该时间段内的音频作为第一单词中第一个音节的发音音频。然后，从第一个音节的结束发音位置开始，将该音频段与第二个音节的标准发音音频进行匹配，以从该音频段中确定与第二个音节的标准发音音频之间的相似度最高的时间段，将该音频段中位于该时间段内的音频作为第一单词中第二个音节的发音音频。对于第一单词中的各个音节均按照上述方法依次从该音频段中截取出各个音节的发音音频。

需要说明的是，如果从该音频段中无法找到与第一单词中某个音节的标准发音音频具有相似度的时间段，则从该音节的下一个音节开始匹配。同时，将上一个音节的结束发音位置和下一个音节的起始发音位置之间的音频作为该音节的发音音频。

例如，对于第一单词classical，classical中包括的各个音节分别为音节k、音节l、音节音节s、音节ih、音节k以及音节l。如果从该音频段中无法找到与第一单词classical中的第二个音节l的标准发音音频具有相似度的时间段，则从第三个音节/>开始匹配。将第一个音节k的结束发音位置和第三个音节/>的起始发音位置之间的音频作为第二个音节l的发音音频。

在一些实施例中，服务器基于用户发音音频中第一单词中各个音节的发音音频和各个音节的标准发音音频，确定用户发音音频中各个音节的发音音频和各个音节的标准发音音频之间的相似度，进而基于用户发音音频中各个音节的发音音频和各个音节的标准发音音频之间的相似度，确定各个音节的发音评测结果。

由于该用户发音音频中每个音节的发音评测结果的确定方式相同，因此，接下来以其中一个音节为例，对该音节对应的发音评测结果的确定方式进行介绍。为了便于描述，将该音节称为第一音节。

作为一种示例，服务器可以按照下述步骤(1)-(5)，确定第一音节的发音评测结果。

(1)服务器对该用户发音音频中第一音节的发音音频进行采样，以得到n个采样点，第一音节为第一单词中的任一音节，n为大于1的整数。

(2)服务器对第一音节的标准发音音频进行采样，以得到m个采样点，m为大于1的整数。

在一些实施例中，服务器可以按照相同的采样频率，对该用户发音音频中第一音节的发音音频和第一音节的标准发音音频进行采样，也可以按照不同的采样频率进行采样。

在采样频率相同的情况下，如果该用户发音音频中第一音节的发音音频与第一音节的标准发音音频的时长相同，则该用户发音音频中第一音节的发音音频的采样点的数量与第一音节的标准发音音频的采样点的数量相同。即，上述的n和m相等。如果该用户发音音频中第一音节的发音音频与第一音节的标准发音音频的时长不同，则该用户发音音频中第一音节的发音音频的采样点的数量与第一音节的标准发音音频的采样点的数量不同。即，上述的n和m不相等。

在采样频率不同的情况下，该用户发音音频中第一音节的发音音频的采样点的数量与第一音节的标准发音音频的采样点的数量可能相同，也可能不同。即，上述的n和m可能相等，也可能不相等。这是由于采样点的数量不仅与采样频率相关，还与用户发音音频中第一音节的发音音频的时长以及第一音节的标准发音音频的时长相关。

在另一些实施例中，服务器可以事先设置n和m的大小。此时，服务器可以按照任何一种采样方式对该用户发音音频中第一音节的发音音频进行采样，只要能够得到n个采样点即可。同理，服务器可以按照任何一种采样方式对第一音节的标准发音音频进行采样，只要能够得到m个采样点即可。也即是，服务器无需考虑采样频率以及用户发音音频中第一音节的发音音频与第一音节的标准发音音频的时长是否相同。

(3)服务器确定n个采样点中每个采样点与m个采样点中每个采样点之间的欧式距离，以得到第一音节对应的距离矩阵，距离矩阵的大小为n×m。

作为一种示例，服务器可以按照如下公式(1)来确定两个采样点之间的欧式距离。

其中，在上述公式(1)中，d(q₁,c₁)为n个采样点中的采样点q₁和m个采样点中的采样点c₁之间的欧式距离，为采样点q₁的幅度，/>为采样点c₁的幅度，/>为采样点q₁的时间，为采样点c₁的时间。

例如，服务器对该用户发音音频中第一音节的发音音频进行采样，得到4个采样点，分别为q₁、q₂、q₃和q₄。服务器对第一音节的标准发音音频进行采样，得到5个采样点，分别为c₁、c₂、c₃、c₄和c₅。服务器确定4个采样点中每个采样点与5个采样点中每个采样点之间的欧式距离，得到第一音节对应的距离矩阵为距离矩阵的大小为4×5。

(4)服务器基于第一音节对应的距离矩阵，确定该距离矩阵中各个元素对应的累计距离。

由于该距离矩阵中每个元素对应的累计距离的确定方式相同，因此，接下来以其中一个元素为例，对该元素对应的累计距离的确定方式进行介绍。为了便于描述，将该元素称为第一元素。

作为一种示例，服务器基于第一音节对应的距离矩阵，可以按照如下公式(2)来确定该距离矩阵中第一元素对应的累计距离，第一元素为该距离矩阵中的任一元素。

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)} (2)

其中，在上述公式(2)中，γ(i,j)为第一元素的累计距离，d(q_i,c_j)为第一元素，q_i为n个采样点中的第i个采样点，c_j为m个采样点中的第j个采样点。

(5)服务器基于得到的所有累计距离中的最小累计距离，确定第一音节的发音评测结果。

其中，第一音节的发音评测结果可以是第一音节的发音分数，还可以是优、良、中、差的等级。当然，第一音节的发音评测结果还可以是其他的方式，本申请实施例对此不做限定。

如果第一音节的发音评测结果是第一音节的发音分数，则将最小累计距离的倒数确定为第一音节的发音分数。也即是，最小累计距离越小，用户发音音频中第一音节的发音音频和第一音节的标准发音音频之间的相似度越高，因此，第一音节的发音分数越高。

其中，如果最小累计距离为0，则表明用户发音音频中第一音节的发音音频和第一音节的标准发音音频之间完全相似，此时，第一音节的发音分数为100。

如果第一音节的发音评测结果是优、良、中、差的等级，则服务器基于最小累计距离，从存储的距离范围与等级之间的对应关系中，获取对应的等级，将获取的等级确定为第一音节的发音评测结果。

其中，如果最小累计距离为0，则表明用户发音音频中第一音节的发音音频和第一音节的标准发音音频之间完全相似，此时，第一音节的等级为优。

需要说明的是，在上述两种情况中，如果最小累计距离大于1，则对最小累计距离进行归一化处理，使得归一化后的最小累计距离大于或等于0且小于或等于1。这样，能够将第一音节的发音分数的范围缩小至1-100，同时，简化服务器存储的距离范围。

作为一种示例，服务器可以按照如下公式(3)来对最小累计距离进行归一化处理。

其中，在上述公式(3)中，x’_i为归一化后的最小累计距离，x_i为归一化前的最小累计距离，x_max为所有累计距离中的最大值。

步骤204：服务器基于第一单词中各个音节的发音评测结果，确定第一单词的整体发音评测结果。

基于上文描述，各个音节的发音评测结果可以是各个音节的发音分数，或者还可以是优、良、中、差的等级。在不同的情况下，服务器确定第一单词的整体发音评测结果的过程有所不同，因此接下来将分为以下两种情况分别进行说明。

第一种情况，各个音节的发音评测结果是各个音节的发音分数。此时，服务器可以将各个音节的发音分数取平均值，以得到第一单词的整体得分，将第一单词的整体得分确定为第一单词的整体发音评测结果。或者，服务器还可以将各个音节的发音分数按照各个音节对应的权重进行加权求和，以得到第一单词的整体得分，将第一单词的整体得分确定为第一单词的整体发音评测结果。

其中，管理员可以事先标注各个单词中的各个音节对应的权重，也即是，管理员按照各个音节的重要程度标注各个音节对应的权重，之后，管理员在服务器中存储单词拼写内容、音节与音节的权重之间的对应关系。这样，服务器确定第一单词的整体发音评测结果时，基于第一单词的单词拼写内容以及第一单词中各个音节，从存储的单词、音节与音节的权重之间的对应关系中，获取第一单词中各个音节对应的权重，进而将各个音节的发音分数按照各个音节对应的权重进行加权求和，以得到第一单词的整体得分，将第一单词的整体得分确定为第一单词的整体发音评测结果。

示例地，请参考图3，图3是本申请实施例提供的一种确定第一单词的整体发音评测结果的示意图。在图3中，服务器基于classical的单词拼写内容，获取classical的整体标准发音音频以及classical中各个音节的标准发音音频，基于classical的用户发音音频、classical的整体标准发音音频和classical中各个音节的标准发音音频，确定各个音节的发音分数分别为98、85、53、95、79、90、91，将各个音节的发音分数取平均值，得到classical的整体得分为84，即classical的整体发音评测结果为84。

第二种情况，各个音节的发音评测结果是优、良、中、差的等级。此时，服务器可以将各个音节的等级进行统计计算，以得到第一单词的整体等级，将第一单词的整体等级确定为第一单词的整体发音评测结果。

服务器确定第一单词的整体等级时，基于各个音节的等级，从存储的等级与分数范围之间的对应关系中，获取各个音节对应的分数范围，然后将各个音节的分数范围的中值取平均值，以得到第一单词的整体得分，进而基于第一单词的整体得分，从存储的等级与分数范围之间的对应关系中，获取对应的等级，将获取的等级确定为第一单词的整体等级。

步骤205：服务器向第一用户终端发送第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。

步骤206：第一用户终端接收并显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。

作为一种示例，在第一用户终端接收到第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果时，能够通过弹窗的形式显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果，还能够通过悬浮窗的形式显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。当然，还可以通过其他的方式显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果，本申请实施例对第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果的显示方式不做限定。

第一用户终端显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果之后，第一用户能够获知本次的发音评测结果。在第一用户对本次的发音评测结果不满意的情况下，还可以收藏第一单词所在题目。即，当第一用户终端检测到第一用户的收藏操作时，向服务器发送题目收藏请求，该题目收藏请求用于指示第一用户收藏第一单词所在题目。服务器接收第一用户终端发送的题目收藏请求，题目收藏请求携带第一单词所在题目的题目标识，将题目标识、单词拼写内容、整体发音评测结果、各个音节的发音评测结果、用户发音音频、整体标准发音音频和各个音节的标准发音音频对应存储至第一用户对应的题目收藏列表。

第一用户的收藏操作包括点击、滑动等动作中的至少一种。示例地，第一用户终端在用户界面中显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果时，用户界面上还包括“收藏”的按钮，第一用户可以点击该按钮来触发收藏操作。

服务器将题目标识、单词拼写内容、整体发音评测结果、各个音节的发音评测结果、用户发音音频、整体标准发音音频和各个音节的标准发音音频对应存储至第一用户对应的题目收藏列表之后，还能够对第一用户所收藏的各个题目中的易错单词和易错音节进行统计，获得第一用户发音薄弱的单词和音节，进而基于第一用户发音薄弱的单词和音节推荐题目，以供第一用户更有针对性的进行单词发音练习。即，服务器基于第一用户对应的题目收藏列表，对第一用户所收藏的各个题目中的易错单词和易错音节进行统计，以得到第一用户对应的统计结果。确定第一用户对应的统计结果与存储的多个用户中除第一用户之外的其他用户对应的统计结果之间的相似度。如果该多个用户中存在至少一个第二用户，则向第一用户终端推荐该至少一个第二用户所收藏的题目，以供第一用户进行单词发音练习，第二用户为该多个用户中对应的统计结果与第一用户对应的统计结果之间的相似度大于相似度阈值的用户。

需要说明的是，易错单词为第一用户所收藏的各个题目中整体得分小于分数阈值或者整体等级低于设定等级的单词，易错音节为第一用户所收藏的各个题目中发音分数小于分数阈值或者等级低于设定等级的音节。

其中，相似度阈值、分数阈值以及设定等级是事先设置的，例如，相似度阈值为60％，即将该多个用户中对应的统计结果与第一用户对应的统计结果之间的相似度大于60％的用户作为第二用户。分数阈值为60分，即各个单词的整体得分以及各个音节的得分以60分为界，未达到60分则认为该单词或者该音节的发音不合格。设定等级为良，即各个单词的整体等级以及各个音节的等级以良为界，未达到良则认为该单词或者该音节的发音不合格。而且，相似度阈值、分数阈值以及设定等级还可以按照不同的需求来调整。

第一用户对应的统计结果包括易错单词的统计结果以及易错音节的统计结果。其中，易错单词的统计结果可以包括易错单词排行，还可以包括得分较低单词，易错音节的统计结果可以包括至少一个易错音节排行，还可以包括至少一个易错音节的分布情况，或者还可以包括至少一个得分较低音节。

如果该多个用户中存在统计结果与第一用户对应的统计结果之间的相似度大于相似度阈值的至少一个第二用户，则表明该至少一个第二用户的易错单词以及易错音节与第一用户的易错单词以及易错音节相似。由于第二用户所收藏的题目与第二用户的易错单词以及易错音节相关。因此，服务器将该至少一个第二用户所收藏的题目推荐给第一用户，以供第一用户更有针对性的进行单词发音练习。

示例地，请参考图4，图4本申请实施例提供的一种向第一用户终端推荐题目的示意图。在图4中，该多个用户分别为用户1、用户2以及用户3，假设，用户1为第一用户，服务器基于用户1对应的题目收藏列表，对用户1所收藏的各个题目中的易错单词和易错音节进行统计，以得到用户1对应的统计结果，该统计结果包括易错音节的分布情况、易错单词排行以及得分较低音节。同理，对用户2以及用户3所收藏的各个题目中的易错单词和易错音节进行统计，以得到用户2以及用户3对应的统计结果，该统计结果包括易错音节的分布情况、易错单词排行以及得分较低音节。确定用户1对应的统计结果与用户2对应的统计结果之间的相似度，以及确定用户1对应的统计结果与用户3对应的统计结果之间的相似度。假设，用户1对应的统计结果与用户3对应的统计结果之间的相似度大于相似度阈值，则将用户3确定为第二用户，并第二用户所收藏的题目A推荐给第一用户，以供第一用户进行单词发音练习。

基于上文描述，第一用户对应的统计结果中包括至少一个易错音节的分布情况。这样，如果该多个用户中不存在至少一个第二用户，则基于该至少一个易错单词的分布情况，从题目库中获取待推荐题目，待推荐题目包括的单词中含有至少一个易错音节，向第一用户终端发送待推荐题目，以供第一用户进行单词发音练习。

如果该多个用户中不存在统计结果与第一用户对应的统计结果之间的相似度大于相似度阈值的第二用户，则表明该多个用户中不存在与第一用户的易错单词和易错音节相似的用户。此时，服务器基于该至少一个易错单词的分布情况，从题目库中获取待推荐题目，向第一用户终端发送待推荐题目，以供第一用户进行单词发音练习。

服务器向第一用户终端发送待推荐题目的实现方式包括多种。例如，服务器将各个待推荐题目同时发送给第一用户终端。或者，服务器将各个待推荐题目，按照题目所包括的单词长度由短到长的顺序依次发送给第一用户终端。当然，服务器还可以通过其他的方式向第一用户终端发送待推荐题目，本申请实施例对服务器向第一用户终端发送待推荐题目的方式不做限定。

示例地，请参考图5，图5本申请实施例提供的另一种向第一用户终端推荐题目的示意图。在图5中，第一用户收藏第一单词所在题目。然后，服务器对第一用户所收藏的各个题目中的易错单词和易错音节进行统计，以得到第一用户对应的统计结果，确定第一用户对应的统计结果与存储的多个用户中除第一用户之外的其他用户对应的统计结果之间的相似度，如果该多个用户中存在至少一个第二用户对应的统计结果与第一用户对应的统计结果之间的相似度大于相似度阈值，则将该至少一个第二用户所收藏的题目推荐给第一用户终端，如果该多个用户中不存在至少一个第二用户，则从题目库中获取含有至少一个易错音节的待推荐题目，将该待推荐题目发送给第一用户终端。

由于第一用户对应的题目收藏列表包括多个类别的题目，为了更有针对性的将某一类别的题目推荐给第一用户进行单词发音练习。因此，第一用户收藏第一单词所在题目之后，还可以将所收藏的各个题目进行分类，以得到多个分类结果，并为该多个分类结果设置标签，以得到多个类别。

本申请实施例中，可以通过第一用户将所收藏的各个题目进行分类，以得到多个类别，也可以通过服务器将所收藏的各个题目进行分类，以得到多个类别。

第一用户将所收藏的各个题目进行分类，以得到多个类别的实现过程包括：当第一用户终端检测到第一用户的分类操作时，向服务器发送分类请求，该分类请求用于指示第一用户需要对所收藏的各个题目进行分类。服务器接收第一用户终端发送的分类请求，将第一用户对应的题目收藏列表发送给第一用户终端。当第一用户终端接收到服务器发送的题目收藏列表时，显示题目收藏列表。第一用户将题目收藏列表包括的多个题目按照题型、难度、错因进行分类，以得到多个分类结果，并为该多个分类结果中的每个分类结果设置对应的标签，以得到多个类别。

服务器将所收藏的各个题目进行分类，以得到多个类别的实现过程包括：当服务器接收到第一用户终端发送的分类请求时，将第一用户对应的题目收藏列表包括的多个题目按照事先存储的多个类别进行分类，以得到多个类别。例如，服务器存储的多个类别分别为整体得分小于60分、整体得分大于60分且小于80分、以及整体得分大于80分且小于100分，当服务器接收到第一用户终端发送的分类请求时，可以将第一用户对应的题目收藏列表包括的多个题目中整体得分小于60分的题目划分为第一类，将整体得分大于60分且小于80分的题目划分为第二类，将整体得分大于80分且小于100分的题目划分为第三类，从而得到三个类别。

其中，服务器存储的多个类别可以是难度低、难度中以及难度高，还可以是题型1、题型2、题型3以及题型4。当然，服务器存储的多个类别还可以是其他的方式，本申请实施例对此不做限定。

第一用户或服务器将所收藏的各个题目进行分类之后，第一用户能够查询某一类别所对应的分类结果中的各个题目，进而基于某一类别所对应的分类结果中的各个题目，对该类别所对应的分类结果中的各个题目进行针对性的单词发音练习。

由于第一用户查询各个类别所对应的分类结果中的各个题目的方式相同，因此，接下来以其中一个类别为例，对第一用户查询该类别所对应的分类结果中的各个题目的方式进行介绍。为了便于描述，将该类别称为第一类别。

第一用户终端向服务器发送查询请求，该查询请求携带第一类别。服务器接收第一用户终端发送的查询请求，向第一用户终端发送第一类别所对应的分类结果中的各个题目。第一用户终端接收到第一类别所对应的分类结果中的各个题目时，显示第一类别所对应的分类结果中的各个题目，以供第一用户进行单词发音练习。

其中，第一类别为多个类别中的一个，该多个类别与多个分类结果一一对应，该多个分类结果是对第一用户所收藏的各个题目进行分类得到，一个分类结果包括至少一个题目。

第一用户收藏第一单词所在的题目之后，还可以对第一单词所在的题目设置记忆提醒，这样能够保证服务器定时提醒第一用户进行第一单词发音复习。

服务器定时提醒第一用户进行第一单词发音复习的实现过程包括：第一用户终端向服务器发送提醒设置请求，该提醒设置请求用于为第一单词所在的题目设置记忆提醒。服务器接收第一用户终端发送的提醒设置请求，然后按照记忆曲线，确定多个提醒时间，每当多个提醒时间中的一个提醒时间到达时，向第一用户终端发送提醒消息，该提醒消息用于提醒第一用户复习第一单词的发音。第一用户终端接收到该提醒消息时，显示第一单词所在的题目，以供第一用户进行第一单词发音复习。

其中，第一用户可以按照用户的实际需求对收藏的各个题目均设置记忆提醒，或者，也可以只对收藏的部分题目设置记忆提醒。另外，该记忆曲线为事先设置的曲线，比如，艾宾浩斯记忆曲线。

示例地，请参考图6，图6是本申请实施例提供的一种整体流程的示意图。在图6中，服务器接收第一用户终端发送的发音评测请求，基于第一单词的单词拼写内容，获取第一单词的整体标准发音音频以及第一单词中各个音节的标准发音音频，基于用户发音音频、第一单词的整体标准发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果，进而基于各个音节的发音评测结果，确定第一单词的整体发音评测结果。第一用户收藏第一单词所在题目。然后，服务器对第一用户所收藏的各个题目中的易错单词和易错音节进行统计，基于统计结果推荐题目。此外，第一用户或服务器对第一用户所收藏的各个题目进行分类，服务器基于分类结果推荐题目。另外，第一用户还可以对第一单词所在的题目设置记忆提醒，服务器基于记忆曲线推荐题目。

在本申请实施例中，在获取到第一用户关于第一单词的用户发音音频之后，能够基于第一用户关于第一单词的用户发音音频，对第一单词中各个音节的发音进行评测，进而通过各个音节的发音评测结果对第一单词的整体发音进行评测。由于第一用户关于第一单词的用户发音音频包括第一单词中各个音节的发音音频，所以，通过各个音节的发音评测结果能够精确地确定出第一单词的整体发音评测结果，从而提高了单词发音评测的准确性。而且，第一用户终端接收并显示第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果，这样能够使得第一用户精确掌握各个音节的发音评测结果，使得发音评测结果更具有针对性。此外，第一用户还能够收藏第一单词所在题目，这样，服务器能够基于第一用户所收藏的各个题目，向第一用户终端发送推荐题目以及提醒消息，以供第一用户后续进行单词发音练习与复习。

图7是本申请实施例提供的一种单词发音评测装置的结构示意图，该单词发音评测装置可以由软件、硬件或者两者的结合实现成为服务器的部分或者全部。请参考图7，该装置包括：第一接收模块701、第一获取模块702、第一确定模块703、第二确定模块704和第一发送模块705。

第一接收模块701，用于接收第一用户终端发送的发音评测请求，发音评测请求携带第一用户关于第一单词的用户发音音频和第一单词的单词拼写内容。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第一获取模块702，用于基于单词拼写内容，获取第一单词的整体标准发音音频以及第一单词中各个音节的标准发音音频。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第一确定模块703，用于基于该用户发音音频、第一单词的整体标准发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第二确定模块704，用于基于各个音节的发音评测结果，确定第一单词的整体发音评测结果。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第一发送模块705，用于向第一用户终端发送第一单词的整体发音评测结果和第一单词中各个音节的发音评测结果。

可选地，第一获取模块702包括：

第一获取单元，用于基于单词拼写内容，从标准音频库中获取第一单词的整体标准发音音频；

第二获取单元，用于基于单词拼写内容，从音标库中获取第一单词的整体音标；

分割单元，用于对第一单词的整体音标进行分割，以得到各个音节的音标；

第三获取单元，用于基于各个音节的音标，从标准音频库中获取各个音节的标准发音音频。

可选地，第一确定模块703包括：

匹配单元，用于将用户发音音频与第一单词的整体标准发音音频进行匹配，以从用户发音音频中确定第一单词的起始发音位置和结束发音位置；

截取单元，用于基于各个音节的标准发音音频，按照各个音节的顺序，从用户发音音频中位于起始发音位置与结束发音位置之间的音频段中截取出各个音节的发音音频；

确定单元，用于基于用户发音音频中各个音节的发音音频和各个音节的标准发音音频，确定各个音节的发音评测结果。

可选地，确定单元包括：

第一采样子单元，用于对该用户发音音频中第一音节的发音音频进行采样，以得到n个采样点，第一音节为第一单词中的任一音节，n为大于1的整数；

第二采样子单元，用于对第一音节的标准发音音频进行采样，以得到m个采样点，m为大于1的整数；

欧式距离确定子单元，用于确定n个采样点中每个采样点与m个采样点中每个采样点之间的欧式距离，以得到第一音节对应的距离矩阵，距离矩阵的大小为n×m；

累计距离确定子单元，用于基于距离矩阵，确定距离矩阵中各个元素对应的累计距离；

发音评测结果确定子单元，用于基于得到的所有累计距离中的最小累计距离，确定第一音节的发音评测结果。

可选地，累计距离确定子单元具体用于：

基于距离矩阵，按照如下公式确定该距离矩阵中第一元素对应的累计距离，第一元素为该距离矩阵中的任一元素；

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中，在上述公式中，γ(i,j)为第一元素的累计距离，d(q_i,c_j)为第一元素，q_i为n个采样点中的第i个采样点，c_j为m个采样点中的第j个采样点。

可选地，该装置还包括：

第二接收模块，用于接收第一用户终端发送的题目收藏请求，题目收藏请求携带第一单词所在题目的题目标识；

存储模块，用于将题目标识、单词拼写内容、整体发音评测结果、各个音节的发音评测结果、用户发音音频、整体标准发音音频和各个音节的标准发音音频对应存储至第一用户对应的题目收藏列表。

可选地，该装置还包括：

统计模块，用于基于第一用户对应的题目收藏列表，对第一用户所收藏的各个题目中的易错单词和易错音节进行统计，以得到第一用户对应的统计结果；

第三确定模块，用于确定第一用户对应的统计结果与存储的多个用户中除第一用户之外的其他用户对应的统计结果之间的相似度；

推荐模块，用于如果多个用户中存在至少一个第二用户，则向第一用户终端推荐至少一个第二用户所收藏的题目，以供第一用户进行单词发音练习，第二用户为多个用户中对应的统计结果与第一用户对应的统计结果之间的相似度大于相似度阈值的用户。

可选地，第一用户对应的统计结果中包括至少一个易错音节的分布情况；该装置还包括：

第二获取模块，用于如果多个用户中不存在至少一个第二用户，则基于至少一个易错单词的分布情况，从题目库中获取待推荐题目，待推荐题目包括的单词中含有至少一个易错音节；

第二发送模块，用于向第一用户终端发送待推荐题目，以供第一用户进行单词发音练习。

需要说明的是：上述实施例提供的单词发音评测装置在单词发音评测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的单词发音评测装置与单词发音评测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种终端800的结构框图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的单词发音评测方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请实施例对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种服务器的结构示意图。服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中单词发音评测方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的单词发音评测方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种单词发音评测方法，其特征在于，所述方法包括：

将所述用户发音音频与所述第一单词的整体标准发音音频进行匹配，以从所述用户发音音频中确定所述第一单词的起始发音位置和结束发音位置；

基于所述各个音节的标准发音音频，按照所述各个音节的顺序，从所述用户发音音频中位于所述起始发音位置与所述结束发音位置之间的音频段中截取出所述各个音节的发音音频；

对所述用户发音音频中第一音节的发音音频进行采样，以得到n个采样点，所述第一音节为所述第一单词中的任一音节，所述n为大于1的整数；

对所述第一音节的标准发音音频进行采样，以得到m个采样点，所述m为大于1的整数；

确定所述n个采样点中每个采样点与所述m个采样点中每个采样点之间的欧式距离，以得到所述第一音节对应的距离矩阵，所述距离矩阵的大小为n×m；

基于所述距离矩阵，确定所述距离矩阵中各个元素对应的累计距离；

基于得到的所有累计距离中的最小累计距离，确定所述第一音节的发音评测结果；

2.如权利要求1所述的方法，其特征在于，所述基于所述单词拼写内容，获取所述第一单词的整体标准发音音频以及所述第一单词中各个音节的标准发音音频，包括：

基于所述单词拼写内容，从标准音频库中获取所述第一单词的整体标准发音音频；

基于所述单词拼写内容，从音标库中获取所述第一单词的整体音标；

对所述第一单词的整体音标进行分割，以得到所述各个音节的音标；

基于所述各个音节的音标，从所述标准音频库中获取所述各个音节的标准发音音频。

3.如权利要求1所述的方法，其特征在于，所述基于所述距离矩阵，确定所述距离矩阵中各个元素对应的累计距离，包括：

基于所述距离矩阵，按照如下公式确定所述距离矩阵中第一元素对应的累计距离，所述第一元素为所述距离矩阵中的任一元素；

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中，在上述公式中，γ(i,j)为所述第一元素的累计距离，d(q_i,c_j)为所述第一元素，q_i为所述n个采样点中的第i个采样点，c_j为所述m个采样点中的第j个采样点。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述第一用户终端发送的题目收藏请求，所述题目收藏请求携带所述第一单词所在题目的题目标识；

将所述题目标识、所述单词拼写内容、所述整体发音评测结果、所述各个音节的发音评测结果、所述用户发音音频、所述整体标准发音音频和所述各个音节的标准发音音频对应存储至所述第一用户对应的题目收藏列表。

5.如权利要求1或4所述的方法，其特征在于，所述方法还包括：

基于所述第一用户对应的题目收藏列表，对所述第一用户所收藏的各个题目中的易错单词和易错音节进行统计，以得到所述第一用户对应的统计结果；

确定所述第一用户对应的统计结果与存储的多个用户中除所述第一用户之外的其他用户对应的统计结果之间的相似度；

如果所述多个用户中存在至少一个第二用户，则向所述第一用户终端推荐所述至少一个第二用户所收藏的题目，以供所述第一用户进行单词发音练习，所述第二用户为所述多个用户中对应的统计结果与所述第一用户对应的统计结果之间的相似度大于相似度阈值的用户。

6.如权利要求5所述的方法，其特征在于，所述第一用户对应的统计结果中包括至少一个易错音节的分布情况；所述方法还包括：

如果所述多个用户中不存在所述至少一个第二用户，则基于所述至少一个易错单词的分布情况，从题目库中获取待推荐题目，所述待推荐题目包括的单词中含有所述至少一个易错音节；

向所述第一用户终端发送所述待推荐题目，以供所述第一用户进行单词发音练习。

7.一种服务器，其特征在于，所述服务器包括处理器，所述处理器用于：

8.一种单词发音评测系统，其特征在于，所述系统包括第一用户终端和服务器，所述服务器用于执行上述权利要求1-6任一所述方法的步骤。