CN109036464B

CN109036464B - 发音检错方法、装置、设备及存储介质

Info

Publication number: CN109036464B
Application number: CN201811079685.8A
Authority: CN
Inventors: 林炳怀; 黄江泉; 史景慧; 王艺婷; 雷璐; 袁世培; 赵千千
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2022-02-22
Anticipated expiration: 2038-09-17
Also published as: CN109036464A

Abstract

本申请实施例公开了一种发音检错方法、装置、设备及存储介质。所述方法包括：显示目标词句对应的文本内容；采集朗读目标词句产生的用户音频内容；根据文本内容和用户音频内容，获取文本内容中的错误字符序列；其中，错误字符序列是指用户音频内容中发音错误的错误音素对应的字符序列；在文本内容中将错误字符序列进行标注。本申请实施例提供的技术方案中，通过获取音素对应的打分信息，确定发音错误的音素，实现了音素级别的发音检错，使得检错颗粒度更加细致，帮助用户更好地定位到自身的发音问题。并且，通过对错误音素对应的错误字符序列进行标注，使得用户明确获知读错的字符序列，更好地帮助用户进行发音纠正，提升用户的口语水平。

Description

发音检错方法、装置、设备及存储介质

技术领域

本申请实施例涉及口语评测技术领域，特别涉及一种发音检错方法、装置、设备及存储介质。

背景技术

目前，一些语言教学类软件能够对用户的口语发音进行检错，帮助用户纠正口语发音。

在相关技术中，终端采集用户朗读目标词句发出的用户音频内容，将采集到的用户音频内容和该目标词句对应的标准音频内容进行比对，得到用于反映用户的口语发音质量的比对结果。以英语为例，终端可以检测出存在发音错误的单词，并反馈给用户。

上述相关技术提供的发音检错机制，只能提供字词级别的检错方案，导致用户无法明确认知自身的发音问题，检错颗粒度不够细致。

发明内容

本申请实施例提供了一种发音检错方法、装置、设备及存储介质，可用于解决相关技术提供的发音检错机制，检错颗粒度不够细致的问题。所述技术方案如下：

一方面，本申请实施例提供一种发音检错方法，所述方法包括：

获取目标词句对应的文本内容和朗读所述目标词句产生的用户音频内容；

对所述文本内容和所述用户音频内容进行处理得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述n为正整数；

根据所述对齐信息确定所述n个音素中发音错误的错误音素；

获取所述文本内容中与所述错误音素对应的错误字符序列。

另一方面，本申请实施例提供一种发音检错方法，所述方法包括：

显示目标词句对应的文本内容；

采集朗读所述目标词句产生的用户音频内容；

根据所述文本内容和所述用户音频内容，获取所述文本内容中的错误字符序列；其中，所述错误字符序列是指所述用户音频内容中发音错误的错误音素对应的字符序列；

在所述文本内容中将所述错误字符序列进行标注。

再一方面，本申请实施例提供一种发音检错装置，所述装置包括：

内容获取模块，用于获取目标词句对应的文本内容和朗读所述目标词句产生的用户音频内容；

对齐模块，用于对所述文本内容和所述用户音频内容进行处理得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述n为正整数；

音素检错模块，用于根据所述对齐信息确定所述n个音素中发音错误的错误音素；

字符获取模块，用于获取所述文本内容中与所述错误音素对应的错误字符序列。

文本显示模块，用于显示目标词句对应的文本内容；

音频采集模块，用于采集朗读所述目标词句产生的用户音频内容；

字符获取模块，用于根据所述文本内容和所述用户音频内容，获取所述文本内容中的错误字符序列；其中，所述错误字符序列是指所述用户音频内容中发音错误的错误音素对应的字符序列；

字符标注模块，用于在所述文本内容中将所述错误字符序列进行标注。

再一方面，本申请实施例提供一种发音检错系统，所述发音检错系统包括：学生客户端、老师客户端和服务器；

所述老师客户端，用于向所述服务器发送任务信息，所述任务信息用于指示向所述学生客户端提供与目标词句相关的跟读任务；

所述服务器，用于根据所述任务信息，向所述学生客户端提供所述跟读任务；

所述学生客户端，用于根据所述跟读任务显示目标词句对应的文本内容；采集朗读所述目标词句产生的用户音频内容；将所述文本内容和所述用户音频内容发送给服务器；

所述服务器，还用于对所述文本内容和所述用户音频内容进行处理得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述n为正整数；根据所述对齐信息确定所述n个音素中发音错误的错误音素；获取所述文本内容中与所述错误音素对应的错误字符序列；向所述学生客户端发送所述错误字符序列的指示信息；

所述学生客户端，还用于根据所述错误字符序列的指示信息，在所述文本内容中将所述错误字符序列进行标注。

还一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的发音检错方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的发音检错方法。

又一方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的发音检错方法。

本申请实施例提供的技术方案至少包括如下有益效果：

本申请实施例提供的技术方案中，通过获取音素对应的打分信息，确定发音错误的音素，实现了音素级别的发音检错，使得检错颗粒度更加细致，帮助用户更好地定位到自身的发音问题。并且，通过对错误音素对应的错误字符序列进行标注，使得用户明确获知读错的字符序列，更好地帮助用户进行发音纠正，提升用户的口语水平。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的发音检错方法的流程图；

图3和图4示例性示出了一种跟读界面的示意图；

图5示例性示出了一种老师端的用户界面的示意图；

图6示例性示出了一种发音辅导界面的示意图；

图7是本申请另一个实施例提供的发音检错方法的流程图；

图8示例性示出了一种音素与音频片段之间的对应关系的示意图；

图9示例性示出了一种模型架构的示意图；

图10是本申请另一个实施例提供的发音检错方法的流程图；

图11是本申请一个实施例提供的发音检错装置的框图；

图12是本申请另一个实施例提供的发音检错装置的框图；

图13是本申请另一个实施例提供的发音检错装置的框图；

图14是本申请另一个实施例提供的发音检错装置的框图；

图15是本申请一个实施例提供的终端的结构框图；

图16是本申请一个实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图，该实施环境可以包括：第一终端11、第二终端12和服务器13。

第一终端11是学生用户使用的终端，第二终端12是老师用户使用的终端。可选地，第一终端11中安装运行有目标应用程序的学生端客户端(以下简称“学生端”)，第二终端11中安装运行有目标应用程序的老师端客户端(以下简称“老师端”)。

服务器13可以是上述目标应用程序的后台服务器，用于为上述客户端提供后台服务。

目标应用程序可以是语言教学类应用程序，其能够实现本申请技术方案的功能。另外，学生端和老师端可以具备不同的功能和权限。例如，老师端可以向学生端布置跟读任务，并查看学生用户对上述跟读任务的完成情况；学生端可以查看老师端布置的跟读任务，并按照要求完成上述跟读任务。

上述第一终端11和第二终端12可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer，个人计算机)等电子设备。服务器13可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。第一终端11、第二终端12和服务器13之间可以通过网络建立通信连接，如有线网络或者无线网络。

在本申请实施例提供的技术方案中，实现了音素级别的发音检错，使得检错颗粒度更加细致，帮助用户更好地定位到自身的发音问题。并且，通过对错误音素对应的错误字符序列进行标注，使得用户明确获知读错的字符序列，更好地帮助用户进行发音纠正，提升用户的口语水平。

另外，本申请实施例提供的技术方案，可适用于多个不同语种的发音检错，如英语、法语、德语、汉语、日语、韩语等。在本申请实施例中，主要以应用在英语中为例进行介绍说明，但并不构成对本申请技术方案的限定。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的发音检错方法的流程图。该方法可应用于图1所示实施环境的第一终端11中，如该方法可以由第一终端11中运行的目标应用程序执行。该方法可以包括以下几个步骤：

步骤201，显示目标词句对应的文本内容。

目标词句可以是一个或者多个字词，也可以是一个或者多个句子。以英语为例，目标词句可以是单词、词组、句子或段落等。以汉语为例，目标词句可以是字、词语、句子或段落等。目标词句对应的文本内容即为该目标词句的文字表示。

示例性地，如图3所示，终端显示跟读界面30，在跟读界面30中包括目标词句“goshopping”对应的文本内容31以及跟读按钮32。跟读按钮32是用于触发终端开始录音的操作控件。

步骤202，采集朗读目标词句产生的用户音频内容。

用户朗读目标词句，相应地，终端采集用户朗读目标词句产生的用户音频内容。

示例性地，如图3所示，用户点击跟读按钮32之后，朗读目标词句“go shopping”，终端在接收到对应于跟读按钮32的触发信号之后，开始采集用户音频内容。另外，终端在接收到对应于结束按钮33的触发信号之后，停止采集用户音频内容。

步骤203，根据文本内容和用户音频内容，获取文本内容中的错误字符序列；其中，错误字符序列是指用户音频内容中发音错误的错误音素对应的字符序列。

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔mɑ：〕包含〔m〕〔ɑ：〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔mɑ：-mI〕中，两个〔m〕发音动作相同，是相同音素，〔ɑ：〕〔I〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。

音素与字符序列相对应。目标词句对应的文本内容中可以包括至少一个字符序列，每一个字符序列对应于一个音素。一个字符序列采用一个发音动作完成，一个字符序列可以包括一个或多个字符。上述字符序列也可以称为发音单元。以英语为例，一个字符序列可以包括一个字母，也可以包括由多个字母组成的字母组合。示例性地，英语单词“shopping”中包括的字符序列与音素之间的对应关系可以如下表-1所示：

音素	字符序列	起始位置	长度
				∫	sh	0	2
ɑ：	o	2	1
				p	pp	3	2
I	i	5	1
				η	ng	6	2

表-1

如上表-1所示，音素“∫”对应的字符序列为“sh”，音素“ɑ：”对应的字符序列为“o”，音素“p”对应的字符序列为“pp”，音素“I”对应的字符序列为“i”，音素“η”对应的字符序列为“ng”。

终端获取到目标词句对应的文本内容以及用户朗读目标词句产生的用户音频内容之后，获取文本内容中与错误音素对应的错误字符序列。仍然以上述英语单词“shopping”为例，当错误音素为“∫”时，该错误音素“∫”对应的错误字符序列即为“sh”，当错误音素为“ɑ：”时，该错误音素“ɑ：”对应的错误字符序列即为“o”，以此类推。

终端可以在本地获取错误字符序列，也可以与服务器进行交互，从服务器获取错误字符序列。对于确定错误音素以及与该错误音素对应的错误字符序列的具体流程，将在下文实施例中进行介绍说明。

步骤204，在文本内容中将错误字符序列进行标注。

终端获取错误字符序列之后，在文本内容中将错误字符序列进行标注。通过在文本内容中将该错误字符序列标注出来，可以使得用户明确获知目标词句中哪个字符序列存在发音错误，帮助用户更为精确地定位到自身的发音问题。

在一种可能的实施方式中，终端将文本内容中的错误字符序列和其它字符序列区别显示。终端可以采用不同的显示方式，来显示错误字符序列和其它字符序列。例如，采用第一颜色显示错误字符序列，并采用第二颜色显示其它字符序列，该第一颜色和第二颜色是两种不同的颜色，如第一颜色为红色，第二颜色为绿色。又例如，在错误字符序列下方添加下划线，在其它字符序列下方不添加下划线。

如图4所示，假设用户朗读目标词句“go shopping”，发音错误的错误音素为“I”，则终端在跟读界面30显示的目标词句“go shopping”对应的文本内容31中，将上述错误音素“I”对应的错误字符序列“i”标注出来，如图4中以添加下划线的方式标注。

可选地，终端还获取目标词句对应的打分信息，然后显示该目标词句对应的打分信息。目标词句对应的打分信息是用于指示该目标词句的朗读质量的评价参数。打分信息可以采用分数表示，如百分制、十分制或五分制等，分数越高表示朗读质量越高。打分信息也可以采用星级表示，如总共五颗星，获得星星的数量越多表示朗读质量越高。当然，打分信息还可以采用其它方式，本申请实施例对此不作限定。

如图4所示，终端可以在跟读界面30中显示该目标词句“go shopping”对应的打分信息34，该打分信息34采用星级表示。

进一步地，终端可以获取多个不同维度的打分信息，如发音准确度、诵读完整度、诵读流畅度等多个不同维度的打分信息，每个维度的打分信息用于指示该维度的评价参数。并且，每个维度的打分信息可以采用分数表示，也可以采用星级表示，或者采用其它方式表示。然后，终端将上述多个不同维度的打分信息展示给用户，以便用户更为明确地了解问题所在。

如图4所示，当用户点击打分信息34时，终端可以在跟读界面30中进一步显示发音准确度、诵读完整度、诵读流畅度等多个不同维度的打分信息。如图4所示，发音准确度对应4星、诵读完整度对应5星、诵读流畅度对应3星。

另外，当目标应用程序包括上文介绍的学生端和老师端时，学生端可以采用星级表示打分信息，老师端可以采用分数表示打分信息。由于采用星级表示的打分信息较为粗略，采用分数表示打分信息更为精确，采用上述方式，一方面可以提升学生用户的积极性，另一方面可以让老师用户更为精确地了解到学生用户的情况。

如图5所示，其示例性示出了老师端的一个用户界面50的示意图，该用户界面50中包括学生用户诵读各个词句的百分制的打分信息，如“go shopping”对应的打分信息为90分，“go driving”对应的打分信息为86分，“go swimming”对应的打分信息为93分。

可选地，在上述步骤204之后还包括如下步骤：获取对应于错误字符序列的发音辅导指令，根据发音辅导指令显示发音辅导界面。发音辅导指令是用于触发显示发音辅导界面的操作指令。在本申请实施例中，对于发音辅导指令的形式不作限定，例如其可以是触控操作信号、语音信号、手势信号等。例如，用户点击错误字符序列或者点击包含有错误字符序列的字词，生成发音辅导指令。终端接收到发音辅导指令之后，显示发音辅导界面。发音辅导界面是用于辅导用户提升上述发音错误的错误音素的发音质量的用户界面。结合参考图4和图6，用户点击跟读界面30中的“shopping”，触发终端显示图6所示的发音辅导界面60。

可选地，发音辅导界面中包括发音辅导信息，该发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为错误音素的字符序列、包含错误字符序列的字词。通过提供文字、音频、视频等多种形式的发音口型指导，便于用户更好地学习错误音素发音时的口型动作。如图6所示，发音辅导界面60中包括发音错误的错误音素“I”对应的发音口型指导文字61，在该发音口型指导文字61的右下角显示有音频按钮62，用户点击该音频按钮62可以收到发音口型指导音频。另外，发音辅导界面60中还包括发音错误的错误音素“I”对应的发音口型指导视频63，以及发音为“I”的各个字符序列，如“i”、“ui”、“y”、“e”等，还有包含上述错误字符序列的单词，如“pity”、“sit”等。

可选地，发音辅导界面中还包括错误字词对应的拓展内容，错误字词是指文本内容中包含有错误字符序列的字词，拓展内容包括以下至少一项：错误字词的课本释义、错误字词的课本例句、错误字词的联想词汇。其中，错误字词的课本释义是指在课本中对错误字词的解释说明，上述课本可以预先选定，如一些通用或知名的语言课本或词典，错误字词的课本例句是指在上述课本中提供的包含有错误字词的例句。错误字词的联想词汇是指从上述课本中查找的与错误字词具有关联关系的字词或短语，上述关联关系可以是与错误字词属于同一词汇分类、与错误字词为同义词或近义词、与错误字词相关的常用词汇等等，本申请实施例对此不作限定。如图6所示，用户可以滑动或切换发音辅导界面60，查看不同的拓展内容。

综上所述，本申请实施例提供的技术方案中，实现了音素级别的发音检错，使得检错颗粒度更加细致，帮助用户更好地定位到自身的发音问题。并且，通过对错误音素对应的错误字符序列进行标注，使得用户明确获知读错的字符序列，更好地帮助用户进行发音纠正，提升用户的口语水平。

另外，还通过在检测出错误音素之后，基于该错误音素向用户提供发音辅导信息，该发音辅导信息可以包括各种形式的发音口型指导、发音为错误音素的字符序列、包含错误字符序列的字词，以及诸如错误字词的课本释义、错误字词的课本例句、错误字词的联想词汇等拓展内容，提供了一整套完善的发音检错和纠错方案，更好地帮助用户提升口语水平。

请参考图7，其示出了本申请另一个实施例提供的发音检错方法的流程图。在本实施例中，以该方法应用于图1所示实施环境的服务器13为例，进行介绍说明。该方法可以包括以下几个步骤：

步骤701，获取目标词句对应的文本内容和朗读目标词句产生的用户音频内容。

有关目标词句及其对应的文本内容和用户音频内容的解释说明，可参见图2实施例，本实施例对此不再赘述。

终端采集用户朗读目标词句产生的用户音频内容之后，可以将目标词句对应的文本内容和用户音频内容发送给服务器，相应地，服务器接收终端发送的目标词句对应的文本内容和用户音频内容。

步骤702，对文本内容和用户音频内容进行处理得到对齐信息，对齐信息包括文本内容对应的n个音素在用户音频内容中各自对应的音频片段，n为正整数。

服务器可以根据文本内容确定文本内容对应的各个音素，例如，服务器获取到文本内容“go shopping”之后，可以确定该文本内容对应的音素包括：g、

∫、ɑ：、p、I、η。服务器对用户音频内容进行识别分析，定位出每一个音素对应的音频片段，该音频片段可称为“用户音频片段”。结合参考图8，其示例性示出了“goshopping”对应的各个音素在用户音频内容81中各自对应的音频片段。

步骤703，根据对齐信息确定n个音素中发音错误的错误音素。

对于上述n个音素中的每一个音素，服务器获取到该音素对应的用户音频片段之后，可以从该音素对应的用户音频片段中提取该音素对应的声学特征。可选地，声学特征采用MFCC(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)表示。基于用户发音的声学特征与标准发音的声学特征之间的差异，可以得到音素对应的打分信息。

音素对应的打分信息是用于指示该音素的朗读质量的评价参数。音素对应的打分信息可以采用百分制、也可以采用十分制或者采用其它计分方式，本申请实施例对此不作限定。服务器获取上述n个音素中的每一个音素对应的打分信息之后，可以进一步确定该音素是否为发音错误的错误音素。

在一种可能的实施方式中，上述步骤703包括如下几个子步骤：

1、根据对齐信息提取n个音素各自对应的声学特征；

可选地，对于上述n个音素中的每一个音素，服务器从该音素对应的用户音频片段中提取该音素对应的MFCC作为声学特征。

2、调用打分模型对n个音素各自对应的声学特征进行处理，得到n个音素各自对应的GOP处理结果；

打分模型是采用标准音频内容进行训练得到的。如果需要对目标语种的发音进行检错，则采用以目标语种为母语的标准用户的语音数据作为标准音频内容对该打分模型进行训练。打分模型可以是基于HMM(Hidden Markov Model，隐马尔科夫模型)和DNN(DeepNeural Networks，深度神经网络)构建的机器学习模型，其可以结合GOP(Goodness ofPronunciation)算法进行训练。

GOP算法的原理是利用事先收集的标准音频内容，将用户音频内容与该标准音频内容做一次强制对齐，把强制对齐得到的似然分数值与标准音频内容做一个比较，利用这个似然比(likelihood ratio)作为发音质量好坏的评价。

3、根据n个音素各自对应的GOP处理结果，确定n个音素各自对应的打分信息。

可选地，服务器调用预先训练好的评测模型，通过该评测模型对n个音素各自对应的GOP处理结果进行处理，得到该n个音素各自对应的打分信息。其中，评测模型可以是基于DNN构建的机器学习模型。例如，可以采用带人工标注的词句级别的打分信息的训练数据对DNN进行训练，得到评测模型。

4、根据n个音素各自对应的打分信息，确定n个音素中发音错误的错误音素。

可选地，服务器将n个音素各自对应的打分信息分别与预设阈值进行比对，将打分信息小于预设阈值的音素确定为发音错误的错误音素。其中，预设阈值可以是预先设定的经验值。例如，当打分信息采用百分制表示时，预设阈值可以是90。

步骤704，获取文本内容中与错误音素对应的错误字符序列。

可选地，服务器获取文本内容对应的n个音素和文本内容中的n个字符序列之间的对应关系，该对应关系可以如上述表-1所示，之后服务器从该对应关系中获取与错误音素对应的错误字符序列。例如，服务器确定错误音素为“I”，查找上述表-1所示的对应关系，即可获取文本内容“go shopping”中与该错误音素“I”对应的错误字符序列为“i”。

通过上述方式，实现了对发音错误的错误音素的定位，以及对该错误音素对应的错误字符序列的定位。

可选地，服务器确定n个音素各自对应的打分信息之后，还可以执行如下步骤：

1、根据目标词句中包含的各个字词以及每一个字词对应的各个音素各自对应的打分信息，确定各个字词各自对应的打分信息；

2、根据各个字词各自对应的打分信息，确定目标词句对应的打分信息。

在一种可能的实施方式中，对于每一个字词，服务器可以计算该字词对应的各个音素各自对应的打分信息的平均值或加权平均值，将该计算结果作为该字词对应的打分信息。类似地，服务器也可以计算目标词句中包含的各个字词各自对应的打分信息的平均值或加权平均值，将该计算结果作为该目标词句对应的打分信息。

可选地，服务器在确定发音错误的错误音素之后，还可以执行如下步骤：从发音辅导库中获取与错误音素对应的发音辅导信息；其中，发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为错误音素的字符序列、包含错误字符序列的字词。有关各项发音辅导信息的解释说明可参见图2实施例，本实施例对此不再赘述。例如，当服务器确定发音错误的错误音素为“I”之后，可以从发音辅导库中获取与该错误音素“I”对应的发音辅导信息。发音辅导库是用于存储发音辅导信息的数据库，其可以存储各个音素与发音辅导信息之间的对应关系，通过查找该对应关系即可获取错误音素对应的发音辅导信息。

另外，服务器还可以根据目标词句中包含有错误音素的错误字词，从词汇拓展库中获取与错误字词对应的拓展内容；其中，拓展内容包括以下至少一项：错误字词的课本释义、错误字词的课本例句、错误字词的联想词汇。有关各项拓展内容的解释说明可参见图2实施例，本实施例对此不再赘述。例如，服务器确定发音错误的错误音素为“I”之后，进一步确定包含该错误音素“I”的错误字词为“shopping”，服务器从词汇拓展库中获取与该错误字词“shopping”对应的拓展内容。词汇拓展库是用于存储拓展内容的数据库，其可以存储各个字词与拓展内容之间的对应关系，通过查找该对应关系即可获取错误字词对应的拓展内容。

在一个示例中，如图9所示，服务器中可以部署声学模型90，该声学模型90可以包括对齐模型91和打分模型92。

对齐模型91用于对目标词句对应的文本内容和音频内容进行处理得到对齐信息。对齐模型91可以是基于HMM和DNN构建的机器学习模型。通过采用本地用户的语音数据对该对齐模型91进行训练，可以使得该对齐模型91学习用户的发音特点，尽可能地准确识别出用户音频内容，并生成上述对齐信息。另外，对齐模型91还可以确定漏读的音素，进而实现将漏读的音素标注给用户。

对齐模型91得到的对齐信息可输入至打分模型92。打分模型92用于根据对齐信息确定n个音素各自对应的GOP处理结果。打分模型92也可以是基于HMM和DNN构建的机器学习模型。如果需要对目标语种的发音进行检错，则采用以目标语种为母语的标准用户的语音数据对该打分模型92进行训练，以便更为准确地评估学生用户的发音和标准用户的发音之间的接近程度，从而提高对学生用户的音素进行打分时的准确度。

另外，如图9所示，服务器中还可以部署评测模型93和切分模型94。

评测模型93用于根据n个音素各自对应的GOP处理结果，确定该n个音素各自对应的打分信息。进一步地，评测模型93可以根据n个音素各自对应的打分信息，确定n个音素中发音错误的错误音素。可选地，评测模型93还可以根据目标词句中包含的各个字词以及每一个字词对应的各个音素各自对应的打分信息，确定各个字词各自对应的打分信息，以及根据各个字词各自对应的打分信息，确定目标词句对应的打分信息。评测模型93可以是基于DNN构建的机器学习模型。

切分模型94用于获取文本内容中与发音错误的错误音素对应的错误字符序列。切分模型94可以获取对齐模型91输出的目标词句中包含的字词和各个字词对应的音素，切分模型94还可以获取评测模型93输出的发音错误的错误音素，之后切分模型94结合上述信息输出发音错误的错误音素，以及该错误音素对应的错误字符序列。当然，在一些其它实施例中，上述切分模型94所需的音素与字符序列之间的对应关系，可以由人工切分获得，也可以由切分模型94自动切分获得，本申请实施例对此不作限定。

服务器确定发音错误的错误音素以及包含该错误音素的错误字词之后，可以从发音辅导库95中获取与错误音素对应的发音辅导信息，还可以从词汇拓展库96中获取与错误字词对应的拓展内容。

需要说明的一点是，上述仅以由服务器执行图7所示的方法流程，确定发音错误的错误音素以及与该错误音素对应的错误字符序列为例。服务器在确定上述错误音素和错误字符序列之后，可以将错误音素和错误字符序列发送给终端，由终端执行图2所述的方法流程，在用户界面中将错误字符序列进行标注。此外，当终端需要获取发音辅导信息和拓展内容时，终端可以从服务器请求获取该发音辅导信息和拓展内容。当然，在一些其它实施例中，也可以由终端在本地执行图7所示的方法流程，确定发音错误的错误音素以及与该错误音素对应的错误字符序列。进一步地，发音辅导库和词汇拓展库也可以部署在终端本地，这样终端就可以在本地获取发音辅导信息和拓展内容。上述基于本申请实施例的内容，通过合理扩展得到的一些其它可选实施例，都应当在本申请的保护范围之内。

本申请实施例提供的技术方案能够显著提升音素级别检错的准确率。经实验发现，在自建的测评集上，采用本申请技术方案对音素检错的准确率能够达到90％以上。

另外，相关技术中提供的对字词、词句的打分方案，通常是提取用户朗读目标词句产生的音频内容中的声学特征，然后采用线性回归或者非线性回归等方式来进行拟合预测，得到目标词句对应的打分信息。但这种方法的缺点是适应性不强，在大规模人群中的效果不理想，且与人工标注的打分信息之间的相关度不高。而在本申请实施例提供的技术方案中，基于对音素的打分信息，进一步对字词和词句进行打分，更具可靠性和准确度。经实验发现，在同一测评集上，采用本申请技术方案得到的字词、词句的打分，与人工打分之间的相关度能够达到0.83以上，高于相关技术提供的打分方案。

在一个具体的例子中，以本申请技术方案应用于图1所示的实施环境为例，如图10所示，该发音检错方法可以包括如下几个步骤：

步骤1001，老师客户端向服务器发送任务信息。

任务信息用于指示向学生客户端提供与目标词句相关的跟读任务。可选地，任务信息中可以包括学生用户的帐号信息和跟读任务的标识信息。

步骤1002，服务器根据任务信息，向学生客户端提供跟读任务。

跟读任务可以是预先制定的对目标词句进行跟读的任务，该跟读任务的相关内容可预先存储在服务器中，且不同的跟读任务可以采用不同的标识信息进行区分。

步骤1003，学生客户端根据跟读任务显示目标词句对应的文本内容。

例如，学生客户端在接收到学生用户打开跟读任务的指令后，可以显示图3所示的跟读界面30，在跟读界面30中显示目标词句“go shopping”对应的文本内容31以及跟读按钮32。

步骤1004，学生客户端采集朗读目标词句产生的用户音频内容。

如图3所示，用户点击跟读按钮32之后，朗读目标词句“go shopping”，学生客户端在接收到对应于跟读按钮32的触发信号之后，开始采集用户音频内容。另外，学生客户端在接收到对应于结束按钮33的触发信号之后，停止采集用户音频内容。

步骤1005，学生客户端将文本内容和用户音频内容发送给服务器。

步骤1006，服务器对文本内容和音频内容进行处理得到对齐信息。

对齐信息包括文本内容对应的n个音素在音频内容中各自对应的音频片段，n为正整数。

步骤1007，服务器根据对齐信息确定n个音素中发音错误的错误音素。

步骤1008，服务器获取文本内容中与错误音素对应的错误字符序列。

有关上述步骤1007-1008的介绍说明，可参见图7实施例，本实施例对此不再赘述。

步骤1009，服务器向学生客户端发送错误字符序列的指示信息。

错误字符序列的指示信息可以是错误字符序列本身，也可以是错误字符序列在文本内容中的位置信息，如可以采用错误字符序列中的第一个字符的位置和错误字符序列中包含的字符数量表示。

步骤1010，学生客户端根据错误字符序列的指示信息，在文本内容中将错误字符序列进行标注。

例如，如图4所示，假设经过服务器检错，确定用户朗读目标词句“goshopping”发音错误的错误音素为“I”，则服务器向学生客户端发送该错误音素“I”对应的错误字符序列“i”在目标词句“go shopping”中的位置和长度。之后，学生客户端在跟读界面30显示的目标词句“go shopping”对应的文本内容31中，将上述错误音素“I”对应的错误字符序列“i”标注出来，如图4中以添加下划线的方式标注，也可以采用红色标注或者采用其它方式标注。

可选地，服务器还可以根据目标词句中包含的各个字词以及每一个字词对应的各个音素各自对应的打分信息，确定各个字词各自对应的打分信息，并根据各个字词各自对应的打分信息，确定目标词句对应的打分信息，然后将目标词句对应的打分信息发送给学生客户端和/或老师客户端。学生客户端、老师客户端在接收到上述目标词句对应的打分信息之后，可以将其进行显示。

例如，如图4所示，学生客户端可以在跟读界面30中显示该目标词句“goshopping”对应的打分信息34，该打分信息34采用星级表示。如图5所示，老师客户端可以在用户界面50中显示学生用户诵读各个词句的百分制的打分信息，如“go shopping”对应的打分信息为90分，“go driving”对应的打分信息为86分，“go swimming”对应的打分信息为93分。

可选地，服务器还可以向学生客户端提供错误音素对应的发音辅导信息和错误字词对应的拓展内容。

例如，结合参考图4和图6，学生用户点击跟读界面30中的“shopping”，触发学生客户端从服务器请求获取发音辅导信息和拓展内容。之后，学生客户端显示图6所示的发音辅导界面60。如图6所示，发音辅导界面60中包括发音错误的错误音素“I”对应的发音口型指导文字61，在该发音口型指导文字61的右下角显示有音频按钮62，学生用户点击该音频按钮62可以收到发音口型指导音频。另外，发音辅导界面60中还包括发音错误的错误音素“I”对应的发音口型指导视频63，以及发音为“I”的各个字符序列，如“i”、“ui”、“y”、“e”等，还有包含上述错误字符序列的单词，如“pity”、“sit”等，学生用户可以点击上述字符序列和单词进行跟读练习。另外，学生用户还可以滑动或切换发音辅导界面60，查看不同的拓展内容，如错误字词的课本释义、错误字词的课本例句、错误字词的联想词汇等。

对于本实施例中未详细说明的内容，可参见上述图2和图7实施例中的介绍说明。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的发音检错装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是终端，也可以设置在终端上。该装置1100可以包括：文本显示模块1110、音频采集模块1120、字符获取模块1130和字符标注模块1140。

文本显示模块1110，用于显示目标词句对应的文本内容。

音频采集模块1120，用于采集朗读所述目标词句产生的用户音频内容。

字符获取模块1130，用于根据所述文本内容和所述用户音频内容，获取所述文本内容中的错误字符序列；其中，所述错误字符序列是指所述用户音频内容中发音错误的错误音素对应的字符序列。

字符标注模块1140，用于在所述文本内容中将所述错误字符序列进行标注。

在基于图11实施例提供的一个可选实施例中，所述字符标注模块1140，具体用于将所述文本内容中的所述错误字符序列和其它字符序列区别显示。

在基于图11实施例或者上述任一可选实施例提供的另一个可选实施例中，如图12所示，所述装置1100还包括：打分获取模块1150和打分显示模块1160。

打分获取模块1150，用于获取所述目标词句对应的打分信息。

打分显示模块1160，用于显示所述目标词句对应的打分信息。

在基于图11实施例或者上述任一可选实施例提供的另一个可选实施例中，如图12所示，所述装置1100还包括：指令获取模块1170和界面显示模块1180。

指令获取模块1170，用于获取对应于所述错误字符序列的发音辅导指令。

界面显示模块1180，用于根据所述发音辅导指令显示发音辅导界面，所述发音辅导界面中包括发音辅导信息，所述发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为所述错误音素的字符序列、包含所述错误字符序列的字词。

可选地，所述发音辅导界面中还包括错误字词对应的拓展内容，所述错误字词是指所述文本内容中包含有所述错误字符序列的字词，所述拓展内容包括以下至少一项：所述错误字词的课本释义、所述错误字词的课本例句、所述错误字词的联想词汇。

请参考图13，其示出了本申请另一个实施例提供的发音检错装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是服务器，也可以设置在服务器上；或者，该装置可以是终端，也可以设置在终端上。该装置1300可以包括：内容获取模块1310、对齐模块1320、音素检错模块1330和字符获取模块1340。

内容获取模块1310，用于获取目标词句对应的文本内容和朗读所述目标词句产生的用户音频内容。

对齐模块1320，用于对所述文本内容和所述用户音频内容进行处理得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述n为正整数。

音素检错模块1330，用于根据所述对齐信息确定所述n个音素中发音错误的错误音素。

字符获取模块1340，用于获取所述文本内容中与所述错误音素对应的错误字符序列。

在基于图13实施例提供的一个可选实施例中，所述音素检错模块1330，具体用于：根据所述对齐信息提取所述n个音素各自对应的声学特征；调用打分模型对所述n个音素各自对应的声学特征进行处理，得到所述n个音素各自对应的GOP处理结果；其中，所述打分模型是采用标准音频内容进行训练得到的；根据所述n个音素各自对应的GOP处理结果，确定所述n个音素各自对应的打分信息；根据所述n个音素各自对应的打分信息，确定所述n个音素中发音错误的所述错误音素。

可选地，如图14所示，所述装置1300还包括：字词打分模块1350和词句打分模块1360。

字词打分模块1350，用于根据所述目标词句中包含的各个字词以及每一个字词对应的各个音素各自对应的打分信息，确定所述各个字词各自对应的打分信息。

词句打分模块1360，用于根据所述各个字词各自对应的打分信息，确定所述目标词句对应的打分信息。

在基于图13实施例或者上述任一可选实施例提供的另一个可选实施例中，所述字符获取模块1340，具体用于：获取所述文本内容对应的n个音素和所述文本内容中的n个字符序列之间的对应关系；从所述对应关系中获取与所述错误音素对应的所述错误字符序列。

在基于图13实施例或者上述任一可选实施例提供的另一个可选实施例中，如图14所示，所述装置1300还包括：辅导信息获取模块1370。

辅导信息获取模块1370，用于从发音辅导库中获取与所述错误音素对应的发音辅导信息；其中，所述发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为所述错误音素的字符序列、包含所述错误字符序列的字词。

在基于图13实施例或者上述任一可选实施例提供的另一个可选实施例中，如图14所示，所述装置1300还包括：拓展内容获取模块1380。

拓展内容获取模块1380，用于根据所述目标词句中包含有所述错误音素的错误字词，从词汇拓展库中获取与所述错误字词对应的拓展内容；其中，所述拓展内容包括以下至少一项：所述错误字词的课本释义、所述错误字词的课本例句、所述错误字词的联想词汇。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请一示例性实施例还提供了一种发音检错系统，所述发音检错系统包括：学生客户端、老师客户端和服务器。

所述老师客户端，用于向所述服务器发送任务信息，所述任务信息用于指示向所述学生客户端提供与目标词句相关的跟读任务。

所述服务器，用于根据所述任务信息，向所述学生客户端提供所述跟读任务。

所述学生客户端，用于根据所述跟读任务显示目标词句对应的文本内容；采集朗读所述目标词句产生的用户音频内容；将所述文本内容和所述用户音频内容发送给服务器。

所述服务器，还用于对所述文本内容和所述用户音频内容进行处理得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述n为正整数；根据所述对齐信息和所述目标词句对应的标准音频内容，确定所述n个音素中发音错误的错误音素；获取所述文本内容中与所述错误音素对应的错误字符序列；向所述学生客户端发送所述错误字符序列的指示信息。

请参考图15，其示出了本申请一个实施例提供的终端1500的结构框图。该终端1500可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、PC等。

通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的发音检错方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备可以包括：射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507和电源1508中的至少一种。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图16，其示出了本申请一个实施例提供的服务器的结构框图。该服务器可用于实施上述实施例中提供的发音检错方法。具体来讲：

所述服务器1600包括中央处理单元(CPU)1601、包括随机存取存储器(RAM)1602和只读存储器(ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述服务器1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，所述服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在所述系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述发音检错方法的指令。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述图2实施例提供的发音检错方法，或者实现上述图7实施例提供的发音检错方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述图2实施例提供的发音检错方法，或者实现上述图7实施例提供的发音检错方法。

可选地，计算机设备为终端或服务器。

可选地，上述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述图2实施例提供的发音检错方法，或者实现上述图7实施例提供的发音检错方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种发音检错方法，其特征在于，所述方法包括：

通过对齐模型对所述文本内容和所述用户音频内容进行对齐处理，得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述文本内容对应的n个音素是指所述文本内容中包括的各个字符序列分别对应的音素，所述n为正整数；

根据所述对齐信息从所述n个音素各自对应的音频片段中，分别提取得到所述n个音素各自对应的声学特征；

调用打分模型对所述n个音素各自对应的声学特征和所述n个音素各自对应的标准发音的声学特征进行对齐处理，得到所述n个音素各自对应的GOP处理结果；其中，所述打分模型是采用标准音频内容进行训练得到的；

调用评测模型对所述n个音素各自对应的GOP处理结果进行处理，确定所述n个音素各自对应的打分信息；其中，所述评测模型是采用带人工标注的语句级别的打分信息的训练数据进行训练得到的；

将所述n个音素各自对应的打分信息与预设阈值进行比对处理，确定所述n个音素中发音错误的错误音素；获取所述文本内容中与所述错误音素对应的错误字符序列；

所述方法还包括：

通过所述对齐模型确定漏读的音素，将所述漏读的音素发送给客户端，以使所述客户端在所述文本内容中将所述漏读的音素进行标注。

2.根据权利要求1所述的方法，其特征在于，所述调用评测模型对所述n个音素各自对应的GOP处理结果进行处理，确定所述n个音素各自对应的打分信息之后，还包括：

根据所述目标词句中包含的各个字词以及每一个字词对应的各个音素各自对应的打分信息，确定所述各个字词各自对应的打分信息；

根据所述各个字词各自对应的打分信息，确定所述目标词句对应的打分信息。

3.根据权利要求1所述的方法，其特征在于，所述获取所述文本内容中与所述错误音素对应的错误字符序列，包括：

获取所述文本内容对应的n个音素和所述文本内容中的n个字符序列之间的对应关系；

从所述对应关系中获取与所述错误音素对应的所述错误字符序列。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

从发音辅导库中获取与所述错误音素对应的发音辅导信息；

其中，所述发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为所述错误音素的字符序列、包含所述错误字符序列的字词。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标词句中包含有所述错误音素的错误字词，从词汇拓展库中获取与所述错误字词对应的拓展内容；

其中，所述拓展内容包括以下至少一项：所述错误字词的课本释义、所述错误字词的课本例句、所述错误字词的联想词汇。

6.一种发音检错方法，其特征在于，所述方法包括：

显示目标词句对应的文本内容；

采集朗读所述目标词句产生的用户音频内容；

将所述n个音素各自对应的打分信息与预设阈值进行比对处理，确定所述n个音素中发音错误的错误音素；

根据所述n个音素中发音错误的错误音素，获取所述文本内容中的错误字符序列；其中，所述错误字符序列是指所述用户音频内容中发音错误的错误音素对应的字符序列；

在所述文本内容中将所述错误字符序列进行标注；

所述方法还包括：

通过所述对齐模型确定漏读的音素；在所述文本内容中将所述漏读的音素进行标注。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述目标词句对应的打分信息；

显示所述目标词句对应的打分信息。

8.根据权利要求6或7所述的方法，其特征在于，所述在所述文本内容中将所述错误字符序列进行标注之后，还包括：

获取对应于所述错误字符序列的发音辅导指令；

根据所述发音辅导指令显示发音辅导界面，所述发音辅导界面中包括发音辅导信息，所述发音辅导信息包括以下至少一项：发音口型指导文字、发音口型指导音频、发音口型指导视频、发音为所述错误音素的字符序列、包含所述错误字符序列的字词。

9.根据权利要求8所述的方法，其特征在于，所述发音辅导界面中还包括错误字词对应的拓展内容，所述错误字词是指所述文本内容中包含有所述错误字符序列的字词，所述拓展内容包括以下至少一项：所述错误字词的课本释义、所述错误字词的课本例句、所述错误字词的联想词汇。

10.一种发音检错装置，其特征在于，所述装置包括：

对齐模块，用于通过对齐模型对所述文本内容和所述用户音频内容进行对齐处理，得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述文本内容对应的n个音素是指所述文本内容中包括的各个字符序列分别对应的音素，所述n为正整数；

音素检错模块，用于根据所述对齐信息从所述n个音素各自对应的音频片段中，分别提取得到所述n个音素各自对应的声学特征；调用打分模型对所述n个音素各自对应的声学特征和所述n个音素各自对应的标准发音的声学特征进行对齐处理，得到所述n个音素各自对应的GOP处理结果；其中，所述打分模型是采用标准音频内容进行训练得到的；调用评测模型对所述n个音素各自对应的GOP处理结果进行处理，确定所述n个音素各自对应的打分信息；其中，所述评测模型是采用带人工标注的语句级别的打分信息的训练数据进行训练得到的；将所述n个音素各自对应的打分信息与预设阈值进行比对处理，确定所述n个音素中发音错误的错误音素；

字符获取模块，用于获取所述文本内容中与所述错误音素对应的错误字符序列；

所述装置还包括用于通过所述对齐模型确定漏读的音素，将所述漏读的音素发送给客户端的模块，以使所述客户端在所述文本内容中将所述漏读的音素进行标注。

11.一种发音检错装置，其特征在于，所述装置包括：

文本显示模块，用于显示目标词句对应的文本内容；

字符获取模块，用于通过对齐模型对所述文本内容和所述用户音频内容进行对齐处理，得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述文本内容对应的n个音素是指所述文本内容中包括的各个字符序列分别对应的音素，所述n为正整数；根据所述对齐信息从所述n个音素各自对应的音频片段中，分别提取得到所述n个音素各自对应的声学特征；调用打分模型对所述n个音素各自对应的声学特征和所述n个音素各自对应的标准发音的声学特征进行对齐处理，得到所述n个音素各自对应的GOP处理结果；其中，所述打分模型是采用标准音频内容进行训练得到的；调用评测模型对所述n个音素各自对应的GOP处理结果进行处理，确定所述n个音素各自对应的打分信息；其中，所述评测模型是采用带人工标注的语句级别的打分信息的训练数据进行训练得到的；将所述n个音素各自对应的打分信息与预设阈值进行比对处理，确定所述n个音素中发音错误的错误音素；根据所述n个音素中发音错误的错误音素，获取所述文本内容中的错误字符序列；其中，所述错误字符序列是指所述用户音频内容中发音错误的错误音素对应的字符序列；

字符标注模块，用于在所述文本内容中将所述错误字符序列进行标注；

所述装置还包括用于通过所述对齐模型确定漏读的音素，在所述文本内容中将所述漏读的音素进行标注的模块。

12.一种发音检错系统，其特征在于，所述发音检错系统包括：学生客户端、老师客户端和服务器；

所述服务器，还用于通过对齐模型对所述文本内容和所述用户音频内容进行对齐处理，得到对齐信息，所述对齐信息包括所述文本内容对应的n个音素在所述用户音频内容中各自对应的音频片段，所述文本内容对应的n个音素是指所述文本内容中包括的各个字符序列分别对应的音素，所述n为正整数；通过所述对齐模型确定漏读的音素，将所述漏读的音素发送给所述学生客户端；根据所述对齐信息从所述n个音素各自对应的音频片段中，分别提取得到所述n个音素各自对应的声学特征；调用打分模型对所述n个音素各自对应的声学特征和所述n个音素各自对应的标准发音的声学特征进行对齐处理，得到所述n个音素各自对应的GOP处理结果；其中，所述打分模型是采用标准音频内容进行训练得到的；调用评测模型对所述n个音素各自对应的GOP处理结果进行处理，确定所述n个音素各自对应的打分信息；其中，所述评测模型是采用带人工标注的语句级别的打分信息的训练数据进行训练得到的；将所述n个音素各自对应的打分信息与预设阈值进行比对处理，确定所述n个音素中发音错误的错误音素；获取所述文本内容中与所述错误音素对应的错误字符序列；向所述学生客户端发送所述错误字符序列的指示信息；

所述学生客户端，还用于根据所述错误字符序列的指示信息，在所述文本内容中将所述错误字符序列进行标注，根据所述服务器发送的所述漏读的音素，在所述文本内容中将所述漏读的音素进行标注。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至9任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至9任一项所述的方法。