CN112150583B

CN112150583B - 一种口语发音测评方法及终端设备

Info

Publication number: CN112150583B
Application number: CN202010914324.1A
Authority: CN
Inventors: 蒋小云
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2024-07-23
Anticipated expiration: 2040-09-02
Also published as: CN112150583A

Abstract

本发明实施例公开了一种口语发音测评方法及终端设备，应用于终端设备技术领域，可解决目前终端设备反馈方式较为单调，缺乏趣味性的问题。该方法包括：实时获取包括用户面部信息的画面，并显示包括所述用户面部信息的画面；获取用户的语音信息，分析所述语音信息，以得到语音数据，将所述语音数据与目标测评内容的标准语音数据进行对比，得到所述语音数据与所述目标测评内容的标准语音数据的相似度；根据所述相似度，确定所述用户发音情况的评价等级；将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上。该方法应用于需要终端设备对用户的发音和口型进行测评并反馈的场景中。

Description

一种口语发音测评方法及终端设备

技术领域

本发明实施例涉及终端设备技术领域，尤其涉及一种口语发音测评方法及终端设备。

背景技术

目前，市面上的多数终端设备都有对用户的跟读发音进行测评的功能。用户在学习过程中遇到不会读的生字、语句时，可以利用终端设备进行学习。常见的，终端设备播放生词，用户跟读，终端设备检测用户的跟读发音，根据发音情况给出评价，以分数等方式将发音情况反馈给用户。但目前市面上常见的终端设备大多数都只是简单的输出用户发音情况的反馈信息，反馈方式也比较单调，从而导致终端设备的人机交互性能差，缺乏趣味性。

发明内容

本发明实施例提供一种口语发音测评方法及终端设备，用以解决现有技术中终端设备的人机互动性能差，一定程度上影响用户的学习效率的问题。为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，提供一种口语发音测评方法，该方法包括：

实时获取包括用户面部信息的画面，并显示包括所述用户面部信息的画面；

获取用户的语音信息，分析所述语音信息，以得到语音数据，将所述语音数据与目标测评内容的标准语音数据进行对比，得到所述语音数据与所述目标测评内容的标准语音数据的相似度；

根据所述相似度，确定所述用户发音情况的评价等级；

将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上。

作为一种可选的实施方式，在本发明实施例第一方面中，所述实时获取包括用户面部信息的画面，包括：

若检测到语音测评功能开启，则调整摄像头的位置，在检测到所述用户面部处于所述摄像头的拍摄范围内时，固定所述摄像头，并实时获取包括所述用户面部信息的画面；

若在调整所述摄像头位置的第一预设时长内，未检测到所述用户面部处于所述摄像头的拍摄范围内，则输出第一提示信息，以提示所述用户不在所述摄像头的拍摄范围内。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取用户的语音信息之后，所述方法还包括：

从包括所述用户面部信息的画面中识别所述用户的发音口型，判断所述用户的发音口型与所述目标测评内容的标准发音口型是否匹配；

若不匹配，则输出第二提示信息，以提示所述用户发音口型错误，并播放所述目标测评内容的标准发音口型的视频。

作为一种可选的实施方式，在本发明实施例第一方面中，所述将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上，包括：

确定与所述评价等级对应设置的多个AR显示内容；

从所述多个AR显示内容中确定与所述目标测评内容关联的所述目标AR显示内容；

将所述目标AR显示内容，叠加显示在包括所述用户面部信息的画面上。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取用户的语音信息，分析所述语音信息之后，还包括：

检测所述语音信息的外界声音并检测所述外界声音的分贝是否大于预设分贝阈值；

若所述外界声音的分贝大于所述预设分贝阈值，输出第三提示信息，以提示所述用户所述外界声音较大，影响所述语音信息的采集。

第二方面，提供一种终端设备，该终端设备包括：

处理模块，用于实时获取包括用户面部信息的画面，并显示包括所述用户面部信息的画面；以及获取用户的语音信息，分析所述语音信息，以得到语音数据，将所述语音数据与目标测评内容的标准语音数据进行对比，得到所述语音数据与所述目标测评内容的标准语音数据的相似度；

确定模块，用于根据所述相似度，确定所述用户发音情况的评价等级；

输出模块，用于将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上。

作为一种可选的实施方式，在本发明实施例第二方面中，所述处理模块，还用于若检测到语音测评功能开启，则调整摄像头的位置，在检测到所述用户面部处于所述摄像头的拍摄范围内时，固定所述摄像头，并实时获取包括所述用户面部信息的画面；

所述输出模块，还用于若在调整所述摄像头位置的第一预设时长内，未检测到所述用户面部处于所述摄像头的拍摄范围内，则输出第一提示信息，以提示所述用户不在所述摄像头的拍摄范围内。

作为一种可选的实施方式，在本发明实施例第二方面中，所述处理模块，还用于从包括所述用户面部信息的画面中识别所述用户的发音口型，判断所述用户的发音口型与所述目标测评内容的标准发音口型是否匹配；

所述输出模块，还用于若不匹配，则输出第二提示信息，以提示所述用户发音口型错误，并播放所述目标测评内容的标准发音口型的视频。

作为一种可选的实施方式，在本发明实施例第二方面中，所述确定模块，还用于确定与所述评价等级对应设置的多个AR显示内容；以及从所述多个AR显示内容中确定与所述目标测评内容关联的所述目标AR显示内容；

所述输出模块，还用于将所述目标AR显示内容，叠加显示在包括所述用户面部信息的画面上。

作为一种可选的实施方式，在本发明实施例第二方面中，所述处理模块，还用于检测所述语音信息的外界声音并检测所述外界声音的分贝是否大于预设分贝阈值；

所述输出模块，还用于若所述外界声音的分贝大于所述预设分贝阈值，输出第三提示信息，以提示所述用户所述外界声音较大，影响所述语音信息的采集。

第三方面，提供一种终端设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面中口语发音测评方法。

第四方面，提供一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行本发明实施例第一方面中的口语发音测评方法。所述计算机可读存储介质包括ROM/RAM、磁盘或光盘等。

第五方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

第六方面，提供一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，终端设备在开启测评功能后，切换前置摄像头的角度，拍摄用户面部信息并显示在终端设备屏幕上。终端设备对用户的发音进行测评并确定评价等级，根据不同的评价等级将对应等级的AR显示内容叠加显示在终端设备包括用户面部信息的画面上。本发明实施例采用AR显示的方式输出评价等级等反馈信息，丰富了终端设备的反馈形式，优化了人机交互性能，提高用户的学习兴趣，有效的提升了用户的参与感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种口语发音测评方法的流程示意图一；

图1b是本发明实施例提供的一种口语发音测评方法的场景示意图一；

图1c是本发明实施例提供的一种口语发音测评方法的场景示意图二；

图2a是本发明实施例提供的一种口语发音测评方法的流程示意图二；

图2b是本发明实施例提供的一种摄像头位于第一拍摄角度的示意图；

图2c是本发明实施例提供的一种摄像头位于第二拍摄角度的示意图；

图3是本发明实施例提供的一种终端设备的结构示意图一；

图4是本发明实施例提供的一种终端设备的结构示意图二；

图5是本发明实施例提供的一种终端设备的结构示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一提示信息和第二提示信息等是用于区别不同的提示信息，而不是用于描述提示信息的特定顺序。

本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明实施例提供一种口语发音测评方法及终端设备，可以对用户的发音以及口型进行测评，并通过AR贴纸的输出方式反馈语音测评结果，可以丰富终端设备的反馈形式，从而优化了人机交互性能，提升了用户的参与感，具有趣味性。

本发明实施例涉及的终端设备可以为家教机、手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(Ultra-Mobile PersonalComputer，UMPC)、上网本或者个人数字助理(Personal Digital Assistant，PDA)等电子设备。其中，可穿戴设备可以为智能手表、智能手环、手表电话、智能脚环、智能耳环、智能项链、智能耳机等，本发明实施例不作限定。

本发明实施例提供的口语发音测评方法的执行主体可以为上述的终端设备，也可以为该终端设备中能够实现该口语发音测评方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以终端设备为例，对本发明实施例提供的口语发音测评方法进行示例性的说明。

实施例一

如图1a所示，图1a是本发明实施例公开的一种口语发音测评方法的流程示意图，本发明实施例提供一种口语发音测评方法，该方法可以包括下述步骤：

101、实时获取包括用户面部信息的画面，并显示包括用户面部信息的画面。

本发明实施例中，终端设备控制前置摄像头实时获取包括用户面部信息的画面，并自动将该画面显示在终端设备的显示屏上。

102、获取用户的语音信息，分析语音信息，得到语音数据。

本发明实施例中，终端设备通过麦克风装置采集用户的语音信息，并对该语音信息从语音参数方面进行分析，得到语音数据。

可选的，该语音参数可以包括发音、语调以及流利度中的至少一个，本发明实施例不做限定。

可选的，在分析语音信息时，还可以提取该语音信息中包含的外界声音，该外界声音是除了用户的语音信息之外的所有其他声音。再检测该外界声音的分贝值是否大于预设分贝阈值，如果该外界声音的分贝值大于预设分贝阈值，那么终端设备会输出提示信息，提示用户外界声音较大，影响语音信息的采集，以便于用户根据提示信息更换一个更加安静的环境。

103、将语音数据与目标测评内容的标准语音数据进行对比，得到语音数据与目标测评内容的标准语音数据的相似度。

本发明实施例中，在终端设备对语音信息从发音、语调以及流利度三个方面进行分析，得到了三个语音数据的情况下，终端设备对目标测评内容的标准语音同样也从发音、语调以及流利度三个方面进行分析，得到三个标准语音数据，这时，将通过用户的语音信息得到的三个语音数据分别与目标测评内容的三个标准语音数据进行对比，得到三个不同方面的相似度。在本发明实施例中，该相似度以百分比形式表示，也可以用百分制的分数表示。

104、根据相似度，确定用户发音情况的评价等级。

本发明实施例中，终端设备提前对相似度和评价等级的关系进行设定并预存，在得到相似度之后，可以直接根据预存的相似度和评价等级的关系确定用户发音情况的评价等级。

可选的，终端设备得到三个相似度之后，可以就通过该三个相似度来确定用户语音信息的评价等级，那么此时就可以预设当三个相似度均达到一定的数值时，设定为某一等级。

示例性的，终端设备通过对比得到了发音、语调以及流利度三个方面的三个相似度，假如设定了当三个相似度均大于85％时，为完美等级；当三个相似度均大于70％时，为优秀等级；当三个相似度均大于60％时，为合格等级；当三个相似度中有任意一个相似度小于60％时，为不合格等级。假如用户甲通过对比得到的发音方面相似度为80％，语调方面相似度为70％，流利度方面相似度为90％，那么可以看到三个相似度均大于70％，所以用户甲得到的评价等级为优秀等级。

可选的，终端设备得到三个相似度之后，也可以对其分别赋予一定的权重，并相加得到最终相似度。那么此时，可以根据该最终相似度设定与评价等级之间的对应关系。

示例性的，假如终端设备预设的权重分别为发音方面相似度赋予0.5的权重，给语调方面相似度赋予0.2的权重，给流利度方面相似度赋予0.3的权重，并且设定当最终相似度大于85％时，为完美等级；当最终相似度大于70％时，为优秀等级；当最终相似度大于60％时，为合格等级；当最终相似度小于60％时，为不合格等级。如果用户甲的语音信息的发音方面相似度为80％，语调方面相似度为70％，流利度方面相似度为90％，那么通过计算，该语音信息最终相似度为80％*0.5+70％*0.2+90％*0.3＝81％。可以看到，最终相似度大于70％，所以用户甲得到的评价等级为优秀等级。

记录用户对目标测评内容的发音情况的评价分数，以及发音情况的评价等级。如果目标测评内容的发音情况的评价等级属于不及格等级，则将该目标测评内容以及评价等级发送至关联的监护人设备，并定期将该目标测评内容推送给用户，提示用户复习，直到用户对目标测评内容的发音情况的评价分数属于优秀等级或非常出色等级。

该方案可以将用户掌握不好的评测内容告知家长，提醒家长对用户的学习情况进行了解并督促。同时，定期将该目标测评内容推送给用户，也可以提醒用户进行复习，大大提高用户的学习效率，丰富用户与终端设备之间的交互方式。

105、将与评价等级对应设置的目标AR显示内容叠加显示在包括用户面部信息的画面上。

本发明实施例中，AR显示内容叠加显示在包括所述用户面部信息的画面上，同时采用AR显示和小界面显示方式。

可选的，目标测评内容对应的AR显示内容包括：文字、动画、图像中的至少一种，根据用户获得的评价等级确定对应的多个AR显示内容，再从多个AR显示内容中确定与目标测评内容关联的目标AR显示内容，并叠加显示在包括用户面部信息的画面上。

示例性的，如图1b所示，如果用户的目标测评内容是potato这个单词，通过对比得到的相似度为70％，属于优秀等级。那么对应的AR显示内容包括有微笑表情，测评内容的发音词义等信息，还有用户进行测评的评价分数和等级等。这时从中确定出和potato关联的目标AR显示内容，用户面部会被微笑的卡通土豆覆盖，屏幕上其他区域会显示potato单词的词义造句、70％的相似度、以及发音测评获得的优秀等级。

示例性的，如图1c表示，如果用户的目标测评内容是potato这个单词，通过对比得到的相似度为55％，属于不合格等级。那么对应的AR显示内容包括有哭泣表情，测评内容的发音词义等信息，还有用户进行测评的评价分数和等级等。这时从中确定出和potato关联的目标AR显示内容，用户面部会被哭泣的卡通土豆覆盖，屏幕上其他区域会显示potato单词的词义造句、55％的相似度、以及发音测评获得的不合格等级。

本发明实施例提供一种口语发音测评方法，通过获取用户面部信息的实时画面采集用户的语音信息并分析得到语音数据，与标准语音数据进行对比得到相似度，根据预设对应关系确定用户发音情况的评价等级，再将对应等级的AR显示内容叠加显示在包括用户面部信息的画面上。该方案采用AR显示的方式，通过不同的AR贴纸表现用户获得的评价等级，可以让用户非常直观的了解到自己对于该测评内容的发音掌握情况，优化了终端设备的人机交互性能，提高用户的学习兴趣。

实施例二

如图2a所示是本发明实施例提供一种口语发音测评方法，该方法可以包括下述步骤：

201、接收到用户开启语音测评功能的指令后，开启摄像头并调整摄像头位置。

本发明实施例中，当用户开启语音测评功能后，终端设备会开启摄像头，使得可以清晰采集到用户的面部信息。

若终端设备通过摄像头可以直接采集到用户的面部信息，则直接获取包括用户面部信息的实时画面；若终端设备通过摄像头无法采集到用户的面部信息，则控制摄像头进行角度的调整。

可选的，本发明实施例中，终端设备中设置有显示屏的平面与摄像头的拍摄面(即摄像头的镜头所在平面)形成拍摄角度，终端设备可以根据实际需求进行角度的调整。

可选的，终端设备可以预先设置第一拍摄角度和第二拍摄角度两个拍摄角度，第二拍摄角度大于第一拍摄角度，终端设备的拍摄角度可以在第一拍摄角度和第二拍摄角度之间进行调节。

其中，第一拍摄角度可以设置为75度到125度之间的任意值，第二拍摄角度可以设置为150度到200度之间的任意值。

示例性的，如图2b是一种摄像头位于第一拍摄角度的示意图。终端设备21立于用户正前方桌面上，摄像头23可以随着旋转轴22进行旋转，当摄像头23达到图示位置时，可以对拍摄范围24内的课本进行拍摄。图2b中，第一拍摄角度为100度。当终端设备需要获取包括用户面部信息的实时画面时，可以控制摄像头23随着旋转轴22旋转到第二拍摄角度，如图2c所示，第二拍摄角度为170度，此时可以对用户面部信息进行拍摄。

202、检测在第一预设时长内，摄像头是否检测到用户面部信息。

若在第一预设时长内，摄像头可以检测到用户面部信息，则进行204步骤；若在第一预设时长内，摄像头仍然无法检测到用户面部信息，则进行203步骤。

203、输出第一提示信息。

本发明实施例中，终端设备输出第一提示信息，用于提示用户不在摄像头的拍摄范围内，无法进行面部信息的采集，从而引导用户调整本人位置或者调整终端设备的摆放位置，调整位置之后再次检测摄像头是否可以检测到用户面部信息。

可选的，如果摄像头采集到的画面中，存在用户的部分面部信息，即用户面部并没有全部入镜，此时，终端设备可以根据采集到的用户面部信息确定移动方向以及目标距离，并输出精确的提示信息，来提示用户进行相应的移动，这样用户可以根据该提示信息通过一次的准确移动就可以进入到摄像头的采集范围内。

示例性的，如果终端设备只采集到了用户的左半边脸，那么可以确定用户需要向左边移动，并根据采集图像中的用户面部特征和摄像头的录制范围，确定出需要移动10厘米，那么就可以向用户输出提示信息，用来提示用户向左边移动10厘米，保证可以准确清晰的采集到的用户面部信息。

该方案根据采集到的面部信息，确定出精确的移动方向和目标距离，并引导用户通过一次准确移动就可以使得摄像头采集到清晰的面部信息，避免了用户进行多次调整位置之后仍然无法采集到清晰的面部信息的情况，可以节省用户的操作时间以及终端设备的功耗。

204、固定摄像头。

205、获取包括用户面部信息的实时画面，并显示包括用户面部信息的实时画面。

本发明实施例中，针对步骤205的描述，请参照实施例一中针对步骤101的详细描述，此处不再赘述。

206、从包括用户面部信息的画面中识别用户的发音口型。

本发明实施例中，终端设备根据摄像头采集到的用户面部信息的画面，识别用户的发音口型信息，该发音口型信息为摄像头采集到的包括用户面部信息的画面中提取到的用户口型的变化画面。

207、判断用户的发音口型与标准发音口型是否匹配。

本发明实施例中，当终端设备获取到目标评测内容后，会自动调取出对应的标准发音口型。将用户的发音口型与标准发音口型进行匹配，如果可以匹配，则进行209步骤；如果不匹配，则进行208操作。

208、输出第二提示信息播放目标测评内容的标准发音口型的画面。

如果用户的发音口型与标准发音口型不匹配，则输出第二提示信息，用于提示用户发音口型不准确，同时会自动播放目标测评内容的标准发音口型的画面，让用户去进行学习并重新发音。再重复进行205-207操作，重新获取包括用户面部信息的实时画面，识别用户第二次发音口型，再次判断用户第二次发音口型与目标测评内容的标准发音口型是否匹配。

可选的，当用户的发音口型与目标测评内容的标准发音口型不匹配的次数达到预设不匹配次数之后，终端设备会将该目标评测内容发送至关联的监护人设备，并提示监护人该用户对目标评测内容掌握不好，应该多次进行练习。同时，终端设备在对之后的评测内容推送过程中，会多次推送该目标评测内容，直到用户可以一次性通过发音口型匹配。该预设不匹配次数可以根据目标测评内容的难易程度以及用户的学习情况，自主设定。

示例性的，预设不匹配次数为3次。当用户对potato这个单词进行学习时，发音口型不准确，无法与标准发音口型进行匹配，当不匹配次数达到三次时，终端设备会将potato这个单词发送到家长的终端设备上，并告诉家长用户对这个单词掌握的不好，应该多次练习。同时，在之后的单词推送中，也会多次出现potato这个单词，直到用户可以一次通过potato这个单词的发音口型检测。

该方案可以将用户发音口型不准确的评测内容告知家长，提醒家长对用户的学习情况进行了解并督促。同时，定期将该目标测评内容推送给用户，也可以提醒用户多次复习，大大提高用户的学习效率，也可以提高用户与终端设备之间的交互方式。

209、获取用户的语音信息，分析语音信息，以得到语音数据。

210、将语音数据与目标测评内容的标准语音数据进行对比，得到语音数据与目标测评内容的标准语音数据的相似度。

211、根据相似度，确定用户发音情况的评价等级。

212、将与评价等级对应设置的目标AR显示内容叠加显示在包括用户面部信息的画面上。

本发明实施例中，针对步骤209～212的描述，请参照实施例一中针对步骤102～105的详细描述，此处不再赘述。

本发明实施例中，步骤206～208和步骤209～211可以是同步进行的，也可以是按照先后顺序进行的，先后顺序本发明实施例不做限定。

本发明实施例提供一种口语发音测评方法，接收到用户开始测评的指令后，开启摄像头并在没有检测到人脸的情况下，输出提示消息。再对用户的发音口型与标准发音口型进行匹配，在不匹配的情况下，播放标准发音口型并定期向客户推送该测评内容，获取语音信息之后确定相似度，根据相似度确定评价等级，并叠加显示对应的AR内容。该方案可以丰富终端设备的反馈方式，并优化终端设备的人机交互性能，有效的提升了用户的参与感，提高用户的学习兴趣。

实施例三

如图3所示，本发明实施例提供一种终端设备，该终端设备包括：

处理模块301，用于实时获取包括用户面部信息的画面，并显示包括用户面部信息的画面。

上述处理模块301，还用于获取用户的语音信息，分析语音信息，以得到语音数据，将语音数据与目标测评内容的标准语音数据进行对比，得到语音数据与目标测评内容的标准语音数据的相似度。

确定模块302，用于根据相似度，确定用户发音情况的评价等级。

输出模块303，用于将与评价等级对应设置的目标AR显示内容叠加显示在包括用户面部信息的画面上。

可选的，上述处理模块301，还用于若检测到语音测评功能开启，则调整摄像头的位置，在检测到用户面部处于摄像头的拍摄范围内时，固定摄像头，并实时获取包括用户面部信息的画面。

上述输出模块303，还用于若在调整摄像头位置的第一预设时长内，未检测到用户面部处于摄像头的拍摄范围内，则输出第一提示信息，以提示用户不在摄像头的拍摄范围内。

可选的，上述处理模块301，还用于从包括用户面部信息的画面中识别用户的发音口型，判断用户的发音口型与目标测评内容的标准发音口型是否匹配。

上述输出模块303，还用于若不匹配，则输出第二提示信息，以提示用户发音口型错误，并播放目标测评内容的标准发音口型的视频。

可选的，上述确定模块302，还用于确定与评价等级对应设置的多个AR显示内容；以及从多个AR显示内容中确定与目标测评内容关联的目标AR显示内容。

上述输出模块303，还用于将目标AR显示内容，叠加显示在包括用户面部信息的画面上。

可选的，上述处理模块301，还用于检测语音信息的外界声音并检测外界声音的分贝是否大于预设分贝阈值。

上述输出模块303，还用于若外界声音的分贝大于预设分贝阈值，输出第三提示信息，以提示用户外界声音较大，影响语音信息的采集。

本发明实施例中，各模块可以实现上述方法实施例提供的口语发音测评方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

如图4所示，本发明实施例还提供一种终端设备，该终端设备可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

其中，处理器402调用存储器401中存储的可执行程序代码，执行上述实施例中指纹采集方法中的全部或部分步骤。

本发明实施例涉及的终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本或者个人数字助理(Personal Digital Assistant，PDA)等电子设备。其中，可穿戴设备可以为智能手表、智能手环、电话手表、智能脚环、智能耳环、智能项链、智能耳机等，本发明实施例不作限定。

如图5所示，本发明实施例还提供一种终端设备，该终端设备包括但不限于：射频(radio frequency，RF)电路501、存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线通信(wireless fidelity，WiFi)模块507、处理器508、电源509、以及摄像头510等部件。其中，射频电路501包括接收器5011和发送器5012。本领域技术人员可以理解，图5中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器508处理；另外，将设计上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路501还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器502可用于存储软件程序以及模块，处理器508通过运行存储在存储器502的软件程序以及模块，从而执行终端设备的各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元503可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元503可包括触控面板5031以及其他输入设备5032。触控面板5031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5031上或在触控面板5031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板5031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种实现触控面板5031。除了触控面板5031，输入单元503还可以包括其他输入设备5032。具体地，其他输入设备5032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元504可包括显示面板5041，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-Emitting diode，OLED)等形式来配置显示面板5041。进一步的，触控面板5031可覆盖显示面板5041，当触控面板5031检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的，随后处理器508根据触摸事件的在显示面板5041上提供相应的视觉输出。虽然在图5中，触控面板5031与显示面板5041是作为两个独立的部件来实现终端设备的输入和输入功能，但是在某些实施例中，可以将触控面板5031与显示面板5041集成而实现终端设备的输入和输出功能。

终端设备还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5041的亮度，接近传感器可在终端设备移动到耳边时，退出显示面板5041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。本发明实施例中，该终端设备可以包括加速度传感器、深度传感器或者距离传感器等。

音频电路506、扬声器5061，传声器5062可提供用户与终端设备之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器5061，由扬声器5061转换为声音信号输出；另一方面，传声器5062将收集的声音信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一终端设备，或者将音频数据输出至存储器502以便进一步处理。

WiFi属于短距离无线传输技术，终端设备通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块507，但是可以理解的是，其并不属于终端设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器508可包括一个或多个处理单元；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

终端设备还包括给各个部件供电的电源509(比如电池)，优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出，终端设备还可以包括蓝牙模块等，在此不再赘述。

本发明实施例中，处理器508，用于实时获取包括用户面部信息的画面，并显示包括所述用户面部信息的画面；

根据所述相似度，确定所述用户发音情况的评价等级；

可选的，上述处理器508还可以用于实现上述方法实施例中终端设备所实现的其他过程。

本发明实施例提供一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本发明实施例还提供一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本发明实施例还提供一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本发明实施例提供的终端设备能够实现上述方法实施例中所示的各个过程，为避免重复，此处不再赘述。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的上述各个方法实施例的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

Claims

1.一种口语发音测评方法，其特征在于，所述方法包括：

根据所述相似度，确定所述用户发音情况的评价等级；

将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上；

所述将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上，包括：

确定与所述评价等级对应设置的多个AR显示内容；

2.根据权利要求1所述的方法，其特征在于，所述实时获取包括用户面部信息的画面，包括：

3.根据权利要求1所述的方法，其特征在于，所述实时获取包括用户面部信息的画面之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述获取用户的语音信息，分析所述语音信息之后，还包括：

5.一种终端设备，其特征在于，包括：

输出模块，用于将与所述评价等级对应设置的目标AR显示内容叠加显示在包括所述用户面部信息的画面上；

所述确定模块，还用于确定与所述评价等级对应设置的多个AR显示内容；以及从所述多个AR显示内容中确定与所述目标测评内容关联的所述目标AR显示内容；

6.根据权利要求5所述的终端设备，其特征在于，

所述处理模块，还用于若检测到语音测评功能开启，则调整摄像头的位置，在检测到所述用户面部处于所述摄像头的拍摄范围内时，固定所述摄像头，并实时获取包括所述用户面部信息的画面；

7.根据权利要求5所述的终端设备，其特征在于，

所述处理模块，还用于从包括所述用户面部信息的画面中识别所述用户的发音口型，判断所述用户的发音口型与所述目标测评内容的标准发音口型是否匹配；

8.根据权利要求5所述的终端设备，其特征在于，

所述处理模块，还用于检测所述语音信息的外界声音并检测所述外界声音的分贝是否大于预设分贝阈值；

9.一种终端设备，其特征在于，包括：

处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的口语发音测评的方法。

10.一种计算机可读存储介质，包括：计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1至4中任一项的确定口语发音测评的方法。