CN111951828A

CN111951828A - 发音测评方法、装置、系统、介质和计算设备

Info

Publication number: CN111951828A
Application number: CN201910408727.6A
Authority: CN
Inventors: 胡太; 孙怿; 沈欣尧; 刘晨晨; 崔守首; 余津锐
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-17
Anticipated expiration: 2039-05-16
Also published as: CN111951828B

Abstract

本发明的实施方式提供了一种发音测评方法。该方法包括：获取用户的发音视频；从所述发音视频中获取有效视频段；基于所述有效视频段，获取用户的发音口型特征序列；根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。本方法通过用户发音时的图像特征来评判用户的发音是否准确，而不是根据用户发音的语音特征，避免了噪声对语音识别的干扰，有效弥补语音识别在特定场景和任务下的不足，为用户带来了更好的体验。此外，本发明的实施方式还提供了一种发音测评装置、系统、介质和计算设备。

Description

发音测评方法、装置、系统、介质和计算设备

技术领域

本发明的实施方式涉及口语评测领域，更具体地，本发明的实施方式涉及一种发音测评方法、装置、系统、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

现有的发音打分技术多数都是基于语音识别的方法，这些方法利用语音特征来判别音标发音的准确性。早期主流的打分技术主要是基于隐马尔科夫模型的语音识别引擎，利用其似然分数值(likelihoodscore)以及其他相关的信息做为评分依据。其中，最经典的GOP(GoodnessofPronunciation)方法是由麻省理工大学的SilkeWitt在他的博士论文中提出。之后的评分方法大都与GOP算法相似，或者是由它衍生出来。

在某些场景下，如环境嘈杂或用户发出的声音较小，仅仅利用基于语音的方法较难准确地判别用户发音是否正确。

发明内容

为此，非常需要一种改进的发音测评方法，使得即使用户处于嘈杂环境等场景下，依然能够准确地判别用户发音是否正确。

在本上下文中，本发明的实施方式期望提供一种发音测评方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种发音测评方法，包括：

获取用户的发音视频；

从所述发音视频中获取有效视频段；

基于所述有效视频段，获取用户的发音口型特征序列；

根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。

在本发明的一个实施例中，从所述发音视频中获取有效视频段，包括：

获取所述用户的发音视频的视频信号；

基于所述视频信号的波动，对所述发音视频进行裁剪，去除用户未发音的视频帧，以获取有效视频段。

在本发明的另一实施例中，采用基于z-score阈值匹配的方法对所述发音视频进行裁剪。

在本发明的又一个实施例中，基于所述有效视频段，获取用户的发音口型特征序列，包括：

获取所述有效视频段中每一帧图像的发音口型特征；

基于每一帧图像的发音口型特征生成所述有效视频段的发音口型特征序列。

在本发明的再一个实施例中，获取所述有效视频段中每一帧图像的发音口型特征，包括：

基于每一帧图像中嘴部区域的各个关键点到中心点的距离确定每一帧图像的发音口型特征。

在本发明的再一个实施例中，所述中心点基于嘴型内轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认。

在本发明的再一个实施例中，根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数，包括：

将用户的发音口型特征序列与标准音口型特征序列对比，获得用户的发音口型特征序列与标准音口型特征序列的发音口型特征相似度；

基于所述发音口型特征相似度，得到用户的发音口型分数。

基于用户的发音口型特征序列得到用户的发音口型变化特征序列；

将用户的发音口型特征序列以及发音口型变化特征序列分别与标准音口型特征序列以及标准音口型变化特征序列对比，得到发音口型特征相似度以及发音口型变化相似度；

基于所述发音口型特征相似度以及发音口型变化相似度，得到用户的发音口型分数。

在本发明的再一个实施例中，基于所述发音口型特征相似度以及发音口型变化相似度，得到用户的发音口型分数，包括：

基于所述发音口型特征相似度得到用户的发音口型特征分数；

基于所述发音口型变化相似度得到用户的发音口型变化分数；

基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数。

在本发明的再一个实施例中，基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数，包括：

计算所述发音口型特征分数和发音口型变化分数的平均分；

将所述平均分作为用户的发音口型分数。

将所述发音口型特征分数和发音口型变化分数加权平均，得到用户的发音口型分数。

在本发明的再一个实施例中，采用归一化的方法将相似度转换为相应的分数。

在本发明的再一个实施例中，采用极小极大归一化的方法将相似度转换为相应的分数。

在本发明的再一个实施例中，以重采样的标准音口型特征序列与原始标准音口型特征序列计算相似度，得到极小值；以闭嘴的口型特征序列与原始标准音口型特征序列计算相似度，得到极大值。

在本发明的再一个实施例中，采用动态时间规整算法计算特征序列之间的距离以及采用归一化的方法基于特征序列间的距离得到相似度。

在本发明实施方式的第二方面中，提供了一种发音测评装置，包括：

发音视频获取模块，被配置为获取用户的发音视频；

有效视频段获取模块，被配置为从所述发音视频中获取有效视频段；

发音口型特征序列获取模块，被配置为基于所述有效视频段，获取用户的发音口型特征序列；

发音口型分数计算模块，被配置为根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。

在本发明实施方式的第三方面中，提供了一种发音测评方法，包括：

根据本发明实施方式第一方面任一实施例所述的方法计算口型分数；

根据与用户的发音视频对应的语音内容计算语音分数；

基于所述口型分数和语音分数计算发音分数。

在本发明实施方式的第四方面中，提供了一种发音测评系统，包括：

本发明实施方式第二方面所述的发音测评装置，被配置为计算口型分数；以及语音测评装置，其中，所述语音测评装置被配置为根据与用户的发音视频对应的语音内容计算语音分数；以及

发音分数计算装置，被配置为基于所述口型分数和语音分数计算发音分数。

在本发明实施方式的第五方面中，提供了一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如第一/三方面任一实施例所述的方法。

在本发明实施方式的第六方面中，提供了一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如第一/三方面任一实施例所述的方法。

根据本发明实施方式的发音测评方法、装置、介质和计算设备，可以根据用户发音时的图像特征来评判用户的发音是否准确，而不是根据用户发音的语音特征，避免了噪声对语音识别的干扰，有效弥补语音识别在特定场景和任务下的不足，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明各个实施方式的一种应用场景示意图；

图2示意性地示出了根据本发明一实施方式的发音测评学习方法的流程示意图；

图3示意性地示出了根据本发明各个实施方式的又一应用场景示意图；

图4示意性地示出了根据本发明各个实施方式的中心点以及距离计算的示意图；

图5示意性地示出了根据本发明一实施方式的嘴部区域内外轮廓关键点的示意图；

图6示意性地示出了根据本发明一实施方式的发音测评学习装置的模块示意图；

图7示意性地示出了根据本发明一实施方式的发音测评学习系统的示意图；

图8示意性地示出了根据本发明实施方式提供的一种计算机可读存储介质的示意图；

图9示意性地示出了根据本发明实施方式提供的一种计算设备的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种发音测评的方法、装置、介质和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，近几年英语口语发音打分算法的研究主要建立在语音特征的表示上，但是却很大程度地忽略了面部视觉特征。对于需要关注更多口型形状和大小的音标发音任务，面部视觉特征起到了很重要的作用。合适的口型视觉特征编码可以有效地判别不同的音标发音；另外，若将视觉特征的判别结果与语音特征的判别结果相结合，由于多模态特征间的互补性，相比于单个模态的特征可以带来更优的判别性能。

本发明设计了一种基于视觉的发音测评方法，该方法结合面部口型关键点特征，对发音视频帧序列做视觉特征序列编码。然后比较用户和标准发音的编码特征，计算特征间的相似性，从而得到用户的发音得分；同时，将本发明的方法可以与语音识别相结合，有效弥补语音识别在特定场景和任务下的不足。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，图1是本发明的发音测评方法的应用场景示意图，图1中用户可以通过终端设备A进行发音测评，所述终端A可以在屏幕上显示待用户发音的测评内容(例如音标或单词或句子等)，并且还可以通过摄像头(图像采集设备)和/或麦克风(音频采集设备)等数据采集设备采集用户根据所述测评内容发音时的视频和/或音频以通过所述发音测评方法对用户的发音进行测评。

可以理解的是，所述发音测评内容可以是终端A从服务器下载的，并且对终端A采集到的数据进行分析处理(即执行所述发音测评方法)的也可以是服务器。实际的应用过程中，服务器可以存在多级，也即可以是接收服务器接收终端设备发送的视频和/或音频数据，并将接收到的视频和/或音频数据发送到处理服务器，处理服务器对接收到的视频数据根据本发明的发音测评方法进行处理，得到用户的发音测评分数，并反馈至所述终端设备A进行展示。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的发音测评方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2是本发明实施方式第一方面所述一种发音测评方法的实施例的流程示意图。虽然本发明提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

为了清楚起见，下述实施例以具体的一个用户通过移动终端进行发音测评的实施场景进行说明。所述的移动终端可以包括手机、平板电脑，或者其他有视频拍摄功能和数据通信功能的通用或专用设备。所述的移动终端和服务器可以部署有相应的应用模块,如移动终端安装的某个口语学习APP(application，应用)，以实现相应的数据处理。但是，本领域技术人员能够理解到，可以将本方案的实质精神应用到发音测评的其他实施场景中，如参照图3，移动终端采集数据后，采集到的数据发送至服务器进行处理，并通过所述移动终端反馈给用户。

具体的一种实施例如图2所示，本发明提供的一种发音测评方法的一种实施例中，所述方法可以包括：

步骤S10，获取用户的发音视频；

在本实施方式中，测评用户的发音时，首先通过本步骤获取用户的发音视频，在本实施方式的一个实施例中，移动终端通过集成的前置摄像头采集用户发音时的视频，可以理解的是，所述发音视频也可以不是实时采集的，例如存储在所述移动终端中的本地视频，或从其他移动终端/服务器接收的发音视频。

在获取到用户的发音视频后，执行步骤S20，从所述发音视频中获取有效视频段；

在本实施方式的一个实施例中，可以通过去除无效视频(不包括用户发音过程的视频，即用户发音前没有张嘴的视频以及用户发音后闭嘴的视频)的方式获取有效视频段，具体的，包括：

获取所述用户的发音视频的视频信号；

在本实施例中，通过视频信号的波动情况确定当前视频是否为有效视频，信号的波动越小，则说明视频画面的变化越小，即视频中包括用户发音画面的概率越小，因此，可以通过设置合理的阈值来确定当前的视频帧是否包括用户发音画面。

在本实施方式的一个实施例中，通过z-score阈值匹配的方法确定视频信号的波动情况，具体的，首先根据视频中每一帧的口型高度得到一个序列，然后在所述序列上应用z-score方法，将当前信号(序列值)减去信号平均值后除以标准差，得到z-score值，若z-score值越小，则说明信号的波动越小。因此，在本实施例中，预先设置了阈值，若根据当前的视频信号得到的z-score值小于预设阈值，则确定当前视频帧不包括用户发音画面，由此可以判断当前的视频帧应被裁剪。

在获得有效视频段之后，接下来执行步骤S30，基于所述有效视频段，获取用户的发音口型特征序列；

本步骤中，可以先获取所述有效视频段中每一帧的发音口型特征，再将获取到的每一帧的发音口型特征串联起来得到所述有效视频段的发音口型特征序列。

在本实施方式的一个实施例中，所述步骤S30包括：

获取所述有效视频段中每一帧图像的发音口型特征；

在本步骤中，根据所述有效视频段中每一帧图像获取对应的发音口型特征，具体的，可以对当前帧的图像进行识别，获取所述图像中的嘴部区域的图像，进而根据嘴部区域的图像确定当前帧图像的发音口型特征，例如，可以对嘴部区域的图像进行检测，确定嘴部区域的各个关键点，再根据嘴部区域的各个关键点确定嘴部区域的中心点，之后基于每一帧图像中嘴部区域的各个关键点到中心点的距离确定每一帧图像的发音口型特征。

其中，所述中心点基于嘴型内轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认，具体的，参照图4，将嘴型内轮廓最高顶点与最低顶点相连接，最左顶点与最右顶点相连接，两条连接线的交点即为嘴部区域的中心点。可以理解的是，本实施例中的对于中心点的选取方式仅为示意，本领域的技术人员可以根据实际需要进行选择，例如基于嘴型外轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认或者基于发音类型确定中心点的选取方式。在本实施例中，选取统一的中心点能够使得得到的发音特征更加归一化。

在本实施例中，嘴部区域的关键点为20个，分别位于嘴部区域的内外轮廓上，具体的，参照图5，在确定发音口型特征时，按照关键点的顺序分别计算各个关键点到中心点的距离，然后将计算得到的各个距离作为当前帧的发音口型特征；或者，同时计算各个关键点到中心点的距离，然后按照关键点的顺序将计算得到的各个距离排序后，得到当前帧的发音口型特征。

具体的，在本实施方式的一个实施例中，可以分别计算嘴部区域内外轮廓的关键点到中心点的距离，然后确定每一帧图像的发音口型特征，参照图4，首先按照嘴部内轮廓关键点的顺序分别计算内轮廓上各个关键点到中心点的距离，然后将计算得到的距离进行归一化(例如将计算得到的各个距离除以嘴部区域的宽度)，同理可得嘴部区域外轮廓上各个关键点到中心点的归一化距离，之后进行编码得到当前帧图像的发音口型特征。

可选地，在本实施方式的一个实施例中，可以单独的根据嘴部区域内/外轮廓的关键点到中心点的距离确定每一帧图像的发音口型特征，例如，在确定发音口型特征时，按照嘴部内轮廓关键点的顺序分别计算各个关键点到中心点的距离，然后将计算得到的距离编码，得到当前帧的发音口型特征，可以理解的是，在根据嘴部区域外轮廓的关键点到中心点的距离确定每一帧图像的发音口型特征时，所述中心点可以基于嘴型外轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认。

可选地，在本实施方式的一个实施例中，还可以首先对当前视频帧的图像进行人脸检测，获取人脸的边界框，结合人脸的边界框(例如，利用梯度提升的集成回归树算法)对脸部区域进行关键点检测，找到人脸上普遍存在的68个关键点(Landmarks)，它包含了下巴的顶部，每只眼睛的外部轮廓，每条眉毛的内部轮廓，嘴部的内外轮廓等。

接下来，基于每一帧图像中嘴部区域的各个关键点到中心点的距离确定每一帧图像的发音口型特征，其中，中心点以及发音口型特征的确定方式如前所述，在此不进行具体说明。

在获得每一帧图像的发音口型特征之后，即可基于每一帧图像的发音口型特征生成所述有效视频段的发音口型特征序列。

在本实施方式的一个实施例中，若获取到嘴部区域的关键点为20个，则可以得到长度等于所述有效视频段的视频帧长度，特征维度为20维的发音口型特征序列。

在获取到所述有效视频段的发音口型特征序列后，执行步骤S40，根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。

在本实施方式中，将根据用户的发音口型特征序列与标准音口型特征序列的相似度计算发音口型分数，并且本实施方式中提供多种方式计算所述发音口型分数，本领域的技术人员可以根据实际应用场景进行选择，本实施方式对此不作限定。

可选地，在本实施方式的一个实施例中，所述步骤S40包括：

考虑到，语音信号具有很强的随机性，不同的发音习惯，发音时所处的环境不同，心情不同都会导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音，或者带上一点呼吸音，此时，由于拖音或呼吸音会被误认为一个音素，造成单词的端点检测不准，造成特征参数的变化，从而影响测度估计，降低识别率。

类似的，虽然本方法是根据用户发音时的图像特征对用户的发音进行测评，但依然会存在上述问题，在本实施方式的一个实施例中，通过动态时间规整算法得到用户的发音口型特征序列与标准音口型特征序列的发音口型特征相似度，具体的，对用户的发音口型特征序列与标准音口型特征序列进行规整对齐，然后将对齐后路径中每个值求和后得到两个序列之间的距离，最后通过极小极大归一化方法将距离转化为相似度。

考虑到虽然用户的发音口型特征序列与标准音口型特征序列不等长的概率较大，但也不排除等长的可能性，若用户的发音口型特征序列与标准音口型特征序列，则可以直接计算两个序列之间的距离，可选地，在本实施方式的一个实施例中，首先判断用户的发音口型特征序列与标准音口型特征序列是否等长；若是，则直接计算两个序列之间的距离，然后通过极小极大归一化方法将距离转化为相似度；若否，则通过动态时间规整算法得到用户的发音口型特征序列与标准音口型特征序列的发音口型特征的距离，然后采用归一化的方法基于特征序列间的距离得到相似度。

基于所述发音口型特征相似度，得到用户的发音口型分数。

本步骤中可以将得到的所述发音口型特征相似度转换为相应的发音口型分数，具体的，在本实施方式的一个实施例中采用归一化的方法(极小极大归一化的方法)将相似度转换为相应的分数，例如，以重采样的标准音口型特征序列与原始标准音口型特征序列计算相似度，得到极小值x_min；以闭嘴的口型特征序列与原始标准音口型特征序列计算相似度，得到极大值x_max，然后再根据本发明以上实施方式中所述的方法得到用户的发音口型特征相似度x，那么用户的发音口型分数S＝(x-x_min)/(x_max-x_min)。需要说明的是，本实施例中特征之间的相似度也可以根据动态时间规整算法进行计算。

考虑到一些内容的发音过程存在变化(比如嘴型变化)，这些变化能够很好地反映/控制发音的准确性，可选地，在本实施方式的一个实施例中，所述步骤S40包括：

本步骤可以获取能够反映口型变化的发音口型变化特征序列，具体的，对用户的发音口型特征序列进行偏导计算，从而得到能够反映口型变化的发音口型变化特征序列。

在本实施例中，对于用户的发音口型分数的评测，不仅仅是根据静态的口型信息(发音口型特征序列)，还有动态的口型变化信息(发音口型变化特征序列)，本实施例中计算发音口型分数的方式与上一实施例类似，同样是先计算用户发音与标准音的特征序列之间的相似度，然后根据相似度获得相应的发音口型分数，具体的相似度计算方式在此不做赘述。

在获取到相似度之后，即可基于所述发音口型特征相似度以及发音口型变化相似度，得到用户的发音口型分数。

具体的，首先基于所述发音口型特征相似度得到用户的发音口型特征分数；然后基于所述发音口型变化相似度得到用户的发音口型变化分数；最后基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数，其中，所述发音口型特征分数和发音口型变化分数依然可以采用上述实施方式中的极大极小归一化方法，在此不再具体说明。然后，在本实施例中，可以计算所述发音口型特征分数和发音口型变化分数的平均分；然后将所述平均分作为用户的发音口型分数。

考虑到一些内容的发音过程变化较多，口型的变化对发音的正确与否影响较大，而一些内容的发音过程变化较少，口型的变化对正确与否影响较小，因此，在本实施方式的一个实施例中，将所述发音口型特征分数和发音口型变化分数加权平均，得到用户的发音口型分数，具体的，可以通过上述实施例的方式得到发音口型特征分数S₁，发音口型变化分数S₂，若发音口型特征分数的权重为a，发音口型变化分数的权重为b，那么用户的发音口型分数S＝a*S₁+b*S₂。可以理解的是，其中权重a和b，可以根据用户的发音内容进行调整，即口型的变化对发音的正确与否影响较大时，a<b；口型的变化对发音的正确与否影响较小时，a>b。

另外，在本发明实施方式的第一方面的基础上，本发明实施方式还公开了一种发音测评方法，包括：

根据本发明实施方式的第一方面任一实施例所述的方法计算口型分数；

根据与用户的发音视频对应的语音内容计算语音分数；

基于所述口型分数和语音分数计算发音分数。

在本实施方式的一个实施例中，基于所述口型分数和语音分数计算发音分数，包括：

将所述口型分数和语音分数加权平均，得到用户的发音分数。

在本实施方式的一个实施例中，口型分数和语音分数的权重根据发音场景确定。

在本实施例中，将所述口型分数和语音分数加权平均，得到用户的发音分数，具体的，可以通过上述任一实施例的方式得到口型分数S₃，语音分数S₄，若口型分数的权重为α，语音分数的权重为β，那么用户的发音分数S_L＝α*S₃+β*S₄。可以理解的是，其中权重α和β，可以根据用户的发音场景进行自动调整，例如环境嘈杂时，难易根据声音确定用户的发音是否正确，那么可以设置α>β。

将所述口型分数和语音分数平均，得到用户的发音分数。

本发明公开了一种基于视觉的发音测评方法，该方法基于面部口型关键点特征，对发音视频帧序列做视觉特征序列编码。然后比较用户和标准发音的编码特征，计算特征间的相似性，从而得到用户的发音得分；同时，将本发明的方法可以与语音识别相结合，有效弥补语音识别在特定场景和任务下的不足。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6对本发明示例性实施方式的发音测评装置进行说明，所述装置包括：

发音视频获取模块610，被配置为获取用户的发音视频；

有效视频段获取模块620，被配置为从所述发音视频中获取有效视频段；

发音口型特征序列获取模块630，被配置为基于所述有效视频段，获取用户的发音口型特征序列；

发音口型分数计算模块640，被配置为根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。

在本实施方式的一个实施例中，所述有效视频段获取模块包括：

视频信号获取单元，被配置为获取所述用户的发音视频的视频信号；

有效视频段获取单元，被配置为基于所述视频信号的波动，对所述发音视频进行裁剪，去除用户未发音的视频帧，以获取有效视频段。

在本实施方式的一个实施例中，采用基于z-score阈值匹配的方法对所述发音视频进行裁剪。

在本实施方式的一个实施例中，所述发音口型特征序列获取模块包括：

发音口型特征获取单元，被配置为获取所述有效视频段中每一帧图像的发音口型特征；

发音口型特征序列生成单元，被配置为基于每一帧图像的发音口型特征生成所述有效视频段的发音口型特征序列。

在本实施方式的一个实施例中，所述发音口型特征获取单元还被配置为基于每一帧图像中嘴部区域的各个关键点到中心点的距离确定每一帧图像的发音口型特征。

在本实施方式的一个实施例中，所述中心点基于嘴型内轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认。

在本实施方式的一个实施例中，所述发音口型分数计算模块包括：

第一对比单元，被配置为将用户的发音口型特征序列与标准音口型特征序列对比，获得用户的发音口型特征序列与标准音口型特征序列的发音口型特征相似度；

第一分数获取单元，被配置为基于所述发音口型特征相似度，得到用户的发音口型分数。

发音口型变化特征序列获取单元，被配置为基于用户的发音口型特征序列得到用户的发音口型变化特征序列；

第二对比单元，被配置为将用户的发音口型特征序列以及发音口型变化特征序列分别与标准音口型特征序列以及标准音口型变化特征序列对比，得到发音口型特征相似度以及发音口型变化相似度；

第二分数获取单元，被配置为基于所述发音口型特征相似度以及发音口型变化相似度，得到用户的发音口型分数。

在本实施方式的一个实施例中，所述第二分数获取单元包括：

特征分数获取子单元，被配置为基于所述发音口型特征相似度得到用户的发音口型特征分数；

变化分数获取子单元，被配置为基于所述发音口型变化相似度得到用户的发音口型变化分数；

口型分数获取子单元，被配置为基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数。

在本实施方式的一个实施例中，所述口型分数获取子单元还被配置为计算所述发音口型特征分数和发音口型变化分数的平均分；以及将所述平均分作为用户的发音口型分数。

在本实施方式的一个实施例中，所述口型分数获取子单元还被配置为将所述发音口型特征分数和发音口型变化分数加权平均，得到用户的发音口型分数。

在本实施方式的一个实施例中，采用归一化的方法将相似度转换为相应的分数。

在本实施方式的一个实施例中，采用极小极大归一化的方法将相似度转换为相应的分数。

在本实施方式的一个实施例中，以重采样的标准音口型特征序列与原始标准音口型特征序列计算相似度，得到极小值；以闭嘴的口型特征序列与原始标准音口型特征序列计算相似度，得到极大值。

在本实施方式的一个实施例中，采用动态时间规整算法计算特征序列之间的距离以及采用归一化的方法基于特征序列间的距离得到相似度。

示例性系统

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图7对本发明示例性实施方式的发音测评系统进行说明，所述系统包括：

如本发明实施方式第二方面任一实施例所述的发音测评装置60，被配置为计算口型分数；以及语音测评装置71，其中，所述语音测评装置被配置为根据与用户的发音视频对应的语音内容计算语音分数；以及

发音分数计算装置72，被配置为基于所述口型分数和语音分数计算发音分数。

在本实施方式的一个实施例中，所述发音分数计算装置72还被配置为将所述口型分数和语音分数加权平均，得到用户的发音分数。

在本实施方式的一个实施例中，所述发音分数计算装置72还被配置为将所述口型分数和语音分数平均，得到用户的发音分数

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图8对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图8，其示出的计算机可读存储介质为光盘80，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取用户的发音视频；从所述发音视频中获取有效视频段；基于所述有效视频段，获取用户的发音口型特征序列；根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图9对本发明示例性实施方式的计算设备进行说明，图9示出了适于用来实现本发明实施方式的示例性计算设备90的框图，该计算设备90可以是计算机系统或服务器。图9显示的计算设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90的组件可以包括但不限于：一个或者多个处理器或者处理单元901，系统存储器902，连接不同系统组件(包括系统存储器902和处理单元901)的总线903。

计算设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备90访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器902可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022。计算设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM9023可以用于读写不可移动的、非易失性磁介质(图9中未显示，通常称为“硬盘驱动器”)。尽管未在图9中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线903相连。系统存储器902中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块9024的程序/实用工具9025，可以存储在例如系统存储器902中，且这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备90也可以与一个或多个外部设备904(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块(如处理单元901等)通信。应当明白，尽管图9中未示出，可以结合计算设备90使用其它硬件和/或软件模块。

处理单元901通过运行存储在系统存储器902中的程序，从而执行各种功能应用以及数据处理，例如，获取用户的发音视频；从所述发音视频中获取有效视频段；基于所述有效视频段，获取用户的发音口型特征序列；根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了发音测评装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：

1.一种发音测评方法，包括：

获取用户的发音视频；

从所述发音视频中获取有效视频段；

基于所述有效视频段，获取用户的发音口型特征序列；

2.如技术方案1所述的方法，其中，从所述发音视频中获取有效视频段，包括：

获取所述用户的发音视频的视频信号；

3.如技术方案2所述的方法，其中，采用基于z-score阈值匹配的方法对所述发音视频进行裁剪。

4.如技术方案1-3任一所述的方法，其中，基于所述有效视频段，获取用户的发音口型特征序列，包括：

获取所述有效视频段中每一帧图像的发音口型特征；

5.如技术方案4所述的方法，其中，获取所述有效视频段中每一帧图像的发音口型特征，包括：

6.如技术方案5所述的方法，其中，所述中心点基于嘴型内轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认。

7.如技术方案1所述的方法，其中，根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数，包括：

基于所述发音口型特征相似度，得到用户的发音口型分数。

8.如技术方案1所述的方法，其中，根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数，包括：

9.如技术方案8所述的方法，其中，基于所述发音口型特征相似度以及发音口型变化相似度，得到用户的发音口型分数，包括：

10.如技术方案9所述的方法，其中，基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数，包括：

计算所述发音口型特征分数和发音口型变化分数的平均分；

将所述平均分作为用户的发音口型分数。

11.如技术方案9所述的方法，其中，基于所述发音口型特征分数和发音口型变化分数，得到用户的发音口型分数，包括：

12.如技术方案7-11任一所述的方法，其中，采用归一化的方法将相似度转换为相应的分数。

13.如技术方案12所述的方法，其中，采用极小极大归一化的方法将相似度转换为相应的分数。

14.如技术方案13所述的方法，其中，以重采样的标准音口型特征序列与原始标准音口型特征序列计算相似度，得到极小值；以闭嘴的口型特征序列与原始标准音口型特征序列计算相似度，得到极大值。

15.如技术方案7-11任一所述的方法，其中，采用动态时间规整算法计算特征序列之间的距离，然后采用归一化的方法基于特征序列间的距离得到相似度。

16.一种发音测评装置，包括：

发音视频获取模块，被配置为获取用户的发音视频；

17.如技术方案16所述的装置，其中，所述有效视频段获取模块包括：

18.如技术方案17所述的装置，其中，采用基于z-score阈值匹配的方法对所述发音视频进行裁剪。

19.如技术方案16-18任一所述的装置，其中，所述发音口型特征序列获取模块包括：

20.如技术方案19所述的装置，其中，所述发音口型特征获取单元还被配置为基于每一帧图像中嘴部区域的各个关键点到中心点的距离确定每一帧图像的发音口型特征。

21.如技术方案20所述的装置，其中，所述中心点基于嘴型内轮廓最高顶点与最低顶点以及最左顶点与最右顶点确认。

22.如技术方案21所述的装置，其中，所述发音口型分数计算模块包括：

23.如技术方案16所述的装置，其中，所述发音口型分数计算模块包括：

24.如技术方案23所述的装置，其中，所述第二分数获取单元包括：

25.如技术方案24所述的装置，其中，所述口型分数获取子单元还被配置为计算所述发音口型特征分数和发音口型变化分数的平均分；以及将所述平均分作为用户的发音口型分数。

26.如技术方案24所述的装置，其中，所述口型分数获取子单元还被配置为将所述发音口型特征分数和发音口型变化分数加权平均，得到用户的发音口型分数。

27.如技术方案22-26任一所述的装置，其中，采用归一化的方法将相似度转换为相应的分数。

28.如技术方案27所述的装置，其中，采用极小极大归一化的方法将相似度转换为相应的分数。

29.如技术方案28所述的装置，其中，以重采样的标准音口型特征序列与原始标准音口型特征序列计算相似度，得到极小值；以闭嘴的口型特征序列与原始标准音口型特征序列计算相似度，得到极大值。

30.如技术方案22-26任一所述的装置，其中，采用动态时间规整算法计算特征序列之间的距离，然后采用归一化的方法基于特征序列间的距离得到相似度。

31.一种发音测评方法，包括：

根据技术方案1-15任一所述的方法计算口型分数；

根据与用户的发音视频对应的语音内容计算语音分数；

基于所述口型分数和语音分数计算发音分数。

32.如技术方案31所述的方法，其中，基于所述口型分数和语音分数计算发音分数，包括：

33.如技术方案32所述的方法，其中，口型分数和语音分数的权重根据发音场景确定。

34.如技术方案31所述的方法，其中，基于所述口型分数和语音分数计算发音分数，包括：

将所述口型分数和语音分数平均，得到用户的发音分数。

35.一种发音测评系统，包括：

如技术方案16-30任一所述的发音测评装置，被配置为计算口型分数；以及语音测评装置，其中，所述语音测评装置被配置为根据与用户的发音视频对应的语音内容计算语音分数；以及

36.如技术方案35所述的系统，其中，所述发音分数计算装置还被配置为将所述口型分数和语音分数加权平均，得到用户的发音分数。

37.如技术方案36所述的系统，其中，口型分数和语音分数的权重根据发音场景确定。

38.如技术方案35所述的系统，其中，所述发音分数计算装置还被配置为将所述口型分数和语音分数平均，得到用户的发音分数。

39.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如技术方案1-15和/或31-34之一所述的方法。

40.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如技术方案1-15和/或31-34之一所述的方法。

Claims

1.一种发音测评方法，包括：

获取用户的发音视频；

从所述发音视频中获取有效视频段；

基于所述有效视频段，获取用户的发音口型特征序列；

2.如权利要求1所述的方法，其中，从所述发音视频中获取有效视频段，包括：

获取所述用户的发音视频的视频信号；

3.一种发音测评装置，包括：

发音视频获取模块，被配置为获取用户的发音视频；

4.如权利要求3所述的装置，其中，所述有效视频段获取模块包括：

5.一种发音测评方法，包括：

根据权利要求1或2所述的方法计算口型分数；

根据与用户的发音视频对应的语音内容计算语音分数；

基于所述口型分数和语音分数计算发音分数。

6.如权利要求5所述的方法，其中，基于所述口型分数和语音分数计算发音分数，包括：

7.一种发音测评系统，包括：

如权利要求3或4所述的发音测评装置，被配置为计算口型分数；以及语音测评装置，其中，所述语音测评装置被配置为根据与用户的发音视频对应的语音内容计算语音分数；以及

8.如权利要求7所述的系统，其中，所述发音分数计算装置还被配置为将所述口型分数和语音分数加权平均，得到用户的发音分数。

9.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1或2和/或5或6所述的方法。

10.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1或2和/或5或6所述的方法。