CN104485115A

CN104485115A - 发音评价设备、方法和系统

Info

Publication number: CN104485115A
Application number: CN201410736161.7A
Authority: CN
Inventors: 林晖
Original assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-04-01
Anticipated expiration: 2034-12-04
Also published as: CN104485115B

Abstract

本发明提供了一种发音评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以克服现有语音技术在评价用户的发音情况时由于未区别对待语句中各词发音的重要性而使提供的发音评分不够准确的问题。发音评价设备包括：用户语音接收单元，接收用户针对预定文本所录入的用户语音；得分计算单元，计算用户语音中与预定文本的每个词对应的语音块的发音得分；词权重确定单元，基于参考语音特征来确定预定文本的每个词的权重；以及发音评价单元，根据确定的权重对语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。本发明的上述技术可应用于语音技术领域。

Description

发音评价设备、方法和系统

技术领域

本发明涉及语音技术领域，尤其涉及一种发音评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，并根据学习材料的指示而在客户端上进行操作，例如输入文字、输入语音或者进行选择等，并获得反馈，从而提高自己的语言能力。

对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。在现有的语音技术中，用户通过客户端的录音设备录制语音，系统根据与该语音相对应的文本，就用户的语音和现有声学模型进行比较，从而向用户提供整句录音的发音评分，以及每个单词的的发音是否正确的反馈。

然而，对于一个语句来说，其中不同的词的发音对于整句来说的重要性也通常不同，例如，动词或名词等的重要性往往高于介词或冠词等的重要性，而重读单词的重要性也往往高于非重读单词的重要性，等等。目前，现有的语音技术在评价用户的发音情况时并未区别对待语句中各词发音的重要性，从而使得所提供的发音评分不够准确。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种发音评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以至少解决现有的语音技术在评价用户的发音情况时由于未区别对待语句中各词发音的重要性而使得所提供的发音评分不够准确的问题。

根据本发明的一个方面，提供了一种发音评价设备，该设备包括：用户语音接收单元，适于接收用户针对预定文本所录入的用户语音，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；得分计算单元，适于计算用户语音中与预定文本的每个词对应的语音块的发音得分；词权重确定单元，适于基于与预定文本对应的参考语音特征来确定预定文本的每个词的权重；以及发音评价单元，适于针对预定文本的每个语句，根据词权重确定单元确定的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。

根据本发明的另一个方面，还提供了一种数据处理设备，该设备适于驻留在服务器中，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及计算单元，适于计算参考语音的参考语音特征，以将参考语音特征与预定文本中的每个语句相关联地保存在服务器存储单元中。

根据本发明的另一个方面，还提供了一种语音处理设备，该设备适于驻留在计算机或移动终端中，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算单元，适于计算参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种发音评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；计算用户语音中与预定文本的每个词对应的语音块的发音得分；基于与预定文本对应的参考语音特征来确定预定文本的每个词的权重；以及针对预定文本的每个语句，根据预定文本的每个词的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。

根据本发明的另一个方面，还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本以及与预定文本对应的参考语音；以及计算参考语音的参考语音特征，以将参考语音特征与预定文本中的每个语句相关联地保存。

根据本发明的另一个方面，还提供了一种语音处理方法，该方法包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种移动终端，包括如上所述的发音评价设备。

根据本发明的又一个方面，还提供了一种发音评价系统，包括如上所述的发音评价设备和如上所述的数据处理设备。

上述根据本发明实施例的发音评价方案，其基于参考语音特征来确定预定文本中每个词的权重，并基于此来对语句中各词的发音得分进行加权计算，从而获得语句的发音总评分，能够获得至少以下益处之一：该设备在计算语句的发音情况的过程中根据参考语音特征为其中各词分别设置了权重，因此在此过程中对各词发音的重要性进行了区别对待，使得得到的语句发音总评分也更准确；能够避免仅从一个或较少的维度上计算发音得分所带来的片面性和由此导致的不准确性；节省计算时间和计算量；节省存储空间；可以进行离线学习；通过播放功能，容易发现用户语音与参考语音之间的差别，便于用户及时纠正自己的发音上的缺陷；更全面、更准确地评价用户的发音；以及通过可视化输出功能，能够使用户直观地获知自己的发音得分，改善用户体验。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出移动终端100的结构框图；

图2是示意性地示出根据本发明一个实施例的发音评价设备200的一种示例性结构的框图；

图3是示意性地示出图2所示的得分计算单元220的一种可能结构的框图；

图4是示意性地示出根据本发明其他实施例的发音评价设备400的示例性结构的框图；

图5是示意性地示出根据本发明一个实施例的数据处理设备500的一种示例性结构的框图；

图6是示意性地示出根据本发明一个实施例的语音处理设备600的一种示例性结构的框图；

图7是示意性地示出根据本发明的实施例的发音评价方法的一种示例性处理的流程图；

图8是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图；以及

图9是示意性地示出根据本发明的实施例的语音处理方法的一种示例性处理的流程图。本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的实施例提供了一种发音评价设备，该设备包括：用户语音接收单元，适于接收用户针对预定文本所录入的用户语音，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；得分计算单元，适于计算用户语音中与预定文本的每个词对应的语音块的发音得分；词权重确定单元，适于基于与预定文本对应的参考语音特征来确定预定文本的每个词的权重；以及发音评价单元，适于针对预定文本的每个语句，根据词权重确定单元确定的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。

根据本发明的实施例的上述发音评价设备可以是在传统的桌面型或者膝上型计算机(未示出)等中执行处理的应用，也可以是在移动终端(如图1所示)中执行处理的客户端应用(如图1所示的移动终端100中的应用154的一种)，或者也可以是在上述传统的桌面型、膝上型计算机用户或移动终端上通过浏览器来访问的网页应用等。

图1是移动终端100的结构框图。具有多点触摸能力的移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及外围接口106。

存储器接口102、一个或多个处理器104和/或外围接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口106，以便帮助实现多种功能。例如，运动传感器110、光传感器112和距离传感器114可以耦合到外围接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与外围接口106相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。

可以通过一个或多个无线通信子系统124来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BlueboothTM网络的通信子系统124。

音频子系统126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。

I/O子系统140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。

触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。

存储器150可以存储操作系统152，例如Android、IOS或是WindowsPhone之类的操作系统。该操作系统152可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器150还可以存储应用154。这些应用在操作时，会从存储器150加载到处理器104上，并在已经由处理器104运行的操作系统之上运行，并利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。应用可以是独立于操作系统提供的，也可以是操作系统自带的。应用154可以包括根据本发明的发音评价设备200。

图2示出了根据本发明的实施例的发音评价设备200的一个示例。如图2所示，发音评价设备200包括用户语音接收单元210、得分计算单元220、词权重确定单元230以及发音评价单元240。

发音评价设备200可以预先从预定服务器下载预定文本和与该预定文本对应的参考语音特征，也可以在启动时下载上述预定文本和参考语音特征。此外，在一些实施例中，发音评价设备200可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现一个目录，用户可以在该目录中进行选择，发音评价设备200则可以根据用户的选择来下载相应的预定文本和参考语音特征。

其中，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。其中，语句中的每个词通常可以包括多个字母或至少一个文字。

根据一种实现方式，预定文本的语言例如是诸如英语之类的、词由字母构成的语言时，预定文本除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。需要说明的是，虽然以上举例所描述的为预定文本的语言是英语的情况，但实际预定文本的语言并不限于英语，可以是汉语、法语或德语等任意一种语言。

当用户启动发音评价设备200时，假设发音评价设备200中已存储或下载有预定文本和与该预定文本对应的参考语音特征。然后，发音评价设备200可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现上述预定文本，以提示用户录入与之对应的语音。这样，用户能够通过诸如移动终端100的麦克风130等输入装置来录入相应的语音，作为用户语音，并由用户语音接收单元210来接收。

然后，用户语音接收单元210将其接收到的用户语音转发给得分计算单元220，而得分计算单元220则通过计算来获得用户语音中与预定文本的每个词对应的语音块的发音得分。

其中，用户语音接收单元210例如可以通过利用预定声学模型(acoustic model)将用户语音与预定文本进行强制对齐(forcealignment)，可以确定预定文本中的每个语句与用户语音的部分语音(比如某个语音段)之间的对应关系，也即，可以在用户语音中确定与预定文本中的每个语句相对应的语音段。

除此之外，通过强制对齐还可以获得预定文本中每个词(可选地，还包括每个词的每个音节)与用户语音中的语音部分之间的对应关系，也即，获得用户语音中与预定文本中每个词对应的语音块(可选地，还包括获得用户语音中与预定文本中每个词的每个音节对应的语音块)。

一般而言，声学模型是通过大量的母语发音人的录音训练而成的，利用声学模型可以计算输入语音(比如用户语音或参考语音)对应于已知文字的可能性，进而能够将输入语音与已知文字(比如预定文本)进行强制对齐。

根据一种实现方式，得分计算单元220可以通过上述强制对齐来获得预定文本的每个语句中每个词在用户语音中对应的语音块的似然分数值，并将每个词对应的似然分数值作为该词在用户语音中对应的语音块的发音得分。利用如上计算的似然分数值作为发音得分，其计算过程较为简单，计算量较小。

除此之外，在其他实现方式中，得分计算单元220也可以利用下文中将要结合图3描述的处理过程来获得每个词在用户语音中对应的语音块的发音得分。

其中，声学模型的相关技术例如可以参考http://mi.eng.cam.ac.uk/～mjfg/ASRU_talk09.pdf中的相关资料，而强制对齐的相关技术例如可以参考http://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html和http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf中的相关资料，或者也可以利用其他现有技术来获知以上技术，这里不再详述。

另一方面，词权重确定单元230能够基于参考语音特征来确定预定文本的每个词的权重。需要说明的是，得分计算单元220和词权重确定单元230的处理可以同时进行，也可以依次来执行(例如得分计算单元220执行在先，或词权重确定单元230执行在先)。

如上所述，参考语音特征是与预定文本相对应的，即从参考语音中所提取的语音特征。其中，参考语音例如可以是由特定用户(例如以预定文本的语言为母语的用户、或与预定文本的语言相关的专业语言教师等)预先针对该预定文本所录制的语音。

根据一种实现方式，参考语音特征可以包括参考语音的节奏特征、重音特征和韵律特征中的至少一种。

例如，假设预定文本中的某个语句中各词在参考语音中对应的相邻语音块之间的间隔依次为0.3秒、0.2秒、0.3秒，则该语句在参考语音中对应的语音部分的节奏特征可以表示成、但不限于向量(0.3，0.2，0.3)。

又如，假设预定文本中的某个语句中各词在参考语音中对应的语音块依次为重读(比如可以用“1”表示)、非重读(比如可以用“0”表示)、非重读、非重读，则该语句在参考语音中对应的语音部分的重音特征可以表示为向量(1，0，0，0)，但不限于此。

再如，假设预定文本中的某个语句在参考语音中对应的语音部分的基频信息的多个分段多项式已知，将将以单位时间(例如每10^-2秒为间隔)的一组时间点代入该多个分段多项式可得N(例如100)个坐标对(x1，y1)、(x2，y2)、……、(xN，yN)，则可以将该语句在参考语音中对应的语音部分的韵律特征表示成、但不限于{(x1，y1)，(x2，y2)，……，(xN，yN)}的形式

参考语音特征能够反映参考语音的语音质量的好坏，不同种类的参考语音特征则可以在不同方面来描述参考语音的语音质量。在包括多种参考语音特征的情况下，其综合起来所描述的参考语音质量也就越准确。此外，包括的参考语音特征的种类越多，后续在进行加权计算时(如第二、第四类加权计算)所涉及的维度也就越多，能够获得更为准确的发音总评分。

根据一种实现方式，词权重确定单元230可以基于参考语音特征中的每一种特征来确定预定文本的每个词关于该种特征的权重分量。

在一个例子中，假设参考语音特征包括参考语音的节奏特征、重音特征和韵律特征三种特征，则词权重确定单元230可以确定预定文本的每个词的三个权重分量，分别是关于节奏特征的权重分量、关于重音特征的权重分量和关于韵律特征的权重分量。

其中，对于节奏特征来说，若某个词在用户语音中对应的语音块后面的停顿时间较长(例如超过0.25秒)，则词权重确定单元230可以为该词分配较高的权重(如1，但不限于此)；而若该词在用户语音中对应的语音块后面的停顿时间较短(例如少于0.25秒)，则可以为该词分配较低的权重(如0.8，但不限于此)。

对于重音特征来说，若某个词在用户语音中对应的语音块为重读，则词权重确定单元230可以为该词分配较高的权重；而若该词在用户语音中对应的语音块为非重读，则可以为该词分配较低的权重。

对于韵律特征来说，若某个词在用户语音中对应的语音块对应包含的坐标对较多，则词权重确定单元230可以为该词分配较高的权重；而若该词在用户语音中对应的语音块对应包含的坐标对较少，则可以为该词分配较低的权重。

由此，在后续处理中，可以在不同维度上，分别对语句中各词在用户语音中对应的语音块的发音得分进行该维度内的加权计算，从而得到多个维度的关于该语句的发音得分。这样，能够避免仅从一个或较少的维度上计算发音得分所带来的片面性和由此导致的不准确性。如以上例子中所提到的，同一个词，在不同维度(即针对不同的参考语音特征)可能具有不同的权重。也就是说，在不同维度上，同一个词的发音对于整个语句来说，其重要性可能是不同的。

需要说明的是，本发明不受限于权重分量的具体分配方式，所有基于参考语音特征来确定预定文本的每个词关于该种特征的权重分量的方式都在本发明的保护范围之内。

然后，针对预定文本的每个语句，发音评价单元240根据词权重确定单元230确定的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算(例如包括下面将要描述的第一类和第二类加权计算)，以获得该语句在用户语音中对应的语音部分的发音总评分。

根据一种实现方式，针对预定文本的每个语句，发音评价单元240可以对于参考语音特征中的每种特征，根据该语句中各词关于该种特征的权重分量，对该语句中各词在用户语音中对应的语音块的发音得分进行第一类加权计算，并将第一类加权计算的结果作为该语句在用户语音中对应的语音部分关于该种特征的发音得分。然后，发音评价单元240可以对该语句在用户语音中对应的语音部分关于参考语音特征中的各种特征的发音得分进行第二类加权计算，并将第二类加权计算的结果作为该语句在用户语音中对应的语音部分的发音总评分。

举例来说，假设参考语音特征包括节奏特征、重音特征和韵律特征三种特征。另外，假设预定文本中某个语句中的词一、词二和词三(设共有3个词)的发音得分依次为90分、50分、80分，且各词关于节奏特征的权重分量依次为1、0.8、0.8，各词关于重音特征的权重分量依次1、0.7、0.7，各词关于韵律特征的权重分量依次0.5、0.9、0.8。

这样，关于节奏特征对该语句中各词进行第一类加权计算，例如加权求平均(不限于加权求平均，也可以加权求和等)，可得(90*1+50*0.8+80*0.8)/3＝64.7分，即，该语句在用户语音中对应的语音部分关于节奏特征的发音得分为64.7分。

类似地，可以得到该语句在用户语音中对应的语音部分关于重音特征和韵律特征的发音得分分别为60.3分和51.3分。

然后，对以上这三个得分进行第二类加权计算，例如加权求平均(不限于加权求平均，也可以加权求和等)，假设为节奏特征、重音特征和韵律特征分别分配的权重依次为1.1、1.3和0.9。于是，可得(64.7*1.1+60.3*1.3+51.3*0.9)/3＝65.24分，即，该语句在用户语音中对应的语音部分的发音总评分为65.24分。

其中，针对第二类加权计算所设置的权重例如可以根据经验值设置，或者也可以通过试验的方法来确定，这里不再详述。

这样，通过在不同维度上(即针对不同的参考语音特征)先分别进行第一类加权计算、而后在各维度之间进行第二类加权计算，能够综合考虑各词发音在不同维度上的重要性，使得得到的关于语句的发音总评分更全面、准确。

此外，本发明不受限于第一类加权计算和第二类加权计算的具体计算类型，所有适于本发明的加权计算类型都在本发明的保护范围之内。

下面，结合图3来描述获得每个词在用户语音中对应的语音块的发音得分的另一个实现方式。

在该实现方式中，得分计算单元220可以包括如图3所示的音节权重确定子单元310和音节评分子单元320。

其中，音节权重确定子单元310可以基于参考语音特征来确定预定文本的每个词的每个音节的权重。例如，音节权重确定子单元310可以基于参考语音特征中的每种特征，确定预定文本的每个词的每个音节关于该种特征的权重分量。需要说明的是，音节权重确定子单元310针对每种参考语音特征来确定每个音节关于该种特征的权重分量的过程可以和上文结合图2所描述的词权重确定单元230针对每种参考语音特征来确定每个词关于该种特征的权重分量的过程相类似，并能够达到相似的技术效果，故这里不再详述。

然后，如图3所示，音节评分子单元320可以针对预定文本的每个语句中的每个词，根据音节权重确定子单元310确定的权重，对该词中的各音节在用户语音中对应的语音块的发音得分进行加权计算(例如包括下面将要描述的第三类和第四类加权计算)，以获得该词在用户语音中对应的语音块的发音得分。

例如，针对预定文本的每个语句中的每个词，音节评分子单元320可以对于参考语音特征中的每种特征，根据该词中各音节关于该种特征的权重分量，对该词中各音节在用户语音中对应的语音块的发音得分进行第三类加权计算，并将第三类加权计算的结果作为该词在用户语音中对应的语音块关于该种特征的发音得分。需要说明的是，音节评分子单元320所执行的第三类加权计算的过程可以和上文结合图2所描述的发音评价单元240所执行的第一类加权计算的过程相类似，并能够达到相似的技术效果，故这里不再详述。

然后，音节评分子单元320可以对该词在用户语音中对应的语音块关于参考语音特征中的各种特征的发音得分进行第四类加权计算，并将第四类加权计算的结果作为该词在用户语音中对应的语音块的发音得分。需要说明的是，音节评分子单元320所执行的第四类加权计算的过程可以和上文结合图2所描述的发音评价单元240所执行的第二类加权计算的过程相类似，并能够达到相似的技术效果，故这里不再详述。

其中，音节评分子单元320例如可以通过利用预定声学模型将用户语音与预定文本进行的强制对齐，来获得预定文本的每个语句中每个词的每个音节在用户语音中所对应的语音块的似然分数值，并将每个音节对应的似然分数值作为该音节在用户语音中对应的语音块的发音得分。

下面结合图4来描述根据本发明的实施例的发音评价设备的其他一些示例。

如图4所示，在一个示例中，发音评价设备400除了包括用户语音接收单元410、得分计算单元420、词权重确定单元430以及发音评价单元440之外，还可以包括输出单元450。其中，图4所示的发音评价设备400中的用户语音接收单元410、得分计算单元420、词权重确定单元430以及发音评价单元440可以分别具有与上文中结合图2所描述的发音评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

输出单元450可以可视化输出预定文本的每个语句在用户语音中对应的语音部分的发音总评分，例如，可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现上述发音总评分。通过可视化输出功能，用户能够直观地获知自己的发音得分，从而改善了用户体验。

根据一种实现方式，输出单元450可以逐句输出预定文本的每个语句在用户语音中对应的语音部分的发音总评分。这样，用户能够获知自己所说的每句话的发音准确性，尤其当某一句的分数较低时，用户能够立刻意识到该句的发音需要纠正，学习更有针对性。

根据另一种实现方式，输出单元450也可以输出反映整个用户语音的语音质量的分数。这样，用户能够整体感知自己所说的一段语音的发音是否准确。

此外，在其他例子中，输出单元450也可以同时可视化地输出反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数、以及反映整个用户语音的语音质量的分数。

此外，如图4所示，在另一个示例中，发音评价设备400除了包括用户语音接收单元410、得分计算单元420、词权重确定单元430以及发音评价单元440之外，还可以包括播放单元460。其中，图4所示的发音评价设备400中的用户语音接收单元410、得分计算单元420、词权重确定单元430以及发音评价单元440可以分别具有与上文中结合图2所描述的发音评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

根据一种实现方式，播放单元460可以根据设置或需要来播放从预定服务器下载的与预定文本对应的参考语音。其中，参考语音可以是预先下载保存在发音评价设备400中的。例如，播放单元460可以根据用户指令(例如当用户单击屏幕上的参考语音播放按钮时)来播放与预定文本对应的参考语音。其中，播放单元460例如可以通过诸如移动终端100的音频子系统126和扬声器128等来进行播放。这样，通过收听参考语音，用户更加容易发现自己的语音与标准的参考语音之间的差别所在，从而更容易模仿参考语音的发音的方式(例如音准、节奏、重音、韵律等等)。

这里，参考语音可以是由特定用户(例如以预定文本的语言为母语的用户、或与预定文本的语言相关的专业语言教师等)预先针对该预定文本录制的语音。

根据另一种实现方式，播放单元460也可以播放用户语音。例如，播放单元460可以根据用户指令(例如当用户单击屏幕上的用户语音播放按钮时)来播放用户语音，或者也可以在用户录制结束后立刻播放其录制的用户语音。通过该方式，用户可以反复收听自己的录音，便于用户发现自己发音(例如音准、节奏、重音、韵律等等)上的不足以改正。

此外，根据其他实现方式，播放单元460可以同时具有播放参考语音和用户语音的功能。通过该方式，用户能够对比自己的录音与参考语音，进而容易发现二者之间的差别，便于用户及时纠正自己的发音(例如音准、节奏、重音、韵律等等)上的缺陷。

需要说明的是，在其他示例中，发音评价设备400也可以包括用户语音接收单元410、得分计算单元420、词权重确定单元430以及发音评价单元440、输出单元450和播放单元460，其中，各单元的处理可以和上文描述的对应单元的处理相类似，并能够达到相类似的功能和效果，这里不再一一赘述。

通过以上描述可知，上述根据本发明的实施例的发音评价设备，其基于参考语音特征来确定预定文本中每个词的权重，并基于此来对语句中各词的发音得分进行加权计算，从而获得语句的发音总评分。该设备在计算语句的发音情况的过程中根据参考语音特征为其中各词分别设置了权重，因此在此过程中对各词发音的重要性进行了区别对待，使得得到的语句发音总评分也更准确。

该设备设置在用户客户端对应的计算机或移动终端上，但其所使用的预定文本和参考语音特征是从预定服务器下载而获得的，因此，该设备不必通过计算来获得上述参考语音特征，从而能够节省计算时间和计算量。

此外，当服务器中存在较多的预定文本时，用户能够根据实际需要从中选择性地下载一个或多个以及相关的参考语音特征，而不需要下载全部，故能够节省用户客户端所驻留的计算机或移动终端上的存储空间。

此外，上述根据本发明的实施例的发音评价设备对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的发音评价设备使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理设备，该设备适于驻留在服务器中，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及计算单元，适于计算参考语音的参考语音特征，以将参考语音特征与预定文本中的每个语句相关联地保存在服务器存储单元中。

图5示出了根据本发明的实施例的数据处理设备500的一个示例。如图5所示，数据处理设备500包括服务器存储单元510和计算单元520。

数据处理设备500例如可以实现为驻留在服务器上的应用。服务器例如可以包括web服务器，其可以利用http协议和用户客户端(例如上文所描述的发音评价设备200或400)进行通信，但不受限于此。

服务器存储单元510可以存储各种语言学习材料的文本材料，即预定文本。其中，对于每种语言来说，服务器存储单元510除了可以存储预定文本之外，还可以存储与预定文本对应的参考语音、或者可以从例如下文将要描述的语音处理设备600等外部设备接收并存储参考语音。

根据一种实现方式，服务器存储单元510可以例如通过网络从外部(如下文中所提到的语音处理设备600所驻留的计算机)接收特征用户针对预定文本所录制的语音来作为参考语音。

应当理解的是，这里所说的预定文本和上文所说的预定文本类似，除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息(例如预定文本的语言是诸如英语之类的、词由字母构成的语言时)，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

根据一种实现方式，计算单元520可以计算参考语音的参考语音特征，并将该参考语音特征与预定文本中的每个语句相关联地保存在服务器存储单元510中。在这种实现方式中，数据处理设备500可以在后续处理中通过服务器将其存储的预定文本和参考语音特征提供给用户客户端(例如上文所描述的发音评价设备200或400)来下载。由此，用户客户端不必存储所有的预定文本和对应的参考语音特征，而只需在需要时选择对应的预定文本和参考语音特征进行下载即可(例如用户点击目录中的某个条目时，下载该条目对应的预定文本和参考语音特征)，能够节省用户客户端的存储空间。其中，参考语音特征例如可以与上文所举例描述的参考语音特征相同，这里不再赘述。

此外，本发明的实施例还提供了一种语音处理设备，该设备适于驻留在计算机或移动终端中，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算单元，适于计算参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。

图6示出了根据本发明的实施例的语音处理设备600的一个示例。如图6所示，语音处理设备600包括参考语音接收单元610。可选地，语音处理设备还可以包括计算单元620。

如图6所示，根据一种实现方式，当语音处理设备600只包括参考语音接收单元610时，可以通过参考语音接收单元610来接收特定用户(如以预定文本语言为母语的用户或与该语言相关的专业语言教师等)针对预定文本所录入的语音，作为参考语音，并将参考语音发送给预定服务器(如上文中结合图5所描述的数据处理设备500所驻留的服务器)。

此外，根据另一种实现方式，语音处理设备600还可以包括计算单元620，其可以计算参考语音的参考语音特征，并将参考语音特征与预定文本相关联地发送至预定服务器。

在实际应用中，语音处理设备600可以对应于设置在计算机或其他终端上的教师客户端，例如以软件实现。

教师客户端的使用者可以针对预定文本中的每个语句录制标准语音，以作为参考语音发送给相应的服务器端，由服务器端执行后续处理。这种情况下，可以方便服务器通过互联网采集参考语音，而不需参与录制语音的处理，能够节省时间和操作。

此外，教师客户端也可以直接在本地对其录制的标准语音(即参考语音)进行处理分析，生成与该标准语音相对应的参数(如参考语音特征)，并连同预定文本一起传输到服务器端存储，从而能够减少服务器端的处理负载。

另外，本发明的实施例还提供了一种移动终端，包括如上所述的发音评价设备。该移动终端例如可以是手机(如智能手机)或平板电脑等移动通信设备。此外，该移动终端可以具有上述发音评价设备所具有的功能，并能够达到相类似的技术效果，这里不再详述。

此外，本发明的实施例还提供了一种发音评价系统，包括如上所述的发音评价设备和如上所述的数据处理设备。

根据一种实现方式，上述发音评价系统除了包括上述发音评价设备200或400和上述数据处理设备500之外，还可以选择性地包括服务器，其中，服务器中设有如上所述的语音处理设备600。

在这种实现方式中，发音评价系统中的发音评价设备200或400可以对应于设置于计算机或移动终端中的用户客户端，数据处理设备500可以对应于设置于服务器端，而语音处理设备600可以对应于教师客户端。在实际处理中，教师客户端可以向服务器端提供参考语音(可选地还可以提供参考语音的特征参数或参考语音特征)，服务器用于存储这些信息和预定文本，而用户客户端则可以从服务器下载这些信息来分析用户输入的用户语音，以对其完成发音评价。处理的细节可以分别参考以上结合图2或4、图5以及图6所给出的描述，这里不再赘述。

此外，本发明的实施例还提供了一种发音评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；计算用户语音中与预定文本的每个词对应的语音块的发音得分；基于与预定文本对应的参考语音特征来确定预定文本的每个词的权重；以及针对预定文本的每个语句，根据预定文本的每个词的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。

下面结合图7来描述上述发音评价方法的一种示例性处理。如图7所示，根据本发明一个实施例的发音评价方法的示例性处理流程700开始于步骤S710，然后，执行步骤S720。

在步骤S720中，接收用户针对预定文本所录入的用户语音。然后，执行步骤S730。其中，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。步骤S720中的处理例如可以与上文中结合图2所描述的用户语音接收单元210的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S730中，计算用户语音中与预定文本的每个词对应的语音块的发音得分。然后，执行步骤S740。其中，步骤S730中的处理例如可以与上文中结合图2所描述的得分计算单元220的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，在步骤S730中，例如可以通过利用预定声学模型将用户语音与预定文本进行强制对齐，来获得预定文本的每个语句中每个词在用户语音中所对应的语音块的似然分数值，并将每个词对应的似然分数值作为该词在用户语音中对应的语音块的发音得分。

根据另一种实现方式，在步骤S730中，例如可以基于与预定文本对应的参考语音特征，确定预定文本的每个词的每个音节的权重；以及针对预定文本的每个语句中的每个词，根据预定文本的每个词的每个音节的权重，对该词中的各音节在用户语音中对应的语音块的发音得分进行加权计算，以获得该词在用户语音中对应的语音块的发音得分。

其中，在步骤S730中，例如可以基于参考语音特征中的每种特征，确定预定文本的每个词的每个音节关于该种特征的权重分量。由此，对于每个音节来说，可以得到该音节关于参考语音特征中每一种特征的权重分量。

此外，在步骤S730中，例如可以针对预定文本的每个语句中的每个词进行以下处理来获得该词在用户语音中对应的语音块的发音得分：对于参考语音特征中的每种特征，根据该词中各音节关于该种特征的权重分量，对该词中各音节在用户语音中对应的语音块的发音得分进行第三类加权计算，并将第三类加权计算的结果作为该词在用户语音中对应的语音块关于该种特征的发音得分，以及对该词在用户语音中对应的语音块关于参考语音特征中的各种特征的发音得分进行第四类加权计算，以将第四类加权计算的结果作为该词在用户语音中对应的语音块的发音得分。

其中，各音节在用户语音中对应的语音块的发音得分通过如下方式获得：通过利用预定声学模型将用户语音与预定文本进行强制对齐，获得预定文本的每个语句中每个词的每个音节在用户语音中所对应的语音块的似然分数值，并将每个音节对应的似然分数值作为该音节在用户语音中对应的语音块的发音得分。

在步骤S740中，基于与预定文本对应的参考语音特征来确定预定文本的每个词的权重。然后，执行步骤S750。其中，步骤S740中的处理例如可以与上文中结合图2所描述的词权重确定单元230的处理相同，并能够达到相类似的技术效果，在此不再赘述。

其中，参考语音特征例如可以包括节奏特征、重音特征和韵律特征中的至少一种。

根据一种实现方式，在步骤S740中，可以基于参考语音特征中的每种特征，确定预定文本的每个词关于该种特征的权重分量。由此，对于每个词来说，可以得到该词关于参考语音特征中每一种特征的权重分量。

在步骤S750中，针对预定文本的每个语句，根据预定文本的每个词的权重，对该语句中的各词在用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在用户语音中对应的语音部分的发音总评分。其中，步骤S750中的处理例如可以与上文中结合图2所描述的发音评价单元240的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S760中结束处理流程700。

根据一种实现方式，在步骤S750中，针对预定文本的每个语句，可以通过如下处理来获得该语句在用户语音中对应的语音部分的发音总评分：对于参考语音特征中的每种特征，根据该语句中各词关于该种特征的权重分量，对该语句中各词在用户语音中对应的语音块的发音得分进行第一类加权计算，并将第一类加权计算的结果作为该语句在用户语音中对应的语音部分关于该种特征的发音得分；以及对该语句在用户语音中对应的语音部分关于参考语音特征中的各种特征的发音得分进行第二类加权计算，以将第二类加权计算的结果作为该语句在用户语音中对应的语音部分的发音总评分

此外，根据另一种实现方式，在步骤S750之后，还可以选择性地包括如下步骤：可视化输出预定文本的每个语句在用户语音中对应的语音部分的发音总评分。

此外，根据一种实现方式，处理流程700可以选择性地包括如下步骤：播放用户语音和/或从预定服务器下载的与预定文本对应的参考语音。其中，对用户语音和/或参考语音的播放例如可以根据用户指令来执行。

通过以上描述可知，上述根据本发明的实施例的发音评价方法，其基于参考语音特征来确定预定文本中每个词的权重，并基于此来对语句中各词的发音得分进行加权计算，从而获得语句的发音总评分。该方法在计算语句的发音情况的过程中根据参考语音特征为其中各词分别设置了权重，因此在此过程中对各词发音的重要性进行了区别对待，使得得到的语句发音总评分也更准确。

该方法设置在用户客户端对应的计算机或移动终端上，但其所使用的预定文本和参考语音特征是从预定服务器下载而获得的，因此，该方法不必通过计算来获得上述参考语音特征，从而能够节省计算时间和计算量。

此外，上述根据本发明的实施例的发音评价方法对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的发音评价方法使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本以及与预定文本对应的参考语音；以及计算参考语音的参考语音特征，以将参考语音特征与预定文本中的每个语句相关联地保存。

下面结合图8来描述上述数据处理方法的一种示例性处理。如图8所示，根据本发明一个实施例的数据处理方法的示例性处理流程800开始于步骤S810，然后，执行步骤S820。

在步骤S820中，存储预定文本以及与预定文本对应的参考语音。然后，执行步骤S830。其中，步骤S820中的处理例如可以与上文中结合图5所描述的服务器存储单元510的处理相同，并能够达到相类似的技术效果，在此不再赘述。其中，参考语音例如可以是从外部接收的特定用户针对预定文本录制的语音。

在步骤S830中，计算参考语音的参考语音特征，以将参考语音特征与预定文本中的每个语句相关联地保存。其中，步骤S830中的处理例如可以与上文中结合图5所描述的计算单元520的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S840中结束处理流程800。

此外，本发明的实施例还提供了一种语音处理方法，该方法适于在计算机或移动终端中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以计算参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。

下面结合图9来描述上述语音处理方法的一种示例性处理。如图9所示，根据本发明一个实施例的语音处理方法的示例性处理流程900开始于步骤S910，然后，执行步骤S920。

在步骤S920中，接收特定用户针对预定文本所录入的语音，作为参考语音。可选地，在步骤S920中，还可以将参考语音发送给预定服务器。然后，执行步骤S930。其中，步骤S920的处理例如可以与上文中结合图6所描述的参考语音接收单元610的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S930中，计算参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。其中，步骤S930的处理例如可以与上文中结合图6所描述的计算单元620的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后在步骤S940中结束处理流程900。

需要说明的是，在其他实施例中，处理流程900也可以不包括上述步骤S930，也即，只将参考语音发送给预定服务器，而不再计算及发送参考语音特征。

A11：根据本发明的发音评价设备，还包括：播放单元，适于播放所述用户语音和/或从预定服务器下载的与所述预定文本对应的参考语音。A12:一种数据处理设备，该设备适于驻留在服务器中，并包括：服务器存储单元，适于存储预定文本以及与所述预定文本对应的参考语音；以及计算单元，适于计算所述参考语音的参考语音特征，以将所述参考语音特征与所述预定文本中的每个语句相关联地保存在所述服务器存储单元中。A13:一种语音处理设备，包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及计算单元，适于计算所述参考语音的参考语音特征，以将所述参考语音特征与所述预定文本相关联地发送至所述预定服务器。A14:一种发音评价方法，包括：接收用户针对预定文本所录入的用户语音，所述预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；计算所述用户语音中与所述预定文本的每个词对应的语音块的发音得分；基于与所述预定文本对应的参考语音特征来确定所述预定文本的每个词的权重；以及针对所述预定文本的每个语句，根据所述预定文本的每个词的权重，对该语句中的各词在所述用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在所述用户语音中对应的语音部分的发音总评分。A15:根据A14所述的发音评价方法中，所述参考语音特征包括节奏特征、重音特征和韵律特征中的至少一种。A16:根据A14或A15所述的发音评价方法中，所述确定所述预定文本的每个词的权重的步骤包括：基于所述参考语音特征中的每种特征，确定所述预定文本的每个词关于该种特征的权重分量。A17:根据A16所述的发音评价方法中，所述获得该语句在所述用户语音中对应的语音部分的发音总评分的步骤包括：针对所述预定文本的每个语句，对于所述参考语音特征中的每种特征，根据该语句中各词关于该种特征的权重分量，对该语句中各词在所述用户语音中对应的语音块的发音得分进行第一类加权计算，并将所述第一类加权计算的结果作为该语句在所述用户语音中对应的语音部分关于该种特征的发音得分，以及对该语句在所述用户语音中对应的语音部分关于所述参考语音特征中的各种特征的发音得分进行第二类加权计算，以将所述第二类加权计算的结果作为该语句在所述用户语音中对应的语音部分的发音总评分。A18:根据A14或A15所述的发音评价方法中，所述计算所述用户语音中与所述预定文本的每个词对应的语音块的发音得分的步骤包括：通过利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，获得所述预定文本的每个语句中每个词在所述用户语音中所对应的语音块的似然分数值，并将每个词对应的似然分数值作为该词在所述用户语音中对应的语音块的发音得分。A19:根据A14或A15所述的发音评价方法中，所述计算所述用户语音中与所述预定文本的每个词对应的语音块的发音得分的步骤包括：基于与所述预定文本对应的参考语音特征，确定所述预定文本的每个词的每个音节的权重；以及针对所述预定文本的每个语句中的每个词，根据所述预定文本的每个词的每个音节的权重，对该词中的各音节在所述用户语音中对应的语音块的发音得分进行加权计算，以获得该词在所述用户语音中对应的语音块的发音得分。A20.根据A19所述的发音评价方法中，所述确定所述预定文本的每个词的每个音节的权重的步骤包括：基于所述参考语音特征中的每种特征，确定所述预定文本的每个词的每个音节关于该种特征的权重分量。A21:根据A20所述的发音评价方法中，所述获得每个词在所述用户语音中对应的语音块的发音得分的步骤包括：针对所述预定文本的每个语句中的每个词，对于所述参考语音特征中的每种特征，根据该词中各音节关于该种特征的权重分量，对该词中各音节在所述用户语音中对应的语音块的发音得分进行第三类加权计算，并将所述第三类加权计算的结果作为该词在所述用户语音中对应的语音块关于该种特征的发音得分，以及对该词在所述用户语音中对应的语音块关于所述参考语音特征中的各种特征的发音得分进行第四类加权计算，以将所述第四类加权计算的结果作为该词在所述用户语音中对应的语音块的发音得分。A22:根据A21所述的发音评价方法中，所述各音节在所述用户语音中对应的语音块的发音得分通过如下方式获得：通过利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，获得所述预定文本的每个语句中每个词的每个音节在所述用户语音中所对应的语音块的似然分数值，并将每个音节对应的似然分数值作为该音节在所述用户语音中对应的语音块的发音得分。A23:根据A14或A15所述的发音评价方法还包括：可视化输出所述预定文本的每个语句在所述用户语音中对应的语音部分的发音总评分。A24:根据A14或A15所述的发音评价方法，还包括：播放所述用户语音和/或从预定服务器下载的与所述预定文本对应的参考语音。A25:一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本以及与所述预定文本对应的参考语音；以及计算所述参考语音的参考语音特征，以将所述参考语音特征与所述预定文本中的每个语句相关联地保存。A26:一种语音处理方法，包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及计算所述参考语音的参考语音特征，以将所述参考语音特征与所述预定文本相关联地发送至所述预定服务器。A27:一种移动终端，包括根据本发明的发音评价设备。A28:一种发音评价系统，包括根据本发明的发音评价设备和数据处理设备。A29:根据A28所述的发音评价系统，包括：根据本发明的发音评价设备；服务器；以及根据本发明的语音处理设备。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种发音评价设备，包括：

用户语音接收单元，适于接收用户针对预定文本所录入的用户语音，所述预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

得分计算单元，适于计算所述用户语音中与所述预定文本的每个词对应的语音块的发音得分；

词权重确定单元，适于基于与所述预定文本对应的参考语音特征来确定所述预定文本的每个词的权重；以及

发音评价单元，适于针对所述预定文本的每个语句，根据所述词权重确定单元确定的权重，对该语句中的各词在所述用户语音中对应的语音块的发音得分进行加权计算，以获得该语句在所述用户语音中对应的语音部分的发音总评分。

2.根据权利要求1所述的发音评价设备，其中，所述参考语音特征包括节奏特征、重音特征和韵律特征中的至少一种。

3.根据权利要求1或2所述的发音评价设备，其中，所述词权重确定单元适于：

基于所述参考语音特征中的每种特征，确定所述预定文本的每个词关于该种特征的权重分量。

4.根据权利要求3所述的发音评价设备，其中，所述发音评价单元适于：

针对所述预定文本的每个语句，

对于所述参考语音特征中的每种特征，根据该语句中各词关于该种特征的权重分量，对该语句中各词在所述用户语音中对应的语音块的发音得分进行第一类加权计算，并将所述第一类加权计算的结果作为该语句在所述用户语音中对应的语音部分关于该种特征的发音得分，以及

对该语句在所述用户语音中对应的语音部分关于所述参考语音特征中的各种特征的发音得分进行第二类加权计算，以将所述第二类加权计算的结果作为该语句在所述用户语音中对应的语音部分的发音总评分。

5.根据权利要求1或2所述的发音评价设备，其中，所述得分计算单元适于：

通过利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，获得所述预定文本的每个语句中每个词在所述用户语音中所对应的语音块的似然分数值，并将每个词对应的似然分数值作为该词在所述用户语音中对应的语音块的发音得分。

6.根据权利要求1或2所述的发音评价设备，其中，所述得分计算单元包括：

音节权重确定子单元，适于基于与所述预定文本对应的参考语音特征，确定所述预定文本的每个词的每个音节的权重；以及

音节评分子单元，适于针对所述预定文本的每个语句中的每个词，根据所述音节权重确定子单元确定的权重，对该词中的各音节在所述用户语音中对应的语音块的发音得分进行加权计算，以获得该词在所述用户语音中对应的语音块的发音得分。

7.根据权利要求6所述的发音评价设备，其中，所述音节权重确定子单元适于：

基于所述参考语音特征中的每种特征，确定所述预定文本的每个词的每个音节关于该种特征的权重分量。

8.根据权利要求7所述的发音评价设备，其中，所述音节评分子单元适于：

针对所述预定文本的每个语句中的每个词，

对于所述参考语音特征中的每种特征，根据该词中各音节关于该种特征的权重分量，对该词中各音节在所述用户语音中对应的语音块的发音得分进行第三类加权计算，并将所述第三类加权计算的结果作为该词在所述用户语音中对应的语音块关于该种特征的发音得分，以及

对该词在所述用户语音中对应的语音块关于所述参考语音特征中的各种特征的发音得分进行第四类加权计算，以将所述第四类加权计算的结果作为该词在所述用户语音中对应的语音块的发音得分。

9.根据权利要求8所述的发音评价设备，其中，所述音节评分子单元适于：

通过利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，获得所述预定文本的每个语句中每个词的每个音节在所述用户语音中所对应的语音块的似然分数值，并将每个音节对应的似然分数值作为该音节在所述用户语音中对应的语音块的发音得分。

10.根据权利要求1或2所述的发音评价设备，还包括：

输出单元，适于可视化输出所述预定文本的每个语句在所述用户语音中对应的语音部分的发音总评分。