CN104505103A

CN104505103A - 语音质量评价设备、方法和系统

Info

Publication number: CN104505103A
Application number: CN201410736332.6A
Authority: CN
Inventors: 林晖
Original assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-04-08
Anticipated expiration: 2034-12-04
Also published as: CN104505103B

Abstract

本发明提供了一种语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以克服传统技术只是利用声学模型、而未利用参考语音来计算用户语音得分的缺陷。语音质量评价设备包括：下载单元，适于从预定服务器下载预定文本和与预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户语音特征；以及语音质量计算单元，适于基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。本发明的上述技术可应用于语音技术领域。

Description

语音质量评价设备、方法和系统

技术领域

本发明涉及语音技术领域，尤其涉及一种语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，并根据学习材料的指示而在客户端上进行操作，例如输入文字、输入语音或者进行选择等，并获得反馈，从而提高自己的语言能力。

对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。在现有的语音技术中，用户通过客户端的录音设备录制语音，系统根据与该语音相对应的文本，就用户的语音和现有声学模型进行比较，从而向用户提供整句录音的发音评分，以及每个单词的读音是否正确的反馈。然而，现有的语音技术在评价用户的发音情况时并未考虑用户语音与用于参考的标准语音之间的相关性，从而没有针对该相关性给出对用户发音的准确评价。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以至少解决现有的语音技术在评价用户的发音情况时未考虑用户语音与用于参考的标准语音之间的相关性的问题。

根据本发明的一个方面，提供了一种语音质量评价设备，该设备包括：下载单元，适于从预定服务器下载预定文本和与预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户语音特征；以及语音质量计算单元，适于基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理设备，该设备适于驻留在服务器中，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本中的每个语句相关联地保存在服务器存储单元中，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本中的每个语句相关联地保存在服务器存储单元中。

根据本发明的另一个方面，还提供了一种语音处理设备，该设备适于驻留在计算机中，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本相关联地发送至预定服务器，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种语音质量评价方法，该方法包括如下步骤：从预定服务器下载预定文本和与预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；接收用户针对预定文本所录入的用户语音；获取用户语音的用户语音特征；以及基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理方法，该方法适于在服务器中执行，并包括：存储预定文本以及与预定文本对应的参考语音；以及计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本中的每个语句相关联地保存，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本中的每个语句相关联地保存。

根据本发明的另一个方面，还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本相关联地发送至预定服务器，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种移动终端，包括如上所述的语音质量评价设备。

根据本发明的又一个方面，还提供了一种语音质量评价系统，包括如上所述的语音质量评价设备和如上所述的数据处理设备。

上述根据本发明实施例的语音质量评价方案，其基于获取的用户语音的用户语音特征和参考语音特征之间的相关性，来计算用户语音的语音质量，能够获得至少以下益处之一：该设备在计算用户语音的语音质量的过程中考虑了用户语音和参考语音之间的相关性，其利用参考语音特征所构成的模型来分析用户语音的质量，克服了以往传统技术只是利用声学模型、而未利用参考语音来计算用户语音得分的缺陷；节省计算时间和计算量；节省存储空间；可以进行离线学习；通过播放功能，容易发现用户语音与参考语音之间的差别，便于用户及时纠正自己的发音上的缺陷；更全面、更准确地评价用户语音的语音质量；通过可视化输出功能，能够直观地获知自己的发音与参考语音的发音之间的差别，从而能够更有针对性、更准确地纠正用户的发音。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出移动终端100的结构框图；

图2是示意性地示出根据本发明一个实施例的语音质量评价设备200的一种示例性结构的框图；

图3是示意性地示出图2所示的特征获取单元230的一种可能结构的框图；

图4是示意性地示出根据本发明其他实施例的语音质量评价设备400的示例性结构的框图；

图5是示意性地示出根据本发明一个实施例的数据处理设备500的一种示例性结构的框图；

图6是示意性地示出根据本发明一个实施例的语音处理设备600的一种示例性结构的框图；

图7是示意性地示出根据本发明的实施例的语音质量评价方法的一种示例性处理的流程图；

图8是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图；

图9是示意性地示出根据本发明的实施例的语音处理方法的一种示例性处理的流程图；以及

图10是示意性地示出根据本发明的实施例的语音处理方法的另一种示例性处理的流程图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的实施例提供了一种语音质量评价设备，该设备包括：下载单元，适于从预定服务器下载预定文本和与预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户语音特征；以及语音质量计算单元，适于基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。

根据本发明的实施例的上述语音质量评价设备可以是在传统的桌面型或者膝上型计算机(未示出)等中执行处理的应用，也可以是在移动终端(如图1所示)中执行处理的客户端应用(如图1所示的移动终端100中的应用154的一种)，或者也可以是在上述传统的桌面型、膝上型计算机用户或移动终端上通过浏览器来访问的网页应用等。

图1是移动终端100的结构框图。具有多点触摸能力的移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及外围接口106。

存储器接口102、一个或多个处理器104和/或外围接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口106，以便帮助实现多种功能。例如，运动传感器110、光传感器112和距离传感器114可以耦合到外围接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与外围接口106相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。

可以通过一个或多个无线通信子系统124来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BlueboothTM网络的通信子系统124。

音频子系统126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。

I/O子系统140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。

触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。

存储器150可以存储操作系统152，例如Android、IOS或是WindowsPhone之类的操作系统。该操作系统152可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器150还可以存储应用154。这些应用在操作时，会从存储器150加载到处理器104上，并在已经由处理器104运行的操作系统之上运行，并利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。应用可以是独立于操作系统提供的，也可以是操作系统自带的。应用154可以包括根据本发明的语音质量评价设备200。

图2示出了根据本发明的实施例的语音质量评价设备200的一个示例。如图2所示，语音质量评价设备200包括下载单元210、用户语音接收单元220、特征获取单元230以及语音质量计算单元240。

如图2所示，在语音质量评价设备200中，下载单元210用于从预定服务器下载预定文本和与该预定文本对应的参考语音特征。预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。其中，语句中的每个词通常可以包括多个字母或至少一个文字。

根据一种实现方式，在预定文本的语言例如是诸如英语之类的、词由字母构成的语言时，预定文本除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

需要说明的是，虽然以上举例所描述的为预定文本的语言是英语的情况，但实际预定文本的语言并不限于英语，可以是汉语、法语或德语等任意一种语言。

当用户启动语音质量评价设备200时，如上所述，下载单元210中已下载有上述预定文本和与该预定文本对应的参考语音特征。然后，通过诸如移动终端100的触摸屏146之类的显示装置，向用户呈现待录入的语音所对应的文本内容(即上述预定文本)，并提示用户录制相应的语音。这样，用户能够通过诸如移动终端100的麦克风130等输入装置来录入相应的语音，作为用户语音，并由用户语音接收单元220来接收该用户语音。

然后，用户语音接收单元220将其接收到的用户语音转发给特征获取单元230，并由特征获取单元230来获取该用户语音的用户语音特征。

根据一种实现方式，用户语音特征可以包括节奏特征、重音特征以及韵律特征中的至少一种。

一般来说，人们在说话时，往往在说完句子中的某些词之后有适当的停顿，而节奏正是表明在说了哪些词之后进行停顿、以及停顿多久等。此外，当词的音节多于一个时，音节与音节之间的发音也存在一定的停顿时间。需要说明的是，在本发明的实施例中，说话节奏指词与词之间的停顿，而发音节奏则指音节与音节之间的停顿。因此，用户语音特征中的节奏特征例如可以包括用于描述上述说话节奏和/或发音节奏的特征。

此外，不同的语句和不同的单词都具有根据场景而改变的重音，而重音是指在一整句话中应当重读哪些单词(下文称为说话重音)，或者在一个单词中应当对哪个音节进行重读(下文称为发音重音)。因此，用户语音特征中的重音特征例如可以包括用于描述上述说话重音和/或发音重音的特征。

除此之外，对于每种语言来说，会根据不同的场景而在说话时具有不同的说话韵律。这里，韵律是指对发音抑扬顿挫的表示，既可以针对整句话确定句子的韵律(下文中称为说话韵律)，也可以针对每个词确定词的韵律(下文中称为发音韵律)。因此，用户语音特征中的韵律特征例如可以包括用于描述上述说话韵律和/或发音韵律的特征。

需要说明的是，下载单元210所下载的参考语音特征所包括的类型与后面提到的用户语音特征所包括的类型是对应的。

图3示出了特征获取单元230的一种可能的示例结构。在该示例中，特征获取单元230可以包括对齐子单元310和特征计算子单元320。

如图3所示，对齐子单元310可以利用预定声学模型(acoustic model)将用户语音与预定文本进行强制对齐(force alignment)，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系。

一般而言，声学模型是通过大量的母语发音人的录音训练而成的，利用声学模型可以计算输入语音对应于已知文字的可能性，进而能够将输入语音与已知文字进行强制对齐。这里，“输入语音”可以是用户语音或者下文中将提到的参考语音，而“已知文字”可以是预定文本。

其中，可以参考http://mi.eng.cam.ac.uk/～mjfg/ASRU_talk09.pdf中的相关资料来获知声学模型的相关技术，以及可以参考http://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html 和http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf中的相关资料来获知强制对齐的相关技术，或者也可以利用其他现有技术，这里不再详述。

]此外，需要说明的是，通过将用户语音与预定文本之间进行强制对齐，可以确定预定文本中的每个语句与用户语音的部分语音(比如某个语音段)之间的对应关系，也即，可以在用户语音中确定与预定文本中的每个语句相对应的语音段。

除此之外，如上所述，通过强制对齐还可以根据需要来获得以下三种对应关系中的任意一种或多种：预定文本中的每个词与用户语音的部分语音(比如某个语音块)之间的对应关系；预定文本中的每个词中的每个音节与用户语音的部分语音(比如某个语音块)之间的对应关系；以及预定文本中的每个词中的每个音节的每个音素与用户语音的部分语音(比如某个语音块)之间的对应关系。

这样，基于对齐子单元310确定的对应关系，特征计算子单元320可以计算用户语音的用户语音特征。

通过以上所述的强制对齐等处理，能够根据实际需要选择性地获得一种或多种上述对应关系，进而可以得到不同层面的用户语音特征。例如，针对节奏特征来说，基于上述对应关系，可以得到预定文本的每个语句的节奏特征，以及/或者可以得到每个语句中每个词的节奏特征，等等。由此，利用该示例中的齐子单元310和特征计算子单元320所得到的用户语音特征，不仅能够从多个维度(比如节奏特征维度、重音特征维度以及韵律特征维度等)、而且能够从多个层面(比如每个语句的特征和每个词的特征等层面)来描述用户语音的特征。

在一个例子中，基于对齐子单元310确定的对应关系，可以得到预定文本的每个语句中每相邻两个词在用户语音中所对应的两个语音块之间的时间间隔(例如作为用户语音的节奏信息)，然后，特征计算子单元320可以根据得到的上述时间间隔来获得该语句在用户语音中所对应的语音段的节奏特征。然后，基于获得的预定文本的各语句在用户语音中所对应的各语音段的节奏特征来形成整个用户语音的节奏特征。假设预定文本中的某个语句中各词之间的间隔依次为0.3秒、0.2秒、0.3秒，则该句子在用户语音中对应的语音段的节奏特征可以表示成向量(0.3，0.2，0.3)，但不限于此。

在另一个例子中，基于对齐子单元310确定的对应关系，可以得到预定文本中的每个语句的每个词和/或每个词中的每个音节在用户语音中对应的语音块的特征参数(例如，特征参数可以包括每个语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值、每个语音块的持续时长以及从每个语音块中获得的音调信息的平均值，等等)，然后，利用经过训练的预定专家模型和以上获得的每个语音块的特征参数来获得每个语音块的重读属性(即是否重读)。例如，假设预定文本中的某个语句中各词依次为重读(比如可以用“1”表示)、非重读(比如可以用“0”表示)、非重读、非重读，则该句子在用户语音中对应的语音段的重音特征可以表示为向量(1，0，0，0)，但不限于此。

此外，在一个例子中，基于对齐子单元310确定的对应关系，特征计算子单元320可以提取每个语句中每个词在用户语音中所对应的语音块的基频信息，通过对基频信息的平滑处理以及多项式拟合来获得每个语句的基频信息的各个分段多项式的表达式，通过向其中代入多个时间点(例如以单位时间为间隔的一组时间点)，即可得到关于时间与基频值的多个坐标对。例如，假设以时间为横坐标(X轴)、基频值为纵坐标(Y轴)，将以单位时间(例如每10^-2秒为间隔)的一组时间点代入到某个语句的基频信息的各个分段多项式中，得到N(例如100)个坐标对(x1，y1)、(x2，y2)、……、(xN，yN)，则可以将用户语音的用户语音特征表示成、但不限于{(x1，y1)，(x2，y2)，……，(xN，yN)}的形式。

这样，语音质量计算单元240可以基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。

根据一种实现方式，针对用户语音特征中的每种特征(例如节奏特征、重音特征以及韵律特征中的每一种)，语音质量计算单元240可以计算用户语音特征中的该种特征与参考语音特征中的该种特征之间的相似度，并将该相似度作为描述该用户语音的该种特征的语音质量的分数。也就是说，计算的相似度越高，用户语音的语音质量也越高。

根据另一种实现方式，针对用户语音特征中的每种特征(例如节奏特征、重音特征以及韵律特征中的每一种)，语音质量计算单元240也可以基于用户语音特征中的该种特征与参考语音特征中的该种特征之间的相关性来计算二者之间的距离，并根据该距离获得用于描述用户语音的该种特征的语音质量的分数。例如，可以将计算得到的距离的倒数作为描述用户语音的该种特征的语音质量的分数。也就是说，计算的距离越大，用户语音的语音质量越差。

此外，需要说明的是，如果下载单元210中下载的参考语音特征未表示成与用户语音特征的形式(比如向量的形式)相同的形式，则可以首先将其表示成与之相同的形式，再计算二者之间的相似度或距离等。

另外，还需要说明的是，语音质量计算单元240可以逐句计算用户语音特征与参考语音特征之间的相关性(即相似度或距离)，再逐句获得用户语音的质量分数(也即依次获得用户语音中与预定文本每个语句对应的逐个语音段的质量分数)。此外，语音质量计算单元240也可以在计算完整个用户语音的用户语音特征与参考语音特征之间的相关性(即相似度或距离)后，再得到描述整个用户语音的质量分数。

这样，通过获取一种或多种以上所述的用户语音特征，使得能够从多个维度来计算用户语音特征和参考语音特征的相关性，以根据二者在多个维度的相关性来计算用户语音的质量分数，从而能够更全面、更准确地评价用户语音的语音质量。

下面结合图4来描述根据本发明的实施例的语音质量评价设备的其他一些示例。

如图4所示，在一个示例中，语音质量评价设备400除了包括下载单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440之外，还可以包括输出单元450。其中，图4所示的语音质量评价设备400中的下载单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440可以分别具有与上文中结合图2所描述的语音质量评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

输出单元450可以可视化输出语音质量的计算结果，例如，可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现上述语音质量的计算结果。

根据一种实现方式，输出单元450可以输出反映语音质量的分数来作为语音质量的计算结果。

例如，输出单元450可以可视化地输出(比如逐句输出)反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数。这样，用户能够获知自己所说的每句话的发音准确性，尤其当某一句的分数较低时，用户能够立刻意识到该句的发音需要纠正，学习更有针对性。

又如，输出单元450可以可视化地输出反映整个用户语音的语音质量的分数。这样，用户能够整体感知自己所说的一段语音的韵律是否准确。

此外，在其他例子中，输出单元450也可以同时可视化地输出反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数、以及反映整个用户语音的语音质量的分数。

此外，可选地，输出单元450所输出的分数可以包括一种或多种得分，例如，包括节奏发音得分、重音发音得分和韵律发音得分中的一个或多个。这样，用户根据这些得分，能够获知自己在哪一方面存在不足，方便用户针对不足的方面做出更有效、更准确的改正。

根据另一种实现方式，针对用户语音特征中的每种特征(例如节奏特征、重音特征以及韵律特征中的每一种)，输出单元450可以可视化地输出用户语音特征中的该种特征和参考语音特征中的各种特征之间的差别来作为语音质量的计算结果。

例如，针对节奏特征，输出单元450可以将参考语音和用户语音用平行的两行来表示，其中用“‘”号表示两个词之间存在停顿，如果停顿相同，则可以用一般方式来显示，比如绿色的“‘”号；如果不同，则强调显示该停顿，比如加粗的红色“‘”。又如，针对重音特征，输出单元450可以将参考语音和用户语音用平行的两行来表示，其中加粗显示表示某个词或者某个词中的音节为重读，如果重音位置相同，则以一般方式，例如绿色来显示；如果重音位置不同，则强调显示该重音，例如以红色来显示。此外，针对韵律特征，输出单元450例如可以将用户语音特征的韵律特征和参考语音特征的韵律特征用重叠的曲线、不同颜色来显示，以便于用户看清差别。

这样，通过输出单元450的输出显示，用户能够方便地获知自己的发音与参考语音的发音之间的差别，差别有多大等，从而能够更有针对性、更准确地纠正自己的发音。

根据其他实现方式，输出单元450也可以同时可视化地输出反映语音质量的分数以及用户语音特征和参考语音特征之间的差别来作为语音质量的计算结果，该实现方式的具体细节可以参考关于以上两种实现方式的描述，这里不再赘述。

此外，如图4所示，在另一个示例中，语音质量评价设备400除了包括下载单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440之外，还可以包括播放单元460。其中，图4所示的语音质量评价设备400中的下载单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440可以分别具有与上文中结合图2所描述的语音质量评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

根据一种实现方式，下载单元410还可以从预定服务器下载与预定文本对应的参考语音，这样，播放单元460可以根据设置或需要来播放参考语音。例如，播放单元460可以根据用户指令(例如当用户单击屏幕上的参考语音播放按钮时)来播放参考语音。其中，播放单元460例如可以通过诸如移动终端100的音频子系统126和扬声器128等来进行播放。这样，通过收听参考语音，用户更加容易发现自己的语音与标准的参考语音之间的差别所在，从而更容易模仿参考语音的发音的方式(例如音准、节奏、重音、韵律等等)。

这里，参考语音可以是由特定用户(例如以预定文本的语言为母语的用户、或与预定文本的语言相关的专业语言教师等)预先针对该预定文本录制的语音。

根据另一种实现方式，播放单元460可以播放用户语音。例如，播放单元460可以根据用户指令(例如当用户单击屏幕上的用户语音播放按钮时)来播放用户语音，或者也可以在用户录制结束后立刻播放其录制的用户语音。通过该方式，用户可以反复收听自己的录音，便于用户发现自己发音(例如音准、节奏、重音、韵律等等)上的不足以改正。

此外，根据其他实现方式，播放单元460也可以同时具有播放参考语音和用户语音的功能。通过该方式，用户能够对比自己的录音与参考语音，进而容易发现二者之间的差别，便于用户及时纠正自己的发音(例如音准、节奏、重音、韵律等等)上的缺陷。

需要说明的是，在其他示例中，语音质量评价设备400也可以包括下载单元410、用户语音接收单元420、特征获取单元430、语音质量计算单元440、输出单元450和播放单元460，其中，各单元的处理可以和上文描述的对应单元的处理相类似，并能够达到相类似的功能和效果，这里不再一一赘述。

通过以上描述可知，上述根据本发明的实施例的语音质量评价设备，其基于获取的用户语音的用户语音特征和参考语音特征之间的相关性，来计算用户语音的语音质量。该设备在计算用户语音的语音质量的过程中考虑了用户语音和参考语音之间的相关性，其利用参考语音特征所构成的模型来分析用户语音的质量，克服了以往传统技术只是利用声学模型、而未利用参考语音来计算用户语音得分的缺陷。

该设备设置在用户客户端对应的计算机或移动终端上，但其所使用的预定文本和参考语音特征是从预定服务器下载而获得的，因此，该设备不必通过计算来获得上述参考语音特征，从而能够节省计算时间和计算量。

此外，当服务器中存在较多的预定文本时，用户能够根据实际需要从中选择性地下载一个或多个以及相关的参考语音特征，而不需要下载全部，故能够节省用户客户端所驻留的计算机或移动终端上的存储空间。

此外，上述根据本发明的实施例的语音质量评价设备对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价设备使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理设备，该设备适于驻留在服务器中，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本中的每个语句相关联地保存在服务器存储单元中，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本中的每个语句相关联地保存在服务器存储单元中。

图5示出了根据本发明的实施例的数据处理设备500的一个示例。如图5所示，数据处理设备500包括服务器存储单元510和计算单元520。

数据处理设备500例如可以实现为驻留在服务器上的应用。服务器例如可以包括web服务器，其可以利用http协议和用户客户端(例如上文所描述的语音质量评价设备200或400)进行通信，但不受限于此。

服务器存储单元510可以存储各种语言学习材料的文本材料，即预定文本。其中，对于每种语言来说，服务器存储单元510除了可以存储预定文本之外，还可以存储与预定文本对应的参考语音、或者可以从例如下文将要描述的语音处理设备600等外部设备接收并存储参考语音。

根据一种实现方式，服务器存储单元510可以例如通过网络从外部(如下文中所提到的语音处理设备600所驻留的计算机)接收特征用户针对预定文本所录制的语音来作为参考语音。

应当理解的是，这里所说的预定文本和上文所说的预定文本类似，除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息(例如预定文本的语言是诸如英语之类的、词由字母构成的语言时)，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

根据一种实现方式，计算单元520可以通过计算来获得参考语音中与预定文本的每个语句对应的语音段的参考信息，并将所获得的参考信息与预定文本中的每个语句相关联地保存在服务器存储单元510中。在这种实现方式中，数据处理设备500可以在后续处理中将其存储的预定文本和参考语音对应的参考信息提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

此外，根据另一种实现方式，计算单元520也可以根据所获得的参考信息获得参考语音的参考语音特征，并将该参考语音特征保存在服务器存储单元510中。在这种实现方式中，数据处理设备500可以在后续处理中将其存储的预定文本和参考语音特征提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

其中，参考信息例如可以是从参考语音中提取到的节奏信息、特征参数或基频信息等，参考语音的参考语音特征可采用与上文中所描述的用户语音特征的获取方式相同的处理方式来获得，并能够达到相类似的技术效果，这里不再赘述。此外，根据参考信息获得参考语音特征的过程可以参考上文所举例描述的根据用户语音的节奏信息、特征参数或基频信息来计算用户语音特征的过程，这里不再详述。

此外，本发明的实施例还提供了一种语音处理设备，该设备适于驻留在计算机中，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本相关联地发送至预定服务器，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本相关联地发送至预定服务器。

图6示出了根据本发明的实施例的语音处理设备600的一个示例。如图6所示，语音处理设备600包括参考语音接收单元610。可选地，语音处理设备还可以包括计算单元620。

如图6所示，根据一种实现方式，当语音处理设备600只包括参考语音接收单元610时，可以通过参考语音接收单元610来接收特定用户(如以预定文本语言为母语的用户或与该语言相关的专业语言教师等)针对预定文本所录入的语音，作为参考语音，并将参考语音发送给预定服务器(如上文中结合图5所描述的数据处理设备500所驻留的服务器)。

此外，根据另一种实现方式，语音处理设备600还可以包括计算单元620，其可以计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将获得的参考信息与预定文本相关联地发送至预定服务器，或根据获得的参考信息获得参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。

在实际应用中，语音处理设备600可以对应于设置在计算机或其他终端上的教师客户端，例如以软件实现。

教师客户端的使用者可以针对预定文本中的每个语句录制标准语音，以作为参考语音发送给相应的服务器端，由服务器端执行后续处理。这种情况下，可以方便服务器通过互联网采集参考语音，而不需参与录制语音的处理，能够节省时间和操作。

此外，教师客户端也可以直接在本地对其录制的标准语音(即参考语音)进行处理分析，生成与该标准语音相对应的参数(如参考语音特征)，并连同预定文本一起传输到服务器端存储，从而能够减少服务器端的处理负载。

另外，本发明的实施例还提供了一种移动终端，包括如上所述的语音质量评价设备。该移动终端例如可以是手机(如智能手机)或平板电脑等移动通信设备。此外，该移动终端可以具有上述语音质量评价设备所具有的功能，并能够达到相类似的技术效果，这里不再详述。

此外，本发明的实施例还提供了一种语音质量评价系统，该系统包括如上所述的语音质量评价设备200或400和如上所述的数据处理设备500。

根据一种实现方式，上述语音质量评价系统除了包括上述语音质量评价设备200或400和上述数据处理设备500之外，还可以选择性地包括服务器，其中，服务器中设有如上所述的语音处理设备600。

在这种实现方式中，语音质量评价系统中的语音质量评价设备200或400可以对应于设置于计算机或移动终端中的用户客户端，数据处理设备500可以对应于设置于服务器端，而语音处理设备600可以对应于教师客户端。在实际处理中，教师客户端可以向服务器端提供参考语音(可选地还可以提供参考语音的特征参数或参考语音特征)，服务器用于存储这些信息和预定文本，而用户客户端则可以从服务器下载这些信息来分析用户输入的用户语音，以对其完成语音质量评价。处理的细节可以分别参考以上结合图2或4、图5以及图6所给出的描述，这里不再赘述。

此外，本发明的实施例还提供了一种语音质量评价方法，该方法包括如下步骤：从预定服务器下载预定文本和与预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；接收用户针对预定文本所录入的用户语音；获取用户语音的用户语音特征；以及基于参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。

下面结合图7来描述上述语音质量评价方法的一种示例性处理。如图7所示，根据本发明一个实施例的语音质量评价方法的示例性处理流程700开始于步骤S710，然后，执行步骤S715。

在步骤S715中，从预定服务器下载预定文本和与该预定文本对应的参考语音特征。其中，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。然后，执行步骤S720，其中，步骤S715中的处理例如可以与上文中结合图2所描述的下载单元210的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S720中，接收用户针对预定文本所录入的用户语音。然后，执行步骤S730。其中，步骤S720中的处理例如可以与上文中结合图2所描述的用户语音接收单元220的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，预定文本和参考语音特征是预先从预定服务器下载获得的。

根据另一种实现方式，预定文本是预先从预定服务器下载获得的，而参考语音特征是利用与预定文本的各语句对应的参考语音的各语音段的基频曲线的、从预定服务器预先下载的分段多项式计算获得的。

在步骤S730中，获取用户语音的用户语音特征。然后，执行步骤S740。其中，步骤S730中的处理例如可以与上文中结合图2所描述的特征获取单元230的处理相同，并能够达到相类似的技术效果，在此不再赘述。

其中，用户语音特征例如可以包括节奏特征、重音特征以及韵律特征中的至少一种。

根据一种实现方式，在步骤S730中，例如可以利用预定声学模型将用户语音与预定文本进行强制对齐，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系，并基于该对应关系获得用户语音的用户语音特征。

在步骤S740中，基于预定文本对应的参考语音特征与用户语音特征之间的相关性，计算用户语音的语音质量。其中，步骤S740中的处理例如可以与上文中结合图2所描述的语音质量计算单元240的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S750中结束处理流程700。

此外，根据另一种实现方式，在步骤S740之后，还可以选择性地包括如下步骤：可视化输出语音质量的计算结果。

其中，语音质量的计算结果可以包括：反映语音质量的分数；和/或用户语音特征和参考语音特征之间的差别。

此外，根据一种实现方式，处理流程700可以选择性地包括如下步骤：从预定服务器下载与预定文本对应的参考语音；以及例如根据用户指令来播放参考语音。

另外，根据一种实现方式，处理流程700还可以选择性地包括如下步骤：例如根据用户指令来播放用户语音。

通过以上描述可知，上述根据本发明的实施例的语音质量评价方法，其基于获取的用户语音的用户语音特征和参考语音特征之间的相关性，来计算用户语音的语音质量。该方法在计算用户语音的语音质量的过程中考虑了用户语音和参考语音之间的相关性，其利用参考语音特征所构成的模型来分析用户语音的质量，克服了以往传统技术只是利用声学模型、而未利用参考语音来计算用户语音得分的缺陷。

该方法设置在用户客户端对应的计算机或移动终端上，但其所使用的预定文本和参考语音特征是从预定服务器下载而获得的，因此，该方法不必通过计算来获得上述参考语音特征，从而能够节省计算时间和计算量。

此外，上述根据本发明的实施例的语音质量评价方法对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价方法使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理方法，该方法适于在服务器中执行，并包括：存储预定文本以及与预定文本对应的参考语音；以及计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本中的每个语句相关联地保存，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本中的每个语句相关联地保存。

下面结合图8来描述上述数据处理方法的一种示例性处理。如图8所示，根据本发明一个实施例的数据处理方法的示例性处理流程800开始于步骤S810，然后，执行步骤S820。

在步骤S820中，存储预定文本和与预定文本对应的参考语音。然后，执行步骤S830。其中，步骤S820中的处理例如可以与上文中结合图5所描述的服务器存储单元510的处理相同，并能够达到相类似的技术效果，在此不再赘述。其中，参考语音例如可以是从外部接收的特定用户针对所述预定文本录制的语音。

在步骤S830中，计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本中的每个语句相关联地保存，或根据计算的参考信息获得参考语音的参考语音特征并将该参考语音特征与预定文本中的每个语句相关联地保存。其中，步骤S830中的处理例如可以与上文中结合图5所描述的获得单元520的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S840中结束处理流程800。

此外，本发明的实施例还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本相关联地发送至预定服务器，或根据计算的参考信息获得参考语音的参考语音特征、以将参考语音特征与预定文本相关联地发送至预定服务器。

下面结合图9来描述上述语音处理方法的一种示例性处理。如图9所示，根据本发明一个实施例的语音处理方法的示例性处理流程900开始于步骤S910，然后，执行步骤S920。

在步骤S920中，接收特定用户针对预定文本所录入的语音，作为参考语音。可选地，在步骤S920中，还可以将参考语音发送给预定服务器。然后，执行步骤S930。其中，步骤S920的处理例如可以与上文中结合图6所描述的参考语音接收单元610的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S930中，计算参考语音中与预定文本的每个语句对应的语音段的参考信息，并将计算的参考信息与预定文本相关联地发送至预定服务器。然后在步骤S940中结束处理流程1000。其中，步骤S930的处理例如可以与上文中结合图6所描述的计算单元620的前部分处理相同，并能够达到相类似的技术效果，在此不再赘述。然后在步骤S940中结束处理流程900。

需要说明的是，在其他实施例中，处理流程900也可以不包括上述步骤S930，也即，只将参考语音发送给预定服务器，而不再计算及发送参考信息。

此外，图10示出了上述语音处理方法的另一种示例性处理。如图10所示，根据本发明一个实施例的语音处理方法的示例性处理流程1000开始于步骤S1010，然后，执行步骤S1020。

在步骤S1020中，接收特定用户针对预定文本所录入的语音，作为参考语音。可选地，在步骤S1020中，还可以将参考语音发送给预定服务器。然后，执行步骤S1030。

在步骤S1030中，根据计算的参考信息获得参考语音的参考语音特征，以将参考语音特征与预定文本相关联地发送至预定服务器。然后在步骤S1040中结束处理流程1000。其中，步骤S1030的处理例如可以与上文中结合图6所描述的计算单元620的后部分处理相同，并能够达到相类似的技术效果，在此不再赘述。

A11：一种语音质量评价方法，包括如下步骤：从预定服务器下载预定文本和与所述预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；接收用户针对所述预定文本所录入的用户语音；获取所述用户语音的用户语音特征；以及基于所述参考语音特征与所述用户语音特征之间的相关性，计算所述用户语音的语音质量。A12：根据A11所述语音质量评价方法中，所述用户语音特征包括节奏特征、重音特征以及韵律特征中的至少一种。A13：根据A11或A12所述的语音质量评价方法，其中所述获取所述用户语音的用户语音特征的步骤包括：利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系；以及基于所述对应关系计算所述用户语音的用户语音特征。A14：根据A11或A12所述的语音质量评价方法还包括：可视化输出所述语音质量的计算结果。A15：根据A14所述的语音质量评价方法所述语音质量的计算结果包括：反映所述语音质量的分数；和/或所述用户语音特征和所述参考语音特征之间的差别。。A16：根据A11或A12所述的语音质量评价方法还包括：从所述预定服务器下载与所述预定文本对应的参考语音；以及播放所述参考语音。。A13：根据A16所述的语音质量评价方法还包括：播放所述用户语音。A18：一种数据处理方法，该方法适于在服务器中执行，并包括：存储预定文本以及与所述预定文本对应的参考语音；以及计算所述参考语音中与所述预定文本的每个语句对应的语音段的参考信息，并将计算的所述参考信息与所述预定文本中的每个语句相关联地保存，或根据计算的所述参考信息获得所述参考语音的参考语音特征、以将所述参考语音特征与所述预定文本中的每个语句相关联地保存。A19：根据A18所述的数据处理方法中，所述参考语音是从外部接收的特定用户针对所述预定文本录制的语音。A20：一种语音处理方法，该方法适于在计算机中执行，并包括：接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及计算所述参考语音中与所述预定文本的每个语句对应的语音段的参考信息，并将计算的所述参考信息与所述预定文本相关联地发送至预定服务器，或根据计算的所述参考信息获得所述参考语音的参考语音特征、以将所述参考语音特征与所述预定文本相关联地发送至所述预定服务器。A21：一种移动终端，包括根据本发明的语音质量评价设备。A22：一种语音质量评价系统，包括根据本发明的语音质量评价设备和数据处理设备。A23：根据A22所述的语音质量评价系统包括：根据本发明的语音质量评价设备；服务器；以及根据本发明的语音处理设备。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种语音质量评价设备，包括：

下载单元，适于从预定服务器下载预定文本和与所述预定文本对应的参考语音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

用户语音接收单元，适于接收用户针对所述预定文本所录入的用户语音；

特征获取单元，适于获取所述用户语音的用户语音特征；以及

语音质量计算单元，适于基于所述参考语音特征与所述用户语音特征之间的相关性，计算所述用户语音的语音质量。

2.根据权利要求1所述的语音质量评价设备，其中，所述用户语音特征包括节奏特征、重音特征以及韵律特征中的至少一种。

3.根据权利要求1或2所述的语音质量评价设备，其中，所述特征获取单元包括：

对齐子单元，适于利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系；以及

特征计算子单元，适于基于所述对应关系计算所述用户语音的用户语音特征。

4.根据权利要求1或2所述的语音质量评价设备，还包括：

输出单元，适于可视化输出所述语音质量的计算结果。

5.根据权利要求4所述的语音质量评价设备，其中，所述输出单元适于输出如下结果来作为所述语音质量的计算结果：

反映所述语音质量的分数；和/或

所述用户语音特征和所述参考语音特征之间的差别。

6.根据权利要求1或2所述的语音质量评价设备，其中，所述下载单元还适于从所述预定服务器下载与所述预定文本对应的参考语音；所述语音质量评价设备还包括：

播放单元，适于播放所述参考语音。

7.根据权利要求6所述的语音质量评价设备，其中，所述播放单元还适于播放所述用户语音。

8.一种数据处理设备，该设备适于驻留在服务器中，并包括：

服务器存储单元，适于存储预定文本以及与所述预定文本对应的参考语音；以及

计算单元，适于计算所述参考语音中与所述预定文本的每个语句对应的语音段的参考信息，并将计算的所述参考信息与所述预定文本中的每个语句相关联地保存在所述服务器存储单元中，或根据计算的所述参考信息获得所述参考语音的参考语音特征、以将所述参考语音特征与所述预定文本中的每个语句相关联地保存在所述服务器存储单元中。

9.根据权利要求8所述的数据处理设备，其中，

所述服务器存储单元适于从外部接收特定用户针对所述预定文本录制的语音来作为所述参考语音。

10.一种语音处理设备，该设备适于驻留在计算机中，并包括：

参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及

计算单元，适于计算所述参考语音中与所述预定文本的每个语句对应的语音段的参考信息，并将计算的所述参考信息与所述预定文本相关联地发送至预定服务器，或根据计算的所述参考信息获得所述参考语音的参考语音特征、以将所述参考语音特征与所述预定文本相关联地发送至所述预定服务器。