CN104361896B

CN104361896B - 语音质量评价设备、方法和系统

Info

Publication number: CN104361896B
Application number: CN201410736291.0A
Authority: CN
Inventors: 林晖
Original assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2018-04-13
Anticipated expiration: 2034-12-04
Also published as: CN104361896A

Abstract

本发明提供了一种基于韵律的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以克服现有的语音技术在评价用户的发音情况时未考虑有关语音韵律的信息的问题。语音质量评价设备包括：存储单元，适于存储预定文本和预定文本对应的参考韵律特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户韵律特征；以及语音质量计算单元，适于基于参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。本发明的上述技术可应用于语音技术领域。

Description

语音质量评价设备、方法和系统

技术领域

本发明涉及语音技术领域，尤其涉及一种基于韵律的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，并根据学习材料的指示而在客户端上进行操作，例如输入文字、输入语音或者进行选择等，并获得反馈，从而提高自己的语言能力。

对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。对于每种语言来说，会根据不同的场景而在说话时具有不同的说话韵律。这里，韵律是指对发音抑扬顿挫的表示，既可以针对整句话确定句子的韵律(下文中称为说话韵律)，也可以针对每个词确定词的韵律(下文中称为发音韵律)。因此，用户在学习用该语言说话时，还需要学习这种说话韵律和/或发音韵律。

在现有的语音技术中，用户通过客户端的录音设备录制语音，系统根据与该语音相对应的文本，对用户录制的语音进行拆分，并逐个单词地就用户的语音和现有声学模型进行比较，从而向用户提供该单词读音是否正确的反馈。然而，现有的语音技术在评价用户的发音情况时并未考虑有关语音韵律方面的任何信息，因此也不能够让学习者学习说话和/或发音的韵律。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种基于韵律的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以至少解决现有的语音技术在评价用户的发音情况时未考虑有关语音韵律的信息的问题。

根据本发明的一个方面，提供了一种基于韵律的语音质量评价设备，该设备包括：存储单元，适于存储预定文本和预定文本对应的参考韵律特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户韵律特征；以及语音质量计算单元，适于基于参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理设备，该设备适于在服务器中执行，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及韵律计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与预定文本中的每个语句相关联地保存在服务器存储单元中，或根据所获得的各个分段多项式计算参考语音的参考韵律特征并将该参考韵律特征保存在服务器存储单元中。

根据本发明的另一个方面，还提供了一种语音处理设备，该设备适于在计算机中执行，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及韵律计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种基于韵律的语音质量评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；获取用户语音的用户韵律特征；以及基于预定文本对应的参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本和与预定文本对应的参考语音；以及计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所计算的各个分段多项式与预定文本中的每个语句相关联地存储，或根据所计算的各个分段多项式获得参考语音的参考韵律特征并保存该参考韵律特征。

根据本发明的另一个方面，还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将计算到的各个分段多项式与预定文本相关联地发送至预定服务器，或根据计算到的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种移动终端，包括如上所述的基于韵律的语音质量评价设备。

根据本发明的又一个方面，还提供了一种基于韵律的语音质量评价系统，包括如上所述的基于韵律的语音质量评价设备和如上所述的数据处理设备。

上述根据本发明实施例的基于韵律的语音质量评价方案，其基于获取的用户语音的用户韵律特征和参考韵律特征之间的相关性，来计算用户语音的语音质量，能够获得至少以下益处之一：在计算用户语音的语音质量的过程中考虑了有关语音韵律的信息，能够使用户根据计算结果来获知自己所录制的语音在韵律方面的准确度，进而有利于用户判断是否需要纠正自己的说话韵律和/或发音韵律；对用户语音的计算和评价在客户端计算机或客户端移动终端上完成，使用户可以进行离线学习；计算量较小；节省时间；操作更加简单、方便；以及当用户韵律特征的表示形式改变时，能够方便地将根据参考语音的韵律信息所计算的参考韵律特征表示成与用户韵律特征相同的形式，使得语音质量评价设备的处理更加灵活、方便，实用性更强。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出移动终端100的结构框图；

图2是示意性地示出根据本发明一个实施例的基于韵律的语音质量评价设备200的一种示例性结构的框图；

图3是示意性地示出图2所示的特征获取单元230的一种可能结构的框图；

图4是示意性地示出根据本发明另一个实施例的基于韵律的语音质量评价设备400的一种示例性结构的框图；

图5是示意性地示出根据本发明一个实施例的数据处理设备500的一种示例性结构的框图；

图6是示意性地示出根据本发明一个实施例的语音处理设备600的一种示例性结构的框图；

图7是示意性地示出根据本发明的实施例的基于韵律的语音质量评价方法的一种示例性处理的流程图；

图8是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图；

图9是示意性地示出根据本发明的实施例的语音处理方法的一种示例性处理的流程图；以及

图10是示意性地示出根据本发明的实施例的语音处理方法的另一种示例性处理的流程图。本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的实施例提供了一种语音质量评价设备，该设备包括：存储单元，适于存储预定文本和所述预定文本对应的参考韵律特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对所述预定文本所录入的用户语音；特征获取单元，适于获取所述用户语音的用户韵律特征；以及语音质量计算单元，适于基于所述参考韵律特征与所述用户韵律特征之间的相关性，计算所述用户语音的语音质量。

根据本发明的实施例的上述基于韵律的语音质量评价设备可以是在传统的桌面型或者膝上型计算机(未示出)等中执行处理的应用，也可以是在移动终端(如图1所示)中执行处理的客户端应用(如图1所示的移动终端100中的应用154的一种)，或者也可以是在上述传统的桌面型、膝上型计算机用户或移动终端上通过浏览器来访问的网页应用等。

图1是移动终端100的结构框图。具有多点触摸能力的移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及外围接口106。

存储器接口102、一个或多个处理器104和/或外围接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口106，以便帮助实现多种功能。例如，运动传感器110、光传感器112和距离传感器114可以耦合到外围接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与外围接口106相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。

可以通过一个或多个无线通信子系统124来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BlueboothTM网络的通信子系统124。

音频子系统126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。

I/O子系统140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。

触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。

存储器150可以存储操作系统152，例如Android、IOS或是Windows Phone之类的操作系统。该操作系统152可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器150还可以存储应用154。这些应用在操作时，会从存储器150加载到处理器104上，并在已经由处理器104运行的操作系统之上运行，并利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。应用可以是独立于操作系统提供的，也可以是操作系统自带的。应用154可以包括根据本发明的语音质量评价设备200。

图2示出了根据本发明的实施例的基于韵律的语音质量评价设备200的一个示例。如图2所示，语音质量评价设备200包括存储单元210、用户语音接收单元220、特征获取单元230以及语音质量计算单元240。

如图2所示，在语音质量评价设备200中，存储单元210用于存储预定文本和与该预定文本对应的参考韵律特征。预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。其中，语句中的每个词通常可以包括多个字母或至少一个文字。

根据一种实现方式，预定文本的语言例如是诸如英语之类的、词由字母构成的语言时，预定文本除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

需要说明的是，虽然以上举例所描述的为预定文本的语言是英语的情况，但实际预定文本的语言并不限于英语，可以是汉语、法语或德语等任意一种语言。

根据一种实现方式，预定文本和参考韵律特征可以是预先从预定服务器下载而保存在存储单元210中的。其中，这里所说的预定服务器例如可以是下文中结合图5所描述的数据处理设备500所驻留的服务器。这种方式下的计算量较小，不需要额外花费时间来计算参考韵律特征，能够节省时间，操作也更加简单、方便。

根据另一种实现方式，也可以从预定服务器预先下载预定文本、而并不下载参考韵律特征。在这种实现方式中，可以从预定服务器下载参考语音的特征参数，然后根据特征参数来进行计算，从而获得参考韵律特征。由此，可以将下载的预定文本和通过计算获得的参考韵律特征保存在存储单元210中。在这种方式下，当用户韵律特征的表示形式改变时，能够方便地将根据参考语音的特征参数所计算的参考韵律特征表示成与用户韵律特征相同的形式，使得语音质量评价设备200的处理更加灵活、方便，实用性更强。

需要说明的是，根据参考语音的特征参数来计算参考韵律特征的过程可以参考下文中结合图5描述的处理过程，这里不再详述。

这里，参考语音可以是由特定用户(例如以预定文本的语言为母语的用户、或与预定文本的语言相关的专业语言教师等)预先针对该预定文本录制的语音。特征参数可以是关于一段参考语音的，也可以是关于多段参考语音的。多段参考语音的参考韵律特征可以是通过对各段参考语音的参考韵律特征求平均后获得的。

当用户启动语音质量评价设备200时，如上所述，存储单元210中已存有上述预定文本和与该预定文本对应的参考韵律特征。然后，通过诸如移动终端100的触摸屏146之类的显示装置，向用户呈现待录入的语音所对应的文本内容(即上述预定文本)，并提示用户录制相应的语音。这样，用户能够通过诸如移动终端100的麦克风130等输入装置来录入相应的语音，作为用户语音，并由用户语音接收单元220来接收该用户语音。

然后，用户语音接收单元220将其接收到的用户语音转发给特征获取单元230，并由特征获取单元230来获取该用户语音的用户韵律特征。

图3示出了特征获取单元230的一种可能的示例结构。在该示例中，特征获取单元230可以包括对齐子单元310和特征计算子单元320。

如图3所示，对齐子单元310可以利用预定声学模型(acoustic model)将用户语音与预定文本进行强制对齐(force alignment)，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系。

一般而言，声学模型是通过大量的母语发音人的录音训练而成的，利用声学模型可以计算输入语音对应于已知文字的可能性，进而能够将输入语音与已知文字进行强制对齐。这里，“输入语音”可以是用户语音或者下文中将提到的参考语音，而“已知文字”可以是预定文本。

其中，可以参考http://mi.eng.cam.ac.uk/～mjfg/ASRU_talk09.pdf中的相关资料来获知声学模型的相关技术，以及可以参考http://www.isip.piconepress.com/projects/speech/software/tutorials/produc tion/fundamentals/v1.0/section_04/s04_04_p01.html和http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf中的相关资料来获知强制对齐的相关技术，或者也可以利用其他现有技术，这里不再详述。

此外，需要说明的是，通过将用户语音与预定文本之间进行强制对齐，可以确定预定文本中的每个语句与用户语音的部分语音(比如某个语音段)之间的对应关系，也即，可以在用户语音中确定与预定文本中的每个语句相对应的语音段。

除此之外，如上所述，通过强制对齐还可以根据需要来获得以下三种对应关系中的任意一种或多种：预定文本中的每个词与用户语音的部分语音(比如某个语音块)之间的对应关系；预定文本中的每个词中的每个音节与用户语音的部分语音(比如某个语音块)之间的对应关系；以及预定文本中的每个词中的每个音节的每个音素与用户语音的部分语音(比如某个语音块)之间的对应关系。

这样，基于对齐子单元310确定的对应关系，特征计算子单元320可以计算用户语音的用户韵律特征。

下面，将以预定文本的语句A为例，来描述如何计算语句A在用户语音中对应的语音段的用户韵律特征的一个实现方式。

在该实现方式中，特征计算子单元320可以首先提取语句A中每个词在用户语音中所对应的语音块的基频信息。

例如，特征计算子单元320可以按单位时间间隔对每个语音块进行分割，这样，可以将每个语音块分割成多个单位语音片段。然后，对于每个语音块，可以通过对该语音块的多个单位语音片段进行基频提取来获得该语音块的基频信息。其中，对于本领域的技术人员来说，基频提取的相关技术可以根据公知常识和/或结合公开资料来获得，或者可以参考http://www.cs.uregina.ca/Research/Techreports/2003-06.pdf所提供的文献获得，这里不再赘述。

然后，特征计算子单元320可以对每个语音块的基频信息进行平滑处理，例如进行中值滤波、随后进行低通滤波(或者进行移动平均等)，以使每个语音块的基频曲线段(即基频信息)变得平滑。其中，对于本领域的技术人员来说，平滑处理的相关技术可以根据公知常识和/或结合公开资料来获得，或者可以参考http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/digital％20speech％20pr ocessing％20course/lectures_new/Lecture_algorithms_fall_2010_6tp.pdf所提供的文献获得，这里不再赘述。

对于整个语句A来说，由于各个词对应的语音块之间的部分并没有基频存在，所以在平滑处理之后，得到的是一段一段较为平滑的基频变化曲线，但是各段曲线之间可能存在突然的变化。这样，可以再通过特征计算子单元320对平滑处理后的各基频信息进行多项式拟合(如B spline fitting，B样条拟合)，从而确定表述整个语句A的基频信息的各个分段多项式的参数值，也即，确定语句A的基频信息的各个分段多项式的表达式。其中，特征计算子单元320例如可以以平滑连接每个语句中每相邻两个词对应的两个语音块的首尾基频值为条件来进行上述多项式拟合

由此，根据语句A的基频信息的各个分段多项式的表达式，通过向其中代入多个时间点(例如以单位时间为间隔的一组时间点)，即可得到关于时间与基频值的多个坐标对。这样，特征计算子单元320可以基于获得的关于时间与基频值的多个坐标对来形成用户语音的韵律特征。其中，对于本领域的技术人员来说，多项式拟合的相关技术也可以根据公知常识和/或结合公开资料来获得，或者可以参考http://en.wikipedia.org/wiki/Spline_interpolation所提供的文献获得，这里不再赘述。

例如，假设以时间为横坐标(X轴)、基频值为纵坐标(Y轴)，将以单位时间(例如每10^-2秒为间隔)的一组时间点代入到语句A的基频信息的各个分段多项式中，得到N(例如100)个坐标对(x1，y1)、(x2，y2)、……、(xN，yN)，则可以将用户语音的用户韵律特征表示成{(x1，y1)，(x2，y2)，……，(xN，yN)}的形式。

这样，语音质量计算单元240可以基于参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。

根据一种实现方式，语音质量计算单元240可以基于用户韵律特征与参考韵律特征之间的相关性，并根据该相关性获得用于描述用户语音的语音质量的分数。

在一个例子中，语音质量计算单元240可以计算用户韵律特征与参考韵律特征之间的相似度，并将该相似度作为描述该用户语音的语音质量的分数。也就是说，计算的用户韵律特征与参考韵律特征之间的相似度越高，用户语音的语音质量也越高。

在另一个例子中，语音质量计算单元240也可以基于用户韵律特征与参考韵律特征之间的相关性来计算二者之间的距离，并根据该距离获得用于描述用户语音的语音质量的分数。例如，可以将计算得到的距离的倒数作为描述用户语音的语音质量的分数。也就是说，计算的用户韵律特征与参考韵律特征之间的距离越大，用户语音的语音质量越差。

此外，需要说明的是，如果存储单元210中存储的参考韵律特征未表示成与用户韵律特征的形式(比如向量的形式)相同的形式，则可以首先将其表示成与之相同的形式，再计算二者之间的相似度或距离等。

另外，还需要说明的是，语音质量计算单元240可以逐句计算用户韵律特征与参考韵律特征之间的相关性(即相似度或距离)，再逐句获得用户语音的质量分数(也即依次获得用户语音中与预定文本每个语句对应的逐个语音段的质量分数)。此外，语音质量计算单元240也可以在计算完整个用户语音的用户韵律特征与参考韵律特征之间的相关性(即相似度或距离)后，再得到描述整个用户语音的质量分数。

下面结合图4来描述根据本发明的实施例的基于韵律的语音质量评价设备的另一个示例。

在如图4所示的例子中，语音质量评价设备400除了包括存储单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440之外，还包括输出单元450。其中，图4所示的语音质量评价设备400中的存储单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440可以分别具有与上文中结合图2所描述的语音质量评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

输出单元450可以可视化输出语音质量的计算结果，例如，可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现上述语音质量的计算结果。

根据一种实现方式，输出单元450可以输出反映语音质量的分数来作为语音质量的计算结果。

例如，输出单元450可以可视化地输出(比如逐句输出)反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数。这样，用户能够获知自己所说的每句话的说话韵律和/或发音韵律的准确性，尤其当某一句的分数较低时，用户能够立刻意识到该句的韵律需要纠正，学习更有针对性。

又如，输出单元450可以可视化地输出反映整个用户语音的语音质量的分数。这样，用户能够整体感知自己所说的一段语音的韵律是否准确。

此外，在其他例子中，输出单元450也可以同时可视化地输出反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数、以及反映整个用户语音的语音质量的分数。

根据另一种实现方式，输出单元450可以可视化地输出用户韵律特征和参考韵律特征之间的差别来作为语音质量的计算结果。

例如，输出单元450可以将用户韵律特征和参考韵律特征用重叠的曲线、不同颜色来显示，以便于用户看清差别。

这样，通过输出单元450的输出显示，用户能够方便地获知自己的说话韵律和/或发音韵律与标准语音(即这里的参考语音)的说话韵律和/或发音韵律之间的差别，差别有多大等，从而能够更有针对性、更准确地纠正自己的说话韵律和/或发音韵律。

根据其他实现方式，输出单元450也可以同时可视化地输出反映语音质量的分数以及用户韵律特征和参考韵律特征之间的差别来作为语音质量的计算结果，该实现方式的具体细节可以参考关于以上两种实现方式的描述，这里不再赘述。

通过以上描述可知，上述根据本发明的实施例的基于韵律的语音质量评价设备，其基于获取的用户语音的用户韵律特征和参考韵律特征之间的相关性，来计算用户语音的语音质量。由于该设备在计算用户语音的语音质量的过程中考虑了有关语音韵律的信息，因此能够使用户根据计算结果来获知自己所录制的语音在韵律方面的准确度，进而有利于用户判断是否需要纠正自己的说话韵律和/或发音韵律。

此外，上述根据本发明的实施例的基于韵律的语音质量评价设备对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价设备使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理设备，该设备适于在服务器中执行，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的参考语音；以及韵律计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所计算的各个分段多项式与预定文本中的每个语句相关联地保存在服务器存储单元中，或根据所获得的各个分段多项式获得参考语音的参考韵律特征并将该参考韵律特征保存在服务器存储单元中。

图5示出了根据本发明的实施例的数据处理设备500的一个示例。如图5所示，数据处理设备500包括服务器存储单元510和韵律计算单元520。

数据处理设备500例如可以实现为驻留在服务器上的应用。服务器例如可以包括web服务器，其可以利用http协议和用户客户端(例如上文所描述的语音质量评价设备200或400)进行通信，但不受限于此。

服务器存储单元510可以存储各种语言学习材料的文本材料，即预定文本。其中，对于每种语言来说，服务器存储单元510除了可以存储预定文本之外，还可以存储与预定文本对应的至少一段参考语音、或者可以从例如下文将要描述的语音处理设备600等外部设备接收并存储至少一段参考语音。

应当理解的是，这里所说的预定文本和上文所说的预定文本类似，除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息(例如预定文本的语言是诸如英语之类的、词由字母构成的语言时)，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

根据一种实现方式，韵律计算单元520可以通过计算来获得参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与预定文本中的每个语句相关联地保存在服务器存储单元510中。在这种实现方式中，在后续处理中，数据处理设备500可以将其存储的预定文本和参考语音对应的各个分段多项式提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

其中，获得参考语音对应的分段多项式的过程可以和上文中所描述的获得用户语音对应的分段多项式的过程相类似，以下将举例说明，并省略了部分相同内容的描述。

此外，根据另一种实现方式，韵律计算单元520也可以根据所获得的各个分段多项式获得参考语音的参考韵律特征，并将该参考韵律特征保存在服务器存储单元510中。在这种实现方式中，在后续处理中，数据处理设备500可以将其存储的预定文本和至少一段参考语音的参考韵律特征提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

其中，至少一段参考语音中的每一段参考语音的参考韵律特征，均可采用与上文中所描述的用户韵律特征的获取方式相同的处理方式来获得，并能够达到相类似的技术效果，这里不再赘述。

此外，本发明的实施例还提供了一种语音处理设备，该设备适于在计算机中执行，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；以及韵律计算单元，适于计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将计算到的各个分段多项式与预定文本相关联地发送至预定服务器，或根据计算到的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。

图6示出了根据本发明的实施例的语音处理设备600的一个示例。如图6所示，语音处理设备600包括参考语音接收单元610。可选地，语音处理设备还可以包括韵律计算单元620。

如图6所示，根据一种实现方式，当语音处理设备600只包括参考语音接收单元610时，可以通过参考语音接收单元610来接收特定用户(如以预定文本语言为母语的用户或与该语言相关的专业语言教师等)针对预定文本所录入的语音，作为参考语音，并将参考语音发送给预定服务器(如上文中结合图5所描述的数据处理设备500所驻留的服务器)。

此外，根据另一种实现方式，当语音处理设备600还可以包括韵律计算单元620，其可以计算参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。

在实际应用中，语音处理设备600可以对应于设置在计算机或其他终端上的教师客户端，例如以软件实现。

教师客户端的使用者可以针对预定文本中的每个语句录制标准语音，以作为参考语音发送给相应的服务器端，由服务器端执行后续处理。这种情况下，可以方便服务器通过互联网采集参考语音，而不需参与录制语音的处理，能够节省时间和操作。

此外，教师客户端也可以直接在本地对其录制的标准语音(即参考语音)进行处理分析，生成与该标准语音相对应的参数(如参考韵律特征)，并连同预定文本一起传输到服务器端存储，从而能够减少服务器端的处理负载。

另外，本发明的实施例还提供了一种移动终端，包括如上所述的基于韵律的语音质量评价设备。该移动终端例如可以是手机(如智能手机)或平板电脑等移动通信设备。此外，该移动终端可以具有上述基于韵律的语音质量评价设备所具有的功能，并能够达到相类似的技术效果，这里不再详述。

此外，本发明的实施例还提供了一种基于韵律的语音质量评价系统，该系统包括如上所述的基于韵律的语音质量评价设备200或400和如上所述的数据处理设备500。

根据一种实现方式，上述基于韵律的语音质量评价系统除了包括上述语音质量评价设备200或400和上述数据处理设备500之外，还可以选择性地包括如上所述的语音处理设备600。在这种实现方式中，语音质量评价系统中的语音质量评价设备200或400可以对应于设置于计算机或移动终端中的用户客户端，数据处理设备500可以对应于设置于服务器端，而语音处理设备600可以对应于教师客户端。在实际处理中，教师客户端可以向服务器端提供参考语音(可选地还可以提供参考语音的特征参数或参考韵律特征)，服务器用于存储这些信息和预定文本，而用户客户端则可以从服务器下载这些信息来分析用户输入的用户语音，以对其完成语音质量评价。处理的细节可以分别参考以上结合图2或4、图5以及图6所给出的描述，这里不再赘述。

此外，本发明的实施例还提供了一种基于韵律的语音质量评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；获取用户语音的用户韵律特征；以及基于预定文本对应的参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。

下面结合图7来描述上述基于韵律的语音质量评价方法的一种示例性处理。如图7所示，根据本发明一个实施例的基于韵律的语音质量评价方法的示例性处理流程700开始于步骤S710，然后，执行步骤S720。

在步骤S720中，接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。然后，执行步骤S730。其中，步骤S720中的处理例如可以与上文中结合图2所描述的用户语音接收单元220的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，预定文本和参考韵律特征是预先从预定服务器下载获得的。

根据另一种实现方式，预定文本是预先从预定服务器下载获得的，而参考韵律特征是利用与预定文本的各语句对应的参考语音的各语音段的基频曲线的、从预定服务器预先下载的分段多项式计算获得的。

在步骤S730中，获取用户语音的用户韵律特征。然后，执行步骤S740。其中，步骤S730中的处理例如可以与上文中结合图2所描述的特征获取单元230的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，在步骤S730中，例如可以利用预定声学模型将用户语音与预定文本进行强制对齐，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系，并基于对应关系获得用户语音的用户韵律特征。

其中，“基于对应关系获得用户语音的用户韵律特征”的步骤例如可以通过如下处理来实现：针对预定文本的每个语句：提取语句中每个词在用户语音中所对应的语音块的基频信息；对每个语音块的基频信息进行平滑处理；对平滑处理后的各基频信息进行多项式拟合，以获得关于时间与基频值的多个坐标对；以及基于获得的关于时间与基频值的多个坐标对，形成用户语音的韵律特征。

根据一种实现方式，提取语句中每个词在用户语音中所对应的语音块的基频信息的步骤可以通过如下方式实现：按单位时间间隔对每个语音块进行分割，以获得每个语音块的多个单位语音片段；以及通过对每个语音块的多个单位语音片段进行基频提取来获得该语音块的基频信息。

此外，根据一种实现方式，获得关于时间与基频值的多个坐标对的步骤可以通过如下方式实现：以平滑连接每个语句中每相邻两个词对应的两个语音块的首尾基频值为条件来进行多项式拟合，以确定与该语句对应的语音段的基频曲线的各个分段多项式；以及根据确定的各个分段多项式，确定关于时间与基频值的多个坐标对。

在步骤S740中，基于预定文本对应的参考韵律特征与用户韵律特征之间的相关性，计算用户语音的语音质量。其中，步骤S740中的处理例如可以与上文中结合图2所描述的语音质量计算单元240的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S750中结束处理流程700。

此外，根据另一种实现方式，在步骤S740之后，还可以选择性地包括如下步骤：可视化输出语音质量的计算结果。

其中，语音质量的计算结果可以包括：反映语音质量的分数；和/或用户韵律特征和参考韵律特征之间的差别。

通过以上描述可知，上述根据本发明的实施例的基于韵律的语音质量评价方法，其基于获取的用户语音的用户韵律特征和参考韵律特征之间的相关性，来计算用户语音的语音质量。由于该方法在计算用户语音的语音质量的过程中考虑了有关语音韵律的信息，因此能够使用户根据计算结果来获知自己所录制的语音在韵律方面的准确度，进而有利于用户判断是否需要纠正自己的说话韵律和/或发音韵律。

此外，上述根据本发明的实施例的基于韵律的语音质量评价方法对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价方法使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本；存储与预定文本对应的参考语音，或从外部接收并存储参考语音；以及获得参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与预定文本中的每个语句相关联地存储，或根据所获得的各个分段多项式获得参考语音的参考韵律特征并保存该参考韵律特征。

下面结合图8来描述上述数据处理方法的一种示例性处理。如图8所示，根据本发明一个实施例的数据处理方法的示例性处理流程800开始于步骤S810，然后，执行步骤S820。

在步骤S820中，存储预定文本和与预定文本对应的至少一段参考语音，或存储预定文本、并从外部接收并存储至少一段参考语音。然后，执行步骤S830。其中，步骤S820中的处理例如可以与上文中结合图5所描述的服务器存储单元510的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S830中，获得参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与预定文本中的每个语句相关联地存储，或根据所获得的各个分段多项式获得参考语音的参考韵律特征并保存该参考韵律特征。其中，步骤S830中的处理例如可以与上文中结合图5所描述的获得单元520的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S840中结束处理流程800。

此外，本发明的实施例还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音，作为参考语音，并将参考语音发送给预定服务器；或接收特定用户针对预定文本所录入的语音，作为参考语音，并获得参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。

下面结合图9来描述上述语音处理方法的一种示例性处理。如图9所示，根据本发明一个实施例的语音处理方法的示例性处理流程900开始于步骤S910，然后，执行步骤S920。

在步骤S920中，接收特定用户针对预定文本所录入的语音，作为参考语音。然后，执行步骤S930。

在步骤S930中，将参考语音发送给预定服务器。然后在步骤S940中结束处理流程900。

其中，处理流程900的处理例如可以与上文中结合图6所描述的参考语音接收单元610的处理相同，并能够达到相类似的技术效果，在此不再赘述。

此外，图10示出了上述语音处理方法的另一种示例性处理。如图10所示，根据本发明一个实施例的语音处理方法的示例性处理流程1000开始于步骤S1010，然后，执行步骤S1020。

在步骤S1020中，接收特定用户针对预定文本所录入的语音，作为参考语音。然后，执行步骤S1030。

根据一种实现方式，可以在步骤S1030中获得参考语音中与预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与预定文本相关联地发送至预定服务器。然后在步骤S1040中结束处理流程1000。

根据另一种实现方式，可以在步骤S1030中根据获得的各个分段多项式获得参考语音的参考韵律特征，以将参考韵律特征与预定文本相关联地发送至预定服务器。然后在步骤S1040中结束处理流程1000。

其中，处理流程1000的处理例如可以与上文中结合图6所描述的接收与获得单元620的处理相同，并能够达到相类似的技术效果，在此不再赘述。

A11：一种基于韵律的语音质量评价方法，包括如下步骤：接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；获取所述用户语音的用户韵律特征；以及基于所述预定文本对应的参考韵律特征与所述用户韵律特征之间的相关性，计算所述用户语音的语音质量。A12：根据A11所述的语音质量评价方法中，所述获取所述用户语音的用户韵律特征的步骤包括：利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系，并基于所述对应关系获得所述用户语音的用户韵律特征。A13：根据A12所述的语音质量评价方法中，所述基于所述对应关系获得所述用户语音的用户韵律特征的步骤包括：针对所述预定文本的每个语句：提取语句中每个词在所述用户语音中所对应的语音块的基频信息；对每个语音块的基频信息进行平滑处理；对平滑处理后的各基频信息进行多项式拟合，以获得关于时间与基频值的多个坐标对；以及基于获得的关于时间与基频值的多个坐标对，形成所述用户语音的韵律特征。A14：根据A13所述的语音质量评价方法中，每个语音块的基频信息通过如下方式进行提取：按单位时间间隔对每个语音块进行分割，以获得每个语音块的多个单位语音片段；以及通过对每个语音块的多个单位语音片段进行基频提取来获得该语音块的基频信息。A15：根据A13所述的语音质量评价方法中，所述对平滑处理后的各基频信息进行多项式拟合以获得关于时间与基频值的多个坐标对的步骤包括：以平滑连接每个语句中每相邻两个词对应的两个语音块的首尾基频值为条件来进行多项式拟合，以确定与该语句对应的语音段的基频曲线的各个分段多项式；以及根据确定的各个分段多项式，确定关于时间与基频值的多个坐标对。A16：根据A11所述的语音质量评价方法还包括：可视化输出所述语音质量的计算结果。A17：根据A16所述的语音质量评价方法中，所述语音质量的计算结果包括：反映所述语音质量的分数；和/或所述用户韵律特征和所述参考韵律特征之间的差别。A18：根据A11所述的语音质量评价方法中：所述预定文本和所述参考韵律特征是预先从预定服务器下载获得的；或所述预定文本是预先从预定服务器下载获得的，而所述参考韵律特征是利用与所述预定文本的各语句对应的参考语音的各语音段的基频曲线的、从预定服务器预先下载的分段多项式计算获得的。A19：一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本以及与所述预定文本对应的参考语音；以及计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与所述预定文本中的每个语句相关联地存储，或根据所获得的各个分段多项式获得所述参考语音的参考韵律特征并保存该参考韵律特征。A20：一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与所述预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得所述参考语音的参考韵律特征，以将所述参考韵律特征与所述预定文本相关联地发送至所述预定服务器。A21：一种移动终端，包括根据本发明的基于韵律的语音质量评价设备。A22:一种基于韵律的语音质量评价系统，包括根据本发明的基于韵律的语音质量评价设备和数据处理设备。A23:根据A22所述的语音质量评价系统，包括：根据本发明的基于韵律的语音质量评价设备；服务器；以及根据本发明的语音处理设备。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于韵律的语音质量评价设备，包括：

存储单元，适于存储预定文本和所述预定文本对应的参考韵律特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

用户语音接收单元，适于接收用户针对所述预定文本所录入的用户语音；

特征获取单元，适于获取所述用户语音的用户韵律特征；以及

语音质量计算单元，适于基于所述参考韵律特征与所述用户韵律特征之间的相关性，计算所述用户语音的语音质量；其中

所述特征获取单元包括：

对齐子单元，适于利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系；以及

特征计算子单元，适于基于所述对应关系计算所述用户语音的用户韵律特征，包括：

针对所述预定文本的每个语句：

提取语句中每个词在所述用户语音中所对应的语音块的基频信息；

对每个语音块的基频信息进行平滑处理；

对平滑处理后的各基频信息进行多项式拟合，以获得关于时间与基频值的多个坐标对；以及

基于获得的关于时间与基频值的多个坐标对，形成所述用户语音的韵律特征。

2.根据权利要求1所述的基于韵律的语音质量评价设备，其中，所述特征计算子单元适于：

按单位时间间隔对每个语音块进行分割，以获得每个语音块的多个单位语音片段；以及

通过对每个语音块的多个单位语音片段进行基频提取来获得该语音块的基频信息。

3.根据权利要求1所述的基于韵律的语音质量评价设备，其中，所述特征计算子单元适于：

以平滑连接每个语句中每相邻两个词对应的两个语音块的首尾基频值为条件来进行多项式拟合，以确定与该语句对应的语音段的基频曲线的各个分段多项式；以及

根据确定的各个分段多项式，确定关于时间与基频值的多个坐标对。

4.根据权利要求1所述的基于韵律的语音质量评价设备，还包括：

输出单元，适于可视化输出所述语音质量的计算结果。

5.根据权利要求4所述的基于韵律的语音质量评价设备，其中，所述输出单元适于输出如下结果来作为所述语音质量的计算结果：

反映所述语音质量的分数；和/或

所述用户韵律特征和所述参考韵律特征之间的差别。

6.根据权利要求1所述的基于韵律的语音质量评价设备，其中：

所述存储单元适于从预定服务器预先下载所述预定文本和所述参考韵律特征以用于存储；或

所述存储单元适于从预定的服务器预先下载所述预定文本以及与所述预定文本的各语句对应的参考语音的各语音段的基频曲线的、从预定服务器预先下载的分段多项式，并根据下载的所述分段多项式计算获得所述参考韵律特征以用于存储。

7.一种数据处理设备，该设备适于在服务器中执行，并包括：

服务器存储单元，适于存储预定文本以及与所述预定文本对应的参考语音；以及

韵律计算单元，适于计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与所述预定文本中的每个语句相关联地保存在所述服务器存储单元中，或根据所获得的各个分段多项式获得所述参考语音的参考韵律特征并将该参考韵律特征保存在所述服务器存储单元中；其中

适于利用预定声学模型将所述参考语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述参考语音的部分之间的对应关系；

以及

基于所述对应关系计算所述参考语音的参考韵律特征，包括：

针对所述预定文本的每个语句：

提取语句中每个词在所述参考语音中所对应的语音块的基频信息；

对每个语音块的基频信息进行平滑处理；

基于获得的关于时间与基频值的多个坐标对，形成所述参考语音的韵律特征。

8.一种语音处理设备，该设备适于在计算机中执行，并包括：

参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及

韵律计算单元，适于计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与所述预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得所述参考语音的参考韵律特征，以将所述参考韵律特征与所述预定文本相关联地发送至所述预定服务器；其中

以及

针对所述预定文本的每个语句：

对每个语音块的基频信息进行平滑处理；

9.一种基于韵律的语音质量评价方法，包括如下步骤：

接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

获取所述用户语音的用户韵律特征，包括：

利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系，

并基于所述对应关系获得所述用户语音的用户韵律特征，包括：

针对所述预定文本的每个语句：

对每个语音块的基频信息进行平滑处理；

对平滑处理后的各基频信息进行多项式拟合，以获得关于时间与基频值的多个坐标对；

基于获得的关于时间与基频值的多个坐标对，形成所述用户语音的韵律特征；以及

基于所述预定文本对应的参考韵律特征与所述用户韵律特征之间的相关性，计算所述用户语音的语音质量。

10.根据权利要求9所述的语音质量评价方法，其中，每个语音块的基频信息通过如下方式进行提取：

11.根据权利要求9所述的语音质量评价方法，其中，所述对平滑处理后的各基频信息进行多项式拟合以获得关于时间与基频值的多个坐标对的步骤包括：

12.根据权利要求9所述的语音质量评价方法，还包括：可视化输出所述语音质量的计算结果。

13.根据权利要求12所述的语音质量评价方法，其中，所述语音质量的计算结果包括：

反映所述语音质量的分数；和/或

所述用户韵律特征和所述参考韵律特征之间的差别。

14.根据权利要求9所述的语音质量评价方法，其中：

所述预定文本和所述参考韵律特征是预先从预定服务器下载获得的；或

所述预定文本是预先从预定服务器下载获得的，而所述参考韵律特征是利用与所述预定文本的各语句对应的参考语音的各语音段的基频曲线的、从预定服务器预先下载的分段多项式计算获得的。

15.一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：

存储预定文本以及与所述预定文本对应的参考语音；以及

计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，并将所获得的各个分段多项式与所述预定文本中的每个语句相关联地存储，或根据所获得的各个分段多项式获得所述参考语音的参考韵律特征并保存该参考韵律特征；其中

以及

针对所述预定文本的每个语句：

对每个语音块的基频信息进行平滑处理；

16.一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：

接收特定用户针对预定文本所录入的语音作为参考语音，并将所述参考语音发送给预定服务器；以及

计算所述参考语音中与所述预定文本的每个语句对应的语音段的基频曲线的各个分段多项式，以将获得的各个分段多项式与所述预定文本相关联地发送至预定服务器，或根据获得的各个分段多项式获得所述参考语音的参考韵律特征，以将所述参考韵律特征与所述预定文本相关联地发送至所述预定服务器；其中

以及

针对所述预定文本的每个语句：

对每个语音块的基频信息进行平滑处理；

17.一种移动终端，包括如权利要求1-6中任一项所述的基于韵律的语音质量评价设备。

18.一种基于韵律的语音质量评价系统，包括如权利要求1-6中任一项所述的基于韵律的语音质量评价设备和如权利要求7所述的数据处理设备。

19.根据权利要求18所述的语音质量评价系统，包括：

如权利要求1-6中任一项所述的基于韵律的语音质量评价设备；

服务器；以及

如权利要求8所述的语音处理设备。