CN104485116A

CN104485116A - 语音质量评价设备、方法和系统

Info

Publication number: CN104485116A
Application number: CN201410736334.5A
Authority: CN
Inventors: 林晖
Original assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-04-01
Anticipated expiration: 2034-12-04
Also published as: CN109872727B; CN104485116B; CN109872727A

Abstract

本发明提供了一种基于重音的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端，以克服现有的语音技术在评价用户的发音情况时未考虑有关语音重音的信息的问题。语音质量评价设备包括：存储单元，适于存储预定文本和预定文本对应的参考重音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户重音特征；以及语音质量计算单元，适于基于参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。本发明的上述技术可应用于语音技术领域。

Description

语音质量评价设备、方法和系统

技术领域

本发明涉及语音技术领域，尤其涉及一种基于重音的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法，以及移动终端。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，并根据学习材料的指示而在客户端上进行操作，例如输入文字、输入语音或者进行选择等，并获得反馈，从而提高自己的语言能力。

对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。对于每种语言来说，在不同的场景下说话时往往具有不同的说话重音，例如，不同的语句和不同的单词都具有根据场景而改变的重音。一般来说，重音是指在一整句话中应当重读哪些单词(下文称为说话重音)，或者在一个单词中应当对哪个音节进行重读(下文称为发音重音)。因此，用户在学习用该语言说话时，还需要学习这种说话和/或发音的重读。

在现有的语音技术中，用户通过客户端的录音设备录制语音，系统根据与该语音相对应的文本，对用户录制的语音进行拆分，并逐个单词地就用户的语音和现有声学模型进行比较，从而向用户提供该单词读音是否正确的反馈。然而，现有的这种语音技术在评价用户的发音情况时忽略了有关语音重音方面的信息，因此也不能够让学习者学习说话重音和/或发音重音。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种基于重音的语音质量评价设备、方法和系统，数据处理设备和方法，语音处理设备和方法以及移动终端，以至少解决现有的语音技术在评价用户的发音情况时忽略了有关语音重音的信息的问题。

根据本发明的一个方面，提供了一种基于重音的语音质量评价设备，包括：存储单元，适于存储预定文本和预定文本对应的参考重音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户重音特征；以及语音质量计算单元，适于基于参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理设备，该设备适于在服务器中执行，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的至少一段参考语音；以及重音计算单元，适于根据参考语音计算该段参考语音的特征参数，或根据该特征参数计算至少一段参考语音的参考重音特征以保存在服务器存储单元中。

根据本发明的另一个方面，还提供了一种语音处理设备，该设备适于在计算机中执行，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音；以及重音计算单元，适于根据参考语音计算参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器，或根据该特征参数获得参考语音的参考重音特征、以将参考重音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种基于重音的语音质量评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；获取用户语音的用户重音特征；以及基于预定文本对应的参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。

根据本发明的另一个方面，还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本和与预定文本对应的至少一段参考语音；以及根据该参考语音计算该段参考语音的特征参数以保存，或根据该特征参数获得至少一段参考语音的参考重音特征以保存。

根据本发明的另一个方面，还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音；以及根据该参考语音计算参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器，或根据该特征参数计算参考语音的参考重音特征、以将参考重音特征与预定文本相关联地发送至预定服务器。

根据本发明的另一个方面，还提供了一种移动终端，包括如上所述的基于重音的语音质量评价设备。

根据本发明的又一个方面，还提供了一种基于重音的语音质量评价系统，包括如上所述的基于重音的语音质量评价设备和如上所述的数据处理设备。

上述根据本发明实施例的基于重音的语音质量评价方案，其基于获取的用户语音的用户重音特征和参考重音特征之间的相关性，来计算用户语音的语音质量，能够获得至少以下益处之一：在计算用户语音的语音质量的过程中考虑了有关语音重音的信息，能够使用户根据计算结果来获知自己所录制的语音在重音方面的准确度，进而有利于用户判断是否需要纠正自己的说话重音和/或发音重音；对用户语音的计算和评价在客户端计算机或客户端移动终端上完成，使用户可以进行离线学习；计算量较小；节省时间；操作更加简单、方便；以及当用户重音特征的表示形式改变时，能够方便地将根据参考语音的重音信息所计算的参考重音特征表示成与用户重音特征相同的形式，使得语音质量评价设备的处理更加灵活、方便，实用性更强。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出移动终端100的结构框图；

图2是示意性地示出根据本发明一个实施例的基于重音的语音质量评价设备200的一种示例性结构的框图；

图3是示意性地示出图2所示的特征获取单元230的一种可能结构的框图；

图4是示意性地示出根据本发明另一个实施例的基于重音的语音质量评价设备400的一种示例性结构的框图；

图5是示意性地示出根据本发明一个实施例的数据处理设备500的一种示例性结构的框图；

图6是示意性地示出根据本发明一个实施例的语音处理设备600的一种示例性结构的框图；

图7是示意性地示出根据本发明的实施例的基于重音的语音质量评价方法的一种示例性处理的流程图；

图8是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图；

图9是示意性地示出根据本发明的实施例的语音处理方法的一种示例性处理的流程图；以及

图10是示意性地示出根据本发明的实施例的语音处理方法的另一种示例性处理的流程图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的实施例所提供利用了一种基于重音的语音质量评价设备，该设备包括：存储单元，适于存储预定文本和预定文本对应的参考重音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；特征获取单元，适于获取用户语音的用户重音特征；以及语音质量计算单元，适于基于参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。

根据本发明的实施例的上述基于重音的语音质量评价设备可以是在传统的桌面型或者膝上型计算机(未示出)等中执行处理的应用，也可以是在移动终端(如图1所示)中执行处理的客户端应用(如图1所示的移动终端100中的应用154的一种)，或者也可以是在上述传统的桌面型、膝上型计算机用户或移动终端上通过浏览器来访问的网页应用等。

图1是移动终端100的结构框图。具有多点触摸能力的移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及外围接口106。

存储器接口102、一个或多个处理器104和/或外围接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口106，以便帮助实现多种功能。例如，运动传感器110、光传感器112和距离传感器114可以耦合到外围接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与外围接口106相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。

可以通过一个或多个无线通信子系统124来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BlueboothTM网络的通信子系统124。

音频子系统126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。

I/O子系统140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。

触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。

存储器150可以存储操作系统152，例如Android、IOS或是WindowsPhone之类的操作系统。该操作系统152可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器150还可以存储应用154。这些应用在操作时，会从存储器150加载到处理器104上，并在已经由处理器104运行的操作系统之上运行，并利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。应用可以是独立于操作系统提供的，也可以是操作系统自带的。应用154包括根据本发明的语音质量评价设备200。

图2示出了根据本发明的实施例的基于重音的语音质量评价设备200的一个示例。如图2所示，语音质量评价设备200包括存储单元210、用户语音接收单元220、特征获取单元230以及语音质量计算单元240。

如上文所述，语音质量评价设备200适于在计算机或移动终端中执行，其中，移动终端例如可以是手机(如智能手机)或平板电脑等移动通信设备。

存储单元210例如可以是移动终端中的存储器150，其可以存储移动终端中的数据、信息、参数等内容。在该实施例中，将预先从例如预定服务器下载的预定文本和与预定文本对应的参考重音特征存储在存储单元210中。其中，预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。其中，语句中的每个词通常可以包括多个字母或至少一个文字。这里所说的预定服务器例如可以是下文中结合图5所描述的数据处理设备500所驻留的服务器。这种方式下的计算量较小，不需要额外花费时间来计算参考重音特征，能够节省时间，操作也更加简单、方便。

根据一种实现方式，预定文本的语言例如是诸如英语之类的、词由字母构成的语言时，预定文本除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。需要说明的是，虽然以上举例所描述的为预定文本的语言是英语的情况，但实际预定文本的语言并不限于英语，可以是汉语、法语或德语等任意一种语言。

此外，根据其他实现方式，存储单元210所存储的参考重音特征也可以是通过本地计算获得的。例如，可以从预定服务器预先下载预定文本以及至少一段参考语音的特征参数，并根据该特征参数来计算获得参考重音特征，并保存在存储单元210中。在这种方式下，当用户重音特征的表示形式改变时，能够方便地将根据参考语音的特征参数所计算的参考重音特征表示成与用户重音特征相同的形式，使得语音质量评价设备200的处理更加灵活、方便，实用性更强。需要说明的是，根据参考语音的特征参数来计算参考重音特征的过程可以参考下文中结合图5描述的处理过程，这里不再详述。

这里，参考语音可以是由特定用户(例如以预定文本的语言为母语的用户、或与预定文本的语言相关的专业语言教师等)预先针对该预定文本录制的语音。特征参数可以是关于一段参考语音的，也可以是关于多段参考语音的。多段参考语音的参考重音特征可以是通过对各段参考语音的参考重音特征求平均后获得的。

当用户启动语音质量评价设备200时，如上所述，存储单元210中已存有上述预定文本和与该预定文本对应的参考重音特征。然后，通过诸如移动终端100的触摸屏146之类的显示装置，向用户呈现待录入的语音所对应的文本内容(即上述预定文本)，并提示用户录制相应的语音。这样，用户能够通过诸如移动终端100的麦克风130等输入装置来录入相应的语音，作为用户语音，并由用户语音接收单元220来接收该用户语音。

然后，用户语音接收单元220将其接收到的用户语音转发给特征获取单元230，并由特征获取单元230来获取该用户语音的用户重音特征。

图3示出了特征获取单元230的一种可能的示例结构。在该示例中，特征获取单元230可以包括对齐子单元310和特征计算子单元320。

如图3所示，对齐子单元310可以利用预定声学模型(acoustic model)将用户语音与预定文本进行强制对齐(force alignment)，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系。一般而言，声学模型是通过大量的母语发音人的录音训练而成的，利用声学模型可以计算输入语音对应于已知文字的可能性，进而能够将输入语音与已知文字进行强制对齐。这里，“输入语音”可以是用户语音或者下文中将提到的参考语音，而“已知文字”可以是预定文本。

其中，可以参考http://mi.eng.cam.ac.uk/～mjfg/ASRU_talk09.pdf中的相关资料来获知声学模型的相关技术，以及可以参考http://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html和http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf中的相关资料来获知强制对齐的相关技术，或者也可以利用其他现有技术，这里不再详述。

此外，需要说明的是，通过将用户语音与预定文本之间进行强制对齐，可以确定预定文本中的每个语句与用户语音的部分语音(比如某个语音段)之间的对应关系，也即，可以在用户语音中确定与预定文本中的每个语句相对应的语音段。

除此之外，如上所述，通过强制对齐还可以根据需要来获得以下三种对应关系中的任意一种或多种：预定文本中的每个词与用户语音的部分语音(比如某个语音块)之间的对应关系；预定文本中的每个词中的每个音节与用户语音的部分语音(比如某个语音块)之间的对应关系；以及预定文本中的每个词中的每个音节的每个音素与用户语音的部分语音(比如某个语音块)之间的对应关系。

这样，基于对齐子单元310确定的对应关系，特征计算子单元320可以计算用户语音的用户重音特征。

例如，针对预定文本中的每个语句，特征计算子单元320可以基于上述确定的对应关系来获取该语句中的每个词和/或每个词中的每个音节在用户语音中对应的语音块的特征参数，然后利用经过训练的预定专家模型和以上获得的每个语音块的特征参数来获得每个语音块的重读属性(即是否重读)。

根据一种实现方式，每个语音块可以包括一段声波，而每个语音块的特征参数例如可以包括如下参数中的至少一种：该语音块对应声波波形的波峰和波谷；该语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值；该语音块的持续时长或该语音块的归一化的持续时长；从该语音块中获得的音调信息(即基频信息)的平均值；对从该语音块中获得的音调信息进行差分而得到的差分值的平均值；以及通过将从该语音块中获得的音调信息的形状和预定义的多个音调模型进行关联度计算而得到的多个关联值。

在一个例子中，每个语音块的特征参数可以包括如下参数：该语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值；该语音块的持续时长或该语音块的归一化的持续时长；以及从该语音块中获得的音调信息的平均值。通过获得每个语音块的上述三种参数来进行后续的计算，计算量相对较小，而且由于对于重音特征来说，以上三种参数对重音特征的计算贡献度最大，所计算的重音特征相对利用其他特征参数计算的重音特征也更为准确。

其中，上述多个关联值例如可以通过对音调模型升/降采样而得到与输入音调(即从该语音块中获得的音调信息)输入相同点数的序列、然后再对两个序列进行关联度计算而获得，其中关联度计算的技术细节可以参考http://en.wikipedia.org/wiki/Correlation_and_dependence的公开资料。

这样，针对每个语句中的每个词或每个词中的每个音节来说，将该词或该音节在用户语音中对应的语音块的各种特征参数值所组成的信息(比如这些特征参数值组成的特征向量)，来作为该语音块的特征参数信息，然后，将该词或该音节对应的特征参数信息输入到上述经过训练的专家模型中，即可得到该词或该音节是否被重读的结论。需要说明的是，上述专家模型可以根据现有技术来进行训练获得，这里不再赘述。

例如，对于某个词或某个音节来说，如果判定该词或该音节被重读(即是重音)，则可以用“1”作为该词或该音节的重读属性值；而如果判定该词或该音节未被重读(即是非重音)，则可以用“0”作为该词或该音节的重读属性值。这样，可以利用每个语句中各词在用户语音中对应的语音块的重读属性值构成的向量来作为该语句在用户语音中对应的语音段的重音特征。

对于整个用户语音来说，利用每个语句在用户语音中对应的语音段的重音特征可以形成用户语音的重音特征，即，可以形成用户重音特征。

由此，基于预先存储的参考重音特征与计算获得的用户重音特征之间的相关性，语音质量计算单元240能够计算用户语音的语音质量。

根据一种实现方式，语音质量计算单元240可以基于用户重音特征与参考重音特征之间的相关性，并根据该相关性获得用于描述用户语音的语音质量的分数。

在一个例子中，假设针对预定文本中的语句A，得到语句A在用户语音中对应语音段的用户重音特征为(1，0，0)(即语句A中所包括的三个词的重读属性依次分别为重读、非重读和非重读)，而语句A在参考语音中对应语音段的参考重音特征为(0，0，1)，则可以通过计算得到用户重音特征(1，0，0)与参考重音特征(0，0，1)之间的相似度，并将该相似度作为描述该用户语音的语音质量的分数。也就是说，计算的用户重音特征与参考重音特征之间的相似度越高，用户语音的语音质量也越高。

此外，在另一个例子中，还可以计算基于用户重音特征与参考重音特征之间的相关性计算二者之间的距离，并根据该距离获得用于描述用户语音的语音质量的分数。例如，可以将距离的倒数作为描述用户语音的语音质量的分数。也就是说，计算的用户重音特征与参考重音特征之间的距离越大，用户语音的语音质量越差。

需要说明的是，对于本领域的技术人员来说，可以根据公知常识和/或公开资料来实现向量间相似度或向量间距离的计算，故这里不再详述。

此外，需要说明的是，如果存储单元210中存储的参考重音特征未表示成与用户重音特征的形式(比如向量的形式)相同的形式，则可以首先将其表示成与之相同的形式，再计算二者之间的相似度或距离等。

另外，还需要说明的是，语音质量计算单元240可以逐句计算用户重音特征与参考重音特征之间的相关性(即相似度或距离)，再逐句获得预定文本每个语句在用户语音中对应的语音段的质量分数(也即依次获得用户语音中与预定文本每个语句对应的逐个语音段的质量分数)。此外，语音质量计算单元240还可以选择性地获得描述整个用户语音的质量分数，即，利用预定文本各个语句在用户语音中对应的语音段的质量分数的加权和或加权平均值作为整个用户语音的质量分数。其中，每个语音的权重可以根据经验值或通过试验的方式来确定。

下面结合图4来描述根据本发明的实施例的基于重音的语音质量评价设备的另一个示例。

在如图4所示的例子中，语音质量评价设备400除了包括存储单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440之外，还包括输出单元450。其中，图4所示的语音质量评价设备400中的存储单元410、用户语音接收单元420、特征获取单元430以及语音质量计算单元440可以分别具有与上文中结合图2所描述的语音质量评价设备200中的对应单元相同的结构和功能，并能够达到相类似的技术效果，这里不再赘述。

输出单元450可以可视化输出语音质量的计算结果，例如，可以通过诸如移动终端100的触摸屏146之类的显示装置向用户呈现上述语音质量的计算结果。

根据一种实现方式，输出单元450可以输出反映语音质量的分数来作为语音质量的计算结果。

例如，输出单元450可以可视化地输出(比如逐句输出)反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数。这样，用户能够获知自己所说的每句话的说话重音和/或发音重音的准确性，尤其当某一句的分数较低时，用户能够立刻意识到该句的重音需要纠正，学习更有针对性。

又如，输出单元450可以可视化地输出反映整个用户语音的语音质量的分数。这样，用户能够整体感知自己所说的一段语音的重音是否准确。

此外，在其他例子中，输出单元450也可以同时可视化地输出反映用户语音中与预定文本每个语句对应的每个语音段的语音质量的分数、以及反映整个用户语音的语音质量的分数。

根据另一种实现方式，输出单元450可以可视化地输出用户重音特征和参考重音特征之间的差别来作为语音质量的计算结果。

例如，输出单元450可以将参考语音和用户语音用平行的两行来表示，其中加粗显示表示某个词或者某个词中的音节为重读，如果重音位置相同，则以一般方式，例如绿色来显示；如果重音位置不同，则强调显示该重音，例如以红色来显示。

这样，通过输出单元450的输出显示，用户能够方便地获知自己的说话重音和/或发音重音与标准语音(即这里的参考语音)的说话重音和/或发音重音之间的差别，差别有多大等，从而能够更有针对性、更准确地纠正自己的说话重音和/或发音重音。

根据其他实现方式，输出单元450也可以同时可视化地输出反映语音质量的分数以及用户重音特征和参考重音特征之间的差别来作为语音质量的计算结果，该实现方式的具体细节可以参考关于以上两种实现方式的描述，这里不再赘述。

通过以上描述可知，上述根据本发明的实施例的基于重音的语音质量评价设备，其基于获取的用户语音的用户重音特征和参考重音特征之间的相关性，来计算用户语音的语音质量。由于该设备在计算用户语音的语音质量的过程中考虑了有关语音重音的信息，因此能够使用户根据计算结果来获知自己所录制的语音在重音方面的准确度，进而有利于用户判断是否需要纠正自己的说话重音和/或发音重音。

此外，上述根据本发明的实施例的基于重音的语音质量评价设备对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价设备使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理设备，该设备适于在服务器中执行，并包括：服务器存储单元，适于存储预定文本以及与预定文本对应的至少一段参考语音；以及重音计算单元，适于根据该参考语音计算参考语音的特征参数以保存在服务器存储单元中，或根据该特征参数获得至少一段参考语音的参考重音特征以保存在服务器存储单元中。

图5示出了根据本发明的实施例的数据处理设备500的一个示例。如图5所示，数据处理设备500包括服务器存储单元510和重音计算单元520。

数据处理设备500例如可以实现为驻留在服务器上的应用。服务器例如可以包括web服务器，其可以利用http协议和用户客户端(例如上文所描述的语音质量评价设备200或400)进行通信，但不受限于此。

服务器存储单元510可以存储各种语言学习材料的文本材料，即预定文本。其中，对于每种语言来说，服务器存储单元510除了可以存储预定文本之外，还可以存储与预定文本对应的至少一段参考语音、或者可以从例如下文将要描述的语音处理设备600等外部设备接收并存储至少一段参考语音。应当理解的是，这里所说的预定文本和上文所说的预定文本类似，除了包括一个或多个语句、以及每个语句的一个或多个词这些文本内容之外，还可以选择性地包括每个词的音节和/或音素等信息(例如预定文本的语言是诸如英语之类的、词由字母构成的语言时)，以及每个词的音节和/或音素等信息与构成该词的字母之间的对应关系。

然后，重音计算单元520可以通过计算来获得至少一段参考语音的特征参数，以将该特征参数保存在服务器存储单元510中。其中，获得参考语音的特征参数的过程可以和上文中所描述的获得用户语音的特征参数的过程相类似，以下将举例说明，并省略了部分相同内容的描述。

根据一种实现方式，重音计算单元520可以将获得的至少一段参考语音的特征参数保存在服务器存储单元510中。在这种实现方式中，在后续处理中，数据处理设备500可以将其存储的预定文本和至少一段参考语音的特征参数提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

此外，根据另一种实现方式，重音计算单元520也可以根据获得的至少一段参考语音的特征参数来获得该至少一段参考语音的参考重音特征，并将获得的参考重音特征保存在服务器存储单元510中。在这种实现方式中，在后续处理中，数据处理设备500可以将其存储的预定文本和至少一段参考语音的参考重音特征提供给用户客户端(例如上文所描述的语音质量评价设备200或400)。

其中，至少一段参考语音中的每一段参考语音的参考重音特征，均可采用与上文中所描述的用户重音特征的获取方式相同的处理方式来获得，并能够达到相类似的技术效果，这里不再赘述。

需要说明的是，根据本发明的实施例的数据处理设备500中执行的与上文中结合图2或图4所描述的基于重音的语音质量评价设备200或400相同部分的处理，能够获得与之相似的技术效果，这里不再一一赘述。

此外，本发明的实施例还提供了一种语音处理设备，该设备适于在计算机中执行，并包括：参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器。该语言处理设备还可以包括重音计算单元，适于根据参考语音计算该参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器，或根据该特征参数获得参考语音的参考重音特征、以将参考重音特征与预定文本相关联地发送至预定服务器。

图6示出了根据本发明的实施例的语音处理设备600的一个示例。如图6所示，语音处理设备600包括参考语音接收单元610。可选地，该语音处理设备600还可以包括重音计算单元620。

如图6所示，根据一种实现方式，当语音处理设备600只包括参考语音接收单元610时，可以通过参考语音接收单元610来接收特定用户(如以预定文本语言为母语的用户或与该语言相关的专业语言教师等)针对预定文本所录入的语音，作为参考语音，并将参考语音发送给预定服务器(如上文中结合图5所描述的数据处理设备500所驻留的服务器)。

此外，根据另一种实现方式，当语音处理设备600还可以包括重音计算单元620。重音计算单元620根据参考语音接收单元610接收的参考语音来计算参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器，或根据该特征参数获得参考语音的参考重音特征(该过程可以参考上文中的相关描述)、以将参考重音特征与预定文本相关联地发送至预定服务器。

在实际应用中，语音处理设备600可以对应于设置在计算机或其他终端上的教师客户端，例如以软件实现。

教师客户端的使用者可以针对预定文本中的每个语句录制标准语音，以作为参考语音发送给相应的服务器端，由服务器端执行后续处理。这种情况下，可以方便服务器通过互联网采集参考语音，而不需参与录制语音的处理，能够节省时间和操作。

此外，教师客户端也可以直接在本地对其录制的标准语音(即参考语音)进行处理分析，生成与该标准语音相对应的参数(如参考重音特征)，并连同预定文本一起传输到服务器端存储，从而能够减少服务器端的处理负载。

另外，本发明的实施例还提供了一种移动终端，包括如上所述的基于重音的语音质量评价设备。该移动终端可以具有上述基于重音的语音质量评价设备200或400所具有的功能，并能够达到相类似的技术效果，这里不再详述。

此外，本发明的实施例还提供了一种基于重音的语音质量评价系统，该系统包括如上所述的基于重音的语音质量评价设备200或400和如上所述的数据处理设备500。

根据一种实现方式，语音质量评价系统除了包括上述语音质量评价设备200或400和上述数据处理设备500之外，还可以选择性地包括如上所述的语音处理设备600。在这种实现方式中，语音质量评价系统中的语音质量评价设备200或400可以对应于设置于计算机或移动终端中的用户客户端，数据处理设备500可以对应于设置于服务器端，而语音处理设备600可以对应于教师客户端。在实际处理中，教师客户端可以向服务器端提供参考语音(可选地还可以提供参考语音的特征参数或参考重音特征)，服务器用于存储这些信息和预定文本，而用户客户端则可以从服务器下载这些信息来分析用户输入的用户语音，以对其完成语音质量评价。处理的细节可以分别参考以上结合图2或4、图5以及图6所给出的描述，这里不再赘述。

此外，本发明的实施例还提供了一种基于重音的语音质量评价方法，该方法包括如下步骤：接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；获取用户语音的用户重音特征；以及基于预定文本对应的参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。

下面结合图7来描述上述基于重音的语音质量评价方法的一种示例性处理。如图7所示，根据本发明一个实施例的基于重音的语音质量评价方法的示例性处理流程700开始于步骤S710，然后，执行步骤S720。

在步骤S720中，接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词。然后，执行步骤S730。其中，步骤S720中的处理例如可以与上文中结合图2所描述的用户语音接收单元220的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，预定文本和参考重音特征是预先从预定服务器下载获得的。

根据另一种实现方式，预定文本是预先从预定服务器下载获得的，而参考重音特征是根据从预定服务器预先下载的至少一段参考语音的特征参数计算获得的。

在步骤S730中，获取用户语音的用户重音特征。然后，执行步骤S740。其中，步骤S730中的处理例如可以与上文中结合图2所描述的特征获取单元230的处理相同，并能够达到相类似的技术效果，在此不再赘述。

根据一种实现方式，在步骤S730中，例如可以利用预定声学模型将用户语音与预定文本进行强制对齐，以确定预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与用户语音的部分之间的对应关系，并基于对应关系获得用户语音的用户重音特征。

其中，“基于对应关系获得用户语音的用户重音特征”的步骤例如可以通过如下方式来实现：针对预定文本的每个语句：基于对应关系，获取每个词和/或每个词中的每个音节在用户语音中所对应的语音块的特征参数；以及利用经过训练的预定专家模型以及每个语音块的特征参数，获得每个语音块的重读属性。然后，基于所获得的各语句的各词和/或各词中的各个音节对应的语音块的重读属性，形成用户语音的重音特征。

根据一种实现方式，每个语音块包括一段声波，且该语音块的特征参数包括以下参数中的至少一种：该语音块对应声波波形的波峰和波谷；该语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值；该语音块的持续时长或该语音块的归一化的持续时长；从该语音块中获得的音调信息的平均值；对从该语音块中获得的音调信息进行差分而得到的差分值的平均值；以及通过将从该语音块中获得的音调信息的形状和预定义的多个音调模型进行关联度计算而得到的多个关联值。

在步骤S740中，基于预定文本对应的参考重音特征与用户重音特征之间的相关性，计算用户语音的语音质量。其中，步骤S740中的处理例如可以与上文中结合图2所描述的语音质量计算单元240的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S750中结束处理流程700。

此外，根据另一种实现方式，在步骤S740之后，还可以选择性地包括如下步骤：可视化输出语音质量的计算结果。

其中，语音质量的计算结果可以包括：反映语音质量的分数；和/或用户重音特征和参考重音特征之间的差别。

通过以上描述可知，上述根据本发明的实施例的基于重音的语音质量评价方法，其基于获取的用户语音的用户重音特征和参考重音特征之间的相关性，来计算用户语音的语音质量。由于该方法在计算用户语音的语音质量的过程中考虑了有关语音重音的信息，因此能够使用户根据计算结果来获知自己所录制的语音在重音方面的准确度，进而有利于用户判断是否需要纠正自己的说话重音和/或发音重音。

此外，上述根据本发明的实施例的基于重音的语音质量评价方法对应于用户客户端，其对用户语音的计算和评价是在客户端计算机或客户端移动终端上完成的，而现有的语音技术通常是在服务器端完成对用户语音的计算和评价的，本发明的语音质量评价方法使用户可以进行离线学习(已下载存储学习材料的情况下)，而无需像现有技术那样必须进行在线学习。

此外，本发明的实施例还提供了一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本和与预定文本对应的至少一段参考语音；以及根据参考语音来计算该参考语音的特征参数以保存，或根据该特征参数计算至少一段参考语音的参考重音特征以保存。

下面结合图8来描述上述数据处理方法的一种示例性处理。如图8所示，根据本发明一个实施例的数据处理方法的示例性处理流程800开始于步骤S810，然后，执行步骤S820。

在步骤S820中，存储预定文本和与预定文本对应的至少一段参考语音，或存储预定文本、并从外部接收并存储至少一段参考语音。然后，执行步骤S830。其中，步骤S820中的处理例如可以与上文中结合图5所描述的服务器存储单元510的处理相同，并能够达到相类似的技术效果，在此不再赘述。

在步骤S830中，计算至少一段参考语音的特征参数以保存，或根据该特征参数计算至少一段参考语音的参考重音特征以保存。其中，步骤S830中的处理例如可以与上文中结合图5所描述的获得单元520的处理相同，并能够达到相类似的技术效果，在此不再赘述。然后，在步骤S840中结束处理流程800。

此外，本发明的实施例还提供了一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音，并将参考语音发送给预定服务器；或根据该参考语音计算参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器，或根据该特征参数获得参考语音的参考重音特征、以将参考重音特征与预定文本相关联地发送至预定服务器。

下面结合图9来描述上述语音处理方法的一种示例性处理。如图9所示，根据本发明一个实施例的语音处理方法的示例性处理流程900开始于步骤S910，然后，执行步骤S920。

在步骤S920中，接收特定用户针对预定文本所录入的语音，作为参考语音。然后，执行步骤S930。

在步骤S930中，将参考语音发送给预定服务器。然后在步骤S940中结束处理流程900。

其中，处理流程900的处理例如可以与上文中结合图6所描述的参考语音接收单元610的处理相同，并能够达到相类似的技术效果，在此不再赘述。

此外，图10示出了上述语音处理方法的另一种示例性处理。如图10所示，根据本发明一个实施例的语音处理方法的示例性处理流程1000开始于步骤S1010，然后，执行步骤S1020。

在步骤S1020中，接收特定用户针对预定文本所录入的语音，作为参考语音。然后，执行步骤S1030。

根据一种实现方式，可以在步骤S1030中获得参考语音的特征参数，以将该特征参数与预定文本相关联地发送至预定服务器。然后在步骤S1040中结束处理流程1000。

根据另一种实现方式，可以在步骤S1030中根据该特征参数获得参考语音的参考重音特征、以将参考重音特征与预定文本相关联地发送至预定服务器。然后在步骤S1040中结束处理流程1000。

其中，处理流程1000的处理例如可以与上文中结合图6所描述的接收与获得单元620的处理相同，并能够达到相类似的技术效果，在此不再赘述。

A11：根据本发明的语音质量评价方法中，所述获取所述用户语音的用户重音特征的步骤包括：利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系，并基于所述对应关系获得所述用户语音的用户重音特征。A12：根据A11所述的语音质量评价方法中，所述基于所述对应关系获得所述用户语音的用户重音特征的步骤包括：针对所述预定文本的每个语句：基于所述对应关系，获取每个词和/或每个词中的每个音节在所述用户语音中所对应的语音块的特征参数，以及利用经过训练的预定专家模型以及每个语音块的特征参数，获得每个语音块的重读属性；以及基于所获得的各语句的各词和/或各词中的各个音节对应的语音块的重读属性，形成所述用户语音的重音特征。A13：根据A12所述的语音质量评价方法中，每个语音块包括一段声波，且该语音块的特征参数包括以下参数中的至少一种：该语音块对应声波波形的波峰和波谷；该语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值；该语音块的持续时长或该语音块的归一化的持续时长；从该语音块中获得的音调信息的平均值；对从该语音块中获得的音调信息进行差分而得到的差分值的平均值；以及通过将从该语音块中获得的音调信息的形状和预定义的多个音调模型进行关联度计算而得到的多个关联值。A14：根据本发明的语音质量评价方法，还包括：可视化输出所述语音质量的计算结果。A15：根据A14所述的语音质量评价方法中，所述语音质量的计算结果包括：反映所述语音质量的分数；和/或所述用户重音特征和所述参考重音特征之间的差别。A16：根据本发明的语音质量评价方法中，所述预定文本和所述参考重音特征是预先从预定服务器下载获得的；或所述预定文本是预先从预定服务器下载获得的，而所述参考重音特征是根据从预定服务器预先下载的至少一段参考语音的特征参数计算获得的。A17：一种数据处理方法，该方法适于在服务器中执行，并包括如下步骤：存储预定文本；存储与所述预定文本对应的至少一段参考语音；以及计算所述至少一段参考语音的特征参数以保存，和/或根据该特征参数计算所述至少一段参考语音的参考重音特征以保存。A18：一种语音处理方法，该方法适于在计算机中执行，并包括如下步骤：接收特定用户针对预定文本所录入的语音作为参考语音；以及根据所述参考语音计算所述参考语音的特征参数，以将该特征参数与所述预定文本相关联地发送至预定服务器，和/或根据该特征参数计算所述参考语音的参考重音特征、以将所述参考重音特征与所述预定文本相关联地发送至所述预定服务器。A19：一种移动终端，包括根据本发明的基于重音的语音质量评价设备。A20:一种基于重音的语音质量评价系统，包括根据本发明的基于重音的语音质量评价设备和数据处理设备。A21:一种基于重音的语音质量评价系统，包括根据本发明的基于重音的语音质量评价设备；服务器；以及根据本发明的语音处理设备。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于重音的语音质量评价设备，包括：

存储单元，适于存储预定文本和所述预定文本对应的参考重音特征，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

用户语音接收单元，适于接收用户针对预定文本所录入的用户语音；

特征获取单元，适于获取所述用户语音的用户重音特征；以及

语音质量计算单元，适于基于所述参考重音特征与所述用户重音特征之间的相关性，计算所述用户语音的语音质量。

2.根据权利要求1所述的语音质量评价设备，其中，所述特征获取单元包括：

对齐子单元，适于利用预定声学模型将所述用户语音与所述预定文本进行强制对齐，以确定所述预定文本中的每个词和/或每个词中的每个音节和/或每个音节的每个音素与所述用户语音的部分之间的对应关系；以及

特征计算子单元，适于基于所述对应关系计算所述用户语音的用户重音特征。

3.根据权利要求2所述的语音质量评价设备，其中，所述特征计算子单元适于：

针对所述预定文本的每个语句：

基于所述对应关系，获取每个词和/或每个词中的每个音节在所述用户语音中所对应的语音块的特征参数；以及

利用经过训练的预定专家模型以及每个语音块的特征参数，获得每个语音块的重读属性；以及

基于所获得的各语句的各词和/或各词中的各个音节对应的语音块的重读属性，形成所述用户语音的重音特征。

4.根据权利要求3所述的语音质量评价设备，其中，每个语音块包括一段声波，且该语音块的特征参数包括以下参数中的至少一种：

该语音块对应声波波形的波峰和波谷；

该语音块对应声波波形的波峰和波谷的绝对值以及波形的能量值；

该语音块的持续时长或该语音块的归一化的持续时长；

从该语音块中获得的音调信息的平均值；

对从该语音块中获得的音调信息进行差分而得到的差分值的平均值；以及

通过将从该语音块中获得的音调信息的形状和预定义的多个音调模型进行关联度计算而得到的多个关联值。

5.根据权利要求1所述的语音质量评价设备，还包括：

输出单元，适于可视化输出所述语音质量的计算结果。

6.根据权利要求5所述的语音质量评价设备，其中，所述输出单元适于输出如下结果来作为所述语音质量的计算结果：

反映所述语音质量的分数；和/或

所述用户重音特征和所述参考重音特征之间的差别。

7.根据权利要求1所述的语音质量评价设备，其中：

所述存储单元适于从预定服务器预先下载所述预定文本和所述参考重音特征以保存；或

所述存储单元适于从预定服务器预先下载所述预定文本以及至少一段参考语音的特征参数，并根据所述至少一段参考语音的特征参数计算获得所述参考重音特征以保存。

8.一种数据处理设备，该设备适于在服务器中执行，并包括：

服务器存储单元，适于存储预定文本以及与所述预定文本对应的至少一段参考语音；以及

重音计算单元，适于根据所述至少一段参考语音计算该参考语音的特征参数，并根据该特征参数计算所述至少一段参考语音的参考重音特征以保存在所述服务器存储单元中。

9.一种语音处理设备，该设备适于在计算机中执行，并包括：

参考语音接收单元，适于接收特定用户针对预定文本所录入的语音作为参考语音；以及

重音计算单元，适于根据所述参考语音计算所述参考语音的特征参数，以将该特征参数与所述预定文本相关联地发送至预定服务器，或根据该特征参数获得所述参考语音的参考重音特征、以将所述参考重音特征与所述预定文本相关联地发送至所述预定服务器。

10.一种基于重音的语音质量评价方法，包括如下步骤：

接收用户针对预定文本所录入的用户语音，该预定文本包括一个或者多个语句，且每个语句包括一个或者多个词；

获取所述用户语音的用户重音特征；以及

基于所述预定文本对应的参考重音特征与所述用户重音特征之间的相关性，计算所述用户语音的语音质量。