CN1912994B

CN1912994B - 语音的声调校正

Info

Publication number: CN1912994B
Application number: CN2006101019960A
Authority: CN
Inventors: 科林·布莱尔; 凯文·镡; 克里斯托弗·R.·金特尔; 尼尔·赫普沃斯; 安德鲁·W.·兰格; 保罗·R.·麦克里斯
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2005-08-12
Filing date: 2006-07-18
Publication date: 2011-12-21
Anticipated expiration: 2026-07-18
Also published as: US20070038452A1; US8249873B2; TW200717446A; SG130139A1; CN1912994A; TWI315513B

Abstract

提供了语音的声调校正。对接收语音进行分析，并将其与经常发错音的短语的表进行比较。将这些短语映射为讲话者可能要表达的短语。可以把被确定为用户可能要表达的短语的短语建议给用户。如果用户同意该建议，则可以在将该语音传递给接收方之前，对给语音进行声调校正。

Description

语音的声调校正

技术领域

本发明涉及带声调(tonal)的语言中的语音记录的校正。

背景技术

诸如汉语、泰语和越南语的许多语言的独特之处在于它们是带声调的语言。在带声调的语言中，每个说出的音节都需要特定的语调，以使得可正确理解。例如，标准汉语具有四个声调，以及一个“中性”音调(pitch)。广东话甚至具有更多声调。这些声调分别被描述为“高平”、“高升”、“低降升”和“全降”，并且可以与罗马形式的汉语拼音区分开。

发错了声调就是完全念错了汉语(或者泰语或越南语)的词(word)。因此，与只能有限程度地使用音调来表示句子意思的英语相比，例如为了表示问题，汉语使用声调作为每个词的整体特征。由此，非本国讲话者所讲的带音调语言通常对于本国讲话者是难于理解的，因为这些声调通常被发错音或者用错。

发明内容

根据本发明的实施例，使用语音识别引擎来分析构成短语的一系列词。具体地，构成短语的这些词创建了上下文，在该上下文中可以分析组成词。根据上下文，可以识别出发错音的词或字(character)。

此外，本发明的实施例用于校正发错音的字。具体地，使用音调校正来修正包含或包括发错音的字的所录语音。在将所录语音发送到接收方邮箱或者另外被存储以期随后进行重放之前，进行声调校正。根据本发明的其它实施例，可以在对所录语音进行校正之前，提示用户同意校正。

根据本发明的实施例，可以与验证所录语音内的字的发音相关地，参照经常发错音的短语或字的数据库。也就是说，包含经常发错音的字的短语(由于发错音而无意义或者其意义不太可能是讲话者所要表达的意义)可以被映射为很可能是想要表达的短语的短语。因此，包含以不正确应用常用声调的形式的错误发音在内的短语可以被检测到和校正。

附图说明

根据本发明的一个方面，提过了一种用于校正所录语音的方法，包括：在通信设备接收来自用户的语音，其中，所述接收的语音包括至少两个词；识别所述语音中的至少第一接收短语，其中所述识别包括识别所述第一接收短语的所述至少两个词；将所述第一接收短语与多个存储短语进行比较，其中，所述比较包括扫描所述多个存储短语以获取经常发错音的短语，并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语；将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配；根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语，其中，所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语；以及由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户，作为建议的第一替代短语。

图1是根据本发明实施例的通信系统的框图；

图2是根据本发明实施例的通信或计算设备或者服务器的组成部分的框图；

图3是示出根据本发明实施例的用于语音的声调校正的处理的各方面的流程图；

图4示出了声调互不相同的多个汉字，以及由这些字表示的相应罗马拼音。

具体实施方式

根据本发明的实施例，可以在将包含一个或更多个错误发音的所录语音传递给接收方邮箱或者进行存储以供随后使用之前，对该语音进行声调校正。

下面参照图1，示出了本发明实施例所应用的通信系统100的组成部分。具体地，在通信系统中，多个通信或计算设备104可以经由通信网络108彼此互连。此外，通信系统100可以包括一个或多个通信服务器112和/或交换机116，或者与这些设备关联。

例如，通信或者计算设备104可以包括常规的有线或者无线电话、互联网协议(IP)电话、联网计算机、个人数字助理(PDA)或者任何其它能够发送或接收语音的设备。根据本发明的实施例，通信或者计算设备104还可以具有分析和记录用户所提供的语音的能力，从而能够进行声调校正。另选地或者另外地，可以通过服务器112或者其它实体，使用通信或者计算设备104来进行诸如分析和/或存储所收集的语音的功能。

根据本发明实施例的服务器112可以包括用于对客户设备提供服务的通信服务器或者其它计算机。服务器112包括例如PBX、语音邮件或者在网络上部署的服务器，以实现提供此处所述的语音的声调校正的特定目的。因此，服务器112可以用于执行通信服务和/或连接功能。此外，服务器112可以进行与本发明的语音的声调校正有关的一些或者所有处理和/或存储功能。

通信网络108可以包括用于在相关设备104和/或服务器112之间传送语音和数据的汇聚网络。此外，应当理解，通信网络108不必被限制于任何特定类型的网络。因此，通信网络108可以包括有线或无线以太网络、因特网、专用企业内部网、专用分组交换机(PBX)、公共交换电话网(PSTN)、蜂窝或者其它无线电话网、或者任何其它能够传输包括语音数据的数据的网络。此外，可以理解，通信网络108不必被限制于任何一种网络类型，而是可以包括多种不同的网络和/或网络类型。

下面参考图2，以框图形式示出了用于实现根据本发明实施例的上述某些或全部声调连接特征的通信或者计算设备104的组成部件或者服务器112的组成部件。这些组成部件可以包括能够执行程序指令的处理器204。因此，处理器204可以包括任何通用可编程处理器、数字信号处理器(DSP)或者用于执行应用程序的控制器。另选地，处理器204可以包括被专门构造的专用集成电路(ASIC)。处理器204通常用于运行如下程序代码，该程序代码实现由通信设备104或者服务器112所执行的各种功能，包括这里所述的声调校正操作。

通信设备104或者服务器112另外可以包括存储器208，用于与处理器204执行程序相关地使用，并用于临时或长期存储数据或者程序指令。存储器208可以包括基本上可拆卸的或远程的、驻留的固态存储，如DRAM和SDRAM。其中处理器204包括控制器，存储器208可以被集成到处理器204。

此外，通信设备104或者服务器112可以包括一个或更多个用户输入或者用于接收用户输入的装置212，以及一个或更多用户输出或者用于输出的装置216。用户输入212包括例如键盘、小键盘、触摸屏、触摸盘和麦克风。用户输出216包括例如扬声器、显示屏(包括触摸屏显示器)和指示灯。此外，本领域技术人员应当明白，用户输入212可以与用户输出216组合，或者与其结合来操作。这种集成的用户输入212和用户输出216包括例如触摸屏显示器，其可以既将视觉信息呈现给用户，又可以从用户接收输入选择。

通信设备104或服务器112还可以包括用于存储应用程序和/或数据的数据存储设备220。此外，操作系统软件224可以被存储在数据存储设备220中。数据存储设备220可以包括例如磁存储设备、固态存储设备、光存储设备、逻辑电路，或者这些设备的任意组合。应当理解，数据存储设备220中所保持的程序和数据可以包括软件、固件或硬件逻辑，这取决于数据存储设备220的具体实现。

可以存储在数据存储设备220中的应用的示例包括声调校正应用228。声调校正应用228可以包含语音识别应用和/或文本转换成语音的应用，或者可以与这些应用协作。此外，数据存储设备220可以包含经常发错音的短语和/或字的表或数据库232。该表或数据库232另外可以包括经常发错音的短语和/或字与通常想要表达的短语和/或字之间的关联。因此，数据库232可以包括用于存储如下短语之间的关联，这些短语具有类似发音但是包括与不同声调相关的字。如此处所述的，声调校正应用228以及短语或字的表232可以相互集成，和/或相互协作。此外，声调校正应用可以包括用于将所接收的短语与数据库232中的短语进行比较的装置，以及用于改变所接收的短语中所包含的词的声调的装置。数据存储设备220还可以包含与通信设备104或者服务器112的其它功能的性能相关所使用的应用程序和数据。例如，与诸如电话或IP电话的通信设备104相关地，数据存储设备可以包括通信应用软件。作为另一示例，诸如个人数字助理(PDA)的通信设备104或者通用计算机可以包括数据存储设备220中的词处理应用。此外，根据本发明的实施例，语音邮件或者其它应用也可以包括在数据存储设备220中。

通信设备104或服务器112还可以包括一个或更多个通信网络接口236。通信网络接口236包括例如网络接口卡、调制解调器、有线电话端口、串行或并行数据端口、或者其它有线或者无线通信网络接口。

现在参考图3，图中例示了提供根据本发明实施例的词或字的声调校正的通信设备104或服务器112的操作的各方面。开始时，在步骤300，从用户接收包括具有至少两个词的短语的语音，并至少对其进行临时存储。例如，所接收的语音可以包括存储在存储器208或者数据存储设备220(作为通信设备104或服务器112的一部分而提供)中的短语，该短语包括与多个汉字对应的多个词。然后，例如与作为声调校正应用228的一部分而提供的语音识别应用的操作相关地识别语音(步骤304)。即，识别包括用户所讲出的短语在内的字。然后扫描数据库或表232以获取经常发错音的短语308。然后确定所接收的语音是否与经常发错音的短语对应(步骤312)。如果发现所接收的语音与数据库232中包含的经常发错音的短语相匹配或者相对应，则可以警告用户可能发错的音，并且对用户提供所建议的替代(步骤316)。根据本发明的实施例，经常发错音的短语可以在数据库232中被映射到可以作为所建议的替代而提供的一个或更多个短语。警告和所建议的替代可以被传输给用户输出216或者多个用户输出216的组合。例如，警告信号和所建议的替代可以被作为语音输出通过用户位置处的扬声器提供给用户。作为另一示例，警告信号和/或所建议的替代可以通过包含可视显示器的用户输入216提供给用户。此外，包括所建议的替代在内的输出中的一些或全部可以采用与所提供的包含发错音的短语在内的语音的语言不同的语言。例如，所建议的替代可以以用户的母语以书面或口头的形式传输给用户。在阅读了本说明书之后的本领域技术人员可以理解，口头输出可以通过文本转换成语音的程序、运行在通信或者计算设备104或服务器112(接收了来自声调校正应用228和/或数据库232的文本)上的引擎或者功能来生成。

在步骤320，可以确定用户是否已经同意所建议的替代。例如，用户可以通过用户输入212设备提供确认信号来发出对于所建议替代的赞成。这种输入可以是按压指定的键、念出与所建议的替代相关的参考标号或者其它标识符、和/或在与所建议的替代对应的显示区域中进行点击。此外，对于所建议替代的赞成可以包括用户从声调校正应用228所识别的多个可能替代中选择一个。

如果接收到所建议替代的许可或确认，则对于用户初始语音进行声调校正(步骤324)。根据本发明的实施例，可以通过数字操纵所录语音来进行声调校正。例如，如本领域技术人员所知的，可以使用诸如线性预测编码的声道模型来对语音进行编码。对于声道模型操作的总体讨论，参见Michaelis，P.R.，Speech digitization andcompression，该文献可在International Encyclopedia of Ergonomicsand Human Factors，pp.683-685，W.Warkowski(Ed)，London：Taylor and Francis，2001中获得，其全部公开内容在此引入作为参考。通常，这些技术使用人类语音生成机构的数学模型。因此，这些模型中的许多变量实际上对应于随着人讲话而变化的人类声道内的不同物理结构。在典型的实现中，编码机构将声音流划分成多个单独的短时间帧。分析这些帧的音频内容，以提取对声道模型的组成部分进行“控制”的参数。该处理所确定的多个单独的变量包括帧的总体振幅以及其基本音调。总体振幅和基本音调是该模型的对语音的声调轮廓影响最大的组成部分，并且是从控制谱过滤的参数中单独提取的，该谱过滤使得语音可理解并使得可以识别出讲话者。因此，根据本发明实施例的声调校正可以通过对语音中所检测出的错误振幅和音调参数采用适当的增量(delta)来进行。因为对振幅和音调参数进行改变，而不是谱过滤参数，所以通常仍能识别出经校正的声音流是原讲话者的声音。然后可以将经校正的语音发送到接收方地址(步骤328)。例如，在给接收方留下语音邮件消息时接收到语音的情况下，发送该语音可能包括将经校正的语音发布给接收方地址。

如果在步骤312确定所接收的语音没有对应于经常发错音的短语，则用户所提供的语音包括正确发音的词和短语，或者其包括错误的发音，其导致没有反映在数据库232中的无意义或不可能的意思。因此，如果没有发现所接收的语音与数据库232中包含的经常发错音的短语中的一个匹配，则在步骤328中将该语音发送给接收方地址，而不首先进行声调校正。类似的，如果用户不同意所建议的声调校正，则在步骤328中可以在不进行声调校正的情况下将所录语音发送给接收方地址。在将消息发布给接收方地址之后，该处理结束。

根据本发明的实施例，能够进行语音的声调校正的系统的各种组成部分可以是分布式的。例如，包括电话终端的通信设备104可以用于接收来自用户的语音和命令输入，并将输出传递给该用户，但是不能进行任何处理。根据该实施例，由服务器112对所接收的语音进行处理以确定是否可以找到与经常发错音的短语的匹配。根据本发明的其它实施例，声调校正功能可以完全在单个设备内进行。例如，具有适当处理能力的通信设备104可以分析语音、建议修改，并进行所同意的校正。根据所述其它实施例，当通信设备104将语音发布给接收方时，该语音可以被传递给例如接收方应答机或者传递给与服务器112相关的语音邮箱。

为了进一步例示本发明实施例的操作，下面参照图4，例示了四个不同的汉字以及相应的罗马形式的汉语拼音。这些字是与词“妈妈(mother)”、“芝麻(sesame)”、“马(horse)”和“骂人(to scold)”等同意思的普通话中文。此外，与“妈”对应的字念为高平调；与字“芝麻”对应的字念为高升调；与字“马”对应的字念为低降升调；与“骂人”对应的字念为全降调。因为这四个字的发音之间的这些细微差别(至少对于非本国的汉语讲话者而言)，这些字之间的发错音是常见的。然而，即使用户的语音输入有不正确的声调，或者无法识别出特定声调，也仍旧可以从其所应用的上下文来推出所要表达的意思。因此，数据库332可以包含以下短语：骑骂(ride scold)；骑麻(ride sesame)和骑妈(ride monther)。这些短语中的每个都被数据库332映射到正确的短语“骑马”。然后短语“ride horse”可以被提示给用户。如果被接受，则用户所提供的语音可以被校正，从而词“马”(大致发音为“ma”)具有正确的低降升调。通过识别所提供的包含短语的语音并且扫描数据库以获取所识别的短语，可以识别出用户可能想要表达的意思(以及由此其发音)。

根据本发明的实施例，此处所描述的声调校正可以采用实时、接近实时或者离线应用的方式来进行，这取决于与声调校正功能的应用结合使用的通信设备104和/或服务器112的处理能力和其它性能。此外，虽然此处所描述的特定示例与语音邮件应用相关，但是本发明的实施例不限于此。例如，这里所描述的声调校正可以应用于任何所录语音，甚至是以接近实时地方式传递给接收方的语音。此外，虽然此处所提供的特定示例讨论了与汉语相结合来使用声调校正，但是其也可以应用于其它带声调的语言，例如泰语和越南语。

本发明的以上讨论用于示例和说明性的目的。此外，该说明并不旨在将本发明限制于此处所公开的形式。因此，在具有相关领域的技术或熟悉相关领域的情况下与上述教导等同的变型和修改都在本发明的范围内。上述实施例还旨在解释实现本发明的当前已知的最佳模式，并且使得本领域的其他技术人员能够以这些或其它实施例的形式以及通过由他们对于本发明的特定应用或使用所需的各种变型，来利用本发明。所附权利要求应被理解为包括现有技术所允许的其它实施例。

Claims

1.一种用于校正所录语音的方法，包括：

在通信设备接收来自用户的语音，其中，所述接收的语音包括至少两个词；

识别所述语音中的至少第一接收短语，其中所述识别包括识别所述第一接收短语的所述至少两个词；

将所述第一接收短语与多个存储短语进行比较，其中，所述比较包括扫描所述多个存储短语以获取经常发错音的短语，并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语；

将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配；

根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语，其中，所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语；以及

由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户，作为建议的第一替代短语。

2.根据权利要求1所述的方法，进一步包括：

接收来自所述用户的确认信号，该确认信号指示所述多个存储短语中的所述第二短语是所述想要表达的短语；

响应于接收所述确认信号，将所述第一接收短语变为与所述多个存储短语中的所述第二短语对应。

3.根据权利要求2所述的方法，其中使用包括线性预测编码的声道模型对所述第一接收短语进行编码。

4.根据权利要求2所述的方法，其中所述改变所述第一接收短语的步骤包括改变所述第一接收短语的至少一部分的振幅和音调参数中的至少一个。

5.根据权利要求4所述的方法，其中所述第一接收短语的所述至少一部分的谱过滤参数没有被所述改变步骤所改变。

6.根据权利要求2所述的方法，进一步包括：

在所述改变所述第一接收短语的步骤之后，发布所述第一接收短语以传递给接收方邮箱。

7.根据权利要求2所述的方法，其中所述改变所述第一接收短语的步骤包括改变与所述第一接收短语的至少一个词关联的声调。

8.根据权利要求1所述的方法，其中所述第一接收短语和所述多个存储短语中的所述第二短语的不同之处在于，所述第一接收短语的词和所述多个存储短语中的所述第二短语的词与不同的声调相关联。

9.根据权利要求1所述的方法，其中从所述用户的第一接收短语接收的所述语音是第一语言，其中所述多个存储短语中的所述建议的第二短语以第二语言呈现给用户。

10.一种用于校正带声调的语音的系统，包括：

用于接收语音作为输入的装置；

用于存储具有相似发音并包括与不同声调关联的词的短语之间的关联的装置，其中，每个短语包括至少两个词；

用于将输入语音中包括的第一接收短语与在所述用于存储的装置中包括的短语进行比较的装置，其中，所述第一接收短语与第一经常发错音的短语相匹配，以及其中，所述第一经常发错音的短语被映射到建议的第一替代短语；

用于改变所述第一接收短语中包括的至少第一词的声调的装置，其中所述第一接收短语的意思被变为与相关短语的意思对应，所述相关短语包括所述建议的第一替代短语。

11.根据权利要求10所述的系统，进一步包括：

用于将至少第一相关短语输出给用户的装置。

12.根据权利要求11所述的系统，进一步包括：

用于响应于用于许可所述改变后的第一接收短语的、来自用户的输入而将所述改变后的第一接收短语传递给接收方地址的装置。