CN101069230A

CN101069230A - 预测通信系统中使用的文本信息的音调模式信息

Info

Publication number: CN101069230A
Application number: CNA2005800332788A
Authority: CN
Inventors: 丁丰; 曹阳
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2004-08-02
Filing date: 2005-08-02
Publication date: 2007-11-07
Anticipated expiration: 2025-08-02
Also published as: US7788098B2; CN101069230B; WO2006013453A1; US20060025999A1

Abstract

所描述的技术包括从文本条目生成音调信息，以及进一步利用决策树将音调信息应用到拼音序列。例如，一种预测通信系统中使用的文本信息的音调模式信息的方法，该方法包括将文本条目分解成段，以及利用所述分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法，其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。

Description

预测通信系统中使用的文本信息的音调模式信息

技术领域

本发明一般地涉及通信系统中的语音识别和文本到语音(TTS)合成技术。更具体地，本发明涉及预测通信系统中使用的文本信息的音调模式信息。

背景技术

该部分旨在提供针对权利要求书中所叙述的本发明的背景或环境。这里的描述可以包括可被遵循的概念，但不必是先前已经设想或遵循的概念。因此，除非在这里另外指出，否则在该部分所描述的内容不是本申请的权利要求书中的现有技术并且不会因为包括在这里而被认为是现有技术。

语音可被用于结合移动终端进行输入和输出。例如，语音识别和文本到语音(TTS)合成技术使用语音以结合移动终端进行输入和输出。这样的技术尤其适用于残疾人士或当移动终端用户无法轻松自如地使用他或她的手时。这些技术还能够给出有声的反馈，使得用户不必盯着设备。

音调对于汉语(例如，普通话、广东话和其它方言)和其它语言来说是重要的。音调主要特征在于其基频(F0)轮廓的形状。例如，如图1中所示，普通话音调1、2、3和4可以被分别地描述为：阴平(high level)、阳平(high-rising)、上声(low-dipping)和去声(high-falling)。轻声(音调0)不具有特定的F0轮廓，其高度地依赖于在前的音调并且通常被认为是短暂的。

类似汉语的音调语言中的文本到语音是具有挑战性的，因为通常在文本呈现中没有可用的音调信息。然而，音调信息对于理解是至关重要的。相邻音节的音调组合可形成某些音调模式。另外，音调可显著地影响语音感知。例如，音调信息对于汉语语音输出是至关重要的。在英语中，句子的不正确的音调变化可致使句子难以理解。在汉语中，单个字词的不正确的语调可完全改变它的意思。

在许多情况下，音节的音调信息是无法获得的。例如，汉语电话用户在电话目录(“联系人姓名”)中可具有拼音格式的姓名。拼音是用于将汉语表意文字拼写成罗马字母的一种系统，由中华人民共和国1979年正式采用。用于联系人姓名的拼音格式可能不包括音调信息。从联系人姓名本身直接获得音调信息是不太可能的。在没有音调或具有不正确的音调的情况下，从文本生成的语音在质量上是糟糕的并且可以完全改变文本的意思。

美国专利申请2002/0152067(该申请被转让给与本申请相同的受让人)公开了一种方法，其中用于姓名或字词的发音模型可从位于网络中的服务器获得。然而，该专利申请仅描述涉及发音的解决方案。没有包括或暗示音调信息的使用。如上所指出的，在没有音调信息的情况下，重要的意思会被丢失。

国际专利申请WO 3065349公开了向文本到语音生成添加音调信息以提高文本的可理解性。该专利申请所描述的技术使用了对句子的上下文的分析。基于字词所位于的其它的上下文来识别音调。然而，这样的上下文不总是可用的，特别是结合例如移动电话的通信系统，并且文本也不总是提供生成音调信息所需的线索。

因此，需要不依赖于上下文而预测音节序列的音调模式。进一步，需要预测音调模式以正确地识别用作移动设备的联系人的姓名。更进一步，当无法获得音调信息时，需要合成通信终端中的联系人姓名。更进一步，对于类似汉语的语言，需要从文本生成音调信息，其中音调信息对于通信和理解是至关重要的。

发明内容

一般地，本发明涉及从文本条目生成音调信息，并且进一步使用决策树将该音调信息应用到拼音序列。至少一个示例性的实施方式涉及一种预测计算机系统中使用的文本信息的音调模式信息的方法。该方法包括将文本条目分解成段并利用分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法，其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。

另一个示例性实施方式涉及一种设备，该设备基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该设备包括处理模块和存储器。处理模块执行编程的指令而存储器包含编程的指令以将文本条目分解成段并利用分解的段来识别文本条目的音调信息。

另一个示例性实施方式涉及一种系统，该系统基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该系统包括终端装置设备和处理模块，该终端装置设备具有一个或多个存储在其上的文本条目而处理模块将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。

另一个示例性实施方式涉及一种具有计算机代码的计算机程序产品，该计算机代码将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。

附图说明

图1是各种普通话汉语音调的基频轮廓的示图；

图2是描述根据示例性实施方式的音调估计系统的总体框图；

图3是描述分类音调信息处理中执行的示例性操作的流程图；

图4是描述在图2的音调估计系统中使用的示例特征集的示图；

图5是描述根据示例性实施方式的具有训练结果的示例分类与回归树(CART)的示图；

图6是描述在音调估计处理中执行的示例性操作的流程图。

具体实施方式

图2示出一通信系统10，该通信系统包括根据示例性实施方式配置成具有音调估计能力的设备。这里描述的示例性实施方式可应用于任何的通信系统中，该通信系统包括具有语音合成应用和/或语音识别应用的电子设备，以及服务器，数据可在该电子设备和该服务器之间传送。

通信系统10包括终端装置(TE)设备12、接入点(AP)14、服务器16和网络18。TE设备12可包括存储器(MEM)、中央处理单元(CPU)、用户接口(UI)和输入-输出接口(I/O)。存储器可包括用于存储控制CPU的应用程序的非易失性存储器以及用于数据处理的随机存取存储器。例如文本到语音(TTS)模块的语音合成(SS)模块可通过执行存储在存储器中的CPU编程指令来实现。语音识别(SR)模块可通过执行存储在存储器中的CPU编程指令来实现。I/O接口可包括无线局域网的网络接口卡，例如基于IEEE802.11标准的多种网络接口卡中的一种。

TE设备12可经由接入点14连接到网络18(例如，局域网(LAN)、互联网、电话网)并进一步连接到服务器16。TE设备12还可使用例如电缆、红外线或射频处的数据传输与服务器16直接通信。服务器16可为TE设备12提供各种处理功能。服务器16还可为TE设备12提供后端处理服务。

TE设备12可以是在其中执行语音识别或语音合成的任意便携式电子设备，例如个人数字助理(PDA)设备、远端控制器或耳机和麦克风的组合。TE设备12可以是由计算机或移动台所使用的补充设备，在该情况下，到服务器16的数据传输可经由计算机或移动台设置。在示例性的实施方式中，TE设备12是与公共陆地移动网络通信的移动台，其中服务器S也被功能性地连接到该公共陆地移动网络。连接到网络18的TE设备12包括用于与网络18无线通信的移动台功能。网络18可以是任意已知的无线网络，例如支持GSM服务的网络、支持GPRS(通用分组无线服务)的网络或第三代移动网络，例如根据3GPP(第三代合作伙伴计划)标准的UMTS(通用移动通信系统)网络。还可在移动网络中实现服务器16的功能性。TE设备16可以是仅用于通话的移动电话，或它也可包括PDA(个人数字助理)功能。

TE设备12可使用音调模式信息，该信息可用于确定非音调拼音序列的音调，或不具有音调信息但其中音调信息是重要的其它序列。TE设备12可经由网络18获得这样的信息，或在其被使用之前离线地获得。可从数据库捕捉音调模式，并接着存储在某个模型中作为预知的知识。模型可以是分类与回归树(CART)或神经网络和其它的结构。在可选的实施方式中，服务器16估计音调信息并将附着到文本的音调信息传递到TE设备12。

图3示出分类音调信息处理中执行的示例性操作的流程图20。根据实施方式，可以执行附加的、更少的或不同的操作。在示例性的实施方式中，使用分类与回归树(CART)。CART可用于预测连续的因变量(回归)和分类预测器变量(分类)。

在操作22中，数据库和设计特征集被收集。优选地，数据库包含应用域中音调模式的主要特征。例如，为了针对汉语姓名反馈收集数据库，姓名列表应该足够的大，所有的汉语姓和经常使用的名应该被包括在内。还应该考虑不同长度的姓名。基于特征集，针对数据库中的每个条目计算所有的特征。

图4示出示例性的特征集30，该特征集被描述为((音调0 1 2 34)(n::final)(t::initial)(t:final)(n::initial))。值“p”、“t”和“n”分别表示先前的音节、当前的音节和下一个音节。音调0 1 2 3 4表示各种不同的音调。特征集30可以被存储在通信终端上的存储器中。

再次参考图3，在操作24中，利用训练算法对模型进行训练。训练算法用于提取必要的音调模式信息到训练数据库。当满足规定的准则时，例如最大熵，则完成训练处理。

例如CART结构40的决策树可用于生成适用于输入音节序列的音调。在标记的数据库上训练决策树。决策树由如图5中所示出的链接在一起的节点构成。属性被附着到每个节点上。属性规定了在该节点中考虑了什么类型的上下文信息。上下文信息可以包括在当前音节左手侧和右手侧的音节。可以使用例如INITIAL/FINAL的某些更小单元。此外，可以使用先前的INITIAL/FINAL音节和它们的类。除非节点是叶节点，否则树的每个节点由子节点跟着。

从一个节点移动到子节点是基于节点中所规定的属性值。当决策树用于提取对应于某个上下文中的音节的音调时，查找开始于根节点。爬树直到找到叶。对应于给定上下文中的音节的音调被存储在叶中。

当从被标记的数据库训练决策树时，考虑所有的训练情形。一种训练情形由标记的数据库中的音节和音调上下文以及相应的音调构成。在训练期间，决策树生长并根据信息理论最优化规则将决策树分裂成子节点。分裂持续直到不能进一步提高最优化准则。

在训练中，首先分裂树的根节点。为了将节点分裂成子节点，必须选择属性。对所有的不同属性进行检测并且选择最大化了最优化规则的一个属性。信息增益被用作最优化准则。为了计算分裂的信息增益，必须已知分裂根节点之前的音调分布。基于根节点中的音调分布，可根据如下计算熵E：

E = - Σ_{i = 1}^{N} f_{i} \log_{2} f_{i}

其中f_i是第i个音调发生的相对频率，而N是音调的数目。基于音节和音调上下文，根据可能的属性，根节点中的训练情形可分裂成多个子集。对于一种属性，分裂后的熵E^s被计算为多个子集的多个熵的平均熵。如果E_j ^S表示分裂后的子集j的熵，则分裂后的平均熵是：

E^{s} = - Σ_{j = 1}^{k} \frac{| S_{j} |}{| S |} E_{j}^{s}

其中|S|是根节点中训练情形的总的数目。|S_j|是第j个子集中训练情形的数目，而K是子集的数目。一种属性的信息增益可如下给出：

G＝E-E^s

针对每种属性计算信息增益，并且选择具有最高信息增益的属性。针对子节点重复树中的节点的分裂。根据不同的属性将属于每个子节点的训练情形进一步分裂成多个子集。对于每个子节点，选择具有最高信息增益的属性。当信息增益大于零并且通过分裂可以提高节点的熵时，树中节点的分裂继续。除了信息增益以外，分裂由第二条件控制。仅当在分裂之后至少有两个子节点将具有至少预定最小数目的训练情形时，一个节点才可被分裂。如果信息增益是零或不满足第二条件，则不分裂该节点。

图5示出描述训练结果示例的CART结构40。CART结构40表示出音调估计模型中的节点间的关系。如果当前的音节以“m”开始而以“ao”结束，则识别出音调2。如果当前音节以“m”开始而不以“ao”结束，则识别出音调3。

再次参考图3，在操作26中，训练结果被转化成压缩格式以节省存储器空间并加速使用过程。在训练结果中存储音调模式信息。在操作28中，生成音调模式。当音节序列到来时，所有的音节可用于在不同的树分支之间切换，并且从上通过树直至到达叶。

现在参考图5，例如，如果使用CART结构40，并且进入的拼音串是“mao ze dong”，对于第一个音节“mao”，其声母是“m”，根据最高节点，切换到右分支，接着根据第二级节点，其韵母是“ao”，则再次切换到右分支并到达左节点，所以“mao”的音调将被设置为“2”。

图6示出在音调估计处理中执行的示例性操作的流程图50。根据实施方式，可以执行附加的、更少的或不同的操作。在操作52中，终端装置(TE)设备中的处理单元获得音节序列。音节序列可以是一个或多个字词。处理单元可以从存储器中获得音节序列。通常，处理单元基于也包含在存储器中的编程指令操作。

在操作54中，处理单元分解各个音节。在操作56中，基于分解的文本获得或估计音调信息。例如，包含在特征集中的音调模式信息可提供信息，处理单元从该信息识别相应的音调。特征集可包括在例如参考图4所描述的CART结构40的CART结构中。

尽管已经描述了本发明的几个实施方式，但将理解到本发明相关领域的技术人员可想到修改和改变。例如，尽管汉语被用作需要音调信息的示例性语言，但本系统不限于利用特定的语言进行操作。因此，本说明书所附的权利要求书旨在精确地限定本发明。

Claims

1.一种预测计算机系统中使用的文本信息的音调模式信息的方法，该方法包括：

将文本条目分解成段；以及

利用所述分解的段来识别所述文本条目的音调信息。

2.根据权利要求1所述的方法，其中所述文本条目包括拼音序列。

3.根据权利要求1所述的方法，其中使用所述分解的段来识别所述文本条目的音调信息包括在分类树中定位相应音调信息。

4.根据权利要求1所述的方法，其中使用所述分解的段来识别所述文本条目的音调信息包括基于所述分解的段访问包含所述文本条目的音调信息的数据库。

5.根据权利要求1所述的方法，进一步包括从后端服务器向通信设备传递识别的音调信息。

6.根据权利要求1所述的方法，其中所述文本条目是通信设备上的联系人列表中的姓名。

7.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的设备，该设备包括：

处理模块，其执行编程的指令；以及

存储器，其包含编程的指令以将文本条目分解成段并利用所述分解的段来识别所述文本条目的音调信息。

8.根据权利要求7所述的设备，其中所述音调信息存储在位于所述存储器中的决策树中。

9.根据权利要求7所述的设备，其中所述音调信息存储在由服务器访问的数据库中。

10.根据权利要求7所述的设备，其中所述文本条目包括拼音序列。

11.根据权利要求7所述的设备，其中所述文本条目包括来自联系人列表的姓名。

12.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的系统，该系统包括：

终端装置设备，其具有一个或多个存储在其上的文本条目；以及

处理模块，其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。

13.根据权利要求12所述的系统，其中所述处理模块包含在所述终端装置设备中。

14.根据权利要求12所述的系统，其中所述处理模块包含在服务器上，在识别所述音调信息后，所述服务器将所述音调信息传递到所述终端装置设备。

15.根据权利要求12所述的系统，进一步包括联系人姓名列表，所述姓名包括拼音序列。

16.一种计算机程序产品，包括：

计算机代码，其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。

17.根据权利要求16所述的计算机程序产品，其中利用决策树生成音调信息。

18.根据权利要求16所述的计算机程序产品，其中所述计算机代码包含在通信设备中。

19.根据权利要求16所述的计算机程序产品，其中在计算设备上执行所述计算机代码并且所述音调信息被传递到终端装置设备。

20.根据权利要求16所述的计算机程序产品，其中在识别之后，所述音调信息被附着到所述文本条目。