CN102254553A

CN102254553A - 语音音节时长的自动归一化

Info

Publication number: CN102254553A
Application number: CN2011101842249A
Authority: CN
Inventors: 特里·詹宁斯; 保罗·若勒·麦克里斯
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2010-05-17
Filing date: 2011-05-17
Publication date: 2011-11-23
Anticipated expiration: 2031-05-17
Also published as: GB201108152D0; GB2480538B; GB2480538A; CN102254553B; US20110282650A1; US8401856B2

Abstract

本发明涉及语音音节时长的自动归一化。一个很常见的问题是：当人们讲他们所习惯的语言以外的语言时，音节可能被说得比听者认为合适的更长或更短。这种情况的一个例子可在有很重日语口音的人说英语时被观察到。由于日语单词以元音结尾，因此本土日本人倾向于在应以辅音结尾的英语单词末尾添加元音。说明性地，本土日本人经常将“orange”发音为“orenji”。一个方面提供了一种自动语音纠正处理，该处理不必需要知道正讨论该水果；该系统只需要知道该讲话者习惯于日语，该收听者习惯于英语，“orenji”不是一个英文单词，以及“orenji”是英文单词“orange”的一种典型日语错误发音。

Description

语音音节时长的自动归一化

技术领域

示例性实施方式涉及增强通信的可理解性。更具体地，示例性实施方式涉及对当人们讲他们不习惯的语言时所常见的发音错误类型的自动实时纠正。

背景技术

即使两个人说相同的语言，并且精通语言的词汇和语法，他们之间的说话方式的不同，比如口音，发音精确度，韵律，语音，音高(pitch)，节奏，声调，协同发音，音节重读和音节时长的不同，也能够影响他们相互理解对方的容易度。

理论上，应当可以处理来自人A的语音并且数字化地操纵该语音，以便A的语音中令B难以理解的方面被减少或者消除。实际上，难以预想能够在接近实时的任何情下，针对所有的上述因素来可靠地实现此。这是因为，对以上大多数因素的适当自动操纵不可能通过直接的声学分析来实现，而是要求在句法和语义上理解所说内容的含义。这之中的一个例外就是音节时长(syllable duration)。

几乎所有现代的基于语音的计算机和通信系统都以数字形式传输、路由或者存储语音。数字技术相比于模拟技术的一个明显的优势是提供高质量音频的能力(比如，致密盘相比于唱片，或者数字蜂窝动电话相比于模拟电话)。其它优势包括：在一个通信信道中发送更多同步传输数据，通过基于计算机的交换系统路由语音通信，以及在计算机盘和固态存储设备上存储语音的能力。

以下描述了减少使语音数字化所需的数据量的技术。

语音数字化

数字地编码语音的最简单的方法是生成数字序列，本质上，这些数字跟踪原始语音波形的“上和下(up and down)”。比如，若想将其中所有的重要声学信息都在4000Hz(4000个周期每秒)之下的波形数字化，则该模数转换的基本步骤包括以下步骤：

(1)将4000Hz以上的所有信息从原始信号中滤除。

(2)将原始信号分解成每秒8000个片段。

(3)顺序遍历片段，测量和记录下每个片段中的波形的平均幅度。

第一步的目的是防止‘混叠’——所观察事件的频率与采样速率的不期望的互相作用所导致的错误伪影的生成。运动图像中急速旋转的车轮的轮辐可能看起来保持静止或者甚至向后移动的现象是混叠的一个例子。

以最高频率正弦波的频率的两倍进行采样的第二步是必要的，以便捕获波形的波峰和波谷两者。

为了更加容易地理解第三步，可以想象为将原始波形画在一张纸上。在每个片段内，每个片段代表一秒的1/8000，使用标尺测量波形的高度。以这种方式获得的数字序列构成了原始波形的数字表示。

关于用于测量片段内的语音幅度的‘标尺’，与现代电话相当的语音质量要求每个片段12比特，每秒8000个片段。(作为比较，音频致密盘使用每个片段16比特，其中每秒44100个片段)。得到的每秒96000比特的数据速率意味着典型的1.44MB的软盘只能存储大约两分钟电话质量的语音。

数据速率的适度降低能够通过使用对数幅度编码方案来达到。以具有比大幅度高的精确度来表示小幅度的这些技术每个片断只使用8比特就可以达到和标准12比特系统相同的语音质量。示例包括在许多美国数字电话中发现的μ-律(发音为“myoo律”)编码，和在欧洲普遍使用的A-律编码。

对于传输成本或存储成本较重要的许多设备，比如无线电话机或语音邮件系统，使用简单的μ-律和A-律编码实现的数据速率的降低是不够的。一种实现数据速率显著降低的方法是提取波形的频率内容并数字化(而不是简单地对波形形状进行数字化)。

许多以该方式工作的编码器具有与人类发音机构的物理组件相映射的软件组件。它们通过只对控制语音生成模型的可变化组件的参数进行编码来降低数据率，这些参数例如是控制整体幅度的参数和调节电子‘声带’基音(fundamental pitch)的参数。

人类语音生成机构

考虑到这些编码器中的许多组件都有其对应的生理组件，在研究编码器之前理解人类发声机构是有帮助的。

人类发声机构的主要物理组件包括肺、声带和声腔。当一个人说话时，肺迫使空气经过声带并通过声腔。使空气呼出的压力决定了语音的最终幅度，或‘响度’。声带对呼吸流的作用决定了语音是浊音还是清音。

浊语音(例如，单词‘voice’中的’v’音)是通过在呼气时绷紧声带而产生。绷紧的声带暂时阻断空气流通，在短周期的猝发(burst)中释放气流。释放猝发的频率越高，音高就越高。

清语音(例如，单词‘voice’中最后的’s’音)是在迫使空气经过松弛的声带时产生的。松弛的声带不阻断空气流；而是通过声腔内的可听见气流来生成声音。声带在产生浊音和清音时所起的作用的一个简单示范可以通过如下这样来获得：将手指轻轻地放置于喉或喉头(voice box)处，同时缓慢地说出单词‘voice’；对于‘s’音和双元音‘oi’，可以感觉到声带振动，而对于最后的’s’音则不会感觉到。

上述机构产生用于语音的所谓激励信号。当一个人与另一个人比较时，激励信号的许多性质是不同的。但是，当分析单个个体时，当该人说话时激励信号中只有三个参数是变化的：声音幅度、声音中浊音或清音的比例以及基音。这能够被容易地示范说明。若一个人保持其嘴部大张，而颚、舌和嘴唇没有任何移动，则通过该发声系统生成的声音中保持能改变的特性只有上述三个参数。

在任何给定时间内，激励信号实际上包含许多不同频率的声音。浊音激励信号是周期性的。其频谱中的能量位于基音的倍数处，其等于使声带振动的频率。清音激励信号包含频率的随机混合，与通常所说的白噪声相似。

声腔通过衰减激励信号中的某些频率并放大其他频率来将激励信号‘塑形’成可识别的语音声音。声腔能够完成这种频谱塑形是因为其能够在因颚、舌和嘴唇的位置而变化的频率上共振。当激励信号中的频率不接近声腔共振时，这些频率就受到抑制。然而，声腔共振趋向于放大或使激励信号中相同频率的声音更响亮。所生成的语音声音中的频谱波峰叫做共振峰。典型地，只有三个或四个最低频共振峰在5000Hz之下。这些是对于可懂度来说最重要的共振峰。

(包括美国的公共电话系统在内的很多音频通信系统的频率上限在3400Hz的量级上。这就是那些区别主要在于高频共振峰结构的语音声音(比如‘f’和‘s’)在这些系统中往往难以区分的原因)。

对英语口语而言，依据构成方式对语音声音的简单分类包括：元音、鼻音、摩擦音和爆破音。形成元音时，例如‘speech’中的‘ee’音和‘voice’中的双元音‘io’，呼吸气流相对无阻碍地通过咽和张开的嘴。鼻音中，例如‘man’中的‘m’和‘n’，呼吸气流通过鼻腔。通过迫使空气从肺经过声道中的压缩，以生成可听见气流，从而产生摩擦音。摩擦音的例子包括‘speech’中的‘s’和‘ch’音。通过突然释放建立在声道中的气压，然后使用嘴唇和舌头完全关闭声道，来生成爆破音。单词‘talk’包括爆破音‘t’和‘k’。除了小声说话之外，英语口语中的元音和鼻音都是浊音。摩擦音和爆破音可以是浊音(比如‘vast’或‘den’中)或清音(比如‘fast’或‘ten’中)。

语音压缩

由遵循该声道模型的编码器所计算的参数分成两类：控制激励信号的生成的参数，和控制激励信号的滤波的参数。

为了生成类似人类的激励信号，要求有两种不同的信号生成机构。一种机构生成周期性信号，用于仿真通过人类声带振动而产生的声音。另一种机构生成与白噪声相似的随机信号，其适合对清音进行建模。因而，当需要产生浊音时，例如‘speech’中的‘ee’，则使用周期信号生成器的输出；而对于‘speech’中的清音‘sp’和‘ch’音，则使用另一生成器的随机输出。

在一些系统中，使用随机激励和周期激励的加权组合。这在建模浊音摩擦音时很有帮助，例如‘zoo’中的‘z’音。然而，许多编码器限制激励以使得完全通过浊音激励源或清音激励源来进行建模激。在这些编码器中，通过二值浊音化参数来控制激励的选择，一般称之为浊音/清音判决。

除了浊音/清音判决外，激励函数通过用于调节其响度的幅度参数来被改变大小。最终，若系统要生成单音调以外的东西，则需要使浊音激励源的周期可变。控制此的参数称为音高参数。总之，如下三个参数足以控制一个简单的激励模型(即，不考虑人之间的声道差异的模型)：幅度参数；浊/清音参数；以及若为浊音，指定语音信号的基本周期的音高参数。

已将各种技术用于仿真人类声腔将特定频谱形状施加至激励信号的方式。最早开发的技术之一使用一组带通滤波器，在许多方面与一些高端立体声系统中出现的可调节多频带‘图形均衡器’相似。这些滤波器的中心频率是固定的；按照与通过调节音调控制来改变立体声系统频谱特性的方式几乎相同的方式，每个滤波器或通道的增益的调节使得能够近似出期望的频谱。

该方法主要缺点是其需要大量的滤波器。若能够控制滤波器的中心频率，就能够减少滤波器的数目。具体地，通过将滤波器中心频率与所期望的共振峰频率相匹配，可以只用三个或四个可调节带通滤波器来对语音进行编码。这里重要的一点是，尽管现在需要将滤波器的中心频率和滤波器的增益一起编码，但是用于精确地对激励信号塑形所需要的参数的总数大大地减少。

尽管早期语音合成系统依赖模拟机构来对激励信号进行滤波和塑形，而现代语音压缩系统全部依赖数字滤波技术。在这些系统中，在接收端所听到的经解码语音信号是数字控制滤波器的输出，该数字控制滤波器具有合适的激励序列作为其输入。滤波器的数字控制是通过使用数学模型来实现的——本质上，是具有常量和变量的等式，其中，通过为变量设置合适的值来指定所期望的频谱滤波。通过使用该方法能够大大降低数据传输速率，因为相同的数学模型可以事先被载入到编码器和解码器中。因而，必须被传输的数据仅是用于控制该模型的相对小数目的变量。

一个较好的示例是称为线性预测的技术，其中，语言样本被生成为先前输出样本与滤波器输入的当前值的加权线性组合。对于每个输出样本(S[i])，这产生了下面的表达式，每个输出样本(S[i])是先前样本(S[i-1]，S[i-2]，…，S[i-n])、预测权重(A[1]，A[2]，…，A[n])和滤波器输入(U[i])的函数：

S[i]＝A[1]S[i-1]+A[2]S[i-2]+…+A[n]S[i-n]+U[i]

该等式中的滤波器输入(U[i])是幅度参数和激励序列的乘积。等式中系数的总数(n)确定了可被近似的频谱波峰或共振峰的数量。

一旦指定了参数的完整集合(幅度，浊音化，音高和频谱参数)，语音解码器就能够产生恒定的类语音的声音。为了生成可懂的自然发声的语音，模型参数需要以每秒40至50次的频率被更新。为了设想出该过程，回顾运动图像工作是有帮助的：视运动(apparent motion)—在这种情况下，是平滑变化的语音声音，而不是平滑变化的图像—是通过以充分的频率更新实际上是静止图像的内容来实现的。(以这种格式存储语音的一些系统，例如Avaya的Intuity^TM AUDIX

多媒体信息传输系统，允许用户调节回放速率而不引起音调位移，其将伴随着例如以45来播放33 1/3RPM唱片。这是通过以与利用运动图像实现‘慢动作’的方式几乎相同的方式，来调节每个集合的语音生成参数在被更新之前‘在门内’停留的时间长度来实现的。)

包含该类语音压缩的最早产品之一是由Texas Instruments在1978年发布的儿童学习辅助产品，Speak & Spell

。它使用10系数线性预测编码(LPC-10)来建模语音。该LPC-10模型的数据速率是2400比特每秒。(Speaker&Spell中的实际数据速率远低于2400比特每秒，因为当相邻参数被判定为充分相似时，使用了一比特重复码。)这种低数据速率部分地通过‘硬连线’往往在人与人之间不同的激励参数来实现。这意味着，若人的声道特性不同于已建立在语音生成模型中的特性，则他们的语音不能被无失真地再现。

精确地对广泛种类的语音以及诸如TTY/TDD音调之类的多种非语音声音建模的能力是通过其中激励函数不是被硬连线而是受软件控制的系统来实现的。一个很好的例子是Intuity AUDIX语音信息系统，它使用码激励线性预测(CELP)来对语音建模。典型的基于CELP的系统的数据速率是在从4800比特每秒至16000比特每秒的范围。(在最大化语音质量或降低编码器的计算复杂度较重要的系统中，较高的数据速率更为常见。)与相同质量的未压缩数字化语音相比，这些技术产生了至少6比1以及高达20比1的数据速率降低。

发明内容

一个很常见的问题在于：当人们讲他们所习惯的语言以外的语言时，音节可能被说得比听者认为合适的更长或更短。这个现象的一个极端例子可在有很重日语口音的人说英语时被观察到。由于日语单词是以元音而非辅音结尾(唯一的例外是那些以“n”结尾的单词)，日本本土讲话者倾向于在应以辅音结尾的英语单词末尾添加元音。说明性地，日本本土讲话者经常将“orange”发音为“orenji。这里所描述的技术的一个示例性方面提供了一种自动语音纠正处理，该处理不需要知道正在讨论的该水果；该系统只需要知道该讲话者习惯于日语，该听者习惯于英语，“orenji”不是一个英文单词，以及“orenji”是英文单词“orange”的一种典型的日语错误发音。

容易检测错误发音的能力只是可纠正问题中产生适当音节时长的因素之一。另一因素是，通常在通信系统中使用的种类的基于帧的语音编码和压缩技术(例如线性预测编码(LPC)和码激励线性预测(CELP))包括指定了特定语音声音应当被再现多长的参数。因此，一种判断声音(或音节)是否是以合适的时长被说出的处理可以实时地或接近实时地来在将语音呈现给收听者之前，通过增大或减小在语音的初始编码期间计算出的时长参数，来纠正其检测到的错误的时长。另外，使用上述的“orenji”例子，可以通过由该系统缩短或去除“i”在门内所经历的时间来去除或减少“i”。另外，或可选地，与“i”相关联的幅度可以类似地被调节，以从被呈现给收听者的语音中减少或去除它。

因此，一个示例性方面涉及一种辅助语音可理解性的自动通讯系统附件。

另一方面涉及一种通讯系统模块，其调节音节的幅度或时长中的一个或多个，以纠正或改进错误发音单词的发音。

根据一个更加具体的示例性实施例，一种自动通讯系统附件执行以下步骤：

(1)利用准许诸如音节之类的不同语音事件的时长被标识并被表示为具体的可调节语音生成参数的技术，来对所接收的语音数字地编码。合适的语音编码技术包含前面提到的LPC，CELP等。

(2)检测语言A正被讲。本步骤可以使用公知的自动语言标识技术。另外，贮存库可以基于正被讲的语言和讲话者的本土语言来存储关于哪些单词具有一定的错误发音倾向的信息。

(3)检测正在讲语言A的人实际上习惯于讲语言B。再次地，公知的自动口音标识技术可被用于这里公开的系统、方法和技术。

(4)使用语言A和语言B的发音模式和词汇的知识来检测由于语言B的发音模式被不适当地应用而使得语言A中的单词以不正确的音节时长被讲出的情况。

(5)调节与错读音节相关的时长参数，延长或缩短该音节以与适合于语言A的时长相匹配。可选地，与错读音节相关的幅度由此也有助于与适合于语言A的时长相匹配。

(6)使用经修改的语音产品参数来重新生成具有正确音节定时的语音，并呈现给收听者。

除了上述的示例性实施例以外，这里公开的技术还可包括进行检查以确认步骤4和步骤5中的修改是可感觉到的。

更具体地，第一检查可以包括判断未经修改的话音是否是语言A中的合理单词。第二检查可以包括判断该话音在经修改后是否是语言A中合理单词。第三示例性检查可以判断该话音是否是习惯讲语言B的人对语言A中的合理单词的已知的、常见错误发音。第四示例性检查将判断将由上述步骤5产生的话音是否可能是语言A中的不适当单词或短语，比如，将被解释成粗鲁的或冒犯性的话音。

基于上述检查，可以作出跳过步骤5的决定。

根据另一示例性实施例，对于步骤5，可以对音节执行部分的而非全面的调节，以使得时长错误被减少而非消除。

根据另一示例性实施例，实时的视觉反馈可以被提供给说话者和收听者中的一个或多个，以指示语音流已被修改的情况。

根据另一示例性实施例，可以向各方中的一方或多方，比如收听者，提供适当接口，该适当接口允许他们使能、禁止或调节音节修改过程。

根据另一示例性实施例，除了单向处理(即，处理人A向人B的讲话)以外，示例性实施方式还能够支持双向处理，即，人A向人B的讲话以及人B向人A的讲话。

根据又一示例性实施例，讲话者的原始未经修改语音和经修改语音可以经由收听者位置处的分离的音频变换器和/或分离的音频通道同时被提供给收听者。收听者可以同时监视两者，或者选择在该时间点时听起来最好的信号。如果存在多个位置处的多个收听者，每个收听者具有其自己的收听偏好，则这样的配置也可以是有帮助的。例如，经修改的或未经修改的语音可以在诸如耳语通道之类的第二信息通道中呈现，并且可以证明这对于这样的通话尤其有用，所述通话被记录以使得原始通话相对于经修改通话两者被维护。

根据又一示例性实施例，此处公开的技术在语音消息传输系统中也很有用，其中，该系统可以对消息进行处理以使得邮箱所有者更容易理解所说内容。

将从这里包含的公开中清楚这些和其它的优点。上述实施例和配置既不是全部的也不是详尽的。如将会理解的，本发明的其它实施例可以单独地或联合地利用上述的或接下来将要详述的特征中的一个或多个。

正如这里所使用的，“至少一个”、“一个或多个”以及“和/或”是在运用时既连接又分离的开放式表达。例如，如下表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”以及“A、B和/或C”中的每一种的意思是A单独的、B单独的、C单独的、A和B一起、A和C一起、B和C一起或者A、B和C一起。

附图说明

将参考以下附图，详细描述本发明的示例性实施方式，其中：

附图1示出了一个示例性的通信增强系统；

附图2是示出了用于增强通信的方法的流程图；

附图3是更详细地示出增强通信的方法的流程图。

具体实施方式

下面将结合示例性通信系统来图示说明一些具体实施方式。尽管非常适合与比如使用(一个或多个)交换机、(一个或多个)服务器和/或(一个或多个)数据库的系统一起使用，然而实施例不限于与任何特定类型的通信系统或系统组件的配置一起使用。本领域技术人员可以认识到，所公开的技术可以用在希望提供增强的另一方对一方的可理解性的任何通信应用中。

首先参考图1，将根据至少一些实施例来描述示例性通信环境1。该通信系统包括一通信网络，该通信网络可选地将多个通信设备例如连接到会议桥接器。

在一个实施例中，通信系统可以包括交换机，该交换机可以包括专用小交换机(PBX)系统或者能够提供电话服务给与该交换机相关联的一个或多个诸如企业之类的实体的任何类似类型的交换系统。交换机可以是多个已知交换系统中的一个，其中多个已知交换系统包括但并不局限于专用自动小交换机(PABX)、计算机化小交换机(CBX)、数字小交换机(DBX)，或者集成小交换机(IBX)。交换机也可以包括交换结构，该交换结构提供诸如与会议桥接器相关联的通信设备之类的多个端点、服务器和数据库的连接。该交换结构可以提供将来电和/或去电引导至各个端点的功能并且还提供端点之间的会议功能。

与参与者相关联的通信设备可以是分组交换式的或电路交换式的，并且可以包括，例如，如Avaya公司的4600系列IP电话^TM之类的IP硬电话，如Avaya公司的IP软电话^TM之类的IP软电话，个人数字助理或PDA，个人电脑或者PC，笔记本电脑，基于分组的H.320视频电话以及会议单元，基于分组的语音消息传输和响应单元，基于分组的传统计算机电话附件，和传统的有线或无线电话。

附图1示出了根据示例性实施例的示例性通信环境1。该通信环境1包括归一化系统或附件100和一个或多个终端，比如终端A 200和终端B300。每个终端可以与可选的反馈/输入模块，比如反馈/输入模块210和310相关联。各个终端通过一个或多个网络10以及链路5和7相连接，链路7例如是可替代通信路径的示例。

终端可以是能够通过一个或多个网络10实现通信的任何通信终端，比如电话、扬声器电话、麦克风、多媒体终端等等，网络10例如是公共交换电话网络、分组交换电话网络、VOIP网络、SIP使能的网络，或者一般地利用一个或多个通信协议的任何通信网络。

归一化系统或附件100包括分析模块110、简档模块120、控制器130、存储器140、存储装置/缓存器150、时长/幅度修改模块160、语言检测模块170、不同语音事件识别模块180、编码和压缩模块190以及贮存库105。

在示例性操作模式中，归一化系统100与分析模块110合作，从一个或多个终端接收语音。接着，与不同语音事件识别模块180合作，检测不同语音事件。这是通过对所接收的语音编码并且使用一种准许标识诸如音节之类的不同语音事件的时长并表示为具体的可调节语音生成参数的技术来实现的。这些类型的技术的例子包括上面讨论的LPC和CELP。一旦所接收的语音被编码，则已标识出的不同语音事件就被表示成具体的可调节语音生成参数。

在与语言检测模块170和贮存库105的协作下，分析模块110与简档模块120、控制器130、存储器140和存储装置/缓存器150中的一个或多个合作来确定正被讲的语言。另外，讲话者的‘本土’语言也能够被检测出来。这能够通过例如在所接收的语音上实时地来实现，或者替代地或另外地检索存储在简档模块120中的简档来实现。该简档可以基于一个或多个标识，比如呼叫者ID信息，或者通过反馈/输入模块从人接收的信息，而被与终端和/或该人相关联。

然后分析模块110在与贮存库105的合作下，利用正被讲的语言和讲话人的本土语言的知识来检测由于“本土”语言的发音模式被不恰当地应用而导致正被将的语言中的一个或多个单词具有错误的音节时长的情况。一旦这一个或多个不正确的音节时长被标识，则在与时长/幅度修改模块160、控制器130、存储器140和存储装置/缓存器150的合作下，与错读音节相关的时长和幅度参数中的一个或多个被调节以进行如下中的一种或多种：延长、缩短、强调、去强调，或者其它方式的尝试将错读单词与该单词的正确发音校准的适当调节。

在调节了这一个或多个参数后，该经修改的语音产品被用作重新生成的语音产品的基础，其然后可以在具有正确的或更正确的音节时长/强调的情况下被呈现给听者。根据一个示例性实施例，该经修改的语音产品被提供到正常通信信道上，作为由该讲话人所讲的语音的替代。根据另一示例性实施例，该经修改的语音产品被提供到替代通信路径7上，例如经由耳语通道到达收听者。控制器130在与输入模块210/310的合作下能够允许用户选择关于该归一化系统如何操作的各种选项。比如，用户可以选择他们是否想要该归一化系统开启或关闭，他们可以设置递送选项，例如以在耳语通道上收听经修改的语音、让经修改的语音在主声道上并让原始语音在耳语通道上，只收听经修改的语音，等等。另外，用户可以选择如何处理各个流，比如对原始语音流和经修改的语音流中的一个或多个进行记录，以及可选地，保存与时长/幅度修改模块执行的处理有关的元信息。

更详细来讲，与错读音节相关的参数的调节可以基于许多标准。比如，在与贮存库105的合作下，在做出调节之后，可以判断未经修改的话音在所说语言中是否是合理单词。比如，可以查询贮存库105，更具体地，查询其中的词典和发音规则来判断该单词是否合理。此外，可以用相同的方式来判断在经修改的情况下该话音是否是所讲语言中的合理单词。

更加详细地，可以查询贮存库105来判断该话音是否是习惯说“本土”语言的人对所说语言中的合理单词的已知的、常见的错误发音。比如，归一化系统100可以通过将记录和存储在贮存库105中的信息的一个或多个部分与众多参与者之间的众多谈话相比较来标记这些数据，可选地，以增强该归一化系统的性能和精确度。

作为另一种检查，时长/幅度修改模块160可以与贮存库105合作来判断将由时长/幅度修改模块160产生的话音是否可能是所说语言中的不适当单词或短语。比如，若一话音被解释成粗鲁的或冒犯性的，则分析模块110可以进行如下中的一者或多者：进一步修改、删除、以及向讲话者提供关于该特定话音的信息。比如，若判断出该话音是粗鲁的或冒犯性的，则可以通过输入模块向讲话者提供指示出他们的错误发音可能引起问题的实时反馈。

根据另外的或可替代的示例性实施例，时长/幅度修改模块可以对音节进行部分的而非全面的调节，以使得时长错误被减少而非消除。

以类似的方式，可选地，反馈也可被用来向讲话者和/或收听者提供信息以指示正被呈现的语音流已被修改的情况。再次地，这可以经由反馈/输入模块210/310利用听觉的、视觉的、图形的、基于多媒体的或类似通知技术中的一个或多个来提供。

像之前所讨论的，可选地，该反馈/输入模块还可被用来允许一方使能、禁止或以其它方式调节由归一化系统100执行的音节修改技术。比如，可以提供一接口，该接口允许用户调节由归一化系统100所作的“侵略(aggressiveness)”或“纠正”，以及对如何递送经修改的语音和/或原始语音进行修改。在原始语音和经修改语音都需要保留的情况下，这尤其有用。在此例子中，经修改语音和原始语音可以例如经由通信链路5和可替代通信链路7而被呈现和/或保留在不同声道上。

时长/幅度修改模块160使用LPC和CELP的好处之一是，音节在门中经过的时间量被改变，净效果是音节的拉长或缩短，而不会引起音高位移。可选地，这与调节音节幅度相结合可以非常有效地被利用来纠正错误发音的错误，如上述的“orenji”。

附图2概述了归一化系统或附件的操作的一个示例性方法。具体地，控制从步骤S200开始并继续到步骤S210。在步骤S210中，接收并编码语音。之后，在步骤S220中，标识不同语音事件。之后，在步骤S230中，不同语音事件被表示为具体的可调节语音生成参数。之后控制继续到步骤S240。

在步骤S240，检测正被讲的语言。之后，在步骤S250，从与讲话者相关联的简档中检测或检索(一者或多者)讲话者的“本土”语言。之后，控制继续到步骤S260。

在步骤S260中，正被讲的语言和讲话者的“本土”语言的诸如发音模式和词汇之类的知识被利用来检测由于“本土”语言的发音模式被不适当地应用于所说语言而使得正被讲的语言中的一个或多个词具有错误音节时长的情况。之后，在步骤S270，与错读音节相关联的时长和幅度参数中的一个或多个适当地被调节以进行延长、缩短、强调、去强调中的一种或多种，以纠正对于正被讲的语言的错误音节时长。之后，在步骤S280，经修改的语音产品参数被用来重新生成并呈现具有用于呈现给一个或多个收听者的、修改后的音节时长/强调的经纠正语音。控制然后继续到步骤S290，此时控制序列结束。

附图3更加详细地图示说明了步骤S260-S280。更具体地，控制开始于步骤S300，并继续到步骤S310。在步骤S310中，判断未经修改的话音在所说语言中是否是合理单词。这可以通过将该话音与词典和可选地一个或多个发音规则进行比较来进行。接着，在步骤S320中，判断该话音在经修改后在所说语言中是否是“更加合理”或合理的单词。再一次地，这可以通过与例如可被存储在贮存库中的词典和发音规则中的一个或多个的比较来进行。

之后，在步骤S330，可以判断该话音是否是由习惯说“本土”语言的人对所说语言中的合理单词的已知的、常见的错误发音。再一次地，这可以通过比较话音和存储在贮存库中的单词来进行。控制然后继续到步骤S340。

在步骤S340中，可选地判断该话音是否是所说语言中的不适当单词或短语。如果是这种情况，可选地，立即将指示他们的发音不恰当，可能引起问题的反馈转发给发言人。控制然后继续到步骤S350.

在步骤S350中，替代对音节进行全面调节，而是可以可选地进行部分调节以使得时长错误被减少但不被消除。之后，在步骤S360中，如上所述，可选反馈可被提供给讲话者和收听者中的一个或多个，例如以指示语音流已被修改的情况。可以理解，这可被提供给讲话者、收听者，或者他们两者。

可选的示例性步骤S330允许各方中的一方或多方使能、禁止或调节由归一化系统所作的修改。比如，可以允许一方开启、关闭，和/或调节该归一化系统用来应用其音节修改技术的“侵略”。此外，在步骤S380中，可选地，可以向用户提供对递送修改选项进行修改的能力。比如，用户可以选择他们想要接收的一个或多个音频流，比如原始的，经修改的，或者它们两者。比如，在立体声环境下，用户可以选择在声道A中接收原始版本，在声道B中接收修改版本。在另一示例性实施例中，用户可能想要接收修改版本，而在耳语通道中呈现原始版本。在另一示例性实施例中，用户可能想接收经修改的语音，而记录下原始语音。在又一示例性实施例中，原始和经修改的语音两者可以均被记录，或者例如用于归档的目的。将理解，可以利用与输入相关的设备来从收听者接收各种输入，从而允许他们精确地修改他们想如何收听讲话者的原始和经修改语音中的一个或多个。控制然后继续到步骤S390，在此控制序列结束。

根据另一示例性实施例，应当理解，这里公开的技术并不限于两方，而是可以扩展到多方通话。在这个例子中，可以适当地将这里的技术用于通信信道中的仅一部分，这是因为一些讲话者可能说的是他们的本土语言，而其它讲话者可能说的是他们的本土语言以外的语言。

另一可选特征是使用简档，并且在与简档模块120的合作下，使该简档与时长/幅度修改模块160合作来纠正一方的常见错误发音单词。比如，简档模块120可以存储总是被特定人错读的单词目录。知晓特定人过去经常读错一特定单词的时长/幅度修改模块160可以使用该历史信息来辅助实时地或接近实时地动态纠正错误发音。使用所存储的该历史信息也可以有助于降低施加给归一化系统的计算负担，这是因为，如果经修改的单词已被诊断为合理的单词、出现在词典中、没有违背任何发音规则，以及不能被解释成粗鲁的或冒犯性的，那么显然，每当该错误发音出现时归一化系统可以绕过这些步骤。

依据另一示例性实施例，并且再次地，为了进一步辅助降低系统的计算负担，缓存器150可被利用，以使得在同一谈话中被标识为错读的那些单词可以从该缓存器中检索回经纠正版本并且作为经修改话音被呈现给(一个或多个)其它参与者。因而，取代需要执行上述列举的大部分步骤，一旦错读单词(再次)被检测到，分析模块110可以立即替换成存储在缓存器中的话音的修改版本。

各个实施例包括基本上如这里(包括各个实施例，子组合和其子集)所图示并描述的部件、方法、处理、系统和/或装置。本领域的技术人员在理解本公开后将明白如何作出和使用本发明。在各个实施例中，本发明包括在缺少未在此处或其各个实施例中示出和/或记载的各项的情况下，包括缺少可能已在先前的设备或处理中例如用于提高性能、实现容易度和/或降低实施成本的各项的情况下，来提供设备和处理。

前面的讨论以说明和描述为目的而被给出。前面并不旨在将本发明局限于这里所公开的一种或多种形式。在前述的具体实施方式中，例如，为了精简本公开，本发明的各个特点在一个或多个实施例中被组合在一起。这种公开方法不应被理解成反映了要求保护的发明需要比明确记载在每个权利要求中的特征更多的特征的意图。而是，正如下面的权利要求所反映的，发明点在于少于前面公开的单个实施例中的所有特征。因此，下面的权利要求由此被并入此具体实施方式中，其中每个权利要求作为分离的优选实施方式而独立存在。

此外，虽然本发明的描述已经包括了对一个或多个实施例以及某些变形和修改的描述，但是其它的变形和修改也落在本公开的范围内，例如，在理解了本公开后，可落入本领域技术人员的技术和知识中。希望在准许的范围内获得包括要求保护的实施例的替代实施例的权利，替代实施例包括可替换的、可互换的和/或等同的结构、功能、范围或步骤，而不论这些可替换的、可互换的和/或等同的结构、功能、范围或步骤是否在本发明中被公开，并且并不希望向公众贡献任何可专利的主题。

虽然上述的流程图已经结合特定的事件序列进行了讨论，然而应当理解，可以在本质上不影响本发明的操作的情况下对该序列进行改变。此外，并不需要出现如示例性实施例中所记载的那样的精确事件序列。这里所给出的示例性技术并不局限于以特定方式描述的实施例，而是还可以被用于其它的示例性实施例，并且每个所描述的特征都可以分别地单独要求保护。

这里描述的系统、方法和协议还可以在除了或者替代所描述的通信设备以外的如下装置上来实现：专用计算机、编程微处理器或微控制器和(一个或多个)外围集成电路元件、ASIC或其它集成电路、数字信号处理器、诸如分立元件电路之类的硬连线电路或逻辑电路、诸如PLD、PLA、FPGA、PAL之类的可编程逻辑器件、诸如电话机之类的通信设备、任何类似装置，等等。一般地，能够实现状态机，其进而能够实现这里所述的方法的任何设备可以用来实现这里公开的各种通信方法、协议和技术。

此外，可以用利用对象的软件或面向对象的软件开发环境来容易地实现所公开的方法，这些软件和开发环境提供了可在各种计算机或工作站平台上使用的可移植源代码。替代地，可以用使用标准逻辑电路或VLSI设计的硬件来部分地或全部地实现所公开的系统。是用硬件还是软件来实现根据本发明的系统取决于系统的速度和/或效率要求、具体的功能，以及所利用的具体软件或硬件系统或微处理器或微计算机系统。可应用领域的技术人员可以根据这里提供的功能描述并利用计算机和通信领域的一般基本知识，利用任何已知的或以后开发出的系统或结构、设备和/或软件，来以硬件和/或软件容易地实现这里说明的通信系统、方法和协议。

此外，可以用被存储在非易失性存储介质中，并且在与控制器和存储器协同操作的经编程通用计算机、专用计算机、微处理器等上运行的软件来容易地实现所公开的方法。在这些情况中，本发明的系统和方法可以被实现为被嵌入在个人计算机上的程序(例如小应用程序(applet)、JAVA

或CGI脚本)、驻留在服务器或计算机工作站上资源、被嵌入在专用通信系统或系统组件等中的例程等等。还可以通过将系统和/或方法物理地结合到软件和/或硬件系统(例如通信设备或系统的硬件和软件系统)中来实现本系统。

因此，根据本发明，显然已提供了用于增强通信可理解性的系统，装置和方法。虽然已结合多个实施例描述了本发明，但是很明显，许多替换方式、修改和变形对可应用领域的普通技术人员而言是显而易见的。因此，希望包括在本公开的精神和范围内的所有这样的替换方式、修改、等同物和变形。

Claims

1.一种提高通信可理解性的方法，包括：

接收语音；

在接收的语音中标识一个或多个不同语音事件；

将所述一个或多个不同语音事件中的一个或多个表示为可调节语音生成参数；

利用知识库来确定因错误发音引起的不正确音节时长；以及

调节错误发音以对错读音节进行延长、缩短、强调或去强调中的一者或多者。

2.如权利要求1所述的方法，还包括：

检测正被讲的语言；

检测讲话者的本土语言；

利用正被讲的语言和讲话者的本土语言的发音模式和词汇来检测因所述错误发音引起的所述不正确音节时长；以及

使用经修改的语音产品参数重新生成具有经纠正音节定时的语音，并呈现给一个或多个收听者。

3.如权利要求1所述的方法，还包括：判断话音是否是合法单词。

4.如权利要求1所述的方法，还包括：判断话音是否是常见的错误发音，并且向讲话者提供反馈。

5.用于执行权利要求1的功能的一个或多个装置，或者存储有指令的非易失性计算机可读信息存储介质，所述指令如果被处理器运行，就使得权利要求1所述的方法被执行。

6.一种提高通信可理解性的系统，包括：

分析模块，该分析模块接收语音；

不同语音事件识别模块，该不同语音事件识别模块与编码和压缩模块合作来标识所接收语音中的一个或多个不同语音事件，并且将所述一个或多个不同语音事件中的一个或多个表示为可调节语音生成参数；以及

修改模块，该修改模块利用知识库来确定因错误发音引起的不正确音节时长，并且调节所述错误发音以对错读音节进行延长、缩短、强调或去强调中的一者或多者。

7.如权利要求6所述的系统，还包括：

语言检测模块，该语言检测模块检测正被讲的语言并且检测讲话者的本土语言，

其中，包括正被讲的语言和讲话者的本土语言的发音模式和词汇的贮存库被用来检测因错误发音引起的所述不正确音节时长，以及

其中，经修改的语音产品参数被用来重新生成具有经纠正音节定时的语音，并且呈现给一个或多个收听者。

8.如权利要求6所述的系统，还包括处理器，该处理器判断话音是否是合法单词，并且其中，所述分析模块还判断话音是否是常见的错误发音。

9.如权利要求6所述的系统，还包括反馈模块，该反馈模块向讲话者提供反馈。

10.如权利要求6所述的系统，其中，参与者能够经由反馈模块来选择经修改的流和未经修改的流中的一个或多个进行收听，并且其中，还判断经修改单词是否是不适当的。