CN103151037A

CN103151037A - 校正难以理解的合成语音

Info

Publication number: CN103151037A
Application number: CN2012104604406A
Authority: CN
Inventors: G·塔尔瓦; R·秦贾尔瓦拉延
Original assignee: General Motors Co
Current assignee: GM Global Technology Operations LLC; General Motors LLC; General Motors Co
Priority date: 2011-09-27
Filing date: 2012-09-27
Publication date: 2013-06-12
Also published as: DE102012217160A1; US20130080173A1; DE102012217160B4; US9082414B2

Abstract

一种语音合成的方法和系统。在文本语音转换系统中接收文本输入，并且使用该系统的处理器将文本输入处理成合成语音，该合成语音被确定为难以理解的。将文本输入再处理成后续合成语音并通过扬声器输出给用户以校正难以理解的合成语音。在一个实施例中，通过预测合成语音的可懂度，并确定预测出的可懂度低于最小阈值，可以将合成语音确定为难以理解的。在另一个实施例中，通过经由扬声器将合成语音输出给用户并从用户接收合成语音难以理解的指示，可以将合成语音确定为难以理解的。

Description

校正难以理解的合成语音

技术领域

本发明总体上涉及语音信号处理，并且更具体地涉及语音合成。

背景技术

语音合成是通过人工手段从文本产生语音。例如，文本语音转换(TTS)系统从文本合成语音从而为传统的计算机到人的可视化输出设备-如计算机监视器或显示器提供了一种替代方案。TTS合成遇到的一个问题是合成语音可能具有差的韵律特征，诸如音调、发音、重音、语速、语调、和自然度。因此，这种差的韵律可能迷惑TTS用户并且导致与用户的不完整交互。

发明内容

根据本发明的一个方面，提供一种语音合成方法，包括下述步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)确定该合成语音是难以理解的；

(d)将该文本输入再处理成后续合成语音以校正难以理解的合成语音；和

(e)通过扬声器将后续合成语音输出给用户。

根据本发明的另一个实施例，提供一种语音合成方法，包括下述步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)预测该合成语音的可懂度；

(d)确定来自步骤(c)的预测可懂度是否低于最小阈值；

(e)如果在步骤(d)中确定该预测可懂度不低于该最小阈值，则通过扬声器将该合成语音输出给用户；

(f)如果在步骤(d)中确定该预测可懂度低于该最小阈值，则调整与处理文本输入结合使用的模型；

(g)将该文本输入再处理成后续合成语音；

(h)预测该后续合成语音的可懂度；

(i)确定来自步骤(h)的预测可懂度是否低于最小阈值；

(j)如果在步骤(i)中确定该预测可懂度不低于该最小阈值，则通过扬声器将该后续合成语音输出给用户；以及，否则

(k)重复步骤(f)至(k)。

根据本发明的进一步实施例，提供一种语音合成方法，包括下述步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c1)通过扬声器将该合成语音输出给用户；

(c2)从用户接收合成语音难以理解的指示；

(e)通过扬声器将该后续合成语音输出给用户。

方案1.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)确定该合成语音是难以理解的；

(d)将该文本输入再处理成后续合成语音以校正该难以理解的合成语音；和

(e)通过扬声器将该后续合成语音输出给用户。

方案2.如方案1的方法，其中步骤(c)包括：

(c 1)预测该合成语音的可懂度；和

(c2)确定来自步骤(c1)的预测可懂度低于最小阈值。

方案3.如方案2的方法，在步骤(c)和(d)之间进一步包括：

(f)调整与步骤(d)结合使用的模型。

方案4.如方案3的方法，在步骤(e)之后进一步包括：

(g)预测该后续合成语音的可懂度；

(h)确定来自步骤(g)的预测可懂度是否低于最小阈值；

(i)如果在步骤(h)中确定该预测可懂度不低于该最小阈值，则通过扬声器将该后续合成语音输出给用户；以及，否则

(j)重复步骤(f)至(j)。

方案5.如方案1的方法，其中步骤(c)包括：

(c1)通过扬声器将该合成语音输出给用户；和

(c2)从用户接收该合成语音难以理解的指示。

方案6.如方案5的方法，其中在步骤(d)中该后续合成语音比合成语音简单。

方案7.如方案5的方法，其中在步骤(d)中该后续合成语音比合成语音慢。

方案8.如方案5的方法，进一步包括识别用户的交流能力，其中在步骤(d)中基于识别出的交流能力产生后续合成语音。

方案9.如方案8的方法，其中在步骤(d)中该后续合成语音比合成语音慢。

方案10.如方案9的方法，其中在步骤(d)中该后续合成语音比合成语音简单。

方案11.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)预测该合成语音的可懂度；

(d)确定来自步骤(c)的预测可懂度是否低于最小阈值；

(g)将该文本输入再处理成后续合成语音；

(h)预测该后续合成语音的可懂度；

(i)确定来自步骤(h)的预测可懂度是否低于最小阈值；

(k)重复步骤(f)至(k)。

方案12.如方案11的方法，其中步骤(f)中的模型是隐藏马尔可夫模型，该模型使用最大似然线性回归算法进行调整。

方案13.如方案11的方法，其中预测可懂度的步骤包括计算语音可懂度得分，该得分包括加权韵律属性的总和。

方案14.如方案13的方法，其中所述加权韵律属性包括音调、语速、频谱能量、基音或重音中的至少两个。

方案15.如方案13的方法，其中调整的模型是基于可懂度指数、语音传输指数或语音干扰水平中的至少一种。

方案16.如方案11的方法，其中调整的模型是基于可懂度指数、语音传输指数或语音干扰水平中的至少一种。

方案17.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c 1)通过扬声器将该合成语音输出给用户；

(c2)从用户接收该合成语音难以理解的指示；

(d)将文本输入再处理成后续合成语音以校正难以理解的合成语音；和

(e)通过扬声器将该后续合成语音输出给用户。

方案18.如方案17的方法进一步包括识别用户的交流能力，其中步骤(d)中基于识别的交流能力产生后续合成语音。

方案19.如方案17的方法，其中在步骤(d)中该后续合成语音比合成语音简单。

方案20.如方案17的方法，其中在步骤(d)中该后续合成语音比合成语音慢。

附图说明

下面结合附图描述本发明的一个或多个优选实施例，其中相同的符号表示相同的元件，并且其中：

图1是示出能够利用本发明公开的方法的通信系统的实施例的框图；

图2是示出可用于图1的系统的文本语音转换(TTS)系统的实施例的框图，该系统用于执行语音合成和/或改善语音识别度的示例方法；

图3是示出可由图1的通信系统和图2的TTS系统执行的语音合成方法的实施例的流程图；和

图4是示出可由图1的通信系统和图2的TTS系统执行的语音合成方法的另一实施例的流程图。

具体实施方式

下面的具体实施方式描述了通信系统示例，可用于该通信系统的文本语音转换(TTS)系统的示例，可用于上述系统的一个或两者的方法的一个或多个示例。下面描述的方法可由车辆远程信息处理单元(VTU)使用，作为合成语音的一部分向VTU用户输出。虽然以下描述的方法是这样的：他们可在程序执行过程中或运行时在VTU的车辆环境进行实施，但是可以理解的是，它们可用于任何类型的TTS系统和其他类型的TTS系统以及除了车辆环境的其他环境。

通信系统

参照图1，该图示出了示例性的操作环境，该操作环境包括移动车辆通信系统10，并且能够用于实施本发明所公开的方法。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18、和呼叫中心20。应当理解，所公开的方法可以用于任何数目的不同的系统且不特别局限于此处示出的操作环境。系统10的体系结构、构造、设置、和操作及其单个组件在本领域中也是公知的。因此，下面的段落仅提供了一个这样的示例系统10的简要介绍，此处未示出的其他系统也可以使用所公开的方法。

车辆12在图示实施例中描绘为轿车，但是应当理解，任何其他车辆-包括摩托车、卡车、运动型多功能车(SUV)、休闲车(RV)、船舶、飞机等，也可以使用。图1中概括示出了一些车载电子设备28，其通常包括远程信息处理单元30、麦克风32、一个或多个按钮或其他控制输入件34、音频系统36、可视显示器38、和GPS模块40以及一些车辆系统模块(VSM)42。这些设备中的一些-如麦克风32和按钮34可以直接连至远程信息处理单元，而另一些使用一个或多个如通信总线44或娱乐总线46的网络连接进行间接连接。合适的网络连接的例子包括控制器局域网(CAN)、面向媒体的系统传输(MOST)、本地互联网络(LIN)、局域网(LAN)、和其他适当的连接，诸如以太网或其他符合已知的ISO、SAE和IEEE标准和规范的连接，以上仅是举例。

远程信息处理单元30可以是OEM安装的(嵌入式的)或售后市场(aftermarket)的设备，其可在无线载波系统14上通过无线网络进行无线语音和/或数据通信，以便车辆可以与呼叫中心20、其他启用了远程信息处理的车辆、或其他实体或设备进行通信。远程信息处理单元优选地使用无线电传输来与无线载波系统14建立通信通道(语音通道和/或数据通道)以便语音和/或数据传输可在通道上进行收发。通过提供语音和数据通信，远程信息处理单元30使车辆可提供一些包括与导航、电话、紧急援助、诊断、信息娱乐等相关的不同的服务。数据可通过数据连接发送，诸如通过数据通道上的分组数据传输或通过语音通道使用本领域已知的技术发送。对于包括语音通信(如在呼叫中心20具有现场顾问或语音应答单元)和数据通信(如为呼叫中心20提供GPS位置数据或车辆诊断数据)的联合服务，系统可使用语音通道上的单呼叫以及根据需要在语音通道上的语音和数据传输之间切换，且这些可以使用本领域技术人员已知的技术完成。

根据一个实施例，远程信息处理单元30使用根据GSM或CDMA标准的蜂窝通信，因此其包括用于如免提通话的语音通信的标准蜂窝芯片50、用于数据传输的无线调制解调器、电子处理设备52、一个或多个数字存储设备54、和双天线56。应当理解，无线调制解调器可以通过存储在远程信息处理单元中并由处理器52执行的软件实现，或者其可以是位于远程信息处理单元30内部或外部的单独的硬件组件。无线调制解调器可使用任何数量的不同的标准或协议进行操作，诸如EVDO、CDMA、GPRS和EDGE。车辆和其他联网的设备之间的无线网络也可使用远程信息处理单元30来执行。为此，远程信息处理单元30可配置为根据一个或多个无线协议-诸如任何IEEE802.11协议、WiMAX、或蓝牙进行无线通信。当用于如TCP/IP的分组交换型数据通信时，远程信息处理单元可以配置静态IP地址或者可以设置为从网络中的其他设备-如路由器或从网络地址服务器中自动接收分配的IP地址。

处理器52可以是任何类型的能处理电子指令的设备，包括微处理器、微控制器、主处理器、控制器、车辆通信处理器、和专用集成电路(ASIC)。它可以是仅用于远程信息处理单元30的专用处理器，或可以与其他车辆系统共享。处理器52执行各种类型的数字存储指令，如软件或存储在存储器54中的固件程序，其使得远程信息处理单元能提供广泛的服务。例如，处理器52可执行程序或处理数据来执行本发明讨论的方法的至少一部分。

远程信息处理单元30可用于提供不同种类的车辆服务，包括到车辆和/或来自车辆的无线通信。这些服务包括：行车方向和与基于GPS的车辆导航模块40相结合而提供的其他导航相关服务；与一个或多个碰撞传感器接口模块-如车身控制模块(未显示)相结合而提供的安全气囊展开通知和其他紧急情况或路边援助有关的服务；使用一个或多个诊断模块的诊断报告；与信息娱乐系统相关的服务，其中音乐、网页、电影、电视节目、电子游戏和/或其他信息通过信息娱乐模块(未显示)下载并被存储以用于目前或稍后重放。以上列出的服务绝不是远程信息处理单元30的所有功能的详尽列表，而仅是远程信息处理单元可以提供的一些服务的列举。此外，应当理解，前述模块中的至少一些可以以远程信息处理单元30内部或外部存储的软件指令的形式实现，他们可以是位于远程信息处理单元30内部或外部的硬件组件，或他们可彼此或与位于整个车辆上的其他系统集成和/或共享，以上仅列举了几种可能。在位于远程信息处理单元30外部的如VSM42的模块被执行的情况下，可以使用车辆总线44与远程信息处理单元交换数据和命令。

GPS模块40接收来自GPS卫星星座60的无线电信号。通过这些信号，模块40可以确定车辆位置，其用于为车辆驾驶员提供导航和其他位置相关服务。导航信息可在显示器38(或车内的其他显示器)上显示或当提供方向导航时进行口头表达。导航服务可使用专用的车内导航模块(可以是GPS模块40的一部分)进行提供，或一些或全部导航服务可通过远程信息处理单元30来提供，其中位置信息被发送至远程位置以便向车辆提供导航地图、地图标注(兴趣点、饭店等)、路径计算等。位置信息可提供至呼叫中心20或其他远程计算机系统-诸如计算机18，用于其他目的-诸如车队管理。而且，新的或更新的地图数据可通过远程信息处理单元30从呼叫中心20下载至GPS模块40。

除了音频系统36和GPS模块40，车辆12可包括电子硬件组件形式的其他车辆系统模块(VSM)42，其位于整个车辆内并通常从一个或多个传感器接收输入以及使用感测到的输入来完成诊断、监控、控制、报告和/或其他功能。VSM42的每一个优选通过通信总线44连接至其他VSM，也连接至远程信息处理单元30，并可被编程来运行车辆系统和子系统的诊断测试。例如，一个VSM 42可以是发动机控制模块(ECM)，其控制发动机运转的不同方面-如燃料的点火和点火定时，另一个VSM 42模块可以是动力控制模块，其调节车辆动力的一个或多个组件的运转，又一个VSM 42模块可以是车体控制模块，其管理位于整个车辆内的不同电子组件，如车辆的电门锁和头灯。根据一个实施例，发动机控制模块配备了车载诊断(OBD)功能，其提供大量的实时数据，如来自包括车辆发射传感器的不同传感器的实时数据，并提供标准化诊断故障代码(DTC)序列，其使得技术员迅速对车内故障进行确认和补救。本领域技术人员可以理解，上述VSM仅是可用于车辆12内的一些模块的示例，多种其他模块也是有可能的。

车载电子设备28还包括多个车辆用户接口，其为驾乘人员提供供给和/或接收信息的手段，包括麦克风32、按钮34、音频系统36和可视显示器38。本文所用术语“车辆用户接口”完全包括任何合适的电子设备形式，包括硬件和软件组件，其位于车辆内使得车辆用户与或通过车辆组件进行通信。麦克风32为远程信息处理单元提供音频输入，使驾驶员或其他驾乘人员能够通过无线载波系统14提供语音命令和执行免提呼叫。为此，可以使用本领域已知的人机界面(HMI)技术连接至车载自动语音处理单元。按钮34允许用户手动输入至远程信息处理单元30以发起无线电话呼叫和提供其他数据、响应或控制输入。相对于常规服务求助呼叫，单独的按钮可用于启动至呼叫中心20的紧急呼叫。音频系统36为驾乘人员提供音频输出，可以是专用的、独立的系统或原车音频系统的一部分。基于所示的特定实施例，音频系统36可操作地联接至车辆总线44和娱乐总线46，可以提供AM、FM和卫星无线电、CD、DVD和其他多媒体功能。这些功能可与已描述的信息娱乐模块一起或独立提供。可视显示器38优选是图形显示器，如仪表盘上的触摸屏或挡风玻璃反射回来的抬头显示器，可用于提供大量的输入和输出功能。也可以使用不同的其他车辆用户接口，图1的接口仅是一特定实施例。

无线载波系统14优选为蜂窝电话系统，包括多个蜂窝塔70(仅显示出一个)、一个或多个移动切换中心(MSC)72和任何其他连接无线载波系统14与陆地网络16所需的网络组件。每一个蜂窝塔70包括发送和接收天线和基站，不同蜂窝塔的基站与MSC72或直接连接或通过中间设备如基站控制器进行连接。蜂窝系统14可实施任何合适的通信技术，包括例如诸如AMPS的模拟技术或诸如CDMA(如CDMA2000)或GSM/GPRS的较新的数字技术。本领域技术人员可以理解，无线系统14可使用不同的蜂窝塔/基站/MSC安排。例如，基站和蜂窝塔可以在同一地点联合定位或可以彼此远离，每个基站可负责单独蜂窝塔或单独基站可服务不同的蜂窝塔，不同的基站可以联接至单独的MSC，上面仅描述了一些可能的布局。

除了使用无线载波系统14，可以使用以卫星通信形式的不同的无线载波系统来提供与车辆的单向或双向通信。可使用一颗或多颗通信卫星62和上行传输站64来完成。单向通信可以是例如卫星无线电服务，其中节目内容(新闻、音乐等)由传输站64接收、打包上传，然后发送至卫星62，其将节目广播至用户。双向通信可以是例如使用卫星62在车辆12和站64之间进行中继电话服务的卫星电话服务。如果使用，该卫星电话可以替代无线载波系统14或作为其补充。

陆地网络16可以是传统的陆地电信网络，其连接一个或多个固定电话并将无线载波系统14连接至呼叫中心20。例如，陆地网络16可包括像这样的公共交换电话网络(PSTN)，其用于提供硬线电话、分组交换数据通信和互联网基础设施。陆地网络16的一个或多个部分可通过使用标准有线网络、光纤或其他光学网络、有线电视网络、电力线、其他如无线局域网(WLAN)的无线网络，或提供宽带无线接入(BWA)的网络，或他们的任意组合进行完成。此外，呼叫中心20并非必须通过陆地网络16连接，而是可以包括无线电话设备使得它可以直接与无线网络如无线载波系统14进行通信。

计算机18可以是经由私有或如因特网的公共网络进行访问的多个计算机之一。每一个这样的计算机18可用于一个或多个目的，诸如由车辆通过远程信息处理单元30和无线载波系统14访问的网络服务器。其他这样可访问的计算机18可以是例如：诊断信息和其他车辆数据可从车辆通过远程信息处理单元30进行上传的服务中心计算机；由车主或其他用户使用的客户端计算机，以访问或接收车辆数据或设置或者配置用户喜好或控制车辆功能为目的；或第三方，车辆数据或其他信息通过与车辆12或呼叫中心20之一或两者的通信提供给或来自第三方。计算机18还可以用于提供如DNS服务的因特网连接，或作为使用DHCP或其他合适的协议来为车辆12分配IP地址的网络地址服务器。

呼叫中心20被设计为提供具有大量不同的系统后端功能的车辆电子设备28，根据此处示出的实施例，通常包括一个或多个交换器80、服务器82、数据库84、人工顾问86和自动语音应答系统(VRS)88，所有这些都是本领域已知的。这些不同的呼叫中心组件优选地通过有线或无线本地局域网90彼此进行联接。交换器80可以是专用交换分机(PBX)交换器，其将输入信号进行分路使得语音传输常常通过常规电话发送至人工顾问86或使用VoIP发送至自动语音应答系统88。人工顾问电话也可使用VoIP，如图1中虚线所示。通过交换器80的VoIP和其他数据通信可通过连接在交换器80和网络90之间的调制解调器(未示出)来完成。数据通过调制解调器传输至服务器82和/或数据库84。数据库84可存储账号信息-如用户认证信息、车辆识别码、资料记录、行为模式和其他相关用户信息。数据传输还可以通过如802.11x、GPRS和类似的无线系统完成。虽然示出的实施例描述为可以使用人工顾问86来配合使用由人操纵的呼叫中心20，但可以理解，呼叫中心可替代性地使用VRS 88作为自动顾问或者可使用VRS 88和人工顾问86的结合。

语音合成系统

现在转向图2，该图示出了能使用本发明公开的方法的文本语音转换(TTS)系统210的示例性体系结构。通常，用户或车辆上的乘客可与TTS系统进行交互以从应用程序接收指令或听应用程序的菜单提示，例如车辆导航应用程序、免提呼叫应用程序或其他类似程序。有多种TTS合成，包括共振峰TTS合成(formant TTS synthesis)和拼接TTS合成(concatenative TTS synthesis)。共振峰TTS合成不输出记录的人类语音，反而输出计算机生成的音频，往往听起来像人造和机器人的语言。在拼接TTS合成中，将保存的人类语音的段拼接在一起，并产生更平滑、听起来更自然的语音输出。通常，拼接TTS系统从文本源中提取输出词语或标识符，将输出转换成恰当的语言单元，选择与语言单元最相对应的语音的存储单元，将所选择的语言单元转换成音频信号，并且输出音频信号作为可听见的语音与用户交互。

TTS系统对于本领域技术人员是周知的，如背景技术部分所描述的。但图2示出了根据本发明公开的改进TTS系统的例子。根据一个实施例，系统210的一些或全部可位于和使用图1的远程信息处理单元30进行处理。根据一个可选实施例，TTS系统210的一些或全部可位于和使用计算装置进行处理，计算装置在远离车辆12的位置，例如呼叫中心20。例如，语言模型、声学模型和其他类似模型可存储在呼叫中心20的服务器82和/或数据库84之一的存储器中，并与车辆远程信息处理单元30进行通信以进行车载TTS处理。类似地，TTS软件可使用呼叫中心20的服务器82之一的处理器进行处理。换句话说，TTS系统210可以以任何期望的方式位于远程信息处理单元30内或跨呼叫中心20和车辆12分布。

系统210可包括一个或多个文本源212和存储器-例如远程信息处理存储器54，用于存储来自文本源212的文本和存储TTS软件和数据。系统210还可包括处理器，例如远程信息处理器52，其用于处理存储器内的文本和功能并与以下系统模块联合在一起。预处理器214从文本源212接收文本并将文本转换成合适的词等。合成引擎216将预处理器214的输出转换成合适的语言单元如短语、从句和/或句子。一个或多个语音库218存储记录的语音。单元选择器220从数据库218中选择与合成引擎216的输出对应的最好的存储的语言单元。后处理器222修改或调整一个或多个被选择的存储的语音单元。将一个或多个语言模型224作为合成引擎216的输入，并且将一个或多个声学模型226作为单元选择器220的输入。系统210还可包括将选择的语言单元转换成音频信号的声学接口228和扬声器230，例如远程信息处理音频系统的扬声器，以便将音频信号转换成听得见的语音。系统210可以进一步包括麦克风-例如远程信息处理麦克风32和声学接口232以将语音数字化成声学数据用作为后处理器222的反馈。

文本源212可在任何合适的介质中并可包括任何合适的内容。例如，文本源212可以是一个或多个扫描的文件、文本文件或应用程序的数据文件或任何其他的合适的计算机文件等。文本源212可包括将被合成语音的词、数字、符号和/或标点符号，并输出至文本转换器214。可以使用任何合适数量和类型的文本源。

预处理器214将来自文本源212的文本转换成词、识别码等。例如，当文本是数字格式时，预处理器214可以将数字转换成对应的词。在另一个例子中，当文本是标点符号、用大写字母或其它如变音的特殊符号进行强调以指示适当的重音和语调、下划线或粗体时，预处理器214可同样将它们转换成适合合成引擎216和/或单元选择器220使用的输出。

合成引擎216接收文本转换器214的输出并能够将该输出排列成可包括一个或多个句子、从句、短语、词、词根和/或类似的语言单元。引擎216可使用语言模型224以协助协调语言单元的最有可能的排列。语言模型224在将文本转换器214的输出排列成语言单元时提供规则、语法和/或语义。模型224还可定义在任何给定TTS模式、任何给定时间下系统210期望的整个语言单元，和/或可提供规则等，从而控制哪种类型的语言单元和/或韵律可以在逻辑上遵循其他类型的语言单元和/或韵律以形成听起来自然的语音。语言单元可由同音字组成，如音素字符串等，并且可以是音素HMM的形式。

语音库218包括来自一个或多个人的预记录的语音。语音可包括预记录的句子、从句、短语、词、预记录词的词根等。语音库218还可包括与预记录语音相关的数据，例如用于识别由单元选择器220使用的被记录的语音段的元数据。可以使用任何合适类型和数量的语音库。

单元选择器220将合成引擎216的输出与存储的语音数据进行比较，选择与合成引擎的输出对应最好的存储的语音。由单元选择器220选择的语音可包括预记录的句子、从句、短语、词、预记录词的词根等。选择器220可使用声学模型226协助比较和选择最有可能的存储语音或对应最好的存储语音的候选。声学模型226可与选择器220一起用于对合成引擎输出数据和存储的语音数据进行比较和对比，评估其间的差异或相似的幅度，并最终利用决策逻辑以确定匹配最好的存储语音数据和输出相应的存储语音。

通常，匹配最好的语音数据是用本领域技术人员已知的任何各种技术进行确定的与合成引擎216的输出的差异性最小或与输出概率最高的数据。这些技术包括动态时间弯曲分类器、人工智能技术、神经网络、无音素识别器和/或如隐马尔可夫模型(HMM)引擎的概率模式匹配器。本领域技术人员已知，HMM引擎用于产生多个TTS模型的候选或假设。在通过语音的声学特征分析最终确定和选择表示合成引擎输出的最有可能正确的解释时考虑假设。更具体地，HMM引擎产生以语言单元假设排名“N最佳”列表的形式的统计模型，给定一个或另一个语言单元根据计算的HMM置信值或声学数据的观察序列的概率，例如通过贝叶斯定理的应用程序。

在一个实施例中，单元选择器220的输出可直接传送至声学接口228或没有进行后处理的通过后处理器222。在另一个实施例中，后处理器222可接收单元选择器220的输出以进行进一步的处理。

无论哪一种情况，声学接口228都将数字音频数据转换成模拟音频信号。接口228可以是数字模拟转换设备、电路和/或软件等。扬声器230是电声换能器，其将模拟音频信号转换成用户可以听到并且麦克风32可接收的语音。

方法

现在转向图3，该图示出了一种语音合成方法300。图3的方法300可以在车辆远程信息处理单元30的操作环境中使用图2的TTS系统210的合适程序来执行，也可以使用图1所示的其他组件的合适的硬件和程序。基于上述系统的描述和结合剩下的附图对下面描述的方法的讨论，任何特定的实施型式的这些特征对于本领域技术人员都是已知的。本领域技术人员也认识到，该方法可使用其他操作环境中的其他TTS系统进行执行。

总体上，方法300包括在文本语音转换系统中接收文本输入、将文本输入处理成合成语音、确定合成语音难以理解和将文本输入再处理成后续合成语音，其通过扬声器输出给用户。通过预测合成语音的可懂度，可以将合成语音确定为难以理解，并确定该预测的可懂度低于最小阈值。

再次参考图3，方法300以任何合适的方式在步骤305开始。例如，车辆使用者启动与远程信息处理单元30的用户接口的交互，优选通过按压用户接口按钮34来开始会话，其中当操作在TTS模式时用户从远程信息处理单元30接收TTS音频。在一个示例性实施例中，方法300可作为远程信息处理单元30的导航路径应用程序的一部分开始。

在步骤310，在TTS系统中接收文本输入。例如，文本输入可包括来自TTS系统210的文本源212的一串字母、数字、符号等。

在步骤315，使用该系统的处理器将文本输入处理成合成语音。首先，例如，文本输入可被预处理以便将文本输入转换成适合于语音合成的输出。例如，预处理器214可将接收自文本源212的文本转换成适合于合成引擎216使用的字、标识符等。第二，例如，输出可被排列成语言单元。例如，合成引擎216可接收文本转换器214的输出，使用语言模型224可以将输出排列成语言单元，其可包括一个或多个句子、从句、短语、词、词根和/或类似参量。语言单元可由同音字组成，如音素字符串等。第三，例如，语言单元可以与存储的语音数据进行比较，与语言单元对应最好的语音可以被选择为输入文本的语音代表。例如，单元选择器220可使用声学模型228对合成引擎216输出的语言单元和存储在第一语音库218a中的语音数据进行比较，并选择其相关数据与合成引擎的输出对应的最好的存储语音。

在步骤320，可以预测来自步骤315的合成语音的可懂度。可以使用任何可用和已知的预测语音可懂度的方法。例如，可懂度指数(AI)可用于预测在特定收听条件下的语音可懂度，如在给定水平的语音强度下具有给定水平的背景噪声的房间里。AI是语音信号的振幅谱函数和超过背景噪声的阈值水平的频谱的量。AI可以在0到1的尺度上测量。在另一个例子中，语言传输指数(STI)可用于表达通信通道-如系统或房间携带包含在语音中的信息的能力，是语音可懂度的间接测量。STI可以在0到1的尺度上测量。在进一步的例子中，语言干扰级(SIL)可用于表征人耳有最高灵敏度的频率范围内的噪音，并且从倍频带中测量的声压级进行计算。SIL可以在600到4800Hz的尺度上进行测量，其可包括一些如600-1200Hz、1200-2400Hz和2400-4800Hz的倍频带。SIL也可包括倍频带的平均级。

语音可懂度可以任何合适的方式使用一个或多个上述提及的指数进行预测。例如，可以使用两个或多个指数并且每一个可以被平均，或以任何合适的方式进行加权，例如用来反映一个指数比另一个更好的预测能力。更具体地，在多元回归模型中可使用两个或更多个指数，其可根据主观平均意见得分来为模型计算适当的权重。建立模型时可以使用任何合适的技术，包括最小均方误差、最小二乘估计等。

在另一个例子中，语音可懂度可根据已提交的名为“ASSESSINGINTELLIGIBILITY OF SYNTHESIZED SPEECH”的美国专利申请中公开的技术进行估计或预测，该申请已转让给本申请的受让人且全部内容在此通过引用并入。

在步骤325，可以确定在步骤320中预测的可懂度是否低于最小阈值。仅是为了说明，适用于AI和/或STI的最小阈值在0至1的尺度下可以是0.8。

在步骤330，如果在步骤325中确定预测的可懂度不低于最小阈值，则合成语音可通过扬声器输出给用户。例如，如果预测可懂度为0.9；比说明的最小阈值0.8大，那么该语音被输出给用户。例如，通过选择器220从数据库218中选择来自用户的预记录语音，其可通过接口228和扬声器230进行输出。

在步骤335，如果在步骤325中确定预测的可懂度低于最小阈值，则调整与处理文本输入共同使用的模型。例如，如果预测可懂度为0.6；比说明的最小阈值0.8小，那么调整模型。例如，一个或多个声学模型226可包括TTS隐藏马尔可夫模型(HMM)，其可以任何合适的方式进行调整。可以在远程信息处理单元30或呼叫中心20中调整模型。

在更具体的例子中，可使用最大似然线性回归(MLLR)算法调整模型，该算法使用韵律属性的不同变体，包括语调、语速、谱能、音调、重音、发音和/或类似参量。两个或更多个不同属性和语言可懂度(SI)之间的关系可以用任何合适的方式进行定义。例如，SI分数可根据公式计算为加权的韵律属性的和，例如SI＝a*重音+b*语调+c*语速。所述模型可使用表示属性的高斯概率密度函数进行估计，其中权重a、b、c可以调整至获得最有可能的可以使SI比最小阈值大的模型。高斯混合模型和参数可使用最大似然回归模型或任何其他合适的技术进行估计。

每一个MLLR特征可以任何合适的方式进行加权，例如用来反映一个特征比另一个具有更大的相关性。在一个实施例中，在语音识别模型的开发过程中，对特征进行选择和加权可在语音识别运行前进行。在另一个实施例中，对特征进行选择和加权可在语音识别运行的过程中进行。可使用最小均方误差(MMSE)的迭代算法、在建立阶段中训练的神经网络等进行加权。

在步骤340，文本输入可再处理成后续合成语音以校正难以理解的合成语音。例如，在步骤335调整的模型可用于对文本输入进行再处理以使得后续合成语音可以理解。如本发明前面关于TTS系统210的讨论，后处理器222可用于以任何合适的方式修改存储的语音。如虚线处所示，调整后的TTS HMM可回馈至上游以改善后续语音的选择。

在步骤345，可以预测后续合成语音的可懂度，例如如上面关于步骤320的讨论。

在步骤350，可以确定来自步骤345的预测的可懂度是否低于最小阈值。如果不低于最小阈值，则方法进行到步骤330。但是，如果低于阈值，则方法循环回到步骤335。

在步骤355，方法可以任何合适的方式结束。

现在转到图4，该图示出了另一种语音合成方法400。图4的方法400可以在车辆远程信息处理单元30的操作环境中使用图2的TTS系统210的合适程序来执行，也可以使用图1所示的其他组件的合适的硬件和程序。基于上述系统的描述和结合剩下的附图对下面描述方法的讨论，任何特定的实施型式的这些特征对于本领域技术人员都是已知的。本领域技术人员也认识到，该方法可使用其他操作环境中的其他TTS系统进行执行。

总体上，方法400包括在文本语音转换系统中接收文本输入、将文本输入处理成合成语音、确定该合成语音是难以理解的和将该文本输入再处理成后续合成语音，其通过扬声器输出给用户。通过经由扬声器将合成语音输出给用户并从用户接收合成语音是难以理解的指示，可以确定合成语音是难以理解的。

再次参考图4，方法400以任何合适的方式在步骤405开始，例如像上文关于步骤305讨论的一样。

在步骤410，在TTS系统中接收文本输入，例如像上文关于步骤310讨论的一样。

在步骤415，使用系统的处理器将文本输入处理成合成语音，例如像上文关于步骤315讨论的一样。

在步骤420，通过扬声器将合成语音输出给用户，例如像上文关于步骤350讨论的一样。

在步骤425，可以从用户接收合成语音是难以理解的指示。例如，用户可发出任何合适的指示，包括“请再说一遍？”或“什么？”或“请重复”等。该指示可通过远程信息处理单元30的远程信息处理麦克风32进行接收并传递给语音识别系统以用任何合适的方式来识别指示。语音识别和相关的系统在本领域是已知的，由美国专利公开号No.2011/0144987进行公开，该申请被转让给本申请的受让人并其全部内容在此通过引用并入本文。此后，识别出的指示可以任何合适的方式传递给TTS系统210。

在步骤430，用户的交流能力被识别。例如，用户被识别为新手、专家、使用母语的人、使用非母语的人等。本领域普通技术人员熟知区分母语和非母语以及新手和专家的技术。不过，优选的技术可以是基于在ASR系统中检测给定词典中词的不同发音。

在步骤435，文本输入被再处理成后续合成语音以校正难以理解的合成语音。在一个例子中，后续合成语音可以比合成语音更慢。更具体地，后续合成语音的语速可以比合成语音的语速更慢。在另一个例子中，后续合成语音可以比合成语音更易于理解。更具体地，为了更好的语境和理解，后续合成语音可以比前面的合成语音更详细。例如，合成语音用语-诸如“号码”可以被如“请说出你想打电话的联系人的姓名”的后续合成语音代替。

在一个实施例中，基于步骤430中识别的用户交流能力产生后续合成语音。例如，如果用户被识别为一个新手或一个使用非母语的人，那么后续合成语音可以更简单和/或更慢。在另一个例子中，如果用户被识别为一个新手或一个使用非母语的人，那么后续合成语音可包括与之前的语音输出不同的用语。

在步骤440，可以通过扬声器将后续合成语音输出给用户，例如像上文关于步骤350讨论的一样。

在步骤445，方法可以任何合适的方式结束。

所述方法或其部分可通过包括在计算机可读介质上的指令的计算机程序产品执行，所述产品由一个或多个计算机的一个或多个处理器使用，用于执行一个或多个方法步骤。计算机程序产品可包括一个或多个由源代码、目标代码、可执行代码或其他格式的程序指令组成的软件程序；一个或多个固件程序；或硬件描述语言(HDL)文件；和任何程序相关数据。数据可包括数据结构、查找表或任何其他合适格式的数据。程序指令可包括程序模块、例程、程序、对象、组件和/或类似物。计算机程序可在台计算机或彼此通信的多台计算机上执行。

程序可在包括一个或多个存储设备、制品等的计算机可读介质上实施。计算机可读介质的例子包括计算机系统存储器-如RAM(随机存取器)、ROM(只读存储器)；半导体存储器-如EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、快闪存储器；磁盘或光盘或磁带；和/或类似物。计算机可读介质还可包括计算机到计算机的连接，例如当数据通过网络或其他通信连接(有线、无线或他们的组合)被传送和提供时。上述例子的任何组合也都包括在计算机可读介质的范畴内。因此，可以理解，所述方法可由任何电子物品和/或设备至少部分地执行，该电子物品和/或设备能执行与所公开的方法的一个或多个步骤对应的指令。

可以理解，前面的内容是对本发明一个或多个优选实施例的描述。本发明并不局限于本文公开的具体实施例，而是仅由所附权利要求书进行限定。此外，与具体实施例相关的前面的描述中包含的陈述并不作为本发明的范围或权利要求中使用的术语的定义的限定，除非上面明确定义了术语或短语。其他不同的实施例和所公开的实施例的不同变化和变形对于本领域技术人员来说是显而易见的。例如，本发明可应用于其他语音信号处理领域，例如移动通信、语音互联网协议的应用和类似领域。所有这样的其他实施例、变化和变形都在所附权利要求的范围内。

本说明书和权利要求中使用的术语“例如”、“如”、“诸如”和“类似”，以及动词“包含”、“具有”、“包括”和他们其他的动词形式，当与一个或多个组件或其他项目列表配合使用时，每一个都被解释为开放的，意思是列表不被认为排除其他附加组件或项目。其他术语应被解释为使用其最宽的合理含义，除非它们用在需要不同解释的上下文中。

Claims

1.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)确定该合成语音是难以理解的；

(e)通过扬声器将该后续合成语音输出给用户。

2.如权利要求1的方法，其中步骤(c)包括：

(c1)预测该合成语音的可懂度；和

(c2)确定来自步骤(c1)的预测可懂度低于最小阈值。

3.如权利要求2的方法，在步骤(c)和(d)之间进一步包括：

(f)调整与步骤(d)结合使用的模型。

4.如权利要求3的方法，在步骤(e)之后进一步包括：

(g)预测该后续合成语音的可懂度；

(h)确定来自步骤(g)的预测可懂度是否低于最小阈值；

(j)重复步骤(f)至(j)。

5.如权利要求1的方法，其中步骤(c)包括：

(c1)通过扬声器将该合成语音输出给用户；和

(c2)从用户接收该合成语音难以理解的指示。

6.如权利要求5的方法，其中在步骤(d)中该后续合成语音比合成语音简单。

7.如权利要求5的方法，其中在步骤(d)中该后续合成语音比合成语音慢。

8.如权利要求5的方法，进一步包括识别用户的交流能力，其中在步骤(d)中基于识别出的交流能力产生后续合成语音。

9.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c)预测该合成语音的可懂度；

(d)确定来自步骤(c)的预测可懂度是否低于最小阈值；

(g)将该文本输入再处理成后续合成语音；

(h)预测该后续合成语音的可懂度；

(i)确定来自步骤(h)的预测可懂度是否低于最小阈值；

(k)重复步骤(f)至(k)。

10.一种语音合成方法，包括下列步骤：

(a)在文本语音转换系统中接收文本输入；

(b)使用该系统的处理器将该文本输入处理成合成语音；

(c1)通过扬声器将该合成语音输出给用户；

(c2)从用户接收该合成语音难以理解的指示；

(e)通过扬声器将该后续合成语音输出给用户。