CN101496096B

CN101496096B - 话音及文本通信系统、方法及设备

Info

Publication number: CN101496096B
Application number: CN2007800282788A
Authority: CN
Inventors: 斯蒂芬·莫洛伊; 哈利德·希勒米·埃尔-马勒赫
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2012-11-07
Anticipated expiration: 2027-07-31
Also published as: EP2047459A2; US20100030557A1; WO2008016949A3; JP2010505134A; KR101136769B1; US20160111082A1; KR20090036141A; US9940923B2; WO2008016949A2; JP5149292B2; CN101496096A

Abstract

本发明涉及用以将语音转换成文本及将文本转换成语音的系统、方法及设备。一种设备包括声码器、语音到文本转换引擎、文本到语音转换引擎及用户界面。所述声码器可操作以将语音信号转换成包及将包转换成语音信号。所述语音到文本转换引擎可操作以将语音转换成文本。所述文本到语音转换引擎可操作以将文本转换成语音。所述用户界面可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用所述语音到文本转换引擎，第二模式启用所述文本到语音转换引擎，且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎。

Description

话音及文本通信系统、方法及设备

技术领域

本发明涉及通信，且更特定来说，涉及话音及文本通信系统、方法及设备。

背景技术

蜂窝式电话可包含音频捕获装置(例如麦克风及/或语音合成器)，及用以产生音频包或帧的音频编码器。电话可使用通信协议层及模块以横跨无线通信信道将包传输到网络或另一通信装置。

发明内容

一个方面涉及一种包括声码器、语音到文本转换引擎、文本到语音转换引擎及用户界面的设备。所述声码器可操作以将语音信号转换成包及将包转换成语音信号。所述语音到文本转换引擎可操作以将语音转换成文本。所述文本到语音转换引擎可操作以将文本转换成语音。所述用户界面可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用所述语音到文本转换引擎，第二模式启用所述文本到语音转换引擎，且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎。

另一方面涉及一种包括以下的设备：声码器，其可操作以将语音信号转换成包及将包转换成语音信号；语音到文本转换引擎，其可操作以将语音转换成文本；用户界面，其可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用所述声码器，且第二模式启用所述语音到文本转换引擎；及收发器，其可操作以将经编码语音包及文本包无线地传输到通信网络。

另一方面涉及一种包括以下的网络设备：声码器，其可操作以将包转换成语音信号；语音到文本转换引擎，其可操作以将语音转换成文本；选择单元，其可操作以在第一与第二模式之间切换，其中所述第一模式启用所述声码器，且第二模式启用所述声码器及所述语音到文本转换引擎；及收发器，其可操作以将经编码语音包及文本包无线地传输到通信网络。

另一方面涉及一种包括以下的方法：接收经编码语音包；将所接收的经编码语音包转换成语音信号；及接收用户从多个模式中对一模式的选择，其中第一模式启用语音到文本转换，第二模式启用文本到语音转换，且第三模式启用语音到文本及文本到语音转换。

在附图及下文说明中将阐述一个或一个以上实施例的细节。

附图说明

图1图解说明包括第一通信装置、网络及第二通信装置的系统。

图2图解说明使用图1中的第二装置的方法。

图3图解说明图1中的第一通信装置的另一配置。

图4图解说明图1中的网络的另一配置。

具体实施方式

在会议中、飞机上、火车上、剧院中、饭店、教堂或其它地方在移动装置上接收呼叫可能对他人造成干扰。如果用户可在移动装置上选择另一模式来接收呼叫及/或对所述呼叫作出响应，那么其可使干扰少得多。在一个模式中，装置接收呼叫且将语音/话音信号转换成文本而不需要另一端上的呼叫者输入文本。

图1图解说明包括第一通信装置100、网络110及第二通信装置120的系统。所述系统可包含其它组件。所述系统可使用任何类型的无限通信，例如全球移动通信系统(GSM)、码分多址存取(CDMA)、CDMA2000、CDMA2000 lx EV-DO、宽带CDMA(WCDMA)、正交频分多址存取(OFDMA)、蓝牙、WiFi、WiMax等。

第一通信装置100包括话音编码器(声码器)102及收发器104。除图1中所示组件之外或代替图1中所示组件，第一通信装置100可包含其它组件。第一通信装置100可代表或实施于路线(非无线)电话、无线通信装置、个人数字助理(PDA)、手持式装置、膝上型计算机、台式计算机、数码相机、数字记录装置、具备网络能力的数字电视、移动电话、蜂窝式电话、卫星电话、相机电话、基于地面的无线电电话、直接双向通信装置(有时称为“对讲机”)、摄像放像机等中。

声码器102可包含用于将语音信号编码为包的编码器及用于将包解码为语音信号的解码器。声码器102可以是任何类型的声码器，例如增强型可变速率编码器(EVRC)、自适应多速率(AMR)、第四代声码器(4GV)等。在共同受让的美国专利第6,397,175、6,434,519、6,438,518、6,449,592、6,456,964、6,477,502、6,584,438、6,678,649、6,691,084、6,804,218、6,947,888号中对声码器进行了描述，所述专利以引用的方式并入本文中。

收发器104可无线地传输及接收含有经编码语音的包。

网络110可代表一个或一个以上基站、基站控制器(BSC)、移动交换中心(MSC)等。如果第一装置100是路线电话，那么网络110可包含普通老式电话服务(POTS)网络中的组件。网络110包括声码器112及收发器114。除图1中所示的组件之外或代替图1中所示的组件，网络110可包含其它组件。

第二通信装置120可代表或实施于无线通信装置、个人数字助理(PDA)、手持式装置、膝上型计算机、台式计算机、数码相机、数字记录装置、具备网络能力的数字电视、移动电话、蜂窝式电话、卫星电话、相机电话、基于地面的无线电电话、直接双向通信装置(有时称为“对讲机”)、摄像放像机等中。

第二通信装置120包括收发器124、语音及文本单元140、扬声器142、显示器128、用户输入界面130(例如小键盘)，及麦克风146。语音及文本单元140包括声码器122、语音到文本转换引擎126、控制器144、文本到语音转换引擎132及话音合成器134。除图1中所示的组件之外或代替图1中所示的组件，语音及文本单元140可包含其它组件。

语音及文本单元140中的组件或功能中的一者或一者以上可集成到单个模块、单元、组件或软件中。例如，语音到文本转换引擎126可与声码器122组合在一起。文本到语音转换引擎132可与声码器122组合在一起，以使得将文本转换成经编码的语音包。话音合成器134可与声码器122及/或文本到语音转换引擎132组合在一起。

语音到文本转换引擎126可将话音/语音转换成文本。文本到语音转换引擎132可将文本转换成语音。控制器144可控制语音及文本单元140中一个或一个以上组件的作业及参数。

装置120可为用户提供若干种通信模式来接收呼叫及/或对呼叫作出响应，如以下表格及图2中所示。

模式	收听	讲话
			正常模式	是	是
第二模式	是	否-传输文本或经合成语音
			第三模式	否-将传入语音转换成文本	是
第四模式	否-将传入语音转换成文本	否-传输文本或经合成语音

在正常模式(方框202及210)中，第二装置120的用户接收来自第一装置100的呼叫、自扬声器142收听语音及向麦克风146讲话。

图2图解说明使用图1中的第二装置120的方法。当第二装置120接收来自第一装置100的呼叫时，第二装置120的用户可经由方框200中的用户界面130选择所述模式中的一者。另一选择为，用户可在第二装置120接收来自另一装置的呼叫之前在方框200中在各个模式之间进行切换。例如，如果第二装置120的用户进入会议、飞机、火车、剧院、饭店、教堂或传入呼叫可能对他人造成干扰的其它地方，那么所述用户可从正常模式切换为其它三种模式中的一者。

在第二模式(方框204及212)中，第二装置130的用户可(例如)使用耳机、头戴耳机或头戴送受话器收听来自第一装置100的语音，但不说话。而第二装置130的用户可在小键盘130上打字或使用记录笔在显示器128上输入手写文本。显示器128或文本到语音转换引擎132可具有识别手写文本及字符的模块。装置120可(a)发送文本到第一装置100或(b)借助文本到语音转换引擎132将文本转换成语音。

话音合成器134可合成语音以产生大致匹配用户的自然话音的个人化语音信号。话音合成器134可包含存储用户话音的特性(例如，音调)的存储器。在共同受让的美国专利第6,950,799号中描述了一种话音合成器，所述专利以引用的方式并入本文中。在共同受让的美国专利申请案第11/398,364号中描述了另一种话音合成器，所述申请案以引用的方式并入本文中。

声码器122将语音编码成包。可存在或不存在短的延迟。在一种配置中，与第二装置120的通信对第一装置100的用户来说可呈现为无缝，而不是短时间延迟。如果第二装置120的用户正在开会，那么谈话可更基于消息而非无缝。

在第三及第四模式(方框206、208、214及216)中，装置120接收呼叫且语音到文本转换引擎126将语音/话音信号转换成文本以用于在显示器128上显示。在一种配置中，第三及第四模式可允许第一装置100的用户继续说话而不需要第一装置100的用户切换到文本输入模式。语音到文本转换引擎126可包含话音识别模块来识别话语及声音以将其转换成文本。

在第三模式中，装置120允许用户向传声器146讲话，所述麦克风146将语音传递到声码器122以编码成包。

在第四模式中，第二装置130的用户可在小键盘130上打字或使用记录笔在显示器128上输入手写文本。装置120可(a)发送文本到第一装置100或(b)用文本到语音转换引擎132将文本转换成语音。话音合成器134可合成语音以产生大致匹配用户的自然话音的个人化语音信号。声码器122将语音编码成包。

在第二及第四模式中，如果第二装置120经设定以将文本转换成语音并合成语音，那么在第二装置120接受来自第一装置100的呼叫时与在第一装置100接收语音包时之间可能存在时间延迟。第二装置120可经配置以播放由用户预先记录的消息以通知第一装置100：第二装置120的用户正在开会且将使用文本到语音转换来作出响应。

第二及第四模式可提供一个或一个以上优点，例如传输没有背景噪声的语音、不需要回声消除或减少对回声消除的需要、不需要噪声抑制或减少对噪声抑制的需要、更快编码、较少处理等。

图1显示变化(新的功能及/或元件)可仅实施于第二通信装置120中的实例。为实现新的通信模式(第二、第三及第四模式)，第二通信装置120具有声码器122、语音到文本引擎126、文本到语音引擎132等。通过此装置120，系统可支持新的模式而不需要网络110及常规电话100(陆线电话、移动电话等)的任何变化。装置120可接收并发送话音包，而不管用户所选定的模式如何。

图3图解说明图1中的第一通信装置100的另一配置100A。在图3中，第一通信装置100A包括语音到文本转换引擎300、编码器302、收发器104、解码器304及用户界面330。语音到文本转换引擎300可将话音/语音转换成待由收发器104传输到网络110的文本。图3中的第一通信装置100A可允许第二装置120被设计成不具有语音到文本转换引擎126。图3中的第一通信装置100A可通过向网络110发送文本而不是语音来节省带宽。用户界面330可以是可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用声码器302、304且第二模式启用语音到文本转换引擎300。

图4图解说明图1中的网络110的另一配置110A。在图4中，网络110A包括话音编码器/解码器400、收发器114及语音到文本转换引擎402。在另一配置中，网络110A可进一步包括文本到语音转换引擎404、话音合成器402及控制器444。声码器400解码语音包以提供语音信号。语音到文本转换引擎402可将话音/语音转换成待由收发器114传输到第二装置120的文本。图4中的网络110A可允许第二装置120被设计成不具有语音到文本转换引擎126或允许语音到文本转换引擎126被停用。图4中的网络110A可通过发送文本代替语音到第二装置120来节省带宽。

图4中的网络110A可获得对接收装置120的配置、状况或偏好的了解。如果网络110A认识到接收装置120不会得益于接收话音包(例如，感测用户偏好或呼叫的地方，例如，极吵杂的环境且难于收听所接收的语音)，那么网络110A会将话音包变换成文本包。即使接收装置120具有(例如使用语音到文本引擎126)将话音包改变为文本包的能力，但是如果用户处于接收文本模式(通常为会议或静音通信)，那么执行此变换(从话音到文本)可是对带宽及装置电力的浪费。

因此，图4中的网络110A可用于变化(新的特征及/或元件)仅实施于网络110A中(即，通信装置或手机没有变化)的系统中。网络110A可在以下情况下承担将话音包改变为文本且反之亦然的责任：移动手机不具有语音到文本转换单元；或如果移动手机的确具有语音到文本转换单元，但所述手机不喜欢执行转换或由于缺少计算资源、电池电力等所致不能执行所述转换。

例如，图1中的第一装置100可发送\接收话音包(即，第一模式)，而第二装置120发送\接收文本(即，第四模式)。第二装置120可不具有单元140(或仅具有声码器122)或具有被停用的单元140。为允许第二装置120以第四模式操作，图4中的网络儿0A会将第一装置的话音包改变为文本包(使用语音到文本引擎402)以发送到第二装置120且会将来自第二装置120的文本包改变为话音包(使用文本到语音引擎404)以发送到第一装置100。

如果第二装置120不具有单元140，那么第二装置120可向网络110A发信号通知(例如带内)所需模式且因此要求网络110A在语音与文本之间进行转换，即执行单元140的功能。

个人化语音合成可在网络110A中执行。如以上所述，图1中的单元140具有话音合成器134以将文本到语音引擎132的输出改变为个人化语音(用户的话音)。在具有图4的网络110A的系统中，为产生携载第二装置120用户的话音特征的话音包，第二装置120可向网络110A发送所存储的具有用户的频谱参数及音调信息的话音包(在使用第二或第四模式的开始时)。网络110A可使用所述数个所传输的话音包(在文本包之前)来产生个人化话音包。

下文将描述从第二装置120传输用于第二或第四模式的包到网络110A的实例。在使用所述“文本模式”(第二或第四模式)的开始时，第二装置120将用户预先存储的话音包(N个包)加上操作模式(1、2、3或4；请求执行转换)传输到网络110A。然后，第二装置120可发送文本包。

所述两种配置(图1及图4)的组合也是可能的。当使用所述模式中的一者时，网络110A在感测(例如，经由发信号而接收请求)接收装置120的能力之后将启用文本\语音转换，从而执行转换或使网络110A或接收装置100A执行转换。

以上所述的一个或一个以上组件及特征可实施于按键通话(PTT)或按键读取通信装置中。PTT装置允许用户按下装置上的按钮并通话，同时所述装置将语音转换成文本并将文本包传输到网络或直接传输到另一通信装置。PTT通信是“基于消息”，而非连续的，例如标准话音呼叫。用户保持按下装置上的PTT按钮的时间段可很好地构造出然后将被转换成文本等的消息。

装置120可具有用来存储指令和数据的专用存储器、以及专用硬件、软件、固件或其组合。如果实施于软件中，那么所述技术可作为指令体现于例如以下的计算机可读媒体上：随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、闪速存储器或类似装置。所述指令致使一个或一个以上处理器执行本发明中所述功能性的某些方面。

本发明中所述的技术可实施于通用微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的逻辑装置内。例如，语音及文本单元140及相关联组件与模块可实施为运行于数字信号处理器(DSP)或其它处理装置上的编码过程或编码/解码(CODEC)过程的一部分。因此，被描述为模块的组件可形成这一过程或单独一过程的可编程特征。

语音及文本单元140可具有用来存储指令和数据的专用存储器、以及专用硬件、软件、固件或其组合。如果实施于软件中，所述技术可体现为可由一个或一个以上处理器执行的指令。所述指令可存储于例如以下的计算机可读媒体上：随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、闪速存储器、磁学或光学数据存储装置或类似装置。所述指令致使一个或一个以上处理器执行本发明中所述功能性的某些方面。

上文已经描述了各种实施例。所述及其它实施例皆在所附权力要求书的范围内。

Claims

1.一种用于语音及文本通信的设备，其包括：

声码器，其可操作以将输入语音信号转换成待发送的经编码语音包并将接收到的经编码语音包转换成输出语音信号；

语音到文本转换引擎，其可操作以将语音转换成文本；

文本到语音转换引擎，其可操作以将文本转换成语音；及

用户界面，其可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用所述语音到文本转换引擎，第二模式启用所述文本到语音转换引擎，且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎，其中，无论所述用户选择的是何种模式，所述设备均接收所述经编码语音包并发送所述经编码语音包。

2.如权利要求1所述的设备，其进一步包括显示器以显示来自所述语音到文本转换引擎的文本。

3.如权利要求1所述的设备，其进一步包括小键盘以接收来自用户的输入文本。

4.如权利要求1所述的设备，其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之前接收用户对模式的选择。

5.如权利要求1所述的设备，其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之后接收用户对模式的选择。

6.如权利要求1所述的设备，其进一步包括：

话音合成器以在选择的是所述第二模式或所述第三模式时从转换成语音的文本合成用户的话音。

7.如权利要求1所述的设备，其进一步包括可操作以将经编码语音包及文本包无线地传输到通信网络的收发器。

8.一种用于语音及文本通信的设备，其包括：

声码器，其可操作以将输入语音信号转换成待发送的经编码语音包及将接收到的经编码语音包转换成输出语音信号；

语音到文本转换引擎，其可操作以将语音包转换成文本包；

用户界面，其可操作以接收用户从多个模式中对一模式的选择，其中第一模式启用所述声码器，且第二模式启用所述语音到文本转换引擎；及

收发器，其可操作以向通信网络无线地发送所述经编码语音包及所述文本包并从所述通信网络无线地接收所述经编码语音包和所述文本包，其中，无论所述用户选择的是何种模式，所述设备均接收所述经编码语音包并发送所述经编码语音包。

9.如权利要求8所述的设备，其进一步包括显示器以显示来自所述语音到文本转换引擎的文本。

10.如权利要求8所述的设备，其进一步包括小键盘以接收来自用户的输入文本。

11.如权利要求8所述的设备，其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之前接收用户对模式的选择。

12.如权利要求8所述的设备，其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之后接收用户对模式的选择。

13.一种网络设备，其包括：

声码器，其可操作以将经编码语音包转换成语音信号；

语音到文本转换引擎，其可操作以将所述经编码语音包转换成文本包；

选择单元，其可操作以在第一与第二模式之间切换，其中所述第一模式启用所述声码器，且第二模式启用所述声码器及所述语音到文本转换引擎；及

收发器，其可操作以将所述经编码语音包及所述文本包无线地传输到通信网络，其中，无论所选择的是何种模式，所述网络设备均接收所述经编码语音包并发送所述经编码语音包。

14.如权利要求13所述的网络设备，其进一步包括可操作以将文本转换成语音的文本到语音转换引擎，其中所述选择单元可操作以切换到其中启用所述声码器及两个转换引擎的第三模式。

15.如权利要求14所述的网络设备，其进一步包括可操作以从转换成语音的文本合成用户的话音的话音合成器。

16.如权利要求15所述的网络设备，其中所述话音合成器可操作以接收并存储用户的话音的话音特性。

17.如权利要求13所述的网络设备，其进一步包括可操作以从通信装置接收将语音转换成文本的请求的控制器。

18.如权利要求13所述的网络设备，其进一步包括可操作以从通信装置接收将文本转换成语音的请求的控制器。

19.一种用于语音及文本通信的方法，其包括：

由第二通信设备从第一通信设备接收经编码语音包；

将所述所接收的经编码语音包转换成语音信号；及

接收用户从多个模式中对一模式的选择，其中第一模式启用语音到文本转换，第二模式启用文本到语音转换，且第三模式启用语音到文本及文本到语音转换，其中，无论所述用户选择的是何种模式，所述经编码语音包由所述第一通信设备发送，而由所述第二通信设备接收。

20.如权利要求19所述的方法，其进一步包括在接收传入呼叫之前接收用户对模式的选择。

21.如权利要求19所述的方法，其进一步包括在接收传入呼叫之后接收用户对模式的选择。