CN101496096B - 话音及文本通信系统、方法及设备 - Google Patents

话音及文本通信系统、方法及设备 Download PDF

Info

Publication number
CN101496096B
CN101496096B CN2007800282788A CN200780028278A CN101496096B CN 101496096 B CN101496096 B CN 101496096B CN 2007800282788 A CN2007800282788 A CN 2007800282788A CN 200780028278 A CN200780028278 A CN 200780028278A CN 101496096 B CN101496096 B CN 101496096B
Authority
CN
China
Prior art keywords
text
speech
equipment
pattern
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800282788A
Other languages
English (en)
Other versions
CN101496096A (zh
Inventor
斯蒂芬·莫洛伊
哈利德·希勒米·埃尔-马勒赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101496096A publication Critical patent/CN101496096A/zh
Application granted granted Critical
Publication of CN101496096B publication Critical patent/CN101496096B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及用以将语音转换成文本及将文本转换成语音的系统、方法及设备。一种设备包括声码器、语音到文本转换引擎、文本到语音转换引擎及用户界面。所述声码器可操作以将语音信号转换成包及将包转换成语音信号。所述语音到文本转换引擎可操作以将语音转换成文本。所述文本到语音转换引擎可操作以将文本转换成语音。所述用户界面可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用所述语音到文本转换引擎,第二模式启用所述文本到语音转换引擎,且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎。

Description

话音及文本通信系统、方法及设备
技术领域
本发明涉及通信,且更特定来说,涉及话音及文本通信系统、方法及设备。
背景技术
蜂窝式电话可包含音频捕获装置(例如麦克风及/或语音合成器),及用以产生音频包或帧的音频编码器。电话可使用通信协议层及模块以横跨无线通信信道将包传输到网络或另一通信装置。
发明内容
一个方面涉及一种包括声码器、语音到文本转换引擎、文本到语音转换引擎及用户界面的设备。所述声码器可操作以将语音信号转换成包及将包转换成语音信号。所述语音到文本转换引擎可操作以将语音转换成文本。所述文本到语音转换引擎可操作以将文本转换成语音。所述用户界面可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用所述语音到文本转换引擎,第二模式启用所述文本到语音转换引擎,且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎。
另一方面涉及一种包括以下的设备:声码器,其可操作以将语音信号转换成包及将包转换成语音信号;语音到文本转换引擎,其可操作以将语音转换成文本;用户界面,其可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用所述声码器,且第二模式启用所述语音到文本转换引擎;及收发器,其可操作以将经编码语音包及文本包无线地传输到通信网络。
另一方面涉及一种包括以下的网络设备:声码器,其可操作以将包转换成语音信号;语音到文本转换引擎,其可操作以将语音转换成文本;选择单元,其可操作以在第一与第二模式之间切换,其中所述第一模式启用所述声码器,且第二模式启用所述声码器及所述语音到文本转换引擎;及收发器,其可操作以将经编码语音包及文本包无线地传输到通信网络。
另一方面涉及一种包括以下的方法:接收经编码语音包;将所接收的经编码语音包转换成语音信号;及接收用户从多个模式中对一模式的选择,其中第一模式启用语音到文本转换,第二模式启用文本到语音转换,且第三模式启用语音到文本及文本到语音转换。
在附图及下文说明中将阐述一个或一个以上实施例的细节。
附图说明
图1图解说明包括第一通信装置、网络及第二通信装置的系统。
图2图解说明使用图1中的第二装置的方法。
图3图解说明图1中的第一通信装置的另一配置。
图4图解说明图1中的网络的另一配置。
具体实施方式
在会议中、飞机上、火车上、剧院中、饭店、教堂或其它地方在移动装置上接收呼叫可能对他人造成干扰。如果用户可在移动装置上选择另一模式来接收呼叫及/或对所述呼叫作出响应,那么其可使干扰少得多。在一个模式中,装置接收呼叫且将语音/话音信号转换成文本而不需要另一端上的呼叫者输入文本。
图1图解说明包括第一通信装置100、网络110及第二通信装置120的系统。所述系统可包含其它组件。所述系统可使用任何类型的无限通信,例如全球移动通信系统(GSM)、码分多址存取(CDMA)、CDMA2000、CDMA2000 lx EV-DO、宽带CDMA(WCDMA)、正交频分多址存取(OFDMA)、蓝牙、WiFi、WiMax等。
第一通信装置100包括话音编码器(声码器)102及收发器104。除图1中所示组件之外或代替图1中所示组件,第一通信装置100可包含其它组件。第一通信装置100可代表或实施于路线(非无线)电话、无线通信装置、个人数字助理(PDA)、手持式装置、膝上型计算机、台式计算机、数码相机、数字记录装置、具备网络能力的数字电视、移动电话、蜂窝式电话、卫星电话、相机电话、基于地面的无线电电话、直接双向通信装置(有时称为“对讲机”)、摄像放像机等中。
声码器102可包含用于将语音信号编码为包的编码器及用于将包解码为语音信号的解码器。声码器102可以是任何类型的声码器,例如增强型可变速率编码器(EVRC)、自适应多速率(AMR)、第四代声码器(4GV)等。在共同受让的美国专利第6,397,175、6,434,519、6,438,518、6,449,592、6,456,964、6,477,502、6,584,438、6,678,649、6,691,084、6,804,218、6,947,888号中对声码器进行了描述,所述专利以引用的方式并入本文中。
收发器104可无线地传输及接收含有经编码语音的包。
网络110可代表一个或一个以上基站、基站控制器(BSC)、移动交换中心(MSC)等。如果第一装置100是路线电话,那么网络110可包含普通老式电话服务(POTS)网络中的组件。网络110包括声码器112及收发器114。除图1中所示的组件之外或代替图1中所示的组件,网络110可包含其它组件。
第二通信装置120可代表或实施于无线通信装置、个人数字助理(PDA)、手持式装置、膝上型计算机、台式计算机、数码相机、数字记录装置、具备网络能力的数字电视、移动电话、蜂窝式电话、卫星电话、相机电话、基于地面的无线电电话、直接双向通信装置(有时称为“对讲机”)、摄像放像机等中。
第二通信装置120包括收发器124、语音及文本单元140、扬声器142、显示器128、用户输入界面130(例如小键盘),及麦克风146。语音及文本单元140包括声码器122、语音到文本转换引擎126、控制器144、文本到语音转换引擎132及话音合成器134。除图1中所示的组件之外或代替图1中所示的组件,语音及文本单元140可包含其它组件。
语音及文本单元140中的组件或功能中的一者或一者以上可集成到单个模块、单元、组件或软件中。例如,语音到文本转换引擎126可与声码器122组合在一起。文本到语音转换引擎132可与声码器122组合在一起,以使得将文本转换成经编码的语音包。话音合成器134可与声码器122及/或文本到语音转换引擎132组合在一起。
语音到文本转换引擎126可将话音/语音转换成文本。文本到语音转换引擎132可将文本转换成语音。控制器144可控制语音及文本单元140中一个或一个以上组件的作业及参数。
装置120可为用户提供若干种通信模式来接收呼叫及/或对呼叫作出响应,如以下表格及图2中所示。
  模式   收听   讲话
  正常模式   是   是
  第二模式   是   否-传输文本或经合成语音
  第三模式   否-将传入语音转换成文本
  第四模式   否-将传入语音转换成文本   否-传输文本或经合成语音
在正常模式(方框202及210)中,第二装置120的用户接收来自第一装置100的呼叫、自扬声器142收听语音及向麦克风146讲话。
图2图解说明使用图1中的第二装置120的方法。当第二装置120接收来自第一装置100的呼叫时,第二装置120的用户可经由方框200中的用户界面130选择所述模式中的一者。另一选择为,用户可在第二装置120接收来自另一装置的呼叫之前在方框200中在各个模式之间进行切换。例如,如果第二装置120的用户进入会议、飞机、火车、剧院、饭店、教堂或传入呼叫可能对他人造成干扰的其它地方,那么所述用户可从正常模式切换为其它三种模式中的一者。
在第二模式(方框204及212)中,第二装置130的用户可(例如)使用耳机、头戴耳机或头戴送受话器收听来自第一装置100的语音,但不说话。而第二装置130的用户可在小键盘130上打字或使用记录笔在显示器128上输入手写文本。显示器128或文本到语音转换引擎132可具有识别手写文本及字符的模块。装置120可(a)发送文本到第一装置100或(b)借助文本到语音转换引擎132将文本转换成语音。
话音合成器134可合成语音以产生大致匹配用户的自然话音的个人化语音信号。话音合成器134可包含存储用户话音的特性(例如,音调)的存储器。在共同受让的美国专利第6,950,799号中描述了一种话音合成器,所述专利以引用的方式并入本文中。在共同受让的美国专利申请案第11/398,364号中描述了另一种话音合成器,所述申请案以引用的方式并入本文中。
声码器122将语音编码成包。可存在或不存在短的延迟。在一种配置中,与第二装置120的通信对第一装置100的用户来说可呈现为无缝,而不是短时间延迟。如果第二装置120的用户正在开会,那么谈话可更基于消息而非无缝。
在第三及第四模式(方框206、208、214及216)中,装置120接收呼叫且语音到文本转换引擎126将语音/话音信号转换成文本以用于在显示器128上显示。在一种配置中,第三及第四模式可允许第一装置100的用户继续说话而不需要第一装置100的用户切换到文本输入模式。语音到文本转换引擎126可包含话音识别模块来识别话语及声音以将其转换成文本。
在第三模式中,装置120允许用户向传声器146讲话,所述麦克风146将语音传递到声码器122以编码成包。
在第四模式中,第二装置130的用户可在小键盘130上打字或使用记录笔在显示器128上输入手写文本。装置120可(a)发送文本到第一装置100或(b)用文本到语音转换引擎132将文本转换成语音。话音合成器134可合成语音以产生大致匹配用户的自然话音的个人化语音信号。声码器122将语音编码成包。
在第二及第四模式中,如果第二装置120经设定以将文本转换成语音并合成语音,那么在第二装置120接受来自第一装置100的呼叫时与在第一装置100接收语音包时之间可能存在时间延迟。第二装置120可经配置以播放由用户预先记录的消息以通知第一装置100:第二装置120的用户正在开会且将使用文本到语音转换来作出响应。
第二及第四模式可提供一个或一个以上优点,例如传输没有背景噪声的语音、不需要回声消除或减少对回声消除的需要、不需要噪声抑制或减少对噪声抑制的需要、更快编码、较少处理等。
图1显示变化(新的功能及/或元件)可仅实施于第二通信装置120中的实例。为实现新的通信模式(第二、第三及第四模式),第二通信装置120具有声码器122、语音到文本引擎126、文本到语音引擎132等。通过此装置120,系统可支持新的模式而不需要网络110及常规电话100(陆线电话、移动电话等)的任何变化。装置120可接收并发送话音包,而不管用户所选定的模式如何。
图3图解说明图1中的第一通信装置100的另一配置100A。在图3中,第一通信装置100A包括语音到文本转换引擎300、编码器302、收发器104、解码器304及用户界面330。语音到文本转换引擎300可将话音/语音转换成待由收发器104传输到网络110的文本。图3中的第一通信装置100A可允许第二装置120被设计成不具有语音到文本转换引擎126。图3中的第一通信装置100A可通过向网络110发送文本而不是语音来节省带宽。用户界面330可以是可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用声码器302、304且第二模式启用语音到文本转换引擎300。
图4图解说明图1中的网络110的另一配置110A。在图4中,网络110A包括话音编码器/解码器400、收发器114及语音到文本转换引擎402。在另一配置中,网络110A可进一步包括文本到语音转换引擎404、话音合成器402及控制器444。声码器400解码语音包以提供语音信号。语音到文本转换引擎402可将话音/语音转换成待由收发器114传输到第二装置120的文本。图4中的网络110A可允许第二装置120被设计成不具有语音到文本转换引擎126或允许语音到文本转换引擎126被停用。图4中的网络110A可通过发送文本代替语音到第二装置120来节省带宽。
图4中的网络110A可获得对接收装置120的配置、状况或偏好的了解。如果网络110A认识到接收装置120不会得益于接收话音包(例如,感测用户偏好或呼叫的地方,例如,极吵杂的环境且难于收听所接收的语音),那么网络110A会将话音包变换成文本包。即使接收装置120具有(例如使用语音到文本引擎126)将话音包改变为文本包的能力,但是如果用户处于接收文本模式(通常为会议或静音通信),那么执行此变换(从话音到文本)可是对带宽及装置电力的浪费。
因此,图4中的网络110A可用于变化(新的特征及/或元件)仅实施于网络110A中(即,通信装置或手机没有变化)的系统中。网络110A可在以下情况下承担将话音包改变为文本且反之亦然的责任:移动手机不具有语音到文本转换单元;或如果移动手机的确具有语音到文本转换单元,但所述手机不喜欢执行转换或由于缺少计算资源、电池电力等所致不能执行所述转换。
例如,图1中的第一装置100可发送\接收话音包(即,第一模式),而第二装置120发送\接收文本(即,第四模式)。第二装置120可不具有单元140(或仅具有声码器122)或具有被停用的单元140。为允许第二装置120以第四模式操作,图4中的网络儿0A会将第一装置的话音包改变为文本包(使用语音到文本引擎402)以发送到第二装置120且会将来自第二装置120的文本包改变为话音包(使用文本到语音引擎404)以发送到第一装置100。
如果第二装置120不具有单元140,那么第二装置120可向网络110A发信号通知(例如带内)所需模式且因此要求网络110A在语音与文本之间进行转换,即执行单元140的功能。
个人化语音合成可在网络110A中执行。如以上所述,图1中的单元140具有话音合成器134以将文本到语音引擎132的输出改变为个人化语音(用户的话音)。在具有图4的网络110A的系统中,为产生携载第二装置120用户的话音特征的话音包,第二装置120可向网络110A发送所存储的具有用户的频谱参数及音调信息的话音包(在使用第二或第四模式的开始时)。网络110A可使用所述数个所传输的话音包(在文本包之前)来产生个人化话音包。
下文将描述从第二装置120传输用于第二或第四模式的包到网络110A的实例。在使用所述“文本模式”(第二或第四模式)的开始时,第二装置120将用户预先存储的话音包(N个包)加上操作模式(1、2、3或4;请求执行转换)传输到网络110A。然后,第二装置120可发送文本包。
所述两种配置(图1及图4)的组合也是可能的。当使用所述模式中的一者时,网络110A在感测(例如,经由发信号而接收请求)接收装置120的能力之后将启用文本\语音转换,从而执行转换或使网络110A或接收装置100A执行转换。
以上所述的一个或一个以上组件及特征可实施于按键通话(PTT)或按键读取通信装置中。PTT装置允许用户按下装置上的按钮并通话,同时所述装置将语音转换成文本并将文本包传输到网络或直接传输到另一通信装置。PTT通信是“基于消息”,而非连续的,例如标准话音呼叫。用户保持按下装置上的PTT按钮的时间段可很好地构造出然后将被转换成文本等的消息。
装置120可具有用来存储指令和数据的专用存储器、以及专用硬件、软件、固件或其组合。如果实施于软件中,那么所述技术可作为指令体现于例如以下的计算机可读媒体上:随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、闪速存储器或类似装置。所述指令致使一个或一个以上处理器执行本发明中所述功能性的某些方面。
本发明中所述的技术可实施于通用微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的逻辑装置内。例如,语音及文本单元140及相关联组件与模块可实施为运行于数字信号处理器(DSP)或其它处理装置上的编码过程或编码/解码(CODEC)过程的一部分。因此,被描述为模块的组件可形成这一过程或单独一过程的可编程特征。
语音及文本单元140可具有用来存储指令和数据的专用存储器、以及专用硬件、软件、固件或其组合。如果实施于软件中,所述技术可体现为可由一个或一个以上处理器执行的指令。所述指令可存储于例如以下的计算机可读媒体上:随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、闪速存储器、磁学或光学数据存储装置或类似装置。所述指令致使一个或一个以上处理器执行本发明中所述功能性的某些方面。
上文已经描述了各种实施例。所述及其它实施例皆在所附权力要求书的范围内。

Claims (21)

1.一种用于语音及文本通信的设备,其包括:
声码器,其可操作以将输入语音信号转换成待发送的经编码语音包并将接收到的经编码语音包转换成输出语音信号;
语音到文本转换引擎,其可操作以将语音转换成文本;
文本到语音转换引擎,其可操作以将文本转换成语音;及
用户界面,其可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用所述语音到文本转换引擎,第二模式启用所述文本到语音转换引擎,且第三模式启用所述语音到文本转换引擎及所述文本到语音转换引擎,其中,无论所述用户选择的是何种模式,所述设备均接收所述经编码语音包并发送所述经编码语音包。
2.如权利要求1所述的设备,其进一步包括显示器以显示来自所述语音到文本转换引擎的文本。
3.如权利要求1所述的设备,其进一步包括小键盘以接收来自用户的输入文本。
4.如权利要求1所述的设备,其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之前接收用户对模式的选择。
5.如权利要求1所述的设备,其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之后接收用户对模式的选择。
6.如权利要求1所述的设备,其进一步包括:
话音合成器以在选择的是所述第二模式或所述第三模式时从转换成语音的文本合成用户的话音。
7.如权利要求1所述的设备,其进一步包括可操作以将经编码语音包及文本包无线地传输到通信网络的收发器。
8.一种用于语音及文本通信的设备,其包括:
声码器,其可操作以将输入语音信号转换成待发送的经编码语音包及将接收到的经编码语音包转换成输出语音信号;
语音到文本转换引擎,其可操作以将语音包转换成文本包;
用户界面,其可操作以接收用户从多个模式中对一模式的选择,其中第一模式启用所述声码器,且第二模式启用所述语音到文本转换引擎;及
收发器,其可操作以向通信网络无线地发送所述经编码语音包及所述文本包并从所述通信网络无线地接收所述经编码语音包和所述文本包,其中,无论所述用户选择的是何种模式,所述设备均接收所述经编码语音包并发送所述经编码语音包。
9.如权利要求8所述的设备,其进一步包括显示器以显示来自所述语音到文本转换引擎的文本。
10.如权利要求8所述的设备,其进一步包括小键盘以接收来自用户的输入文本。
11.如权利要求8所述的设备,其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之前接收用户对模式的选择。
12.如权利要求8所述的设备,其中所述用户界面可操作以在所述设备接收来自另一设备的呼叫之后接收用户对模式的选择。
13.一种网络设备,其包括:
声码器,其可操作以将经编码语音包转换成语音信号;
语音到文本转换引擎,其可操作以将所述经编码语音包转换成文本包;
选择单元,其可操作以在第一与第二模式之间切换,其中所述第一模式启用所述声码器,且第二模式启用所述声码器及所述语音到文本转换引擎;及
收发器,其可操作以将所述经编码语音包及所述文本包无线地传输到通信网络,其中,无论所选择的是何种模式,所述网络设备均接收所述经编码语音包并发送所述经编码语音包。
14.如权利要求13所述的网络设备,其进一步包括可操作以将文本转换成语音的文本到语音转换引擎,其中所述选择单元可操作以切换到其中启用所述声码器及两个转换引擎的第三模式。
15.如权利要求14所述的网络设备,其进一步包括可操作以从转换成语音的文本合成用户的话音的话音合成器。
16.如权利要求15所述的网络设备,其中所述话音合成器可操作以接收并存储用户的话音的话音特性。
17.如权利要求13所述的网络设备,其进一步包括可操作以从通信装置接收将语音转换成文本的请求的控制器。
18.如权利要求13所述的网络设备,其进一步包括可操作以从通信装置接收将文本转换成语音的请求的控制器。
19.一种用于语音及文本通信的方法,其包括:
由第二通信设备从第一通信设备接收经编码语音包;
将所述所接收的经编码语音包转换成语音信号;及
接收用户从多个模式中对一模式的选择,其中第一模式启用语音到文本转换,第二模式启用文本到语音转换,且第三模式启用语音到文本及文本到语音转换,其中,无论所述用户选择的是何种模式,所述经编码语音包由所述第一通信设备发送,而由所述第二通信设备接收。
20.如权利要求19所述的方法,其进一步包括在接收传入呼叫之前接收用户对模式的选择。
21.如权利要求19所述的方法,其进一步包括在接收传入呼叫之后接收用户对模式的选择。
CN2007800282788A 2006-07-31 2007-07-31 话音及文本通信系统、方法及设备 Expired - Fee Related CN101496096B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/497,011 2006-07-31
US11/497,011 US20100030557A1 (en) 2006-07-31 2006-07-31 Voice and text communication system, method and apparatus
PCT/US2007/074902 WO2008016949A2 (en) 2006-07-31 2007-07-31 Voice and text communication system, method and apparatus

Publications (2)

Publication Number Publication Date
CN101496096A CN101496096A (zh) 2009-07-29
CN101496096B true CN101496096B (zh) 2012-11-07

Family

ID=38871584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800282788A Expired - Fee Related CN101496096B (zh) 2006-07-31 2007-07-31 话音及文本通信系统、方法及设备

Country Status (6)

Country Link
US (2) US20100030557A1 (zh)
EP (1) EP2047459A2 (zh)
JP (1) JP5149292B2 (zh)
KR (1) KR101136769B1 (zh)
CN (1) CN101496096B (zh)
WO (1) WO2008016949A2 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127271B1 (en) 2001-10-18 2006-10-24 Iwao Fujisaki Communication device
US7107081B1 (en) 2001-10-18 2006-09-12 Iwao Fujisaki Communication device
US7466992B1 (en) 2001-10-18 2008-12-16 Iwao Fujisaki Communication device
US8229512B1 (en) 2003-02-08 2012-07-24 Iwao Fujisaki Communication device
US8241128B1 (en) 2003-04-03 2012-08-14 Iwao Fujisaki Communication device
US8090402B1 (en) 2003-09-26 2012-01-03 Iwao Fujisaki Communication device
US8121635B1 (en) 2003-11-22 2012-02-21 Iwao Fujisaki Communication device
US8041348B1 (en) 2004-03-23 2011-10-18 Iwao Fujisaki Communication device
US8208954B1 (en) 2005-04-08 2012-06-26 Iwao Fujisaki Communication device
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US7890089B1 (en) 2007-05-03 2011-02-15 Iwao Fujisaki Communication device
US8559983B1 (en) 2007-05-03 2013-10-15 Iwao Fujisaki Communication device
US8676273B1 (en) 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
US8639214B1 (en) 2007-10-26 2014-01-28 Iwao Fujisaki Communication device
US8472935B1 (en) 2007-10-29 2013-06-25 Iwao Fujisaki Communication device
US8744720B1 (en) 2007-12-27 2014-06-03 Iwao Fujisaki Inter-vehicle middle point maintaining implementer
CN101237489A (zh) * 2008-03-05 2008-08-06 北京邮电大学 基于语音通信内容的处理方法和装置
US8856003B2 (en) * 2008-04-30 2014-10-07 Motorola Solutions, Inc. Method for dual channel monitoring on a radio device
US8312660B1 (en) 2008-05-09 2012-11-20 Iwao Fujisaki Firearm
US8543157B1 (en) 2008-05-09 2013-09-24 Iwao Fujisaki Communication device which notifies its pin-point location or geographic area in accordance with user selection
US8340726B1 (en) 2008-06-30 2012-12-25 Iwao Fujisaki Communication device
US8452307B1 (en) 2008-07-02 2013-05-28 Iwao Fujisaki Communication device
US20110007732A1 (en) * 2009-07-08 2011-01-13 John Ward Unified Communication System
US8611876B2 (en) * 2009-10-15 2013-12-17 Larry Miller Configurable phone with interactive voice response engine
KR20110051385A (ko) * 2009-11-10 2011-05-18 삼성전자주식회사 통신 단말기 및 그의 통신 방법
CN102687583B (zh) 2009-12-31 2016-02-24 诺基亚技术有限公司 用于在一个会话中执行多个通信形式的方法和装置
CN102984672A (zh) * 2011-09-07 2013-03-20 比亚迪股份有限公司 移动终端及其通信方法
US9503550B2 (en) * 2011-09-28 2016-11-22 Elwha Llc Multi-modality communication modification
US9477943B2 (en) 2011-09-28 2016-10-25 Elwha Llc Multi-modality communication
US9002937B2 (en) 2011-09-28 2015-04-07 Elwha Llc Multi-party multi-modality communication
US9699632B2 (en) 2011-09-28 2017-07-04 Elwha Llc Multi-modality communication with interceptive conversion
US9906927B2 (en) 2011-09-28 2018-02-27 Elwha Llc Multi-modality communication initiation
US9794209B2 (en) 2011-09-28 2017-10-17 Elwha Llc User interface for multi-modality communication
US9788349B2 (en) 2011-09-28 2017-10-10 Elwha Llc Multi-modality communication auto-activation
CN103108092A (zh) * 2011-11-15 2013-05-15 希姆通信息技术(上海)有限公司 通信终端以及通信终端之间的信息传送方法
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers
US10129340B2 (en) 2012-08-07 2018-11-13 Nokia Technologies Oy Method and apparatus for performing multiple forms of communications in one session
KR101398806B1 (ko) * 2012-11-21 2014-05-27 오준수 모바일 단말기 간의 p2p 통신방법 및 그 기록매체
CN103973542B (zh) * 2013-02-01 2017-06-13 腾讯科技(深圳)有限公司 一种语音信息处理方法及装置
US9767802B2 (en) * 2013-08-29 2017-09-19 Vonage Business Inc. Methods and apparatus for conducting internet protocol telephony communications
BR112016016310B1 (pt) * 2014-01-14 2022-06-07 Interactive Intelligence Group, Inc Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros
US20150220512A1 (en) * 2014-02-05 2015-08-06 Marco Álvarez Heinemeyer Language interface system, method and computer readable medium
EP3496377B1 (en) 2014-05-23 2020-09-30 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
KR102225401B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 음성 문자 통화 서비스를 제공하는 시스템 및 방법
CN104123932B (zh) * 2014-07-29 2017-11-07 科大讯飞股份有限公司 一种语音转换系统及方法
CN105530351B (zh) * 2014-10-23 2019-09-10 中兴通讯股份有限公司 通话处理方法及装置
US9558747B2 (en) * 2014-12-10 2017-01-31 Honeywell International Inc. High intelligibility voice announcement system
EP3107090B1 (en) * 2015-06-18 2023-01-11 Airbus Operations GmbH Announcement signalling on board an aircraft
US9491270B1 (en) * 2015-11-13 2016-11-08 Motorola Solutions, Inc. Method and apparatus for muting an audio output interface of a portable communications device
US11449868B2 (en) 2016-10-03 2022-09-20 Paypal, Inc. Voice activated remittances
US20180096334A1 (en) * 2016-10-03 2018-04-05 Paypal, Inc. Voice activated remittances
EP3556121B1 (en) 2016-12-19 2022-03-02 Samsung Electronics Co., Ltd. Methods and apparatus for managing control data
CN109600307A (zh) * 2019-01-29 2019-04-09 北京百度网讯科技有限公司 即时通讯方法、终端、设备、计算机可读介质
US11468896B2 (en) * 2019-06-12 2022-10-11 Nvoq Incorporated Systems, methods, and apparatus for real-time dictation and transcription with multiple remote endpoints
CN112967719A (zh) * 2019-12-12 2021-06-15 上海棋语智能科技有限公司 一种标准电台手咪的电脑端接入设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1511286A1 (en) * 2003-08-28 2005-03-02 Alcatel Multimode voice/screen simultaneous communication device

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3484773D1 (de) * 1983-05-06 1991-08-08 Velos Group Mit endotoxinkern reaktionsfaehige monoklonale antikoerper.
US5917405A (en) * 1993-06-08 1999-06-29 Joao; Raymond Anthony Control apparatus and methods for vehicles
US5881142A (en) * 1995-07-18 1999-03-09 Jetstream Communications, Inc. Integrated communications control device for a small office configured for coupling within a scalable network
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
JP3781213B2 (ja) * 1996-06-20 2006-05-31 ソニー株式会社 電子メールシステム、コンピユータ装置及び着信通知方法
GB2323246B (en) * 1997-03-15 2002-03-20 Ibm Internet telephony signal conversion
US5786768A (en) * 1997-04-16 1998-07-28 Patrick Plastics Inc. Clock radio gas detector apparatus and method for alerting residents to hazardous gas concentrations
US6178170B1 (en) * 1997-05-13 2001-01-23 Sprint Communications Company, L. P. System and method for transporting a call
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US6366651B1 (en) * 1998-01-21 2002-04-02 Avaya Technology Corp. Communication device having capability to convert between voice and text message
US6094681A (en) * 1998-03-31 2000-07-25 Siemens Information And Communication Networks, Inc. Apparatus and method for automated event notification
US7009990B1 (en) * 1998-04-23 2006-03-07 Nortel Networks Limited Methods and systems for a telephone e-mail interface
US6173250B1 (en) * 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
JP2000023253A (ja) * 1998-06-26 2000-01-21 Nec Corp マルチモード移動無線装置及びマルチモード無線装置、並びにマルチモード移動無線装置及びマルチモード無線装置における着信通知方法
IL140805A0 (en) 1998-10-02 2002-02-10 Ibm Structure skeletons for efficient voice navigation through generic hierarchical objects
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6502073B1 (en) * 1999-03-25 2002-12-31 Kent Ridge Digital Labs Low data transmission rate and intelligible speech communication
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US6745024B1 (en) * 2000-01-10 2004-06-01 Qualcomm Incorporated System and method for preparing and sending an electronic mail communication using a wireless communications device
JP3322262B2 (ja) * 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
US6775360B2 (en) * 2000-12-28 2004-08-10 Intel Corporation Method and system for providing textual content along with voice messages
US6845359B2 (en) * 2001-03-22 2005-01-18 Motorola, Inc. FFT based sine wave synthesis method for parametric vocoders
US7406421B2 (en) * 2001-10-26 2008-07-29 Intellisist Inc. Systems and methods for reviewing informational content in a vehicle
JP2002334086A (ja) * 2001-05-10 2002-11-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
JP2002333895A (ja) * 2001-05-10 2002-11-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
KR20020091920A (ko) * 2001-06-01 2002-12-11 엘지전자 주식회사 이동통신 단말기에서의 음성 및 문자 통화 장치
US7251252B2 (en) * 2001-06-13 2007-07-31 Qwest Communications International Inc. Negotiated cell delivery capability
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7085259B2 (en) * 2001-07-31 2006-08-01 Comverse, Inc. Animated audio messaging
US7233655B2 (en) * 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
JP3733322B2 (ja) * 2001-11-21 2006-01-11 キヤノン株式会社 マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム
US7483832B2 (en) 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
JP2003289380A (ja) * 2002-03-28 2003-10-10 Nec Corp 音声符号化方式の変更方法、通信システム、通信網および通信端末
US7136811B2 (en) * 2002-04-24 2006-11-14 Motorola, Inc. Low bandwidth speech communication using default and personal phoneme tables
JP2004020613A (ja) * 2002-06-12 2004-01-22 Canon Inc サーバ、受信端末
US20040098266A1 (en) 2002-11-14 2004-05-20 International Business Machines Corporation Personal speech font
US7519042B2 (en) * 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US7227847B2 (en) * 2004-03-11 2007-06-05 Ixi Mobile (R&D) Ltd. Power management system and method for a wireless communications device
US20050266829A1 (en) * 2004-04-16 2005-12-01 Lg Elcectronics, Inc. Speech-to-text messaging system and method
WO2005109661A1 (en) * 2004-05-10 2005-11-17 Sk Telecom Co., Ltd. Mobile communication terminal for transferring and receiving of voice message and method for transferring and receiving of voice message using the same
KR100617826B1 (ko) * 2004-05-11 2006-08-28 삼성전자주식회사 음성메시지를 문자메시지로 변환하는 이동단말기 및 방법
DE102004041330B3 (de) * 2004-08-26 2006-03-16 Infineon Technologies Ag Speicherschaltung mit ein Widerstandsspeicherelement aufweisenden Speicherzellen
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs
JP4025355B2 (ja) 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US7296740B2 (en) * 2004-11-04 2007-11-20 International Business Machines Corporation Routing telecommunications to a user in dependence upon location
US7324476B2 (en) * 2004-11-04 2008-01-29 International Business Machines Corporation Establishing user accounts for RFID-based telecommunications routing
US7333014B2 (en) * 2004-11-04 2008-02-19 International Business Machines Corporation Notifying users of device events in a networked environment
US20060122840A1 (en) * 2004-12-07 2006-06-08 David Anderson Tailoring communication from interactive speech enabled and multimodal services
ATE397827T1 (de) * 2005-02-17 2008-06-15 Sony Ericsson Mobile Comm Ab Verfahren und kommunikationssystem zur übertragung von nachrichten mit audio- und/oder sprachinformation
US7917178B2 (en) * 2005-03-22 2011-03-29 Sony Ericsson Mobile Communications Ab Wireless communications device with voice-to-text conversion
US7394405B2 (en) * 2005-06-01 2008-07-01 Gm Global Technology Operations, Inc. Location-based notifications
US20070036086A1 (en) * 2005-08-09 2007-02-15 Sbc Knowledge Ventures, L.P. System and method of providing communications based on a predetermined device status
US7792253B2 (en) * 2005-10-27 2010-09-07 International Business Machines Corporation Communications involving devices having different communication modes
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
EP2119205A2 (en) * 2007-01-09 2009-11-18 Spinvox Limited Detection of unanswered call in order to give calling party the option to alternatively dictate a text message for delivery to the called party
US8914290B2 (en) * 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1511286A1 (en) * 2003-08-28 2005-03-02 Alcatel Multimode voice/screen simultaneous communication device

Also Published As

Publication number Publication date
EP2047459A2 (en) 2009-04-15
US20100030557A1 (en) 2010-02-04
WO2008016949A3 (en) 2008-03-20
JP2010505134A (ja) 2010-02-18
KR101136769B1 (ko) 2012-04-19
US20160111082A1 (en) 2016-04-21
KR20090036141A (ko) 2009-04-13
US9940923B2 (en) 2018-04-10
WO2008016949A2 (en) 2008-02-07
JP5149292B2 (ja) 2013-02-20
CN101496096A (zh) 2009-07-29

Similar Documents

Publication Publication Date Title
CN101496096B (zh) 话音及文本通信系统、方法及设备
CN107659551B (zh) 用于利用lte进行音频通信的系统与方法
EP3090531B1 (en) Smart bluetooth headset for speech command
US7650168B2 (en) Voice activated dialing for wireless headsets
CN101990743B (zh) 用于话音呼叫的突发的不连续接收
CN101689367A (zh) 配置用于语音识别的音频处理路径的方法和系统
CN101510917B (zh) 一种移动终端无声通话的方法
JP2006527528A (ja) 音声チャネルを介してデータを伝送するための方法及び装置
US9693206B2 (en) System for providing high-efficiency push-to-talk communication service to large groups over large areas
CN102131305A (zh) 一种语音业务的实现方法和系统
WO2004088854A2 (en) Apparatus, system, and method for providing silently selectable audible communication
JP2002247144A (ja) 携帯電話装置およびその着信方法
CN105611026B (zh) 一种调节通话音量的方法、装置及电子设备
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
CN105551491A (zh) 语音识别方法和设备
CN106656274B (zh) 一种语音传输系统
US20060015197A1 (en) Apparatus including audio codec and methods of operation therefor
EP3063958B1 (en) A method of extending an intercom communication range and device thereof
EP2224703B1 (en) Mobile wireless communications device with novelty voice alteration and related methods
RU2585974C2 (ru) Способ обеспечения общения людей, говорящих на разных языках
US9031619B2 (en) Visual indication of active speech reception
KR100606088B1 (ko) 휴대폰을 이용한 음성 패킷 데이터 통신 장치 및 방법
KR100639330B1 (ko) 사운드전환기능이 구비된 이동통신단말기와 그 제어방법
CN201243337Y (zh) 一种手机来电语音答录系统
KR20030010175A (ko) 수신 전 발신자 번호(숫자)·이름(문자) 음성 알림장치 및알림방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20180731

CF01 Termination of patent right due to non-payment of annual fee