CN101088117A - 改善文本到语音性能的方法和装置 - Google Patents
改善文本到语音性能的方法和装置 Download PDFInfo
- Publication number
- CN101088117A CN101088117A CNA2005800445818A CN200580044581A CN101088117A CN 101088117 A CN101088117 A CN 101088117A CN A2005800445818 A CNA2005800445818 A CN A2005800445818A CN 200580044581 A CN200580044581 A CN 200580044581A CN 101088117 A CN101088117 A CN 101088117A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- statement
- corresponding voice
- text expression
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims abstract description 63
- 238000003860 storage Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
在设备(100)中提供了一种方法(200)来改善文本到语音的性能。该方法包括下述各步骤:确定来自运行于设备中的应用程序的文本表述是否在词汇表中(202);若文本表述包括在词汇表中,则从词汇表选择相应的语音表述(204);若文本表述不在词汇表中,将文本表述合成为相应的语音表述(206);由设备将语音表述以听得见方式播放(208);对该文本表述的使用频率进行监控(210);若所述表述的使用频率大于预定阈值且所述表述在之前未存储时,将所述文本表述和相应的语音表述存入词汇表中(212);若所述表述的使用频率都低于预定阈值时,则从词汇表中清除一个或多个文本表述和相应的语音表述;在应用程序运行中重复前述各步。还包括实现该方法的一种装置。
Description
技术领域
本发明主要涉及文本到语音合成器;更具体地,涉及用于改善文本到语音性能的一种方法和装置。
背景技术
合成文本到语音(TTS)是MIPS(每秒百万条指令)的程度。在电池操作的设备中,当进行合成TTS时,诸如微处理器和伴随的存储器的资源不能总是提供一致的性能,尤其是这样的资源同时被一些另外的软件应用使用时更甚。因此,对于具有有限资源的设备,合成TTS的性能对用户发出不连贯的或听不懂的声音。而且,TTS的频繁合成能消耗电池的寿命。
本发明的下述各实施例有助于克服该技术中的这样局限。
发明内容
根据本发明的各实施例提供了一种改善文本到语音性能的方法和装置。
在本发明的第一实施例中,一种设备提供用于改善文本到语音性能的方法。该方法包括以下步骤:将频繁使用的各文本表述的词汇表合成为语音表述,将各语音表述存入词汇表中;确定来自运行于设备中的应用程序的文本表述是否在词汇表中;若文本表述包括在词汇表中,则选择相应的语音表述;若文本表述未包括在词汇表中,则将文本表述合成为语音表述;由设备以可听见方式播放语音表述;在应用程序操作过程中从确定步开始重复进行上述各步骤。
在本发明的第二实施例中,一种设备提供用于改善文本到语音性能的方法。该方法包括以下步骤:确定来自在设备中操作的应用程序的文本表述是否在词汇表中;若文本表述包括在词汇表中,则选择相应语音表述;若文本表述不在词汇表中,将文本表述合成为相应的语音表述;由设备以可听见的方式播放所述相应的语音表述;对所述文本表述的使用频率进行监控;若所述表述的使用频率大于预定阈值并且所述表述在之前未存储,则将文本表述和相应的语音表述存入词汇表中;若所述表述的使用频率低于预定阈值时,则从词汇表清除一个或多个文本表述和相应的语音表述,并且在应用程序的操作期间重复上述各步骤。
在本发明的第三实施例中,一种设备包括音频系统、存储器以及连接至上述各元件的处理器。对处理器进行编程,以确定来自操作于设备中应用程序的文本表述是否在词汇表中;若文本表述包括在该词汇表中,则选择相应的语音表述;若文本表述不在该词汇表中,则将文本表述合成为相应的语音表述;由音频系统以可听见的方式播放所述相应语音表述;对所述文本表述的使用频率进行监控;若所述表述的使用频率大于预定阈值,将所述文本表述和相应的语音表述的词汇表存入存储器中;若所述表述的使用频率低于预定阈值,则从词汇表中消除一个或多个文本表述和相应语音表述;在应用程序操作期间重复上述各步骤。
附图说明
图1是用于改善文本到语音(TTS)性能的设备的方框图;
图2是表示操作在图1设备上的方法的流程图。
具体实施方式
尽管本说明书以权利要求结束,这些权利要求限定被认为是新颖的本发明的各实施例的特征,但相信通过考虑下面的说明并结合附图,将能更好地理解本发明的实施例,相同的引用标记在各附图中使用。
图1为用于改善文本到语音(TTS)性能的设备100的图解示图。在第一实施例中,设备100包括处理器102、存储器104、音频系统106和电源112。在补充实施例中,设备100还进一步包括显示器108、输入/输出端口110和无线收发器114。设备100的部件102-114均使用如下所述的常规技术。
例如,处理器102单独地或者组合地包括常规微处理器、DSP(数字信号处理器)或类似的计算技术,以操作控制根据本发明的设备100的部件102-114的软件应用程序。存储器104为常规存储设备,用于存储各软件应用程序并处理其中的数据。音频系统106为常规语音设备,用于将音频信号(如音乐或语音)进行处理并提供给设备100的终端用户。电源112使用常规的供电技术,用于向设备100的部件102-114供电。在设备为便携设备时,电源112使用连接到常规电路的电池来为设备100供电。
在更完善的各应用中,设备100能够使用收发器114通过常规通信系统(如蜂窝网络)与其它设备无线通信。此外,设备100利用具有连接至输入/输出端口110的定位功能的小键盘,使用显示器108来提供UI(用户接口),以操纵设备100的操作。
图2是表示操作在图1设备100上的方法200的流程图。方法200开始于步骤202,处理器102在此处被编程,以确定来自操作于处理器102的应用程序的文本表述是否处于存储器104存储的词汇表中。
应用程序可以是在正常操作过程中利用TTS(文本到语音)合成的任何常规软件应用程序。常规的J2ME(Java 2平台微型版)应用程序是这类应用程序的示例。通常,J2ME应用程序由含有类和资源文件的JAR(Jara档案)文件和应用描述符文件所组成。应用描述符文件可包含频繁使用的文本表述的词汇表,或此词汇表可在称为VDF(词汇表描述符文件)的分离文件中管理。在与应用描述符文件分离的文件中维护词汇表向设备100的终端用户或供应J2ME应用程序的企业提供了独立于应用程序来定制和更新词汇表的灵活性。而且,VDF可以用于操作在处理器102上的多于一个的J2ME应用程序。
VDF可由应用程序名、应用JAR文件、应用程序版本和应用词汇表目录来组成。词汇表目录是由应用程序频繁使用的各词和/或短语组成的各表述所组成。词汇表中各表述可用SSML(语音合成标记语言)来格式化,该SSML提供用于控制诸如发音、声量、音调和速率等(仅列出少数几项)语音各方面的能力。
在操作应用程序之前,方法200可通过预装入带有包括频繁使用各表述的预定词汇表的VDF的应用程序来补充。在此实施例中,确定步骤202之前是将包含频繁使用的文本表述的词汇表合成为相应的语音表述的步骤(图2中未示出)。然后用常规数据库技术将包括这些表述的词汇表存入存储器104中。为执行合成步,处理器102可使用任何常规的TTS引擎来生成诸如AMR或VSELP的常规压缩语音格式。
在回到方法200,在确定步骤之后,若文本表述包括在其中,则处理器102在步骤204中从VDF中的词汇表选择相应的语音表述。否则,通过上述常规TTS引擎在步骤206中合成J2ME应用程序的文本表述。在步骤208中,处理器102引导音频系统106来播放相应的语音表述。在步骤210中,处理器102监控文本表述的使用频率,并且若使用频率大于预定阈值并且所述表述在之前未存入存储器104时,则在步骤212中将文本表述和相应的语音表述存入存储器104中。
在步骤214中,若所述表述的使用频率低于预定阈值,则从存储器104中消除来自词汇表的一个或多个文本表述和相应的语音表述。步骤214的执行可取决于在存储器104中是否需要额外空间,这是前面存储步骤的结果。
存储和清除步骤212-214采用常规数据库技术,用于有效地存储所述文本和语音表述到存储器104和从存储器104有效地检索所述文本和语音表述。此外,设备100的终端用户或J2ME应用程序的供应商可以根据,例如应用程序的特性或其它某些相关操作因素,能够选择预定阈值的值。
为增强TTS的性能,处理器102在J2ME应用程序的操作期间,连续重复从确定步骤202开始的前述各步骤。此外,为捕获频繁使用各表述过去的模式,处理器102可将常规的高速缓存技术应用到存储器104,以通过减少各合成步骤的发生来增强TTS性能,提高存储和检索速度,这共同提高了设备100的电池寿命。
可使用例如由提供J2ME应用程序的企业供应的频繁使用表述的一个或多个词汇表的定期更新来进一步补充方法200。这些词汇表能通过输入端口110(例如,利用常规调制解调器连接至因特网)接收,或使用无线收发器114无线接收。当这些词汇表被接收时,各文本表述通过处理器102被合成来生成相应的语音表述。然后,存储器104中词汇表用前述的各表述来更新。当各附加的词汇表和/或已更新的词汇表被接收并合成时,若对于这些新的表述无足够的空间,则处理器102能调用步骤214来在存储器104中制造空间。由于需要较少的合成步骤,已更新的各词汇表有助于提高终端用户体验以及设备100的电池使用期限。
根据上述内容可以看出,本发明的各实施例能以硬件、软件或硬件和软件的组合来实现。这些实施例也能以在下述权利要求的范围和精神内预计到的许多配置来实现。还应当理解,当然,各权利要求旨在涵盖执行所述功能的此处说明的结构,而不仅是结构上的等效。
例如,尽管有线通信和无线通信可能不是结构上的等效,因为有线通信使用实体方式(例如,铜或者光缆)在设备之间通信,而无线通信利用无线信号在设备之间通信,但是有线通信系统和无线通信系统获得相同结果并因此形成等效结构。从而,从所述内容中获悉的各等效结构包括在由下述各权利要求限定的本发明的范围之内。
Claims (10)
1.一种在设备中用于改善文本到语音性能的方法,该方法包括以下各步骤:
将频繁使用的文本表述的词汇表合成为相应的语音表述;
在所述词汇表中存储所述相应的语音表述;
确定来自操作于设备中的应用程序的文本表述是否在所述词汇表中;
若所述文本表述包括在所述词汇表中,则从所述词汇表选择相应的语音表述;
若所述文本表述不在所述词汇表中,则将所述文本表述合成为相应的语音表述;
由所述设备以可听得见的方式播放所述相应的语音表述;以及
在所述应用程序的操作期间,重复从所述确定步骤开始的上述各步骤。
2.如权利要求1的所述方法,还包括步骤:若所述表述的使用频率大于预定阈值并且所述表述在之前未被存储,则在所述词汇表中存储所述文本表述和相应语音表述。
3.如权利要求2的所述方法,还包括步骤:若所述表述的使用频率低于所述预定阈值,则从所述词汇表清除一个或多个文本表述和相应语音表述。
4.如权利要求3的所述方法,其中所述存储和清除步骤采用用于管理所述设备中存储的高速缓存技术。
5.如权利要求3的所述方法,其中所述存储和清除步骤采用用于管理所述设备中存储的数据库技术。
6.如权利要求3的所述方法,其中所述清除步骤的执行取决于所述存储步骤是否需要附加的存储空间。
7.如权利要求1的所述方法,还包括以下步骤:
从连接至所述设备的源接收频繁使用的文本表述的一个或多个词汇表更新;
将所述文本表述合成为相应的语音表述;以及
用所述文本和相应语音表述来更新所述词汇表。
8.如权利要求1的所述方法,还包括步骤:在操作于所述设备中的多个应用程序间共享所述词汇表。
9.一种设备,包括:
音频系统;
存储器;以及
连接至上述各元件的处理器,其中该处理器被编程,以进行以下步骤:
确定来自操作于所述设备中的应用程序的文本表述是否在词汇表中;
若所述文本表述包括在所述词汇表中,则从所述词汇表选择相应语音表述;
若所述文本表述不在所述词汇表中,则将所述文本表述合成为相应语音表述;
由所述设备以可听得见的方式播放所述相应的语音表述;
监控所述文本表述的使用频率;
若所述表述的使用频率大于预定阈值且所述表述在之前未存储,则在所述词汇表中存储所述文本表述和相应语音表述;
若所述表述的使用频率低于所述预定阈值,则从所述词汇表清除一个或多个文本表述和相应语音表述;以及
在所述应用程序的操作期间重复上述各步骤。
10.如权利要求9的所述设备,其中所述设备还包括输入端口,并且其中所述处理器还被编程,以进行以下步骤:
从连接至所述输入端口的源接收频繁使用的文本表述的一个或多个词汇表更新;
将所述述文本表述合成为相应语音表述;以及
用所述文本和相应语音表述来更新所述词汇表。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/022,488 | 2004-12-22 | ||
US11/022,488 US20060136212A1 (en) | 2004-12-22 | 2004-12-22 | Method and apparatus for improving text-to-speech performance |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101088117A true CN101088117A (zh) | 2007-12-12 |
Family
ID=36597234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800445818A Pending CN101088117A (zh) | 2004-12-22 | 2005-11-16 | 改善文本到语音性能的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20060136212A1 (zh) |
EP (1) | EP1831869A2 (zh) |
KR (1) | KR20070086571A (zh) |
CN (1) | CN101088117A (zh) |
AR (1) | AR052070A1 (zh) |
WO (1) | WO2006068734A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102865875A (zh) * | 2012-09-12 | 2013-01-09 | 深圳市凯立德科技股份有限公司 | 一种导航方法及导航设备 |
WO2015196823A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 实现从文本到语音业务循环播放的方法、装置及服务器 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222188A (en) * | 1990-08-21 | 1993-06-22 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
US6061646A (en) * | 1997-12-18 | 2000-05-09 | International Business Machines Corp. | Kiosk for multiple spoken languages |
US6963838B1 (en) * | 2000-11-03 | 2005-11-08 | Oracle International Corporation | Adaptive hosted text to speech processing |
US7324947B2 (en) * | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
CN1679022B (zh) * | 2002-07-23 | 2010-06-09 | 捷讯研究有限公司 | 用于构建和使用定制单词列表的系统和方法 |
KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
US7747437B2 (en) * | 2004-12-16 | 2010-06-29 | Nuance Communications, Inc. | N-best list rescoring in speech recognition |
-
2004
- 2004-12-22 US US11/022,488 patent/US20060136212A1/en not_active Abandoned
-
2005
- 2005-11-16 EP EP05823482A patent/EP1831869A2/en not_active Withdrawn
- 2005-11-16 CN CNA2005800445818A patent/CN101088117A/zh active Pending
- 2005-11-16 KR KR1020077014270A patent/KR20070086571A/ko not_active Application Discontinuation
- 2005-11-16 WO PCT/US2005/041335 patent/WO2006068734A2/en active Application Filing
- 2005-12-21 AR ARP050105414A patent/AR052070A1/es not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102865875A (zh) * | 2012-09-12 | 2013-01-09 | 深圳市凯立德科技股份有限公司 | 一种导航方法及导航设备 |
WO2015196823A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 实现从文本到语音业务循环播放的方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
AR052070A1 (es) | 2007-02-28 |
KR20070086571A (ko) | 2007-08-27 |
US20060136212A1 (en) | 2006-06-22 |
EP1831869A2 (en) | 2007-09-12 |
WO2006068734A3 (en) | 2007-03-15 |
WO2006068734A2 (en) | 2006-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726833B2 (en) | System and method for rapid customization of speech recognition models | |
US10217463B2 (en) | Hybridized client-server speech recognition | |
US10964312B2 (en) | Generation of predictive natural language processing models | |
US7966171B2 (en) | System and method for increasing accuracy of searches based on communities of interest | |
US9984679B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
US20060122836A1 (en) | Dynamic switching between local and remote speech rendering | |
CN105489221A (zh) | 一种语音识别方法及装置 | |
CN110110319A (zh) | 语音输入的字词级纠正 | |
CN108962233A (zh) | 用于语音对话平台的语音对话处理方法及系统 | |
CN111199732B (zh) | 一种基于情感的语音交互方法、存储介质及终端设备 | |
JP5274711B2 (ja) | 音声認識装置 | |
US20050137866A1 (en) | Interactive speech recognition model | |
WO2008042511A2 (en) | Personalizing a voice dialogue system | |
US7881932B2 (en) | VoiceXML language extension for natively supporting voice enrolled grammars | |
JP2016161823A (ja) | 音響モデル学習支援装置、音響モデル学習支援方法 | |
WO2002089112A1 (en) | Adaptive learning of language models for speech recognition | |
CN101088117A (zh) | 改善文本到语音性能的方法和装置 | |
CN111508481A (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
JP2022509880A (ja) | 音声入力処理 | |
Odell et al. | Architecture, user interface, and enabling technology in Windows Vista's speech systems | |
JP5049310B2 (ja) | 音声学習・合成システム及び音声学習・合成方法 | |
JP2007072481A (ja) | 音声認識システムおよび音声認識方法および記録媒体 | |
CN101165776B (zh) | 用于生成语音谱的方法 | |
JP2009145435A (ja) | 複数の機器に使用される不特定話者音声認識エンジンをインターネットを介して個別のユーザに提供するシステム及び方法 | |
CN114267322A (zh) | 语音处理方法、装置、计算机可读存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20071212 |