CN1549999A - 适用于提高合成语音可懂性的运行时合成器 - Google Patents
适用于提高合成语音可懂性的运行时合成器 Download PDFInfo
- Publication number
- CN1549999A CN1549999A CNA028061586A CN02806158A CN1549999A CN 1549999 A CN1549999 A CN 1549999A CN A028061586 A CNA028061586 A CN A028061586A CN 02806158 A CN02806158 A CN 02806158A CN 1549999 A CN1549999 A CN 1549999A
- Authority
- CN
- China
- Prior art keywords
- voice
- characteristic
- time data
- ground unrest
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 52
- 206010038743 Restlessness Diseases 0.000 claims description 29
- 230000008859 change Effects 0.000 claims description 8
- 230000036651 mood Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 210000004704 glottis Anatomy 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 3
- 230000004048 modification Effects 0.000 abstract description 3
- 238000012986 modification Methods 0.000 abstract description 3
- 238000013459 approach Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002650 habitual effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Telephonic Communication Services (AREA)
- Noise Elimination (AREA)
- Machine Translation (AREA)
Abstract
一种用于合成语音的运行时改进的方法和系统。方法包括根据文本输入(16)和多个运行时控制参数值(42)产生合成语音的步骤(40)。根据一个输入信号(46)产生实时数据(44),其中输入信号表征语音对于收听者的可懂性。方法进一步提供了根据实时数据(20)修改(48)一个或更多的运行时控制参数值,从而提高语音的可懂性。在运行时而不是在设计阶段修改参数值提供了通过惯用方式不能取得的自适应水平。
Description
技术领域
本发明涉及语音合成。更具体地讲,本发明涉及一种用于根据实时数据提高运行时合成语音的可懂性的方法和系统。
背景技术
在诸如汽车车厢、机舱和驾驶室、以及住宅和办公室之类的许多环境中,已经开发了多种系统来提高呈现给收听者的可听见声音的可懂性。例如,近来改进汽车声频系统输出的努力导致可以手动或自动调节声频系统的频谱输出的均衡器。尽管这一直是响应收听者对各种控制的操纵进行的,但最近的研究涉及到收听者环境的声频抽样。声频系统均衡方法一般需要有关系统要在其中使用的预期环境的大量知识。因此,这种类型的应用在声频系统输出受到限制,并且,在轿车的情况下,一般固定到特殊类型和型号的轿车。
实际上,多年来航空和军用型通信中一直使用语音拼音字母表(即,alhpa,bravo,Charlie,...)以在严酷环境下消除拼读字母的歧义。因此,这种措施也是基于在存在信号和/或背景噪声的情况下,某些声音天生比其它的声音更容易听懂的基本理论。
可懂性改进的另一个例子涉及蜂窝电话中信号处理以减小上行链路/下行链路信道中或基站网中发送错误造成的声频失真。十分重要的是,这种方法与信道(或卷积)噪声有关,并且没有考虑到收听者环境中存在的背景(或附加)噪声。还有另一个例子是经常在电话会议中使用的惯用回声消除系统。
也应当着重指出,所有上述技术都没有提供用于在运行时改进合成语音的机构。这是十分关键的,因为最近在改进语音合成器输出方面取得的进展,使得语音合成迅速地流行。尽管取得了这些最近的进展,语音合成方面仍然存在着许多困难。实际上,一个特别的困难是,所有惯用语音合成器需要事先了解预期的环境知识,以便能够在设计时设置各种控制参数值。很容易理解,这样一种方式是极端不灵活的,并且能够很好地使用这种合成器的环境范围是十分有限的。因此,非常希望能够提供一种根据实时数据改进合成语音,从而提高语音的可懂性的方法和系统。
发明内容
通过根据本发明的一种改进合成语音的方法可以达到上述和其它目的。方法包括根据文本输入和多个运行时控制参数值产生合成语音的步骤。实时数据是根据一个输入信号产生的,其中输入信号表征了语音对于一个收听者的可懂性。方法进一步提供了根据实时数据修改一个或更多的运行时控制参数值,从而提高语音的可懂性。在运行时而不是在设计阶段修改参数值提供了通过惯用方法不能取得的自适应水平。
此外,根据本发明,提供了一种修改一个或更多的语音合成器运行时控制参数的方法。方法包括接收实时数据,和根据实时数据识别合成语音的有关特性的步骤。有关特性具有对应的运行时控制参数。方法进一步提供了将调节值应用到控制参数的参数值,从而能够以希望的方式改变语音的有关特性。
在本发明的另一方面,一种语音合成器适配系统包括文本到语音(TTS)合成器,声频输入系统和适配控制器。合成器根据文本输入和多个运行时控制参数值产生语音。声频输入系统根据包含在语音重放的环境中的各种类型的背景噪声产生实时数据。适配控制器连接到合成器和声频输入系统。适配控制器根据实时数据修改一个或更多的运行时控制参数值,从而减小了背景噪声与语音之间的干扰。
应当理解,无论上面的一般性说明,还是下面的详细说明,都是为了举例说明本发明和为了理解权利要求中指出的本发明的性质和特征而提供的综述和框架。说明书包括了附图,以提供对本发明的进一步的理解,并且附图结合在说明书中并构成说明书的一部分。附图示出了本发明的各种特征和实施例,并且与说明书一起用来解释本发明的原理和操作。
附图简要说明
通过阅读下面的说明书和附属的权利要求,并且参考附图,熟悉本领域的人员将会了解本发明的各种优点,在附图中:
图1是根据本发明的原理的一个语音合成器适配系统的方框图;
图2是根据本发明的原理的改进合成语音的方法的流程图;
图3是根据本发明的一个实施例的根据一个输入信号产生实时数据的过程的流程图;
图4是根据本发明的一个实施例的一个用实时数据表示背景噪声的特性的过程的流程图;
图5是根据本发明的一个实施例的一个改进一个或更多的运行时控制参数值的过程的流程图;和
图6是显示根据本发明的一个实施例的有关特性和对应的运行时控制参数的示意图。
优选实施例详细说明
现在参考图1,图1示出了一个优选的语音合成器适配系统10。通常,适配系统10具有一个用于根据文本输入16和多个运行时控制参数值42产生合成语音14的文本到语音(TTS)合成器12,一个根据包含在语音14重放的环境24中的背景噪声22产生实时数据(RTD)20的声频输入系统18,一个连接到合成器12和声频输入系统18的适配控制器26。适配控制器26根据实时数据20修改一个或更多的运行时控制参数值42从而减小背景噪声22与语音14之间的干扰。声频输入系统18优选包括一个声-电信号转换器,例如,一个将声波转换成电信号的话筒。
背景噪声22可以包括来自如图所述的多个来源的分量。将干扰源根据来源的类型和特性分类。例如,诸如警车警笛28和过往的飞机(未示出)之类的一些噪声源产生通常是迅速改变特性的瞬时高水平干扰。诸如操作中的机械30和空调单元(未示出)之类的其它噪声源一般产生低水平的固定背景噪声。此外,诸如无线电32和各种娱乐设施(未示出)通常产生诸如音乐和歌声之类的具有类似于合成语音14特性的进行中干扰。此外,环境24中存在的竞争说话者34可能是一种具有实际上与合成语音14相同的属性的干扰源。此外,环境24本身也可能影响合成语音14的输出。因此,环境24及其影响可以随时间动态地改变。
应当强调指出,尽管示出适配系统10是根据包含在语音14重放的环境24中的背景噪声22产生实时数据20的,但是,本发明不限于此。例如,如下面将要更详细地说明的,也可以根据从收听者34经过输入设备19的输入产生实时数据20。
现在转到图2,图2示出了一种改进合成语音的方法38。可以看到,在步骤40,根据文本输入16和多个运行时控制参数值42产生了合成语音。在步骤44,根据一个输入信号46产生了实时数据20,其中输入信号46表征了语音对于收听者的可懂性。如已经说明过的,输入信号46可以直接来源于环境中的背景噪声,或来自一个收听者(或其它使用者)。尽管如此,输入信号46包含着有关语音可懂性的数据,从而代表了一个在运行时适配语音的有价值的信息源。在步骤48,根据实时数据20修改一个或更多的运行时控制参数值42,从而提高了语音的可懂性。
如已经讨论过的,一个实施例涉及根据包含在重放语音的环境中的背景噪声产生实时数据20。因此,图3示出了在步骤44产生实时数据20的优选方式。更具体地讲,可以看到,在步骤52将背景噪声22转换成一个电信号50。在步骤54,从一个模式数据库(未示出)检索出一个或更多的干扰模式56。因此,可以在步骤58根据电信号50和干扰模式56用实时数据20表示出背景噪声22的特性。
图4示出了在步骤58表示背景噪声的特性的优选方式。更具体地讲,可以看到,在步骤60,对电信号50执行了时域分析。产生的时间数据62提供了要在这里所述的操作中使用的大量信息。同样地,在步骤64,对电信号50进行频域分析,以获得频率数据66。应当着重指出,执行步骤60和64的顺序对于总体结果并不是关键。
也要着重指出,表征特性的步骤58涉及识别背景噪声中各种类型的干扰。这些干扰例子包括,但不限于,高水平的干扰、低水平的干扰、瞬时干扰、连续干扰、变化的干扰和固定干扰。表征特性的步骤58也可以包括识别背景噪声的潜在来源,识别背景噪声的语音和确定所有这些源的位置。
现在转到图5,图5详细地示出了修改运行时控制参数值42的优选方式。更具体地讲,可以看到,在步骤68,接收到实时数据20,在步骤70,根据实时数据20识别出语音的有关特性72。有关特性72具有对应的运行时控制参数。在步骤74,将调节值应用到控制参数的参数值,从而以希望的方式改变语音的有关特性72。
现在转到图6,图6详细地示出了潜在的有关特性72。一般可以将有关特性72分类成说话者特性76,情绪特性77,方言特性78和内容特性79。可以把说话者特性76进一步分类成话音特性80和讲话风格特性82。影响话音特性80的参数包括但不限于语音速率、音高(基本频率)、音量、参量均衡、共振峰(共振峰频率和带宽)、声门源、语音功率频谱的摆动、性别、年龄和身份。影响讲话风格特性82的参数包括但不限于动态韵律(例如,节奏、重音和音调)和清晰度。因此,充分清晰地发出闭辅音等等,可以取得超清晰度,潜在地导致更好的可懂性。
诸如紧急性之类的有关情绪特性77的参数也可以用于吸引听众的注意力。可以通过发音和清晰度(共振峰,等等)影响方言特性78。应当进一步理解,诸如冗余、重复和词汇量之类的参数与内容特性79有关。例如,利用同义字和短语在语音中添加或删除冗余(例如,5PM=5pm与下午五点)。重复包括有选择地重复合成语音的某些部分,以便更好地强调重要内容。此外,允许用有限的词汇量和有限的句子结构来减小语言的复杂性,也可以提高可懂性。
现在转到图1,应当知道,可以与一个声频输出系统84联合地使用多音声频处理,以根据实时数据20改变语音14的空间位置。
从上述的说明中,熟悉本领域的人员现在可以知道,可以用各种不同的形式实现本发明的广义地说明。因此,尽管可以结合本发明的特定例子说明本发明,但是,本发明的真实范围应当不限于此,因为熟悉本领域的实践者在研究了附图、说明书和附属的权利要求之后,可以知道还有其它的修改形式。
Claims (30)
1、一种改进合成语音的方法,包括步骤:
根据文本输入和多个运行时控制参数值产生合成语音;
根据一个输入信号产生实时数据,该输入信号表征所述语音对于收听者的可懂性;和
根据实时数据修改一个或更多的运行时控制参数值从而提高语音的可懂性。
2、根据权利要求1所述的方法,进一步包括根据包含在语音重放的环境中的背景噪声产生实时数据的步骤。
3、根据权利要求2所述的方法,进一步包括步骤:
将背景噪声转换成电信号;
从模式数据库检索一个或更多的干扰模式;和
根据电信号和干扰模式用实时数据表示出背景噪声的特性。
4、根据权利要求3所述的方法,进一步包括对电信号进行时域分析的步骤。
5、根据权利要求3所述的方法,进一步包括对电信号进行频域分析的步骤。
6、根据权利要求3所述的方法,其中表示特性的步骤是从实际上由下述步骤组成的组中选择的:
识别背景噪声中的高水平干扰;
识别背景噪声中的低水平干扰;
识别背景噪声中的瞬时干扰;
识别背景噪声中的连续干扰;
识别背景噪声中的变化干扰;
识别背景噪声中的固定干扰;
识别背景噪声源的空间位置;
识别背景噪声的潜在源;和
识别背景噪声中语音。
7、根据权利要求1所述的方法,进一步包括步骤:
接收实时数据;
根据实时数据识别语音的有关特性,该有关特性具有对应的运行时控制参数;和
将调节值应用到控制参数的参数值,从而以希望的方式改变语音的有关特性。
8、根据权利要求7所述的方法,进一步包括改变语音的有关说话者特性的步骤。
9、根据权利要求8所述的方法,进一步包括改变语音的有关话音特性的步骤。
10、根据权利要求9所述的方法,进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤:
语音速率;
音高;
音量;
参量均衡;
共振峰频率和带宽;
声门源;
语音功率频谱摆动;
性别;
年龄;和
身份。
11、根据权利要求8所述的方法,进一步包括改变语音的有关讲话风格特性的步骤。
12、根据权利要求11所述的方法,进一步包括改变从实际是由下面的特性组成的组中选择的特性的步骤:
动态韵律;和
清晰度。
13、根据权利要求7所述的方法,进一步包括改变语音的有关情绪特性的步骤。
14、根据权利要求13所述的方法,进一步包括改变语音的紧急特性的步骤。
15、根据权利要求7所述的方法,进一步包括改变语音的有关方言特性的步骤。
16、根据权利要求15所述的方法,进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤:
发音;和
清晰度。
17、根据权利要求7所述的方法,进一步包括改变语音的有关内容特性的步骤。
18、根据权利要求17所述的方法,进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤:
重复;
冗余;和
词汇量。
19、根据权利要求1所述的方法,进一步包括使用多音声频处理以根据实时数据改变语音的空间位置的步骤。
20、根据权利要求1所述的方法,进一步包括根据收听者的输入产生实时数据的步骤。
21、根据权利要求1所述的方法,进一步包括在汽车应用中使用合成语音的步骤。
22、一种修改一个或多个语音合成器运行时控制参数的方法,包括步骤:
接收实时数据;
根据实时数据识别合成语音的有关特性,该有关特性具有对应的运行时控制参数;和
将调节值应用到控制参数的参数值,从而以希望的方式改变语音的有关特性。
23、根据权利要求22所述的方法,进一步包括改变语音的有关讲话者特性的步骤。
24、根据权利要求23所述的方法,进一步包括改变语音的有关话音特性的步骤。
25、根据权利要求23所述的方法,进一步包括改变语音的有关讲话风格特性的步骤。
26、根据权利要求22所述的方法,进一步包括改变语音的有关情绪特性的步骤。
27、根据权利要求22所述的方法,进一步包括改变语音的有关方言特性的步骤。
28、根据权利要求22所述的方法,进一步包括改变语音的有关内容特性的步骤。
29、一种语音合成器适配系统,包括:
用于根据文本输入和多个运行时控制参数值产生语音的文本到语音合成器;
用于根据包含在语音重放环境中的背景噪声产生实时数据的声频输入系统;和
连接到合成器和声频输入系统的适配控制器,该适配控制器根据实时数据修改一个或多个的运行时控制参数值,从而降低背景噪声与语音之间的干扰。
30、根据权利要求29所述的适配系统,其中声频输入系统包括一个声-电信号转换器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/800,925 US6876968B2 (en) | 2001-03-08 | 2001-03-08 | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
US09/800,925 | 2001-03-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1549999A true CN1549999A (zh) | 2004-11-24 |
CN1316448C CN1316448C (zh) | 2007-05-16 |
Family
ID=25179723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028061586A Expired - Lifetime CN1316448C (zh) | 2001-03-08 | 2002-03-07 | 适用于提高合成语音可懂性的运行时合成语音的方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6876968B2 (zh) |
EP (1) | EP1374221A4 (zh) |
JP (1) | JP2004525412A (zh) |
CN (1) | CN1316448C (zh) |
RU (1) | RU2294565C2 (zh) |
WO (1) | WO2002073596A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN1946065B (zh) * | 2005-10-03 | 2012-01-11 | 纽昂斯通讯公司 | 通过可听信号来注释即时消息的方法和系统 |
CN103151037A (zh) * | 2011-09-27 | 2013-06-12 | 通用汽车有限责任公司 | 校正难以理解的合成语音 |
CN104157288A (zh) * | 2013-05-13 | 2014-11-19 | 通用汽车环球科技运作有限责任公司 | 用多个话筒的语音识别 |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN104616660A (zh) * | 2014-12-23 | 2015-05-13 | 上海语知义信息技术有限公司 | 基于环境噪音检测的智能语音播报系统及方法 |
CN109697974A (zh) * | 2017-10-19 | 2019-04-30 | 百度(美国)有限责任公司 | 使用卷积序列学习的神经文本转语音的系统和方法 |
CN114080817A (zh) * | 2020-06-09 | 2022-02-22 | 谷歌有限责任公司 | 从可视内容生成交互式音轨 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061049A1 (en) * | 2001-08-30 | 2003-03-27 | Clarity, Llc | Synthesized speech intelligibility enhancement through environment awareness |
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
US20030163311A1 (en) * | 2002-02-26 | 2003-08-28 | Li Gong | Intelligent social agents |
US7305340B1 (en) * | 2002-06-05 | 2007-12-04 | At&T Corp. | System and method for configuring voice synthesis |
JP4209247B2 (ja) * | 2003-05-02 | 2009-01-14 | アルパイン株式会社 | 音声認識装置および方法 |
US7529674B2 (en) * | 2003-08-18 | 2009-05-05 | Sap Aktiengesellschaft | Speech animation |
US7745357B2 (en) * | 2004-03-12 | 2010-06-29 | Georgia-Pacific Gypsum Llc | Use of pre-coated mat for preparing gypsum board |
US8380484B2 (en) * | 2004-08-10 | 2013-02-19 | International Business Machines Corporation | Method and system of dynamically changing a sentence structure of a message |
US7599838B2 (en) | 2004-09-01 | 2009-10-06 | Sap Aktiengesellschaft | Speech animation with behavioral contexts for application scenarios |
US20070027691A1 (en) * | 2005-08-01 | 2007-02-01 | Brenner David S | Spatialized audio enhanced text communication and methods |
US7872574B2 (en) * | 2006-02-01 | 2011-01-18 | Innovation Specialists, Llc | Sensory enhancement systems and methods in personal electronic devices |
WO2008132533A1 (en) * | 2007-04-26 | 2008-11-06 | Nokia Corporation | Text-to-speech conversion method, apparatus and system |
KR101230479B1 (ko) * | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
JP5467043B2 (ja) * | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
EP4407610A1 (en) | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
ES2719102T3 (es) * | 2010-04-16 | 2019-07-08 | Fraunhofer Ges Forschung | Aparato, procedimiento y programa informático para generar una señal de banda ancha que utiliza extensión de ancho de banda guiada y extensión de ancho de banda ciega |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
GB2492753A (en) * | 2011-07-06 | 2013-01-16 | Tomtom Int Bv | Reducing driver workload in relation to operation of a portable navigation device |
WO2015092943A1 (en) * | 2013-12-17 | 2015-06-25 | Sony Corporation | Electronic devices and methods for compensating for environmental noise in text-to-speech applications |
US9390725B2 (en) | 2014-08-26 | 2016-07-12 | ClearOne Inc. | Systems and methods for noise reduction using speech recognition and speech synthesis |
EP3218899A1 (en) | 2014-11-11 | 2017-09-20 | Telefonaktiebolaget LM Ericsson (publ) | Systems and methods for selecting a voice to use during a communication with a user |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
US9830903B2 (en) * | 2015-11-10 | 2017-11-28 | Paul Wendell Mason | Method and apparatus for using a vocal sample to customize text to speech applications |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10586079B2 (en) * | 2016-12-23 | 2020-03-10 | Soundhound, Inc. | Parametric adaptation of voice synthesis |
KR102429498B1 (ko) * | 2017-11-01 | 2022-08-05 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
US10726838B2 (en) * | 2018-06-14 | 2020-07-28 | Disney Enterprises, Inc. | System and method of generating effects during live recitations of stories |
US11087778B2 (en) * | 2019-02-15 | 2021-08-10 | Qualcomm Incorporated | Speech-to-text conversion based on quality metric |
KR20210020656A (ko) * | 2019-08-16 | 2021-02-24 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 인식 방법 및 그 장치 |
US11501758B2 (en) | 2019-09-27 | 2022-11-15 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
CN112581935B (zh) | 2019-09-27 | 2024-09-06 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4375083A (en) * | 1980-01-31 | 1983-02-22 | Bell Telephone Laboratories, Incorporated | Signal sequence editing method and apparatus with automatic time fitting of edited segments |
IT1218995B (it) * | 1988-02-05 | 1990-04-24 | Olivetti & Co Spa | Dispositivo di controllo dell'ampiezza di un segnale elettrico per un apparecchiatura elettronica digitale e relativo metodo di controllo |
JPH02293900A (ja) * | 1989-05-09 | 1990-12-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH0335296A (ja) * | 1989-06-30 | 1991-02-15 | Sharp Corp | テキスト音声合成装置 |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
JPH05307395A (ja) * | 1992-04-30 | 1993-11-19 | Sony Corp | 音声合成装置 |
FI96247C (fi) * | 1993-02-12 | 1996-05-27 | Nokia Telecommunications Oy | Menetelmä puheen muuntamiseksi |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5806035A (en) * | 1995-05-17 | 1998-09-08 | U.S. Philips Corporation | Traffic information apparatus synthesizing voice messages by interpreting spoken element code type identifiers and codes in message representation |
JP3431375B2 (ja) * | 1995-10-21 | 2003-07-28 | 株式会社デノン | 携帯型端末装置及びデータ送信方法及びデータ送信装置及びデータ送受信システム |
US5960395A (en) * | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
US5790671A (en) * | 1996-04-04 | 1998-08-04 | Ericsson Inc. | Method for automatically adjusting audio response for improved intelligibility |
US6035273A (en) * | 1996-06-26 | 2000-03-07 | Lucent Technologies, Inc. | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes |
US6199076B1 (en) * | 1996-10-02 | 2001-03-06 | James Logan | Audio program player including a dynamic program selection controller |
JP3322140B2 (ja) * | 1996-10-03 | 2002-09-09 | トヨタ自動車株式会社 | 車両用音声案内装置 |
JPH10228471A (ja) * | 1996-12-10 | 1998-08-25 | Fujitsu Ltd | 音声合成システム,音声用テキスト生成システム及び記録媒体 |
US5818389A (en) * | 1996-12-13 | 1998-10-06 | The Aerospace Corporation | Method for detecting and locating sources of communication signal interference employing both a directional and an omni antenna |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
GB2336978B (en) * | 1997-07-02 | 2000-11-08 | Simoco Int Ltd | Method and apparatus for speech enhancement in a speech communication system |
GB9714001D0 (en) * | 1997-07-02 | 1997-09-10 | Simoco Europ Limited | Method and apparatus for speech enhancement in a speech communication system |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
JP3706758B2 (ja) * | 1998-12-02 | 2005-10-19 | 松下電器産業株式会社 | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 |
US6370503B1 (en) * | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
-
2001
- 2001-03-08 US US09/800,925 patent/US6876968B2/en not_active Expired - Lifetime
-
2002
- 2002-03-07 JP JP2002572565A patent/JP2004525412A/ja active Pending
- 2002-03-07 RU RU2003129075/09A patent/RU2294565C2/ru not_active IP Right Cessation
- 2002-03-07 WO PCT/US2002/006956 patent/WO2002073596A1/en not_active Application Discontinuation
- 2002-03-07 CN CNB028061586A patent/CN1316448C/zh not_active Expired - Lifetime
- 2002-03-07 EP EP02717572A patent/EP1374221A4/en not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1946065B (zh) * | 2005-10-03 | 2012-01-11 | 纽昂斯通讯公司 | 通过可听信号来注释即时消息的方法和系统 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN103151037A (zh) * | 2011-09-27 | 2013-06-12 | 通用汽车有限责任公司 | 校正难以理解的合成语音 |
US9082414B2 (en) | 2011-09-27 | 2015-07-14 | General Motors Llc | Correcting unintelligible synthesized speech |
CN104157288A (zh) * | 2013-05-13 | 2014-11-19 | 通用汽车环球科技运作有限责任公司 | 用多个话筒的语音识别 |
CN104157288B (zh) * | 2013-05-13 | 2017-09-15 | 通用汽车环球科技运作有限责任公司 | 用多个话筒的语音识别 |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN104485100B (zh) * | 2014-12-18 | 2018-06-15 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN104616660A (zh) * | 2014-12-23 | 2015-05-13 | 上海语知义信息技术有限公司 | 基于环境噪音检测的智能语音播报系统及方法 |
CN109697974A (zh) * | 2017-10-19 | 2019-04-30 | 百度(美国)有限责任公司 | 使用卷积序列学习的神经文本转语音的系统和方法 |
CN114080817A (zh) * | 2020-06-09 | 2022-02-22 | 谷歌有限责任公司 | 从可视内容生成交互式音轨 |
Also Published As
Publication number | Publication date |
---|---|
US6876968B2 (en) | 2005-04-05 |
RU2003129075A (ru) | 2005-04-10 |
EP1374221A1 (en) | 2004-01-02 |
CN1316448C (zh) | 2007-05-16 |
RU2294565C2 (ru) | 2007-02-27 |
EP1374221A4 (en) | 2005-03-16 |
JP2004525412A (ja) | 2004-08-19 |
US20020128838A1 (en) | 2002-09-12 |
WO2002073596A1 (en) | 2002-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1316448C (zh) | 适用于提高合成语音可懂性的运行时合成语音的方法 | |
EP0974141B1 (en) | Extensible speech recognition system that provides a user with audio feedback | |
US7483832B2 (en) | Method and system for customizing voice translation of text to speech | |
US7096183B2 (en) | Customizing the speaking style of a speech synthesizer based on semantic analysis | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
US5970453A (en) | Method and system for synthesizing speech | |
US8073696B2 (en) | Voice synthesis device | |
CN106971703A (zh) | 一种基于hmm的歌曲合成方法及装置 | |
US20060069567A1 (en) | Methods, systems, and products for translating text to speech | |
CN105788589A (zh) | 一种音频数据的处理方法及装置 | |
CN1675681A (zh) | 客户机-服务器语音定制 | |
CN116018638A (zh) | 使用话音转换和语音识别模型的合成数据增强 | |
JPWO2020145353A1 (ja) | コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法 | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
KR20220096129A (ko) | 감정톤을 자동조절하는 음성합성 시스템 | |
CN115938340A (zh) | 基于车载语音ai的语音数据处理方法及相关设备 | |
US8600753B1 (en) | Method and apparatus for combining text to speech and recorded prompts | |
CN1979636B (zh) | 一种音标到语音的转换方法 | |
JP2001100776A (ja) | 音声合成装置 | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
JPH09179576A (ja) | 音声合成方法 | |
US20020016709A1 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
Hande | A review on speech synthesis an artificial voice production | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20070516 |