CN1894739A - 依赖于源的文本到语音系统 - Google Patents
依赖于源的文本到语音系统 Download PDFInfo
- Publication number
- CN1894739A CN1894739A CNA200480010899XA CN200480010899A CN1894739A CN 1894739 A CN1894739 A CN 1894739A CN A200480010899X A CNA200480010899X A CN A200480010899XA CN 200480010899 A CN200480010899 A CN 200480010899A CN 1894739 A CN1894739 A CN 1894739A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- server
- speech feature
- voice
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001419 dependent effect Effects 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000008878 coupling Effects 0.000 claims description 23
- 238000010168 coupling process Methods 0.000 claims description 23
- 238000005859 coupling reaction Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 17
- 230000000712 assembly Effects 0.000 description 11
- 238000000429 assembly Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种从文本消息生成语音的方法,该方法包括确定与文本消息的源相关联的声音的语音特征向量,并且比较该语音特征向量和多个语者模型。该方法还包括基于比较选择出语者模型之一作为声音的优选匹配,并且基于所选出的语者模型从文本消息生成语音。
Description
技术领域
本发明一般地涉及文本到语音系统,更具体地说,本发明涉及依赖于源的文本到语音系统。
背景技术
文本到语音(TTS)系统在电信网络中提供了多功能性。TTS系统从诸如电子邮件、即时消息或者其他适当的文本之类的文本消息产生可听语音。TTS系统的一个缺点是TTS系统所产生的声音常常是通用的,而未与提供该消息的具体源相关联。例如,文本到语音系统可以产生男声,而不管发送该消息的人是谁,导致难以判断出特定的消息是来自男性还是女性。
发明内容
根据本发明,文本到语音系统以与提供文本消息的人类似的声音方式提供了依赖于源的文本消息表现。这增强了TTS系统用户的能力,使其能够通过将消息与特定声音的发声相关联,从而确定文本消息的源。具体地说,本发明的某些实施例提供了依赖于源的TTS系统。
根据本发明的一个实施例,提供了一种从文本消息生成语音的方法,该方法包括确定与文本消息的源相关联的声音的语音特征向量,并且比较该语音特征向量和多个语者模型。该方法还包括基于比较选择出语者模型之一作为该声音的优选匹配,并且基于所选出的语者模型从文本消息生成语音。
根据本发明的另一个实施例,提供了一种声音匹配服务器,该服务器包括接口和处理器。该接口接收与文本消息的源相关联的声音的语音特征向量。该处理器比较该语音特征向量和多个语者模型,并且基于比较选择语者模型之一作为声音的优选匹配。然后,接口传输命令到文本到语音服务器,指示该文本到语音服务器基于所选出的语者模型从文本消息生成语音。
根据本发明另一个实施例,提供了一种端点,该端点包括第一接口、第二接口和处理器。第一接口从源接收文本消息。处理器确定与文本消息的源相关联的声音的语音特征向量,比较该语音特征向量和多个语者模型,基于比较选择出语者模型之一作为声音的优选匹配,并且基于所选出的语者模型从文本消息生成语音。第二接口向用户输出所生成的语音。
本发明的某些实施例的重要的技术优点包括再现的语音,这种再现的语音更忠于原来提供消息的真人的语音。这向TTS系统的用户提供了次要线索,其增强了用户的识别消息源的能力,并且还在TTS接口中提供了更多的舒适性和灵活性。这也增加了TTS系统的满意度和有用性。
本发明的某些实施例的其他重要的技术优点包括TTS系统的互操作能力。在某些实施例中,TTS系统可以从另一个可能未使用相同的TTS标记参数和语音生成方法的TTS系统接收信息。但是,即使这些系统不共享TTS标记参数和语音生成方法,该TTS系统也仍然可以从远程TTS系统接收语音信息。这允许这种实施例的特征适用于与不包括相同特征的其他TTS系统一起工作。
从下面所包括的附图、说明书和权利要求书,本发明的其他技术优点将对本领域的技术人员变清楚。此外,尽管上面已列举出了本发明的特定优点,但是各种实施例可以包括所列举出的优点的全部、某些、或者不包括这些优点。
附图说明
为了更全面地理解本发明及其优点,现在结合附图参考下面的描述,在附图中:
图1是根据本发明特定实施例的提供依赖于源的文本到语音的电信系统;
图2示出了在图1的网络中的语音特征向量服务器;
图3示出了在图1的网络中的声音匹配服务器;
图4示出了在图1的网络中的文本到语音服务器;
图5示出了根据本发明特定实施例的提供依赖于源的文本到语音的端点;以及
图6是示出了图1的网络的工作方法的一个示例的流程图。
具体实施方式
图1示出了电信网络100,该电信网络允许端点108彼此交换文本和/或语音形式的消息。一般来说,网络100的组件实现用于从文本消息生成声音消息的技术,以使该声音消息的声学特征对应于与该文本消息的源相关联的声音的声学特征。在所示实施例中,网络100包括利用网关106耦合到公共交换电话网络(PSTN)104的数据网络102。耦合到网络102和104的端点108向用户提供通信服务。网络100中的各种服务器向端点108提供服务。具体地说,网络100包括语音特征向量(SFV)服务器200、声音匹配服务器300、文本到语音(TTS)服务器400和统一的消息发送服务器110。在替换实施例中,由这些各种组件提供的功能和服务可被积聚在不同的或其他的组件内,或者分布在不同的或其他的组件之间,例如包括将服务器200、300和400集成到单个服务器,或者提供分布式体系结构,在该结构中,端点108执行所述服务器200、300和400的功能。
总地来说,网络100应用各种模式识别技术来确定与文本消息的源相关联的声音和可由TTS系统产生的数种不同的声音之一之间的最优匹配。一般来说,模式识别目的在于基于现有知识或从源数据的模式抽取的统计信息来对从源生成的数据进行分类。要被分类的模式通常是度量或观测量的组,它们定义适当的多维空间中的多个点。模式识别系统一般包括收集观测量的传感器、从观测量计算数值或符号信息的特征抽取机制、对观测量进行分类的分类方案、以及根据所抽取的特征描述观测量的描述方案。分类和描述方案可以是基于可用模式的,通常使用统计、句法或者神经分析方法已对这些可用模式作了分类或描述。统计方法基于概率系统生成的模式的统计特性;句法方法基于特征的结构相互关系;而神经方法采用在神经网络中使用的神经计算程序。
网络100通过计算语音特征向量,从而将模式识别技术应用到声音。如同在下面的描述中所使用的,“语音特征向量”指描述语音的许多数学量中的任何一个。开始,网络100针对可由TTS系统生成的某一范围内的声音计算语音特征向量,并且将每一声音的语音特征向量关联到生成该声音所使用的TTS系统的设置。在下面的描述中,TTS系统的这种设置被称作“TTS标记参数”。一旦学会了TTS系统的声音,网络100就使用模式识别来比较新声音与所存储的声音。这些声音之间的比较可以包括数值值的基本比较,或者可包括更复杂的技术,例如假设检验,在这些比较中,声音识别系统使用数种技术中的任何一种来识别所考虑的声音的可能匹配,并且计算该声音匹配的概率分值。此外,诸如梯度下降或共扼梯度下降之类的优化技术可被用来选择候选者。使用这种比较技术,声音识别系统可以确定出存储的声音中的与新声音的最优匹配,并且从而可以将该新声音与一组TTS标记参数相关联。下面的描述描述这些和类似技术的实施例,以及所示网络100的实施例的组件可执行这些功能的方式。
在所示出的网络100的实施例中,网络102代表任何硬件和/或软件,用于在组件之间传输声音和/或数据信息,其中这些信息采用分组、帧、信元、段或数据的其他部分(通称为“分组”)的形式传输。网络102可包括路由器、交换机、集线器、网关、链路和其他合适的硬件和/或软件组件的任何组合。网络102可使用用于传输信息的任何合适的协议或介质,包括因特网协议(IP)、异步传输模式(ATM)、同步光网络(SONET)、以太网、或者任何其他合适的通信介质或协议。
网关106耦合网络102到PSTN 104。一般来说,网关106代表任何这样的组件,其用于将适于网络102传输的一种格式的信息转变为适于在任何其他类型的网络中传输的另一种格式。例如,网关106可以将来自数据网络102的分组化的信息转换为在PSTN 104上传输的模拟信号。
端点108代表任何这样的硬件和/或软件,其用于接收来自用户的任何合适形式的信息,将这种信息传输到网络100的其他组件,并且将接收自网络100的其他组件的信息呈现给其用户。端点108可包括电话、IP电话、个人计算机、声音软件、显示器、麦克风、扬声器或任何其他合适形式的信息交换设备。在特定的实施例中,端点108可包括用于执行涉及信息传输的其他任务的处理能力和/或存储器。
SFV服务器200代表包括硬件和/或软件的任何这样的组件,其分析语音信号,并且计算一系列时间段的语音的声学特征、一类声音特征向量。SFV服务器200可接收任何合适形式的语音,包括模拟信号、来自麦克风的直接语音输入、分组化的声音信息,或者包括任何合适的用于将语音采样传输到SFV服务器200的方法。SFV服务器200可使用任何合适的技术、方法或算法来分析所接收到的语音。
在特定实施例中,SFV服务器200计算用于修正的高斯混合模型(GMM)的语音特征向量,例如在由Douglas A.Reynolds、Thomas F.Quatieri和Robert B.Dunn著的“Speaker Verification Using AdaptedGaussian Mixture Models”和由Douglas A.Reynolds和Richard C.Rose著的“Robust Text-Independent Speaker Identification Using Gaussian MixtureSpeaker Models”中所述的那些。在这种高斯混合模型分析的特定实施例中,通过确定具有递增带宽的对数空间滤波器(“mel-滤波器”)的频谱能量,从而计算出语音特征向量。从而获得的log-频谱能量的离散余弦变换被称作语音的“mel-刻度式倒频谱”。mel-刻度式倒频谱中的项的系数被称作“特征向量”,它们被归一化来消除线性通道卷积效果(加性偏置,additive bias),并且计算这些特征向量的不确定性范围(“δ倒频谱”)。例如,通过倒频谱平均值消去法(CMS)和/或相对频谱(RASTA)处理,可以消除加性偏置。使用诸如在相邻特征向量的范围上拟合多项式之类的技术,可以计算出δ倒频谱。所产生的特征向量定义了声音的特征,并且可以使用各种统计分析技术来与其他声音相比较。
声音匹配服务器300代表任何合适的硬件和/或软件,其用于将所测得的参数集合与语者模型(speaker model)相比较,并且确定出所测得的语音特征向量和语者模型之间的优选匹配。“语者模型”指描述由文本到语音设备或算法所产生的声音的任何数学量或量的集合。语者模型可被挑选为与SFV服务器200所确定出的语音特征向量的类型一致,以便帮助实现语者模型和测得的语音特征向量之间的比较,并且它们可响应于特定的文本消息、声音采样或其他源而被存储或产生。声音匹配服务器300可采用任何合适的技术、方法或算法,来比较所测得的语音特征向量和语者模型。例如,声音匹配服务器300可以使用相似性函数,例如高斯混合模型的log-相似性函数或更复杂的隐马尔可夫模型的相似性函数来匹配语音特征。在特定实施例中,声音匹配服务器300使用高斯混合模型来比较测得的参数与声音模型。
也可以采用各种其他语音分析技术。例如,诸如音调频谱再现之类的声学特征长时间平均(long-term averaging)可以揭示出语音的独特特征,这是通过移除使得难以标识出说话者的语音变化和其他短时间语音效果实现的。其他技术包括基于类似文本来从语音上比较发声,以标识出声音的不同特征。这些技术可以使用隐马尔可夫模型(HMM),通过考虑音素之间的潜在关系(“马尔可夫连接”),从而分析类似的音素之间的差别。替换技术可以包括在神经网络中训练识别算法,以使所使用的识别算法可取决于该网络所针对训练的特定说话者而变化。网络100可适于使用任何描述的技术或任何合适的技术,以使用测得的语音特征向量来针对一组候选语者模型中的每个计算分值,并且确定出测得的语音特征向量与语者模型中的一个之间的最优匹配。“语者模型”指任何这样的数学量,这些数学量定义与TTS标记参数的特定集合相关联的声音的特征,并且被用在最优匹配的测得的语音向量的假设检验中。例如,对于高斯混合模型,语者模型可包括混合密度函数中的高斯数、N概率权重的集合、每个成员高斯密度的N平均值向量的集合,以及每个成员高斯密度的N协方差矩阵的集合。
TTS服务器400代表任何这样的硬件和/或软件,其用于从文本信息产生声音信息。可以产生任何合适输出形式的声音信息,包括模拟信号、自扬声器输出的声音、分组化的声音信息、或者任何其他用于传输声音信息的合适格式。由TTS服务器400创建的声音信息的声学特征利用TTS标记参数而被控制,这些参数可包括用于所提供的音频的各种声学属性的控制信息。文本信息可存储为任何合适的文件格式,包括电子邮件、即时消息、存储的文本文件、或者任何其他信息的机器可读形式。
统一的消息发送服务器110代表包括硬件和/或软件的任何这样的网络中的一个或多个组件,其管理许多用户的不同类型的信息。例如,统一的消息发送服务器110可以维护网络102的用户的声音消息和文本消息。统一的消息发送服务器110还可以存储用户概况,包括提供对用户的声音的最接近匹配的TTS标记参数。统一的消息发送服务器110可由网络连接和/或声音连接访问,这允许用户登录或拨入到统一的消息发送服务器110来提取消息。在特定实施例中,统一的消息发送服务器110也可以维护用户的关联概况,这些关联概况包含关于这些用户的这样的信息,该信息有助于向网络102的用户提供消息发送服务。
在操作中,发送端点108a向接收端点108b发送文本消息。接收端点108b可以被设置为文本到语音模式,以使其将文本消息输出为语音。在该情形中,网络100的组件确定出与文本消息的源相关联的声音的语音特征向量集合。该文本消息的“源”可以指端点108a,或者生成该消息的其他组件,并且也可以指这种设备的用户。因此,与文本消息的源相关联的声音例如可以是端点108a的用户的声音。网络100比较语音特征向量的集合与语者模型,来选择最优匹配,该最优匹配是指无论使用任何比较测试,该语者模型都被认为是该声音的语音特征向量集合的最优匹配。然后,网络100基于与被挑选为最优匹配的语者模型相关联的TTS标记参数来生成语音。
在一种操作模式中,网络100的组件检测到端点108b被设置为将文本消息作为声音消息接收。或者,当端点108被设置为将文本消息输出为声音消息时,端点108b可以将文本消息传输到TTS服务器400。TTS服务器400向发送该文本消息的端点108b发送请求声音采样的请求。SFV服务器200接收到声音采样,并且分析该声音采样来确定该声音采样的语音特征向量。SFV服务器200将语音特征向量传输到声音匹配服务器300,该服务器然后将所测得的语音特征向量与声音匹配服务器300中的语者模型相比较。声音匹配服务器300确定出语者模型的最优匹配,并且通知TTS服务器400,告知与优选的语者模型相关联的适当TTS标记参数,以便TTS服务器400用来生成声音。然后,TTS服务器400使用所选出的参数集合来生成此后自接收端点108b接收到的文本消息的声音。
在另一操作模式中,TTS服务器400可以向发送端点108a请求一组定义声音特征的语音特征向量。如果这种兼容的语音特征向量是可获得的,则声音匹配服务器300可以直接从发送端点108a接收到这些语音特征向量,并且将那些语音特征向量与声音匹配服务器300存储的语者模型相比较。这样,声音匹配服务器300通过与发送端点108a交换信息来确定出与所采样的声音最佳匹配的语者模型设置。
在另一操作模式中,声音匹配服务器300可以使用TTS服务器400来生成语者模型,这些模型然后用在源的语音特征向量的假设检验中,这和SFV服务器200所确定的一样。例如,存储的声音采样可在发送端点108a被关联到具体的文本。在那种情形中,SFV服务器200可接收到声音采样,并且对其进行分析,而声音匹配服务器300接收到文本消息。声音匹配服务器300将文本消息传输到TTS服务器400,并且指示TTS服务器400根据可用TTS标记参数阵列基于该文本消息生成声音数据。每个TTS标记参数集合对应于声音匹配服务器300中的语者模型。这根据相同的文本片断有效地产生许多不同的声音。然后,SFV服务器200分析各声音采样,并且计算声音采样的语音特征向量。SFV服务器200将这些语音特征向量传输到声音匹配服务器300,声音匹配服务器300使用这些语音特征向量对候选语者模型执行假设检验,这些模型中的每一个对应于特定TTS标记参数集合。由于这些声音采样是从相同的文本生成的,所以在从端点108a接收到的声音与模型声音相比时,可以实现更高的准确度。
所述的用于确定对应于实际声音的准确模型的操作模式和技术可以实现在多种不同的实施例中。在替换实施例的一种示例中,在分布式通信体系结构中的端点108包括足以执行所述服务器200、300和400的任何或全部任务的功能。因此,设置为将文本信息输出为声音信息的端点108可执行下述步骤:获取声音采样、确定用于TTS生成的匹配TTS标记参数集合、以及使用所选出的参数集合产生语音输出。在这种实施例中,端点108也可以分析它们各自的用户的声音,并且维护可被传输到兼容的声音识别系统的语音特征向量集合。
在另一替换实施例中,所述技术可用在统一的消息发送系统中。在这种情形中,服务器200、300和400可与统一的消息发送服务器110交换信息。例如,统一的消息发送服务器110可以维护作为特定用户的概况一部分的声音采样。在此情形中,SFV服务器200和声音匹配服务器300可以使用存储的每个用户的采样和/或参数来确定该用户的准确匹配。这些操作可在网络102中本地执行,或者与使用统一的消息发送服务器110的远程网络协作执行。这样,这些技术可适于广泛的消息发送系统。
在其他替换实施例中,SFV服务器200、声音匹配服务器300和TTS服务器400的功能可被集成或分布在多个组件中。例如,网络102可包括执行所述声音分析和模型选择任务中的任何任务和全部任务的混合服务器。在另一示例中,TTS服务器400可以代表这样的独立服务器的集合,这些服务器中的每个都根据特定的TTS标记参数集合生成语音。因此,声音匹配服务器300可以选择与所选出的TTS标记参数集合相关联的特定服务器400,而不是将特定的参数集合传输到TTS服务器400。
本发明的某些实施例的一个技术优点在于对于端点108的用户的增加的用途。使用与提供文本消息的人的声音类似的声音为特定端点108的用户提供了增加的能力,使其能够识别出使用次要队列的源。一般来说,该特征通常也可以使用户更容易地与网络100中的TTS系统交互。
某些实施例的另一技术优点在于与其他系统的互操作能力。由于端点108已配备为交换声音信息,所以端点108不需要额外的硬件、软件或共享协议来向SFV服务器200或声音匹配服务器300提供声音采样。因此,所述技术可以被吸收到现有系统中,结合不使用相同的语音分析和再现技术的系统一起工作。
图2示出了SFV服务器200的特定实施例。在所示实施例中,SFV服务器200包括处理器202、存储器204、网络接口206和语音接口208。一般来说,SFV服务器200对SFV服务器200接收到的声音执行分析,并且产生描述所接收到的声音的音频特征的数学量(特征向量)。
处理器202代表用于处理信息的任何硬件和/或软件。处理器202可包括微处理器、微控制器、数字信号处理器(DSP)、或者任何其他合适的硬件和/或软件组件。处理器202执行存储在存储器204中的代码210来执行SFV服务器200的各种任务。
存储器204代表任何形式的信息存储装置,无论是易失性的还是非易失性的。存储器204可包括光介质、磁介质、本地介质、远程介质、可移除介质、或者任何其他合适的信息存储形式。存储器204存储由处理器202执行的代码210。在所述示例中,代码210包括特征确定算法212。算法212代表用于数学地定义声音信息的特征的任何合适的技术或方法。在特定实施例中,特征确定算法212对语音进行分析,并且计算在用于语音比较的高斯混合模型中使用的一组特征向量。
接口206和208代表任何端口或连接,不管是真正的还是虚拟的,它们允许SFV服务器200与网络100的其他组件交换信息。网络接口206用来与数据网络102的组件交换信息,这些组件包括在上述操作模式中描述的声音匹配服务器300和/或TTS服务器400。语音接口208允许SFV服务器200接收语音,不管是通过麦克风,还是以模拟形式、分组形式或者任何其他合适的声音传输方法。语音接口208可以允许SFV服务器200与端点108、统一的消息发送服务器110、TTS服务器400或可使用SFV服务器200的语音分析能力的任何其他组件交换信息。
在操作中,SFV服务器200在语音接口208处接收到语音数据。处理器202执行特征确定算法212来确定出定义语音特征的语音特征向量。SFV服务器200使用网络接口206将语音特征向量传输到网络100的其他组件。
图3示出了声音匹配服务器300的一个实施例的示例。在所示实施例中,声音匹配服务器300包括处理器302、存储器304和网络接口306,它们与上述SFV服务器200的类似组件相似,并且可包括结合图2中的类似组件所描述的任何硬件和/或软件。声音匹配服务器300的存储器304存储代码308、语者模型312和接收到的语音特征向量314。
代码308代表这样的指令,处理器302执行这些指令来执行声音匹配服务器300的任务。代码308包括比较算法310。处理器302使用比较算法310来将一组语音特征向量与语者模型的集合相比较,以确定所考虑的语音特征向量集合与这些模型之一之间的优选匹配。比较算法310可以是假设检验算法,在该算法中,给予所建议的匹配一个匹配所考虑的语音特征向量集合的概率,但是也可以包括任何其他合适类型的比较。语者模型312可以是基于先前利用TTS服务器400生成的可用声音进行的训练的已知参数集的集合。或者,语者模型312可以是按照来自源端点108的要被转换为语音的特定文本消息的需求而基于每种情形所生成的。接收到的语音特征向量314代表这样的参数,这些参数定义与来自其的文本要被转换为语音的源端点108相关联的声音采样的特征。接收到的语音特征向量314一般是上述SFV服务器200执行的分析的结果。
在操作中,声音匹配服务器300使用网络接口306从SFV服务器200接收到语音特征向量,这些语音特征向量定义与端点108相关联的声音的特征。处理器302在存储器304中存储参数,并且执行比较算法310来确定所接收到的语音特征向量314与语者模型312之间的优选匹配。处理器302从语者模型312中确定出优选匹配,并且将关联的TTS标记参数传输到TTS服务器400,这些参数将要用于随后从接收自特定端点108的文本消息生成语音中。也可以使用替换操作模式。例如,声音匹配服务器300可以在从SFV服务器200接收到接收到的语音特征向量314之后生成语者模型312,而不是维护存储的语者模型312。这可以在确定语者模型312中的优选匹配时提供额外的通用性和/或准确性。
图4示出了TTS服务器400的特定实施例。在所示出的实施例中,TTS服务器400包括处理器402、存储器404、网络接口406和语音接口408,它们与结合图2所述的SFV服务器200的类似组件相似,并且可包括其中所述的任何硬件和/或软件。一般地说,TTS服务器400接收文本信息,并且使用TTS引擎412从该文本生成声音信息。
TTS服务器400的存储器404存储代码410和存储的TTS标记参数414。代码410代表由处理器402执行来执行TTS服务器400的各种任务的指令。代码410包括TTS引擎412,其代表从声音数据产生语音的技术、方法或算法。所使用的特定TTS引擎412可取决于声音信息的可用输入格式和期望输出格式。TTS引擎412可适用于多种文本格式和声音输出格式。TTS标记参数414代表TTS引擎412用来生成语音的参数集合。取决于所选出的TTS标记参数414的集合,TTS引擎412可以产生具有不同发声特性的声音。
在操作中,TTS服务器400基于使用网络接口406接收到的文本消息生成语音。使用语音接口408,该语音被传输到端点108或其他目的地。为了生成特定文本消息的语音,向TTS服务器400提供特定的TTS标记参数414集合,并且相应地使用TTS引擎412生成语音。在TTS服务器400未将特定声音关联到消息的情形中,TTS服务器400可以使用与默认声音相对应的TTS标记参数414的默认集合。当依赖于源的信息可用时,TTS服务器400可以从声音匹配服务器300接收到适当的TTS标记参数选择,以使TTS标记参数对应于优选语者模型。这可以允许TTS服务器400产生对发送文本消息的人的声音的更准确的再现。
图5示出了端点108b的特定实施例。在所示出的实施例中,端点108b包括处理器502、存储器504、网络接口506和用户接口508。处理器502、存储器504和网络接口506对应于前述SFV服务器200、声音匹配服务器300和文本到语音服务器400的相似组件,并且可包括与前述那些组件的硬件和/或软件相似的任何硬件和/或软件。用户接口508代表任何这样的硬件和/或软件,端点108b利用这些硬件和/或软件与用户交换信息。例如,用户接口508可包括麦克风、键盘、小键盘、显示器、扬声器、鼠标、图形用户界面、按钮或者信息交换的任何其他合适形式。
端点108b的存储器504存储代码512、语者模型518、以及接收到的语音特征向量520。代码512代表由处理器502执行来执行端点108b的各种任务的指令。在特定实施例中,代码512包括特征确定算法512、比较算法514和TTS引擎516。算法512和514以及引擎516分别对应于结合SFV服务器200、声音匹配服务器300和TTS服务器400所述的类似算法。因此,端点108b将那些组件的功能集成到了单个设备中。
在操作中,端点108使用网络接口506与网络100的其他端点108和/或组件交换声音和/或文本信息。在与其他设备交换声音信息期间,端点108b可以使用特征确定算法512确定出接收到的语音的语音特征向量520,并且在存储器504中存储那些特征向量520,从而将参数520关联到发送端点108a。端点108b的用户可以触发端点108b的文本到语音模式。在文本到语音模式中,端点108b使用TTS引擎516从接收到的文本消息生成语音。端点108b通过使用比较算法514来将参数520与语者模型518相比较,从而选择出用于基于文本消息的源生成语音的语者模型集合518,并且使用与优选模型相关联的TTS标记参数来生成语音。这样,TTS引擎516所产生的语音紧密对应于文本消息的源。
在替换实施例中,端点108b可以执行不同的或额外的功能。例如,端点108b可使用特征确定算法512来分析其自己的用户的语音。该信息可与其他端点108交换并且/或者与语者模型518相比较来提供依赖于源的文本到语音的协作方法。类似地,端点108可以协作地协商出一组语者模型518,以用在文本到语音操作中,这允许分布式网络体系结构确定合适的协议来允许依赖于源的文本到语音处理。一般来说,端点108的描述可以与前面任何地方描述的网络100的任何实施例一致。
图6示出了一种这样的方法的流程图600,该方法选择一组适当的TTS标记参数,以在网络100中产生依赖于源的语音输出。在步骤602中,端点108接收到文本消息。如果端点108具有能够将文本转换为声音的设置,则消息可由端点108接收到,并且被传输到网络100中的其他组件,或者,可以被TTS引擎400或另一个组件接收到。在判定步骤604中,确定出端点108是否具有所选择的TTS选项。如果端点108不具有所选择的TTS选项,则在步骤606中,消息以文本形式被传输到端点。如果已选择了TTS选项,则在步骤608中,TTS引擎400确定出是否可获得语音特征向量。这可以是先前已针对发送消息的端点108确定了语音特征向量的情形,或者是在端点108使用兼容声音特征系统时维护端点108的用户的语音特征向量的情形。如果语音特征向量是不可获得的,TTS引擎400接下来在判定步骤610中确定是否可获得语音采样。如果语音特征向量和语音采样都不可获得,则在步骤612中TTS引擎400使用默认TTS标记参数来定义语音的特征。
如果语音采样可获得,则SFV服务器200在步骤614中分析该语音采样来确定该声音采样的语音特征向量。在从端点108接收到特征向量或者由SFV服务器200确定出特征向量之后,声音匹配服务器300在步骤616中比较特征向量和语者模型,并且在步骤618中从那些参数确定出优选匹配。
在选择出语音特征向量的优选匹配或者使用默认的TTS标记参数集合之后,TTS引擎400在步骤620中使用关联的TTS标记参数生成语音。TTS引擎400在步骤622中使用语音接口408输出语音。然后,TTS引擎400在判定步骤624中确定是否有额外的文本消息要被转换。作为步骤624的一部分,TTS引擎400可以验证端点108是否仍被设置为以声音形式输出文本消息。如果存在来自端点108的额外的文本消息(或者如果端点108不再设置为以声音形式输出文本消息),则TTS引擎400使用先前选择出的参数来从后继文本消息生成语音。否则,该方法结束。
尽管已用多个实施例描述了本发明,但是可以向本领域的技术人员建议多种改变、变化、变更、变换和修改,并且本发明是要包括这些改变、变化、变更、变换和修改,只要它们落在所附权利要求的范围内。
Claims (34)
1.一种从文本消息生成语音的方法,包括以下步骤:
确定与文本消息的源相关联的声音的语音特征向量;
比较所述语音特征向量和多个语者模型;
基于所述比较选择出所述语者模型之一作为所述声音的优选匹配;和
基于所选出的语者模型从所述文本消息生成语音。
2.如权利要求1所述的方法,其中,所述确定步骤包括:
接收所述声音的采样;和
分析所述采样来确定所述声音的语音特征向量。
3.如权利要求1所述的方法,其中,所述确定步骤包括:
请求作为所述文本消息的源的端点提供所述语音特征向量;和
从所述端点接收所述语音特征向量。
4.如权利要求1所述的方法,其中,所述生成步骤包括将生成所述语音的命令传输到文本到语音服务器,所述命令包括所选出的语者模型,其中所述文本到语音服务器基于所选出的语者模型生成所述语音。
5.如权利要求1所述的方法,其中:
所述语音特征向量包括用于高斯混合模型的特征向量;并且
所述比较步骤包括将与所述语音特征向量相关联的第一高斯混合模型与多个第二高斯混合模型相比较,其中每个第二高斯混合模型与所述语者模型中的至少一个相关联。
6.如权利要求1所述的方法,还包括:
生成多个模型声音采样;和
分析所述模型声音采样来确定所述每个模型声音采样的语者模型。
7.如权利要求6所述的方法,其中,所述模型声音采样是基于与所述声音采样相关联的文本采样生成的。
8.如权利要求1所述的方法,其中,所述方法的步骤由通信网络中的端点实现。
9.如权利要求1所述的方法,其中,所述方法的步骤在通信网络中的声音匹配服务器中实现。
10.如权利要求1所述的方法,其中:
所述方法的步骤在统一的消息发送系统中实现;并且
所述语音特征向量在用户概况中被关联到提供所述文本消息的用户。
11.一种声音匹配服务器,包括:
接口,可操作来执行下面的功能:
接收与文本消息的源相关联的声音的语音特征向量;以及
传输命令到文本到语音服务器,指示所述文本到语音服务器基于所选出的语者模型从所述文本消息生成语音;和
处理器,可操作来执行下面的功能:
比较所述语音特征向量和多个语者模型;以及
基于所述比较选择所述语者模型之一作为所述声音的优选匹配。
12.如权利要求11所述的服务器,还包括存储器,其可操作来存储所述多个语者模型。
13.如权利要求11所述的服务器,其中:
所述接口还可操作来使所述文本到语音服务器生成多个模型声音采样;并且
所述语者模型是基于所述模型声音采样的分析而确定的。
14.如权利要求13所述的服务器,其中,所述模型声音采样是基于与所述声音采样相关联的文本采样而生成的。
15.如权利要求11所述的服务器,其中:
所述接口还可操作来向作为所述文本消息的源的端点传输请求所述语音特征向量的请求;并且
所述接口从所述端点接收所述语音特征向量。
16.如权利要求11所述的服务器,其中:
所述语音特征向量包括用于高斯混合模型的特征向量;并且
所述比较步骤包括将与所述语音特征向量相关联的第一高斯混合模型与多个第二高斯混合模型相比较,其中每个第二高斯混合模型与所述语者模型中的至少一个相关联。
17.如权利要求11所述的服务器,其中:
所述服务器是统一的消息发送系统的一部分;并且
所述语音特征向量在用户概况中被关联到提供所述文本消息的用户。
18.一种端点,包括:
第一接口,可操作来从源接收文本消息;和
处理器,可操作来执行下面的功能:
确定与文本消息的源相关联的声音的语音特征向量;
比较所述语音特征向量和多个语者模型;
基于所述比较选择出所述语者模型之一作为所述声音的优选匹配;以及
基于所选出的语者模型从所述文本消息生成语音;和
第二接口,可操作来向用户输出所生成的语音。
19.如权利要求18所述的端点,其中,所述第一接口还可操作来执行下面的功能:
向所述文本消息的源传输请求所述语音特征向量的请求;和
接收响应于所述请求的所述语音特征向量。
20.如权利要求18所述的端点,其中:
所述第一接口还可操作来从所述文本消息的源接收声音采样;并且
所述处理器还可操作来分析所述声音采样以确定所述语音特征向量。
21.如权利要求18所述的端点,其中:
所述第一接口还可操作来从所述文本消息的源接收语音;
所述第二接口还可操作来输出所接收到的语音;并且
所述处理器还可操作来分析所接收到的语音以确定所述语音特征向量。
22.一种系统,包括:
声音匹配服务器,可操作来执行下面的功能:
比较语音特征向量和多个语者模型;以及
基于所述比较选择出所述语者模型之一作为所述声音的优选匹配;和
文本到语音服务器,可操作来基于所选出的语者模型从文本消息生成语音。
23.如权利要求22所述的系统,还包括语音特征向量服务器,可操作来执行下面的功能:
接收语音;和
基于所述语音确定关联的语音特征向量,其中由所述声音匹配服务器比较的语音特征向量是从所述语音特征向量服务器接收到的。
24.如权利要求22所述的系统,其中,所述声音匹配服务器还可操作来从所述语音特征向量服务器接收所述语者模型。
25.如权利要求24所述的系统,其中:
所述声音匹配服务器还可操作来使所述文本到语音服务器生成多个模型声音采样;并且
所述语音特征向量服务器还可操作来分析所述声音采样以确定所述语者模型。
26.如权利要求22所述的系统,其中:
所述文本到语音服务器是多个文本到语音服务器中的一个,每个文本到语音服务器可操作来使用不同的语者模型生成语音;并且
所述声音匹配服务器还可操作来基于哪个文本到语音服务器使用所选出的语者模型来选择所述文本到语音服务器之一以生成语音。
27.包含在计算机可读介质中的软件,所述软件可操作来执行下面的步骤:
确定与文本消息的源相关联的声音的语音特征向量;
比较所述语音特征向量和多个语者模型;
基于所述比较选择出所述语者模型之一作为所述声音的优选匹配;和
基于所选出的语者模型从所述文本消息生成语音。
28.如权利要求27所述的软件,其中,所述确定步骤包括:
接收所述声音的采样;和
分析所述采样以确定所述声音的语音特征向量。
29.如权利要求27所述的软件,其中,所述确定步骤包括:
请求作为所述文本消息的源的端点提供所述语音特征向量;和
从所述端点接收所述语音特征向量。
30.如权利要求27所述的软件,还可操作来执行下面的步骤:
生成多个模型声音采样;和
分析所述模型声音采样以确定所述每个模型声音采样的语者模型。
31.一种系统,包括:
用于确定与文本消息的源相关联的声音的语音特征向量的装置;
用于比较所述语音特征向量和多个语者模型的装置;
用于基于所述比较选择出所述语者模型之一作为所述声音的优选匹配的装置;和
用于基于所选出的语者模型从所述文本消息生成语音的装置。
32.如权利要求31所述的系统,其中所述用于确定的装置包括:
用于接收所述声音的采样的装置;和
用于分析所述采样以确定所述声音的语音特征向量的装置。
33.如权利要求31所述的系统,其中所述用于确定的装置包括:
用于请求作为所述文本消息的源的端点提供所述语音特征向量的装置;和
用于从所述端点接收所述语音特征向量的装置。
34.如权利要求31所述的系统,还包括:
用于生成多个模型声音采样的装置;和
用于分析所述模型声音采样以确定所述每个模型声音采样的语者模型的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/434,683 US8005677B2 (en) | 2003-05-09 | 2003-05-09 | Source-dependent text-to-speech system |
US10/434,683 | 2003-05-09 | ||
PCT/US2004/013366 WO2004100638A2 (en) | 2003-05-09 | 2004-04-28 | Source-dependent text-to-speech system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1894739A true CN1894739A (zh) | 2007-01-10 |
CN1894739B CN1894739B (zh) | 2010-06-23 |
Family
ID=33416756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480010899XA Expired - Fee Related CN1894739B (zh) | 2003-05-09 | 2004-04-28 | 依赖于源的文本到语音系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8005677B2 (zh) |
EP (1) | EP1623409A4 (zh) |
CN (1) | CN1894739B (zh) |
AU (1) | AU2004238228A1 (zh) |
CA (1) | CA2521440C (zh) |
WO (1) | WO2004100638A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013011397A1 (en) * | 2011-07-07 | 2013-01-24 | International Business Machines Corporation | Statistical enhancement of speech output from statistical text-to-speech synthesis system |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN110389585A (zh) * | 2018-04-16 | 2019-10-29 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于学习的速度规划器 |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8027276B2 (en) * | 2004-04-14 | 2011-09-27 | Siemens Enterprise Communications, Inc. | Mixed mode conferencing |
JP3913770B2 (ja) * | 2004-05-11 | 2007-05-09 | 松下電器産業株式会社 | 音声合成装置および方法 |
US7706780B2 (en) * | 2004-12-27 | 2010-04-27 | Nokia Corporation | Mobile communications terminal and method therefore |
US7706510B2 (en) | 2005-03-16 | 2010-04-27 | Research In Motion | System and method for personalized text-to-voice synthesis |
JP4586615B2 (ja) * | 2005-04-11 | 2010-11-24 | 沖電気工業株式会社 | 音声合成装置,音声合成方法およびコンピュータプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8224647B2 (en) | 2005-10-03 | 2012-07-17 | Nuance Communications, Inc. | Text-to-speech user's voice cooperative server for instant messaging clients |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
GB2443468A (en) * | 2006-10-30 | 2008-05-07 | Hu Do Ltd | Message delivery service and converting text to a user chosen style of speech |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8086457B2 (en) * | 2007-05-30 | 2011-12-27 | Cepstral, LLC | System and method for client voice building |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
KR20090085376A (ko) * | 2008-02-04 | 2009-08-07 | 삼성전자주식회사 | 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치 |
US8285548B2 (en) | 2008-03-10 | 2012-10-09 | Lg Electronics Inc. | Communication device processing text message to transform it into speech |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
EP2205010A1 (en) * | 2009-01-06 | 2010-07-07 | BRITISH TELECOMMUNICATIONS public limited company | Messaging |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
KR20120121070A (ko) * | 2011-04-26 | 2012-11-05 | 삼성전자주식회사 | 원격 건강관리 시스템 및 이를 이용한 건강관리 방법 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105340003B (zh) * | 2013-06-20 | 2019-04-05 | 株式会社东芝 | 语音合成字典创建装置以及语音合成字典创建方法 |
US9460722B2 (en) | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US9984706B2 (en) | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
CN104519195A (zh) * | 2013-09-29 | 2015-04-15 | 中国电信股份有限公司 | 移动终端中文本语音转换实现方法和移动终端 |
US9183831B2 (en) | 2014-03-27 | 2015-11-10 | International Business Machines Corporation | Text-to-speech for digital literature |
US9633649B2 (en) * | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10176798B2 (en) * | 2015-08-28 | 2019-01-08 | Intel Corporation | Facilitating dynamic and intelligent conversion of text into real user speech |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10062385B2 (en) | 2016-09-30 | 2018-08-28 | International Business Machines Corporation | Automatic speech-to-text engine selection |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10586537B2 (en) * | 2017-11-30 | 2020-03-10 | International Business Machines Corporation | Filtering directive invoking vocal utterances |
WO2019245916A1 (en) * | 2018-06-19 | 2019-12-26 | Georgetown University | Method and system for parametric speech synthesis |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN109754778B (zh) * | 2019-01-17 | 2023-05-30 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN110600045A (zh) * | 2019-08-14 | 2019-12-20 | 科大讯飞股份有限公司 | 声音转换方法及相关产品 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6128128A (ja) | 1984-07-19 | 1986-02-07 | Nec Corp | 電子通訳装置 |
US5704007A (en) * | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
JPH07319495A (ja) | 1994-05-26 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置のための合成単位データ生成方式及び方法 |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
CA2242065C (en) * | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
JP3224760B2 (ja) * | 1997-07-10 | 2001-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声メールシステム、音声合成装置およびこれらの方法 |
JP4146949B2 (ja) | 1998-11-17 | 2008-09-10 | オリンパス株式会社 | 音声処理装置 |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6813604B1 (en) * | 1999-11-18 | 2004-11-02 | Lucent Technologies Inc. | Methods and apparatus for speaker specific durational adaptation |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
GB2364850B (en) * | 2000-06-02 | 2004-12-29 | Ibm | System and method for automatic voice message processing |
US6801931B1 (en) | 2000-07-20 | 2004-10-05 | Ericsson Inc. | System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker |
US6873952B1 (en) * | 2000-08-11 | 2005-03-29 | Tellme Networks, Inc. | Coarticulated concatenated speech |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
DE10062379A1 (de) | 2000-12-14 | 2002-06-20 | Siemens Ag | Verfahren und System zum Umsetzen von Text in Sprache |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6535852B2 (en) * | 2001-03-29 | 2003-03-18 | International Business Machines Corporation | Training of text-to-speech systems |
US6792407B2 (en) * | 2001-03-30 | 2004-09-14 | Matsushita Electric Industrial Co., Ltd. | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems |
DE10117367B4 (de) * | 2001-04-06 | 2005-08-18 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
EP1395803B1 (en) | 2001-05-10 | 2006-08-02 | Koninklijke Philips Electronics N.V. | Background learning of speaker voices |
US7177801B2 (en) * | 2001-12-21 | 2007-02-13 | Texas Instruments Incorporated | Speech transfer over packet networks using very low digital data bandwidths |
US7200560B2 (en) * | 2002-11-19 | 2007-04-03 | Medaline Elizabeth Philbert | Portable reading device with display capability |
-
2003
- 2003-05-09 US US10/434,683 patent/US8005677B2/en active Active
-
2004
- 2004-04-28 EP EP04750993A patent/EP1623409A4/en not_active Withdrawn
- 2004-04-28 WO PCT/US2004/013366 patent/WO2004100638A2/en active Application Filing
- 2004-04-28 CN CN200480010899XA patent/CN1894739B/zh not_active Expired - Fee Related
- 2004-04-28 CA CA2521440A patent/CA2521440C/en not_active Expired - Fee Related
- 2004-04-28 AU AU2004238228A patent/AU2004238228A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013011397A1 (en) * | 2011-07-07 | 2013-01-24 | International Business Machines Corporation | Statistical enhancement of speech output from statistical text-to-speech synthesis system |
CN103635960A (zh) * | 2011-07-07 | 2014-03-12 | 国际商业机器公司 | 从统计文本到语音合成系统输出的语音的统计增强 |
GB2507674A (en) * | 2011-07-07 | 2014-05-07 | Ibm | Statistical enhancement of speech output from statistical text-to-speech synthesis system |
GB2507674B (en) * | 2011-07-07 | 2015-04-08 | Ibm | Statistical enhancement of speech output from A statistical text-to-speech synthesis system |
CN103635960B (zh) * | 2011-07-07 | 2016-04-13 | 国际商业机器公司 | 从统计文本到语音合成系统输出的语音的统计增强 |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN104485100B (zh) * | 2014-12-18 | 2018-06-15 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN110389585A (zh) * | 2018-04-16 | 2019-10-29 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于学习的速度规划器 |
Also Published As
Publication number | Publication date |
---|---|
CA2521440A1 (en) | 2004-11-25 |
US8005677B2 (en) | 2011-08-23 |
EP1623409A4 (en) | 2007-01-10 |
CA2521440C (en) | 2013-01-08 |
WO2004100638A2 (en) | 2004-11-25 |
EP1623409A2 (en) | 2006-02-08 |
US20040225501A1 (en) | 2004-11-11 |
CN1894739B (zh) | 2010-06-23 |
WO2004100638A3 (en) | 2006-05-04 |
AU2004238228A1 (en) | 2004-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1894739B (zh) | 依赖于源的文本到语音系统 | |
CN113408385B (zh) | 一种音视频多模态情感分类方法及系统 | |
US6954745B2 (en) | Signal processing system | |
US7346500B2 (en) | Method of translating a voice signal to a series of discrete tones | |
CN111193834B (zh) | 基于用户声音特征分析的人机交互方法、装置和电子设备 | |
CN100351899C (zh) | 网络环境中语音处理的中间体 | |
CN111489743B (zh) | 一种基于智能语音技术的运营管理分析系统 | |
US12118978B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs indicative of a user in a hurry | |
US9043207B2 (en) | Speaker recognition from telephone calls | |
CN111489765A (zh) | 一种基于智能语音技术的话务服务质检方法 | |
CN109979428B (zh) | 音频生成方法和装置、存储介质、电子设备 | |
CN112037764A (zh) | 一种音乐结构的确定方法、装置、设备及介质 | |
US20040193894A1 (en) | Methods and apparatus for modeling based on conversational meta-data | |
Ananthi et al. | Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired | |
CN117524259A (zh) | 音频处理方法及系统 | |
Kumawat et al. | SSQA: Speech signal quality assessment method using spectrogram and 2-D convolutional neural networks for improving efficiency of ASR devices | |
Prakash et al. | Analysis of emotion recognition system through speech signal using KNN & GMM classifier | |
CN112116165B (zh) | 一种业务绩效确定方法和装置 | |
Hassan et al. | Emotions analysis of speech for call classification | |
CN118013390B (zh) | 一种基于大数据分析的智慧工作台控制方法及系统 | |
US20240363135A1 (en) | Methods and systems for determining quality assurance of parallel speech utterances | |
Özer | Biologically-Inspired Speech Emotion Recognition Using Rate Map Representations: An Application to the ShEMO Persian Speech Database | |
CN117877510A (zh) | 语音自动化测试的方法、装置、电子设备及存储介质 | |
CN118609536A (zh) | 音频生成方法、装置、设备和存储介质 | |
CN118246910A (zh) | 一种对话式线上缴费方法、系统、介质、设备及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100623 Termination date: 20210428 |