CN102651217A - 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 - Google Patents

用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 Download PDF

Info

Publication number
CN102651217A
CN102651217A CN2011100465804A CN201110046580A CN102651217A CN 102651217 A CN102651217 A CN 102651217A CN 2011100465804 A CN2011100465804 A CN 2011100465804A CN 201110046580 A CN201110046580 A CN 201110046580A CN 102651217 A CN102651217 A CN 102651217A
Authority
CN
China
Prior art keywords
fuzzy
contextual feature
data
mark
polyphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100465804A
Other languages
English (en)
Inventor
汪曦
楼晓雁
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2011100465804A priority Critical patent/CN102651217A/zh
Priority to US13/402,602 priority patent/US9058811B2/en
Publication of CN102651217A publication Critical patent/CN102651217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种用于合成语音的方法、设备以及用于训练在语音合成中使用的声学模型的方法。所述用于合成语音的方法可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。根据本发明的实施例的方法和设备,可以对中文中难以预测的多音字进行模糊化处理,从而改善中文多音字合成的质量。

Description

用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
技术领域
本发明涉及语音合成,更具体地,涉及中文多音字的合成。
背景技术
由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器象人那样说话,使一些以其它方式表示或存储的信息能转换为语音,从而人们可以通过听觉方便地获得这些信息。
目前展开大量研究和应用的是文语转换TTS系统,在该系统中通常输入待合成的文本,系统包含的文本分析器对之进行处理,输出发音描述符号,其包括音段层面的注音符号与超音段层面的韵律符号。该文本分析器首先根据发音字典,将待合成文本分解为带有属性标注的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定语句结构及语调,以及停顿词性距离等目标语音的语言学以及韵律特征。之后将发音描述符号输入到该系统包含的合成器,通过语音合成,输出合成的语音。
在现有技术中,基于隐马尔科夫HMM声学模型已经广泛应用于语音合成技术,可以容易地修改和变换合成的声音。语音合成通常分为模型训练和合成部分。在模型训练阶段,对语音库中各语音单元包含的声学参数以及对应的音段、韵律等标注属性,进行统计模型的训练。这些标注来源于语言和声学知识,其组成的上下文特征(context feature)描述了对应的语音属性(例如声调、词性等)。在HMM声学模型的训练阶段,对模型参数的估计来自对这些语音单元参数的统计计算。
在现有技术中,考虑到如此多、具有大量变化的上下文组合,一般采用决策树的树聚类方法来处理。决策树可以将上下文特征和声学特征相似的候选基元聚成一类,从而有效地避免了数据稀疏,并有效地减少了模型的数量。问题集是供决策树构造使用的问题的集合,结点分裂时所选中的问题与此结点绑定,从而决定哪些基元进入同一个叶子结点。聚类的过程参考预先定义的问题集,决策树的每个结点都绑定一个“Yes/No”问题,所有允许进入根节点的候选基元都要回答结点上绑定的问题,根据回答结果选择进入左分支还是右分支。因此,每个将具有相同或者接近上下文特征的音节或音素处在决策树的同一个叶子结点中,节点对应的模型通常可以是HMM模型或状态,模型由参数描述。同时,聚类也是一个学习处理在合成中遇到新情况的过程,从而可以实现最优的匹配。通过对训练数据的训练以及聚类得到隐马尔科夫(HMM)模型以及对应模型的决策树。
在合成阶段,通过文本分析器和上下文标注生成器得到多音字的上下文特征标注。针对该上下文特征标注在训练好的决策树上找到相应的声学模型参数(例如HMM声学模型的状态序列)。然后该模型参数经过参数生成算法得到相应的语音参数,从而通过合成器(Vocoder)合成语音。
语音合成系统的目标就是能够合成跟人声一样智能和自然的声音。但是对于中文语音合成系统,多音字的读音预测准确率很难保证,因为多音字的发音往往根据语义确定,而语义理解又是一个具有挑战性的课题。这样相互依赖的关系导致多音字预测的难以取得令人满意的高准确性。在现有技术中,即使对这个读音的预测没有足够把握,语音合成系统一般都会对该多音字给出一个确定的发音。
在中文中,不同的读音代表了不同的意义。如果语音合成系统给出错误的发音,将会引起听者理解上的歧义,给听者很不好的感受。从而对于在生活、工作以及科学研究(例如车载导航、自动声讯服务、广播、机器人模拟等)中应用的语音合成系统,将会由于明显错误的多音字读音而造成不好的用户体验,甚至使用的不便。因此,在语音合成领域中存在对改进的多音字的语音合成方法以及系统的需要。
发明内容
为此,提供了本发明的实施例的用于语音合成的方法及其系统以及训练用于语音合成的声学模型的方法。通过实施本发明的实施例,可以具有以下优点:可以在系统没有足够把握给出正确读音的情况下,模糊化多音字的读音,并且不影响整个系统其他正常声音的质量,此方法将会避免明显的错误,从而提高合成系统的整体主观听感。
根据本发明的一个方面,提供了一种用于语音合成的方法,可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。
优选的,生成模糊上下文特征标注的步骤可以进一步包括:基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
根据本发明的另外的方面,提供一种用于合成语音的设备,可以包括:多音字预测单元,用于预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率;模糊上下文特征标注生成单元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;确定单元,用于基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;参数生成器,用于针对所述模型参数生成语音参数;以及合成器,用于将所述语音参数合成为语音。
优选的,所述模糊上下文特征标注生成单元可以进一步被配置为:基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
根据本发明的另外的方面,提供一种用于合成语音的系统,可以包括:用于确定文本分析生成的数据为模糊多音字数据的装置;用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置;用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置;用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数的装置;用于对所述模型参数生成语音参数的装置;以及用于将所述语音参数合成为语音的装置。
根据本发明的另外的方面,提供一种用于训练声学模型的方法,可以包括:训练语音库中各语音单元,以生成声学模型,所述语音单元包含声学参数以及上下文标注;对于上下文组合,进行决策树聚类处理以生成具有决策树的声学模型;基于所述具有决策树的声学模型,确定语音库中的模糊数据;针对所述模糊数据,生成模糊上下文特征标注;以及基于所述模糊上下文特征标注,对所述语音库进行聚类训练,以生成具有模糊决策树的声学模型。
优选的,确定模糊数据的步骤可以进一步包括:评估语音单元;以及确定所述语音单元的候选上下文标注落入分类的程度;以及如果所述程度满足预定阈值,则确定所述语音单元为模糊数据。
优选的,评估语音单元的步骤可以进一步包括:通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。
优选的,生成模糊上下文特征标注的步骤可以进一步包括:通过评估所述语音单元来确定所述语音单元发音的对应候选上下文特征标注的分值;基于所述分值确定所述语音单元的候选上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
优选的,所述基于所述模糊上下文特征标注,进行聚类训练的步骤可以进一步包括以下之一:基于所述模糊上下文特征标注和预设的模糊问题集,训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型;以及基于问题集和上下文特征标注再次训练所述语音库中的各语音单元,其中所述问题集还包括预设的模糊问题集,以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。
附图说明
结合附图,从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见,其中:
图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。
图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。
图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。
图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。
图5例示了根据本发明的实施例的对模糊数据进行量化转换操作以生成模糊上下文。
图6例示了根据本发明的实施例的合成语音的方法。
图7是根据本发明实施例的用于合成语音的设备的框图。
具体实施方式
下面,结合附图对本发明的实施例进行详细描述。
一般地,本发明实施例涉及在电子设备(例如电话系统、移动终端、车载交通工具、自动声讯服务系统、广播系统、机器人等和/或类似物)中合成语音的方法及其系统以及训练声学模型的方法。
概括而言,本发明的基本构思是:针对中文多音字合成,不选择确定的唯一候选发音,而是对模糊多音字的语音进行模糊化处理,从而避免了事先就给出武断甚至错误的抉择。在本发明的实施例中,模糊多音字是指现有技术中的多音字预测单元难以预测处理的多音字;而模糊数据是在训练语音库中的、由于发音人的连续语音协同发音的影响以及偶然的发音失误所产生的语音数据,其满足模糊条件(通常可以根据成员函数定义模糊阈值)以及用于模型训练,相应地,这种不易确定候选发音的语音称为模糊语音。可以在训练和合成阶段引入模糊决策树以较好地实现这一过程,模糊决策树通常用来处理不确定性,能够在复杂和模糊的边界帮助推导出更智能的决策,从而做出模糊情况下的最优选择。而模糊化的读音旨在包含每个候选发音的特征,特别是那些概率较大的候选发音,这样可以避免产生候选发音的判断错误,从而减少合成刺耳或错误的语音的概率。
在本发明的实施例中,在模型训练阶段,可以引入模糊决策树,对包括模糊数据的语音库进一步训练,得到声学模型(例如HMM声学模型)以及该模型对应的模糊决策树(例如具有模糊决策树的HMM声学模型);在合成阶段,当多音字预测单元不能给出合适的选择时,则对此字的发音进行模糊化处理,以在合成器合成对应的语音,从而使合成的声音更接近预测可能性大的候选。合成阶段的处理可以操作如下:经过多音字预测单元获得多个候选发音的概率,进行模糊上下文特征处理得到具有多候选模糊特征的模糊上下文标注,基于训练生成的具有模糊决策树的声学模型、根据该模糊上下文标注获得对应模型参数,该模型参数经过参数生成算法得到相应的语音参数,从而通过合成器将该语音参数合成为语音。
图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。如图1所示,在步骤S110,训练语音库中各语音单元,以生成声学模型。在本发明的实施例中,语音库一般是预先录制的、通过语音输入端口输入的参考语音。各语音单元包含声学参数以及描述对应的音段、韵律属性的上下文标注。
以HMM声学模型为例,在该模型的训练阶段,对模型参数的估计来自对这些语音单元参数的统计计算,这是本领域中广泛使用的成熟的技术,在此不再赘述。
在步骤S120,对于具有大量变化的上下文组合,通常采用决策树的树聚类方法处理声学模型以生成具有决策树的声学模型,例如CART(Classification and Regression Tree)。采用聚类方法可以有效地避免数据稀疏,并减少模型的数量。同时,聚类也是学习处理在合成中遇到新情况的过程,可以实现最优的匹配。聚类的过程参考预先定义的问题集。问题集是供决策树构造使用的问题的集合,结点分裂时所选中的问题与此结点绑定,从而决定哪些基元进入同一个叶子结点。其问题集可以根据具体应用环境不同。例如中文中具有5类声调{1,2,3,4,5},每一类可以作为决策树的一个问题,在对多音字确定声调的情况下,问题集可如表一所示来设置:
Figure BDA0000047981920000071
表一问题集所用的问题以及取值
其代码如下所示:
QS″phntone==1″{″*|phntone=1|*″}    声调为第1类吗?
QS″phntone==2″{″*|phntone=2|*″}    声调为第2类吗?
QS″phntone==3″{″*|phntone=3|*″}    声调为第3类吗?
QS″phntone==4″{″*|phntone=4|*″}    声调为第4类吗?
QS″phntone==5″{″*|phntone=5|*″}    声调为第5类吗?
对于本领域技术人员而言,决策树的使用是本领域常用的技术,其可以依据各种应用环境而采用各种决策树,设置各种问题集,以及基于该问题分裂来构建决策树,在此不再赘述。
在本发明的实施例中,通过对训练数据进行训练以及聚类可以得到隐马尔科夫HMM模型以及对应模型的决策树。然而,本领域技术人员应该理解,其他类型的声学模型也可以应用在本发明的实施例的模糊化处理中。
在本发明的实施例中,语音单元可以是音素、音节或声韵母等其他单元,为简单起见,仅例示声韵母作为语音单元进行处理。然而,本领域技术人员应该理解,本发明的实施例应该不限于此。
在本发明的实施例中,还基于模糊数据,对声学模型进行再次训练。例如,在步骤S140,针对上述具有决策树的声学模型(隐马尔科夫HMM模型),确定语音库中的模糊数据。在本发明的实施例中,可以采用某些多音字相关上下文的所有可能的标注、基于实际数据来评估该标注表征实际数据的能力,然后根据该评估结果确定该语音数据是否属于模糊数据。之后,在步骤S160,针对符合条件的模糊数据,生成模糊上下文特征标注。于是,在步骤S180,针对包括模糊数据的语音库,基于该模糊上下文特征标注来训练模糊决策树,以生成具有模糊决策树的声学模型。
图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。如图2所示,在步骤S210,生成训练库中的语音数据的所有可能的上下文特征标注。所有可能的上下文标注指的是对于一些要作为多音字模糊处理的属性,比如声调,生成所有的可能。在本发明的实施例中,不关注是否符合语言规范,而生成所有的可能。例如,对于多音字“为”,理论上该多音字的读音是wei4和wei2。而对于所有声调都生成可能的标注即指生成wei1,wei2,wei3,wei4,wei5。上下文特征标注表征了语音段的语言和语音的属性,例如语音基元的实体声韵母,声调,音节,在音节、词、短语以及句中的位置,前后关联的单元的相关信息,以及句子的类型等。声调是多音字的重要特征,以声调为例,在普通话中可以有5个声调,那么对于该训练数据则可有5个平行的上下文特征标注。本领域技术人员应该理解,对于多音字中的不同的发音,也可以生成可能的上下文特征标注,其处理与声调的处理类似。
在步骤S220,基于在步骤S120训练好的声学模型(例如具有决策树的HMM模型),评估训练数据。例如,对于具有N个平行的上下文特征标注下的某一语音单元,则可以计算出其对应的N个分值依次是s[1]...s[k]...s[N],该分值反映了该标注表征真实参数的能力。在本发明的实施例中,任何可以量化出评估的方法都可以采用,例如计算模型条件下的后验概率或者模型生成参数与真实参数之间的距离等,下面将详细描述。
在步骤S230,基于评估结果,例如计算的反映表征力的分值,来判断语音单元是否为模糊数据。在本发明的实施例中,评估分值较低的数据可以被确定为模糊数据,用于进一步的训练。在此,评估分值较低指在平行的上下文特征标注中,所有的分值都没有足够的优势来证明其才是这个单元的实际最优标注。
在本发明的实施例中,也可以根据成员函数(membership function)来计算该语音单元的上下文特征标注对应的分值落入该分类的程度。成员函数mk可以针对这些平行分值表示如下:
m k = s [ k ] Σ K = 1 N s [ k ] - - - ( 1 )
其中,s[k]为上下文特征标注对应的分值,N为上下文特征标注的个数。
在本发明的实施例中,满足模糊条件(通常根据成员函数定义模糊阈值)的数据则为模糊数据。模糊阈值的设定可以是固定的,例如对于所有候选中没有占有50%以上分值的候选,则此数据可以认为是模糊数据。可选地,该模糊阈值也可以是动态的,例如可以根据当前数据库中当前单元所属定义类别总数的分值排序选取排名靠后的某一部分(如10%)
在本发明的实施例中,在对训练数据库进行模糊数据的挑选和转换对整个训练是有利的,该过程不仅生成了用于模糊决策树训练的数据,也为正常数据的训练准确度提高作出了贡献,并且无需显著增加训练量。
图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。在本发明的实施例中,为简明起见,训练数据以某个语音单元为例。如图3所示,对于该语音单元的N个可能的上下文特征标注16a-1label 1...16a-k label k...16a-N label N,可以在步骤S120训练好的模型(例如具有决策树的HMM模型)上找到各自对应的声学模型(21a-1 model1...21a-k model k...21a-N model N)。在本发明的实施例中,以HMM声学模型为例来说明以下评估训练数据的操作。然而,应该理解本发明的实施例不限于此。
对于给定的语音单元,其语音参数矢量序列表示如下:
O = [ o 1 T , o 2 T , . . . o T T ] T - - - ( 2 )
该语音单元的语音参数矢量序列在模型HMMλ的后验概率表示为:
P ( O | λ ) = Σ Q P ( O , Q | λ ) - - - ( 3 )
其中,Q为HMM状态序列{q1,q2,...,qT}。
将语音单元的每一帧与模型状态对齐,并得到状态序号。然后可以计算以下概率:
P ( o t , q i | λ ) = Σ j = 1 N b j ( o t ) - - - ( 4 )
其中,bj(ot)是t时刻观测量ot在当前模型的第j个状态的输出概率,其高斯分布概率及其均依赖于HMM的类型,例如连续混合密度HMM。
b j ( o t ) = P ( o i | i , j ) = Σ m = 1 M ω ijm b ij ( o i ) = 1 ( 2 π ) p / 2 | Σ ij | 1 / 2 e { - 1 2 ( o i - μ ij ) Σ ij - 1 ( o i - μ ij ) T } - - - ( 5 )
其中,ωijm是第j个状态的第i个混合分量的权重。μij和∑ij是均值和协方差。
可选地,在本发明的实施例中,还可以通过模型生成参数与真实参数之间的距离来评估训练数据。图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。如图4所示,仍然以某语音单元为例,其与上述实施例类似,仍然具有所有可能的上下文特征标注16b-1label 1...16b-k label k...l6b-N label N,以及确定其各自对应的模型21a-1model 1..21a-k model k...21a-N model N。同时,根据各个模型参数恢复出语音参数25b-1parameter 1...25b-k parameterk...25b-N parameter N(其为测试参数)。通过计算针对这一单元的语音参数(为参考参数)和恢复参数之间的距离,来评估这些可能上下文特征标注的分值。
如上所述,对于给定的语音单元,其语音参数矢量序列O表示为:
O = [ o 1 T , o 2 T , . . . o T T ] T
而恢复语音参数可以如下表示为:
O ′ = [ o 1 T ′ , o 2 T ′ , . . . o T ′ T ′ ] T - - - ( 6 )
在给定语音单元的真实参数T和恢复语音参数T′之间将存在差异。首先在T和T′之间进行线性映射。通常将恢复语音参数T′扩展或压缩到为T。于是如下来计算两者之间的欧几里得距离:
D ( O , O ′ ) = sqrt ( Σ i = 1 N Σ m = 1 M ( o mi - o mi ′ ) 2 ) - - - ( 7 )
在本发明的实施例中,可以通过量化映射进行转换来生成模糊上下文标注。模糊上下文标注表征了当前语音单元的语言和声学特征,并且对将要进行模糊化处理的多音字的相关属性进行了程度化的模糊定义,可以根据语音单元的各个标注量化的分值转换为对应的上下文程度(例如high,low等),并进行联合表示,以生成模糊上下文标注。注意到,在本发明的实施例中,模糊上下文标注按照客观计算而生成,可以不受语言学的限制,比如通过计算得到wei3或者wei的声调1和5的组合等等。以下以对具有5个声调的某个语音单元的操作来例示其生成的模糊上下文标注。
如图5所示,假定该单元的候选声调为声调2,在此表示为tone=2,按照如上所述的成员函数membership对各可能的上下文特征标注(其对应于声调tone=(1,2,3,4,5))计算其落入该分类的程度的值。于是将各成员函数值进行归一化,量化到0-1之间的值,如(0.05,0.45,0.1,0.2,0.2)。并确定其上下文的程度,例如high、middle或low。则将各上下文特征标注联合表示为模糊上下文特征标注。
在本发明的实施例中,可设阈值例如threshold=0.2,则在生成模糊上下文特征标注时只考虑满足该基线要求的发音候选,例如tone 2,4和5。将按照上述声调对应的分布程度生成模糊上下文标注,例如tone=High2_Low4_Low5。
本领域技术人员应该理解,生成模糊上下文特征标注可以有多种方式,例如可以根据统计整个训练库中同类音段的分值分布,然后根据分布比例的直方图得到量化的模糊上下文。应该注意,本发明的实施例仅用作例示,本发明实施例的生成模糊上下文特征标注的方式不限于此。
在本发明的实施例中,通过生成模糊上下文特征标注,可以具有模糊化的多样性特征,从而可以避免在不好的数据引起的不确定的属性类别中作出生硬的分类。
在本发明的实施例中,对模糊数据生成模糊上下文特征标注后,可以进行模糊决策树训练,而该决策树训练的同时就更新了声学模型的模型参数。在此,仍以确定声调为例,然而本领域技术人员可以理解,该方法对于具有不同读音的多音字确定候选读音同样可以适用。仍以上述实例为例来简要说明。如表二所示,可以设置对应的模糊问题集为:
Figure BDA0000047981920000121
表二问题集所用的问题以及取值
以上例示的问题可以包含结合声调的分类的多种情况,针对每种情况可以提问。这些情况的组合可以来自语言知识,也可以来自训练时出现的实际组合等。
在本发明的实施例中,可以采用多种聚类方式,例如针对整个训练库重新进行聚类,或仅针对模糊数据组成的二次训练库进行聚类等。在对整个训练库进行重新聚类时,如果该训练库中的训练数据为模糊数据,则将其标注更换为如上生成的模糊上下文特征标注,并在问题集中增加类似的模糊问题集。
在本发明的实施例中,在对二次训练库进行聚类时,基于已经训练的声学模型和决策树,仅使用模糊上下文标注和模糊问题集进行训练。
如上所述的那样进行聚类,则得到具有模糊决策树的声学模型。
在本发明的实施例中,通过训练从真实语音中得到具有模糊决策树的声学模型以改善语音合成的质量,从而使模糊化处理变得合理、灵活和智能,并使常规语音也得到更精确的训练。
图6例示了根据本发明的实施例的合成语音的方法。该用于语音合成的方法,可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。
如图6所示,在步骤S610,确定文本分析生成的数据为模糊多音字数据。在本发明的实施例中,文本分析器对待合成文本进行分词操作,将其分解为带有属性标注的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定语句结构及语调,以及停顿等目标语音的韵律特征。根据分词结果可以得到多字词和单字词,多字词一般可以根据字典确定发音,其中包含多音字,则这样的多音字不作为本发明的模糊多音字数据。而本发明的实施例中的多音字,一般指的是经过分词以后仍具有多个发音的单字。于是在对该多音字进行语音预测过程中,会产生各个候选发音的预测结果,该预测结果描述了在具体的词的情况下,多音字的发音具有的相应概率。判决该多音字为模糊多音字数据的方式具有多种,例如可以设置阈值,满足该阈值的多音字则为模糊多音字数据。例如对于所有候选中没有概率为70%以上的候选,则此多音字可以认为是模糊多音字数据。确定模糊多音字数据的原理与在训练阶段确定模糊数据的原理类似,在此不再赘述。
之后,在步骤S620,对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率。在本发明的实施例中,对于非模糊多音字数据,其发音可以以较高可信度地确定,因此不需要进行模糊化处理,则进行常规多音字预测处理,以输出该确定的候选发音。如果该多音字为模糊多音字数据,则进行模糊化处理,输出多个候选发音以及对应的概率。
接下来,在步骤S630,基于所述多个候选发音及其概率,生成模糊上下文特征标注。在本发明的实施例中,该步骤的执行与训练过程中生成模糊上下文特征标注的步骤S160类似,均可通过量化映射来转换或其他方式实现,在此不再赘述。
在步骤S640,基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定对应的模型参数。在本发明的实施例中,对于HMM声学模型,则对应的模型参数为HMM模型包含的状态下各分量的分布。
在步骤S650,对所述模型参数生成语音参数。可以采用本领域常用的参数生成算法,例如根据最大似然概率条件的参数生成算法等,在此不再赘述。
最后,在步骤S660,将所述语音参数合成为语音。
在本发明的实施例中,通过对模糊多音字数据的发音进行模糊化处理来合成语音,从而在不同的上下文情境下,该发音可以具有多样的变化,从而改善了语音合成的质量。
在同一发明构思下,图7是根据本发明实施例的用于合成语音的设备的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
用于合成语音的设备700可以包括:多音字预测单元703,用于对模糊多音字数据进行模糊预测,以输出所述模糊多音字数据的多个候选发音以及预测概率;模糊上下文特征标注生成单元704,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;确定单元705,用于基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;参数生成器706,用于针对所述模型参数生成语音参数;以及合成器707,用于将所述语音参数合成语音。
本发明的用于合成语音的设备700可以实现上述用于合成语音的方法,其具体操作请参考如上内容,在此不再赘述。
在本发明的实施例中,设备700还可以包括文本分析器702,用于将待合成文本分解为带有属性标注的词及其读音符号。可选地,设备700还可以包括输入/输出单元701,用于输入待合成的文本以及输出合成的语音。可选地,在本发明的实施例中,还可以从外部直接输入已进行文本分析的符号流。因此,如图7所示,文本分析器702和输入/输出单元701以虚线示出。
在本发明的实施例中,用于合成语音的设备700及其各个部分,操作上可以实现前面描述的实施例的用于合成语音的方法或其步骤。
本实施例中的用于合成语音的设备700及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和设备也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以由上述硬件电路和软件的结合例如固件来实现。
虽然以上结合具体实施例对本发明的用于训练声学模型的方法、用于合成语音的方法和设备进行了详细描述,但本发明并不限于此,本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围;本发明的保护范围由所附权利要求来限定。

Claims (10)

1.一种用于语音合成的方法,包括:
确定文本分析生成的数据为模糊多音字数据;
对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;
基于所述多个候选发音及其概率,生成模糊上下文特征标注;
基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;
对所述模型参数生成语音参数;以及
将所述语音参数合成为语音。
2.如权利要求1所述的方法,其中生成模糊上下文特征标注的步骤进一步包括:
基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
3.一种用于合成语音的设备,包括:
多音字预测单元,用于模糊预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率;
模糊上下文特征标注生成单元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;
确定单元,用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;
参数生成器,用于针对所述模型参数生成语音参数;以及
合成器,用于将所述语音参数合成语音。
4.如权利要求3所述的设备,其中所述模糊上下文特征标注生成单元进一步被配置为:
基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
5.一种用于合成语音的系统,包括:
用于确定文本分析生成的数据为模糊多音字数据的装置;
用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置;
用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置;
用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数的装置;
用于对所述模型参数生成语音参数的装置;以及
用于将所述语音参数合成为语音的装置。
6.一种用于训练声学模型的方法,包括:
训练语音库中各语音单元,以生成声学模型,所述语音单元包含声学参数以及上下文标注;
对于上下文组合,进行决策树聚类处理以生成具有决策树的声学模型;
基于所述具有决策树的声学模型,确定语音库中的模糊数据;
针对所述模糊数据,生成模糊上下文特征标注;以及
基于所述模糊上下文特征标注,对所述语音库进行聚类训练,以生成具有模糊决策树的声学模型。
7.如权利要求6所述的方法,其中确定模糊数据的步骤进一步包括:
评估语音单元;以及
确定所述语音单元的候选上下文标注落入分类的程度;以及
如果所述程度满足预定阈值,则确定所述语音单元为模糊数据。
8.如权利要求7所述的方法,其中评估语音单元的步骤进一步包括:
通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。
9.如权利要求6所述的方法,其中生成模糊上下文特征标注的步骤进一步包括:
通过评估所述语音单元来确定所述语音单元的候选发音的上下文特征标注的分值;
基于所述分值确定所述语音单元的候选上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
10.如权利要求6所述的方法,其中基于所述模糊上下文特征标注,进行聚类训练的步骤进一步包括以下之一:
基于所述模糊上下文特征标注和预设的模糊问题集,训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型;以及
基于问题集和上下文特征标注再次训练所述语音库中的各语音单元,其中所述问题集还包括预设的模糊问题集,以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。
CN2011100465804A 2011-02-25 2011-02-25 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 Pending CN102651217A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011100465804A CN102651217A (zh) 2011-02-25 2011-02-25 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US13/402,602 US9058811B2 (en) 2011-02-25 2012-02-22 Speech synthesis with fuzzy heteronym prediction using decision trees

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100465804A CN102651217A (zh) 2011-02-25 2011-02-25 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Publications (1)

Publication Number Publication Date
CN102651217A true CN102651217A (zh) 2012-08-29

Family

ID=46693212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100465804A Pending CN102651217A (zh) 2011-02-25 2011-02-25 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Country Status (2)

Country Link
US (1) US9058811B2 (zh)
CN (1) CN102651217A (zh)

Cited By (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103854643A (zh) * 2012-11-29 2014-06-11 株式会社东芝 用于合成语音的方法和装置
CN103902600A (zh) * 2012-12-27 2014-07-02 富士通株式会社 关键词列表形成装置及方法以及电子设备
CN104142909A (zh) * 2014-05-07 2014-11-12 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN104200803A (zh) * 2014-09-16 2014-12-10 北京开元智信通软件有限公司 一种语音播放方法、装置及系统
CN104464731A (zh) * 2013-09-20 2015-03-25 株式会社东芝 数据收集装置及方法、语音对话装置及方法
CN104599670A (zh) * 2015-01-30 2015-05-06 成都星炫科技有限公司 点读笔的语音识别方法
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
CN105304081A (zh) * 2015-11-09 2016-02-03 上海语知义信息技术有限公司 一种智能家居的语音播报系统及语音播报方法
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN105702248A (zh) * 2014-12-09 2016-06-22 苹果公司 在话音合成中消除同形异音词的歧义
CN105931635A (zh) * 2016-03-31 2016-09-07 北京奇艺世纪科技有限公司 一种音频分割方法及装置
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108346423A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 语音合成模型的处理方法和装置
CN108364639A (zh) * 2013-08-23 2018-08-03 株式会社东芝 语音处理系统和方法
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN109996149A (zh) * 2017-12-29 2019-07-09 深圳市赛菲姆科技有限公司 一种停车场智能语音播报系统
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
CN111681641A (zh) * 2020-05-26 2020-09-18 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN111968676A (zh) * 2020-08-18 2020-11-20 北京字节跳动网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102982019B (zh) * 2012-11-26 2019-01-15 百度国际科技(深圳)有限公司 输入法语料注音方法、生成评测语料的方法及电子装置
US9396723B2 (en) 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US20140351196A1 (en) * 2013-05-21 2014-11-27 Sas Institute Inc. Methods and systems for using clustering for splitting tree nodes in classification decision trees
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN105531757B (zh) * 2013-09-20 2019-08-06 株式会社东芝 语音选择辅助装置以及语音选择方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CA2934298C (en) * 2014-01-14 2023-03-07 Interactive Intelligence Group, Inc. System and method for synthesis of speech from provided text
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
JP6750121B2 (ja) 2016-09-06 2020-09-02 ディープマインド テクノロジーズ リミテッド 畳み込みニューラルネットワークを使用したシーケンスの処理
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CA3155320A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Generating audio using neural networks
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6756916B2 (ja) 2016-10-26 2020-09-16 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したテキストシーケンスの処理
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107122179A (zh) * 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10431203B2 (en) * 2017-09-05 2019-10-01 International Business Machines Corporation Machine training for native language and fluency identification
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN110047463B (zh) * 2019-01-31 2021-03-02 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置
CN115512696A (zh) * 2022-09-20 2022-12-23 中国第一汽车股份有限公司 模拟训练方法及车辆

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
CN1836226A (zh) * 2003-08-21 2006-09-20 熊锦棠 转换非字母语言字元的方法及装置
US20060277045A1 (en) * 2005-06-06 2006-12-07 International Business Machines Corporation System and method for word-sense disambiguation by recursive partitioning

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
JP2002539482A (ja) * 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 見本音声を決定するための方法及び装置
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
EP2140341B1 (en) * 2007-04-26 2012-04-25 Ford Global Technologies, LLC Emotive advisory system and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
JP5422754B2 (ja) * 2010-01-04 2014-02-19 株式会社東芝 音声合成装置及び方法
CN102511061A (zh) * 2010-06-28 2012-06-20 株式会社东芝 在语音合成中用于融合浊音音素单元的方法和装置
US9009050B2 (en) * 2010-11-30 2015-04-14 At&T Intellectual Property I, L.P. System and method for cloud-based text-to-speech web services
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
CN1836226A (zh) * 2003-08-21 2006-09-20 熊锦棠 转换非字母语言字元的方法及装置
US20060277045A1 (en) * 2005-06-06 2006-12-07 International Business Machines Corporation System and method for word-sense disambiguation by recursive partitioning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
K. TOKUDA ET AL: "AN HMM-BASED SPEECH SYNTHESIS SYSTEM APPLIED TO ENGLISH", 《PROC. OF 2002 IEEE SSW》, 30 September 2002 (2002-09-30) *
LU HENG ET AL: "HETERONYM VERIFICATION FOR MANDARIN SPEECH SYNTHESIS", 《INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》, 19 December 2008 (2008-12-19) *
张子荣,初敏: "解决多音字字-音转换的一种统计学习方法", 《中文信息学报》, vol. 16, no. 3, 31 December 2002 (2002-12-31) *

Cited By (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN103854643B (zh) * 2012-11-29 2017-03-01 株式会社东芝 用于合成语音的方法和装置
CN103854643A (zh) * 2012-11-29 2014-06-11 株式会社东芝 用于合成语音的方法和装置
CN103902600A (zh) * 2012-12-27 2014-07-02 富士通株式会社 关键词列表形成装置及方法以及电子设备
CN103902600B (zh) * 2012-12-27 2017-12-01 富士通株式会社 关键词列表形成装置及方法以及电子设备
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
CN105340004B (zh) * 2013-06-28 2019-09-10 谷歌有限责任公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN108364639A (zh) * 2013-08-23 2018-08-03 株式会社东芝 语音处理系统和方法
CN104464731A (zh) * 2013-09-20 2015-03-25 株式会社东芝 数据收集装置及方法、语音对话装置及方法
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US10114809B2 (en) 2014-05-07 2018-10-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for phonetically annotating text
CN104142909A (zh) * 2014-05-07 2014-11-12 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
CN104200803A (zh) * 2014-09-16 2014-12-10 北京开元智信通软件有限公司 一种语音播放方法、装置及系统
CN105702248B (zh) * 2014-12-09 2019-11-19 苹果公司 用于操作智能自动化助理的电子设备和方法、存储介质
CN105702248A (zh) * 2014-12-09 2016-06-22 苹果公司 在话音合成中消除同形异音词的歧义
CN104599670A (zh) * 2015-01-30 2015-05-06 成都星炫科技有限公司 点读笔的语音识别方法
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
CN104867491B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
CN105304081A (zh) * 2015-11-09 2016-02-03 上海语知义信息技术有限公司 一种智能家居的语音播报系统及语音播报方法
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
CN105931635A (zh) * 2016-03-31 2016-09-07 北京奇艺世纪科技有限公司 一种音频分割方法及装置
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
CN108346423A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 语音合成模型的处理方法和装置
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN109996149A (zh) * 2017-12-29 2019-07-09 深圳市赛菲姆科技有限公司 一种停车场智能语音播报系统
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111681641B (zh) * 2020-05-26 2024-02-06 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN111681641A (zh) * 2020-05-26 2020-09-18 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
CN111968676A (zh) * 2020-08-18 2020-11-20 北京字节跳动网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US9058811B2 (en) 2015-06-16
US20120221339A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
CN102651217A (zh) 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
Stoller et al. End-to-end lyrics alignment for polyphonic music using an audio-to-character recognition model
Kharitonov et al. Text-free prosody-aware generative spoken language modeling
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
CN107154260B (zh) 一种领域自适应语音识别方法和装置
Qian et al. Contentvec: An improved self-supervised speech representation by disentangling speakers
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
US10332508B1 (en) Confidence checking for speech processing and query answering
US10388274B1 (en) Confidence checking for speech processing and query answering
Morgan Deep and wide: Multiple layers in automatic speech recognition
CN106297800B (zh) 一种自适应的语音识别的方法和设备
EP2815398B1 (en) Audio human interactive proof based on text-to-speech and semantics
CN101828218B (zh) 通过多形式段的生成和连接进行的合成
Abdou et al. Computer aided pronunciation learning system using speech recognition techniques
Henter et al. Robust TTS duration modelling using DNNs
CN101551947A (zh) 辅助口语语言学习的计算机系统
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Audhkhasi et al. Theoretical analysis of diversity in an ensemble of automatic speech recognition systems
US20020040296A1 (en) Phoneme assigning method
CN102651218A (zh) 用于创建语音标签的方法以及设备
CN110415725A (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20161130

C20 Patent right or utility model deemed to be abandoned or is abandoned