CN102651217A - 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 - Google Patents
用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 Download PDFInfo
- Publication number
- CN102651217A CN102651217A CN2011100465804A CN201110046580A CN102651217A CN 102651217 A CN102651217 A CN 102651217A CN 2011100465804 A CN2011100465804 A CN 2011100465804A CN 201110046580 A CN201110046580 A CN 201110046580A CN 102651217 A CN102651217 A CN 102651217A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- contextual feature
- data
- mark
- polyphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 33
- 238000003066 decision tree Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种用于合成语音的方法、设备以及用于训练在语音合成中使用的声学模型的方法。所述用于合成语音的方法可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。根据本发明的实施例的方法和设备,可以对中文中难以预测的多音字进行模糊化处理,从而改善中文多音字合成的质量。
Description
技术领域
本发明涉及语音合成,更具体地,涉及中文多音字的合成。
背景技术
由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器象人那样说话,使一些以其它方式表示或存储的信息能转换为语音,从而人们可以通过听觉方便地获得这些信息。
目前展开大量研究和应用的是文语转换TTS系统,在该系统中通常输入待合成的文本,系统包含的文本分析器对之进行处理,输出发音描述符号,其包括音段层面的注音符号与超音段层面的韵律符号。该文本分析器首先根据发音字典,将待合成文本分解为带有属性标注的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定语句结构及语调,以及停顿词性距离等目标语音的语言学以及韵律特征。之后将发音描述符号输入到该系统包含的合成器,通过语音合成,输出合成的语音。
在现有技术中,基于隐马尔科夫HMM声学模型已经广泛应用于语音合成技术,可以容易地修改和变换合成的声音。语音合成通常分为模型训练和合成部分。在模型训练阶段,对语音库中各语音单元包含的声学参数以及对应的音段、韵律等标注属性,进行统计模型的训练。这些标注来源于语言和声学知识,其组成的上下文特征(context feature)描述了对应的语音属性(例如声调、词性等)。在HMM声学模型的训练阶段,对模型参数的估计来自对这些语音单元参数的统计计算。
在现有技术中,考虑到如此多、具有大量变化的上下文组合,一般采用决策树的树聚类方法来处理。决策树可以将上下文特征和声学特征相似的候选基元聚成一类,从而有效地避免了数据稀疏,并有效地减少了模型的数量。问题集是供决策树构造使用的问题的集合,结点分裂时所选中的问题与此结点绑定,从而决定哪些基元进入同一个叶子结点。聚类的过程参考预先定义的问题集,决策树的每个结点都绑定一个“Yes/No”问题,所有允许进入根节点的候选基元都要回答结点上绑定的问题,根据回答结果选择进入左分支还是右分支。因此,每个将具有相同或者接近上下文特征的音节或音素处在决策树的同一个叶子结点中,节点对应的模型通常可以是HMM模型或状态,模型由参数描述。同时,聚类也是一个学习处理在合成中遇到新情况的过程,从而可以实现最优的匹配。通过对训练数据的训练以及聚类得到隐马尔科夫(HMM)模型以及对应模型的决策树。
在合成阶段,通过文本分析器和上下文标注生成器得到多音字的上下文特征标注。针对该上下文特征标注在训练好的决策树上找到相应的声学模型参数(例如HMM声学模型的状态序列)。然后该模型参数经过参数生成算法得到相应的语音参数,从而通过合成器(Vocoder)合成语音。
语音合成系统的目标就是能够合成跟人声一样智能和自然的声音。但是对于中文语音合成系统,多音字的读音预测准确率很难保证,因为多音字的发音往往根据语义确定,而语义理解又是一个具有挑战性的课题。这样相互依赖的关系导致多音字预测的难以取得令人满意的高准确性。在现有技术中,即使对这个读音的预测没有足够把握,语音合成系统一般都会对该多音字给出一个确定的发音。
在中文中,不同的读音代表了不同的意义。如果语音合成系统给出错误的发音,将会引起听者理解上的歧义,给听者很不好的感受。从而对于在生活、工作以及科学研究(例如车载导航、自动声讯服务、广播、机器人模拟等)中应用的语音合成系统,将会由于明显错误的多音字读音而造成不好的用户体验,甚至使用的不便。因此,在语音合成领域中存在对改进的多音字的语音合成方法以及系统的需要。
发明内容
为此,提供了本发明的实施例的用于语音合成的方法及其系统以及训练用于语音合成的声学模型的方法。通过实施本发明的实施例,可以具有以下优点:可以在系统没有足够把握给出正确读音的情况下,模糊化多音字的读音,并且不影响整个系统其他正常声音的质量,此方法将会避免明显的错误,从而提高合成系统的整体主观听感。
根据本发明的一个方面,提供了一种用于语音合成的方法,可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。
优选的,生成模糊上下文特征标注的步骤可以进一步包括:基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
根据本发明的另外的方面,提供一种用于合成语音的设备,可以包括:多音字预测单元,用于预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率;模糊上下文特征标注生成单元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;确定单元,用于基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;参数生成器,用于针对所述模型参数生成语音参数;以及合成器,用于将所述语音参数合成为语音。
优选的,所述模糊上下文特征标注生成单元可以进一步被配置为:基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
根据本发明的另外的方面,提供一种用于合成语音的系统,可以包括:用于确定文本分析生成的数据为模糊多音字数据的装置;用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置;用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置;用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数的装置;用于对所述模型参数生成语音参数的装置;以及用于将所述语音参数合成为语音的装置。
根据本发明的另外的方面,提供一种用于训练声学模型的方法,可以包括:训练语音库中各语音单元,以生成声学模型,所述语音单元包含声学参数以及上下文标注;对于上下文组合,进行决策树聚类处理以生成具有决策树的声学模型;基于所述具有决策树的声学模型,确定语音库中的模糊数据;针对所述模糊数据,生成模糊上下文特征标注;以及基于所述模糊上下文特征标注,对所述语音库进行聚类训练,以生成具有模糊决策树的声学模型。
优选的,确定模糊数据的步骤可以进一步包括:评估语音单元;以及确定所述语音单元的候选上下文标注落入分类的程度;以及如果所述程度满足预定阈值,则确定所述语音单元为模糊数据。
优选的,评估语音单元的步骤可以进一步包括:通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。
优选的,生成模糊上下文特征标注的步骤可以进一步包括:通过评估所述语音单元来确定所述语音单元发音的对应候选上下文特征标注的分值;基于所述分值确定所述语音单元的候选上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
优选的,所述基于所述模糊上下文特征标注,进行聚类训练的步骤可以进一步包括以下之一:基于所述模糊上下文特征标注和预设的模糊问题集,训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型;以及基于问题集和上下文特征标注再次训练所述语音库中的各语音单元,其中所述问题集还包括预设的模糊问题集,以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。
附图说明
结合附图,从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见,其中:
图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。
图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。
图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。
图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。
图5例示了根据本发明的实施例的对模糊数据进行量化转换操作以生成模糊上下文。
图6例示了根据本发明的实施例的合成语音的方法。
图7是根据本发明实施例的用于合成语音的设备的框图。
具体实施方式
下面,结合附图对本发明的实施例进行详细描述。
一般地,本发明实施例涉及在电子设备(例如电话系统、移动终端、车载交通工具、自动声讯服务系统、广播系统、机器人等和/或类似物)中合成语音的方法及其系统以及训练声学模型的方法。
概括而言,本发明的基本构思是:针对中文多音字合成,不选择确定的唯一候选发音,而是对模糊多音字的语音进行模糊化处理,从而避免了事先就给出武断甚至错误的抉择。在本发明的实施例中,模糊多音字是指现有技术中的多音字预测单元难以预测处理的多音字;而模糊数据是在训练语音库中的、由于发音人的连续语音协同发音的影响以及偶然的发音失误所产生的语音数据,其满足模糊条件(通常可以根据成员函数定义模糊阈值)以及用于模型训练,相应地,这种不易确定候选发音的语音称为模糊语音。可以在训练和合成阶段引入模糊决策树以较好地实现这一过程,模糊决策树通常用来处理不确定性,能够在复杂和模糊的边界帮助推导出更智能的决策,从而做出模糊情况下的最优选择。而模糊化的读音旨在包含每个候选发音的特征,特别是那些概率较大的候选发音,这样可以避免产生候选发音的判断错误,从而减少合成刺耳或错误的语音的概率。
在本发明的实施例中,在模型训练阶段,可以引入模糊决策树,对包括模糊数据的语音库进一步训练,得到声学模型(例如HMM声学模型)以及该模型对应的模糊决策树(例如具有模糊决策树的HMM声学模型);在合成阶段,当多音字预测单元不能给出合适的选择时,则对此字的发音进行模糊化处理,以在合成器合成对应的语音,从而使合成的声音更接近预测可能性大的候选。合成阶段的处理可以操作如下:经过多音字预测单元获得多个候选发音的概率,进行模糊上下文特征处理得到具有多候选模糊特征的模糊上下文标注,基于训练生成的具有模糊决策树的声学模型、根据该模糊上下文标注获得对应模型参数,该模型参数经过参数生成算法得到相应的语音参数,从而通过合成器将该语音参数合成为语音。
图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。如图1所示,在步骤S110,训练语音库中各语音单元,以生成声学模型。在本发明的实施例中,语音库一般是预先录制的、通过语音输入端口输入的参考语音。各语音单元包含声学参数以及描述对应的音段、韵律属性的上下文标注。
以HMM声学模型为例,在该模型的训练阶段,对模型参数的估计来自对这些语音单元参数的统计计算,这是本领域中广泛使用的成熟的技术,在此不再赘述。
在步骤S120,对于具有大量变化的上下文组合,通常采用决策树的树聚类方法处理声学模型以生成具有决策树的声学模型,例如CART(Classification and Regression Tree)。采用聚类方法可以有效地避免数据稀疏,并减少模型的数量。同时,聚类也是学习处理在合成中遇到新情况的过程,可以实现最优的匹配。聚类的过程参考预先定义的问题集。问题集是供决策树构造使用的问题的集合,结点分裂时所选中的问题与此结点绑定,从而决定哪些基元进入同一个叶子结点。其问题集可以根据具体应用环境不同。例如中文中具有5类声调{1,2,3,4,5},每一类可以作为决策树的一个问题,在对多音字确定声调的情况下,问题集可如表一所示来设置:
表一问题集所用的问题以及取值
其代码如下所示:
QS″phntone==1″{″*|phntone=1|*″} 声调为第1类吗?
QS″phntone==2″{″*|phntone=2|*″} 声调为第2类吗?
QS″phntone==3″{″*|phntone=3|*″} 声调为第3类吗?
QS″phntone==4″{″*|phntone=4|*″} 声调为第4类吗?
QS″phntone==5″{″*|phntone=5|*″} 声调为第5类吗?
对于本领域技术人员而言,决策树的使用是本领域常用的技术,其可以依据各种应用环境而采用各种决策树,设置各种问题集,以及基于该问题分裂来构建决策树,在此不再赘述。
在本发明的实施例中,通过对训练数据进行训练以及聚类可以得到隐马尔科夫HMM模型以及对应模型的决策树。然而,本领域技术人员应该理解,其他类型的声学模型也可以应用在本发明的实施例的模糊化处理中。
在本发明的实施例中,语音单元可以是音素、音节或声韵母等其他单元,为简单起见,仅例示声韵母作为语音单元进行处理。然而,本领域技术人员应该理解,本发明的实施例应该不限于此。
在本发明的实施例中,还基于模糊数据,对声学模型进行再次训练。例如,在步骤S140,针对上述具有决策树的声学模型(隐马尔科夫HMM模型),确定语音库中的模糊数据。在本发明的实施例中,可以采用某些多音字相关上下文的所有可能的标注、基于实际数据来评估该标注表征实际数据的能力,然后根据该评估结果确定该语音数据是否属于模糊数据。之后,在步骤S160,针对符合条件的模糊数据,生成模糊上下文特征标注。于是,在步骤S180,针对包括模糊数据的语音库,基于该模糊上下文特征标注来训练模糊决策树,以生成具有模糊决策树的声学模型。
图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。如图2所示,在步骤S210,生成训练库中的语音数据的所有可能的上下文特征标注。所有可能的上下文标注指的是对于一些要作为多音字模糊处理的属性,比如声调,生成所有的可能。在本发明的实施例中,不关注是否符合语言规范,而生成所有的可能。例如,对于多音字“为”,理论上该多音字的读音是wei4和wei2。而对于所有声调都生成可能的标注即指生成wei1,wei2,wei3,wei4,wei5。上下文特征标注表征了语音段的语言和语音的属性,例如语音基元的实体声韵母,声调,音节,在音节、词、短语以及句中的位置,前后关联的单元的相关信息,以及句子的类型等。声调是多音字的重要特征,以声调为例,在普通话中可以有5个声调,那么对于该训练数据则可有5个平行的上下文特征标注。本领域技术人员应该理解,对于多音字中的不同的发音,也可以生成可能的上下文特征标注,其处理与声调的处理类似。
在步骤S220,基于在步骤S120训练好的声学模型(例如具有决策树的HMM模型),评估训练数据。例如,对于具有N个平行的上下文特征标注下的某一语音单元,则可以计算出其对应的N个分值依次是s[1]...s[k]...s[N],该分值反映了该标注表征真实参数的能力。在本发明的实施例中,任何可以量化出评估的方法都可以采用,例如计算模型条件下的后验概率或者模型生成参数与真实参数之间的距离等,下面将详细描述。
在步骤S230,基于评估结果,例如计算的反映表征力的分值,来判断语音单元是否为模糊数据。在本发明的实施例中,评估分值较低的数据可以被确定为模糊数据,用于进一步的训练。在此,评估分值较低指在平行的上下文特征标注中,所有的分值都没有足够的优势来证明其才是这个单元的实际最优标注。
在本发明的实施例中,也可以根据成员函数(membership function)来计算该语音单元的上下文特征标注对应的分值落入该分类的程度。成员函数mk可以针对这些平行分值表示如下:
其中,s[k]为上下文特征标注对应的分值,N为上下文特征标注的个数。
在本发明的实施例中,满足模糊条件(通常根据成员函数定义模糊阈值)的数据则为模糊数据。模糊阈值的设定可以是固定的,例如对于所有候选中没有占有50%以上分值的候选,则此数据可以认为是模糊数据。可选地,该模糊阈值也可以是动态的,例如可以根据当前数据库中当前单元所属定义类别总数的分值排序选取排名靠后的某一部分(如10%)
在本发明的实施例中,在对训练数据库进行模糊数据的挑选和转换对整个训练是有利的,该过程不仅生成了用于模糊决策树训练的数据,也为正常数据的训练准确度提高作出了贡献,并且无需显著增加训练量。
图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。在本发明的实施例中,为简明起见,训练数据以某个语音单元为例。如图3所示,对于该语音单元的N个可能的上下文特征标注16a-1label 1...16a-k label k...16a-N label N,可以在步骤S120训练好的模型(例如具有决策树的HMM模型)上找到各自对应的声学模型(21a-1 model1...21a-k model k...21a-N model N)。在本发明的实施例中,以HMM声学模型为例来说明以下评估训练数据的操作。然而,应该理解本发明的实施例不限于此。
对于给定的语音单元,其语音参数矢量序列表示如下:
该语音单元的语音参数矢量序列在模型HMMλ的后验概率表示为:
其中,Q为HMM状态序列{q1,q2,...,qT}。
将语音单元的每一帧与模型状态对齐,并得到状态序号。然后可以计算以下概率:
其中,bj(ot)是t时刻观测量ot在当前模型的第j个状态的输出概率,其高斯分布概率及其均依赖于HMM的类型,例如连续混合密度HMM。
其中,ωijm是第j个状态的第i个混合分量的权重。μij和∑ij是均值和协方差。
可选地,在本发明的实施例中,还可以通过模型生成参数与真实参数之间的距离来评估训练数据。图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。如图4所示,仍然以某语音单元为例,其与上述实施例类似,仍然具有所有可能的上下文特征标注16b-1label 1...16b-k label k...l6b-N label N,以及确定其各自对应的模型21a-1model 1..21a-k model k...21a-N model N。同时,根据各个模型参数恢复出语音参数25b-1parameter 1...25b-k parameterk...25b-N parameter N(其为测试参数)。通过计算针对这一单元的语音参数(为参考参数)和恢复参数之间的距离,来评估这些可能上下文特征标注的分值。
如上所述,对于给定的语音单元,其语音参数矢量序列O表示为:
而恢复语音参数可以如下表示为:
在给定语音单元的真实参数T和恢复语音参数T′之间将存在差异。首先在T和T′之间进行线性映射。通常将恢复语音参数T′扩展或压缩到为T。于是如下来计算两者之间的欧几里得距离:
在本发明的实施例中,可以通过量化映射进行转换来生成模糊上下文标注。模糊上下文标注表征了当前语音单元的语言和声学特征,并且对将要进行模糊化处理的多音字的相关属性进行了程度化的模糊定义,可以根据语音单元的各个标注量化的分值转换为对应的上下文程度(例如high,low等),并进行联合表示,以生成模糊上下文标注。注意到,在本发明的实施例中,模糊上下文标注按照客观计算而生成,可以不受语言学的限制,比如通过计算得到wei3或者wei的声调1和5的组合等等。以下以对具有5个声调的某个语音单元的操作来例示其生成的模糊上下文标注。
如图5所示,假定该单元的候选声调为声调2,在此表示为tone=2,按照如上所述的成员函数membership对各可能的上下文特征标注(其对应于声调tone=(1,2,3,4,5))计算其落入该分类的程度的值。于是将各成员函数值进行归一化,量化到0-1之间的值,如(0.05,0.45,0.1,0.2,0.2)。并确定其上下文的程度,例如high、middle或low。则将各上下文特征标注联合表示为模糊上下文特征标注。
在本发明的实施例中,可设阈值例如threshold=0.2,则在生成模糊上下文特征标注时只考虑满足该基线要求的发音候选,例如tone 2,4和5。将按照上述声调对应的分布程度生成模糊上下文标注,例如tone=High2_Low4_Low5。
本领域技术人员应该理解,生成模糊上下文特征标注可以有多种方式,例如可以根据统计整个训练库中同类音段的分值分布,然后根据分布比例的直方图得到量化的模糊上下文。应该注意,本发明的实施例仅用作例示,本发明实施例的生成模糊上下文特征标注的方式不限于此。
在本发明的实施例中,通过生成模糊上下文特征标注,可以具有模糊化的多样性特征,从而可以避免在不好的数据引起的不确定的属性类别中作出生硬的分类。
在本发明的实施例中,对模糊数据生成模糊上下文特征标注后,可以进行模糊决策树训练,而该决策树训练的同时就更新了声学模型的模型参数。在此,仍以确定声调为例,然而本领域技术人员可以理解,该方法对于具有不同读音的多音字确定候选读音同样可以适用。仍以上述实例为例来简要说明。如表二所示,可以设置对应的模糊问题集为:
表二问题集所用的问题以及取值
以上例示的问题可以包含结合声调的分类的多种情况,针对每种情况可以提问。这些情况的组合可以来自语言知识,也可以来自训练时出现的实际组合等。
在本发明的实施例中,可以采用多种聚类方式,例如针对整个训练库重新进行聚类,或仅针对模糊数据组成的二次训练库进行聚类等。在对整个训练库进行重新聚类时,如果该训练库中的训练数据为模糊数据,则将其标注更换为如上生成的模糊上下文特征标注,并在问题集中增加类似的模糊问题集。
在本发明的实施例中,在对二次训练库进行聚类时,基于已经训练的声学模型和决策树,仅使用模糊上下文标注和模糊问题集进行训练。
如上所述的那样进行聚类,则得到具有模糊决策树的声学模型。
在本发明的实施例中,通过训练从真实语音中得到具有模糊决策树的声学模型以改善语音合成的质量,从而使模糊化处理变得合理、灵活和智能,并使常规语音也得到更精确的训练。
图6例示了根据本发明的实施例的合成语音的方法。该用于语音合成的方法,可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。
如图6所示,在步骤S610,确定文本分析生成的数据为模糊多音字数据。在本发明的实施例中,文本分析器对待合成文本进行分词操作,将其分解为带有属性标注的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定语句结构及语调,以及停顿等目标语音的韵律特征。根据分词结果可以得到多字词和单字词,多字词一般可以根据字典确定发音,其中包含多音字,则这样的多音字不作为本发明的模糊多音字数据。而本发明的实施例中的多音字,一般指的是经过分词以后仍具有多个发音的单字。于是在对该多音字进行语音预测过程中,会产生各个候选发音的预测结果,该预测结果描述了在具体的词的情况下,多音字的发音具有的相应概率。判决该多音字为模糊多音字数据的方式具有多种,例如可以设置阈值,满足该阈值的多音字则为模糊多音字数据。例如对于所有候选中没有概率为70%以上的候选,则此多音字可以认为是模糊多音字数据。确定模糊多音字数据的原理与在训练阶段确定模糊数据的原理类似,在此不再赘述。
之后,在步骤S620,对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率。在本发明的实施例中,对于非模糊多音字数据,其发音可以以较高可信度地确定,因此不需要进行模糊化处理,则进行常规多音字预测处理,以输出该确定的候选发音。如果该多音字为模糊多音字数据,则进行模糊化处理,输出多个候选发音以及对应的概率。
接下来,在步骤S630,基于所述多个候选发音及其概率,生成模糊上下文特征标注。在本发明的实施例中,该步骤的执行与训练过程中生成模糊上下文特征标注的步骤S160类似,均可通过量化映射来转换或其他方式实现,在此不再赘述。
在步骤S640,基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定对应的模型参数。在本发明的实施例中,对于HMM声学模型,则对应的模型参数为HMM模型包含的状态下各分量的分布。
在步骤S650,对所述模型参数生成语音参数。可以采用本领域常用的参数生成算法,例如根据最大似然概率条件的参数生成算法等,在此不再赘述。
最后,在步骤S660,将所述语音参数合成为语音。
在本发明的实施例中,通过对模糊多音字数据的发音进行模糊化处理来合成语音,从而在不同的上下文情境下,该发音可以具有多样的变化,从而改善了语音合成的质量。
在同一发明构思下,图7是根据本发明实施例的用于合成语音的设备的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
用于合成语音的设备700可以包括:多音字预测单元703,用于对模糊多音字数据进行模糊预测,以输出所述模糊多音字数据的多个候选发音以及预测概率;模糊上下文特征标注生成单元704,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;确定单元705,用于基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;参数生成器706,用于针对所述模型参数生成语音参数;以及合成器707,用于将所述语音参数合成语音。
本发明的用于合成语音的设备700可以实现上述用于合成语音的方法,其具体操作请参考如上内容,在此不再赘述。
在本发明的实施例中,设备700还可以包括文本分析器702,用于将待合成文本分解为带有属性标注的词及其读音符号。可选地,设备700还可以包括输入/输出单元701,用于输入待合成的文本以及输出合成的语音。可选地,在本发明的实施例中,还可以从外部直接输入已进行文本分析的符号流。因此,如图7所示,文本分析器702和输入/输出单元701以虚线示出。
在本发明的实施例中,用于合成语音的设备700及其各个部分,操作上可以实现前面描述的实施例的用于合成语音的方法或其步骤。
本实施例中的用于合成语音的设备700及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和设备也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以由上述硬件电路和软件的结合例如固件来实现。
虽然以上结合具体实施例对本发明的用于训练声学模型的方法、用于合成语音的方法和设备进行了详细描述,但本发明并不限于此,本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围;本发明的保护范围由所附权利要求来限定。
Claims (10)
1.一种用于语音合成的方法,包括:
确定文本分析生成的数据为模糊多音字数据;
对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;
基于所述多个候选发音及其概率,生成模糊上下文特征标注;
基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;
对所述模型参数生成语音参数;以及
将所述语音参数合成为语音。
2.如权利要求1所述的方法,其中生成模糊上下文特征标注的步骤进一步包括:
基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
3.一种用于合成语音的设备,包括:
多音字预测单元,用于模糊预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率;
模糊上下文特征标注生成单元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;
确定单元,用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;
参数生成器,用于针对所述模型参数生成语音参数;以及
合成器,用于将所述语音参数合成语音。
4.如权利要求3所述的设备,其中所述模糊上下文特征标注生成单元进一步被配置为:
基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
5.一种用于合成语音的系统,包括:
用于确定文本分析生成的数据为模糊多音字数据的装置;
用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置;
用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置;
用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数的装置;
用于对所述模型参数生成语音参数的装置;以及
用于将所述语音参数合成为语音的装置。
6.一种用于训练声学模型的方法,包括:
训练语音库中各语音单元,以生成声学模型,所述语音单元包含声学参数以及上下文标注;
对于上下文组合,进行决策树聚类处理以生成具有决策树的声学模型;
基于所述具有决策树的声学模型,确定语音库中的模糊数据;
针对所述模糊数据,生成模糊上下文特征标注;以及
基于所述模糊上下文特征标注,对所述语音库进行聚类训练,以生成具有模糊决策树的声学模型。
7.如权利要求6所述的方法,其中确定模糊数据的步骤进一步包括:
评估语音单元;以及
确定所述语音单元的候选上下文标注落入分类的程度;以及
如果所述程度满足预定阈值,则确定所述语音单元为模糊数据。
8.如权利要求7所述的方法,其中评估语音单元的步骤进一步包括:
通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。
9.如权利要求6所述的方法,其中生成模糊上下文特征标注的步骤进一步包括:
通过评估所述语音单元来确定所述语音单元的候选发音的上下文特征标注的分值;
基于所述分值确定所述语音单元的候选上下文标注落入分类的程度;以及
通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。
10.如权利要求6所述的方法,其中基于所述模糊上下文特征标注,进行聚类训练的步骤进一步包括以下之一:
基于所述模糊上下文特征标注和预设的模糊问题集,训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型;以及
基于问题集和上下文特征标注再次训练所述语音库中的各语音单元,其中所述问题集还包括预设的模糊问题集,以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100465804A CN102651217A (zh) | 2011-02-25 | 2011-02-25 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
US13/402,602 US9058811B2 (en) | 2011-02-25 | 2012-02-22 | Speech synthesis with fuzzy heteronym prediction using decision trees |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100465804A CN102651217A (zh) | 2011-02-25 | 2011-02-25 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102651217A true CN102651217A (zh) | 2012-08-29 |
Family
ID=46693212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100465804A Pending CN102651217A (zh) | 2011-02-25 | 2011-02-25 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9058811B2 (zh) |
CN (1) | CN102651217A (zh) |
Cited By (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103854643A (zh) * | 2012-11-29 | 2014-06-11 | 株式会社东芝 | 用于合成语音的方法和装置 |
CN103902600A (zh) * | 2012-12-27 | 2014-07-02 | 富士通株式会社 | 关键词列表形成装置及方法以及电子设备 |
CN104142909A (zh) * | 2014-05-07 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
CN104200803A (zh) * | 2014-09-16 | 2014-12-10 | 北京开元智信通软件有限公司 | 一种语音播放方法、装置及系统 |
CN104464731A (zh) * | 2013-09-20 | 2015-03-25 | 株式会社东芝 | 数据收集装置及方法、语音对话装置及方法 |
CN104599670A (zh) * | 2015-01-30 | 2015-05-06 | 成都星炫科技有限公司 | 点读笔的语音识别方法 |
CN104867491A (zh) * | 2015-06-17 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 用于语音合成的韵律模型训练方法和装置 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
CN105304081A (zh) * | 2015-11-09 | 2016-02-03 | 上海语知义信息技术有限公司 | 一种智能家居的语音播报系统及语音播报方法 |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN105702248A (zh) * | 2014-12-09 | 2016-06-22 | 苹果公司 | 在话音合成中消除同形异音词的歧义 |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
CN108305612A (zh) * | 2017-11-21 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本处理、模型训练方法、装置、存储介质和计算机设备 |
CN108346423A (zh) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | 语音合成模型的处理方法和装置 |
CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
CN108389577A (zh) * | 2018-02-12 | 2018-08-10 | 广州视源电子科技股份有限公司 | 优化语音识别声学模型的方法、系统、设备及存储介质 |
CN109996149A (zh) * | 2017-12-29 | 2019-07-09 | 深圳市赛菲姆科技有限公司 | 一种停车场智能语音播报系统 |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
CN111681641A (zh) * | 2020-05-26 | 2020-09-18 | 微软技术许可有限责任公司 | 基于短语的端对端文本到语音(tts)合成 |
CN111968676A (zh) * | 2020-08-18 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
Families Citing this family (138)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN102982019B (zh) * | 2012-11-26 | 2019-01-15 | 百度国际科技(深圳)有限公司 | 输入法语料注音方法、生成评测语料的方法及电子装置 |
US9396723B2 (en) | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
CN103971677B (zh) * | 2013-02-01 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US20140351196A1 (en) * | 2013-05-21 | 2014-11-27 | Sas Institute Inc. | Methods and systems for using clustering for splitting tree nodes in classification decision trees |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
CN105531757B (zh) * | 2013-09-20 | 2019-08-06 | 株式会社东芝 | 语音选择辅助装置以及语音选择方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CA2934298C (en) * | 2014-01-14 | 2023-03-07 | Interactive Intelligence Group, Inc. | System and method for synthesis of speech from provided text |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
JP6750121B2 (ja) | 2016-09-06 | 2020-09-02 | ディープマインド テクノロジーズ リミテッド | 畳み込みニューラルネットワークを使用したシーケンスの処理 |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
CA3155320A1 (en) | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6756916B2 (ja) | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN107122179A (zh) * | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10431203B2 (en) * | 2017-09-05 | 2019-10-01 | International Business Machines Corporation | Machine training for native language and fluency identification |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN110047463B (zh) * | 2019-01-31 | 2021-03-02 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN115116427B (zh) * | 2022-06-22 | 2023-11-14 | 马上消费金融股份有限公司 | 标注方法、语音合成方法、训练方法及装置 |
CN115512696A (zh) * | 2022-09-20 | 2022-12-23 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
CN1836226A (zh) * | 2003-08-21 | 2006-09-20 | 熊锦棠 | 转换非字母语言字元的方法及装置 |
US20060277045A1 (en) * | 2005-06-06 | 2006-12-07 | International Business Machines Corporation | System and method for word-sense disambiguation by recursive partitioning |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US6081781A (en) * | 1996-09-11 | 2000-06-27 | Nippon Telegragh And Telephone Corporation | Method and apparatus for speech synthesis and program recorded medium |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
JP2002539482A (ja) * | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | 見本音声を決定するための方法及び装置 |
US7657102B2 (en) * | 2003-08-27 | 2010-02-02 | Microsoft Corp. | System and method for fast on-line learning of transformed hidden Markov models |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20080120093A1 (en) * | 2006-11-16 | 2008-05-22 | Seiko Epson Corporation | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device |
GB0704772D0 (en) * | 2007-03-12 | 2007-04-18 | Mongoose Ventures Ltd | Aural similarity measuring system for text |
US20090299731A1 (en) * | 2007-03-12 | 2009-12-03 | Mongoose Ventures Limited | Aural similarity measuring system for text |
EP2140341B1 (en) * | 2007-04-26 | 2012-04-25 | Ford Global Technologies, LLC | Emotive advisory system and method |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
JP5422754B2 (ja) * | 2010-01-04 | 2014-02-19 | 株式会社東芝 | 音声合成装置及び方法 |
CN102511061A (zh) * | 2010-06-28 | 2012-06-20 | 株式会社东芝 | 在语音合成中用于融合浊音音素单元的方法和装置 |
US9009050B2 (en) * | 2010-11-30 | 2015-04-14 | At&T Intellectual Property I, L.P. | System and method for cloud-based text-to-speech web services |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
-
2011
- 2011-02-25 CN CN2011100465804A patent/CN102651217A/zh active Pending
-
2012
- 2012-02-22 US US13/402,602 patent/US9058811B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
CN1836226A (zh) * | 2003-08-21 | 2006-09-20 | 熊锦棠 | 转换非字母语言字元的方法及装置 |
US20060277045A1 (en) * | 2005-06-06 | 2006-12-07 | International Business Machines Corporation | System and method for word-sense disambiguation by recursive partitioning |
Non-Patent Citations (3)
Title |
---|
K. TOKUDA ET AL: "AN HMM-BASED SPEECH SYNTHESIS SYSTEM APPLIED TO ENGLISH", 《PROC. OF 2002 IEEE SSW》, 30 September 2002 (2002-09-30) * |
LU HENG ET AL: "HETERONYM VERIFICATION FOR MANDARIN SPEECH SYNTHESIS", 《INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》, 19 December 2008 (2008-12-19) * |
张子荣,初敏: "解决多音字字-音转换的一种统计学习方法", 《中文信息学报》, vol. 16, no. 3, 31 December 2002 (2002-12-31) * |
Cited By (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103854643B (zh) * | 2012-11-29 | 2017-03-01 | 株式会社东芝 | 用于合成语音的方法和装置 |
CN103854643A (zh) * | 2012-11-29 | 2014-06-11 | 株式会社东芝 | 用于合成语音的方法和装置 |
CN103902600A (zh) * | 2012-12-27 | 2014-07-02 | 富士通株式会社 | 关键词列表形成装置及方法以及电子设备 |
CN103902600B (zh) * | 2012-12-27 | 2017-12-01 | 富士通株式会社 | 关键词列表形成装置及方法以及电子设备 |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105340004B (zh) * | 2013-06-28 | 2019-09-10 | 谷歌有限责任公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
CN104464731A (zh) * | 2013-09-20 | 2015-03-25 | 株式会社东芝 | 数据收集装置及方法、语音对话装置及方法 |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US10114809B2 (en) | 2014-05-07 | 2018-10-30 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for phonetically annotating text |
CN104142909A (zh) * | 2014-05-07 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
CN104142909B (zh) * | 2014-05-07 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104200803A (zh) * | 2014-09-16 | 2014-12-10 | 北京开元智信通软件有限公司 | 一种语音播放方法、装置及系统 |
CN105702248B (zh) * | 2014-12-09 | 2019-11-19 | 苹果公司 | 用于操作智能自动化助理的电子设备和方法、存储介质 |
CN105702248A (zh) * | 2014-12-09 | 2016-06-22 | 苹果公司 | 在话音合成中消除同形异音词的歧义 |
CN104599670A (zh) * | 2015-01-30 | 2015-05-06 | 成都星炫科技有限公司 | 点读笔的语音识别方法 |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
CN104867491B (zh) * | 2015-06-17 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 用于语音合成的韵律模型训练方法和装置 |
CN104867491A (zh) * | 2015-06-17 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 用于语音合成的韵律模型训练方法和装置 |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
CN105304081A (zh) * | 2015-11-09 | 2016-02-03 | 上海语知义信息技术有限公司 | 一种智能家居的语音播报系统及语音播报方法 |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
CN108346423A (zh) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | 语音合成模型的处理方法和装置 |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
CN108305612B (zh) * | 2017-11-21 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 文本处理、模型训练方法、装置、存储介质和计算机设备 |
CN108305612A (zh) * | 2017-11-21 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本处理、模型训练方法、装置、存储介质和计算机设备 |
CN109996149A (zh) * | 2017-12-29 | 2019-07-09 | 深圳市赛菲姆科技有限公司 | 一种停车场智能语音播报系统 |
CN108389577A (zh) * | 2018-02-12 | 2018-08-10 | 广州视源电子科技股份有限公司 | 优化语音识别声学模型的方法、系统、设备及存储介质 |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111681641B (zh) * | 2020-05-26 | 2024-02-06 | 微软技术许可有限责任公司 | 基于短语的端对端文本到语音(tts)合成 |
CN111681641A (zh) * | 2020-05-26 | 2020-09-18 | 微软技术许可有限责任公司 | 基于短语的端对端文本到语音(tts)合成 |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
CN111968676A (zh) * | 2020-08-18 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US9058811B2 (en) | 2015-06-16 |
US20120221339A1 (en) | 2012-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102651217A (zh) | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 | |
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Stoller et al. | End-to-end lyrics alignment for polyphonic music using an audio-to-character recognition model | |
Kharitonov et al. | Text-free prosody-aware generative spoken language modeling | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
CN107154260B (zh) | 一种领域自适应语音识别方法和装置 | |
Qian et al. | Contentvec: An improved self-supervised speech representation by disentangling speakers | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
US10332508B1 (en) | Confidence checking for speech processing and query answering | |
US10388274B1 (en) | Confidence checking for speech processing and query answering | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
EP2815398B1 (en) | Audio human interactive proof based on text-to-speech and semantics | |
CN101828218B (zh) | 通过多形式段的生成和连接进行的合成 | |
Abdou et al. | Computer aided pronunciation learning system using speech recognition techniques | |
Henter et al. | Robust TTS duration modelling using DNNs | |
CN101551947A (zh) | 辅助口语语言学习的计算机系统 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Audhkhasi et al. | Theoretical analysis of diversity in an ensemble of automatic speech recognition systems | |
US20020040296A1 (en) | Phoneme assigning method | |
CN102651218A (zh) | 用于创建语音标签的方法以及设备 | |
CN110415725A (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20161130 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |