CN104867490B - 韵律结构预测方法和装置 - Google Patents

韵律结构预测方法和装置 Download PDF

Info

Publication number
CN104867490B
CN104867490B CN201510324535.9A CN201510324535A CN104867490B CN 104867490 B CN104867490 B CN 104867490B CN 201510324535 A CN201510324535 A CN 201510324535A CN 104867490 B CN104867490 B CN 104867490B
Authority
CN
China
Prior art keywords
term vector
word
cluster feature
cluster
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510324535.9A
Other languages
English (en)
Other versions
CN104867490A (zh
Inventor
陈志杰
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510324535.9A priority Critical patent/CN104867490B/zh
Publication of CN104867490A publication Critical patent/CN104867490A/zh
Application granted granted Critical
Publication of CN104867490B publication Critical patent/CN104867490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种韵律结构预测方法和装置,该韵律结构预测方法包括:对无标注数据进行学习获得词语的词向量;对所述词语的词向量进行聚类,获得所述词向量的聚类特征;将所述词向量的聚类特征加入从标注数据提取的特征集合中;对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;通过所述韵律结构预测模型进行韵律结构预测。本发明在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,进而可以提升语音合成的效果。

Description

韵律结构预测方法和装置
技术领域
本发明涉及语音合成技术领域,尤其涉及一种韵律结构预测方法和装置。
背景技术
韵律结构预测技术是语音合成技术的核心,韵律结构预测的准确与否,直接影响到语音合成系统后端的声学建模部分,由此可见,韵律结构预测在语音合成系统中的重要地位。
现有的韵律结构预测模型主要是利用监督学习的方法来训练得到的,为了使得韵律结构预测模型达到较好的性能,往往需要大量人工标注的训练数据。由于韵律结构预测问题属于自然语言处理(Natural Language Processing;以下简称:NLP)中的结构化预测问题,而结构化预测问题的训练数据又很难获得,并且还存在标注一致性的问题,因此,基于监督学习方法的韵律结构预测模型的性能往往受制于训练数据的数量以及质量,这主要体现在训练数据的稀疏性和歧义性这两个方面,经常导致基于监督学习方法的韵律结构预测模型无法正确预测出句子或句子中的词语的韵律结构。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种韵律结构预测方法。该方法在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,进而可以提升语音合成的效果。
本发明的第二个目的在于提出一种韵律结构预测装置。
为了实现上述目的,本发明第一方面实施例的韵律结构预测方法,包括:对无标注数据进行学习获得词语的词向量;对所述词语的词向量进行聚类,获得所述词向量的聚类特征;将所述聚类特征加入从标注数据提取的特征集合中;对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;通过所述韵律结构预测模型进行韵律结构预测。
本发明实施例的韵律结构预测方法,对无标注数据进行学习获得词语的词向量,然后对上述词语的词向量进行聚类,获得上述词向量的聚类特征,再将上述词向量的聚类特征加入从标注数据提取的特征集合中,最后对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型,从而在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,然后通过上述韵律结构预测模型进行韵律结构预测,进而可以提升语音合成的效果。
为了实现上述目的,本发明第二方面实施例的韵律结构预测装置,包括:学习模块,用于对无标注数据进行学习获得词语的词向量;聚类模块,用于对所述学习模块获得的所述词语的词向量进行聚类,获得所述词向量的聚类特征;添加模块,用于将所述聚类模块获得的所述词向量的聚类特征加入从标注数据提取的特征集合中;训练模块,用于对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;预测模块,用于通过所述训练模块获得的韵律结构预测模型进行韵律结构预测。
本发明实施例的韵律结构预测装置中,学习模块对无标注数据进行学习获得词语的词向量,然后聚类模块对上述词语的词向量进行聚类,获得上述词向量的聚类特征,再由添加模块将上述词向量的聚类特征加入从标注数据提取的特征集合中,最后训练模块对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型,从而在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,然后预测模块通过上述韵律结构预测模型进行韵律结构预测,进而可以提升语音合成的效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明韵律结构预测方法一个实施例的流程图;
图2为本发明韵律结构预测方法中韵律结构预测模型的架构一个实施例的示意图;
图3为本发明韵律结构预测方法中进行了聚类特征提取后的训练语料的示意图;
图4为本发明采用改进后的韵律结构预测模型的语音合成系统一个实施例的示意图;
图5为本发明韵律结构预测装置一个实施例的结构示意图;
图6为本发明韵律结构预测装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明韵律结构预测方法一个实施例的流程图,如图1所示,该韵律结构预测方法可以包括:
步骤101,对无标注数据进行学习获得词语的词向量。
具体地,对无标注数据进行学习获得词语的词向量可以为:通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
步骤102,对上述词语的词向量进行聚类,获得上述词向量的聚类特征。
具体地,对上述词语的词向量进行聚类,获得上述词向量的聚类特征可以为:对上述词语的词向量进行聚类,获得聚类后的每个类别的类中心向量;计算给定的词语的词向量与所有类中心向量的余弦相似度;判断上述余弦相似度中最大的余弦相似度是否大于预先设置的阈值;如果是,则确定上述给定的词语的词向量的聚类特征为上述最大的余弦相似度所对应的类别符号。
而如果上述余弦相似度中最大的余弦相似度小于或等于预先设置的阈值,则可以确定上述给定的词语的词向量的聚类特征为“-1”。
步骤103,将上述词向量的聚类特征加入从标注数据提取的特征集合中。
步骤104,对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
具体地,对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型可以为:通过监督学习的方式对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
步骤105,通过上述韵律结构预测模型进行韵律结构预测。
上述韵律结构预测方法中,对无标注数据进行学习获得词语的词向量,然后对上述词语的词向量进行聚类,获得上述词向量的聚类特征,再将上述词向量的聚类特征加入从标注数据提取的特征集合中,最后对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型,从而在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,然后通过上述韵律结构预测模型进行韵律结构预测,进而可以提升语音合成的效果。
本发明图1所示实施例提供的韵律结构预测方法实质上是基于半监督学习方法的韵律结构预测技术。该方法首先通过类神经网络语言模型以无监督学习的方式对海量无标注数据进行学习获得词语的词向量,进而对上述词语的词向量进行聚类,获得上述词向量的聚类特征,然后将聚类特征作为新增特征加入到特征集合中,最后再通过监督学习的方式对加入上述词向量的聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。由于本发明采用的是无监督学习方法和监督学习方法的结合技术,因此本发明也可以称为基于半监督学习方法的韵律结构预测技术。图2为本发明韵律结构预测方法中韵律结构预测模型的架构一个实施例的示意图。从图2中可以看出,本发明提供的韵律结构预测方法区别于现有的韵律结构预测技术的主要创新点是引入了基于海量无标注数据的聚类特征。聚类特征的生成是利用聚类算法对词向量作聚类而得到的。由于基于词向量的聚类特征利用了海量无标注数据所蕴含的丰富的语法和语义信息,因此,基于聚类特征的韵律结构预测模型可以在很大程度上解决训练数据的稀疏性的问题,并且可以在一定程度上解决训练数据的歧义性的问题。
在解决训练数据的稀疏性的方面,如果在训练数据集中出现了句子:“今天中午我们吃中餐”,而在测试数据集中出现了句子:“明天晚上他们吃西餐”,根据本发明所提出的韵律结构预测方法的原理,那么“今天”和“明天”,“中午”和“晚上”,“我们”和“他们”,“中餐”和“西餐”分别具有相同的聚类特征,因此这两个句子可以被本发明提出的韵律结构预测模型认为是同一个句子,从而韵律结构预测模型可以根据在训练时学到的句子“今天中午我们吃中餐”的韵律结构信息来预测句子“明天晚上他们吃西餐”的韵律结构信息。
在解决训练数据的歧义性的方面,对于句子:“他喜欢使用苹果手机”。这句话中的词语“苹果”是一个多义词,如果不结合上下文信息,很容易产生歧义。本发明所提出的韵律结构预测方法,结合词语“苹果”的上一个词语“使用”的聚类特征和下一个词语“手机”的聚类特征,从而可以正确地识别出这个句子中“苹果”的含义是指一个手机品牌,而不是一种水果,从而可以准确地预测出“苹果”在这个例句中的韵律结构信息。
基于聚类特征的韵律结构预测模型主要有两个实现要点:第一个要点是词向量的获取;第二个要点是聚类特征的提取算法。
1、词向量的获取。
词向量的获取除了需要用到海量的无标注数据之外,还需要一个训练词向量的模型。本发明采用的是连续词袋模型(Continuous Bag of Words Model;以下简称:CBOW),该模型类似于前馈神经网络语言模型,只不过去掉了复杂耗时的隐层,从而使得模型的训练速度更快。
通过CBOW模型,能够得到词语的词向量,这里的词向量是一种低维实值向量,采用分布式表示(distributed representation),词向量的具体维数可以在训练之前预先给定,比如100,150,200等等。训练出的词向量可以用以下公式表示:
我们=(2.117308,0.617478,...,-0.512415)
上式以词语“我们”为例子,展示了训练出的词向量的具体形式。这里的词向量为200维的向量,式中用省略号表示剩余的未被列出的实数值。
2、聚类特征的提取算法。
具体地,获得聚类特征时,首先需要对词语的词向量进行聚类,接着求出聚类后的每个类别的类中心向量,以此来代表每个类别的中心。对于给定的一个词语,算法首先快速查出该词语的词向量,然后将该词语的词向量与所有类中心向量的余弦相似度,最后判断上述余弦相似度中最大的余弦相似度是否大于预先设置的阈值,如果是,则确定上述给定的词语的词向量的聚类特征为最大的余弦相似度所对应的类别标号,反之上述给定的词语的词向量的聚类特征为“-1”。
图3为本发明韵律结构预测方法中进行了聚类特征提取后的训练语料的示意图,图3中第5列即为句子中每个词语的聚类特征。对于解决歧义性的问题,这里以图3为例来具体说明一下。
如果词语“大巴”具有多种含义,那么“大巴”在下面这个句子中的含义可以通过它前后一个词语的聚类特征的组合来确定,即“旅游”的聚类特征“634”以及“车”的聚类特征“81”,通过对这两个聚类特征进行组合(634/81),从而可以得到词语“大巴”在这个句子中的含义。
在训练得到基于聚类特征的韵律结构预测模型之后,可以利用该模型进行韵律结构预测,并可以将该模型集成到语音合成系统中,从而提升语音合成系统的性能。图4为本发明采用改进后的韵律结构预测模型的语音合成系统一个实施例的示意图。
本发明提出了一种不完全依赖于标注数据的韵律结构预测方法,该方法的优点如下:
1、在很大程度上解决了训练数据的稀疏性的问题。现有的语音合成系统的韵律结构预测模型由于强烈依赖于训练数据集的数量和质量,因此在遇到没有在训练数据集中出现过的但是与训练数据集中的某个句子相似的句子时,现有的韵律结构预测模型很难准确预测出该句子的韵律结构信息。而本发明所提出的方法由于引入了基于海量的无标注数据的词向量聚类特征,因此可以判断出句子的相似性,从而能够很好地解决现有技术无法解决的数据稀疏性的问题,进而提升了语音合成系统的性能。
2、在一定程度上解决了训练数据的歧义性的问题。对于一个多义词,歧义的情况是不可避免的,多义词在不同句子中往往具有不同的含义,因此对应的韵律结构信息也是不同的。本发明所提出的方法将多义词在句子中的上下文词语的聚类特征组合起来,从而得到当前多义词的确切含义,从而解决了歧义性的问题,而这又会在一定程度上提升语音合成系统的性能。
图5为本发明韵律结构预测装置一个实施例的结构示意图,本实施例中的韵律结构预测装置可以实现本发明图1所示实施例的流程,如图5所示,该韵律结构预测装置可以包括:学习模块51、聚类模块52、添加模块53、训练模块54和预测模块55;
其中,学习模块51,用于对无标注数据进行学习获得词语的词向量;其中,学习模块51,具体用于通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
聚类模块52,用于对学习模块51获得的词语的词向量进行聚类,获得上述词向量的聚类特征;
添加模块53,用于将聚类模块52获得的上述词向量的聚类特征加入从标注数据提取的特征集合中;
训练模块54,用于对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;其中,训练模块54,具体用于通过监督学习的方式对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
预测模块55,用于通过训练模块54获得的韵律结构预测模型进行韵律结构预测。
上述韵律结构预测装置中,学习模块51对无标注数据进行学习获得词语的词向量,然后聚类模块52对上述词语的词向量进行聚类,获得上述词向量的聚类特征,再由添加模块53将上述词向量的聚类特征加入从标注数据提取的特征集合中,最后训练模块54对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型,从而在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,然后预测模块55通过上述韵律结构预测模型进行韵律结构预测,进而可以提升语音合成的效果。
图6为本发明韵律结构预测装置另一个实施例的结构示意图,与图5所示的韵律结构预测装置相比,不同之处在于,图6所示的韵律结构预测装置中,聚类模块52可以包括:词向量聚类子模块521、获得子模块522、计算子模块523、判断子模块524和特征确定子模块525;
其中,词向量聚类子模块521,用于对上述词语的词向量进行聚类;
获得子模块522,用于获得词向量聚类子模块521聚类后的每个类别的类中心向量;
计算子模块523,用于计算给定的词语的词向量与获得子模块522获得的所有类中心向量的余弦相似度;
判断子模块524,用于判断计算子模块523获得的余弦相似度中最大的余弦相似度是否大于预先设置的阈值;
特征确定子模块525,用于当判断子模块524确定上述最大的余弦相似度大于预先设置的阈值时,确定上述给定的词语的词向量的聚类特征为最大的余弦相似度所对应的类别符号。
而如果上述余弦相似度中最大的余弦相似度小于或等于预先设置的阈值,则特征确定子模块525可以确定上述给定的词语的词向量的聚类特征为“-1”。
其中,上述预先设置的阈值的大小可以在具体实现时自行设定,本实施例对上述预先设置的阈值的大小不作限定。
上述韵律结构预测装置在训练获得韵律结构预测模型时,引入了词向量的聚类特征,提升了韵律结构预测模型的性能,然后预测模块55通过上述韵律结构预测模型进行韵律结构预测,可以提升语音合成的效果。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种韵律结构预测方法,其特征在于,包括:
对无标注数据进行学习获得词语的词向量;
对所述词语的词向量进行聚类,获得所述词向量的聚类特征;
将所述词向量的聚类特征加入从标注数据提取的特征集合中;
对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;
通过所述韵律结构预测模型进行韵律结构预测。
2.根据权利要求1所述的方法,其特征在于,所述对无标注数据进行学习获得词语的词向量包括:
通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述词语的词向量进行聚类,获得所述词向量的聚类特征包括:
对所述词语的词向量进行聚类;
获得聚类后的每个类别的类中心向量;
计算给定的词语的词向量与所有类中心向量的余弦相似度;
判断所述余弦相似度中最大的余弦相似度是否大于预先设置的阈值;
如果是,则确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型包括:
通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
5.一种韵律结构预测装置,其特征在于,包括:
学习模块,用于对无标注数据进行学习获得词语的词向量;
聚类模块,用于对所述学习模块获得的所述词语的词向量进行聚类,获得所述词向量的聚类特征;
添加模块,用于将所述聚类模块获得的所述词向量的聚类特征加入从标注数据提取的特征集合中;
训练模块,用于对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型;
预测模块,用于通过所述训练模块获得的韵律结构预测模型进行韵律结构预测。
6.根据权利要求5所述的装置,其特征在于,
所述学习模块,具体用于通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。
7.根据权利要求5所述的装置,其特征在于,所述聚类模块包括:
词向量聚类子模块,用于对所述词语的词向量进行聚类;
获得子模块,用于获得所述词向量聚类子模块聚类后的每个类别的类中心向量;
计算子模块,用于计算给定的词语的词向量与所述获得子模块获得的所有类中心向量的余弦相似度;
判断子模块,用于判断所述计算子模块获得的余弦相似度中最大的余弦相似度是否大于预先设置的阈值;
特征确定子模块,用于当所述判断子模块确定所述最大的余弦相似度大于预先设置的阈值时,确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。
8.根据权利要求5-7任意一项所述的装置,其特征在于,
所述训练模块,具体用于通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。
CN201510324535.9A 2015-06-12 2015-06-12 韵律结构预测方法和装置 Active CN104867490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510324535.9A CN104867490B (zh) 2015-06-12 2015-06-12 韵律结构预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510324535.9A CN104867490B (zh) 2015-06-12 2015-06-12 韵律结构预测方法和装置

Publications (2)

Publication Number Publication Date
CN104867490A CN104867490A (zh) 2015-08-26
CN104867490B true CN104867490B (zh) 2017-03-22

Family

ID=53913282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510324535.9A Active CN104867490B (zh) 2015-06-12 2015-06-12 韵律结构预测方法和装置

Country Status (1)

Country Link
CN (1) CN104867490B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185374B (zh) * 2015-09-11 2017-03-29 百度在线网络技术(北京)有限公司 韵律层级标注方法和装置
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106910497B (zh) * 2015-12-22 2021-04-16 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
CN106227721B (zh) * 2016-08-08 2019-02-01 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106486112A (zh) * 2016-10-13 2017-03-08 北京语言大学 基于声调核声学特征及深度神经网络的韵律边界检测方法
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108470024B (zh) * 2018-03-12 2020-10-30 北京灵伴即时智能科技有限公司 一种融合句法语义语用信息的汉语韵律结构预测方法
CN110008323B (zh) * 2019-03-27 2021-04-23 北京百分点科技集团股份有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN111105780B (zh) * 2019-12-27 2023-03-31 出门问问信息科技有限公司 一种韵律纠正方法、装置以及计算机可读存储介质
CN111128122B (zh) * 2019-12-31 2022-08-16 思必驰科技股份有限公司 韵律预测模型的优化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271171A (ja) * 2002-03-14 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法、音声合成装置および音声合成プログラム
KR20070049753A (ko) * 2005-11-09 2007-05-14 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
CN102254554A (zh) * 2011-07-18 2011-11-23 中国科学院自动化研究所 一种对普通话重音进行层次化建模和预测的方法
WO2014061230A1 (ja) * 2012-10-16 2014-04-24 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271171A (ja) * 2002-03-14 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法、音声合成装置および音声合成プログラム
KR20070049753A (ko) * 2005-11-09 2007-05-14 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
CN102254554A (zh) * 2011-07-18 2011-11-23 中国科学院自动化研究所 一种对普通话重音进行层次化建模和预测的方法
WO2014061230A1 (ja) * 2012-10-16 2014-04-24 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Also Published As

Publication number Publication date
CN104867490A (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
CN104867490B (zh) 韵律结构预测方法和装置
CN103345922B (zh) 一种长篇幅语音全自动切分方法
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
CN104143327B (zh) 一种声学模型训练方法和装置
CN106326212B (zh) 一种基于层次深度语义的隐式篇章关系分析方法
CN106228980B (zh) 数据处理方法和装置
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN110245221A (zh) 训练对话状态跟踪分类器的方法和计算机设备
CN105654940B (zh) 一种语音合成方法和装置
CN103854643B (zh) 用于合成语音的方法和装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN108062954A (zh) 语音识别方法和装置
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN108538285A (zh) 一种基于多任务神经网络的多样例关键词检测方法
CN110349597A (zh) 一种语音检测方法及装置
CN110852040B (zh) 一种标点预测模型训练方法及文本标点确定方法
CN108920644A (zh) 对话连贯性的判断方法、装置、设备及计算机可读介质
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN105810191A (zh) 融合韵律信息的汉语方言辨识方法
CN103761965A (zh) 一种乐器信号的分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant