CN111105780A - 一种韵律纠正方法、装置以及计算机可读存储介质 - Google Patents

一种韵律纠正方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN111105780A
CN111105780A CN201911374496.8A CN201911374496A CN111105780A CN 111105780 A CN111105780 A CN 111105780A CN 201911374496 A CN201911374496 A CN 201911374496A CN 111105780 A CN111105780 A CN 111105780A
Authority
CN
China
Prior art keywords
information
word segmentation
prediction result
preset
result information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911374496.8A
Other languages
English (en)
Other versions
CN111105780B (zh
Inventor
李永强
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201911374496.8A priority Critical patent/CN111105780B/zh
Publication of CN111105780A publication Critical patent/CN111105780A/zh
Application granted granted Critical
Publication of CN111105780B publication Critical patent/CN111105780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种韵律纠正方法、装置以及计算机可读存储介质,包括:获取分词信息;对所获取的分词信息设置预设标签信息;将所述分词信息进行韵律预测,得到预测结果信息;根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。由此,通过在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。

Description

一种韵律纠正方法、装置以及计算机可读存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种韵律纠正方法、装置以及计算机可读存储介质。
背景技术
TTS(Text-To-Speech,从文本到语音)系统主要由前端(frond-end)和后端(back-end)组成。其中前端主要包括文本正则化(tn:text normalization),分词,韵律预测,g2p(grapheme to phoneme)等组成,其中韵律预测的好坏直接影响TTS的自然程度。
发明内容
本发明实施例提供了一种韵律纠正方法、装置以及计算机可读存储介质,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高。
本发明一方面提供一种韵律纠正方法,所述方法包括:获取分词信息;对所获取的分词信息设置预设标签信息;将所述分词信息进行韵律预测,得到预测结果信息;根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。
在一可实施方式中,所述获取分词信息,包括:获取第一文本信息;对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;对所获得的第二文本信息进行分词处理,得到分词信息。
在一可实施方式中,所述将所述分词信息进行韵律预测,得到预测结果信息,包括:将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
在一可实施方式中,所述根据所获取的预设标签信息和预测结果信息,确定是否所述预设标签信息替换所述预测结果信息,包括:判断所述预测结果信息与所述预设标签信息是否一致;若所述预测结果信息与所述预设标签信息不一致,则将所述预设标签信息替换所述预测结果信息。
在一可实施方式中,所述预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签;相应的,所述预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。
本发明另一方面提供一种韵律纠正装置,所述装置包括:分词信息获取模块,用于获取分词信息;预设标签设置模块,用于对所获取的分词信息设置预设标签信息;预测结果获取模块,用于将所述分词信息进行韵律预测,得到预测结果信息;结果替换模块,用于根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。
在一可实施方式中,所述分词信息获取模块,具体用于:获取第一文本信息;对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;对所获得的第二文本信息进行分词处理,得到分词信息。
在一可实施方式中,所述预测结果获取模块,具体用于:将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
在一可实施方式中,所述结果替换模块,具体用于:判断所述预测结果信息与所述预设标签信息是否一致;若所述预测结果信息与所述预设标签信息不一致,则将所述预设标签信息替换所述预测结果信息。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的一种韵律纠正方法。
在本发明实施例中,在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种韵律纠正方法的实现流程示意图;
图2为本发明实施例一种韵律纠正装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种韵律纠正方法的实现流程示意图。
请参考图1,本发明一方面提供一种韵律纠正方法,方法包括:
步骤101,获取分词信息;
步骤102,对所获取的分词信息设置预设标签信息;
步骤103,将分词信息进行韵律预测,得到预测结果信息;
步骤104,根据所获取的预设标签信息和预测结果信息,确定是否将预设标签信息替换预测结果信息。
本实施例中,首先获取得到分词信息,获取方式可以从线上直接获取得到,也可以在本地端编写。
接着用户根据实际情况,对所获取得到的分词信息(主要是易错分词或者新词)设置预设标签信息,其中,预设标签信息可通过语音合成标记语言(SSML)来设置,具体形式为:<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>。
接着将分词信息进行韵律预测,得到预测结果信息。
最后根据所获取的预设标签信息和预测结果信息,确定是否预设标签信息替换预测结果信息。
由此,在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。
在一可实施方式中,获取分词信息,包括:
获取第一文本信息;
对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;
对所获得的第二文本信息进行分词处理,得到分词信息。
本实施例中,步骤101的具体过程为:
首先获得第一文本信息,其中文本信息可以从线上获取,也可以在线下撰写得到。
接着将第一文本信息进行文本正则化处理,得到第二文本信息。其中,真实文本中可能含有大量的非标准词(如阿拉伯数字、英文字符、各种符号等),这些词在词典中查不到,它们的读音也不能通过正常的拼音规则得到,由此,文本正则化处理用于将非汉字字符转换成对应的汉字。
接着对所获得的第二文本信息进行分词处理,得到对应于第二文本的多个分词信息。其中,分词处理具体可以使用现有的分词工具(如Jieba,SnowNLP,PkuSeg,等)来实现。
在一可实施方式中,将分词信息进行韵律预测,得到预测结果信息,包括:
将分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
本实施例中,韵律规则库具体可以通过决策树等数据结构来对分词进行韵律预测,得到对应的预测结果信息。
随机条件场的方式,该方式为一种判别式概率无向图学习的方案,将分词作为随机条件场的输入,得到对应的预测结果信息。
基于神经网络模型的方式主要是基于encoder-decoder模型(编码-解码模型)的LSTM(长短期记忆网络),将分词信息作为长短期记忆网络的输入,得到对应的预测结果信息。
其中,随机条件场和长短期记忆网络均事先需要经过大量分词语料预训练,使之能够根据分词信息得到对应的预测结果信息,训练方法为现有技术,在本实施例中不再详细阐述。
在一可实施方式中,预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签;
相应的,预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。
本实施例中,预设韵律词标签、预设韵律短语标签和预设语调短语标签均用语音合成标记语言(SSML)分别以<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>的形式展现。
相应的,韵律词结果信息、韵律短语结果信息和语调短语结果信息分别以pw第一分词pw、pph第二分词pph和iph第三分词iph的形式展现。
在一可实施方式中,根据所获取的预设标签信息和预测结果信息,确定是否预设标签信息替换预测结果信息,包括:
判断预测结果信息与预设标签信息是否一致;
若预测结果信息与预设标签信息不一致,则将预设标签信息替换预测结果信息。
本实施例中,步骤104的具体过程为:
判断用户给该分词设置的预设标签信息与经韵律预测的预测结果信息是否一致;
若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息不一致,则将所得到的预测结果信息替换为分词所设置的预设标签信息。
例如通过用户对“我们来了,美丽的中国”中的分词“来了”设置的预设标签信息为“<iph>来了</iph>”,经韵律预测后的预测结果信息为“来了pw”;接着提取预设标签信息中的标签信息“iph”和预测结果信息中的“pw”,并判断所提取的“iph”和“pw”是否一致,在本假设中“iph”和“pw”明显不一致,则将用户设置的“iph”替换预测结果信息中的“pw”。
反之,若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息一致,则无需替换。
整体的方法过程如下:
假设有一条文本“我们来了,美丽的国家”需要韵律标注。
首先给该文本中的易错部分设置标签,比如我们<iph>来了</iph><pw>美丽的</pw>中国。
接着将文本进行韵律预测,假设预测的结果是我们“pw来了pw美丽的iph中国iph”。
此时,<iph>来了</iph>与pw来了pw不一致,则将iph替换pw,得到的最终结果为“我们pw来了iph美丽的pw中国iph”。
图2为本发明实施例一种韵律纠正装置的结构组成示意图。
请参考图2,本发明另一方面提供一种韵律纠正装置,装置包括:
分词信息获取模块201,用于获取分词信息;
预设标签设置模块202,用于对所获取的分词信息设置预设标签信息;
预测结果获取模块203,用于将分词信息进行韵律预测,得到预测结果信息;
结果替换模块204,用于根据所获取的预设标签信息和预测结果信息,确定是否预设标签信息替换预测结果信息。
本实施例中,首先通过分词信息获取模块201获取得到分词信息,获取方式可以从线上直接获取得到,也可以在本地端编写。
接着通过预设标签设置模块202根据实际情况,对所获取得到的分词信息(主要是易错分词或者新词)设置预设标签信息,其中,预设标签信息可通过语音合成标记语言(SSML)来设置,具体形式为:<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>。
接着通过预测结果获取模块203将分词信息进行韵律预测,得到预测结果信息。
最后通过结果替换模块204根据所获取的预设标签信息和预测结果信息,确定是否预设标签信息替换预测结果信息。
由此,在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。
在一可实施方式中,分词信息获取模块201,具体用于:
获取第一文本信息;
对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;
对所获得的第二文本信息进行分词处理,得到分词信息。
本实施例中,分词信息获取模块201具体用于:
首先获得第一文本信息,其中文本信息可以从线上获取,也可以在线下撰写得到。
接着将第一文本信息进行文本正则化处理,得到第二文本信息。其中,真实文本中可能含有大量的非标准词(如阿拉伯数字、英文字符、各种符号等),这些词在词典中查不到,它们的读音也不能通过正常的拼音规则得到,由此,文本正则化处理用于将非汉字字符转换成对应的汉字。
接着对所获得的第二文本信息进行分词处理,得到对应于第二文本的多个分词信息。其中,分词处理具体可以使用现有的分词工具(如Jieba,SnowNLP,PkuSeg,等)来实现。
在一可实施方式中,结果替换模块204,具体用于:
判断预测结果信息与预设标签信息是否一致;
若预测结果信息与预设标签信息不一致,则将预设标签信息替换所述预测结果信息。
本实施例中,结果替换模块204,具体用于:
判断用户给该分词设置的预设标签信息与经韵律预测的预测结果信息是否一致;
若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息不一致,则将预设标签信息替换预测结果信息。
例如通过用户对“我们来了,美丽的中国”中的分词“来了”设置的预设标签信息为“<iph>来了</iph>”,经韵律预测后的预测结果信息为“来了pw”;接着提取预设标签信息中的标签信息“iph”和预测结果信息中的“pw”,并判断所提取的“iph”和“pw”是否一致,在本假设中“iph”和“pw”明显不一致,则将用户设置的“iph”替换预测结果信息中的“pw”。
反之,若用户给该分词设置的预设标签信息与经韵律预测的预测结果信息一致,则无需替换。
在一可实施方式中,预测结果获取模块,具体用于:
将分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
本实施例中,韵律规则库具体可以通过决策树等数据结构来对分词进行韵律预测,得到对应的预测结果信息。
随机条件场的方式,该方式为一种判别式概率无向图学习的方案,将分词作为随机条件场的输入,得到对应的预测结果信息。
基于神经网络模型的方式主要是基于encoder-decoder模型(编码-解码模型)的LSTM(长短期记忆网络),将分词信息作为长短期记忆网络的输入,得到对应的预测结果信息。
其中,随机条件场和长短期记忆网络均事先需要经过大量分词语料预训练,使之能够根据分词信息得到对应的预测结果信息,训练方法为现有技术,在本实施例中不再详细阐述。
在一可实施方式中,预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签;
相应的,预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。
本实施例中,预设韵律词标签、预设韵律短语标签和预设语调短语标签均用语音合成标记语言(SSML)分别以<pw>第一分词</pw>,<pph>第二分词</pph>和<iph>第三分词</iph>的形式展现。
相应的,韵律词结果信息、韵律短语结果信息和语调短语结果信息分别以pw第一分词pw、pph第二分词pph和iph第三分词iph的形式展现。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行韵律纠正方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取分词信息;对所获取的分词信息设置预设标签信息;将分词信息进行韵律预测,得到预测结果信息;根据所获取的预设标签信息和预测结果信息,确定是否将预设标签信息替换预测结果信息。
由此,在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种韵律纠正方法,其特征在于,所述方法包括:
获取分词信息;
对所获取的分词信息设置预设标签信息;
将所述分词信息进行韵律预测,得到预测结果信息;
根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。
2.根据权利要求1所述的方法,其特征在于,所述获取分词信息,包括:
获取第一文本信息;
对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;
对所获得的第二文本信息进行分词处理,得到分词信息。
3.根据权利要求1所述的方法,其特征在于,所述将所述分词信息进行韵律预测,得到预测结果信息,包括:
将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息,包括:
判断所述预测结果信息与所述预设标签信息是否一致;
若所述预测结果信息与所述预设标签信息不一致,则将所述预设标签信息替换所述预测结果信息。
5.根据权利要求1所述的方法,其特征在于,所述预设标签信息包括预设韵律词标签、预设韵律短语标签和预设语调短语标签;
相应的,所述预测结果信息包括韵律词结果信息、韵律短语结果信息和语调短语结果信息。
6.一种韵律纠正装置,其特征在于,所述装置包括:
分词信息获取模块,用于获取分词信息;
预设标签设置模块,用于对所获取的分词信息设置预设标签信息;
预测结果获取模块,用于将所述分词信息进行韵律预测,得到预测结果信息;
结果替换模块,用于根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。
7.根据权利要求6所述的装置,其特征在于,所述分词信息获取模块,具体用于:
获取第一文本信息;
对所获取的第一文本信息进行文本正则化处理,获得第二文本信息;
对所获得的第二文本信息进行分词处理,得到分词信息。
8.根据权利要求6所述的装置,其特征在于,所述预测结果获取模块,具体用于:
将所述分词信息作为韵律规则库、条件随机场和神经网络模型其中一种的输入,得到预测结果信息。
9.根据权利要求6所述的装置,其特征在于,所述结果替换模块,具体用于:
判断所述预测结果信息与所述预设标签信息是否一致;
若所述预测结果信息与所述预设标签信息不一致,则将所述预设标签信息替换所述预测结果信息。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的一种韵律纠正方法。
CN201911374496.8A 2019-12-27 2019-12-27 一种韵律纠正方法、装置以及计算机可读存储介质 Active CN111105780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374496.8A CN111105780B (zh) 2019-12-27 2019-12-27 一种韵律纠正方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374496.8A CN111105780B (zh) 2019-12-27 2019-12-27 一种韵律纠正方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111105780A true CN111105780A (zh) 2020-05-05
CN111105780B CN111105780B (zh) 2023-03-31

Family

ID=70424137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374496.8A Active CN111105780B (zh) 2019-12-27 2019-12-27 一种韵律纠正方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111105780B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
US20050204904A1 (en) * 2004-03-19 2005-09-22 Gerhard Lengeling Method and apparatus for evaluating and correcting rhythm in audio data
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN101202041A (zh) * 2006-12-13 2008-06-18 富士通株式会社 一种汉语韵律词组词方法及装置
CA2661890A1 (en) * 2007-03-07 2008-09-12 International Business Machines Corporation Speech synthesis
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
CN102063898A (zh) * 2010-09-27 2011-05-18 北京捷通华声语音技术有限公司 韵律短语预测方法
US20140358546A1 (en) * 2013-05-28 2014-12-04 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
JP2015060038A (ja) * 2013-09-18 2015-03-30 富士通株式会社 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
CN104867490A (zh) * 2015-06-12 2015-08-26 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN109065016A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音合成方法、装置、电子设备及非暂态计算机存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
US20050204904A1 (en) * 2004-03-19 2005-09-22 Gerhard Lengeling Method and apparatus for evaluating and correcting rhythm in audio data
CN101202041A (zh) * 2006-12-13 2008-06-18 富士通株式会社 一种汉语韵律词组词方法及装置
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CA2661890A1 (en) * 2007-03-07 2008-09-12 International Business Machines Corporation Speech synthesis
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
CN102063898A (zh) * 2010-09-27 2011-05-18 北京捷通华声语音技术有限公司 韵律短语预测方法
US20140358546A1 (en) * 2013-05-28 2014-12-04 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
JP2015060038A (ja) * 2013-09-18 2015-03-30 富士通株式会社 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
CN104867490A (zh) * 2015-06-12 2015-08-26 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN109065016A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音合成方法、装置、电子设备及非暂态计算机存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUANG DING, ET AL.: "Automatic prosody prediction for Chinese speech synthetic using BLSTM-RNN and embedding features" *
吴树兴等: "一种基于深度神经网络的汉语语音合成韵律结构预测模型", 《科技资讯》 *
董远等: "条件随机场模型在韵律结构预测中的应用" *
董远等: "条件随机场模型在韵律结构预测中的应用", 《北京邮电大学学报》 *

Also Published As

Publication number Publication date
CN111105780B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN108447486B (zh) 一种语音翻译方法及装置
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN112420016B (zh) 一种合成语音与文本对齐的方法、装置及计算机储存介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN111145724B (zh) 一种多音字标注方法、装置以及计算机可读存储介质
CN110767213A (zh) 一种韵律预测方法及装置
CN109326281B (zh) 韵律标注方法、装置和设备
CN109166569B (zh) 音素误标注的检测方法和装置
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN111105780B (zh) 一种韵律纠正方法、装置以及计算机可读存储介质
CN115438655A (zh) 人物性别识别方法、装置、电子设备及存储介质
CN114708848A (zh) 音视频文件大小的获取方法和装置
Zine et al. Towards a high-quality lemma-based text to speech system for the arabic language
CN112464649A (zh) 多音字的拼音转换方法、装置、计算机设备和存储介质
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
CN111968619A (zh) 控制语音合成发音的方法及装置
CN116229994B (zh) 一种阿拉伯语方言的标符预测模型的构建方法和装置
CN114420086B (zh) 语音合成方法和装置
CN111078898B (zh) 一种多音字标注方法、装置以及计算机可读存储介质
Torres et al. Aromo: Argentine spanish TTS system
KR101080880B1 (ko) 외래어의 자동 음차 표기 방법 및 장치
CN115620702A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN115938341A (zh) 语音合成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant