CN105551481B - 语音数据的韵律标注方法及装置 - Google Patents

语音数据的韵律标注方法及装置 Download PDF

Info

Publication number
CN105551481B
CN105551481B CN201510967511.5A CN201510967511A CN105551481B CN 105551481 B CN105551481 B CN 105551481B CN 201510967511 A CN201510967511 A CN 201510967511A CN 105551481 B CN105551481 B CN 105551481B
Authority
CN
China
Prior art keywords
information
text
candidate
voice data
prosodic features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510967511.5A
Other languages
English (en)
Other versions
CN105551481A (zh
Inventor
康永国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510967511.5A priority Critical patent/CN105551481B/zh
Publication of CN105551481A publication Critical patent/CN105551481A/zh
Application granted granted Critical
Publication of CN105551481B publication Critical patent/CN105551481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种语音数据的韵律标注方法及装置,其中,该方法包括:获取待标注语音数据的文本信息,提取第一文本特征信息和第二文本特征信息;提取声学特征信息;根据第一文本特征信息和韵律预测模型生成N个候选韵律特征信息;基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成N个候选声学特征信息;分别计算每个候选声学特征信息与声学特征信息之间的相关值;将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息;根据目标韵律特征信息对待标注语音数据的韵律特征进行标注。该实施例的方法及装置,准确对标注语音数据的韵律停顿进行了标注,进而可使合成语音更加流畅自然。

Description

语音数据的韵律标注方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种语音数据的韵律标注方法及装置。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。语音合成的目的是将文本转换为语音播放给用户,目标是达到真人文本播报的效果。
通常,为了达到上述效果,语音合成系统需要一个韵律特征信息(例如韵律停顿等级)标注准确的语音合成音库,相关技术中主要两种方案,一种方案是首先选取一个播音员级别的发音人,在专业录音室录制大量的语音数据(一般需要10小时左右的录音时间),然后,人工根据朗读人朗读的文本和语音对语音数据的韵律特征信息进行标注,以生成语音合成系统所需的语音合成库,也就是说,语音合成库的韵律特征信息是根据发音人朗读的节奏人工标注的,基于朗读人朗读的语音所制成的语音合成能够提供的音色有限,语音系统所合成的语音的音色较为单一、平稳。另一种方案是基于大数据合成的理念,收集大量发音准确的语音数据,然后基于所收集的语音数据形成语音合成音库,这种基于大数据所制成的语音合成音库,使得语音合成系统具有多音色的特点,能够满足不用的个性化需求。在基于大量数据的语音数据制成语音合成音库中,如何省时省力地快速对大量的语音数据的韵律特征信息进行自动标注是语音合成音库的关键之一。
相关技术中,主要采用两种方式对基于大数据的语音数据的韵律特征信息进行标注,一种方式为:从语音数据中获得与韵律特征信息有关的语音特征信息例如语音信号中的静音段长度、基频特征的走势等,然后基于上述语音特征信息确定出语音数据的韵律特征信息,并根据确定出的韵律特征信息对语音数据进行自动标注,这种自动标注语音的韵律特征信息的方式由于所提取的语音特征信息不具有鲁棒性,容易导致所标注的韵律特征信息不准确,并且上述基于语音特征信息所获得的韵律特征信息没有考虑到文本上的停顿约束,进而可导致语音合成系统所合成的语音数据的韵律停顿不够真实,不够自然。另一种方式为:使用通用韵律预测模型对录音文本进行韵律预测,直接使用预测的模型作为音库语音对应的韵律停顿,这种方式考虑到了韵律在文本上的分布信息,但基于该语音合成音库所合成的语音数据的音色比较单一,对于节奏变化明显的评书、讲故事等文本所合成的语音和真人播放存在较大差距,用户听到的语音不够流畅,用户体验不理想。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种语音数据的韵律标注方法,该方法准确对标注语音数据的韵律停顿进行了标注,所标注的待标注语音数据的韵律更加合理、准确,进而可使合成语音更加流畅自然。
本发明的第二个目的在于提出一种语音数据的韵律标注装置。
为实现上述目的,本发明第一方面实施例的语音数据标注方法,包括:获取待标注语音数据的文本信息,并提取所述文本信息的第一文本特征信息和第二文本特征信息;提取所述待标注语音数据的声学特征信息;根据所述第一文本特征信息和韵律预测模型生成所述文本信息的候选韵律特征信息集合,其中,所述候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数;基于所述N个候选韵律特征信息、所述第二文本特征信息和声学预测模型生成所述文本信息的N个候选声学特征信息,其中,所述N个候选声学特征信息与所述N个候选韵律特征信息相对应;分别计算每个候选声学特征信息与所述声学特征信息之间的相关值;根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为所述待标注语音数据的目标韵律特征信息;以及根据所述目标韵律特征信息对所述待标注语音数据的韵律特征进行标注。
本发明实施例的语音数据的韵律标注方法,首先提取待标注语音数据的文本信息的第一文本特征信息和第二文本特征信息,并提取待标注语音数据的声学特征信息,然后根据第一文本特征信息和韵律预测模型生成包含N个候选韵律特征信息的文本信息的候选韵律特征信息集合,基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息,再分别计算每个候选声学特征信息与声学特征信息之间的相关值,根据计算结果确定出最大相关值,将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,再根据目标韵律特征信息对待标注语音数据的韵律特征进行标注,由此,准确对标注语音数据的韵律停顿进行了标注,所标注的待标注语音数据的韵律更加合理、准确,进而可使合成语音更加流畅自然。
为实现上述目的,本发明第二方面实施例的语音数据的韵律标注装置,包括:获取模块,用于获取待标注语音数据的文本信息;提取模块,用于提取所述文本信息的第一文本特征信息和第二文本特征信息,以及提取所述待标注语音数据的声学特征信息;第一生成模块,用于根据所述第一文本特征信息和韵律预测模型生成所述文本信息的候选韵律特征信息集合,其中,所述候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数;第二生成模块,用于基于所述N个候选韵律特征信息、所述第二文本特征信息和声学预测模型生成所述文本信息的N个候选声学特征信息,其中,所述N个候选声学特征信息与所述N个候选韵律特征信息相对应;计算模块,用于分别计算每个候选声学特征信息与所述声学特征信息之间的相关值;确定模块,用于根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为所述待标注语音数据的目标韵律特征信息;以及标注模块,用于根据所述目标韵律特征信息对所述待标注语音数据的韵律特征进行标注。
本发明实施例的语音数据的韵律标注装置,获取模块获取待标注语音数据的文本信息,由提取模块提取文本信息的第一文本特征信息和第二文本特征信息,以及待标注语音数据的声学特征信息,第一生成模块根据第一文本特征信息和韵律预测模型生成包含N个候选韵律特征信息的文本信息的候选韵律特征信息集合,再由第二生成模块基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息,计算模块分别计算每个候选声学特征信息与声学特征信息之间的相关值,确定模块根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,标注模块根据目标韵律特征信息对待标注语音数据的韵律特征进行标注,由此,准确对标注语音数据的韵律停顿进行了标注,所标注的待标注语音数据的韵律更加合理、准确,进而可使合成语音更加流畅自然。
附图说明
图1是根据本发明一个实施例的语音数据的韵律标注方法的流程图。
图2是建立韵律预测模型的示意图。
图3是建立声学预测模型的示意图。
图4是根据本发明一个实施例的语音数据的韵律标注过程的示意图。
图5是根据本发明一个实施例的语音数据的韵律标注装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音数据的标注方法及装置。
图1是根据本发明一个实施例的语音数据的韵律标注方法的流程图。
如图1所示,该语音数据的韵律标注方法包括:
S101,获取待标注语音数据的文本信息,并提取文本信息的第一文本特征信息和第二文本特征信息。
其中,第一文本特征信息可以包括词长、词性和词面(即词条本身)等内容,第二文本特征信息可以包括但不限于声韵母和声调。
S102,提取待标注语音数据的声学特征信息。
其中,声学特征信息可以包括但不限于时长、基频等声学特征。
S103,根据第一文本特征信息和韵律预测模型生成文本信息的候选韵律特征信息集合。
其中,上述候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数,例如,N为5。
具体地,将第一文本特征信息输入韵律预测模型,通过韵律预测模型对文件信息进行韵律预测,以生成文本信息的候选韵律特征信息集合。
其中,上述候选韵律特征信息可以包括韵律停顿等级。具体地,停顿等级可以分为四种停顿等级,分别是一级停顿、二级停顿、三级停顿和四级停顿,停顿级别越高表明此处需要停顿的时间越长。其中,一级停顿可用#0表示,一级停顿表示无停顿;一级停顿可用#1表示,二级停顿表示小停顿(对应韵律词);三级停顿#2,三级停顿为大停顿(对应韵律短语);四级停顿可用#3表示,三级停顿为超大停顿(对应语调短语)。
可以理解的是,上述生成的文本信息的N个候选韵律特征信息互不相同的。
需要说明的是,上述韵律预测模型是预先训练好的。具体地,如图2所示,该韵律预测模型可以是利用CRF(conditional random field,条件随机场)算法对大量文本的文本特征信息和其对应的韵律标注数据进行韵律训练建立的,即该韵律预测模型是基于文本特征信息与韵律标注数据之间的映射关系所建立的。也就说是,将文本特征信息输入该韵律预测模型后,该韵律预测模型即可输出与文本特征信息对应的韵律特征信息。
可以理解的是,该韵律预测模型的特点是对于一句待预测文本可以预测N个韵律停顿结果,N大于1。
S104,基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息。
其中,N个候选声学特征信息与N个候选韵律特征信息相对应的。
具体地,针对每个候选韵律特征信息,将当前候选韵律特征信息和第二文本特征信息输入声学预测模型,通过声学预测模型对文本信息进行声学预测,以生成文本信息的当前候选声学特征信息。
需要说明的是,上述声学预测模型是预先训练好的。具体地,如图3所示,声学预测模型可以是采用HMM(Hidden Markov Model,隐马尔科夫模型)或深度神经网络模型基于大量带有精确标注的训练语音数据(即文本特征信息、韵律特征信息和声学特征信息),建立的训练语音数据的文本特征信息、韵律特征信息和声学特征信息之间的映射关系,其中,该映射关系的输入为第二文本特征信息、韵律特征信息,输出为声学特征信息。
S105,分别计算每个候选声学特征信息与声学特征信息之间的相关值。
具体而言,由于不同的韵律停顿等级会导致时长、基频等声学特征信息的变化,和待标注语音提取的声学特征距离最小的候选特征信息对应的韵律停顿等级和真实的韵律停顿等级更加接近,因此可以通过度量声学特征信息距离的方式确定N个候选声学特征信息与待标注语音数据的声学特征信息的相关值。可以理解的是,距离越小,表明相关值越大。
S106,根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息。
S107,根据目标韵律特征信息对待标注语音数据的韵律特征进行标注。
具体地,在根据上述计算结果确定出目标韵律停顿等级后,可根据目标韵律停顿等级对待标注语音数据的韵律停顿等级进行标注。
为了便于理解本发明的实施例,下面可通过图4描述本发明实施例的语音数据的韵律标记方法。
如图4所示,在获得待标注语音数据的文本信息后,可先对文本信息进行词面、词性、声韵母、声调等文本分析,以及提取待标注语音数据的声学特征信息,并将词面、词性的文本分析的结果(即第一文本特征信息)输入至预先训练好的韵律预测模型中,韵律预测模型生成N个候选韵律特征信息,然后将N个候选韵律特征信息和声韵母、声调的文本分析结果(即第二文本特征信息)输入至预先训练好的声学预测模型中,声学预测模型生成该文本信息的N个候选韵律特征信息所对应的N个候选声学特征信息,通过距离计算每个候选声学特征信息与上述声学特征信息之间的距离,得到每个候选声学特征信息与上述声学特征信息之间的相关值,并从中确定出最大相关值,将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,即将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,进而对待标注语音数据的韵律特征进行标注。
综上可以看出,该实施例在对待标注语音数据的韵律特征信息(例如韵律停顿等级)进行标注的过程中,不仅对待标注语音数据的文本信息的文本特征信息进行分析,还将预测出的声学特征信息与待标注语音数据的声学特征信息进行比较,以确定出更贴近于真实的韵律停顿,并通过该韵律停顿对待标注语音数据进行标注,从而准确对标注语音数据的韵律停顿进行了标注,进而可使合成语音更加流畅自然。
本发明实施例的语音数据的韵律标注方法,首先提取待标注语音数据的文本信息的第一文本特征信息和第二文本特征信息,并提取待标注语音数据的声学特征信息,然后根据第一文本特征信息和韵律预测模型生成包含N个候选韵律特征信息的文本信息的候选韵律特征信息集合,基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息,再分别计算每个候选声学特征信息与声学特征信息之间的相关值,根据计算结果确定出最大相关值,将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,再根据目标韵律特征信息对待标注语音数据的韵律特征进行标注,由此,准确对标注语音数据的韵律停顿进行了标注,所标注的待标注语音数据的韵律更加合理、准确,进而可使合成语音更加流畅自然。
为了实现上述实施例,本发明还提出一种语音数据的韵律标注装置。
图5是根据本发明一个实施例的语音数据的韵律标注装置的结构示意图。
如图5所示,该语音数据的韵律标注装置包括获取模块100、第一提取模块200、第二提取模块300、第一生成模块400、第二生成模块500、计算模块600、确定模块700和标注模块800,其中:
获取模块100用于获取待标注语音数据的文本信息。
第一提取模块200用于提取文本信息的第一文本特征信息和第二文本特征信息。
其中,第一文本特征信息可以包括词长、词性和词面(即词条本身)等内容,第二文本特征信息可以包括但不限于声韵母和声调。
第二提取模块300用于提取待标注语音数据的声学特征信息。
其中,声学特征信息可以包括但不限于时长、基频等声学特征。
第一生成模块400用于根据第一文本特征信息和韵律预测模型生成文本信息的候选韵律特征信息集合。
其中,候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数,例如,N为5。
具体地,第一生成模块400可将第一文本特征信息输入韵律预测模型,通过韵律预测模型对文件信息进行韵律预测,以生成文本信息的候选韵律特征信息集合。
其中,上述韵律特征信息可以包括韵律停顿等级。具体地,停顿等级可以分为四种停顿等级,分别是一级停顿、二级停顿、三级停顿和四级停顿,停顿级别越高表明此处需要停顿的时间越长。其中,一级停顿可用#0表示,一级停顿表示无停顿;一级停顿可用#1表示,二级停顿表示小停顿(对应韵律词);三级停顿#2,三级停顿为大停顿(对应韵律短语);四级停顿可用#3表示,三级停顿为超大停顿(对应语调短语)。
可以理解的是,上述生成的文本信息的N个候选韵律特征信息互不相同的。
第二生成模块500用于基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息。
其中,N个候选声学特征信息与N个候选韵律特征信息相对应。
具体地,针对每个候选韵律特征信息,第二生成模块500可将当前候选韵律特征信息和第二文本特征信息输入声学预测模型,通过声学预测模型对文本信息进行声学预测,以生成文本信息的当前候选声学特征信息。
计算模块600用于分别计算每个候选声学特征信息与声学特征信息之间的相关值。
通常,由于不同的韵律停顿等级会导致时长、基频等声学特征信息的变化,和待标注语音提取的声学特征距离最小的候选特征信息对应的韵律停顿等级和真实的韵律停顿等级更加接近,因此,计算模块600可以通过度量声学特征信息距离的方式确定N个候选声学特征信息与待标注语音数据的声学特征信息的相关值。其中,可以理解的是,距离越小,表明相关值越大。
确定模块700用于根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息。
需要理解的是,候选韵律特征信息和目标韵律特征信息均可以包括但不限于韵律停顿等级。
标注模块800用于根据目标韵律特征信息对待标注语音数据的韵律特征进行标注。
具体地,在确定模块700根据上述计算结果确定出目标韵律停顿等级后,标注模块800可根据目标韵律停顿等级对待标注语音数据的韵律停顿等级进行标注。
需要说明的是,上述对语音数据的韵律标注方法实施例的解释说明也适用于该实施例的语音数据的韵律标注装置,此处不赘述。
本发明实施例的语音数据的韵律标注装置,获取模块获取待标注语音数据的文本信息,由第一提取模块提取文本信息的第一文本特征信息和第二文本特征信息,以及第二提取模块提取待标注语音数据的声学特征信息,第一生成模块根据第一文本特征信息和韵律预测模型生成包含N个候选韵律特征信息的文本信息的候选韵律特征信息集合,再由第二生成模块基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成文本信息的N个候选声学特征信息,计算模块分别计算每个候选声学特征信息与声学特征信息之间的相关值,确定模块根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息,标注模块根据目标韵律特征信息对待标注语音数据的韵律特征进行标注,由此,准确对标注语音数据的韵律停顿进行了标注,所标注的待标注语音数据的韵律更加合理、准确,进而可使合成语音更加流畅自然。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种语音数据的韵律标注方法,其特征在于,包括以下步骤:
获取待标注语音数据的文本信息,并提取所述文本信息的第一文本特征信息和第二文本特征信息;
提取所述待标注语音数据的声学特征信息;
根据所述第一文本特征信息和韵律预测模型生成所述文本信息的候选韵律特征信息集合,其中,所述候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数;
基于所述N个候选韵律特征信息、所述第二文本特征信息和声学预测模型生成所述文本信息的N个候选声学特征信息,其中,所述N个候选声学特征信息与所述N个候选韵律特征信息相对应;
分别计算每个候选声学特征信息与所述声学特征信息之间的相关值;
根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为所述待标注语音数据的目标韵律特征信息;以及
根据所述目标韵律特征信息对所述待标注语音数据的韵律特征进行标注。
2.如权利要求1所述的语音数据的韵律标注方法,其特征在于,基于所述N个候选韵律特征信息、所述第二文本特征信息和声学预测模型生成所述文本信息的N个候选声学特征信息,包括:
针对每个候选韵律特征信息,将当前候选韵律特征信息和所述第二文本特征信息输入所述声学预测模型,通过所述声学预测模型对所述文本信息进行声学预测,以生成所述文本信息的当前候选声学特征信息。
3.如权利要求1所述的语音数据的韵律标注方法,其特征在于,所述根据所述第一文本特征信息和韵律预测模型生成所述文本信息的候选韵律特征信息集合,包括:
将所述第一文本特征信息输入所述韵律预测模型,通过所述韵律预测模型对所述文本信息进行韵律预测,以生成所述文本信息的候选韵律特征信息集合。
4.如权利要求1-3任一项所述的语音数据的韵律标注方法,其特征在于,所述第一文本特征信息包括词性和词面,所述第二文本特征信息包括声韵母和声调,所述目标韵律特征信息包括韵律停顿等级。
5.一种语音数据的韵律标注装置,其特征在于,包括:
获取模块,用于获取待标注语音数据的文本信息;
第一提取模块,用于提取所述文本信息的第一文本特征信息和第二文本特征信息;
第二提取模块,用于提取所述待标注语音数据的声学特征信息;
第一生成模块,用于根据所述第一文本特征信息和韵律预测模型生成所述文本信息的候选韵律特征信息集合,其中,所述候选韵律特征信息集合包含N个候选韵律特征信息,N为大于1的正整数;
第二生成模块,用于基于所述N个候选韵律特征信息、所述第二文本特征信息和声学预测模型生成所述文本信息的N个候选声学特征信息,其中,所述N个候选声学特征信息与所述N个候选韵律特征信息相对应;
计算模块,用于分别计算每个候选声学特征信息与所述声学特征信息之间的相关值;
确定模块,用于根据计算结果确定出最大相关值,并将最大相关值的候选声学特征所对应的候选韵律特征信息作为所述待标注语音数据的目标韵律特征信息;以及
标注模块,用于根据所述目标韵律特征信息对所述待标注语音数据的韵律特征进行标注。
6.如权利要求5所述的语音数据的韵律标注装置,其特征在于,所述第二生成模块,具体用于:
针对每个候选韵律特征信息,将当前候选韵律特征信息和所述第二文本特征信息输入所述声学预测模型,通过所述声学预测模型对所述文本信息进行声学预测,以生成所述文本信息的当前候选声学特征信息。
7.如权利要求5所述的语音数据的韵律标注装置,其特征在于,所述第一生成模块,具体用于:
将所述第一文本特征信息输入所述韵律预测模型,通过所述韵律预测模型对所述文本信息进行韵律预测,以生成所述文本信息的候选韵律特征信息集合。
8.如权利要求5-7任一项所述的语音数据的韵律标注装置,其特征在于,所述第一文本特征信息包括词性和词面,所述第二文本特征信息包括声韵母和声调,所述目标韵律特征信息包括韵律停顿等级。
CN201510967511.5A 2015-12-21 2015-12-21 语音数据的韵律标注方法及装置 Active CN105551481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510967511.5A CN105551481B (zh) 2015-12-21 2015-12-21 语音数据的韵律标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510967511.5A CN105551481B (zh) 2015-12-21 2015-12-21 语音数据的韵律标注方法及装置

Publications (2)

Publication Number Publication Date
CN105551481A CN105551481A (zh) 2016-05-04
CN105551481B true CN105551481B (zh) 2019-05-31

Family

ID=55830631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510967511.5A Active CN105551481B (zh) 2015-12-21 2015-12-21 语音数据的韵律标注方法及装置

Country Status (1)

Country Link
CN (1) CN105551481B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN106652995A (zh) * 2016-12-31 2017-05-10 深圳市优必选科技有限公司 文本语音播报方法及系统
CN106873798B (zh) * 2017-02-16 2021-03-19 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
CN108172211B (zh) * 2017-12-28 2021-02-12 云知声(上海)智能科技有限公司 可调节的波形拼接系统及方法
CN109002433B (zh) * 2018-05-30 2022-04-01 出门问问信息科技有限公司 一种文本生成方法及装置
CN109817205B (zh) * 2018-12-10 2024-03-22 平安科技(深圳)有限公司 基于语义解析的文本确认方法、装置及终端设备
CN109697973B (zh) * 2019-01-22 2024-07-19 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
US11393447B2 (en) * 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
KR102281504B1 (ko) * 2019-09-16 2021-07-26 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
CN110556093B (zh) * 2019-09-17 2021-12-10 浙江同花顺智富软件有限公司 一种语音标注方法及其系统
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN110853613B (zh) * 2019-11-15 2022-04-26 百度在线网络技术(北京)有限公司 韵律停顿等级预测的校正方法、装置、设备和介质
CN113823256A (zh) * 2020-06-19 2021-12-21 微软技术许可有限责任公司 自发式文本到语音(tts)合成
CN112382270A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 语音合成方法、装置、设备以及存储介质
CN113808579B (zh) * 2021-11-22 2022-03-08 中国科学院自动化研究所 生成语音的检测方法、装置、电子设备及存储介质
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924994A (zh) * 2005-08-31 2007-03-07 中国科学院自动化研究所 一种嵌入式语音合成方法及系统
CN1929655A (zh) * 2006-09-28 2007-03-14 中山大学 一种可实现文本与语音转换的手机
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924994A (zh) * 2005-08-31 2007-03-07 中国科学院自动化研究所 一种嵌入式语音合成方法及系统
CN1929655A (zh) * 2006-09-28 2007-03-14 中山大学 一种可实现文本与语音转换的手机
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置

Also Published As

Publication number Publication date
CN105551481A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105551481B (zh) 语音数据的韵律标注方法及装置
CN106601228B (zh) 基于人工智能韵律预测的样本标注方法及装置
CN105244020B (zh) 韵律层级模型训练方法、语音合成方法及装置
Moberg Contributions to Multilingual Low-Footprint TTS System for Hand-Held Devices
CN105355193B (zh) 语音合成方法和装置
CN105185372B (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN104916284B (zh) 用于语音合成系统的韵律与声学联合建模的方法及装置
US11881210B2 (en) Speech synthesis prosody using a BERT model
US10453479B2 (en) Methods for aligning expressive speech utterances with text and systems therefor
KR102139387B1 (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
US20190130894A1 (en) Text-based insertion and replacement in audio narration
Chow et al. A musical approach to speech melody
CN102543081B (zh) 可调控式韵律重估测系统与方法及计算机程序产品
CN104464751B (zh) 发音韵律问题的检测方法及装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换系统
Nakatsu et al. Learning to say it well: Reranking realizations by predicted synthesis quality
Prakash et al. Analysis of inter-pausal units in indian languages and its application to text-to-speech synthesis
Lin et al. Discovering place and manner features: What can be learned from acoustic and articulatory data
Pollet et al. Unit Selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets.
Jacewicz et al. Variability in within-category implementation of stop consonant voicing in American English-speaking children
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
Theobald Audiovisual speech synthesis
Santen et al. Prosodic processing
Monzo et al. Voice quality modelling for expressive speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant