CN108364631A - 一种语音合成方法和装置 - Google Patents

一种语音合成方法和装置 Download PDF

Info

Publication number
CN108364631A
CN108364631A CN201710061669.5A CN201710061669A CN108364631A CN 108364631 A CN108364631 A CN 108364631A CN 201710061669 A CN201710061669 A CN 201710061669A CN 108364631 A CN108364631 A CN 108364631A
Authority
CN
China
Prior art keywords
tone
speech acoustics
neutral
neutral speech
stress position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710061669.5A
Other languages
English (en)
Other versions
CN108364631B (zh
Inventor
孟凡博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710061669.5A priority Critical patent/CN108364631B/zh
Publication of CN108364631A publication Critical patent/CN108364631A/zh
Application granted granted Critical
Publication of CN108364631B publication Critical patent/CN108364631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音合成方法和装置,当获取语音合成请求时,可以根据需合成语音的语言片段所包括的至少一个语义单元,以及通过中性语音声学参数建立的统计模型确定出对应的中性语音声学参数,再根据特定语气的语气特点对确定出的中性语音声学参数进行相应的处理,得到在该特定语气下的特定语气片段。可见,本申请可以不需要预先录制大量特定语气下的语音,就可以根据中性语音声学参数所建立的统计模型和语气特点合成出特定语气片段,降低了语音合成的成本,并且针对任何语气,都可以采用该统计模型和对应的语气特点合成出所需语气的语音片段,大大提高了语音合成方案的适用范围。

Description

一种语音合成方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种语音合成方法和装置。
背景技术
随着计算机技术的发展,很多交互场景中需要数据处理设备直接或间接的与用户进行语音交互,例如电子导航中的语音提示,机器人答题环节中的抢答和语音答复等。
由于机器所发出的语音基本上均为机器合成出的、用于模拟人类语言的语音,这类语音发音冰冷,不带有感情色彩,所以这类语音为用户带来的感受并不好。为了提高交互过程中的用户体验,机器发出的语音需要根据语境等体现出应有的语气。
传统的方式是,针对某一种语气,预先收集大量具有该语气的语料,然后根据这些语料训练出对应该语气的训练模型,当需要合成该语气的语音时,可以通过该训练模型得出。这种传统方式虽然效果不错,但是针对每一种语气,都需要预先录制大量语料,针对不同语气都需要单独训练模型,成本很高,难以普及。
发明内容
为了解决上述技术问题,本发明提供了一种语音合成方法和装置,降低了语音合成的成本,提高了语音合成方案的适用范围。
本发明实施例公开了如下技术方案:
第一方面,本发明所述了提供了一种语音合成方法,所述方法包括:
获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
可选的,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
根据所述标识查找出对应所述特定语气的语气特点;
根据所述语气特点对确定出的中性语音声学参数进行处理。
可选的,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或
根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理,包括以下三种处理方式中任意一种或多种的组合:
提高对应所述重音位置的时长参数;
调整对应所述重音位置的基频参数;
提高对应所述重音位置的频谱参数的能量维。
可选的,还包括:
确定对应所述重音位置的声调;
所述提高对应所述重音位置的时长参数,包括:
根据所述声调将所述对应所述重音位置的时长参数提高对应的比例;
所述调整对应所述重音位置的基频参数,包括:
根据所述声调将对应所述重音位置的基频参数调整对应的比例。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,在所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理之前,还包括:
判断所述语言片段对应所述重音位置的词语是否为轻声词;
若是,则不对所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
第二方面,本发明实施例提供了一种语音合成装置的装置结构图,所述装置包括获取单元、确定单元和合成单元:
所述获取单元,用于获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元。
所述确定单元,用于根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型。
所述合成单元,用于根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
可选的,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述确定单元还用于根据所述标识查找出对应所述特定语气的语气特点;根据所述语气特点对确定出的中性语音声学参数进行处理。
可选的,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述合成单元还用于将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理,所述合成单元用于使用以下三种处理方式中任意一种或多种的组合将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理:
提高对应所述重音位置的时长参数;
调整对应所述重音位置的基频参数;
提高对应所述重音位置的频谱参数的能量维。
可选的,所述合成单元还用于确定对应所述重音位置的声调;根据所述声调将所述对应所述重音位置的时长参数提高对应的比例;根据所述声调将对应所述重音位置的基频参数调整对应的比例。
可选的,还包括判断单元,所述判断单元用于判断所述语言片段对应所述重音位置的词语是否为轻声词;若是,则不触发所述合成单元用于对所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
第三方面,本发明实施例提供了一种用于语音合成的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
可选的,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
根据所述标识查找出对应所述特定语气的语气特点;
根据所述语气特点对确定出的中性语音声学参数进行处理。
可选的,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或
根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理,包括以下三种处理方式中任意一种或多种的组合:
提高对应所述重音位置的时长参数;
调整对应所述重音位置的基频参数;
提高对应所述重音位置的频谱参数的能量维。
可选的,所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令:
确定对应所述重音位置的声调;
所述提高对应所述重音位置的时长参数,包括:
根据所述声调将所述对应所述重音位置的时长参数提高对应的比例;
所述调整对应所述重音位置的基频参数,包括:
根据所述声调将对应所述重音位置的基频参数调整对应的比例。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令:
在所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理之前,判断所述语言片段对应所述重音位置的词语是否为轻声词;
若是,则不对所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
由上述技术方案可以看出,当获取语音合成请求时,可以根据需合成语音的语言片段所包括的至少一个语义单元,以及通过中性语音声学参数建立的统计模型确定出对应的中性语音声学参数,再根据特定语气的语气特点对确定出的中性语音声学参数进行相应的处理,得到在该特定语气下的特定语气片段。可见,本申请可以不需要预先录制大量特定语气下的语音,就可以根据中性语音声学参数所建立的统计模型和语气特点合成出特定语气片段,降低了语音合成的成本,并且针对任何语气,都可以采用该统计模型和对应的语气特点合成出所需语气的语音片段,大大提高了语音合成方案的适用范围。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音合成方法的方法流程图;
图2为本发明实施例提供的一种语音合成装置的装置结构图;
图3为本发明实施例提供的一种用于语音合成的装置的框图;
图4为本发明实施例提供的一种用于语音合成的服务器的框图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。
数据处理设备属于一种具有数据处理功能的智能设备,在数据处理设备与用户交互的场景中,数据处理设备需要根据场景或者对话内容合成出语音播放,以完成与用户的交互,但是,由数据处理设备合成出的语音不具有语气成分,会让交互者(用户)感觉冰冷,导致交互的用户体验不高。故为了提高用户体验,需要将合成的语音中加入语气,以使得这种合成语音能够更为贴近正常人所发出的声音,从而达到提高交互中的用户体验的效果。
传统的方式中,针对一个语言片段,若想要合成具有特定语气(例如疑问、抢答、高兴、悲伤等)的语音,需要录制大量具有特定语气的录音,然后通过一种特定语气的录音训练出训练模型,这样在需要合成这种特定语气的语音时,可以将该语言片段输入该训练模型从而输出具有这种特定语气的语音。虽然传统方式的效果不错,但是针对每一种语气,都需要预先录制大量语料,针对不同语气都需要单独训练模型,成本很高,难以普及。
为此,本发明实施例提供了一种语音合成方法和装置,当获取语音合成请求时,可以根据需合成语音的语言片段所包括的至少一个语义单元,以及通过中性语音声学参数建立的统计模型确定出对应的中性语音声学参数,再根据特定语气的语气特点对确定出的中性语音声学参数进行相应的处理,得到在该特定语气下的特定语气片段。可见,本申请可以不需要预先录制大量特定语气下的语音,就可以根据中性语音声学参数所建立的统计模型和语气特点合成出特定语气片段,降低了语音合成的成本,并且针对任何语气,都可以采用该统计模型和对应的语气特点合成出所需语气的语音片段,大大提高了语音合成方案的适用范围。
本发明的实施例可以应用于数据处理设备,这里的数据处理设备可以是具有数据处理功能的智能设备,并可以直接或间接的与用户进行交互,例如可以是移动终端、机器人等,也可以是后台的服务器等,当数据处理设备为服务器这种不具有直接与用户进行交互的设备时,与用户进行交互的设备可以与该服务器数据连接,并通过与服务器的数据交互实现与用户的交互。
在本发明实施例中,需要使用用于合成语音的统计模型,该统计模型是通过对预先收集的中性语音声学参数训练得到的,中性语音声学参数可以理解为不具有语气的语音声学参数,通过对这类中性语音声学参数进行训练,可以建立得到该统计模型,如何通过中性语音训练一个统计模型本发明并不进行限定,例如可以通过基于隐马尔可夫模型(Hidden Markov Model,HMM)训练得出,也可以是通过神经网络模型训练得出。该统计模型可以设置在数据处理设备中,也可以设置在其他服务器中,当该统计模型设置在数据处理设备中时,数据处理设备可以在语音合成时直接使用该统计模型,当该统计模型设置在其他服务器中时,数据处理设备可以在语音合成时从其他服务器调用该统计模型。
结合该统计模型还可以设置特定语气的语气特点,特定语气可以为任意一种可定义的语气,例如上述提到的疑问、抢答、高兴、悲伤等。该语气特点可以用于体现该特定语气相对于中性语音的发音特点,例如抢答这一语气的语气特点是抢答时的发音会比较急促,在特别的发音位置会有重音等。例如若一个数据处理设备中设置有统计模型,还可以根据计算需求设置至少一个特定语气的语气特点,不同的特定语气具有不同的语气特点,在合成不同语气的语音时会使用对应的语气特点。语气特点可以是预先获取的,获取的方式可以是通过分析同一个特定语气下的语音声学参数得到。通过引入语气特点这一概念,针对一个待合成语音的语言片段,可以通过由中性语音声学参数建立的统计模型合成出不同语气下的语音。
接下来说明数据处理设备如何利用统计模型和语气特点来合成特定语气下的语音。请参见图1,图1为本发明实施例提供的一种语音合成方法的方法流程图,所述方法包括:
S101:获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元。
举例说明,该语音合成请求可以是根据交互场景实时生成的,也可以是根据计算需求生成的,通过该语音合成请求可以明确需要为该语言片段合成具有语气的语音。该语言片段可以包括至少一个语义单元,在所合成的语音中,这至少一个语义单元将均以合成的语气发音。
语义单元可以是中文,也可以是其他语言,根据不同的划分精度或者采集精度,一个语义单元可以包括一个字、一个词或者一个短语,甚至一个完整的句子。
S102:根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型。
由于该统计模型是根据中性语音声学参数所建立的,故可以根据该统计模型确定出语义单元对应的中性语音声学参数。而且,当该统计模型具体为通过HMM训练得出时,该统计模型中可以包括语义单元和中性语音声学参数之间的对应关系,故可以通过该对应关系从该统计模型中查找到该语言片段中的语义单元所对应的中性语音声学参数。相应的,根据用于训练该统计模型的中性语音声学参数的数量多寡,一个语义单元可以相应的具有一个或多个对应的中性语音声学参数。
S103:根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
由于该语音合成请求希望能够合成出具有特定语气的语气特点的语音片段,故可以根据特定语气的语气特点对确定出的中性语音声学参数进行处理。本发明实施例并不限定如何确定合成出具有哪一种特定语气的语音片段,例如该特定语气可以是随机选择的,或者该特定语气是唯一配置在数据处理设备或者其他服务器上的,或者该特定语气也可以是由语音合成请求所指定的。
在该特定语气是由语音合成请求所指定的情况下,可选的,该语音合成请求为针对所述特定语气的语音合成请求,该语音合成请求中携带所述特定语气的标识,相应的,数据处理设备或其他服务器上也可以保存不同语气的标识,由此可以通过该语音合成请求中携带的标识明确所需合成语音所要表达的语气特定为该特定语气的语气特点。
该语气特定标识了该特定语气相对于中性语音的发音特点,故可以根据该语气特点对对应的中性语音声学参数进行相应的处理,以希望将该中性语音声学参数处理得出能够体现出该语气特点的声学参数。通过对中性语音声学参数处理后,可以根据处理后的中性语音声学参数进行合成,以得出该语音片段所对应的特定语气片段。由于语义单元在该语言片段中的位置是明确的,故可以确定出如何对查找出的中性语音声学参数进行参数合成,针对处理后的中性语音声学参数的参数合成方式也是同理。
合成得到的特定语气片段为能够体现出该特定语气特点的语音片段。以特定语气为抢答为例,由于抢答的语气特点为发音比较急促,在特别的发音位置有重音,故该特定语气片段相比于原来的中性语音片段时长参数较低,并可以在特定位置的重音发音以体现出抢答这一语气的特点。从而用户在听到这段特定语气片段时,可以从发音特点中感受到抢答这一语气,如果这段语音是在抢答环节中播出,抢答的语气可以明显提高交互的感受。
可见,当获取语音合成请求时,可以根据需合成语音的语言片段所包括的至少一个语义单元,以及通过中性语音声学参数建立的统计模型确定出对应的中性语音声学参数,再根据特定语气的语气特点对确定出的中性语音声学参数进行相应的处理,得到在该特定语气下的特定语气片段。本申请可以不需要预先录制大量特定语气下的语音,就可以根据中性语音声学参数所建立的统计模型和语气特点合成出特定语气片段,降低了语音合成的成本,并且针对任何语气,都可以采用该统计模型和对应的语气特点合成出所需语气的语音片段,大大提高了语音合成方案的适用范围。
接下来针对如何对中性语音片段进行处理以达到体现特定语气的语气特点这一处理环节进行详细的说明。
语气特点用于标识特定语气的发音特色,是属于听众可以识别出的特征。该发音特色可以通过时长参数和/或重音位置来体现,故语气特点可以包括特定语气的时长范围和/或重音位置,这里的时长范围用于体现相对于中性语音来说发音速度的快慢程度的范围,例如抢答语气下的语音声学参数的时长参数一般可以是中性语音时长参数的0.6倍左右,处于较低时长范围的时长参数用于标识较快的发音速度。重音位置用于体现在特定语气下,一个语言片段的发音相对于中性语音的发音,会在某个或某些位置加重发音,例如在一个语言片段的末尾加重发音。一个特定语气的发音特点可以只需要通过时长范围即可体现出,也可以只需要通过重音位置即可体现出,也可以通过时长范围和重要位置来体现。
在明确了特定语气的语气特点后,则根据特定语气的语气特点,对确定出的中性语音声学参数进行处理可以具体包括:
将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或
根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
可见,如何对中性语音声学参数进行语气处理可以根据语气特点所体现的特征来实施,若语气特点只包括时长范围,则可以将中性语音片段的时长参数调整到该时长范围即可,若语气特点只包括重音位置,则可以将中性语音片段对应的位置进行重音处理即可,若语气特点包括时长范围和重音位置,则需要即调整时长参数也进行重音处理。
以语气特点包括时长范围和重音位置为例,根据语气特点对中性语音片段处理后,所得到的特定语气片段的时长参数和重音位置将与该语气特点相符,从而能够体现出该语气特点所标识的特定语气,听众在听到这段特定语气片段时,可以通过时长参数和重音的特点,感受到这段语音是在该特定语气下发音的。
在对中性语音声学参数中对应重音位置的进行重音处理之前,还可以考虑该语言片段中处于该重音位置的词语是否可以被重音处理,或者说,进行重音处理是否符合发音规则,例如,人在对轻声词发音时,很多语气下一般不会加重发音。
如果对重音处理不符合发音规则的词的语音进行重音处理,所得到的特定语音片段可能不符合正常发音,反而导致用户体验降低,故可以在进行重音处理之前,判断该语言片段对应该重音位置的词语是否为轻声词;若是,则不对该确定出的中性语音声学参数中对应该重音位置的中性语音声学参数进行重音处理。
需要注意的是,重音位置可以不止一处,若判断出该语言片段中对应一处重音位置的词语为轻声词,则只对这一处重音位置的中性语音声学参数不进行重音处理,而针对其他处重音位置的词语所对应的语音依然进行重音处理。
可见,通过对语言片段的轻声词判断,使得重音处理更符合正常的发音规则,避免了在特定语音片段中出现不符合发音规则的重音,提高了交互时的用户体验。
在根据重音位置,将中性语音声学参数中对应重音位置的进行重音处理时,可以采用不同的重音处理方式,本发明实施例所提供的重音处理方式至少包括以下三种处理方式中任意一种或多种的组合:
第一种处理方式是提高对应所述重音位置的时长参数。
由于加重对一个词的发音是希望起到强调该词的作用,故加重发音时会对发音的时长参数有一定的提高,也就是发音会相对较慢。在合成语音时,对需要重音处理的中性语音声学参数可以以此作为调整的依据。
由于发音的音调可以包括阴平(一声)、阳平(二声)、上声(三声)和去声(四声),针对不同的音调,提高的比例也会有所不同,故在进行重音处理前,可以先确定对应重音位置的中性语音声学参数所标识的声调是什么,然后再根据确定出的声调将所述对应所述重音位置的中性语音声学参数的时长参数提高对应的比例。例如针对阳平,提高的比例可以更多一些,如提高时长参数60%;针对去声,提高的比例可以更少一些,如提高时长参数10%;针对阴平和上声,提高的比例可以较为适中,如提高时长参数30%。
第二种处理方式是调整对应所述重音位置的基频参数。
基频参数可以理解为一种声学参数,调整一个中性语音声学参数的基频参数相当于调整这个中性语音声学参数对应音的音高,当需要对一个词的发音加重时,会在一定程度上提高或者降低这个词所对应语音的音高,也就是基频参数。在合成语音时,对需要重音处理的中性语音声学参数可以以此作为调整的依据。
针对中性语音声学参数所标识的不同的音调,基频参数调整的比例也会有所不同,故在进行重音处理前,可以先确定对应重音位置的中性语音声学参数所标识的声调是什么,然后再根据确定出的声调将所述对应所述重音位置的中性语音声学参数的基频参数调整对应的比例。例如针对阳平和阴平,可以提高基频参数10%;针对上声,可以降低基频参数10%;针对去声,可以将基频参数的上限提高10%,下限降低10%。
第三种处理方式是提高对应所述重音位置的频谱参数的能量维。若希望加重一个词的发音,最直接的也是最普遍的方式就是提高这个发音的音量。而频谱参数可以理解为一种声学参数,合成用的频谱参数一般可以是MGC或者LSP,都是第一个维为能量维,在不同的计数方式下,能量维可以是第0维或者第1维,能量维决定了合成语音的音量,故可以通过调整频谱参数的能量维来调整音量。在合成语音时,对需要重音处理的中性语音声学参数可以以此作为调整的依据。例如,将希望加重的频谱参数的能量维提高40%。
若特定语气中具有在特定位置的重音发音的语气特点,那么通过对重音位置的频谱参数的能量维的提高,可以有效的模拟该特定语气,以提高交互时的用户体验。
图2为本发明实施例提供的一种语音合成装置的装置结构图,所述装置包括获取单元201、确定单元202和合成单元203:
所述获取单元201,用于获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元。
所述确定单元202,用于根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型。
所述合成单元203,用于根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
可见,当获取语音合成请求时,可以根据需合成语音的语言片段所包括的至少一个语义单元,以及通过中性语音声学参数建立的统计模型确定出对应的中性语音声学参数,再根据特定语气的语气特点对确定出的中性语音声学参数进行相应的处理,得到在该特定语气下的特定语气片段。可见,本申请可以不需要预先录制大量特定语气下的语音,就可以根据中性语音声学参数所建立的统计模型和语气特点合成出特定语气片段,降低了语音合成的成本,并且针对任何语气,都可以采用该统计模型和对应的语气特点合成出所需语气的语音片段,大大提高了语音合成方案的适用范围。
可选的,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述确定单元还用于根据所述标识查找出对应所述特定语气的语气特点;根据所述语气特点对确定出的中性语音声学参数进行处理。
可选的,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述合成单元还用于将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
可选的,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理,所述合成单元用于使用以下三种处理方式中任意一种或多种的组合将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理:
提高对应所述重音位置的时长参数;
调整对应所述重音位置的基频参数;
提高对应所述重音位置的频谱参数的能量维。
可选的,所述合成单元还用于确定对应所述重音位置的声调;根据所述声调将所述对应所述重音位置的时长参数提高对应的比例;根据所述声调将对应所述重音位置的基频参数调整对应的比例。
可选的,还包括判断单元,所述判断单元用于判断所述语言片段对应所述重音位置的词语是否为轻声词;若是,则不触发所述合成单元用于对所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于语音合成的装置300的框图。例如,装置300可以是机器人,移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件303和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当装置300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到装置300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种语音合成方法,所述方法包括:
获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源424,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘454,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
2.根据权利要求1所述的方法,其特征在于,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
根据所述标识查找出对应所述特定语气的语气特点;
根据所述语气特点对确定出的中性语音声学参数进行处理。
3.根据权利要求1或2所述的方法,其特征在于,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,包括:
将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或
根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
4.根据权利要求3所述的方法,其特征在于,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理,包括以下三种处理方式中任意一种或多种的组合:
提高对应所述重音位置的时长参数;
调整对应所述重音位置的基频参数;
提高对应所述重音位置的频谱参数的能量维。
5.根据权利要求4所述的方法,其特征在于,还包括:
确定对应所述重音位置的声调;
所述提高对应所述重音位置的时长参数,包括:
根据所述声调将所述对应所述重音位置的时长参数提高对应的比例;
所述调整对应所述重音位置的基频参数,包括:
根据所述声调将对应所述重音位置的基频参数调整对应的比例。
6.根据权利要求3所述的方法,其特征在于,当所述根据特定语气的语气特点,对确定出的中性语音声学参数进行处理包括根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理时,在所述根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理之前,还包括:
判断所述语言片段对应所述重音位置的词语是否为轻声词;
若是,则不对所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
7.一种语音合成装置,其特征在于,所述装置包括获取单元、确定单元和合成单元:
所述获取单元,用于获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
所述确定单元,用于根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
所述合成单元,用于根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
8.根据权利要求7所述的装置,其特征在于,所述语音合成请求为针对所述特定语气的语音合成请求,所述语音合成请求中携带所述特定语气的标识,所述确定单元还用于根据所述标识查找出对应所述特定语气的语气特点;根据所述语气特点对确定出的中性语音声学参数进行处理。
9.根据权利要求7或8所述的装置,其特征在于,所述语气特点包括所述特定语气的时长范围和/或重音位置,所述合成单元还用于将所述确定出的中性语音声学参数的时长参数调整到所述时长范围内;和/或根据所述重音位置,将所述确定出的中性语音声学参数中对应所述重音位置的中性语音声学参数进行重音处理。
10.一种用于语音合成的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音合成请求,所述语音合成请求携带待合成语音的语言片段,所述语言片段包括至少一个语义单元;
根据所述至少一个语义单元,通过统计模型确定出对应的中性语音声学参数,所述统计模型为根据中性语音声学参数建立的、用于合成语音的模型;
根据特定语气的语气特点,对确定出的中性语音声学参数进行处理,并合成出所述语言片段对应的特定语气片段,所述特定语气片段为具有所述语气特点的语音片段。
CN201710061669.5A 2017-01-26 2017-01-26 一种语音合成方法和装置 Active CN108364631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710061669.5A CN108364631B (zh) 2017-01-26 2017-01-26 一种语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710061669.5A CN108364631B (zh) 2017-01-26 2017-01-26 一种语音合成方法和装置

Publications (2)

Publication Number Publication Date
CN108364631A true CN108364631A (zh) 2018-08-03
CN108364631B CN108364631B (zh) 2021-01-22

Family

ID=63011401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710061669.5A Active CN108364631B (zh) 2017-01-26 2017-01-26 一种语音合成方法和装置

Country Status (1)

Country Link
CN (1) CN108364631B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285536A (zh) * 2018-11-23 2019-01-29 北京羽扇智信息科技有限公司 一种语音特效合成方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101176146A (zh) * 2005-05-18 2008-05-07 松下电器产业株式会社 声音合成装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
CN105139848A (zh) * 2015-07-23 2015-12-09 小米科技有限责任公司 数据转换方法和装置
US20160078859A1 (en) * 2014-09-11 2016-03-17 Microsoft Corporation Text-to-speech with emotional content
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
CN106531150A (zh) * 2016-12-23 2017-03-22 上海语知义信息技术有限公司 一种基于深度神经网络模型的情感合成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101176146A (zh) * 2005-05-18 2008-05-07 松下电器产业株式会社 声音合成装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
US20160078859A1 (en) * 2014-09-11 2016-03-17 Microsoft Corporation Text-to-speech with emotional content
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
CN105139848A (zh) * 2015-07-23 2015-12-09 小米科技有限责任公司 数据转换方法和装置
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法
CN106531150A (zh) * 2016-12-23 2017-03-22 上海语知义信息技术有限公司 一种基于深度神经网络模型的情感合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓丽: "高表现力语音声学建模的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285536A (zh) * 2018-11-23 2019-01-29 北京羽扇智信息科技有限公司 一种语音特效合成方法、装置、电子设备及存储介质
CN109285536B (zh) * 2018-11-23 2022-05-13 出门问问创新科技有限公司 一种语音特效合成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108364631B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN109801644B (zh) 混合声音信号的分离方法、装置、电子设备和可读介质
CN105451111B (zh) 耳机播放控制方法、装置及终端
CN108346433A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN111508511A (zh) 实时变声方法及装置
CN107978316A (zh) 控制终端的方法及装置
CN107705783A (zh) 一种语音合成方法及装置
CN111583944A (zh) 变声方法及装置
CN104991754B (zh) 录音方法及装置
CN108198569A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN110097890A (zh) 一种语音处理方法、装置和用于语音处理的装置
CN107992485A (zh) 一种同声传译方法及装置
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
CN110210310A (zh) 一种视频处理方法、装置和用于视频处理的装置
CN113409764B (zh) 一种语音合成方法、装置和用于语音合成的装置
CN107909995B (zh) 语音交互方法和装置
CN109360549A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN108073572A (zh) 信息处理方法及其装置、同声翻译系统
CN108364635A (zh) 一种语音识别的方法和装置
CN115273831A (zh) 语音转换模型训练方法、语音转换方法和装置
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
CN108648754A (zh) 语音控制方法及装置
CN109036404A (zh) 语音交互方法及装置
CN109670025A (zh) 对话管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant