CN105096934B - 构建语音特征库的方法、语音合成方法、装置及设备 - Google Patents
构建语音特征库的方法、语音合成方法、装置及设备 Download PDFInfo
- Publication number
- CN105096934B CN105096934B CN201510375429.3A CN201510375429A CN105096934B CN 105096934 B CN105096934 B CN 105096934B CN 201510375429 A CN201510375429 A CN 201510375429A CN 105096934 B CN105096934 B CN 105096934B
- Authority
- CN
- China
- Prior art keywords
- text information
- feature
- language
- context
- phonetic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 61
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004321 preservation Methods 0.000 claims description 6
- 206010025482 malaise Diseases 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 206010034719 Personality change Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种构建语音特征库的方法、语音合成方法、装置及设备。该语音合成方法所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种构建语音特征库的方法、语音合成方法、装置及设备。
背景技术
个性化的语音会给受众留下深刻的印象。例如,配音员为影视剧中的角色配音,通过配音员个性化的语音征服观众。但目前,无论是影视剧配音、演唱等等都需要人亲自完成。由于人的生老病死,会导致个性化语音消失。
如何实现个性化语音的使用不受限于人的生老病死,是目前需要解决的问题。
发明内容
本发明解决的技术问题之一是创建个性化的语音特征库,以便能够据此实现个性化的语音合成,使得个性化语音的使用不受限于人的生老病死。
根据本发明第一方面的一个实施例,提供了一种构建语音特征库的方法,包括:
将对象的录音转换为个性化的文本信息;
分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息;
在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征,每条文语特征指示对应的一个语境和一条文本信息;
对所述录音进行音频采样,得到音频采样值;
在所述对象的语音特征库中保存音频特征,音频特征指示了音频采样值。
根据本发明另一方面第二方面的一个实施例,提供了一种构建语音特征库的装置,包括:
将对象的录音转换为个性化的文本信息的装置;
分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置;
在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置,每条文语特征指示对应的一个语境和一条文本信息;
对所述录音进行音频采样,得到音频采样值的装置;
在所述对象的语音特征库中保存音频特征的装置,音频特征指示了音频采样值。
根据本发明的第三方面的一个实施例,还提供了一种计算机设备,包括前述构建语音特征库的装置。
由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时,针对每条个性化的文本信息,确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
本发明解决的技术问题之二是进行个性化的语音合成,使得个性化语音的使用不受限于人的生老病死。
根据本发明第四方面的一个实施例,提供了一种语音合成方法,包括:
分析得到待进行语音合成的文本信息的语境;
生成所述待进行语音合成的文本信息对应的文语特征,指示所述待进行语音合成的文本信息及其语境;
在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息;
根据查找到的文语特征指示的语境,所述文语特征对应的个性化的文本信息,和所述语音特征库中保存的音频特征,进行语音合成,所述音频特征指示音频采样值。
根据本发明第五方面的一个实施例,提供了一种语音合成装置,包括:
语境分析装置,被配置为分析得到待进行语音合成的文本信息的语境;
文语特征生成装置,被配置为生成所述待进行语音合成的文本信息对应的文语特征,指示所述待进行语音合成的文本信息及其语境;
文语特征匹配装置,用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息;
语音合成装置,被配置为根据查找到的文语特征指示的语境,所述文语特征对应的个性化的文本信息,和所述语音特征库中保存的音频特征,进行语音合成,所述音频特征指示音频采样值。
根据本发明的第六方面的一个实施例,还提供了一种计算机设备,包括前述语音合成装置。
由于本发明所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明一个实施例的构建语音特征库的方法的流程图。
图2是根据本发明另一个实施例的构建语音特征库的装置的框图。
图3是根据本发明一个实施例的语音合成方法的流程图。
图4是根据本发明另一个实施例的语音合成装置的框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的构建语音特征库的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为构建语音特征库的装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1所示,本发明一个实施例提供的构建语音特征库的方法具体包括如下操作:
步骤100、将对象的录音转换为个性化的文本信息。
其中,通过语音识别技术,将对象的一段录音识别为对应的文本信息,本发明中称为个性化的文本信息。
其中,一段录音识别为对应的文本信息后,可以按照预定规则截取成多条文本信息。
例如,一段录音识别得到的文本信息为“曾经有一份真挚的爱情放在我面前我没有珍惜等我失去的时候才追悔莫及人世间最痛苦的事莫过于此”。从这段文本信息中,可以截取出“曾经有一份真挚的爱情放在我面前”,“曾经有一份真挚的爱情”,“放在我面前”,“我没有珍惜”,“等我失去的时候才追悔莫及”,“追悔莫及”,“人世间最痛苦的事莫过于此”,“人世间最痛苦的事”,“莫过于此”等等。
步骤110、分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息。
其中,分析的具体方式有多种,例如可以通过大数据技术分析语境和语义。
其中,一条个性化的文本信息可能对应一个语境,也可能对应多个语境。
其中,一条个性化的文本信息对应一个语义,但该语义有多种表达方式,也就对应多个文本信息。例如,个性化的文本信息是“我没有珍惜”,与其相同语义的其他文本信息可以是“我不珍惜”,“我没能珍惜”,“偶没有珍惜”等等。
步骤120、在上述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征,每条文语特征指示对应的一个语境和一条文本信息。
例如,对“我没有珍惜”这条个性化的文本信息分析得到有两个语境:陈述,后悔。“我没有珍惜”这条个性化的文本信息分析得到有相同语义的三条文本信息:“我不珍惜”,“我没能珍惜”,“偶没有珍惜”。那么,“我没有珍惜”这条个性化的文本信息对应有8条文语特征,其中包括指示“我没有珍惜”这一个性化的文本信息的文语特征。
本发明中,文语特征的内容可以是其指示的语境和文本信息,也可以是其指示的语境和文本信息的标识信息,还可以是其指示的语境和文本信息存储位置的指针,等等。
步骤130、对上述录音进行音频采样,得到音频采样值。
其中,具体是对上述录音进行元音、辅音、音调等反映语音习惯特点的音频信息进行采样。
其中,可以针对上述录音的每条个性化的文本信息,分别得到一组对应的音频采样值。
步骤140、在上述对象的语音特征库中保存音频特征,音频特征指示了音频采样值。
本发明中,音频特征的内容可以是其指示的音频采样值,也可以是其指示的音频采样值的标识信息,还可以是其指示的音频采样值存储位置的指针,等等。
由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时,针对每条个性化的文本信息,确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
上述本发明实施例中,为了便于语音特征库的管理与查找,还可以保存有语音特征,每条个性化的文本信息对应的语音特征指示一条文语特征和一条音频特征。相应的,还在上述语音特征库中保存每条个性化的文本信息对应的语音特征,每条语音特征指示一条文语特征和一条音频特征。
例如,“我没有珍惜”这条个性化的文本信息对应有如上所述的8条文语特征,并且对应有一个音频特征,那么,在对象的语音特征库中保存有这条个性化的文本信息对应的8条语音特征,每个语音特征指示这条个性化的文本信息对应的一条文语特征及其对应的音频特征。
基于上述任意方法实施例,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。
例如,“我没有珍惜”这条个性化的文本信息对应的一条文语特征指示的语境是“陈述”,指示的文本信息是“我没有珍惜”,这条文本特征还指示了“陈述”这一语境和“我没有珍惜”这一文本信息分别在这条文语特征中的权重。
本发明中,初始权重的取值可以是预设的,例如,在生成一条文语特征时,为其指示的语境和文本特征设置权重分别为0.5。
在此基础上,上述步骤120的具体实现方式可以是:
生成每条个性化的文本信息对应的文语特征,并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重;
如果在上述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同,但在文语特征中的权重不同,将权重按照预定规则合并。
例如,生成的一条文语特征指示的语境是“陈述”,其权重是0.5,文本信息是“我没有珍惜”,其权重是0.5。上述对象的语音特征库中保存有一条文语特征指示的语境是“陈述”,其权重是0.4,文本信息是“我没有珍惜”,其权重是0.6,那么,按照预定规则(例如求平均值)合并权重后保存,即将保存的该条文语特征指示的语境的权重修改为0.45,文本信息的权重修改为0.55。
如果语音特征库中保存的文语特征中没有与生成的文语特征指示的语境和文本信息均相同的,则将生成的文语特征直接保存到语音特征库中。
基于上述任意方法实施例,其中,上述步骤140的具体实现方式可以是:如果在上述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
例如,“我没有珍惜”这一个性化的文本信息对应的音频采样值与语音特征库中保存的一组音频特征值的差值在预定范围内,则将这两组音频特征值按照预定规则合并(例如取均值)后替换掉原来保存的这组音频特征值。
如果在上述对象的语音特征库中没有保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,直接将采样得到的音频采样值保存的语音特征库中。
基于与上述方法相同的发明构思,本发明的实施例还提供一种构建语音特征库的装置。
图2是根据本发明的另一个实施例的构建语音特征库的装置的示意图,下简称构建装置。
如图2所示,构建装置包括:用于将对象的录音转换为个性化的文本信息的装置(下文简称为“文本信息转换装置”)201;用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置(下文简称为“文本信息分析装置”)202;用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置(下文简称为“文语特征保存装置”)203;用于对所述录音进行音频采样,得到音频采样值的装置(下文简称“音频采样装置”)204;被配置为在所述对象的语音特征库中保存音频特征的装置(下文简称“音频特征保存装置”)205,音频特征指示了音频采样值。
由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时,针对每条个性化的文本信息,确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
可选地,还包括在所述语音特征库中保存每条个性化的文本信息对应的语音特征的装置(下文简称为“语音特征保存装置”),每条语音特征指示一条文语特征和一条音频特征。
可选地,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。
可选地,所述文语特征保存装置具体被配置为:
生成每条个性化的文本信息对应的文语特征,并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重;
如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同,但在文语特征中的权重不同,将权重按照预定规则合并。
可选地,所述音频特征保存装置具体被配置为:如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
根据本发明又一个实施例的计算机设备,包括上述任一个实施例的构建语音特征库的装置。
按照上述方法创建的对象的语音特征库,至少包括:
个性化的文本信息,与其关联的文语特征,和音频特征。
其中,文语特征指示了其对应的个性化的文本信息的一个语境和一个相同语义的文本信息。可选的,还只是语境和文本信息的权重。
其中,音频特征指示了音频采样值。
可选的,还包括文语特征。
基于上述语音特征库,图3为本发明另一个实施例提供的语音合成方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为语音合成装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图3所示,本发明实施例提供的一种语音合成方法具体包括如下操作:
步骤300、分析得到待进行语音合成的文本信息的语境。
其中,分析的具体方式有多种,例如可以通过大数据技术分析语境。
步骤310、生成该待进行语音合成的文本信息对应的文语特征,指示该待进行语音合成的文本信息及其语境。
其具体实现方式可以参照上述方法实施例的描述,重复之处不再赘述。
其中,每条文语特征还可以指示对应的语境和文本信息在本条文语特征中的权重。其具体实现方式可以参照上述方法实施例的描述此处不再赘述。
如果文语特征还指示对应的语境和文本信息在本条文语特征中的权重,步骤310中,可以通过配置不同的权重,为待进行语音合成的文本信息生成一组对应的文语特征,这组文语特征指示相同的语境和文本信息,区别在于语境和文本信息的权重不同。
步骤320、在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,该语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息。
其中,如果语音特征库中保存有语音特征,则根据语音特征库中保存的语音特征,查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征。具体的,查找每条语音特征,根据语音特征的指示查找到对应的文语特征,再将查找到的文语特征与待进行语音合成的文本信息对应的文语特征进行比较,从而判断是否匹配。
其中,如果文语特征不指示权重,则文语特征匹配是指语境和文本信息均相同。如果文语特征指示了权重,则文语特征匹配是指语境和文本信息均相同,且在文本特征中的权重最接近。
步骤330、根据查找到的文语特征指示的语境,该文语特征对应的个性化的文本信息,和该语音特征库中保存的音频特征,进行语音合成,所述音频特征指示音频采样值。
基于与上述方法相同的发明构思,本发明的实施例还提供一种语音合成装置。
图4是根据本发明的另一个实施例的语音合成装置的示意图,包括:分析得到待进行语音合成的文本信息的语境的装置(下文简称“语境分析装置”)401;
生成所述待进行语音合成的文本信息对应的文语特征的装置(下文简称“文语特征生成装置”)402,指示所述待进行语音合成的文本信息及其语境;
用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置(下文简称“文语特征匹配装置”)403,,所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息;
根据查找到的文语特征指示的语境,所述文语特征对应的个性化的文本信息,和所述语音特征库中保存的音频特征,进行语音合成的装置(下文简称“语音合成装置”)404,所述音频特征指示音频采样值。
由于本发明所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
可选地,所述文语特征匹配装置具体被配置为:
根据语音特征库中保存的语音特征,查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,每条语音特征指示一条文语特征和一条音频特征。
可选地,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重;
与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同,且在文本特征中的权重最接近。
根据本发明又一个实施例的计算机设备,包括上述任一个实施例的语音合成装置。
所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (16)
1.一种构建语音特征库的方法,包括:
将对象的录音转换为个性化的文本信息;
分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息;
在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征,每条文语特征指示对应的一个语境和一条文本信息;
对所述录音进行音频采样,得到音频采样值;
在所述对象的语音特征库中保存音频特征,音频特征指示了音频采样值;其中,如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
2.根据权利要求1所述的方法,该方法还包括:
在所述语音特征库中保存每条个性化的文本信息对应的语音特征,每条语音特征指示一条文语特征和一条音频特征。
3.根据权利要求1或2所述的方法,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。
4.根据权利要求3所述的方法,其中,所述在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的步骤包括:
生成每条个性化的文本信息对应的文语特征,并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重;
如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同,但在文语特征中的权重不同,将权重按照预定规则合并。
5.一种语音合成方法,包括:
分析得到待进行语音合成的文本信息的语境;
生成所述待进行语音合成的文本信息对应的文语特征,指示所述待进行语音合成的文本信息及其语境;
在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息;
根据查找到的文语特征指示的语境,所述文语特征对应的个性化的文本信息,和所述语音特征库中保存的音频特征,进行语音合成,所述音频特征指示音频采样值;其中,所述音频特征的获取方式包括:如果在所述语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
6.根据权利要求5所述的语音合成方法,在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,包括:
根据语音特征库中保存的语音特征,查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,每条语音特征指示一条文语特征和一条音频特征。
7.根据权利要求5或6所述的语音合成方法,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重;
与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同,且在文本特征中的权重最接近。
8.一种构建语音特征库的装置,包括:
用于将对象的录音转换为个性化的文本信息的装置;
用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置;
用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置,每条文语特征指示对应的一个语境和一条文本信息;
用于对所述录音进行音频采样,得到音频采样值的装置;
用于在所述对象的语音特征库中保存音频特征的装置,音频特征指示了音频采样值;其中,如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
9.根据权利要求8所述的装置,还包括用于在所述语音特征库中保存每条个性化的文本信息对应的语音特征的装置,每条语音特征指示一条文语特征和一条音频特征。
10.根据权利要求8或9所述的装置,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。
11.根据权利要求10所述的装置,所述用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置具体被配置为:
生成每条个性化的文本信息对应的文语特征,并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重;
如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同,但在文语特征中的权重不同,将权重按照预定规则合并。
12.一种计算机设备,包括权利要求8-11中任一个的构建语音特征库的装置。
13.一种语音合成装置,包括:
用于分析得到待进行语音合成的文本信息的语境的装置;
用于生成所述待进行语音合成的文本信息对应的文语特征以指示所述待进行语音合成的文本信息及其语境的装置;
用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置,所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息;
用于根据查找到的文语特征指示的语境,所述文语特征对应的个性化的文本信息,和所述语音特征库中保存的音频特征,进行语音合成的装置,所述音频特征指示音频采样值;其中,所述音频特征的获取方式包括:如果在所述语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内,将音频采样值合并。
14.根据权利要求13所述的语音合成装置,所述用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置具体被配置为:
根据语音特征库中保存的语音特征,查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征,每条语音特征指示一条文语特征和一条音频特征。
15.根据权利要求13或14所述的语音合成装置,其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重;
与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同,且在文本特征中的权重最接近。
16.一种计算机设备,包括根据权利要求13-15中任一个的语音合成装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510375429.3A CN105096934B (zh) | 2015-06-30 | 2015-06-30 | 构建语音特征库的方法、语音合成方法、装置及设备 |
EP15199507.3A EP3113174A1 (en) | 2015-06-30 | 2015-12-11 | Method for building a speech feature library, method, apparatus, and device for speech synthesis |
US14/966,144 US9697819B2 (en) | 2015-06-30 | 2015-12-11 | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510375429.3A CN105096934B (zh) | 2015-06-30 | 2015-06-30 | 构建语音特征库的方法、语音合成方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105096934A CN105096934A (zh) | 2015-11-25 |
CN105096934B true CN105096934B (zh) | 2019-02-12 |
Family
ID=54577221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510375429.3A Active CN105096934B (zh) | 2015-06-30 | 2015-06-30 | 构建语音特征库的方法、语音合成方法、装置及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9697819B2 (zh) |
EP (1) | EP3113174A1 (zh) |
CN (1) | CN105096934B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847256A (zh) * | 2016-12-27 | 2017-06-13 | 苏州帷幄投资管理有限公司 | 一种语音转化聊天方法 |
CN107103899B (zh) * | 2017-04-24 | 2020-06-19 | 北京小米移动软件有限公司 | 输出语音消息的方法和装置 |
CN107293284A (zh) * | 2017-07-27 | 2017-10-24 | 上海传英信息技术有限公司 | 一种基于智能终端的语音合成方法及语音合成系统 |
DE102017213946B4 (de) * | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
CN108109633A (zh) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | 无人值守的云端语音库采集与智能产品测试的系统与方法 |
CN108962284B (zh) * | 2018-07-04 | 2021-06-08 | 科大讯飞股份有限公司 | 一种语音录制方法及装置 |
CN110232908B (zh) * | 2019-07-30 | 2022-02-18 | 厦门钛尚人工智能科技有限公司 | 一种分布式语音合成系统 |
CN111312210B (zh) * | 2020-03-05 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种融合图文的语音合成方法及装置 |
US20210350788A1 (en) * | 2020-05-06 | 2021-11-11 | Samsung Electronics Co., Ltd. | Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device |
CN112767912A (zh) * | 2020-12-28 | 2021-05-07 | 深圳市优必选科技股份有限公司 | 跨语言语音转换方法、装置、计算机设备和存储介质 |
CN112927677B (zh) * | 2021-03-29 | 2023-07-25 | 北京大米科技有限公司 | 语音合成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1604182A (zh) * | 2003-09-29 | 2005-04-06 | 摩托罗拉公司 | 语音合成方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
EP2685449A1 (en) * | 2012-07-12 | 2014-01-15 | Samsung Electronics Co., Ltd | Method for providing contents information and broadcasting receiving apparatus thereof |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277855B1 (en) * | 2000-06-30 | 2007-10-02 | At&T Corp. | Personalized text-to-speech services |
US6801931B1 (en) * | 2000-07-20 | 2004-10-05 | Ericsson Inc. | System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US7706510B2 (en) * | 2005-03-16 | 2010-04-27 | Research In Motion | System and method for personalized text-to-voice synthesis |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US7689421B2 (en) * | 2007-06-27 | 2010-03-30 | Microsoft Corporation | Voice persona service for embedding text-to-speech features into software programs |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
JP5269668B2 (ja) * | 2009-03-25 | 2013-08-21 | 株式会社東芝 | 音声合成装置、プログラム、及び方法 |
PL401346A1 (pl) * | 2012-10-25 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Generowanie spersonalizowanych programów audio z zawartości tekstowej |
KR101703214B1 (ko) * | 2014-08-06 | 2017-02-06 | 주식회사 엘지화학 | 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법 |
-
2015
- 2015-06-30 CN CN201510375429.3A patent/CN105096934B/zh active Active
- 2015-12-11 US US14/966,144 patent/US9697819B2/en active Active
- 2015-12-11 EP EP15199507.3A patent/EP3113174A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1604182A (zh) * | 2003-09-29 | 2005-04-06 | 摩托罗拉公司 | 语音合成方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
EP2685449A1 (en) * | 2012-07-12 | 2014-01-15 | Samsung Electronics Co., Ltd | Method for providing contents information and broadcasting receiving apparatus thereof |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3113174A1 (en) | 2017-01-04 |
US9697819B2 (en) | 2017-07-04 |
CN105096934A (zh) | 2015-11-25 |
US20170004820A1 (en) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105096934B (zh) | 构建语音特征库的方法、语音合成方法、装置及设备 | |
CN106446148B (zh) | 一种基于聚类的文本查重方法 | |
US11269965B2 (en) | Extractive query-focused multi-document summarization | |
CN107423363B (zh) | 基于人工智能的话术生成方法、装置、设备及存储介质 | |
CN110287312A (zh) | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN108700952A (zh) | 基于用户人口统计信息和情境信息预测文本输入 | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
US20220301579A1 (en) | Automatic video tagging | |
US11842289B2 (en) | Original idea extraction from written text data | |
US20210150224A1 (en) | Video segmentation based on weighted knowledge graph | |
KR102088357B1 (ko) | 기계독해기반 질의응답방법 및 기기 | |
CN106934005A (zh) | 一种基于密度的文本聚类方法 | |
US20150121200A1 (en) | Text processing apparatus, text processing method, and computer program product | |
CN108121699A (zh) | 用于输出信息的方法和装置 | |
US20230029687A1 (en) | Dialog method and system, electronic device and storage medium | |
CN110136715A (zh) | 语音识别方法和装置 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
CN110209780A (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN108009152A (zh) | 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置 | |
KR102621436B1 (ko) | 음성 합성 방법, 장치, 전자 기기 및 저장 매체 | |
US10657692B2 (en) | Determining image description specificity in presenting digital content | |
US10783141B2 (en) | Natural language processing social-based matrix refactorization | |
US10762895B2 (en) | Linguistic profiling for digital customization and personalization | |
CN114238689A (zh) | 视频生成方法、装置、电子设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |