CN111429927A - 提升个性化合成语音质量的方法 - Google Patents
提升个性化合成语音质量的方法 Download PDFInfo
- Publication number
- CN111429927A CN111429927A CN202010163515.9A CN202010163515A CN111429927A CN 111429927 A CN111429927 A CN 111429927A CN 202010163515 A CN202010163515 A CN 202010163515A CN 111429927 A CN111429927 A CN 111429927A
- Authority
- CN
- China
- Prior art keywords
- voice
- personalized
- model
- value
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000009467 reduction Effects 0.000 claims abstract description 36
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 230000000873 masking effect Effects 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 12
- 230000007797 corrosion Effects 0.000 claims description 6
- 238000005260 corrosion Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及语音处理技术领域,提供了一种提升个性化合成语音质量的方法,包括以下步骤:S100采集用户语音作为原始语音数据;S200对原始语音数据进行降噪处理;S300利用降噪后的语音数据,通过模型转换将基底模型生成个性化语音模型;S400采用所述个性化模型与用户语音进行合成,得到个性化合成语音。本专利的提升个性化合成语音质量的方法,提通过对用户采集数据进行离线降噪处理,提升个性化语音模型质量,之后采用该质量较好的个性化语音模型对用户语音进行个性化语音合成的模型训练,达到提升个性化合成语音质量的目的。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种提升个性化合成语音质量的方法。
背景技术
语音合成技术应用广泛,由于现在合成语音的音质和自然度都不错,大家对合成系统提出了更多的需求,语音合成有向多样化和个性化发展的趋势,比如多样化的语音合成,包括多个发音人、多种发音风格、多语种等,现在带有语音合成功能的技术软件非常多,例如在可训练语音合成技术基础上发展起来的模型自适应技术软件等。
用户数据在采集过程中难免会有噪声、信道等影响,与基底模型间存在不匹配情况,从而使得生成出的个性化语音合成模型质量下降较多,进而导致了个性化合成语音质量下降。
发明内容
为了解决上述技术问题,本发明提供了一种提升个性化合成语音质量的方法,包括以下步骤:
S100采集用户语音作为原始语音数据;
S200对原始语音数据进行降噪处理;
S300利用降噪后的语音数据,通过模型转换将基底模型生成个性化语音模型;
S400采用所述个性化模型进行语音合成,得到个性化合成语音。
可选的,在S200步骤中,采用离线降噪处理方式对语音数据进行降噪处理。
可选的,所述离线降噪处理方式包括以下步骤:
S210对原始语音数据进行预加重处理,然后进行短时傅里叶变换;
S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理;
S290对处理后数据进行短时傅里叶逆变换,恢复到时域,然后去加重,得到降噪后的语音数据。
可选的,所述降噪滤波器由以下步骤得到:
S220采用全局噪声估计方式,对短时傅里叶变换后的语音数据进行噪声和有效语音估计;
S230根据噪声估计和有效语音估计结果生成降噪滤波器;
S240对降噪滤波器进行平滑处理。
可选的,在S220步骤中,所述全局噪声估计方式包括以下步骤:
S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值,在各时频点中筛选出所有能量值大于零的,按时间帧取对数平均值,以此对数平均值的指数运算值作为第一阈值;在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值,再次按时间帧取对数平均值,以该对数平均值的指数运算值作为第二阈值;把信号能量值与第二阈值对比,其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1,小于第二阈值的时频点为噪声时频点并标记为0,由此得到时频点掩蔽的初步估计结果;
S224根据时频点掩蔽的初步估计,将每帧中各个时频点的标记取和值,将各帧和值中非零的取对数平均值,以此对数平均值的指数运算值为第三阈值;在各帧中筛选出和值大于零且小于第三阈值的取对数平均值,以该对数平均值的指数运算值为第四阈值,把每帧的和值与第四阈值对比,大于第四阈值的为语音帧,否则为噪声帧,得到帧掩蔽估计结果;
S226根据帧掩蔽估计和各时频点信号能量,进行噪声和有效语音估计。
可选的,所述全局噪声估计方式还包括以下步骤:
S225先对所述帧掩蔽估计结果进行腐蚀处理,然后再进行膨胀处理,增加其准确性。
可选的,在S100步骤中,采集不同主持人语音进行自适应模型训练,得到语音美化模型;在S400步骤中,采用语音美化模型对个性化合成语音进行美化处理。
可选的,在S100步骤中,采集不同用户语音,重复S200和S300步骤得到针对不同用户的个性化语音模型,建立个性化语音模型库,在S400步骤中,接收语音指令信息,进行用户识别调取相应的个性化语音模型用于进行语音合成。
可选的,所述用户识别包括:提取S100步骤中采集的各用户语音的语音特性作为第一特性信息,把第一特性信息和个性化语音模型存储在个性化语音模型库内,且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系;在S400步骤中,提取语音指令信息的语音特性作为第二特性信息,以第二特性信息与存储各第一特性信息进行逐一比对,若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成。
可选的,语音特性至少包括音波频率、音波振幅、音长和音色。
本专利的提升个性化合成语音质量的方法,提通过对用户采集数据进行离线降噪处理,提升个性化语音模型质量,之后采用该质量较好的个性化语音模型对用户语音进行个性化语音合成的模型训练,达到提升个性化合成语音质量的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的提升个性化合成语音质量的方法实施例流程图;
图2为本发明采用的离线降噪处理方式实施例一流程图;
图3为本发明采用的离线降噪处理方式实施例二流程图;
图4为本发明采用的全局噪声估计方式实施例一流程图;
图5为本发明采用的全局噪声估计方式实施例二流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示的本发明提升个性化合成语音质量的方法的可选实施例流程,包括以下步骤:
S100采集用户语音作为原始语音数据;
S200对原始语音数据进行降噪处理;
S300利用降噪后的语音数据,通过模型转换将基底模型生成个性化语音模型;
S400采用所述个性化模型进行语音合成,得到个性化合成语音。
上述技术方案的工作原理为:通过语音降噪处理,去掉原始语音数据中的背景噪声,从而降低语音数据与基底模型间的不适配影响,提高所生成的个性化语音模型的质量,采用此个性化语音模型与用户语音进行合成,就能够生成质量更高的个性化语音。
上述技术方案的有益效果为:通过对生成个性化语音模型的语音数据先行进行降噪处理,能够提高个性化语音模型的质量,采用经此处理的个性化语音模型进行个性化合成,从而提升个性化合成语音的质量。
在一个实施例中,在S200步骤中,采用离线降噪处理方式对语音数据进行降噪处理。
上述技术方案的有益效果为:离线降噪处理方式减少了传输过程干扰和不利影响,处理更加快速,防止语音数据失真,可以较好地保持用户语音数据的个性化特点。
在一个实施例中,如图2所示,本发明提升个性化合成语音质量的方法采用的所述离线降噪处理方式包括以下步骤:
S210对原始语音数据进行预加重处理,然后进行短时傅里叶变换;
S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理;
S290对处理后数据进行短时傅里叶逆变换,恢复到时域,然后去加重,得到降噪后的语音数据。
上述技术方案的工作原理为:预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式,先通过预加重处理增强原始语音数据信号,预加重对噪声并没有影响,因此可能有效地提高信号输出的信噪比;再进行短时傅里叶变换确定时变信号局部区域正弦波的频率与相位;然后进行滤波降噪处理,之后反向先后进行短时傅里叶逆变换和去加重得到降噪后的语音数据。
上述技术方案的有益效果为:降噪前通过预加重处理提高信噪比,可以提高对噪音的识别率,有利于增加降噪效果,提高语音数据纯度,后继再以相逆过程恢复即可得到降噪后的语音数据。
在一个实施例中,如图3所示,所述离线降噪处理方式包括以下步骤:
S210对原始语音数据进行预加重处理,然后进行短时傅里叶变换;
S220采用全局噪声估计方式,对短时傅里叶变换后的语音数据进行噪声和有效语音估计;
S230根据噪声估计结果和有效语音估计结果生成降噪滤波器;
S240对降噪滤波器进行平滑处理;
S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理;
S290对处理后数据进行短时傅里叶逆变换,恢复到时域,然后去加重,得到降噪后的语音数据。
上述技术方案的工作原理为:采用全局噪声估计方式进行噪声和有效语音估计,然后生成降噪滤波器,再进行平滑处理提高降噪滤波器的数据质量,再以此用于对变换后的语音数据进行滤波降噪处理。
上述技术方案的有益效果为:采用全局噪声估计方式进行噪声和有效语音估计生成降噪滤波器,性能稳定,抗噪能力强,失真可能性小,可以进一步增强降噪效果。
在一个实施例中,如图4所示,在S220步骤中,所述全局噪声估计方式包括以下步骤:
S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值,在各时频点中筛选出所有能量值大于零的,以自然常数e为底,按时间帧取对数平均值,以此对数平均值的指数运算值作为第一阈值;在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值,再次按时间帧取对数平均值,以该对数平均值的指数运算值作为第二阈值;把信号能量值与第二阈值对比,其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1,小于第二阈值的时频点为噪声时频点并标记为0,由此得到时频点掩蔽的初步估计结果;
S224根据时频点掩蔽的初步估计,将每帧中各个时频点的标记取和值,以自然常数e为底,将各帧和值中非零的取对数平均值,以此对数平均值的指数运算值为第三阈值;在各帧中筛选出和值大于零且小于第三阈值的取对数平均值,以该对数平均值的指数运算值为第四阈值,把每帧的和值与第四阈值对比,大于第四阈值的为语音帧并标记为1,否则为噪声帧并标记为0,得到帧掩蔽估计结果;
S226根据帧掩蔽估计结果和各时频点信号能量,进行噪声和有效语音估计。
上述技术方案的工作原理为:每帧包含很多时频点,对每帧语音数据每个时频点计算信号能量值,采用阈值对比,分辨有效语音时频点和噪声时频点,语音时频点越多,该帧为语音的可能行就比较大,再用类似方法分析各帧语音数据属于有效语音帧还是噪声帧,方便后续进行降噪处理。
上述技术方案的有益效果为:由于可以使用全部语音数据处理,对全部语音数据进行噪声估计,得到更加准确的噪声估计,噪声判断更准确,为后继高效降噪提供了基础。
在一个实施例中,如图5所示,在S220步骤中,所述全局噪声估计方式包括以下步骤:
S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值,在各时频点中筛选出所有能量值大于零的,以自然常数e为底,按时间帧取对数平均值,以此对数平均值的指数运算值作为第一阈值;在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值,再次按时间帧取对数平均值,以该对数平均值的指数运算值作为第二阈值;把信号能量值与第二阈值对比,其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1,小于第二阈值的时频点为噪声时频点并标记为0,由此得到时频点掩蔽的初步估计结果;
S224根据时频点掩蔽的初步估计,将每帧中各个时频点的标记取和值,以自然常数e为底,将各帧和值中非零的取对数平均值,以此对数平均值的指数运算值为第三阈值;在各帧中筛选出和值大于零且小于第三阈值的取对数平均值,以该对数平均值的指数运算值为第四阈值,把每帧的和值与第四阈值对比,大于第四阈值的为语音帧并标记为1,否则为噪声帧并标记为0,得到帧掩蔽估计结果;
S225先对所述帧掩蔽估计结果进行腐蚀处理,然后再进行膨胀处理,增加其准确性;
S226根据帧掩蔽估计结果和各时频点信号能量,进行噪声和有效语音估计。
上述技术方案的工作原理为:在全局噪声估计方式中引入了图像处理中的腐蚀膨胀技术,先对所述帧掩蔽估计结果进行腐蚀处理去,然后再反向进行膨胀处理,用来消除一些较小且无意义的目标物。
上述技术方案的有益效果为:结合图像处理中的腐蚀膨胀技术对噪声进一步抑制,增加帧掩蔽估计结果的准确性,可以得到比一般降噪方法更好的效果。
在一个实施例中,在S100步骤中,采集不同主持人语音进行自适应模型训练,得到语音美化模型;在S400步骤中,采用语音美化模型对个性化合成语音进行美化处理。
上述技术方案的工作原理为:使用语音较好的主持人群体的语音,通过语音训练建立语音美化模型,用来对个性化合成语音进行美化处理,美化个性化合成语音的品质。
上述技术方案的有益效果为:通过语音美化模型的美化处理,弥补个性化合成语音中可能存在的缺陷,使得个性化合成语音变得更加优美、悦耳、动听,提高个性化合成语音的感观效果。
在一个实施例中,在S100步骤中,采集不同用户语音,重复S200和S300步骤得到针对不同用户的个性化语音模型,建立个性化语音模型库,在S400步骤中,接收语音指令信息,进行用户识别调取相应的个性化语音模型用于进行语音合成。
上述技术方案的工作原理为:采用同样方法就不同用户对应的个性化语音模型,组建有高质量的个性化语音模型库进行存储,以接收到的语音指令信息作为触发指令,调取相应用户的个性化语音模型用于个性化语音合成。
上述技术方案的有益效果为:采集不同用户语音建立个性化语音模型库,后续各用户即可随通过语音指令调取使用,若把个性化语音模型库接入互联网络,还可以使得用户不受地域限制,随时随地都能够方便调用。
在一个实施例中,在S100步骤中,采集不同用户语音,提取用户语音的语音特性作为第一特性信息,重复S200和S300步骤得到针对不同用户的个性化语音模型,建立个性化语音模型库,把第一特性信息和个性化语音模型存储在个性化语音模型库内,且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系;在S400步骤中,接收语音指令信息,提取语音指令信息的语音特性作为第二特性信息,以第二特性信息与第一特性信息进行比对,若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成;所述语音特性至少包括音波频率、音波振幅、音长和音色。
上述技术方案的工作原理为:以用户语音的语音特性作为其个性化语音模型的对应关系信息触发器,在对接收到的语音指令信息的语音特性进行提取后,与建立个性化语音模型库内的用户语音的语音特性比对一致作为触发条件,以调取用户相对应的个性化语音模型用于进行语音合成。
上述技术方案的有益效果为:调取用户相对应的个性化语音模型的触发条件简单方便,不需要手动操作,可适合一些特殊人群如非哑残疾人和未学习过文字的老人与儿童使用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种提升个性化合成语音质量的方法,其特征在于,包括以下步骤:
S100采集用户语音作为原始语音数据;
S200对原始语音数据进行降噪处理;
S300利用降噪后的语音数据,通过模型转换将基底模型生成个性化语音模型;
S400采用所述个性化模型进行语音合成,得到个性化合成语音。
2.根据权利要求1所述的提升个性化合成语音质量的方法,其特征在于,在S200步骤中,采用离线降噪处理方式对语音数据进行降噪处理。
3.根据权利要求2所述的提升个性化合成语音质量的方法,其特征在于,所述离线降噪处理方式包括以下步骤:
S210对原始语音数据进行预加重处理,然后进行短时傅里叶变换;
S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理;
S290对处理后数据进行短时傅里叶逆变换,恢复到时域,然后去加重,得到降噪后的语音数据。
4.根据权利要求3所述的提升个性化合成语音质量的方法,其特征在于,所述降噪滤波器由以下步骤得到:
S220采用全局噪声估计方式,对短时傅里叶变换后的语音数据进行噪声和有效语音估计;
S230根据噪声估计结果和有效语音估计结果生成降噪滤波器;
S240对降噪滤波器进行平滑处理。
5.根据权利要求4所述的提升个性化合成语音质量的方法,其特征在于,在S220步骤中,所述全局噪声估计方式包括以下步骤:
S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值,在各时频点中筛选出所有能量值大于零的,按时间帧取对数平均值,以此对数平均值的指数运算值作为第一阈值;在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值,再次按时间帧取对数平均值,以该对数平均值的指数运算值作为第二阈值;把信号能量值与第二阈值对比,其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1,小于第二阈值的时频点为噪声时频点并标记为0,由此得到时频点掩蔽的初步估计结果;
S224根据时频点掩蔽的初步估计,将每帧中各个时频点的标记取和值,将各帧和值中非零的取对数平均值,以此对数平均值的指数运算值为第三阈值;在各帧中筛选出和值大于零且小于第三阈值的取对数平均值,以该对数平均值的指数运算值为第四阈值,把每帧的和值与第四阈值对比,大于第四阈值的为语音帧,否则为噪声帧,得到帧掩蔽估计结果;
S226根据帧掩蔽估计结果和各时频点信号能量,进行噪声和有效语音估计。
6.根据权利要求5所述的提升个性化合成语音质量的方法,其特征在于,所述全局噪声估计方式还包括以下步骤:
S225先对所述帧掩蔽估计结果进行腐蚀处理,然后再进行膨胀处理,增加其准确性。
7.根据权利要求1所述的提升个性化合成语音质量的方法,其特征在于,在S100步骤中,采集不同主持人语音进行自适应模型训练,得到语音美化模型;在S400步骤中,采用语音美化模型对个性化合成语音进行美化处理。
8.根据权利要求1-7中任意一项所述的提升个性化合成语音质量的方法,其特征在于,在S100步骤中,采集不同用户语音,重复S200和S300步骤得到针对不同用户的个性化语音模型,建立个性化语音模型库,在S400步骤中,接收语音指令信息,进行用户识别调取相应的个性化语音模型用于进行语音合成。
9.根据权利要求8所述的提升个性化合成语音质量的方法,其特征在于,所述用户识别包括:提取S100步骤中采集的各用户语音的语音特性作为第一特性信息,把第一特性信息和个性化语音模型存储在个性化语音模型库内,且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系;在S400步骤中,提取语音指令信息的语音特性作为第二特性信息,以第二特性信息与存储各第一特性信息进行逐一比对,若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成。
10.根据权利要求9所述的提升个性化合成语音质量的方法,其特征在于,语音特性至少包括音波频率、音波振幅、音长和音色。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010163515.9A CN111429927B (zh) | 2020-03-11 | 2020-03-11 | 提升个性化合成语音质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010163515.9A CN111429927B (zh) | 2020-03-11 | 2020-03-11 | 提升个性化合成语音质量的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429927A true CN111429927A (zh) | 2020-07-17 |
CN111429927B CN111429927B (zh) | 2023-03-21 |
Family
ID=71553406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010163515.9A Active CN111429927B (zh) | 2020-03-11 | 2020-03-11 | 提升个性化合成语音质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429927B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201262A (zh) * | 2020-09-30 | 2021-01-08 | 珠海格力电器股份有限公司 | 一种声音处理方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993017415A1 (en) * | 1992-02-28 | 1993-09-02 | Junqua Jean Claude | Method for determining boundaries of isolated words |
US20030182105A1 (en) * | 2002-02-21 | 2003-09-25 | Sall Mikhael A. | Method and system for distinguishing speech from music in a digital audio signal in real time |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP2005321821A (ja) * | 2005-06-17 | 2005-11-17 | Nec Corp | ノイズ除去方法及び装置 |
CN101399043A (zh) * | 2007-07-30 | 2009-04-01 | 向为 | 一种自适应多速率窄带编码方法及编码器 |
CN101527140A (zh) * | 2008-03-05 | 2009-09-09 | 上海摩波彼克半导体有限公司 | 第三代移动通信系统amr计算量化平均对数帧能量的方法 |
CN101763858A (zh) * | 2009-10-19 | 2010-06-30 | 瑞声声学科技(深圳)有限公司 | 双麦克风信号处理方法 |
CN102789783A (zh) * | 2011-07-12 | 2012-11-21 | 大连理工大学 | 一种基于矩阵变换的欠定盲分离方法 |
CN104021796A (zh) * | 2013-02-28 | 2014-09-03 | 华为技术有限公司 | 语音增强处理方法和装置 |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
WO2016015461A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN108364641A (zh) * | 2018-01-09 | 2018-08-03 | 东南大学 | 一种基于长时帧背景噪声估计的语音情感特征提取方法 |
CN109979478A (zh) * | 2019-04-08 | 2019-07-05 | 网易(杭州)网络有限公司 | 语音降噪方法及装置、存储介质及电子设备 |
-
2020
- 2020-03-11 CN CN202010163515.9A patent/CN111429927B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993017415A1 (en) * | 1992-02-28 | 1993-09-02 | Junqua Jean Claude | Method for determining boundaries of isolated words |
US20030182105A1 (en) * | 2002-02-21 | 2003-09-25 | Sall Mikhael A. | Method and system for distinguishing speech from music in a digital audio signal in real time |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP2005321821A (ja) * | 2005-06-17 | 2005-11-17 | Nec Corp | ノイズ除去方法及び装置 |
CN101399043A (zh) * | 2007-07-30 | 2009-04-01 | 向为 | 一种自适应多速率窄带编码方法及编码器 |
CN101527140A (zh) * | 2008-03-05 | 2009-09-09 | 上海摩波彼克半导体有限公司 | 第三代移动通信系统amr计算量化平均对数帧能量的方法 |
CN101763858A (zh) * | 2009-10-19 | 2010-06-30 | 瑞声声学科技(深圳)有限公司 | 双麦克风信号处理方法 |
CN102789783A (zh) * | 2011-07-12 | 2012-11-21 | 大连理工大学 | 一种基于矩阵变换的欠定盲分离方法 |
CN104021796A (zh) * | 2013-02-28 | 2014-09-03 | 华为技术有限公司 | 语音增强处理方法和装置 |
WO2016015461A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN108364641A (zh) * | 2018-01-09 | 2018-08-03 | 东南大学 | 一种基于长时帧背景噪声估计的语音情感特征提取方法 |
CN109979478A (zh) * | 2019-04-08 | 2019-07-05 | 网易(杭州)网络有限公司 | 语音降噪方法及装置、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
YE JIA ET AL.: "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis", 《32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2018)》 * |
关海欣等: "基于子带分析稳健的说话人识别", 《声学技术》 * |
卢勇等: "改进小波阈值函数在语音增强中的应用", 《信息技术与网络安全》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201262A (zh) * | 2020-09-30 | 2021-01-08 | 珠海格力电器股份有限公司 | 一种声音处理方法及装置 |
CN112201262B (zh) * | 2020-09-30 | 2024-05-31 | 珠海格力电器股份有限公司 | 一种声音处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111429927B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100304666B1 (ko) | 음성 향상 방법 | |
AU656787B2 (en) | Auditory model for parametrization of speech | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
EP1250700A1 (en) | Speech parameter compression | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN111508518A (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN104217730B (zh) | 一种基于k‑svd的人工语音带宽扩展方法及装置 | |
EP1093112A2 (en) | A method for generating speech feature signals and an apparatus for carrying through this method | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
Fu et al. | Boosting objective scores of a speech enhancement model by metricgan post-processing | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN111429927B (zh) | 提升个性化合成语音质量的方法 | |
Shifas et al. | A non-causal FFTNet architecture for speech enhancement | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN112185405A (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN115410594A (zh) | 语音增强方法和装置 | |
Akaishi et al. | Harmonic and percussive sound separation based on mixed partial derivative of phase spectrogram | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |