CN1811911A - 自适应的语音变换处理方法 - Google Patents
自适应的语音变换处理方法 Download PDFInfo
- Publication number
- CN1811911A CN1811911A CNA2005100049108A CN200510004910A CN1811911A CN 1811911 A CN1811911 A CN 1811911A CN A2005100049108 A CNA2005100049108 A CN A2005100049108A CN 200510004910 A CN200510004910 A CN 200510004910A CN 1811911 A CN1811911 A CN 1811911A
- Authority
- CN
- China
- Prior art keywords
- speech
- phone
- processing method
- parameter
- conversion processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供一种自适应的语音变换处理方法,包括步骤:(a)建立多样本语音数据库;(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;(d)利用语音参数库,建立声源特征和目标特征的映射关系;(e)根据映射系数,进行自适应调整。通过获取声源特征和目标特征的主要参数(如基频和共振峰),建立声源与目标特征之间的映射关系,利用语音数据库的统计信息,使得不同说话人的声音可以自适应地变换到同一类变音效果,改善了声音变换的效果。
Description
技术领域
本发明涉及计算机语音信号处理领域,具体涉及语音变换处理方法。
背景技术
影响语音感知的因素有很多,其中基频和共振峰是最为重要的两个因素。通过对基频和共振峰的调整,可以得到一种完全不同的声音,这就是所谓的语音变换,又叫音色变换、变音。
变音系统主要由三部分组成:数据获取部分、数据处理部分和结果输出部分(如图1所示)。数据获取部分的功能是为数据处理部分提供原材料,也就是用户希望进行变换的内容。数据处理部分的功能是对输入数据进行加工,来达到某种变换的效果。结果输出部分的功能是,接收并输出数据处理部分加工过的数据。其中,数据处理部分是整个系统的核心。
现有的变音算法,主要对利用基频和共振峰等声学参数的声音变换方法做了阐述。但是,对于如何选取其参数来达到某种效果,并没有提及。而在实际应用中,变音效果直接受到设置参数的影响,甚至有时因为参数设置不合理,其效果会和需要的效果大相径庭。分析其原因,主要是没有对声源特征和目标特征进行分析,未能建立声源与目标之间的联系,缺乏自适应调整的功能。
本发明所要解决的技术问题:不同声源(说话人)的变音效果,往往大相径庭,目前算法不能自动调整。
发明内容
鉴于现有算法存在的问题,本发明通过建立声源与目标特征之间的映射关系,使得不同说话人的声音可以自适应地变换到同一类变音效果。在原有算法的基础上,通过获取声源特征和目标特征的主要参数(如基频和共振峰),利用语音数据库的统计信息,建立源和目标之间的映射关系,增加了自适应处理部分,改善了声音变换的效果。
本发明提供的一种自适应的语音变换处理方法,包括步骤:
(a)建立多样本语音数据库;
(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;
(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;
(d)利用语音参数库,建立声源特征和目标特征的映射关系;
(e)根据映射系数,进行自适应调整。
其中所述语音参数包括:基频、共振峰。
其中所述映射函数可以是线性的,也可以是非线性的。
本发明与现有技术相比的有益效果:解决了不同声源(说话人)的变音效果差异过大,很多变音效果与需要的效果不一致的问题,使得变音技术更加适合应用。
附图说明
图1为语音变换系统示意图;
图2为本发明提供的自适应语音变换处理方法流程图。
具体实施方式
实施中,主要有如下几个过程:
首先,分析多人多样本语音库中的语音数据,提取出基频、共振峰等参数。利用聚类等方法,将所有的样本根据划分特征的不同分为几类,比如按照性别可以分为男性和女性;按照音色可以分为低沉的、沙哑的、普通的、靓丽的;按照年龄可以分为老年的、中年的、青年的、少年的、儿童的。按照需要,规划并建立语音参数库,为数据处理阶段提供依据。
分析声源特征,获取不同个体的基频、共振峰等参数。不同个体的声音往往不同,得到的这些参数将作为衡量不同声音之间差异的依据。
利用语音参数库,建立声源特征和目标特征的映射关系,即:
k=f(PT,PS)(1)
其中,k为一组映射系数,PT为一组目标特征参数,PS为一组声源特征参数,f为映射函数。映射函数可以选择线性的,也可以选择非线性的。
特征参数可以是基频,可以是共振峰,也可以两者都用,甚至扩充其他参数。下面,仅对单独利用基频和共振峰的情况进行说明,其他情况与此类似。
如果利用基频为特征参数,按照如下步骤构造映射函数。首先,从说话人连续语流中提取基频序列,设为PT。同时,利用第一步中的统计结果构造相应的基频序列PS。如果选用线性映射关系,例如,可以选取映射系数为k=f(PT,PS)=PT/PS。
如果利用共振峰为特征参数,按照如下步骤构造映射函数。首先,从说话人连续语流中,提取共振峰序列,选择前n个(一般3~5个)共振峰的位置,设为PT(1∶n)。同时,利用第一步中的统计结果,构造相应的共振峰序列PS(1∶n)。由于两个序列都是n维的,所以映射关系函数也需要设计为n维的。如果选用线性映射关系,也可以选取映射系数为简单的比例关系k(1∶n)=PT(1∶n)/PS(1∶n)。
根据映射系数,进行自适应调整。设t时刻通过映射获得的一组映射系数为k(t)=f[PT(t),PS],为了保障算法的稳定性,调整系数α(t)是根据t时刻以及t时刻之前的映射系数设计的,即:
α(t)=g[k(t),k(t-1),...,k(0)] (2)
其中,g为调整系数计算函数。调整系数也可以表示为:
α(t)=h[k(t),α(t-1)] (3)
这样只需要利用当前的映射系数k(t)和前一时刻的调整系数α(t-1)。对于0时刻,可以认为其前一时刻的调整系数没有影响,只与0时刻的映射系数有关,即:
α(0)=k(0) (4)
例如,我们可以采用关系式(3),并定义函数h为:
h[k(t),α(t-1)]=βα(t-1)+(1-β)k(t) (5)
其中,β为常数,并满足0≤β≤1。
数据流动示意图如图2所示,原始数据经过特征分析,获得的参数与参数库中的参数建立映射关系,获得最优的一组参数,利用这组参数和前一时刻的调整系数,计算当前时刻的调整系数,然后进行音色变换处理,获得的输出数据将更好地满足需要。
Claims (3)
1、一种自适应的语音变换处理方法,包括步骤:
(a)建立多样本语音数据库;
(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;
(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;
(d)利用语音参数库,建立声源特征和目标特征的映射关系;
(e)根据映射系数,进行自适应调整。
2、如权利要求1所述的语音变换处理方法,其中所述语音参数包括:基频、共振峰。
3、如权利要求1所述的语音变换处理方法,其中所述映射函数可以是线性的,也可以是非线性的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2005100049108A CN1811911B (zh) | 2005-01-28 | 2005-01-28 | 自适应的语音变换处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2005100049108A CN1811911B (zh) | 2005-01-28 | 2005-01-28 | 自适应的语音变换处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1811911A true CN1811911A (zh) | 2006-08-02 |
CN1811911B CN1811911B (zh) | 2010-06-23 |
Family
ID=36844794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100049108A Active CN1811911B (zh) | 2005-01-28 | 2005-01-28 | 自适应的语音变换处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1811911B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
CN101354889B (zh) * | 2008-09-18 | 2012-01-11 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN103295574A (zh) * | 2012-03-02 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 唱歌语音转换设备及其方法 |
CN103430234A (zh) * | 2011-03-17 | 2013-12-04 | 国际商业机器公司 | 具有编码信息的语音变换 |
WO2013182085A1 (zh) * | 2012-10-12 | 2013-12-12 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
CN106128478A (zh) * | 2016-06-28 | 2016-11-16 | 北京小米移动软件有限公司 | 语音播报方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
FR2783991A1 (fr) * | 1998-09-29 | 2000-03-31 | Philips Consumer Communication | Telephone avec moyens de rehaussement de l'impression subjective du signal en presence de bruit |
JP2000323993A (ja) * | 1999-05-11 | 2000-11-24 | Mitsubishi Electric Corp | Mpeg1オーディオレイヤiii復号処理装置およびコンピュータをmpeg1オーディオレイヤiii復号処理装置として機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体 |
US7024359B2 (en) * | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
US7006699B2 (en) * | 2002-03-27 | 2006-02-28 | Microsoft Corporation | System and method for progressively transforming and coding digital data |
-
2005
- 2005-01-28 CN CN2005100049108A patent/CN1811911B/zh active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
CN101354889B (zh) * | 2008-09-18 | 2012-01-11 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN103430234A (zh) * | 2011-03-17 | 2013-12-04 | 国际商业机器公司 | 具有编码信息的语音变换 |
CN103430234B (zh) * | 2011-03-17 | 2015-06-10 | 国际商业机器公司 | 具有编码信息的语音变换 |
CN103295574A (zh) * | 2012-03-02 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 唱歌语音转换设备及其方法 |
CN103295574B (zh) * | 2012-03-02 | 2018-09-18 | 上海果壳电子有限公司 | 唱歌语音转换设备及其方法 |
WO2013182085A1 (zh) * | 2012-10-12 | 2013-12-12 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
US9552813B2 (en) | 2012-10-12 | 2017-01-24 | Zte Corporation | Self-adaptive intelligent voice device and method |
CN106128478A (zh) * | 2016-06-28 | 2016-11-16 | 北京小米移动软件有限公司 | 语音播报方法及装置 |
CN106128478B (zh) * | 2016-06-28 | 2019-11-08 | 北京小米移动软件有限公司 | 语音播报方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1811911B (zh) | 2010-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1811911A (zh) | 自适应的语音变换处理方法 | |
CN112199548A (zh) | 一种基于卷积循环神经网络的音乐音频分类方法 | |
CN1110789C (zh) | 有集成化音调分类器的连续汉语普通话语音识别系统 | |
Yin et al. | Reversible data hiding in JPEG images with multi-objective optimization | |
CN106251859A (zh) | 语音识别处理方法和装置 | |
CN1624656A (zh) | 实现平滑音量控制模型的系统和方法 | |
CN1663262A (zh) | 根据现存的用户配置文件而填充用户配置文件的方法、系统及程序产品 | |
CN110083240A (zh) | 基于动态缩放值的空间化的触觉反馈 | |
CN113488063B (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN1249988C (zh) | 对视频信号使用时变非线性变换的自适应对比度增强方法 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN111368649B (zh) | 一种运行于树莓派的情绪感知方法 | |
CN101079601A (zh) | 可携式信息处理装置的音量调整系统及其方法 | |
CN111583957A (zh) | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 | |
Zhou | Feature extraction of musical content for automatic music transcription | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN116563587A (zh) | 基于Sliced-Wasserstein距离的图卷积结构深度嵌入式聚类方法及系统 | |
CN113642679A (zh) | 多种类数据识别方法 | |
Yingle et al. | Speaker gender identification based on combining linear and nonlinear features | |
CN1815553A (zh) | 基于生成参数听感误差最小化的声学模型训练方法 | |
CN1471318A (zh) | 支持不同帧尺寸的整数编码方法和实现该方法的编解码器 | |
CN113377912B (zh) | 一种基于自然语言处理的移动手机用户画像建立方法 | |
CN116386641A (zh) | 一种可泛化的语音生成sql方法 | |
CN113129920B (zh) | 一种基于u型网络和音频指纹的音乐与人声分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1 Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp. Address before: 100085 Zhongguancun development building, 12 information road, Beijing, Haidian District, E101 Patentee before: Jietong Huasheng Speech Technology Co., Ltd. |