CN104123932B - 一种语音转换系统及方法 - Google Patents

一种语音转换系统及方法 Download PDF

Info

Publication number
CN104123932B
CN104123932B CN201410367488.1A CN201410367488A CN104123932B CN 104123932 B CN104123932 B CN 104123932B CN 201410367488 A CN201410367488 A CN 201410367488A CN 104123932 B CN104123932 B CN 104123932B
Authority
CN
China
Prior art keywords
module
voice
recording
sound
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410367488.1A
Other languages
English (en)
Other versions
CN104123932A (zh
Inventor
梅珂
刘俊峰
陈盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Kexun Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201410367488.1A priority Critical patent/CN104123932B/zh
Publication of CN104123932A publication Critical patent/CN104123932A/zh
Application granted granted Critical
Publication of CN104123932B publication Critical patent/CN104123932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种语音转换系统及方法,包括:录音模块,语音识别模块,语音合成模块,扬声模块和用户控制模块;录音模块与语音识别模块相连接,接收说话人的说话语音并将录制的音频;语音识别模块根据模式的不同进行语音识别,训练模式时提取相关的语音特征信息;转换模式下将语音信号转化为相应的文字信息;语音合成模块在训练模式时接收语音识别模式传输来的语音特征信息进行存储,在转换模式时将接收到的文字信息结合特定人的语音特征信息进行合成,并将合成的语音发送给扬声模块;用户控制模块控制系统的启动和关闭,可以选择工作模式,还可以选择要合成的指定人即要将声音转换成谁的声音。

Description

一种语音转换系统及方法
技术领域
本发明涉及语音识别技术和个性化语音合成技术领域,可将说话人A说出的话转换成特定人B的声音后播放。
背景技术
语音识别技术是将说话人的语音转化成文本的技术。个性化语音合成技术是在语音合成技术TTS的技术上发展起来的,除了可以实现传统的TTS的将文本转换成语音播报以外,还可以合成为具有特定人特征的语音,但是需要先获取指定人说话的音频,从音频中提取出特定人语音特征,构建个性化语音特征库。如科大讯飞股份有限公司提出的专利《在手机或网页上接受用户输入的文字并实时合成为个性化声音的方法》(公开号:CN103065620A)和松下电器产业株式会社提出的《声音个性化的语音合成器》(公开号:CN1496554A)都介绍过由将文字合成个性化声音(即特定人的声音)的方法。但是这两项专利提供的技术都只能由文字转化为声音,不能实现由一个说话人到另一个人声音的转变。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种语音转换系统及方法,可以实现由说话人A的声音到说话人B的声音的实时转换,解决现有技术只能从文字进行个性化合成的缺点,可用于防盗、安防等领域。
本发明采用的技术方案为:一种语音转换系统,其特征在于包括:录音模块,语音识别模块,语音合成模块,扬声模块和用户控制模块;
录音模块与语音识别模块相连接,接收说话人的说话语音并将录制的音频发送给语音识别模块;
语音识别模块,接收录音模块传送的音频,根据模式的不同进行语音识别,训练模式时提取相关的语音特征信息送入语音合成模块储存;转换模式下将语音信号转化为相应的文字信息发送给语音合成模块;
语音合成模块,在训练模式时接收语音识别模式传输来的语音特征信息进行存储,在转换模式时将接收到的文字信息结合特定人的语音特征信息进行合成,并将合成的语音发送给扬声模块;
扬声模块,接收语音合成模块的语音进行播报;
用户控制模块,控制系统的启动和关闭,可以选择工作模式,还可以选择要合成的指定人即要将声音转换成谁的声音;
语音合成模块中的所述训练模式工作流程实现如下:
(11)用户通过控制模块选择进入训练模式,确认后开始录音,用户对着麦克风随意说话,录音模块将用户的录音送入识别模块;
(12)语音识别模块接收到录音后,提取语音的特征信息,并将特征信息送入语音合成模块;
(13)语音合成模块收集到特征信息后构建特征信息库,系统可构建不止一个说话人的特征库;
语音合成模块中的所述转换模式工作流程实现如下:
(21)用户通过控制模块选择进入转换模式,进入转换模式后,依然能够通过控制模块来选择需要将自己的声音转换为谁的声音,选定确认后,语音合成模块提取出相应的特征库,并开启录音模块;
(22)录音模块开始录音,录音结束后将录音送入语音识别模块;
(23)语音识别模块接收到录音后开始识别,得到识别出的文本信息,并将文本信息送入语音合成模块;
(24)语音合成模块根据用户选定的特征库构建个性化合成模型,接收到文本信息后使用个性化合成模型将文本信息生成具有特定人特征的语音即听起来声音和特定人几乎相同,并通过扬声模块播报出来。
一种语音转换方法,其特征在于实现步骤如下:
(1)在训练模式下收集特定人的语音,通过语音识别模块提取出其中的特征并发送给语音合成模块保存;
(2)转换模式下对说话人进行录音,通过语音识别模块将语音转换成文字信息送给语音合成模块;
(3)语音合成模块将接收到的文字信息合成语音信息,在合成过程中,根据控制模块指定的说话人提取相应的特征信息并使用;
(4)合成的语音通过扬声模块播放,合成的语音中使用的是指定人的语音特征信息,合成的语音听起来和指定人的声音很相像。
本发明与现有技术相比的优点在于:本发明可以实现由说话人A的声音到说话人B的声音的实时转换,可用于防盗、安防等领域。
附图说明
图1为本发明系统框图;
图2为本发明中训练模式流程图;
图3为本发明中转换模式流程图。
具体实施方式
下面将结合附图说明本发明的具体内容。
本发明所述系统分为两种模式:训练模式和转换模式。训练模式可用来构建特定人语音特征库;转换模式可将说话人A的声音转换成特定人B的声音。
本发明所描述系统共有五个部分组成:
录音模块:用于接收说话人的语音,将录音送入识别模块进行特征提取和语义识别。
语音识别模块:接收录音模块的录音,在训练模式下,提取录音的特征信息送入合成模块用于建立特征库;在转换模式下,对语音进行语义识别,输出识别后的文本。
语音合成模块:在训练模式下,该模块收集识别模块传输的语音特征信息,构建个性化特征库;在转换模式下,接收由识别模块传输的文本信息,并根据用户的选择提取相应的特征库,构建合成参数模型,进行语音合成。
扬声模块:接收合成模块的语音进行播报。
用户控制模块:用于用户进行系统功能控制,可以用于启动和取消录音,选择工作模式,选择需要合成的特定人。该模块可使用但不仅限于触摸屏或者按键加显示屏。应至少包括确认(启动)按键、取消按键和上、下选择按键。
要实现语音转换,必须先进行训练,构建特定人的语音特征库,比如我们想要把声音转换成某人甲的声音,至少要先有某人甲的语音特征库,才可以将任意人的语音转换成某人甲的声音。
如图2所示,训练模式工作流程:
(1)用户通过控制模块选择进入训练模式,确认后开始录音,用户可以对着麦克风随意说话,录音模块将用户的录音送入语音识别模块。
(2)语音识别模块接收到录音后,提取语音的特征信息,并将特征信息送入语音合成模块。语音信号本质是物理波,这种波信号中含有各种各样的特征信息,其中有一些特征信息是决定我们听到的声音的音质,并可由此辨别是谁在说话,比如说声纹等特征。当然语音中也有很多特征信息是和说话人身份无关,但是和内容有关的,通过对这些特征的辨识,可以知道说话人说话的内容。在训练模式下,语音识别模块只提取出和说话人身份辨认相关的特征信息,并打上标签,送入语音合成模块构建特征信息库。
(3)语音合成模块收集到带标签的特征信息后构建特征信息库。系统可构建多个说话人的特征库。在语音合成过程中,只要利用这些特征,结合和内容相关的特征,就可以合成出音质与特定说话人十分相似的语音。
如图3所示,转换模式工作流程:
(1)用户通过控制模块选择进入转换模式,进入转换模式后,可以通过控制模块来选择需要将自己的声音转换为谁的声音,比如,要把自己说的话转换成某人甲的声音,只需选定确认后,语音合成模块即从特征库里提取出标签为某人甲的特征信息,并开启录音模块。
(2)录音模块开始录音,录音结束后将录音送入语音识别模块。
(3)语音识别模块接收到录音后开始识别,得到识别出的文本信息,并将文本信息送入语音合成模块。
(4)语音合成模块接收到文本信息后,可以将文本内容转化为相应的语音特征信息,因为语音特征信息里有一部分特征和内容是对应的,只要知道文本的内容,即可构建出相对应的语音特征模型,但是这个模型和说话人身份是无关的。这时,将之前从特征库里提取出的带标签的和说话人身份相关的特征信息与内容相关的语音特征模型相结合,就可以合成出音质与某人甲十分相似的声音。理论上,只要和说话人身份相关的特征选取足够准确和完整,合成出的语音是可以和指定说话人(某人甲)的语音完全相同的。

Claims (1)

1.一种语音转换系统,其特征在于包括:录音模块,语音识别模块,语音合成模块,扬声模块和用户控制模块;
录音模块与语音识别模块相连接,接收说话人的说话语音并将录制的音频发送给语音识别模块;
语音识别模块,接收录音模块传送的音频,根据模式的不同进行语音识别,训练、模式时提取相关的语音特征信息送入语音合成模块储存;转换模式下将语音信号转化为相应的文字信息发送给语音合成模块;
语音合成模块,在训练模式时接收语音识别模式传输来的语音特征信息进行存储,在转换模式时将接收到的文字信息结合特定人的语音特征信息进行合成,并将合成的语音发送给扬声模块;
扬声模块,接收语音合成模块的语音进行播报;
用户控制模块,控制系统的启动和关闭,可以选择工作模式,还可以选择要合成的指定人即要将声音转换成谁的声音;
语音合成模块中的所述训练模式工作流程实现如下:
(11)用户通过控制模块选择进入训练模式,确认后开始录音,用户对着麦克风随意说话,录音模块将用户的录音送入识别模块;
(12)语音识别模块接收到录音后,提取语音的特征信息,并将特征信息送入语音合成模块,其中,在训练模式下,语音识别模块只提取出和说话人身份辨认相关的信息,并打上标签,送入语音合成模块构建特征信息库;
(13)语音合成模块收集到特征信息后构建特征信息库,系统可构建不止一个说话人的特征库;
语音合成模块中的所述转换模式工作流程实现如下:
(21)用户通过控制模块选择进入转换模式,进入转换模式后,依然能够通过控制模块来选择需要将自己的声音转换为谁的声音,选定确认后,语音合成模块提取出相应的特征库,并开启录音模块;
(22)录音模块开始录音,录音结束后将录音送入语音识别模块;
(23)语音识别模块接收到录音后开始识别,得到识别出的文本信息,并将文本信息送入语音合成模块;
(24)语音合成模块根据用户选定的特征库构建个性化合成模型,接收到文本信息后使用个性化合成模型将文本信息生成具有特定人特征的语音即听起来声音和特定人几乎相同,并通过扬声模块播报出来,其中,将之前从特征库里提取出来的带标签的和说话人身份相关的特征信息与内容相关的语音特征模型相结合,从而合成出音质与特定人十分相似的声音。
CN201410367488.1A 2014-07-29 2014-07-29 一种语音转换系统及方法 Active CN104123932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410367488.1A CN104123932B (zh) 2014-07-29 2014-07-29 一种语音转换系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410367488.1A CN104123932B (zh) 2014-07-29 2014-07-29 一种语音转换系统及方法

Publications (2)

Publication Number Publication Date
CN104123932A CN104123932A (zh) 2014-10-29
CN104123932B true CN104123932B (zh) 2017-11-07

Family

ID=51769322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410367488.1A Active CN104123932B (zh) 2014-07-29 2014-07-29 一种语音转换系统及方法

Country Status (1)

Country Link
CN (1) CN104123932B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635427A (zh) * 2015-01-21 2016-06-01 宇龙计算机通信科技(深圳)有限公司 信息处理方法、信息处理装置和终端
CN104766605B (zh) * 2015-04-23 2018-03-27 郑州畅想高科股份有限公司 一种机车录音装置和lkj监控装置间的时间同步系统和方法
CN105208194A (zh) * 2015-08-17 2015-12-30 努比亚技术有限公司 语音播报装置及方法
CN105336329B (zh) * 2015-09-25 2021-07-16 联想(北京)有限公司 一种语音处理方法及系统
CN105721292A (zh) * 2016-03-31 2016-06-29 宇龙计算机通信科技(深圳)有限公司 一种信息读取方法、装置及终端
CN106409296A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 基于分核处理技术的语音快速转写校正系统
CN106448665A (zh) * 2016-10-28 2017-02-22 努比亚技术有限公司 语音处理装置及方法
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法
CN107256708B (zh) * 2016-12-13 2021-06-15 佛山市小鲜互联电器科技有限公司 一种基于冰箱的智能化人机交互系统
CN106680774A (zh) * 2016-12-13 2017-05-17 安徽乐年健康养老产业有限公司 一种智能跟随和记录装置
CN107103899B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 输出语音消息的方法和装置
CN107342088B (zh) * 2017-06-19 2021-05-18 联想(北京)有限公司 一种声音信息的转换方法、装置及设备
CN107293284A (zh) * 2017-07-27 2017-10-24 上海传英信息技术有限公司 一种基于智能终端的语音合成方法及语音合成系统
US11894008B2 (en) 2017-12-12 2024-02-06 Sony Corporation Signal processing apparatus, training apparatus, and method
CN109935225A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 文字信息处理装置及方法、计算机存储介质及移动终端
TWI685835B (zh) * 2018-10-26 2020-02-21 財團法人資訊工業策進會 有聲播放裝置及其播放方法
CN109346057A (zh) * 2018-10-29 2019-02-15 深圳市友杰智新科技有限公司 一种智能儿童玩具的语音处理系统
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、系统及方法
WO2021134548A1 (zh) * 2019-12-31 2021-07-08 李庆远 基于移动设备的录音装置
CN113314096A (zh) * 2020-02-25 2021-08-27 阿里巴巴集团控股有限公司 语音合成方法、装置、设备和存储介质
CN111462728A (zh) * 2020-03-31 2020-07-28 北京字节跳动网络技术有限公司 用于生成语音的方法、装置、电子设备和计算机可读介质
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及系统
CN116758893A (zh) * 2023-08-24 2023-09-15 枣庄智汇互联网小镇管理有限公司 一种机器人语音播放方法、系统、计算设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
CN1534595A (zh) * 2003-03-28 2004-10-06 中颖电子(上海)有限公司 语音转换合成装置及其方法
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20100030557A1 (en) * 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
CN101188637A (zh) * 2006-11-15 2008-05-28 林晓良 一种将耳语转换为正常语音的装置和方法
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN101751921B (zh) * 2009-12-16 2011-09-14 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成系统及其实现方法

Also Published As

Publication number Publication date
CN104123932A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN104123932B (zh) 一种语音转换系统及方法
CN108922518A (zh) 语音数据扩增方法和系统
TWI253056B (en) Combined engine system and method for voice recognition
CN105913850B (zh) 文本相关声纹密码验证方法
CN110049270A (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
TW557443B (en) Method and apparatus for voice recognition
JP6469252B2 (ja) アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
CN109155132A (zh) 说话者验证方法和系统
CN107819929A (zh) 优选表情符号的识别和生成
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN105206257B (zh) 一种声音转换方法及装置
CN102231278A (zh) 实现语音识别中自动添加标点符号的方法及系统
CN104272382A (zh) 基于模板的个性化歌唱合成的方法和系统
CN102903361A (zh) 一种通话即时翻译系统和方法
CN104202455A (zh) 智能语音拨号的方法及装置
CN109817220A (zh) 语音识别方法、装置及系统
CN103745512B (zh) 语音导航的智能电子锁系统的语音导航方法
KR102607373B1 (ko) 음성감성 인식 장치 및 방법
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN107039033A (zh) 一种语音合成装置
CN107910004A (zh) 语音翻译处理方法及装置
WO2019075829A1 (zh) 语音翻译方法、装置和翻译设备
CN109377986A (zh) 一种非平行语料语音个性化转换方法
CN104200807B (zh) 一种erp语音控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181212

Address after: 130000 Room 1632, 16th Floor, Block B, Liwang Square, 996 Qianjin Street, Chaoyang District, Changchun City, Jilin Province

Patentee after: Jilin Kexun Information Technology Co., Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: Iflytek Co., Ltd.

TR01 Transfer of patent right