CN104123932B

CN104123932B - 一种语音转换系统及方法

Info

Publication number: CN104123932B
Application number: CN201410367488.1A
Authority: CN
Inventors: 梅珂; 刘俊峰; 陈盛
Original assignee: iFlytek Co Ltd
Current assignee: Jilin Kexun Information Technology Co Ltd
Priority date: 2014-07-29
Filing date: 2014-07-29
Publication date: 2017-11-07
Anticipated expiration: 2034-07-29
Also published as: CN104123932A

Abstract

一种语音转换系统及方法，包括：录音模块，语音识别模块，语音合成模块，扬声模块和用户控制模块；录音模块与语音识别模块相连接，接收说话人的说话语音并将录制的音频；语音识别模块根据模式的不同进行语音识别，训练模式时提取相关的语音特征信息；转换模式下将语音信号转化为相应的文字信息；语音合成模块在训练模式时接收语音识别模式传输来的语音特征信息进行存储，在转换模式时将接收到的文字信息结合特定人的语音特征信息进行合成，并将合成的语音发送给扬声模块；用户控制模块控制系统的启动和关闭，可以选择工作模式，还可以选择要合成的指定人即要将声音转换成谁的声音。

Description

一种语音转换系统及方法

技术领域

本发明涉及语音识别技术和个性化语音合成技术领域，可将说话人A说出的话转换成特定人B的声音后播放。

背景技术

语音识别技术是将说话人的语音转化成文本的技术。个性化语音合成技术是在语音合成技术TTS的技术上发展起来的，除了可以实现传统的TTS的将文本转换成语音播报以外，还可以合成为具有特定人特征的语音，但是需要先获取指定人说话的音频，从音频中提取出特定人语音特征，构建个性化语音特征库。如科大讯飞股份有限公司提出的专利《在手机或网页上接受用户输入的文字并实时合成为个性化声音的方法》(公开号：CN103065620A)和松下电器产业株式会社提出的《声音个性化的语音合成器》(公开号：CN1496554A)都介绍过由将文字合成个性化声音(即特定人的声音)的方法。但是这两项专利提供的技术都只能由文字转化为声音，不能实现由一个说话人到另一个人声音的转变。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种语音转换系统及方法，可以实现由说话人A的声音到说话人B的声音的实时转换，解决现有技术只能从文字进行个性化合成的缺点，可用于防盗、安防等领域。

本发明采用的技术方案为：一种语音转换系统，其特征在于包括：录音模块，语音识别模块，语音合成模块，扬声模块和用户控制模块；

录音模块与语音识别模块相连接，接收说话人的说话语音并将录制的音频发送给语音识别模块；

语音识别模块，接收录音模块传送的音频，根据模式的不同进行语音识别，训练模式时提取相关的语音特征信息送入语音合成模块储存；转换模式下将语音信号转化为相应的文字信息发送给语音合成模块；

语音合成模块，在训练模式时接收语音识别模式传输来的语音特征信息进行存储，在转换模式时将接收到的文字信息结合特定人的语音特征信息进行合成，并将合成的语音发送给扬声模块；

扬声模块，接收语音合成模块的语音进行播报；

用户控制模块，控制系统的启动和关闭，可以选择工作模式，还可以选择要合成的指定人即要将声音转换成谁的声音；

语音合成模块中的所述训练模式工作流程实现如下：

(11)用户通过控制模块选择进入训练模式，确认后开始录音，用户对着麦克风随意说话，录音模块将用户的录音送入识别模块；

(12)语音识别模块接收到录音后，提取语音的特征信息，并将特征信息送入语音合成模块；

(13)语音合成模块收集到特征信息后构建特征信息库，系统可构建不止一个说话人的特征库；

语音合成模块中的所述转换模式工作流程实现如下：

(21)用户通过控制模块选择进入转换模式，进入转换模式后，依然能够通过控制模块来选择需要将自己的声音转换为谁的声音，选定确认后，语音合成模块提取出相应的特征库，并开启录音模块；

(22)录音模块开始录音，录音结束后将录音送入语音识别模块；

(23)语音识别模块接收到录音后开始识别，得到识别出的文本信息，并将文本信息送入语音合成模块；

(24)语音合成模块根据用户选定的特征库构建个性化合成模型，接收到文本信息后使用个性化合成模型将文本信息生成具有特定人特征的语音即听起来声音和特定人几乎相同，并通过扬声模块播报出来。

一种语音转换方法，其特征在于实现步骤如下：

(1)在训练模式下收集特定人的语音，通过语音识别模块提取出其中的特征并发送给语音合成模块保存；

(2)转换模式下对说话人进行录音，通过语音识别模块将语音转换成文字信息送给语音合成模块；

(3)语音合成模块将接收到的文字信息合成语音信息，在合成过程中，根据控制模块指定的说话人提取相应的特征信息并使用；

(4)合成的语音通过扬声模块播放，合成的语音中使用的是指定人的语音特征信息，合成的语音听起来和指定人的声音很相像。

本发明与现有技术相比的优点在于：本发明可以实现由说话人A的声音到说话人B的声音的实时转换，可用于防盗、安防等领域。

附图说明

图1为本发明系统框图；

图2为本发明中训练模式流程图；

图3为本发明中转换模式流程图。

具体实施方式

下面将结合附图说明本发明的具体内容。

本发明所述系统分为两种模式：训练模式和转换模式。训练模式可用来构建特定人语音特征库；转换模式可将说话人A的声音转换成特定人B的声音。

本发明所描述系统共有五个部分组成：

录音模块：用于接收说话人的语音，将录音送入识别模块进行特征提取和语义识别。

语音识别模块：接收录音模块的录音，在训练模式下，提取录音的特征信息送入合成模块用于建立特征库；在转换模式下，对语音进行语义识别，输出识别后的文本。

语音合成模块：在训练模式下，该模块收集识别模块传输的语音特征信息，构建个性化特征库；在转换模式下，接收由识别模块传输的文本信息，并根据用户的选择提取相应的特征库，构建合成参数模型，进行语音合成。

扬声模块：接收合成模块的语音进行播报。

用户控制模块：用于用户进行系统功能控制，可以用于启动和取消录音，选择工作模式，选择需要合成的特定人。该模块可使用但不仅限于触摸屏或者按键加显示屏。应至少包括确认(启动)按键、取消按键和上、下选择按键。

要实现语音转换，必须先进行训练，构建特定人的语音特征库，比如我们想要把声音转换成某人甲的声音，至少要先有某人甲的语音特征库，才可以将任意人的语音转换成某人甲的声音。

如图2所示，训练模式工作流程：

(1)用户通过控制模块选择进入训练模式，确认后开始录音，用户可以对着麦克风随意说话，录音模块将用户的录音送入语音识别模块。

(2)语音识别模块接收到录音后，提取语音的特征信息，并将特征信息送入语音合成模块。语音信号本质是物理波，这种波信号中含有各种各样的特征信息，其中有一些特征信息是决定我们听到的声音的音质，并可由此辨别是谁在说话，比如说声纹等特征。当然语音中也有很多特征信息是和说话人身份无关，但是和内容有关的，通过对这些特征的辨识，可以知道说话人说话的内容。在训练模式下，语音识别模块只提取出和说话人身份辨认相关的特征信息，并打上标签，送入语音合成模块构建特征信息库。

(3)语音合成模块收集到带标签的特征信息后构建特征信息库。系统可构建多个说话人的特征库。在语音合成过程中，只要利用这些特征，结合和内容相关的特征，就可以合成出音质与特定说话人十分相似的语音。

如图3所示，转换模式工作流程：

(1)用户通过控制模块选择进入转换模式，进入转换模式后，可以通过控制模块来选择需要将自己的声音转换为谁的声音，比如，要把自己说的话转换成某人甲的声音，只需选定确认后，语音合成模块即从特征库里提取出标签为某人甲的特征信息，并开启录音模块。

(2)录音模块开始录音，录音结束后将录音送入语音识别模块。

(3)语音识别模块接收到录音后开始识别，得到识别出的文本信息，并将文本信息送入语音合成模块。

(4)语音合成模块接收到文本信息后，可以将文本内容转化为相应的语音特征信息，因为语音特征信息里有一部分特征和内容是对应的，只要知道文本的内容，即可构建出相对应的语音特征模型，但是这个模型和说话人身份是无关的。这时，将之前从特征库里提取出的带标签的和说话人身份相关的特征信息与内容相关的语音特征模型相结合，就可以合成出音质与某人甲十分相似的声音。理论上，只要和说话人身份相关的特征选取足够准确和完整，合成出的语音是可以和指定说话人(某人甲)的语音完全相同的。

Claims

1.一种语音转换系统，其特征在于包括:录音模块，语音识别模块，语音合成模块，扬声模块和用户控制模块；

语音识别模块，接收录音模块传送的音频，根据模式的不同进行语音识别，训练、模式时提取相关的语音特征信息送入语音合成模块储存；转换模式下将语音信号转化为相应的文字信息发送给语音合成模块；

扬声模块，接收语音合成模块的语音进行播报；

语音合成模块中的所述训练模式工作流程实现如下：

(12)语音识别模块接收到录音后，提取语音的特征信息，并将特征信息送入语音合成模块，其中，在训练模式下，语音识别模块只提取出和说话人身份辨认相关的信息，并打上标签，送入语音合成模块构建特征信息库；

语音合成模块中的所述转换模式工作流程实现如下：

(24)语音合成模块根据用户选定的特征库构建个性化合成模型，接收到文本信息后使用个性化合成模型将文本信息生成具有特定人特征的语音即听起来声音和特定人几乎相同，并通过扬声模块播报出来，其中，将之前从特征库里提取出来的带标签的和说话人身份相关的特征信息与内容相关的语音特征模型相结合，从而合成出音质与特定人十分相似的声音。