CN103377651B

CN103377651B - 语音自动合成装置及方法

Info

Publication number: CN103377651B
Application number: CN201210133630.7A
Authority: CN
Inventors: 孙艳庆; 庞敏辉; 苏腾荣; 朱璇
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2012-04-28
Filing date: 2012-04-28
Publication date: 2015-12-16
Anticipated expiration: 2032-04-28
Also published as: CN103377651A

Abstract

本发明公开一种语音自动合成装置，包括：提取模块，用于从语音通话中自动提取出语音数据；增强检测模块，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块，用于根据所述合成模型输出相应用户的语音。本发明提供的语音自动合成装置具备周期短、成本低且能够自动积累。

Description

语音自动合成装置及方法

技术领域

本发明涉及移动设备通信应用领域，尤其涉及一种语音自动合成装置及方法。

背景技术

现有的语音合成系统根据表征说话者的语音信号的数据合成，因此合成的语音信号听起来很生硬，表达不自然，并且不能达到确切地表达说话者的感情。而且，语音合成系统一旦成型，一般都是前篇一律、缺乏变化的。使用时间稍长，不仅会感觉很枯燥，使用率和吸引力很低；而且会给用户带来困意，在开车这种典型场景中非常危险。因此，用户需要更富有变化、以及更亲切的声音，例如希望合成的语音像自己的亲人、朋友、或者手机里的联系人。

现有的语音合成的数据库，往往是选取发音标准、饱满、且音质稳定的某个说话人，设计音素覆盖平衡、丰富的语料库，在专业的录音室中用专业的设备进行录制；然后邀请专业的语言学家进行精确地音素、韵律级别的标注；这个过程需要多遍的检查，对于录制不符合要求的部分要重新录制；最后再由专业技术人员模型的训练。或者也可以利用语音变换等技术实现声音的变换，只需利用较少的数据达到较高质量的效果。由此可以看出，制作专人的合成库，成本很昂贵，需要周期往往很长，而且不是每个人的声音都适合做合成系统。要达到高质量的语音变换，往往需要一定数量内容完全相同的平行语料库，即需要专门采集特定文本的语音数据，或者需要一定的人工标注。这在现实生活中很难实现。

美国专利申请US20090638648公开了一种文本-语音(TTS)的生成方法，适用于口语对话系统。其中公开有跟踪文本语音转换的发展进度的方法。该方法包括校验记录语音的语料库，使语料库与文本保持一致；为语料库中的每个发音生成对应的文件元组；利用文件元组中的各种参数追踪每个发音。该方法采用语音识别辅助TTS库的部分标注，但仍需要人工检查。进一步地，该方法只是利用语音识别技术进行辅助一部分标注，但是仍然需要录制语料库，并且对微小的标注错误很敏感。

有鉴于此，业界亟需一种语音自动合成方法，具备周期短、成本低且能够自动积累，无需数量庞大的平行语料库。

发明内容

为了解决上述技术问题，本发明的目的之一在于提供一种语音自动合成装置，包括：提取模块，用于从语音通话中自动提取出语音数据；增强检测模块，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块，用于根据所述合成模型输出相应用户的语音并且不断更新合成模型。

根据本发明的另一实施方式，所述增强检测模块包括：语音增强单元，用于增强语音信号；彩铃音乐检测单元，用于检测并删除与语音无关的彩铃和音乐信息；语音检测单元，用于检测增强后的语音数据；以及分段归类单元，用于区分所述语音数据，并且将区分后的语音数据进行归类。

根据本发明的另一实施方式，所述语音增强单元包括：噪音滤波子单元，用于过滤所述语音数据中的噪音；以及回音消除子单元，用于消除所述语音数据中的回音。

根据本发明的另一实施方式，所述分段归类单元包括：用户日志子单元，用于根据所述语音数据的特征将多个人的语音隔开；分段子单元，用于将多个人语音的切换部分隔开，并且分段计算所述切换部分的距离；以及归类子单元，用于依次将所述切换部分分别合并成多个人的语音，检测并删掉重合的片段。

根据本发明的另一实施方式，所述综合标注模块包括：特征提取单元，用于提取所述语音数据的特征；基频提取单元，用于提取所述语音数据的基频；以及语音识别单元，用于识别所述语音数据。

根据本发明的另一实施方式，所述语音数据的特征包括：词、音素、时间边界点、停顿时长、基频、或音调中的至少一种信息。

根据本发明的另一实施方式，所述语音识别单元包括：第一识别子单元，设置于所述移动终端；以及第二识别子单元，设置于所述网络服务器。

根据本发明的另一实施方式，所述语音识别单元包括：声学模型子单元、语言模型子单元、或解码器中的至少一个部件。

根据本发明的另一实施方式，所述验证筛选模块包括：发音质量评估单元，用于给所述声学模型和所述语音模型进行打分评估；验证单元，用于验证语音数据的识别结果；以及筛选单元，用于筛选出符合预定标准的语音数据。

本发明的另一目的在于提供一种语音自动合成方法，包括如下步骤：S1、通过提取模块从语音通话中自动提取出语音数据；S2、通过增强检测模块自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；S3、通过综合标注模块自动标注经归类后的语音数据，并且生成标注信息；S4、通过验证筛选模块筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及S5、通过语音合成模块根据所述合成模型输出相应用户的语音。

根据本发明的另一实施方式，所述步骤S2进一步包括如下步骤：S21、通过语音增强单元增强语音信号；S22、通过彩铃音乐检测单元检测并删除与语音无关的彩铃和音乐信息；S23、通过语音检测单元检测增强后的语音数据；以及S24、通过分段归类单元区分所述语音数据，并且将区分后的语音数据进行归类。

根据本发明的另一实施方式，所述步骤S21进一步包括如下步骤：S211、通过噪音滤波子单元过滤所述语音数据中的噪音；以及S212、通过回音消除子单元消除所述语音数据中的回音。

根据本发明的另一实施方式，所述步骤S24进一步包括如下步骤：S241、根据所述语音数据的特征通过用户日志子单元将多个人的语音隔开；S242、通过分段子单元将多个人语音的切换部分隔开，并且分段计算所述切换部分的距离；以及S243、通过归类子单元依次将所述切换部分分别合并成多个人的语音，检测并删掉重合的片段。

根据本发明的另一实施方式，所述步骤S3进一步包括如下步骤：S31、特征提取单元，用于提取所述语音数据的特征；S32、基频提取单元，用于提取所述语音数据的基频；以及S33、语音识别单元，用于识别所述语音数据。

根据本发明的另一实施方式，所述步骤S33进一步包括如下步骤：S331、通过设置于所述移动终端的第一识别子单元进行语音识别；以及S332、通过设置于所述网络服务器的第二识别子单元进行语音识别。

根据本发明的另一实施方式，所述步骤S33进一步包括如下步骤：通过声学模型子单元构建声学模型；通过语音模型子单元构建语音模型；以及通过解码器将所述语音数据转化为文本数据。

根据本发明的另一实施方式，所述步骤S4进一步包括如下步骤：S41、通过发音质量评估单元给所述声学模型和所述语音模型进行打分评估；S42、通过验证单元验证语音数据的识别结果；以及S43、通过筛选单元筛选出符合预定标准的语音数据。

本发明提供的语音自动合成方法及装置具备周期短、成本低且能够自动积累，无需数量庞大的平行语料库。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施方式的描述中将变得明显和容易理解，其中：

图1是根据本发明的一示例性实施方式的结构图；

图2是根据本发明的另一示例性实施方式的结构图；

图3是根据本发明的另一示例性实施方式的结构图；

图4是根据本发明的另一示例性实施方式的结构图；

图5是根据本发明的另一示例性实施方式的结构图；

图6是根据本发明的另一示例性实施方式的结构图；

图7是根据本发明的另一示例性实施方式的流程图。

具体实施方式

现在参照附图来具体描述本发明的示例性实施方式。然而，本发明可以用许多不同形式来实施并且不应该认为局限于这里阐述的具体实施方式；相反，提供这些实施方式是为了使本发明的公开彻底和完整，并向本领域技术人员完整地传达本发明的思想、观念、目的、构思、参考方案和保护范围。附图中示例的具体示例性实施方式的详细描述中使用的术语并不是为了限制本发明。附图中，相同标号指代相同要素。

除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

这里所使用的“终端”既包括仅具备无发射能力的无线信号接收器的设备，又包括具有能够在双向通信链路上进行双向通信的接收和发射硬件的设备。这种设备可以包括：具有或没有多线路显示器的蜂窝或其他通信设备；可以组合语音和数据处理、传真和/或数据通信能力的个人通信系统(PCS)；可以包括射频接收器和寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或全球定位系统(GPS)接收器的个人数字助理(PDA)；和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“移动终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行和/或以分布形式在地球和/或空间的任何其他位置运行。

文本-语音合成技术(又称为“语音合成技术(TTS)”)为设备提供了将任意文本转换成声频语音的能力，这种技术的目的是借助语音消息来为用户提供文本信息。目前已经存在若干种用于合成语音的不同的TTS方法，其中包括发音合成、共振峰合成、以及拼接合成方法。

自动语音识别技术(ASR)是一种将人的语音转换为文本的技术。其中涉及训练(Training)：预先分析出语音特征参数，制作语音模板，并存放在语音参数库中。识别(Recognition)：待识语音经过与训练时相同的分析，得到语音参数。将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。失真测度(DistortionMeasures)：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。

主要识别框架：基于模式匹配的动态时间规整法(DTW)、基于统计模型的隐马尔可夫模型法(又称为“音素隐含马尔可夫模型(HMM)”)、以及递归神经系统网络(RNN)。

HMM有三个典型(canonical)算法：1、已知模型参数，计算某一特定输出序列的概率，通常使用forward算法解决；2、已知模型参数，寻找最可能的能产生某一特定输出序列的隐含状态的序列.通常使用Viterbi算法解决；3、已知输出序列，寻找最可能的状态转移以及输出概率.通常使用Baum-Welch算法以及ReversedViterbi算法解决。此外，还使用Junctiontree算法来解决这三个问题。

在描述语言识别的隐马尔科夫模型中，每个单词生成一个对应的HMM，每个观测序列由一个单词的语音构成，单词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现的。

图1是根据本发明的一示例性实施方式的结构图。本发明提供一种语音自动合成装置，包括：提取模块1，用于从语音通话中自动提取出语音数据；增强检测模块2，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块3，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块4，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块5，用于根据所述合成模型输出相应用户的语音并且不断更新合成模型。

图2是根据本发明的另一示例性实施方式的结构图，其中示出了根据本发明的一种语音自动合成装置的结构图。通过增强检测模块2将电话语音通话数据区分出第一人语音A(本地用户的语音)和第二人语音B(外部联系人的语音)。第一人语音A和第二人语音B分别通过语音识别单元进行识别后交由综合标注模块3进行综合标注。验证筛选模块4接收经过标注的第一人语音A和第二人语音B，并经过验证和筛选将语音数据分类存储在分人预料数据库中。当有外部联系人发送短信或邮件时，语音合成模块5自动调用存储在分人预料数据库中的第二人语音B的语音并与短信或邮件的文本文件进行合成，从而以第二人语音B为本地用户朗读出短信或邮件内容。

图3是根据本发明的另一示例性实施方式的结构图，其中示出了联系人语音数据的增强、检测模块(即，增强检测模块2)的结构图。获得联系人语音数据最便捷的途径就是电话中的语音通话，然而语音通话通常包含较大的噪声和非语音等信息，语音部分很多都是自然的口语，而且通常是不少于两个人语音的混合。因此，这一增强检测模块2主要用于解决以上两个问题。

根据本发明的另一实施方式，所述增强检测模块2包括：语音增强单元，用于增强语音信号；彩铃音乐检测单元，用于检测并删除与语音无关的彩铃和音乐信息；语音检测单元，用于检测增强后的语音数据；以及分段归类单元，用于区分所述语音数据，并且将区分后的语音数据进行归类。根据本发明的另一实施方式，所述语音增强单元包括：噪音滤波子单元，用于过滤所述语音数据中的噪音；以及回音消除子单元，用于消除所述语音数据中的回音。通过增强检测模块2可以实现对特定联系人语音的数据采集，并且可以动态更新，捕捉到其近期的声音。

首先利用维纳滤波、回声消除等语音增强技术，可以对语音进行初步的增强。由于联系人的信道信息(手机、网络等)是可以知道的，而且可以在通话空闲时不断动态更新，本发明针对每次通话都设计出一个专用的滤波器，可以达到较好的效果。其次利用音乐彩铃检测模块去掉不相关的声音。然后，利用语音检测模块，将其它非语音部分去除，仅保留有效的语音部分。

方程式1

如上所示的方程式1是维纳滤波器的输入输出关系，需要从噪声中提取出有用的信号。维纳滤波是从连续的(或离散的)输入数据中滤除噪声和干扰以提取有用信息的过程称为滤波，而相应的装置称为滤波器。根据滤波器的输出是否为输入的线性函数，可将它分为线性滤波器和非线性滤波器两种。滤波器研究的一个基本课题就是：如何设计和制造最佳的或最优的滤波器。所谓最佳滤波器是指能够根据某一最佳准则进行滤波的滤波器。具体的技术细节不在此展开，可以参考http://en.wikipedia.org/wiki/Wienerfilter或随附本申请的参考文件1。

回声消除技术，是电话通讯中常用的技术，分析声学回声的产生的机理，可以知道：声学回声最简单的控制方法是改善扬声器的周围环境，尽量减少扬声器播放声音的反射。例如，可以在周围的墙壁上附加一层吸音材料，或增加一层衬垫以增加散射，理想的周围环境是其回响时间或RT-60(声音衰减60dB所需要的时间)在300ms～600ms之间。因为这样的环境一方面可以控制反射，又可以不会使讲话者感到不适。改善环境可以有效地抑制间接声学回声，减少回声的途径，但对直接声学回声却无能为力。回声抑制器是使用较早的一种回声控制方法。回声抑制器是一种非线性的回声消除。它通过简单的比较器将接收到准备由扬声器播放的声音与当前话筒拾取的声音的电平进行比较。如果前者高于某个阈值，那么就允许传至扬声器，而且话筒被关闭，以阻止它拾取扬声器播放的声音而引起远端回声。如果话筒拾取的声音电平高于某全阈值，扬声器被禁止，以达到消除回声的目的。由于回声抑制是一种非线性的回声控制方法，会引起扬声器播放的不连续。影响回声消除的效果，随着高性能的回声消除器的出现，回声抑制器已很少人使用了。声学回声消除的另一方法是使用声学回声消除器(AEC：AcousticEchoChancellor)，AEC是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的，AEC还将话筒的输入与扬声器过去的值相比较，从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少，AEC可以消除各种延迟的回声。可以参考http://en.wikipedia.org/wiki/Echo_cancellation或随附本申请的参考文件2。

理想情况下，联系人的语音，一般可以直接从手机的传入语音通道中获取(即耳机中听到的部分)；而本人的语音，则可以从手机麦克中直接采集。但有些时候，由于耳机/喇叭中的声音会有一部分传入麦克中，那么这个语音或多或少包含了通话多方的语音(一般是双方)。虽然混入的声音一般能量都不大、而且很多可以通过回声消除进行去除，系统还是专门设计了一个解决方案。也就是利用说话人日志模块，利用能量、频谱、韵律等作为特征，把多个人的语音分离开来，单独提取出该说话人的部分。

首先将所有语音进行分段，尽量把说话人切换的地方隔开。然后采用分段计算距离、依次聚类合并的算法，最终完整的分出多个人的语音。最后，检测并删掉重合的片段。针对通话中大多只有两个人的情况，我们可以充分利用说话人识别的技术，达到大于95％的准确率。

语音数据的综合标注参数主要包括：词、音素、时间边界点、停顿时长、基频、音调等信息。词和音素的标注，主要依靠语音识别技术。语音识别技术是本发明的核心技术，主要包含声学模型、语言模型、和解码器等几个子模块，承担语音到文本的转化。本发明中识别引擎的架构是基于服务器和手机双端的。语音识别的框图和组成，可以参考图3左半部分的图示，主要原理是利用声学层(声学模型)、语言层(语言模型)、以及字典的信息，基于观察到的声音序列，利用HMM模型和Viterbi解码算法，识别出最佳的文本/音素序列。当语音识别的模型和实际语音匹配时，识别率可以达到95％以上；反之，识别率会非常低(70％左右)。时间边界的获取(词的和音素)，最简单直接的是从识别器中抽取时间信息，但是它本身并不是最优的，无法保证精确标注的要求。因此我们利用语音识别的声学模型和文本信息，采用强制对齐的方法，重新进行音素级时间点的精确标注。基频信息的提取，首先提取声门波，然后采用常规的提取算法获得每一帧(通常是20-30毫秒)的信息。停顿时长/韵律的提取，需要综合利用文本分析以音素及时间边界信息获得的停顿信息，并优先以停顿信息为主。文本分析，需要预先训练相应的预测模型，然后对识别结果进行相应的预测，目前的预测结果主要有2种，停顿和不停顿。从音素时间边界，可以找出静音段，从而确定其停顿长度。对于两者分析结果有差异的情况，会采用平滑的算法。用筛选后的数据更新优化系统中的模型、以及用发音质量和最大似然的联合准则去优化更新模型。

通过上述各类实施方式，可以对当前语音实现了所需的标注。但是，这些标注中可能存在错误，而错误的标注将会影响最终模型的效果，因此在下一模块中，需要进行进一步的验证和筛选，原则是宁缺毋滥。

图4是根据本发明的另一示例性实施方式的结构图，其中示出了标注数据的验证和筛选(即，综合标注模块3)的结构图。虽然目前语音识别等技术已经有了很大的突破，我们也可以利用建立在服务器集群上的系统来进行高性能的识别，但是针对电话交流中带噪音的自然口语对话，其识别率并不理想。

根据本发明的另一实施方式，所述综合标注模块3包括：特征提取单元，用于提取所述语音数据的特征；基频提取单元，用于提取所述语音数据的基频；以及语音识别单元，用于识别所述语音数据。根据本发明的另一实施方式，所述语音数据的特征包括：词、音素、时间边界点、停顿时长、基频、或音调中的至少一种信息。根据本发明的另一实施方式，所述语音识别单元包括：第一识别子单元，设置于所述移动终端；以及第二识别子单元，设置于所述网络服务器。根据本发明的另一实施方式，所述语音识别单元包括：声学模型子单元、语言模型子单元、或解码器中的至少一个部件。通过综合标注模块3可以实现数据的准确标注，并且可以自动进行标注，从而节省大量的人力。

图5和图6分别示出了根据本发明另一实施方式的验证筛选模块4。图5是根据本发明的另一示例性实施方式的结构图，其中示出了联系人模型：转换合成模型、更新识别模型(即，发音质量评估单元)的结构图。图6是根据本发明的另一示例性实施方式的结构图，其中示出了筛选单元的结构图。所述验证筛选模块4包括：发音质量评估单元，用于给所述声学模型和所述语音模型进行打分评估；验证单元，用于验证语音数据的识别结果；以及筛选单元，用于筛选出符合预定标准的语音数据。通过验证筛选模块4解决了数据质量差别大、以及标注错误多的问题，自动的从中挑选出符合要求的训练数据，尤其是TTS质量要求较高。

语音识别结果的验证、以及语音段的选取，主要是通过发音质量评估模块实现的。即给定了语音和文本信息，要判别朗读的如何，或者是否有(识别)错误。基本的思路是利用上一步中的音素时间边界信息、以及声学模型(标准数据训练得到)中对应音素的模型，进行声学层的打分；以及利用文本信息、语言模型计算得到的概率，进行语言层的打分；最后把两者结合起来，其中最主要的还是声学层的打分。这里，采用一个较高的阈值，尽量过滤掉朗读不好、或者识别错误的语句。

这里介绍一下语音识别训练过程中的最大似然准则，即模型优化/迭代的准则是使所有训练语音的似然值(即概率，或者给定模型时语音数据的后验概率)最大化。用最大似然准则进行模型训练，最常用的算法即期望最大化(EM)算法，即分为E、M两步的迭代构成。具体可以参考http://en.wikipedia.org/wiki/Expectation％E2％80％93maximization_algorith m或随附本申请的参考文件3。当模型固定后，语音的似然值就变成了其先验概率，即下文中的P(x)。上文提到的“发音质量+最大似然的联合准则”，就是不能仅仅以最大化P(X)，也不能仅仅最大化P(W|X)，而是两者的加权，即：a*P(X)+(1-a)*P(W|X)，其中加权系数a是个0～1之间的小数，需要在开发集上进行调整，得到一个最优的听觉效果。

发音质量评估模块，最常用的方法是基于后验概率的方法；后验概率的是指给定当前语音，其内容是给定文本时的概率。假设x是指当前语音，W指当前文本，那么后验概率就是P(W|x)。因为语音识别的准则就是最大后验(MAP)，所以这里以语音识别的公式为例，说明后验概率的计算，同时说明为什么语音识别不能直接用来做置信度估计。根据贝叶斯公式，语音识别可以用如下所示方程式2表征，即如何根据当前语音，求得最佳的文本：

方程式2

可以看出，在最终的应用中，语音识别忽略了当前语音的概率；这样对识别结果没有任何影响，也能减少大量的计算。为了得到真正意义上的后验概率，需要按照以下公式计算出当前语音的概率，然后带入到上述公式中：

p (X) = \underset{H}{Σ} p (X, H) = \underset{H}{Σ} p (H) \cdot p (X | H)

方程式3

如上所示方程式3是用于发音质量评估中，对文本后验概率估计的例子。发音质量评估模块，还将利用声调、能量、信噪比、以及韵律等信息，利用训练好的标准发音质量评估模型，综合进行打分，进一步排除了不适合用于语音合成的数据。这些信息的计算方法也是和上面的公式完全一样，只是采用的模型各不相同而已。并不是单纯从识别，或者发音的角度去验证，而是采用联合估计的思路。

在数据进行筛选后，将利用获得的高质量、高可靠度的语音数据和文本标注信息，利用语音变换技术，得到联系人相关的语音合成模型。针对标注信息中可能出现的错误，以及联系人训练数据的有限性，本发明采用音素聚类(又称为“音素归类”)的方法，提高换结果的可靠性。这些高质量的数据还将用于更新得到说话人相关的声学模型和语言模型，不断提高对该联系人语音的识别性能。

经过以上几个模块，可以拿到一批质量较高的训练数据，但是仍然存在可能的错误、数据量也未必充分。因此，本发明的另一实施方式中还提供采用鲁棒的算法实现了特定联系人合成模型的更新，以及语音识别模型的更新，为后续应用提高了更可靠的保障。

图7是根据本发明的另一示例性实施方式的流程图。本发明的另一目的在于提供一种语音自动合成方法，包括如下步骤：S1、通过提取模块从语音通话中自动提取出语音数据；S2、通过增强检测模块自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；S3、通过综合标注模块自动标注经归类后的语音数据，并且生成标注信息；S4、通过验证筛选模块筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及S5、通过语音合成模块根据所述合成模型输出相应用户的语音。

本发明提供的语音自动合成装置及方法具备周期短、成本低且能够自动积累，无需数量庞大的平行语料库。本发明提供的语音自动合成方法，能够根据场景，分别自动调用不同联系人的语音模型进行语音合成(例如朗读其短信或者邮件)，达到亲切、富有变换性的目的。本发明提供的语音自动合成方法，不需要专门录制语料库，完全自动标注和选择数据，并且通过语音变换构建联系人的模型，因此对标注错误不敏感。

本发明的目的之一在于还提供一种为实施语音自动合成方法而专门设计的方法。本发明的目的之一在于还提供一种为实施语音自动合成方法而专门设计的方法。本发明的目的之一在于还提供一种应用所述语音自动合成方法的文本编辑方法。本发明的目的之一在于还提供一种应用所述语音自动合成方法的文本编辑器。本发明的目的之一在于还提供一种应用所述语音自动合成方法的移动终端。本发明的目的之一在于还提供一种应用所述语音自动合成方法的通讯系统。本发明的语音自动合成装置及方法能够实现远程帮助且能够保护被控终端隐私和安全性。

本领域技术人员应该理解，本发明可以实施为方法、电路或通信系统。因此，本发明可以采用整体硬件实施方式、整体软件实施方式或组合了软件和硬件方面的实施方式的形式，这里将所有这些形式统称为“电路”。本技术领域的普通技术人员可以理解实现上述实施方式方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。此外，在本发明各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。

可以用诸如Smalltalk或C++的面向对象的编程语言、诸如“C”编程语言的常规程序化编程语言，或诸如汇编语言和/或微代码的低级代码来编写用于执行本发明的操作的计算机程序代码。该程序代码可以作为独立的软件包整体地在单个处理器上执行和/或作为另一个软件包的一部分在多个处理器上执行。

上面参照根据本发明的实施方式的方法、方法、系统以及计算机程序产品的结构图和/或框图和/或流图对本发明进行了描述。应该理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

这些计算机程序指令还可以被存储在计算机可读存储器中，所述计算机可读存储器可以指引计算机或其他可编程数据处理方法以特定方式运行，从而存储在计算机可读存储器中的指令生成这样的制品，所述制品包括结构图和/或框图和/或流图的框或多个框中指定的功能的指令方法。

这些计算机程序指令还可以被加载到计算机或其他可编程数据处理方法中，使得能够在计算机或其他可编程数据处理方法上执行一些列操作步骤，以生成计算机实现的处理，从而在计算机或其他可编程数据处理方法上执行的指令提供了用于实现结构图和/或框图和/或流图的框或多个框中指定的功能的步骤。

附图和说明书中公开了本发明的示例性实施方式。尽管采用了特定术语，但是它们仅用于一般以及描述的意义，而并不是出于限制的目的。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本发明的保护范围应以本发明的权利要求书来限定。

Claims

1.一种语音自动合成装置，其特征在于，包括：

提取模块，用于从语音通话中提取出语音数据；

增强检测模块，用于区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；

综合标注模块，用于标注经归类后的语音数据，并且生成标注信息，包括：

特征提取单元，用于提取所述语音数据的特征；所述语音数据的特征包括：音素、时间边界点、停顿时长、基频、或音调中的至少一种信息；

验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型，包括：

筛选单元，用于筛选出符合预定标准的语音数据，将利用刷选出的语音数据和所述标注信息，利用语音变换技术，得到各人的语音合成模型；以及

语音合成模块，用于根据所述合成模型输出相应用户的语音，并不断更新所述合成模型。

2.根据权利要求1所述的语音自动合成装置，其特征在于，所述增强检测模块包括：

语音增强单元，用于增强语音信号；

彩铃音乐检测单元，用于检测并删除与语音无关的彩铃和音乐信息；

语音检测单元，用于检测增强后的语音数据；以及

分段归类单元，用于区分所述语音数据，并且将区分后的语音数据进行归类。

3.根据权利要求2所述的语音自动合成装置，其特征在于，所述语音增强单元包括：

噪音滤波子单元，用于过滤所述语音数据中的噪音；以及

回音消除子单元，用于消除所述语音数据中的回音。

4.根据权利要求2所述的语音自动合成装置，其特征在于，所述分段归类单元包括：

用户日志子单元，用于根据所述语音数据的特征将多个人的语音隔开；

分段子单元，用于将多个人语音的切换部隔开，并且分段计算所述切换部分的距离；以及

归类子单元，用于依次将所述切换部分分别合并成多个人的语音，检测并删掉重合的片段。

5.根据权利要求1所述的语音自动合成装置，其特征在于，所述综合标注模块还包括：

基频提取单元，用于提取所述语音数据的基频；以及

语音识别单元，用于识别所述语音数据。

6.根据权利要求5所述的语音自动合成装置，其特征在于，所述语音数据的特征还包括：词。

7.根据权利要求5所述的语音自动合成装置，其特征在于，所述语音识别单元包括：

第一识别子单元，设置于移动终端；以及

第二识别子单元，设置于网络服务器。

8.根据权利要求5所述的语音自动合成装置，其特征在于，所述语音识别单元包括：声学模型子单元、语言模型子单元、或解码器中的至少一个部件。

9.根据权利要求1所述的语音自动合成装置，其特征在于，所述验证筛选模块还包括：

发音质量评估单元，用于给声学模型和语音模型进行打分评估；

验证单元，用于验证语音数据的识别结果。

10.一种语音自动合成方法，其特征在于，包括如下步骤：

S1、通过提取模块从语音通话中提取出语音数据；

S2、通过增强检测模块区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；

S3、通过综合标注模块标注经归类后的语音数据，并且生成标注信息，包括：S31、特征提取单元，用于提取所述语音数据的特征；所述语音数据的特征包括：音素、时间边界点、停顿时长、基频、或音调中的至少一种信息；

S4、通过验证筛选模块筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型，包括：S43、通过筛选单元筛选出符合预定标准的语音数据，将利用刷选出的语音数据和所述标注信息，利用语音变换技术，得到各人的语音合成模型；以及

S5、通过语音合成模块根据所述合成模型输出相应用户的语音，并且不断更新合成模型。

11.根据权利要求10所述的语音自动合成方法，其特征在于，所述步骤S2进一步包括如下步骤：

S21、通过语音增强单元增强语音信号；

S22、通过彩铃音乐检测单元检测并删除与语音无关的彩铃和音乐信息；

S23、通过语音检测单元检测增强后的语音数据；以及

S24、通过分段归类单元区分所述语音数据，并且将区分后的语音数据进行归类。

12.根据权利要求11所述的语音自动合成方法，其特征在于，所述步骤S21进一步包括如下步骤：

S211、通过噪音滤波子单元过滤所述语音数据中的噪音；以及

S212、通过回音消除子单元消除所述语音数据中的回音。

13.根据权利要求11所述的语音自动合成方法，其特征在于，所述步骤S24进一步包括如下步骤：

S241、根据所述语音数据的特征通过用户日志子单元将多个人的语音隔开；

S242、通过分段子单元将多个人语音的切换部分隔开，并且分段计算所述切换部分的距离；以及

S243、通过归类子单元依次将所述切换部分分别合并成多个人的语音，检测并删掉重合的片段。

14.根据权利要求10所述的语音自动合成方法，其特征在于，所述步骤S3进一步包括如下步骤：

S32、基频提取单元，用于提取所述语音数据的基频；以及

S33、语音识别单元，用于识别所述语音数据。

15.根据权利要求14所述的语音自动合成方法，其特征在于，所述语音数据的特征还包括：词。

16.根据权利要求14所述的语音自动合成方法，其特征在于，所述步骤S33进一步包括如下步骤：

S331、通过设置于移动终端的第一识别子单元进行语音识别；以及

S332、通过设置于网络服务器的第二识别子单元进行语音识别。

17.根据权利要求14所述的语音自动合成方法，其特征在于，所述步骤S33进一步包括如下步骤：

通过声学模型子单元构建声学模型；

通过语音模型子单元构建语音模型；以及

通过解码器将所述语音数据转化为文本数据。

18.根据权利要求10所述的语音自动合成方法，其特征在于，所述步骤S4进一步包括如下步骤：

S41、通过发音质量评估单元给声学模型和语音模型进行打分评估；

S42、通过验证单元验证语音数据的识别结果。