CN105047192A

CN105047192A - 基于隐马尔科夫模型的统计语音合成方法及装置

Info

Publication number: CN105047192A
Application number: CN201510272044.4A
Authority: CN
Inventors: 俞凯; 王向然; 陈博; 徐佳琛
Original assignee: Shanghai Jiaotong University; Suzhou Speech Information Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-11-11
Anticipated expiration: 2035-05-25
Also published as: CN105047192B

Abstract

一种基于隐马尔科夫模型的统计语音合成方法及装置，通过生成关联多模态的自然语言问题，根据自然语言问题生成相应图片并加入干扰元素，根据问题文本，使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声，本发明将验证码的模式从单模态提升到互相之间有语义关联的多模态，进一步增进现有验证码对于人类和计算机的区分性，提升互联网验证系统的人机区分度，加强安全性能。

Description

基于隐马尔科夫模型的统计语音合成方法及装置

技术领域

本发明涉及的是一种中文多模态验证码。尤其是基于隐马尔科夫模型的统计语音合成的多模态验证码以及通过自然语言语义连接不同模态(图片和声音)的信息。

背景技术

验证码的全称是全自动区分计算机和人类的公开图灵测试，是一种用来区分用户是否是人类的测试。其实现机制是由计算机程序自动生成一个问题由用户来解答，这个问题的能由人类解答，但是计算机不能解答。因此用户能够回答出问题，就被认为是人类。验证码的特点还包括可以由计算机程序全自动生成，其答案可以由计算机评判正误。

验证码的作用在于有效防止利用技术手段进行大量自动化的操作，保护服务器的计算资源和安全：例如防止网站的批量注册，防止大规模网上发帖、发广告和垃圾信息，防止密码被暴力破解，防止网站被恶意攻击等等。所以在互联网安全领域，验证码的应用十分广泛。近年来由于在线支付的发展，涉及到金钱交易的登录系统越来越多，也增大了破解登录系统验证码的诱惑。许多个人和商业公司，用不同的方法在尝试破解验证码，这就给网站的安全和用户的隐私带来了隐患。

目前，验证码主要有识别图像中的文字、识别语音中的文字和回答验证问题等几种形式。大部分的网站采用图片验证码，即通过程序随机生成一个字符串，可以是英文、中文或者数字，将该字符串生成为图片交由用户识别。用户将肉眼识别的结果提交到服务器，如果提交的字符串和原始生成的字符串一致，就通过了此次验证码测试。语音验证码同理，只不过给用户识别的媒介是字符串发音的音频。通常来说，为了防止机器识别，图片验证码需要对字符串文本做出变形，并加入噪点；语音验证码需要加入背景音、噪音。

经过现有的技术检索发现，中国专利公开号CN101420305A，公开了一种“语音验证码的实现方法”。该方法使用提前录制的英文字母和数字音频组合成为验证音频。该方法的缺陷在于：第一是在国内无法广发应用，大众对英文字母的识别率并不高；第二是由单个语音元素直接组合，并且语音元素数量太少，目前的语音识别系统已经对此类音频有了良好的识别效果。

中国专利公开号CN101662365A，公开了一种“中文语音验证码的生成方法”，其中验证音频文件是由验证码基本信息数据库中抽取并合成，添加干扰的背景音，再进行变调(回声)处理。该方法的缺陷在于，由数据库中抽取的音频文件，发音不可变，有可能通过降噪处理之后进行准确识别。

中国专利公开号CN1980128A，公开了一种“互联网用户验证的方法和系统”。其中验证码的实现方案是，按照人类自然语言理解的机制产生验证问题，用户理解该验证问题并通过人工思考产生答案。此方法缺少随机性，有可能通过不断刷新验证页面，获取大量的验证问题，即爬取问题数据库，被暴力破解。

中国专利公开号CN102567655A，公开了一种“机器人外挂检测系统及方法”。其中问题生成模块在服务器端，根据当前的用户信息(问题的答案)，如用户在游戏中的经验值，通过自然语言生成方法随机自动生成问题，并由语音合成模块将问题从文本转换成语音，传送到客户端。此方法对同一个问题来说，不同用户的答案不同，因此不具备作为普适的验证码的特点。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于隐马尔科夫模型的统计语音合成方法及装置，将验证码的模式从单模态提升到互相之间有语义关联的多模态，进一步增进现有验证码对于人类和计算机的区分性，提升互联网验证系统的人机区分度，加强安全性能。

本发明是通过以下技术方案实现的：

本发明涉及一种基于隐马尔科夫模型的统计语音合成方法，通过生成关联多模态的自然语言问题，根据自然语言问题生成相应图片并加入干扰元素，根据问题文本，使用基于HMM(隐马尔科夫模型)的语音合成方法的多模态验证码合成语音，并加入噪声，使得破解验证码的难度由单模态的验证码破解概率提升到几个单模态的验证码破解概率的叠加，在不降低用户体验的基础上提高了验证码的人机区分度。

本发明涉及一种实现上述方法的装置，包括：自然语言问题生成模块、图片生成模块以及语音合成模块模块，其中：自然语言问题生成模块与图片生成模块、语音合成模块相连，并输出图片生成规则到图片生成模块，输出自然语言问题字符串到语音合成模块，输出问题答案；图片生成模块与自然语言问题生成模块相连并接收图片生成规则，输出最终生成的图片；语音合成模块与自然语言问题生成模块相连并接收自然语言问题字符串，输出最终合成的语音。

所述的自然语言问题生成模块包括：数据持久单元、参数生成单元、问题与文本答案生成单元，其中：数据持久单元与参数生成单元、问题与文本答案生成单元相连，向参数生成单元和问题与文本答案生成单元发送自然语言问题模版，向图片生成模块发送图片生成规则；参数生成单元与数据持久单元、问题与文本答案生成单元相连，从数据持久单元接收自然语言问题模版，提取参数列表，随机生成参数并发送到问题与文本答案生成单元和图片生成模块；问题与文本答案生成单元与数据持久单元、参数生成单元相连，从数据持久单元接收自然语言问题模版，从参数生成单元接收参数，生成自然语言问题字符串传送给语音合成模块，计算得到答案并。

所述的图片生成模块包括：原始图片生成单元、数据持久单元、变换与加噪单元，其中：原始图片生成单元与变换与加噪单元相连，接自然语言问题生成模块传送过来的参数和图片生成规则，将参数带入图片生成规则，生成原始图片，传送到变换与加噪单元；数据持久单元和变换与加噪单元相连，向变换与加噪单元随机发送噪声图片；变换与加噪单元与原始图片生成单元、数据持久单元相连，接收原始图片生成单元的发送的原始图片和数据持久单元发送的噪声图片，将原始图片通过几何变换相互拼接，再与噪声图片叠加，生成最后的图片并传送给用户端。

所述的语音合成模块包括：数据持久单元、参数调整单元、自适应合成单元单元、统计合成单元，其中：数据持久单元与参数调整单元和自适应合成单元单元相连，向参数调整单元发送预先存储的参数动态调整范围，随机选择事先训练的声音模型、决策树已经自适应数据集并向自适应合成单元单元发送；参数调整单元与数据持久单元、统计合成单元相连，从数据持久单元接收参数动态调整范围，生成动态调整的参数并向统计合成单元发送；自适应合成单元单元接收参数调整单元发送的声音模型、决策树以及自适应数据集，对该模型做自适应训练并输出训练得到的声音模型和决策树到统计合成单元；统计合成单元与数据持久单元、参数调整单元、自适应合成单元单元相连，接收参数调整单元传送的参数并对自适应合成单元单元传送过来的时长模型进行调整，最后接收自然语言问题生成模块传送的问题字符串，生成问题语音并传送给用户端。

技术效果

与现有技术相比，本发明提升了验证码对于人和计算机的区分度，在不降低人的理解难度的情况下，使现有破解程序破解成功的概率，由单模态的破解成功的概率，变成了语音识别成功的概率、语义理解成功的概率、以及图片内容理解成功的概率三者的叠加，大大提高了计算机程序破解的难度。

附图说明

图1为本发明的流程图。

其中带箭头的实线为本发明的控制流程，虚线代表需要问题生成模块来验证用户上传的回答，仅仅代表两个模块之间的联系而非控制流程。

图2为实施例中自然语言问题生成模块工作示意图。

图3为实施例中图片生成模块工作示意图。

图4为实施例中语音合成模块工作示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例具体包括以下步骤：

所述方法具体包括以下步骤：

步骤1、自然语言问题生成，具体包括以下步骤：

1.1)建立自然语言问题规则数据库，每条数据库记录包括一个自然语言问题生成规则和对应的图片生成规则。这两条对应的规则的输入参数相同。

1.2)从自然语言问题规则数据库中随机选取一条记录，随机产生该条记录中的规则所需的参数，并保存该数据库记录和参数。

1.3)根据该条记录中的规则和上一步中随机生成的参数，生成一条字符串，即所需的自然语言问题。

1.4)根据该条记录中的规则和上一步中随机生成的参数，计算并生成问题的答案。

步骤2、图片生成，具体包括以下步骤：

2.1)提取步骤1.2中的所保存的数据库记录。

2.2)根据该条数据库记录中的的自然语言问题生成规则所对应的图片生成规则，以及随机产生的输入参数，生成一张带有步骤1.3中生成的自然语言问题的答案的原始图片。

2.3)将上一步生成原始图片，通过一系列操作如几何变换、加入干扰线条和像素点、随机叠加干扰图片等方法，生成最后呈现给用户的图片。

步骤3、通过基于隐马尔科夫模型的统计语音合成方法合成语音，具体包括以下步骤：

3.1)建立已经训练好的基础语音模型数据库，每一条数据库记录包含一个基础的语音数据的模型和决策树。每一个语音数据的模型和决策树由多种说话人、多种语调、多种说话风格的声音数据集经过训练得到。

3.2)随机选择一条语音数据库中的记录，取出记录中的模型和决策树，通过动态设置参数调整时长模型，对声学模型进行自适应训练得到新的声学模型。

3.3)通过调整后的模型和决策树，生成新的二进制语音合成文件。

3.4)取得步骤1.3中生成的自然语言问题字符串，通过上一步生成的二进制语音合成文件，生成原始的合成语音。

3.5)给上一步生成的原始合成语音加入加性噪声(原始音频和噪声音频直接叠加)，生成最终的音频。

如图1所示，本装置包括：自然语言问题生成模块、图片生成模块以及语音合成模块模块，其中：自然语言问题生成模块与图片生成模块、语音合成模块相连，并输出图片生成规则到图片生成模块，输出自然语言问题字符串到语音合成模块，输出问题答案；图片生成模块与自然语言问题生成模块相连并接收图片生成规则，输出最终生成的图片；语音合成模块与自然语言问题生成模块相连并接收自然语言问题字符串，输出最终合成的语音。

如图2所示，所述的自然语言问题生成模块通过提前录入的自然语言问题规则数据库，生成了相应的问题文本和答案。数据库中存储的并不是普通的纯文本问题，而是可以带入参数生成问题与答案的问题模版。通过随机指定不同的参数，生成问题文本、问题的答案以及生成图片所需的参数。

如图3所示，所述的图片生成模块通过事先录入的图片元素数据库，以及问题生成模块提供的生成图片所需参数，生成所需的图片。

如图4所示，所述的语音合成模块由基于HMM(隐马尔科夫模型)的统计语音合成系统采用问题文本作为输入合成音频文件。基于HMM(隐马尔科夫模型)的统计语音合成系统可以通过调整不同说话人，不同语速、语调、可变的语气来达到难以令计算机识别的目的。

所述的自适应合成单元单元根据原始的声音模型的均值和方差，经过线性变换得到新的声音模型的均值和方差，实现对声音模型进行自适应训练，具体为：

{\hat{μ}}^{(m)} = A^{'} μ^{(m)} - b^{'}, {\hat{Σ}}^{(m)} = A^{'} Σ^{(m)} A^{' T}

其中：μ^(m)、∑^(m)分别为原始的声音模型的均值和方差，和分别为经过线性变换得到新的声音模型的均值和方差，A′是转移矩阵，b是均值向量的偏置，通过取下式最大值得到：

\log N (o_{t}; {\hat{μ}}^{(m)}, {\hat{Σ}}^{(m)}) = \log (N ({\hat{o}}_{t}; μ^{(m)}, Σ^{(m)})) + \log | A |

其中：

\log N (o_{t}; {\hat{μ}}^{(m)}, {\hat{Σ}}^{(m)}) = \log (N ({\hat{o}}_{t}; μ^{(m)}, Σ^{(m)})) + \log | A |

为在新的声音模型均值方差下，当前数据集(o_t)的概率的对数似然函数。该对数似然函数可转化为等式右边式子，从而视为仅有A一个自变量的函数，其中：μ^(m)、∑^(m)为原始的声音模型的均值与方差，为经过变换的自适应数据集，

{\hat{o}}_{t} = A^{' - 1} o_{t} + A^{' - 1} b^{'} = A o_{t} + b .

所述的统计合成单元根据训练好的隐马尔科夫模型序列的均值矩阵与方差矩阵得到静态语音特征，即：W^TU^-1WC＝W^TU^-1M^T

其中：M为训练好的隐马尔科夫模型序列的均值矩阵，U为方差矩阵，C为静态语音特征，隐马尔科夫模型序列的M与U对应上下文标签序列，该上下文标签序列由自然语言问题文本生成得到，W为动态特征的窗口矩阵。

本装置使用过程如下：

用户通过网页端或者手机本地应用登录目标网站，并请求登录。服务器收到登录请求，进入问题生成模块。问题生成模块在问题模版数据库中按照随机规则或者其他规则选择问题模版，通过编程语言的随机函数生成了该模版需要的参数。例如，问题模版包含如下内容：图片中颜色1和颜色2的数字之和是多少？该问题模版需要的参数是两个颜色代码，两个数字，例如“#ff0000#00ff00534278”。生成问题文本：“图中红色和绿色的数字之和是多少？”将“图中红色和绿色的数字之和是多少？”传送给语音合成模块，将“#ff0000#00ff00534278”传送给图片合成模块。

图片合成模块收到问题生成模块的参数，合成相应的图片，并加入干扰图像元素。如“#ff0000#00ff00534278”，用随机的字体字号生成红色的534和278两个数字，并作几何变换，加入干扰线条和像素点，并随机附上背景干扰图片，生成最终图片。

语音合成模块收到问题文本，合成音频，并加入干扰噪声。例如“图中红色和绿色的数字之和是多少？”，将该文本传送到语音合成模块的接口，接口随机选择事先训练好的人物声音模型。不同的人发声，或者同一个人发声不同的说话风格、说话速度已经事先在训练的过程中处理，即使用不同说话风格、语调的原始数据或调整时长模型。合成相应语音之后，加入加性噪声(将原始音频和噪声音频直接叠加)，生成最终的音频。

图片和音频可生成完之后立刻异步传送，让用户尽早看到图片或听到音频，增加用户的思考反应时间。用户理解音频中的问题之后，根据图片中的信息写下答案，点击提交。服务器收到答案，判断答案正误，返回用户是否验证通过的消息。可选地，如果用户认为听不清语音、或者看不清图片，则点击刷新，重新传送图片和语音给客户端。

Claims

1.一种基于隐马尔科夫模型的统计语音合成方法，其特征在于，通过生成关联多模态的自然语言问题，根据自然语言问题生成相应图片并加入干扰元素，根据问题文本，使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声，使得破解验证码的难度由单模态的验证码破解概率提升到几个单模态的验证码破解概率的叠加，在不降低用户体验的基础上提高了验证码的人机区分度。

2.根据权利要求1所述的方法，其特征是，所述的合成方法，具体包括：

步骤1、自然语言问题生成，具体包括以下步骤：

1.1)建立自然语言问题规则数据库，每条数据库记录包括一个自然语言问题生成规则和对应的图片生成规则，这两条对应的规则的输入参数相同；

1.2)从自然语言问题规则数据库中随机选取一条记录，随机产生该条记录中的规则所需的参数，并保存该数据库记录和参数；

1.3)根据该条记录中的规则和上一步中随机生成的参数，生成一条字符串，即所需的自然语言问题；

1.4)根据该条记录中的规则和上一步中随机生成的参数，计算并生成问题的答案；

步骤2、图片生成，具体包括以下步骤：

2.1)提取步骤1.2中的所保存的数据库记录；

2.2)根据该条数据库记录中的的自然语言问题生成规则所对应的图片生成规则，以及随机产生的输入参数，生成一张带有步骤1.3中生成的自然语言问题的答案的原始图片；

2.3)将上一步生成原始图片，通过一系列操作如几何变换、加入干扰线条和像素点、随机叠加干扰图片等方法，生成最后呈现给用户的图片；

3.1)建立已经训练好的基础语音模型数据库，每一条数据库记录包含一个基础的语音数据的模型和决策树，每一个语音数据的模型和决策树由多种说话人、多种语调、多种说话风格的声音数据集经过训练得到；

3.2)随机选择一条语音数据库中的记录，取出记录中的模型和决策树，通过动态设置参数调整时长模型，对声学模型进行自适应训练得到新的声学模型；

3.3)通过调整后的模型和决策树，生成新的二进制语音合成文件；

3.4)取得步骤1.3中生成的自然语言问题字符串，通过上一步生成的二进制语音合成文件，生成原始的合成语音；

3.5)给上一步生成的原始合成语音加入加性噪声，即原始音频和噪声音频直接叠加，生成最终的音频。

3.一种实现权利要求1或2所述方法的装置，其特征在于，包括：自然语言问题生成模块、图片生成模块以及语音合成模块模块，其中：自然语言问题生成模块与图片生成模块、语音合成模块相连，并输出图片生成规则到图片生成模块，输出自然语言问题字符串到语音合成模块，输出问题答案；图片生成模块与自然语言问题生成模块相连并接收图片生成规则，输出最终生成的图片；语音合成模块与自然语言问题生成模块相连并接收自然语言问题字符串，输出最终合成的语音。

4.根据权利要求3所述的装置，其特征是，所述的自然语言问题生成模块包括：数据持久单元、参数生成单元、问题与文本答案生成单元，其中：数据持久单元与参数生成单元、问题与文本答案生成单元相连，向参数生成单元和问题与文本答案生成单元发送自然语言问题模版，向图片生成模块发送图片生成规则；参数生成单元与数据持久单元、问题与文本答案生成单元相连，从数据持久单元接收自然语言问题模版，提取参数列表，随机生成参数并发送到问题与文本答案生成单元和图片生成模块；问题与文本答案生成单元与数据持久单元、参数生成单元相连，从数据持久单元接收自然语言问题模版，从参数生成单元接收参数，生成自然语言问题字符串传送给语音合成模块，计算得到答案。

5.根据权利要求3所述的装置，其特征是，所述的图片生成模块包括：原始图片生成单元、数据持久单元、变换与加噪单元，其中：原始图片生成单元与变换与加噪单元相连，接自然语言问题生成模块传送过来的参数和图片生成规则，将参数带入图片生成规则，生成原始图片，传送到变换与加噪单元；数据持久单元和变换与加噪单元相连，向变换与加噪单元随机发送噪声图片；变换与加噪单元与原始图片生成单元、数据持久单元相连，接收原始图片生成单元的发送的原始图片和数据持久单元发送的噪声图片，将原始图片通过几何变换相互拼接，再与噪声图片叠加，生成最后的图片并传送给用户端。

6.根据权利要求3所述的装置，其特征是，所述的语音合成模块包括：数据持久单元、参数调整单元、自适应合成单元单元、统计合成单元，其中：数据持久单元与参数调整单元和自适应合成单元单元相连，向参数调整单元发送预先存储的参数动态调整范围，随机选择事先训练的声音模型、决策树已经自适应数据集并向自适应合成单元单元发送；参数调整单元与数据持久单元、统计合成单元相连，从数据持久单元接收参数动态调整范围，生成动态调整的参数并向统计合成单元发送；自适应合成单元单元接收参数调整单元发送的声音模型、决策树以及自适应数据集，对该模型做自适应训练并输出训练得到的声音模型和决策树到统计合成单元；统计合成单元与数据持久单元、参数调整单元、自适应合成单元单元相连，接收参数调整单元传送的参数并对自适应合成单元单元传送过来的时长模型进行调整，最后接收自然语言问题生成模块传送的问题字符串，生成问题语音并传送给用户端。

7.根据权利要求6所述的装置，其特征是，所述的自适应合成单元单元根据原始的声音模型的均值和方差，经过线性变换得到新的声音模型的均值和方差，实现对声音模型进行自适应训练，具体为：其中：μ^(m)、∑^(m)分别为原始的声音模型的均值和方差，和分别为经过线性变换得到新的声音模型的均值和方差，A′是转移矩阵，b′是均值向量的偏置，通过取下式最大值得到：

\log N (o_{t}; {\hat{μ}}^{(m)}, {\hat{Σ}}^{(m)}) = \log (N ({\hat{o}}_{t}; μ^{(m)}, Σ^{(m)})) + \log | A |,

其中：

\log N (o_{t}; {\hat{μ}}^{(m)}, {\hat{Σ}}^{(m)}) =

\log (N ({\hat{o}}_{t}; μ^{(m)}, Σ^{(m)})) + \log | A |

为在新的声音模型均值方差下，当前数据集(o_t)的概率的对数似然函数，该对数似然函数可转化为等式右边式子，从而视为仅有A一个自变量的函数，其中：为经过变换的自适应数据集，

8.根据权利要求6所述的装置，其特征是，所述的统计合成单元根据训练好的隐马尔科夫模型序列的均值矩阵与方差矩阵得到静态语音特征，即：W^TU^-1WC＝W^TU^-1M^T，其中：M为训练好的隐马尔科夫模型序列的均值矩阵，U为方差矩阵，C为静态语音特征，隐马尔科夫模型序列的M与U对应上下文标签序列，该上下文标签序列由自然语言问题文本生成得到，W为动态特征的窗口矩阵。