CN103247197A

CN103247197A - 一种基于声纹识别的用户在线学习监测方法

Info

Publication number: CN103247197A
Application number: CN 201310108850
Authority: CN
Inventors: 许东星
Original assignee: SHANGHAI ZHONGSHI TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: SHANGHAI ZHONGSHI TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2013-08-14

Abstract

本发明公开了一种基于声纹识别的用户在线学习监测方法，包括如下步骤：a)当用户通过在线学习系统注册账户时，采集该用户的语音并提取声纹特征；b)在通用的用户声纹模型基础上，根据该用户语音的声纹特征，为当前帐号建立一个该用户的声纹模型；c)用户每次登录系统进行口语学习时，先将监测到登录用户的语音上传到服务器；d)提取该段语音的声纹特征并与该用户注册的声纹模型进行匹配，若匹配成功，则证明是用户本人在学习；反之及时报警并提醒用户。本发明提供的基于声纹识别的用户在线学习监测方法，通过采集用户口语学习中的语音并提取声纹特征，能够对用户的身份进行实时监测，保护用户的账户安全，监测用户的口语学习状况。

Description

一种基于声纹识别的用户在线学习监测方法

技术领域

本发明涉及一种用户在线学习监测方法，尤其涉及一种基于声纹识别的用户在线学习监测方法。

背景技术

计算机辅助语言教学（computer-assisted language learning，简称CALL），按照人们事先安排的语言教学计划和内容进行课堂教学和辅助课外操。早在1955年左右就有人探讨如何把计算机用于教育。现在，计算机辅助语言教学和远程网络结合起来广泛应用于口语学习。在线口语学习平台因时间自由，费用低廉，越来越得到普通用户的青睐；而对于口语学习平台来说，用户的增加，若不增加师资力量，必然导致单个用户资源的不足，而当今社会，人力成本越来越高，如何有效的监管用户的学习情况，已成为摆在口语学习平台的一个重要问题。

同时，用户帐号是用户在线学习的重要凭证，传统的帐号保护如密码、安全卡都是一次认证，即用户登录的时候进行一次认证，后续使用过程将不需要再次认证，存在一定的安全隐患；利用口语学习通常需要语音的特点，可以通过对语音对用户帐号安全进行实时监控，以进一步保障帐号安全。

发明内容

本发明所要解决的技术问题是提供一种基于声纹识别的用户在线学习监测方法，能够对用户的身份进行实时监测，保护用户的账户安全，监测用户的口语学习状况。

本发明为解决上述技术问题而采用的技术方案是提供一种基于声纹识别的用户在线学习监测方法，包括如下步骤：a)当用户通过在线学习系统注册账户时，采集该用户的语音并提取声纹特征；b)在通用的用户声纹模型基础上，根据该用户语音的声纹特征，为当前帐号建立一个该用户的声纹模型；c)用户每次登录系统进行口语学习时，先将监测到登录用户的语音上传到服务器；d)提取该段语音的声纹特征并与该用户注册的声纹模型进行匹配，若匹配成功，则证明是用户本人在学习；反之，若匹配不成功，及时报警并提醒用户。

上述的基于声纹识别的用户在线学习监测方法，其中，所述声纹特征为梅尔倒谱参数：（X₀，…，Xi，…X_N-1），其中，Xi代表第i帧梅尔倒谱参数，N为总帧数，i为自然数，1≤i≤N-1。

上述的基于声纹识别的用户在线学习监测方法，其中，所述梅尔倒谱参数中语音帧长度为100～500帧，每帧100毫秒。

上述的基于声纹识别的用户在线学习监测方法，其中，所述通用的用户声纹模型λ_ubm和用户的声纹模型λ_user都为高斯混合模型：

λ_ubm={ω_m,μ_m,Σ_m,m=1…M}；

λ_user={ω′_m,μ′_m,Σ′_m,m=1…M}；

所述步骤d)中匹配过程包括计算声纹匹配度score，若声纹匹配度score大于预设阈值则匹配成功，所述声纹匹配度score计算如下：

score = \frac{1}{N} Σ_{i = 0}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m}^{'} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m}^{'} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m}^{'})}^{T} {Σ_{m}^{'}}^{- 1} (X_{i} - μ_{m}^{'})})

- \frac{1}{N} Σ_{i = 0}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m})}^{T} {Σ_{m}}^{- 1} (X_{i} - μ_{m})})

式中M为高斯混合模型的个数，D为维数；ω_m、μ_m、Σ_m表示所述通用的用户声纹模型中第m个混合度的权重、均值、方差；ω′_m、μ′_m、Σ′_m表示所述用户的声纹户模型中第m个混合度的权重、均值、方差，m为自然数，1≤m≤M。

上述的基于声纹识别的用户在线学习监测方法，其中，还包括实时采集用户口语学习中的语音送到服务器用于身份验证，重复步骤d)进行当前学习用户的身份识别监控。

上述的基于声纹识别的用户在线学习监测方法，其中，对于声纹模型匹配成功的用户语音进行口语自动评测统计，并将评测结果相关信息记录到用户的个人数据库中。

上述的基于声纹识别的用户在线学习监测方法，其中，所述评测结果相关信息包括发音标准度、发音单元的时长、发音单元之间的停顿、声调和语速信息。

本发明对比现有技术有如下的有益效果：本发明提供的基于声纹识别的用户在线学习监测方法，通过采集用户口语学习中的语音并提取声纹特征，能够对用户的身份进行实时监测，保护用户的账户安全，监测用户的口语学习状况。

附图说明

图1为本发明基于声纹识别的用户在线学习监测流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于声纹识别的用户在线学习监测流程示意图。

请参见图1，本发明提供的基于声纹识别的用户在线学习监测方法包括如下步骤：

S101：当用户通过在线学习系统注册账户时，采集该用户的语音并提取声纹特征。声纹指人的语音所蕴含的身份信息，声纹认证又称说话人确认，属于自动说话人识别的一种，即通过语音自动对说话人的身份进行确认。声纹特征可采用短时倒谱参数，如梅尔倒谱参数：（X₀，…，X_i，…X_N-1），其中，X_i代表第i帧梅尔倒谱参数，N为总帧数，i为自然数，1≤i≤N-1。综合考虑识别速度和准确率，所述倒谱参数中语音帧长度为100～500帧，每帧100毫秒。

S102：根据该用户语音的声纹特征，利用通用的用户声纹模型，自适应为当前帐号建立一个该用户的声纹模型。通用的用户声纹模型是通过采集大量语音建立的一个与说话人无关、与具体环境无关的通用的声纹模型。如通用背景模型（UBM），本质上是一个高斯混合模型，其参数可描述为λ_ubm={ω_m,μ_m,Σ_m,m=1...M},M为高斯混合模型的个数，根据经验，优选取值1024，其中ω_m、μ_m、Σ_m表示第m个混合度的权重、均值、方差，模型的参数可以通过LBG算法获取一个初值，并利用最大期望(EM)算法重估参数。

LBG算法由Linde，Buzo和Gray于1980年提出，又称为K-means算法。该算法是基于最近邻原则把训练矢量分配到与它欧式距离最小的码字的簇中。码书设计是基于以下两条优化准则：1）最近领域准则。即对于给定码书，训练矢量集的最优分类可通过把每个训练矢量映射为离它最近的码字而得到；训练矢量x_i按最近领域的准则，聚类到码字y_j中，该隶属度函数μ_j(x_i)定义为：

2）质心条件。即对于给定的训练矢量分类，其对应的最优码书中各码字是通过求各簇的中心矢量而获得，即：

y_{j} = \frac{Σ_{i = 1}^{M} μ_{j} (x_{i}) x_{i}}{μ_{j} (x_{i})}

在通用背景模型的基础上，利用用户的语音自适应更新得到用户模型；用户模型λ_user={ω′_m,μ′_m,Σ′_m,m=1…M},M为高斯混合模型的个数，与UBM的M相同，其中ω′_m,μ′_m,Σ′_m表示第m个混合度的权重、均值、方差；可通过MAP算法从UBM的参数更新获得。

S103：用户每次登录系统进行口语学习时，先将监测到登录用户的语音上传到服务器。

S104：提取该段语音的声纹特征并与该用户注册的声纹模型进行匹配，若匹配成功，则证明是用户本人在学习；反之，若匹配不成功，则表示采集的语音非注册账户的，用户账户可能存在危险，及时提醒用户。声纹模型匹配可以通过计算声纹匹配度score实现。从用户语音中提取声纹特征X_i,(0≤i＜N),假设通用背景模型为λ_ubm，用户模型为λ_user，声纹匹配度score计算如下：

score=log(P(X|λ_user))–log(P(X|λ_ubm))

对于本发明采用的高斯混合模型，将参数代入可得到：

score = \frac{1}{N} Σ_{i = 0}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m}^{'} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m}^{'} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m}^{'})}^{T} {Σ_{m}^{'}}^{- 1} (X_{i} - μ_{m}^{'})})

- \frac{1}{N} Σ_{i = 1}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m})}^{T} {Σ_{m}}^{- 1} (X_{i} - μ_{m})})

score为浮点数，取值一般在0附近，也可通过一些评分规则的方式进行进一步的处理，如均值规则、模型规则等；阈值为θ,其值在开发集合上训练获取，若score≥θ，则判定匹配成功，若score<θ，则判定匹配不成功。

为了实现对用户的身份进行实时监测，在用户学习口语的过程中，可以实时采集用户口语学习中的语音送到服务器用于身份验证，重复步骤S104进行当前学习用户的身份识别监控，若匹配不成功，则表示当前采集的语音非注册账户的，不是本人在学习。最后，根据用户需要，可以对匹配成功的口语发音进行口语自动评测，得到用户此段发音的评测结果，比如获取用户发音单元的发音标准度、发音单元的时长、发音单元之间的停顿、声调、语速等信息，并将评测结果相关信息记录到用户的个人数据库中。比如统计分析用户历史学习的口语评测结果，判定用户口语学习的问题所在，如经常发错的音素有哪些等等。

综上所述，本发明提供的基于声纹识别的用户在线学习监测方法，通过采集用户口语学习中的语音并提取声纹特征，能够对用户的身份进行实时监测，保护用户的账户安全，监测用户的口语学习状况。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于声纹识别的用户在线学习监测方法，其特征在于，包括如下步骤：

a)当用户通过在线学习系统注册账户时，采集该用户的语音并提取声纹特征；

b)在通用的用户声纹模型基础上，根据该用户语音的声纹特征，为当前帐号建立一个该用户的声纹模型；

c)用户每次登录系统进行口语学习时，先将监测到登录用户的语音上传到服务器；

d)提取该段语音的声纹特征并与该用户注册的声纹模型进行匹配，若匹配成功，则证明是用户本人在学习；反之，若匹配不成功，及时报警并提醒用户。

2.如权利要求1所述的基于声纹识别的用户在线学习监测方法，其特征在于，所述声纹特征为梅尔倒谱参数：（X₀，…，X_i，…X_N-1），其中，X_i代表第i帧梅尔倒谱参数，N为总帧数，i为自然数，1≤i≤N-1。

3.如权利要求2所述的基于声纹识别的用户在线学习监测方法，其特征在于，所述梅尔倒谱参数中语音帧长度为100～500帧，每帧100毫秒。

4.如权利要求2所述的基于声纹识别的用户在线学习监测方法，其特征在于，所述通用的用户声纹模型λ_ubm和用户的声纹模型λ_user都为高斯混合模型：

λ_ubm={ω_m,μ_m,Σ_m,m=1…M}；

λ_user={ω′_m,μ′_m,Σ′_m,m=1…M}；

score = \frac{1}{N} Σ_{i = 0}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m}^{'} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m}^{'} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m}^{'})}^{T} {Σ_{m}^{'}}^{- 1} (X_{i} - μ_{m}^{'})})

- \frac{1}{N} Σ_{i = 0}^{N - 1} \log (Σ_{m = 1}^{M} ω_{m} \frac{1}{{(2 π)}^{D / 2} {| Σ_{m} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{i} - μ_{m})}^{T} {Σ_{m}}^{- 1} (X_{i} - μ_{m})})

5.如权利要求1～4任一项所述的基于声纹识别的用户在线学习监测方法，其特征在于，还包括实时采集用户口语学习中的语音送到服务器用于身份验证，重复步骤d)进行当前学习用户的身份识别监控。

6.如权利要求5所述的基于声纹识别的用户在线学习监测方法，其特征在于，对于声纹模型匹配成功的用户语音进行口语自动评测统计，并将评测结果相关信息记录到用户的个人数据库中。

7.如权利要求6所述的基于声纹识别的用户在线学习监测方法，其特征在于，所述评测结果相关信息包括发音标准度、发音单元的时长、发音单元之间的停顿、声调和语速信息。