CN114299921A

CN114299921A - 一种语音指令的声纹安全性评分方法和系统

Info

Publication number: CN114299921A
Application number: CN202111483675.2A
Authority: CN
Inventors: 徐文渊; 冀晓宇; 何睿文; 程雨诗
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-08
Anticipated expiration: 2041-12-07
Also published as: CN114299921B

Abstract

本发明公开了一种语音指令的声纹安全性评分方法和系统，属于智能语音系统中的说话人识别安全技术领域。方法包括声纹安全性分析，获取说话内容变量取值与声纹误识别率之间的数据对集合；将声纹安全性评分函数看作丰富度、长度、细节、模型为自变量的函数；分析说话内容变量与声纹认证误识别率间的对应关系，解耦声纹安全性评分函数，得到长度‑丰富度二维变量与误识别率、每种音素长度与误识别率的拟合函数；定义声纹安全性评分函数，构造误识别率与安全性评分间的映射关系，再通过上述拟合函数构造函数自变量与误识别率间的映射关系，构造声纹安全性评分函数，完成对语音指令的声纹安全性评分。

Description

一种语音指令的声纹安全性评分方法和系统

技术领域

本发明属于智能语音系统中的说话人识别安全技术领域，具体涉及一种语音指令的声纹安全性评分方法和系统。

背景技术

随着智能设备的普及和人工智能技术的发展，智能语音系统的应用越来越广泛。智能语音系统包含的功能有两个重要的分支，分别是语音识别和说话人识别，语音识别主要用于将声音转换成具有语义的文本，说话人识别主要用于通过语音识别的身份。说话人识别技术目前已在金融交易、资产管理、刑侦、电话服务、语音助手等行业中大量应用，并承担身份认证和识别等重要功能。智能语音系统的使用给各行业带来了便捷的同时也引入了新的安全问题。

根据声纹生成和使用的工作流程来看，声纹安全性与用户、说话内容、声纹模型、环境因素相关，且由于声纹主要用于身份认证和识别，因此声纹安全性可以用可区分性来衡量，具体来说声纹的可区分性可以用声纹认证或识别的准确率来量化。不同个体和组织可从不同的角度提升声纹的安全性，对于声纹模型训练厂商来说可以通过改进模型架构、增加训练数据等方式进行提升模型的鲁棒性；对于声纹服务应用厂商来说，可以通过限制声纹识别的语音音频长度、麦克风设备、语音指令内容等方式提升说话人系统的识别准确率；对于用户来说，在应用自定义语音内容的文本无关模型时，可以自行选择语音指令进行认证以提高声纹认证的可用性或安全性。综上所示，通过改变或规定声纹识别音频对应的说话内容来提高声纹的安全性是提高声纹安全性的重要方法。

构造基于说话内容改变提高声纹安全性的防御方法，需要基于声纹安全性的分析和测量结果。通过读取说话音频的对应文本内容，将说话内容转化成音素序列，将语音音频转化成音素音频的组合，用长度、丰富度等音素指标表示音频的说话内容，用音素音频重组成测试音频，对音素特征构成的说话内容变量进行测试，可得到不同说话内容对应的声纹识别准确率。用测试的方法可以对不同说话内容之间进行比较，但测试和比较的成本很大。例如在语音助手场景下，若说话人系统提供文本无关声纹模型，用户可以自行定义语音助手唤醒词和其他语音指令，但用户不具备测试语音指令声纹识别准确率的软硬件条件和专业知识，无法直接快速的判断语音指令的安全性，设置或选择合适的唤醒词等语音指令。因此亟需一种针对语音指令的声纹安全性评分方法和系统，帮助用户和没有测试能力的厂家快速选择安全的语音指令。目前已有部分工作研究说话内容的声纹安全性。

目前已有部分工作评价不同说话内容对声纹安全性的影响力，这些工作从语音持续时间、包含的音位等角度出发，通过测试得到说话内容某个方面的安全性影响力，研究内容偏向于测试，测试之后进行了少量的分析评价工作，得到了部分粗粒度的定性结论。另外还存在少量工作从特征信息熵的角度量化计算不同时间长度的说话内容提供的声纹信息。现有研究中缺少对说话内容声纹安全性的定量评价方法和系统。

此外，现有技术中还包括对声纹模型的改进，例如首先探究音素对说话人系统的影响，针对单音素声纹模型，进行模型间性能差距比较，或对多个单音素声纹模型进行融合，提高声纹模型的安全性。此类工作采用分割训练音频的方式训练特殊的声纹，与常用声纹生成流程不同，难以反映一般声纹模型下说话内容中各类音素特征的安全影响力。

发明内容

本发明针对现有声纹认证语音指令安全性评估不明确不具体的问题，提出了一种语音指令的声纹安全性评分方法和系统。方法首先对声纹模型进行声纹安全性分析，获取说话内容变量取值与声纹误识别率之间的数据对集合，根据与语音指令的声纹安全性评分相关的声纹安全因素，设置安全性评分函数的变量，将声纹安全性评分函数S看作丰富度R、长度L、细节E、模型M为自变量的函数。接着根据说话内容变量与声纹认证误识别率间的对应关系，解耦声纹安全性评分函数，得到(L,R)二维变量与误识别率F的拟合函数F_L+R(L,R)、每种音素α长度L(α)与误识别率F的拟合函数F_{E_α}(L)和F_{E_eq}(L)。最后构造误识别率与安全性评分间的映射关系，再通过上述拟合函数构造函数自变量与误识别率间的映射关系，得到最终的声纹安全性评分函数完成对语音指令的声纹安全性评分。

本发明是通过以下技术方案得以实现的：

一种语音指令的声纹安全性评分方法，包括以下步骤：

步骤S01，对不同类型的声纹模型进行安全性分析，获取说话内容变量取值与声纹认证误识别率之间的数据对集合；所述的说话内容变量包括丰富度-长度协同变量、以及细节-长度协同变量；

步骤S02，定义说话内容的声纹安全性评分函数S，所述的评分函数以丰富度R、长度L、细节E、模型M为自变量，表示为：

S＝f^M(L,R,E)

其中，f(.)表示说话内容变量与安全性之间的函数；

步骤S03，根据说话内容变量与声纹认证误识别率间的对应关系，解耦自变量模型M、丰富度R、长度L和细节E，将变量模型M与安全性之间的映射关系作为一个隐函数，将丰富度R、长度L、细节E与安全性之间的映射关系作为显函数，对说话内容变量取值与声纹认证误识别率之间的关系进行拟合，并利用线性映射函数将[0,1]区间内的声纹认证误识别率转换成[0,10]区间内的评分值，得到最终的评分函数；

步骤S04，针对待评估的语音指令，转化成音素序列后提取丰富度、长度、细节特征，代入说话内容变量取值与声纹认证误识别率之间的拟合函数中，并根据最终的评分函数得到评分结果。

进一步的，步骤S03中解耦自变量模型M，具体为：

针对不同种类型的声纹模型，丰富度R、长度L、细节E变化对误识别率影响的趋势相同但具体值不同，因此将变量模型M与安全性之间的映射关系作为隐函数，表示变量模型M决定了安全性评分与丰富度R、长度L、细节E之间映射的参数取值。

进一步的，步骤S03中解耦自变量丰富度R和长度L，具体为：

对丰富度-长度协同变量取值与声纹认证误识别率之间的数据对进行离散点数据拟合，得到丰富度-长度级别的误识别率拟合函数

表示丰富度R和长度L对安全性评分的影响力量化结果；利用拟合后的量化结果来表示声纹安全性评分函数：

其中，g(.)为误识别率到安全性评分的线性映射函数；f^M(E)表示在模型M下，细节E与安全性之间的映射关系函数。

进一步的，步骤S03中解耦自变量细节E，具体为：

根据细节-长度协同变量取值与声纹认证误识别率之间的数据对，对所有音素α下的长度与声纹认证误识别率之间离散点数据进行拟合，得到音素级别的误识别率拟合函数

对语音指令中包含的所有音素α下的

求均值，得到音素级别的平均误识别率拟合函数

表示细节E对安全性评分的影响力量化结果；

针对任意一句测试语句A₁，将其声纹误识别率看作基准语句A_o的误识别率加上偏差值，所述的基准语句A_o的丰富度R和长度L都与A₁相同，细节E为音素平均分布；基准语句A_o与测试语句A₁之间的误识别率的偏差值是由测试语句A₁的音素种类与音素种类平均的差距造成的，将所述的音素种类差距造成的偏差值与所述的音素种类平均的差距造成的偏差值之和作为总的误识别率偏差值，代替细节E与安全性之间的映射关系函数f^M(E)，将声纹安全性评分函数表示为：

其中，

表示测试语句A₁与基准语句A_o的总的误识别率偏差值，L(α)表示音素α的长度，g(.)为误识别率到安全性评分的线性映射函数。

进一步的，所述的误识别率到安全性评分的线性映射函数表示为：

g(F)＝10(1-F)

其中，F为声纹认证误识别率。

进一步的，将线性映射函数引入到评分函数的拟合过程中，将最终的评分函数表示为：

其中，

为丰富度-长度级别的误识别率拟合函数，

为音素级别的误识别率拟合函数，

为音素级别的平均误识别率拟合函数；通过将待评估的语音指令的丰富度、长度、细节特征代入三个拟合函数中，并结合最终的评分函数公式即可计算得到评分结果。

一种语音指令的声纹安全性评分系统，用于实现上述的声纹安全性评分方法。

本发明具有以下有益效果：

(1)本发明提出了一种语音指令内容的声纹安全性评分方法，弥补了目前语音指令安全性评价研究的不足，填补了语音指令安全性评价标准的缺失。本方法首先对说话内容的音素特征进行安全性测试，得到不同音素特征对声纹误识别率之间的对应关系，利用测试结果拟合不同音素特征取值对声纹可区分性的影响。区别于现有工作仅研究句子和数字组合的可用性区别、对比单个音素认证之间的区别、计算不同时长语音的信息熵，本发明对语音指令的说话内容进行细粒度的分解，并直接给出安全性评分结果。本发明提出的方法从说话内容的角度对语音指令的安全性进行评估，利用了说话内容的本质特征——音素特征，从原理性的角度为增强声纹认证安全提供了容易实施的建议。

(2)本发明从评估语音指令的角度出发，通过构造评估指标对语音指令的声纹安全性进行量化分析，利用声纹可区分性的测试结果建立评分模型，模型对任何语言下的任一指令生成安全性分数，安全性分数直观反映不同语音指令之间的安全性差距。区别其他研究中通过改进模型降低声纹误识别率的方法，利用本发明方法对声纹进行安全性提升无需修改声纹认证工作流中任一环节的软硬件，只需要对声纹测试这一步骤中的认证词进行优选，改进声纹安全成本低，不特定于声纹模型，对所有现有声纹模型都适用。

(3)本发明提出的声纹安全性评分系统可通过网页或APP等展示方式显式的反映评估结果，只需要根据用户输入或选择的说话内容和模型需求，即可输出安全性定性评价结果。区别于现有方法训练单音素模型并进行模型融合以提高声纹安全性的方法，本方法注重安全性评估，利用评估结果即可筛选安全性高的语音指令，在不改变模型的情况下降低误识别率。本方法提供的评估结果对声纹安全提升度大，应用方法简单，可以独立封装为一个语音指令选词的应用，用户或厂商在无需任何智能语音系统专业知识的条件下，也可直接得到任意指定语音指令的安全性评价结果

附图说明

图1为本发明一种语音指令的声纹安全性评分方法和系统的流程框图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1，本发明提出了一种语音指令的声纹安全性评分方法，主要包括以下步骤：

步骤S01，测试获得说话内容变量取值与声纹误识别率之间的数据对集合，给后续函数参数计算提供数据基础。

在进行声纹安全性分析时，控制声纹安全影响因素中的用户、声纹模型、环境等变量，使用大量用户、丰富的环境设置和多种类型模型使得测试结果尽可能无偏。将说话内容分解成用丰富度、长度、细节、顺序4类音素特征量化的变量，通过分割再重组音频，构造各类变量需求下的说话内容进行声纹认证测试，得到丰富度、长度、细节、顺序、丰富度和长度协同变化、长度和细节协同变化、丰富度和细节协同变化7类说话内容变量与声纹认证误识别率(包括误接受率(False Acceptance Rate，FAR)和误拒绝率(False Rejection Rate，FRR))之间对应数据。

步骤S02，定义说话内容声纹安全性的评价指标。

步骤S02具体包括：

步骤S21，分析与语音指令的声纹安全性评分相关的声纹安全因素。从应用场景来看，本发明需要在唤醒词等语音指令制定时提供声纹安全性评分的指导，帮助用户和厂商制定更安全的声纹。由于用户和厂商一般情况下无法确定或改变说话人识别系统在使用时的用户固有属性和录音设备、噪声等环境因素，因此本发明提出的语音指令声纹安全性评分方法应与用户、环境因素两类声纹安全性因素无关，此评分方法在任何环境、任何用户下均适用。相应的，由于用户和厂商会在选择受限制的模型条件下设计不同的语音指令以提高声纹安全性，模型和说话内容为语音指令的声纹安全性评分中需要考量的安全因素。

步骤S22，设置安全性评分函数的变量。根据步骤S01中的测试结果，说话内容顺序(即音素时序顺序)与声纹误识别率无关，而另三种音素特征均影响声纹误识别率，因此在声纹使用的用户和环境不确定时，语音指令的声纹安全性评分函数S可以看作丰富度、长度、细节、模型为自变量的函数，可以用以下公式表示：

S＝f^M(L,R,E)

其中，R为说话内容的丰富度、L为长度、E为细节、M为声纹模型，S为声纹安全性分数。

步骤S03，根据说话内容变量与声纹认证误识别率间的对应关系，解耦各变量的影响，构造声纹安全性评分函数。为求取函数值与每个自变量的映射关系或与多个自变量的联合映射关系，需要对声纹安全性评分函数进行解耦。同时由步骤S01可知，经过声纹认证测试，已获得7种说话内容变量与误识别率间的数据对，作为数据集为函数参数的求取提供数据支撑。

步骤S03具体包括：

步骤S31，解耦自变量模型M。步骤S01中测试使用了多种类型的声纹模型，针对不同模型，R、L、E变化对误识别率影响的趋势相同，但具体影响程度不同，因此可以将变量模型M作与安全性S之间的映射关系看作一个隐函数，而R、L、E与S之间为显函数。即M决定了安全性评分与另外三个自变量之间映射的函数形式，即决定f的形式，因此写做f^M。

步骤S32，解耦自变量丰富度R和长度L。步骤S01中变量1丰富度、变量2长度、变量5丰富度和长度协同变化三个说话内容变量的测试内容都与自变量丰富度R和长度L相关。

从变量1测试结果数据对可知，声纹认证误识别率随说话内容丰富度的线性增加而呈指数型下降，可在说话内容长度随机分布情况下，构建丰富度-安全评分映射；

从变量2测试结果数据对可知，声纹认证误识别率随说话内容长度的线性增加而呈指数型下降，可在说话内容丰富度随机分布情况下，构建长度-安全评分映射；

从变量5测试结果数据对可知，声纹认证误识别率随说话内容长度的指数型下降速度低于随丰富度的下降速度，在已被测试的长度和丰富度取值范围内，可在固定长度于任一数值L₁时，构建丰富度-安全评分映射，同理可在固定丰富度于任一数值R₁时，构建长度-安全评分映射。

从准确性和完整性的角度来考虑，选择变量5中(L,R)二维变量与误识别率F的测试结果数据对，进行散点数据拟合得到拟合函数F_L+R(L,R)。因此，安全性评分函数可写做：

其中，

为在变量5测试中模型M误识别率随音素特征L、R变化的拟合函数，L为说话内容的长度，R为丰富度，g为误识别率F到安全性评分S的函数。

步骤S33，解耦自变量细节E。步骤S01中变量3细节、变量6长度和细节协同变化两个说话内容变量的测试内容都与自变量细节E相关。

从变量3测试结果数据对可知，不同音素重复时声纹认证误识别率不同，在固定说话内容长度为测试值时，可得到每种音素的声纹误识别率与音素平均误识别率之间的差值；

从变量6测试结果数据对可知，不同音素在重复次数不同导致说话内容长度不同时，误识别率的大小关系可能发生转变，在固定说话内容长度为任一数值L₁时，可得到每种音素的声纹误识别率与音素种类平均误识别率之间的差值，且针对任一音素α可以构建长度-安全评分映射。

从准确性和完整性的角度来考虑，选择变量6中针对每种音素α，长度与误识别率的测试结果数据对，进行散点数据拟合得到拟合函数F_{E_α}(L)，对所有音素α下的F_{E_α}(L)求平均，得到音素平均误识别率拟合函数F_{E_eq}(L)。

对于任意一句测试语句A₁，它的声纹误识别率都可以看作基准语句A_o的误识别率加上偏差值；其中基准语句A_o是一个假想中的句子，它的丰富度R和长度L都与A₁相同，它的细节E为音素平均分布。A_o与A₁之间误识别率的偏差值是A₁的音素种类与音素种类平均的差距造成的。其中，A₁的音素种类影响下的误识别率，可以通过对每种音素α进行单音素重复，在说话内容总长度下的误识别进行加权平均得到；音素种类平均影响下的误识别率，可以通过音素平均误识别率拟合函数F_{E_eq}(L)直接求得。因此安全性评分函数可写做：

其中，

为在变量6测试中模型M在说话内容为音素α(α∈E)时误识别率随音素特征L变化的拟合函数，L为说话内容的长度，E为音素细节，L(α)为说话内容中音素α的长度，

为

在音素α取所有值时的函数的平均，g为误识别率F到安全性评分S的函数。

步骤S34，确定误识别率和安全性评分之间的函数关系。由于声纹误识别率越低声纹越安全，且一般认为安全性评分越高声纹越安全，因此可以将安全性评分定义为声纹误识别率的反比。定义安全性评分在[0,10]区间内，由于误识别率为[0,1]区间内的值，函数g可写做一个线性映射：

g(F)＝10(1-F)

其中，F为误识别率。

因此声纹安全性评分S的公式写做：

步骤S04，声纹安全性评分算例演示。根据步骤S03中声纹安全性评分的函数，对待测试的语音指令进行安全性评分。

本实施例中，以“Hey”在i-vector模型下的安全性评分为例，对计算方法进行说明，具体为：

步骤S41，根据i-vector模型下的测试结果，得到

三组拟合函数的函数式。

步骤S42，将说话内容的文本转换为音素序列，统计音素序列的丰富度R、长度L、细节E取值。“Hey”的音素序列为[heI]，丰富度R为3，长度L为3，细节E包括[h]、[e]、[I]三种音素。

步骤S43，求取丰富度R＝3和长度L＝3对安全性的影响。

步骤S43，求取细节特征E中[h]、[e]、[I]三种音素对安全性的影响。

步骤S44，求得在模型i-vector中以“Hey”为声纹认证词进行说话人认证的安全性分数为

与前述的一种语音指令的声纹安全性评分方法的实施例相对应，本申请还提供了一种语音指令的声纹安全性评分系统的实施例，其包括：

测试样本构建及测试模块，其用于对声纹模型进行安全性分析，构建不同内容变量的测试样本，获取说话内容变量取值与声纹认证误识别率之间的数据对集合；所述的说话内容变量包括丰富度-长度协同变量、以及细节-长度协同变量。

声纹安全性评分函数定义及解耦模块，其用于定义说话内容的声纹安全性评分函数S，所述的评分函数以丰富度R、长度L、细节E、模型M为自变量，表示为：

S＝f^M(L,R,E)

其中，f(.)表示说话内容变量与安全性之间的函数；

以及，根据说话内容变量与声纹认证误识别率间的对应关系，解耦自变量模型M、丰富度R、长度L和细节E，将变量模型M与安全性之间的映射关系作为一个隐函数，将丰富度R、长度L、细节E与安全性之间的映射关系作为显函数，对说话内容变量取值与声纹认证误识别率之间的关系进行拟合，并利用线性映射函数将[0,1]区间内的声纹认证误识别率转换成[0,10]区间内的评分值，得到最终的评分函数。

语音指令评估模块，其用于针对待评估的语音指令，转化成音素序列后提取丰富度、长度、细节特征，代入说话内容变量取值与声纹认证误识别率之间的拟合函数中，并根据最终的评分函数得到评分结果。

关于上述实施例中的系统，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为声纹安全性评分函数定义及解耦模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

本发明构造的声纹安全性评分系统可以开发为网页应用、APP、API等。为增加可用性，评分系统在架构上需要分为前端和后端两部分，在后端需要部署多种声纹模型的安全性评分函数，并留有输入和输出的接口，后端程序需要满足的功能是，输入或选择模型名称和语音指令的文本内容，可以输出音素序列、音素特征值、安全性分数、安全性定性评价结果等，还可以进一步根据安全性定性评价结果给出说话内容改进建议等。前端需要开发能够输入或选择模型名称和语音指令文本的UI界面，以及能够显示输出内容的文本框。

本发明提出的一种语音指令的声纹安全性评分方法和系统，从说话内容的角度对语音指令的安全性进行评估，对语音指令的说话内容进行细粒度的分解，利用了说话内容的本质特征——音素特征，从原理性的角度为增强声纹认证安全提供了容易实施的建议。本发明对语音指令的声纹安全性进行了量化分析，利用声纹可区分的测试结果建立可对任何语言下的任一指令生成安全性分数的函数，无需修改声纹认证工作流中任一环节的软硬件，只需要对声纹测试这一步骤中的认证词进行优选，不特定于声纹模型。本发明只需要根据用户输入或选择的说话内容和模型需求，即可输出安全性定性评价结果，评估结果对声纹安全提升度大，应用方法简单，可以独立封装为一个语音指令选词的应用，用户或厂商在无需任何智能语音系统专业知识的条件下，也可直接得到任意指定语音指令的安全性评价结果。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。