CN103971700A

CN103971700A - 语音监控方法及装置

Info

Publication number: CN103971700A
Application number: CN201310332075.5A
Authority: CN
Inventors: 何勇军; 孙广路; 谢怡宁; 刘嘉辉
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2014-08-06

Abstract

本发明提供一种语音监控方法及装置，涉及语音信号处理技术领域。该方法包括：S1、获取电话的语音数据，提取语音数据的语音特征;S2、进行说话人跳变检测，将语音特征按两个说话人进行分离，得到两类分离的语音特征；S3、对于分离的每一类语音特征，判断是否存在与之匹配的诈骗分子的说话人模型，如为是，则判定存在诈骗份子；如为否，则执行步骤S4；S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词，如果存在至少一个关键词，则判定存在诈骗行为，训练该诈骗分子的说话人模型，并保存该诈骗分子的说话人模型；否则，判定不存在诈骗行为。本发明实现电话环境下对诈骗分子自动进行监控，节约了公安系统的打击电信诈骗的成本。

Description

语音监控方法及装置

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种语音监控方法及装置。

背景技术

近年来，我国电信诈骗案件呈高发态势，已演变成为一个突出的社会治安问题。尽管公安机关在打击和防范电信诈骗犯罪上投入了大量的人力物力，但此类犯罪组织严密，分工明确，大多属于跨区域、跨境作案，其智能化、科技化程度高，作案隐蔽，反侦查能力强。这使得侦破此类案件面临着极大的困难。

为了有效应对，一方面需要全国警力的有效协作，另一方面需要更为有效的高科技手段。由于此类犯罪主要以电话为媒体进行犯罪，留下的语音线索最多，目前公安机关对此类犯罪的侦破还主要依靠传统手段，诸如受骗人举报，警察四处盘查等方式；也采用电话监控方式。

现行在电话监控方面智能化程度很低，几乎完全靠人力听辨完成。这种措施只有诈骗行为被确定后才有可能实施，而且耗费大量人力物力，无法在犯罪行为发生时就掌握所有情况；这也使得公安系统的打击效果大打折扣。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供一种语音监控方法及装置，能够由系统自动实现电话监控。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种语音监控方法，包含以下步骤：

S1、获取电话的语音数据，提取所述语音数据的语音特征;

S2、进行说话人跳变检测，将所述语音特征按两个说话人进行分离，得到两类分离的语音特征；

S3、对于分离的每一类语音特征，判断是否存在与之匹配的诈骗分子的说话人模型，如为是，则判定存在诈骗份子；如为否，则执行步骤S4；

S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词，如果存在至少一个关键词，则判定存在诈骗行为，训练该诈骗分子的说话人模型，并保存该诈骗分子的说话人模型；否则，判定不存在诈骗行为。

优选的，步骤S1中包含步骤：

S11、对所述获取的电话语音数据进行预处理；

S12、对预处理过后的电话语音数据作离散傅立叶变换，求得功率谱；

S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数；

S14、计算所述梅尔倒谱系数的一阶差分和二阶差分，将所述一阶差分和二阶差分的系数与所述梅尔倒谱系数拼接，形成语音特征。

优选的，步骤S11中的预处理包括分帧操作和加窗操作；

其中，加窗操作采用的窗函数为汉明窗，表达式w(n)为：

式中n为时间序号，L为窗长；

步骤S12中所述的求功率谱的表达式X_a(k)为：

X_{a} (k) {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2} 0 \leq k \leq N

式中x(n)为加窗后的语音帧，N表示傅立叶变换的点数，_j表示虚数单位。

优选的，步骤S2中进行说话人跳变检测的方法为：采用k-均值聚类法将语音特征分为两类，然后对各帧语音进行分类；当语音从一个说话人过渡到另一个说话人时，则说话人发生了跳变；

其中，k-均值聚类法包括以下步骤：

S21、假定语音特征为F＝{f₁,f₂,...,f_M}，其中M为帧序号；

S22、从F中任意选择2帧语音数据作为类别均值，得到两类类别均值；

S23、采用欧式距离计算F中每帧语音特征与这两类类别均值的距离，并根据最小距离重新对F中的语音特征进行分类；

S24、对重新分类的结果，再次计算类别均值；

S25、循环S23到S24直到两类类别均值不再发生变化为止；

S26、对于帧序号为M以后的语音数据，计算其与两个类别均值的距离，并将其分类到距离它最近的一个类别上。

优选的，步骤S3中判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤：

S31、假定登记在册的诈骗分子有_N个，每个人的语音用一个高斯混合模型建模，分别为λ₁,λ₂,...,λ_N，在识别阶段，输入的观测特征矢量序列为O＝{o₁,o₂,...,o_T}，T为输入语音的帧数；

S32、计算说话人为第n个诈骗分子的后验概率，1≤n≤N；

S33、根据所述后验概率得到预判结果；

S34、根据所述预判结果得到最终的判决结果。

优选的，步骤S32中的计算后验概率表达式为：

p (λ_{n} | O) = \frac{p (O | λ_{n}) p (λ_{n})}{p (O)}

= \frac{p (O | λ_{n}) p (λ_{n})}{Σ_{m = 1}^{N} p (O | λ_{m}) p (λ_{m})}

P (λ_{n}) = \frac{1}{N}, n = 1,2, N .

式中，p(λ_n)为第n个诈骗分子的先验概率；p(O)为所有事件条件下特征矢量集O的概率；p(O|λ_n)为第n个诈骗分子产生特征矢量集O的条件概率；

步骤S33中的计算预判结果表达式为：

n^{*} = \underset{1 \leq n \leq N}{\arg \max} \ln P (λ_{n} | O) = \underset{1 \leq n \leq N}{\arg \max} Σ_{t = 1}^{T} \ln P (λ_{n} | o_{t})

式中，p(λ_n)为第n个诈骗分子的先验概率；p(O)为所有事件条件下特征矢量集O的概率；P(λ_n|o_t)为o_t产生于λ_n的概率；

步骤S34中的计算判决结果表达式为：

式中，p(λ_n)为第n个诈骗分子的先验概率；p(O)为所有事件条件下特征矢量集O的概率；为o_t产生于的概率；threshold为预设的拒识门限。

优选的，步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模，M阶高斯混合模型的概率密度函数如下：

其中，

P (o | i, λ) = N (o, μ_{i}, Σ_{i}) = \frac{\underset{1}{P (o | λ) = Σ_{i = 1}^{M} c_{i} P (o | i, λ)}}{{(2 π)}^{K / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{{(o - μ_{i})}^{T} Σ_{i}^{- 1} (o - μ_{i})}{2}}

式中，λ＝{c_i,μ_i,Σ_i;(i＝1...M)}，μ_i为均值矢量，Σ_i为协方差矩阵，i＝1,2,..M。矩阵Σ_i在这里采用对角阵：

c_{i} = \frac{1}{T} Σ_{i = 1}^{T} P (q_{t} = i | o_{t}, λ)

μ_{i} = \frac{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ) o_{t}}{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ)}

优选的，步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤；步骤S4中保存该诈骗分子的说话人模型后进一步包括：登记诈骗分子，更新诈骗记录的步骤。

优选的，更新的诈骗记录包括诈骗者编号、诈骗时间、说话人模型编号、所用号码和受骗者号码。

本发明还提供了一种语音监控装置，包含以下模块：

提取语音特征模块，获取电话的语音数据，提取所述语音数据的语音特征;

说话人跳变检测模块，进行说话人跳变检测，将所述语音特征按两个说话人进行分离，得到两类分离的语音特征；

语音特征识别模块，对于分离的每一类语音特征，判断是否存在与之匹配的诈骗分子的说话人模型，如为是，则判定存在诈骗份子；如为否，则执行语音特征检测模块；

语音特征检测模块，检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词，如果存在至少一个关键词，则判定存在诈骗行为，训练该诈骗分子的说话人模型，并保存该诈骗分子的说话人模型；否则，判定不存在诈骗行为。

（三）有益效果

本发明提供了一种语音监控方法及装置，提取语音数据的语音特征，将所提取的语音特征在存储的诈骗分子的说话人模型上进行匹配，将语音特征与预先设置的诈骗行为相关的关键词做比较，分析得出犯罪行为和犯罪分子身份，实现了对诈骗分子自动的识别与监控，可实现电话诈骗的智能监控，有效地节约公安系统的打击电信诈骗的成本，并提高电话网络的安全系数。

本发明还实现了对识别出的犯罪份子进行监控和更新的功能，使得公安系统在打击电信诈骗的时候，对犯罪份子的信息了解的更全面。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明优选实施例的一种语音监控方法的流程图；

图2为本发明优选实施例的一种语音监控方法的详细流程图；

图3为本发明优选实施例的语音特征检测模块的结构示意图；

图4为本发明优选实施例的一种语音监控装置的示意图；

图5为本发明优选实施例的一种语音监控装置的架构示意图。

具体实施方式

下面对于本发明所提出的一种电信诈骗犯罪分子的语音识别与监控方法及装置，结合附图和实施例详细说明。

实施例1：

如图1所示，一种语音监控方法，包含以下步骤：

S1、获取电话的语音数据，提取所述语音数据的语音特征;

本发明实施例通过提取语音数据的语音特征，将所提取的语音特征与存储的诈骗分子的说话人模型做比较，将语音特征与预先设置的诈骗行为相关的关键词做比较，分析得出犯罪行为和犯罪分子身份，实现了对诈骗分子自动的识别与监控，同时节约了公安系统的打击电信诈骗的成本，提高了电话网络的安全系数。

下面对本发明的实施例进行详细的说明：

如图2所示，一种语音监控方法，包含以下步骤：

S1、获取电话的语音数据，提取所述语音数据的语音特征;

步骤S1中包含步骤：

S11、对所述获取的电话语音数据进行预处理；

步骤S11中的预处理包括分帧操作和加窗操作；

其中，分帧的目的在于将时间信号分割为相互交叠的语音片断，即帧。每帧长度通常为30ms左右，帧移为10ms。

其中，加窗操作采用的窗函数为汉明窗，表达式w(n)为：

式中，n为时间序号，L为窗长；

另外，本发明实施例加窗操作采用的窗函数也可为汉宁窗。

所述的求功率谱的表达式X_a(k)为：

X_{a} (k) {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2} 0 \leq k \leq N

S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数；

本发明实施例定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m)，m=0,2,...,M－1，本发明实施例取M=28。滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的，三角滤波器的频率响应定义为：

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) ork > f (m + 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & f (m - 1) < k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))} & f (m) \leq k \leq f (m + 1) \end{matrix}

接下来对功率谱加梅尔滤波器组：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{a} (k) |}^{2} H_{m} (k)) 0 \leq m < M

然后作离散余弦变换(DCT)得到梅尔倒谱系数：

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (nπ (m - 0.5) / M) 0 \leq n \leq M .

S14、计算所述梅尔倒谱系数的一阶差分和二阶差分，将所述一阶差分和二阶差分的系数与所述梅尔倒谱系数拼接，形成语音特征。如果t和t+1时刻的倒谱向量为c_t和c_t+1，

一阶差分的计算方法为：

Δc_t＝c_t+1-c_t

二阶差分为：

ΔΔc_t＝Δc_t+1-Δc_t

拼接后的语音特征为：

[c_t Δc_t ΔΔc_t]

其中，进行说话人跳变检测的方法为：采用k-均值聚类法将语音特征分为两类，然后对各帧语音进行分类；当语音从一个说话人过渡到另一个说话人时，则说话人发生了跳变；

其中，k-均值聚类法包括以下步骤：

S21、假定语音特征为F＝{f₁,f₂,...,f_M}，其中M为帧序号；

S24、对重新分类的结果，再次计算类别均值；

S25、循环S23到S24直到两类类别均值不再发生变化为止；

其中，判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤：

S32、计算说话人为第n个诈骗分子的后验概率，1≤n≤N；

其中，步骤S32中的计算后验概率表达式为：

p (λ_{n} | O) = \frac{p (O | λ_{n}) p (λ_{n})}{p (O)}

= \frac{p (O | λ_{n}) p (λ_{n})}{Σ_{m = 1}^{N} p (O | λ_{m}) p (λ_{m})}

P (λ_{n}) = \frac{1}{N}, n = 1,2, . . ., N

L(λ_n|O)＝lnP(λ_n|O)，n＝1,2,N.

S33、根据所述后验概率得到预判结果；

步骤S33中的计算预判结果表达式为：

n^{*} = \underset{1 \leq n \leq N}{\arg \max} \ln P (λ_{n} | O) = \underset{1 \leq n \leq N}{\arg \max} Σ_{t = 1}^{T} \ln P (λ_{n} | o_{t})

式中，p(λ_n)为第n个诈骗分子的先验概率；p(O)为所有事件条件下特征矢量集O的概率，P(λ_n|o_t)为o_t产生于λ_n的概率。

S34、根据所述预判结果得到最终的判决结果。

步骤S34中的计算判决结果表达式为：

关键词判断，由两个重要的部分组成，第一个是语音识别器，第二个组成部分“关键词确认”模块进行关键词确认。如图3所示，语音识别模块的作用是对输入的语音进行第一级识别，在基于隐马尔科夫模型（Hidden Markov Model，HMM）的系统中，对词表中的每个关键词训练一个关键词模型。同时，对非关键词也建立HMM模型——垃圾模型。语音识别器的输出是一个由关键词和非关键词模型组成的词串或词网格，在这个输出中的每一个关键词都称为一个“假设命中”。然后根据该假设命中在模型上的得分与门限相比较，确认所检测出的关键词。

由于犯罪分子在犯罪时，其电话语音中会有明显的关键词信息，诸如“您中奖了”，“兑奖”，“猜猜我是谁”，“请将钱汇到…”等等。如果在电话中检测到有人在说这些电话诈骗相关的词汇，则可以认为犯罪分子正在施行诈骗。

如果经过判定，存在至少一个关键词，则判定存在诈骗行为;

接下来，训练该诈骗分子的说话人模型，并保存该诈骗分子的说话人模型，其目的在于对确认在实施诈骗行为的不发人员进行登记，包括采集此人的语音，训练说话人模型，用于后续的监控，还包括将此人写入诈骗记录中。本发明实施例为每个说话人的语音建立一个GMM。M阶GMM的概率密度函数如下：

P (o | λ) = Σ_{i = 1}^{M} P (o, i | λ) = Σ_{i = 1}^{M} c_{i} P (o | i, λ)

其中，λ为GMM模型的参数集；o为K维的声学特征矢量；i为隐状态号，也就是高斯分量的序号，M阶GMM就有M个隐状态；c_i为第i个分量的混合权值，其值对应为隐状态i的先验概率，因此有：

Σ_{i = 1}^{M} c_{i} = 1

P(o|i,λ)为高斯混合分量，对应隐状态i的观察概率密度函数，

其中，步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模，M阶高斯混合模型的概率密度函数如下：

其中，

P (o | i, λ) = N (o, μ_{i}, Σ_{i}) = \frac{\underset{1}{P (o | λ) = Σ_{i = 1}^{M} c_{i} P (o | i, λ)}}{{(2 π)}^{K / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{{(o - μ_{i})}^{T} Σ_{i}^{- 1} (o - μ_{i})}{2}}

c_{i} = \frac{1}{T} Σ_{i = 1}^{T} P (q_{t} = i | o_{t}, λ)

μ_{i} = \frac{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ) o_{t}}{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ)}

作为对本发明实施例的优化，步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤；步骤S4中保存该诈骗分子的说话人模型后进一步包括：登记诈骗分子，更新诈骗记录的步骤。

诈骗记录是监控系统对诈骗分子及其活动情况的记载，包括{诈骗者编号，诈骗时间，说话人模型编号，所用号码，受骗者号码}。其中诈骗者编号是系统在检测到此人第一次诈骗是自动分配的一个编号，用于标识该诈骗者（诈骗者真实姓名不可知），说话人模型编号是在登记诈骗者时为其训练的声学模型的编号，用于识别和监控该诈骗者。所用号码是诈骗者实施某一次诈骗所用的电话号码。诈骗分子可能虚拟号码或者用其他方式冒充，因此每次使用的号码可能不一样；该号码可被公安机关用来定位诈骗者。受骗者号码被记录下来供公安机关通知受骗者提高警惕，避免受骗。系统在检测到诈骗行为并进行登记或者检测到电话中有在册的诈骗分子式需要修改诈骗记录本发明实施例通过更新诈骗记录，实现了对识别出的犯罪份子进行监控和更新的功能，使得公安系统在打击电信诈骗的时候，对犯罪份子的信息了解的更全面。

实施例2：

如图4所示，本发明实施例还提供了一种语音监控装置，包含以下模块：

如图5所示，为本发明优选实施例的一种语音监控装置的架构示意图，系统架设在电话网络的电信级网关上，同时采集多路电话信号并进行实时处理。在处理中采用说话人识别技术识别诈骗分子的身份并进行监控，采用关键词检出技术检测说话内容中可能出现的与诈骗相关的言词，实现诈骗行为的确认。

综上，本发明通过提取语音数据的语音特征，结合先进的说话人识别技术和关键词检出技术实现了诈骗分子的识别和诈骗行为的检测。在处理中采用说话人识别技术识别诈骗分子的身份并进行监控，采用关键词检出技术检测说话内容中可能出现的与诈骗相关的言词，实现诈骗行为的确认。实现了对诈骗分子自动的识别与监控，同时节约了公安系统的打击电信诈骗的成本，提高了电话网络的安全系数。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音监控方法，其特征在于，包含以下步骤：

S1、获取电话的语音数据，提取所述语音数据的语音特征;

2.如权利要求1所述的一种语音监控方法，其特征在于，步骤S1中包含步骤：

S11、对所述获取的电话语音数据进行预处理；

S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数；

3.如权利要求2所述的语音监控方法，其特征在于，

步骤S11中的预处理包括分帧操作和加窗操作；

其中，加窗操作采用的窗函数为汉明窗，表达式w(n)为：

式中n为时间序号，L为窗长；

步骤S12中所述的求功率谱的表达式X_a(k)为：

X_{a} (k) {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2} 0 \leq k \leq N

4.如权利要求1所述的语音监控方法，其特征在于，步骤S2中进行说话人跳变检测的方法为：采用k-均值聚类法将语音特征分为两类，然后对各帧语音进行分类；当语音从一个说话人过渡到另一个说话人时，则说话人发生了跳变；

其中，k-均值聚类法包括以下步骤：

S21、假定语音特征为F＝{f₁,f₂,...,f_M}，其中M为帧序号；

S24、对重新分类的结果，再次计算类别均值；

S25、循环S23到S24直到两类类别均值不再发生变化为止；

5.如权利要求1所述的语音监控方法，其特征在于，步骤S3中判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤：

S32、计算说话人为第n个诈骗分子的后验概率，1≤n≤N；

S33、根据所述后验概率得到预判结果；

S34、根据所述预判结果得到最终的判决结果。

6.如权利要求5所述的语音监控方法，其特征在于，

步骤S32中的计算后验概率表达式为：

p (λ_{n} | O) = \frac{p (O | λ_{n}) p (λ_{n})}{p (O)}

= \frac{p (O | λ_{n}) p (λ_{n})}{Σ_{m = 1}^{N} p (O | λ_{m}) p (λ_{m})}

P (λ_{n}) = \frac{1}{N}, n = 1,2, N .

步骤S33中的计算预判结果表达式为：

n^{*} = \underset{1 \leq n \leq N}{\arg \max} \ln P (λ_{n} | O) = \underset{1 \leq n \leq N}{\arg \max} Σ_{t = 1}^{T} \ln P (λ_{n} | o_{t})

步骤S34中的计算判决结果表达式为：

7.如权利要求1所述的语音监控方法，其特征在于，步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模，M阶高斯混合模型的概率密度函数如下：

其中，

P (o | i, λ) = N (o, μ_{i}, Σ_{i}) = \frac{\underset{1}{P (o | λ) = Σ_{i = 1}^{M} c_{i} P (o | i, λ)}}{{(2 π)}^{K / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{{(o - μ_{i})}^{T} Σ_{i}^{- 1} (o - μ_{i})}{2}}

c_{i} = \frac{1}{T} Σ_{i = 1}^{T} P (q_{t} = i | o_{t}, λ)

μ_{i} = \frac{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ) o_{t}}{Σ_{t = 1}^{T} P (q_{t} = i | o_{t}, λ)}

8.如权利要求1所述的语音监控方法，其特征在于，步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤；步骤S4中保存该诈骗分子的说话人模型后进一步包括：登记诈骗分子，更新诈骗记录的步骤。

9.如权利要求8所述的语音监控方法，其特征在于，更新的诈骗记录包括诈骗者编号、诈骗时间、说话人模型编号、所用号码和受骗者号码。

10.一种语音监控装置，其特征在于，包含以下模块：