CN103971700A - 语音监控方法及装置 - Google Patents

语音监控方法及装置 Download PDF

Info

Publication number
CN103971700A
CN103971700A CN201310332075.5A CN201310332075A CN103971700A CN 103971700 A CN103971700 A CN 103971700A CN 201310332075 A CN201310332075 A CN 201310332075A CN 103971700 A CN103971700 A CN 103971700A
Authority
CN
China
Prior art keywords
swindle
lambda
phonetic feature
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310332075.5A
Other languages
English (en)
Inventor
何勇军
孙广路
谢怡宁
刘嘉辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201310332075.5A priority Critical patent/CN103971700A/zh
Publication of CN103971700A publication Critical patent/CN103971700A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音监控方法及装置,涉及语音信号处理技术领域。该方法包括:S1、获取电话的语音数据,提取语音数据的语音特征;S2、进行说话人跳变检测,将语音特征按两个说话人进行分离,得到两类分离的语音特征;S3、对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行步骤S4;S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。本发明实现电话环境下对诈骗分子自动进行监控,节约了公安系统的打击电信诈骗的成本。

Description

语音监控方法及装置
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种语音监控方法及装置。
背景技术
近年来,我国电信诈骗案件呈高发态势,已演变成为一个突出的社会治安问题。尽管公安机关在打击和防范电信诈骗犯罪上投入了大量的人力物力,但此类犯罪组织严密,分工明确,大多属于跨区域、跨境作案,其智能化、科技化程度高,作案隐蔽,反侦查能力强。这使得侦破此类案件面临着极大的困难。
为了有效应对,一方面需要全国警力的有效协作,另一方面需要更为有效的高科技手段。由于此类犯罪主要以电话为媒体进行犯罪,留下的语音线索最多,目前公安机关对此类犯罪的侦破还主要依靠传统手段,诸如受骗人举报,警察四处盘查等方式;也采用电话监控方式。
现行在电话监控方面智能化程度很低,几乎完全靠人力听辨完成。这种措施只有诈骗行为被确定后才有可能实施,而且耗费大量人力物力,无法在犯罪行为发生时就掌握所有情况;这也使得公安系统的打击效果大打折扣。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种语音监控方法及装置,能够由系统自动实现电话监控。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种语音监控方法,包含以下步骤:
S1、获取电话的语音数据,提取所述语音数据的语音特征;
S2、进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
S3、对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行步骤S4;
S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
优选的,步骤S1中包含步骤:
S11、对所述获取的电话语音数据进行预处理;
S12、对预处理过后的电话语音数据作离散傅立叶变换,求得功率谱;
S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数;
S14、计算所述梅尔倒谱系数的一阶差分和二阶差分,将所述一阶差分和二阶差分的系数与所述梅尔倒谱系数拼接,形成语音特征。
优选的,步骤S11中的预处理包括分帧操作和加窗操作;
其中,加窗操作采用的窗函数为汉明窗,表达式w(n)为:
式中n为时间序号,L为窗长;
步骤S12中所述的求功率谱的表达式Xa(k)为:
X a ( k ) | | Σ n = 0 N - 1 x ( n ) e - j 2 kπ / N | | 2 0 ≤ k ≤ N
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数,j表示虚数单位。
优选的,步骤S2中进行说话人跳变检测的方法为:采用k-均值聚类法将语音特征分为两类,然后对各帧语音进行分类;当语音从一个说话人过渡到另一个说话人时,则说话人发生了跳变;
其中,k-均值聚类法包括以下步骤:
S21、假定语音特征为F={f1,f2,...,fM},其中M为帧序号;
S22、从F中任意选择2帧语音数据作为类别均值,得到两类类别均值;
S23、采用欧式距离计算F中每帧语音特征与这两类类别均值的距离,并根据最小距离重新对F中的语音特征进行分类;
S24、对重新分类的结果,再次计算类别均值;
S25、循环S23到S24直到两类类别均值不再发生变化为止;
S26、对于帧序号为M以后的语音数据,计算其与两个类别均值的距离,并将其分类到距离它最近的一个类别上。
优选的,步骤S3中判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤:
S31、假定登记在册的诈骗分子有N个,每个人的语音用一个高斯混合模型建模,分别为λ12,...,λN,在识别阶段,输入的观测特征矢量序列为O={o1,o2,...,oT},T为输入语音的帧数;
S32、计算说话人为第n个诈骗分子的后验概率,1≤n≤N;
S33、根据所述后验概率得到预判结果;
S34、根据所述预判结果得到最终的判决结果。
优选的,步骤S32中的计算后验概率表达式为:
p ( λ n | O ) = p ( O | λ n ) p ( λ n ) p ( O )
= p ( O | λ n ) p ( λ n ) Σ m = 1 N p ( O | λ m ) p ( λ m )
P ( λ n ) = 1 N , n = 1,2 , N .
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;p(O|λn)为第n个诈骗分子产生特征矢量集O的条件概率;
步骤S33中的计算预判结果表达式为:
n * = arg max 1 ≤ n ≤ N ln P ( λ n | O ) = arg max 1 ≤ n ≤ N Σ t = 1 T ln P ( λ n | o t )
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;P(λn|ot)为ot产生于λn的概率;
步骤S34中的计算判决结果表达式为:
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;为ot产生于的概率;threshold为预设的拒识门限。
优选的,步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模,M阶高斯混合模型的概率密度函数如下:
其中, P ( o | i , λ ) = N ( o , μ i , Σ i ) = P ( o | λ ) = Σ i = 1 M c i P ( o | i , λ ) 1 ( 2 π ) K / 2 | Σ i | 1 / 2 exp { - ( o - μ i ) T Σ i - 1 ( o - μ i ) 2 }
式中,λ={ciii;(i=1...M)},μi为均值矢量,Σi为协方差矩阵,i=1,2,..M。矩阵Σi在这里采用对角阵:
c i = 1 T Σ i = 1 T P ( q t = i | o t , λ )
μ i = Σ t = 1 T P ( q t = i | o t , λ ) o t Σ t = 1 T P ( q t = i | o t , λ )
优选的,步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤;步骤S4中保存该诈骗分子的说话人模型后进一步包括:登记诈骗分子,更新诈骗记录的步骤。
优选的,更新的诈骗记录包括诈骗者编号、诈骗时间、说话人模型编号、所用号码和受骗者号码。
本发明还提供了一种语音监控装置,包含以下模块:
提取语音特征模块,获取电话的语音数据,提取所述语音数据的语音特征;
说话人跳变检测模块,进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
语音特征识别模块,对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行语音特征检测模块;
语音特征检测模块,检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
(三)有益效果
本发明提供了一种语音监控方法及装置,提取语音数据的语音特征,将所提取的语音特征在存储的诈骗分子的说话人模型上进行匹配,将语音特征与预先设置的诈骗行为相关的关键词做比较,分析得出犯罪行为和犯罪分子身份,实现了对诈骗分子自动的识别与监控,可实现电话诈骗的智能监控,有效地节约公安系统的打击电信诈骗的成本,并提高电话网络的安全系数。
本发明还实现了对识别出的犯罪份子进行监控和更新的功能,使得公安系统在打击电信诈骗的时候,对犯罪份子的信息了解的更全面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明优选实施例的一种语音监控方法的流程图;
图2为本发明优选实施例的一种语音监控方法的详细流程图;
图3为本发明优选实施例的语音特征检测模块的结构示意图;
图4为本发明优选实施例的一种语音监控装置的示意图;
图5为本发明优选实施例的一种语音监控装置的架构示意图。
具体实施方式
下面对于本发明所提出的一种电信诈骗犯罪分子的语音识别与监控方法及装置,结合附图和实施例详细说明。
实施例1:
如图1所示,一种语音监控方法,包含以下步骤:
S1、获取电话的语音数据,提取所述语音数据的语音特征;
S2、进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
S3、对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行步骤S4;
S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
本发明实施例通过提取语音数据的语音特征,将所提取的语音特征与存储的诈骗分子的说话人模型做比较,将语音特征与预先设置的诈骗行为相关的关键词做比较,分析得出犯罪行为和犯罪分子身份,实现了对诈骗分子自动的识别与监控,同时节约了公安系统的打击电信诈骗的成本,提高了电话网络的安全系数。
下面对本发明的实施例进行详细的说明:
如图2所示,一种语音监控方法,包含以下步骤:
S1、获取电话的语音数据,提取所述语音数据的语音特征;
步骤S1中包含步骤:
S11、对所述获取的电话语音数据进行预处理;
步骤S11中的预处理包括分帧操作和加窗操作;
其中,分帧的目的在于将时间信号分割为相互交叠的语音片断,即帧。每帧长度通常为30ms左右,帧移为10ms。
其中,加窗操作采用的窗函数为汉明窗,表达式w(n)为:
式中,n为时间序号,L为窗长;
另外,本发明实施例加窗操作采用的窗函数也可为汉宁窗。
S12、对预处理过后的电话语音数据作离散傅立叶变换,求得功率谱;
所述的求功率谱的表达式Xa(k)为:
X a ( k ) | | Σ n = 0 N - 1 x ( n ) e - j 2 kπ / N | | 2 0 ≤ k ≤ N
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数,j表示虚数单位。
S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数;
本发明实施例定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=0,2,...,M-1,本发明实施例取M=28。滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的,三角滤波器的频率响应定义为:
H m ( k ) = 0 k < f ( m - 1 ) ork > f ( m + 1 ) 2 ( k - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - f ( m - 1 ) ) f ( m - 1 ) < k < f ( m ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m ) ) f ( m ) &le; k &le; f ( m + 1 )
接下来对功率谱加梅尔滤波器组:
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X a ( k ) | 2 H m ( k ) ) 0 &le; m < M
然后作离散余弦变换(DCT)得到梅尔倒谱系数:
c ( n ) = &Sigma; m = 0 M - 1 S ( m ) cos ( n&pi; ( m - 0.5 ) / M ) 0 &le; n &le; M .
S14、计算所述梅尔倒谱系数的一阶差分和二阶差分,将所述一阶差分和二阶差分的系数与所述梅尔倒谱系数拼接,形成语音特征。如果t和t+1时刻的倒谱向量为ct和ct+1
一阶差分的计算方法为:
Δct=ct+1-ct
二阶差分为:
ΔΔct=Δct+1-Δct
拼接后的语音特征为:
[ct Δct ΔΔct]
S2、进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
其中,进行说话人跳变检测的方法为:采用k-均值聚类法将语音特征分为两类,然后对各帧语音进行分类;当语音从一个说话人过渡到另一个说话人时,则说话人发生了跳变;
其中,k-均值聚类法包括以下步骤:
S21、假定语音特征为F={f1,f2,...,fM},其中M为帧序号;
S22、从F中任意选择2帧语音数据作为类别均值,得到两类类别均值;
S23、采用欧式距离计算F中每帧语音特征与这两类类别均值的距离,并根据最小距离重新对F中的语音特征进行分类;
S24、对重新分类的结果,再次计算类别均值;
S25、循环S23到S24直到两类类别均值不再发生变化为止;
S26、对于帧序号为M以后的语音数据,计算其与两个类别均值的距离,并将其分类到距离它最近的一个类别上。
S3、对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行步骤S4;
其中,判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤:
S31、假定登记在册的诈骗分子有N个,每个人的语音用一个高斯混合模型建模,分别为λ12,...,λN,在识别阶段,输入的观测特征矢量序列为O={o1,o2,...,oT},T为输入语音的帧数;
S32、计算说话人为第n个诈骗分子的后验概率,1≤n≤N;
其中,步骤S32中的计算后验概率表达式为:
p ( &lambda; n | O ) = p ( O | &lambda; n ) p ( &lambda; n ) p ( O )
= p ( O | &lambda; n ) p ( &lambda; n ) &Sigma; m = 1 N p ( O | &lambda; m ) p ( &lambda; m )
P ( &lambda; n ) = 1 N , n = 1,2 , . . . , N
L(λn|O)=lnP(λn|O),n=1,2,N.
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;p(O|λn)为第n个诈骗分子产生特征矢量集O的条件概率;
S33、根据所述后验概率得到预判结果;
步骤S33中的计算预判结果表达式为:
n * = arg max 1 &le; n &le; N ln P ( &lambda; n | O ) = arg max 1 &le; n &le; N &Sigma; t = 1 T ln P ( &lambda; n | o t )
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率,P(λn|ot)为ot产生于λn的概率。
S34、根据所述预判结果得到最终的判决结果。
步骤S34中的计算判决结果表达式为:
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;为ot产生于的概率;threshold为预设的拒识门限。
S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
关键词判断,由两个重要的部分组成,第一个是语音识别器,第二个组成部分“关键词确认”模块进行关键词确认。如图3所示,语音识别模块的作用是对输入的语音进行第一级识别,在基于隐马尔科夫模型(Hidden Markov Model,HMM)的系统中,对词表中的每个关键词训练一个关键词模型。同时,对非关键词也建立HMM模型——垃圾模型。语音识别器的输出是一个由关键词和非关键词模型组成的词串或词网格,在这个输出中的每一个关键词都称为一个“假设命中”。然后根据该假设命中在模型上的得分与门限相比较,确认所检测出的关键词。
由于犯罪分子在犯罪时,其电话语音中会有明显的关键词信息,诸如“您中奖了”,“兑奖”,“猜猜我是谁”,“请将钱汇到…”等等。如果在电话中检测到有人在说这些电话诈骗相关的词汇,则可以认为犯罪分子正在施行诈骗。
如果经过判定,存在至少一个关键词,则判定存在诈骗行为;
接下来,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型,其目的在于对确认在实施诈骗行为的不发人员进行登记,包括采集此人的语音,训练说话人模型,用于后续的监控,还包括将此人写入诈骗记录中。本发明实施例为每个说话人的语音建立一个GMM。M阶GMM的概率密度函数如下:
P ( o | &lambda; ) = &Sigma; i = 1 M P ( o , i | &lambda; ) = &Sigma; i = 1 M c i P ( o | i , &lambda; )
其中,λ为GMM模型的参数集;o为K维的声学特征矢量;i为隐状态号,也就是高斯分量的序号,M阶GMM就有M个隐状态;ci为第i个分量的混合权值,其值对应为隐状态i的先验概率,因此有:
&Sigma; i = 1 M c i = 1
P(o|i,λ)为高斯混合分量,对应隐状态i的观察概率密度函数,
其中,步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模,M阶高斯混合模型的概率密度函数如下:
其中, P ( o | i , &lambda; ) = N ( o , &mu; i , &Sigma; i ) = P ( o | &lambda; ) = &Sigma; i = 1 M c i P ( o | i , &lambda; ) 1 ( 2 &pi; ) K / 2 | &Sigma; i | 1 / 2 exp { - ( o - &mu; i ) T &Sigma; i - 1 ( o - &mu; i ) 2 }
式中,λ={ciii;(i=1...M)},μi为均值矢量,Σi为协方差矩阵,i=1,2,..M。矩阵Σi在这里采用对角阵:
c i = 1 T &Sigma; i = 1 T P ( q t = i | o t , &lambda; )
&mu; i = &Sigma; t = 1 T P ( q t = i | o t , &lambda; ) o t &Sigma; t = 1 T P ( q t = i | o t , &lambda; )
作为对本发明实施例的优化,步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤;步骤S4中保存该诈骗分子的说话人模型后进一步包括:登记诈骗分子,更新诈骗记录的步骤。
诈骗记录是监控系统对诈骗分子及其活动情况的记载,包括{诈骗者编号,诈骗时间,说话人模型编号,所用号码,受骗者号码}。其中诈骗者编号是系统在检测到此人第一次诈骗是自动分配的一个编号,用于标识该诈骗者(诈骗者真实姓名不可知),说话人模型编号是在登记诈骗者时为其训练的声学模型的编号,用于识别和监控该诈骗者。所用号码是诈骗者实施某一次诈骗所用的电话号码。诈骗分子可能虚拟号码或者用其他方式冒充,因此每次使用的号码可能不一样;该号码可被公安机关用来定位诈骗者。受骗者号码被记录下来供公安机关通知受骗者提高警惕,避免受骗。系统在检测到诈骗行为并进行登记或者检测到电话中有在册的诈骗分子式需要修改诈骗记录本发明实施例通过更新诈骗记录,实现了对识别出的犯罪份子进行监控和更新的功能,使得公安系统在打击电信诈骗的时候,对犯罪份子的信息了解的更全面。
实施例2:
如图4所示,本发明实施例还提供了一种语音监控装置,包含以下模块:
提取语音特征模块,获取电话的语音数据,提取所述语音数据的语音特征;
说话人跳变检测模块,进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
语音特征识别模块,对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行语音特征检测模块;
语音特征检测模块,检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
如图5所示,为本发明优选实施例的一种语音监控装置的架构示意图,系统架设在电话网络的电信级网关上,同时采集多路电话信号并进行实时处理。在处理中采用说话人识别技术识别诈骗分子的身份并进行监控,采用关键词检出技术检测说话内容中可能出现的与诈骗相关的言词,实现诈骗行为的确认。
综上,本发明通过提取语音数据的语音特征,结合先进的说话人识别技术和关键词检出技术实现了诈骗分子的识别和诈骗行为的检测。在处理中采用说话人识别技术识别诈骗分子的身份并进行监控,采用关键词检出技术检测说话内容中可能出现的与诈骗相关的言词,实现诈骗行为的确认。实现了对诈骗分子自动的识别与监控,同时节约了公安系统的打击电信诈骗的成本,提高了电话网络的安全系数。
本发明还实现了对识别出的犯罪份子进行监控和更新的功能,使得公安系统在打击电信诈骗的时候,对犯罪份子的信息了解的更全面。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音监控方法,其特征在于,包含以下步骤:
S1、获取电话的语音数据,提取所述语音数据的语音特征;
S2、进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
S3、对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行步骤S4;
S4、检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
2.如权利要求1所述的一种语音监控方法,其特征在于,步骤S1中包含步骤:
S11、对所述获取的电话语音数据进行预处理;
S12、对预处理过后的电话语音数据作离散傅立叶变换,求得功率谱;
S13、基于梅尔滤波器组求得所述功率谱的梅尔倒谱系数;
S14、计算所述梅尔倒谱系数的一阶差分和二阶差分,将所述一阶差分和二阶差分的系数与所述梅尔倒谱系数拼接,形成语音特征。
3.如权利要求2所述的语音监控方法,其特征在于,
步骤S11中的预处理包括分帧操作和加窗操作;
其中,加窗操作采用的窗函数为汉明窗,表达式w(n)为:
式中n为时间序号,L为窗长;
步骤S12中所述的求功率谱的表达式Xa(k)为:
X a ( k ) | | &Sigma; n = 0 N - 1 x ( n ) e - j 2 k&pi; / N | | 2 0 &le; k &le; N
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数,j表示虚数单位。
4.如权利要求1所述的语音监控方法,其特征在于,步骤S2中进行说话人跳变检测的方法为:采用k-均值聚类法将语音特征分为两类,然后对各帧语音进行分类;当语音从一个说话人过渡到另一个说话人时,则说话人发生了跳变;
其中,k-均值聚类法包括以下步骤:
S21、假定语音特征为F={f1,f2,...,fM},其中M为帧序号;
S22、从F中任意选择2帧语音数据作为类别均值,得到两类类别均值;
S23、采用欧式距离计算F中每帧语音特征与这两类类别均值的距离,并根据最小距离重新对F中的语音特征进行分类;
S24、对重新分类的结果,再次计算类别均值;
S25、循环S23到S24直到两类类别均值不再发生变化为止;
S26、对于帧序号为M以后的语音数据,计算其与两个类别均值的距离,并将其分类到距离它最近的一个类别上。
5.如权利要求1所述的语音监控方法,其特征在于,步骤S3中判断是否存在与之匹配的诈骗分子的说话人模型包含以下步骤:
S31、假定登记在册的诈骗分子有N个,每个人的语音用一个高斯混合模型建模,分别为λ12,...,λN,在识别阶段,输入的观测特征矢量序列为O={o1,o2,...,oT},T为输入语音的帧数;
S32、计算说话人为第n个诈骗分子的后验概率,1≤n≤N;
S33、根据所述后验概率得到预判结果;
S34、根据所述预判结果得到最终的判决结果。
6.如权利要求5所述的语音监控方法,其特征在于,
步骤S32中的计算后验概率表达式为:
p ( &lambda; n | O ) = p ( O | &lambda; n ) p ( &lambda; n ) p ( O )
= p ( O | &lambda; n ) p ( &lambda; n ) &Sigma; m = 1 N p ( O | &lambda; m ) p ( &lambda; m )
P ( &lambda; n ) = 1 N , n = 1,2 , N .
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;p(O|λn)为第n个诈骗分子产生特征矢量集O的条件概率;
步骤S33中的计算预判结果表达式为:
n * = arg max 1 &le; n &le; N ln P ( &lambda; n | O ) = arg max 1 &le; n &le; N &Sigma; t = 1 T ln P ( &lambda; n | o t )
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;P(λn|ot)为ot产生于λn的概率;
步骤S34中的计算判决结果表达式为:
式中,p(λn)为第n个诈骗分子的先验概率;p(O)为所有事件条件下特征矢量集O的概率;为ot产生于的概率;threshold为预设的拒识门限。
7.如权利要求1所述的语音监控方法,其特征在于,步骤S4中的采用高斯混合模型来为训练诈骗分子的说话人建模,M阶高斯混合模型的概率密度函数如下:
其中, P ( o | i , &lambda; ) = N ( o , &mu; i , &Sigma; i ) = P ( o | &lambda; ) = &Sigma; i = 1 M c i P ( o | i , &lambda; ) 1 ( 2 &pi; ) K / 2 | &Sigma; i | 1 / 2 exp { - ( o - &mu; i ) T &Sigma; i - 1 ( o - &mu; i ) 2 }
式中,λ={ciii;(i=1...M)},μi为均值矢量,Σi为协方差矩阵,i=1,2,..M。矩阵Σi在这里采用对角阵:
c i = 1 T &Sigma; i = 1 T P ( q t = i | o t , &lambda; )
&mu; i = &Sigma; t = 1 T P ( q t = i | o t , &lambda; ) o t &Sigma; t = 1 T P ( q t = i | o t , &lambda; )
8.如权利要求1所述的语音监控方法,其特征在于,步骤S3中判定存在诈骗行为后进一步包括更新诈骗记录的步骤;步骤S4中保存该诈骗分子的说话人模型后进一步包括:登记诈骗分子,更新诈骗记录的步骤。
9.如权利要求8所述的语音监控方法,其特征在于,更新的诈骗记录包括诈骗者编号、诈骗时间、说话人模型编号、所用号码和受骗者号码。
10.一种语音监控装置,其特征在于,包含以下模块:
提取语音特征模块,获取电话的语音数据,提取所述语音数据的语音特征;
说话人跳变检测模块,进行说话人跳变检测,将所述语音特征按两个说话人进行分离,得到两类分离的语音特征;
语音特征识别模块,对于分离的每一类语音特征,判断是否存在与之匹配的诈骗分子的说话人模型,如为是,则判定存在诈骗份子;如为否,则执行语音特征检测模块;
语音特征检测模块,检测所述分离的语音特征中是否存在预先设置的诈骗行为相关的关键词,如果存在至少一个关键词,则判定存在诈骗行为,训练该诈骗分子的说话人模型,并保存该诈骗分子的说话人模型;否则,判定不存在诈骗行为。
CN201310332075.5A 2013-08-01 2013-08-01 语音监控方法及装置 Pending CN103971700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310332075.5A CN103971700A (zh) 2013-08-01 2013-08-01 语音监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310332075.5A CN103971700A (zh) 2013-08-01 2013-08-01 语音监控方法及装置

Publications (1)

Publication Number Publication Date
CN103971700A true CN103971700A (zh) 2014-08-06

Family

ID=51241115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310332075.5A Pending CN103971700A (zh) 2013-08-01 2013-08-01 语音监控方法及装置

Country Status (1)

Country Link
CN (1) CN103971700A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
WO2017012496A1 (zh) * 2015-07-23 2017-01-26 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106412348A (zh) * 2016-11-14 2017-02-15 商客通尚景科技(上海)股份有限公司 一种电话录音识别预警控制方法
CN106504768A (zh) * 2016-10-21 2017-03-15 百度在线网络技术(北京)有限公司 基于人工智能的电话拨测音频分类方法及装置
CN106531158A (zh) * 2016-11-30 2017-03-22 北京理工大学 一种应答语音的识别方法及装置
CN107113360A (zh) * 2014-12-23 2017-08-29 英特尔公司 协作电话信誉系统
CN107564529A (zh) * 2017-10-20 2018-01-09 潘柏霖 一种基于语音识别的智能家居控制系统
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108053838A (zh) * 2017-12-01 2018-05-18 上海壹账通金融科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108806695A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 自更新的反欺诈方法、装置、计算机设备和存储介质
CN108962264A (zh) * 2018-08-29 2018-12-07 深圳市旭发智能科技有限公司 一种无人机及存储介质
WO2019037205A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
CN109803055A (zh) * 2018-12-21 2019-05-24 中国人民解放军战略支援部队信息工程大学 一种电信网络诈骗电话在线检出与控制装置及方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN111128199A (zh) * 2019-12-27 2020-05-08 中国人民解放军陆军工程大学 一种基于深度学习的敏感说话人监听和录音控制方法和系统
CN111326172A (zh) * 2018-12-17 2020-06-23 北京嘀嘀无限科技发展有限公司 冲突检测方法、装置、电子设备及可读存储介质
CN113112992A (zh) * 2019-12-24 2021-07-13 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124623A (zh) * 2005-02-18 2008-02-13 富士通株式会社 语音认证系统
US20090018832A1 (en) * 2005-02-08 2009-01-15 Takeya Mukaigaito Information communication terminal, information communication system, information communication method, information communication program, and recording medium recording thereof
CN101415188A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种群发垃圾短信的监管方法
CN102088520A (zh) * 2009-12-03 2011-06-08 株式会社日立制作所 使用呼叫控制及通话录音功能的通话录音系统
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN102254556A (zh) * 2010-05-17 2011-11-23 阿瓦雅公司 基于听者和说者的讲话风格比较估计听者理解说者的能力
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN103179122A (zh) * 2013-03-22 2013-06-26 马博 一种基于语音语义内容分析的防电信电话诈骗方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018832A1 (en) * 2005-02-08 2009-01-15 Takeya Mukaigaito Information communication terminal, information communication system, information communication method, information communication program, and recording medium recording thereof
CN101124623A (zh) * 2005-02-18 2008-02-13 富士通株式会社 语音认证系统
CN101415188A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种群发垃圾短信的监管方法
CN102088520A (zh) * 2009-12-03 2011-06-08 株式会社日立制作所 使用呼叫控制及通话录音功能的通话录音系统
CN102254556A (zh) * 2010-05-17 2011-11-23 阿瓦雅公司 基于听者和说者的讲话风格比较估计听者理解说者的能力
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN103179122A (zh) * 2013-03-22 2013-06-26 马博 一种基于语音语义内容分析的防电信电话诈骗方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘大鹏: "会话语音中说话人识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113360A (zh) * 2014-12-23 2017-08-29 英特尔公司 协作电话信誉系统
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
US10714094B2 (en) 2015-07-23 2020-07-14 Alibaba Group Holding Limited Voiceprint recognition model construction
WO2017012496A1 (zh) * 2015-07-23 2017-01-26 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106373575A (zh) * 2015-07-23 2017-02-01 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
KR102250460B1 (ko) * 2015-07-23 2021-05-13 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
US11043223B2 (en) 2015-07-23 2021-06-22 Advanced New Technologies Co., Ltd. Voiceprint recognition model construction
KR20180034507A (ko) * 2015-07-23 2018-04-04 알리바바 그룹 홀딩 리미티드 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
JP2018527609A (ja) * 2015-07-23 2018-09-20 アリババ グループ ホウルディング リミテッド ユーザ声紋モデルを構築するための方法、装置、及びシステム
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
WO2018018906A1 (zh) * 2016-07-27 2018-02-01 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN106504768A (zh) * 2016-10-21 2017-03-15 百度在线网络技术(北京)有限公司 基于人工智能的电话拨测音频分类方法及装置
CN106504768B (zh) * 2016-10-21 2019-05-03 百度在线网络技术(北京)有限公司 基于人工智能的电话拨测音频分类方法及装置
CN106412348B (zh) * 2016-11-14 2019-04-12 商客通尚景科技(上海)股份有限公司 一种电话录音识别预警控制方法
CN106412348A (zh) * 2016-11-14 2017-02-15 商客通尚景科技(上海)股份有限公司 一种电话录音识别预警控制方法
CN106531158A (zh) * 2016-11-30 2017-03-22 北京理工大学 一种应答语音的识别方法及装置
WO2019037205A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
CN107564529A (zh) * 2017-10-20 2018-01-09 潘柏霖 一种基于语音识别的智能家居控制系统
CN108053838A (zh) * 2017-12-01 2018-05-18 上海壹账通金融科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
WO2019104890A1 (zh) * 2017-12-01 2019-06-06 深圳壹账通智能科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108053838B (zh) * 2017-12-01 2019-10-11 深圳壹账通智能科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108806695A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 自更新的反欺诈方法、装置、计算机设备和存储介质
CN108962264A (zh) * 2018-08-29 2018-12-07 深圳市旭发智能科技有限公司 一种无人机及存储介质
CN111326172A (zh) * 2018-12-17 2020-06-23 北京嘀嘀无限科技发展有限公司 冲突检测方法、装置、电子设备及可读存储介质
CN109803055B (zh) * 2018-12-21 2020-11-03 中国人民解放军战略支援部队信息工程大学 一种电信网络诈骗电话在线检出与控制方法
CN109803055A (zh) * 2018-12-21 2019-05-24 中国人民解放军战略支援部队信息工程大学 一种电信网络诈骗电话在线检出与控制装置及方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN113112992A (zh) * 2019-12-24 2021-07-13 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器
CN113112992B (zh) * 2019-12-24 2022-09-16 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器
CN111128199A (zh) * 2019-12-27 2020-05-08 中国人民解放军陆军工程大学 一种基于深度学习的敏感说话人监听和录音控制方法和系统

Similar Documents

Publication Publication Date Title
CN103971700A (zh) 语音监控方法及装置
US8145562B2 (en) Apparatus and method for fraud prevention
CN109543020B (zh) 问询处理方法及系统
CN105244031A (zh) 说话人识别方法和装置
CN109712628A (zh) 一种基于rnn的语音降噪方法及语音识别方法
CN101923855A (zh) 文本无关的声纹识别系统
CN108985776A (zh) 基于多重信息验证的信用卡安全监测方法
CN108848507A (zh) 一种不良电信用户信息采集方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN107993664B (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
CN110248322A (zh) 一种基于诈骗短信的诈骗团伙识别系统及识别方法
CN103971702A (zh) 声音监控方法、装置及系统
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
CN108804669A (zh) 一种基于意图理解技术的诈骗电话检出方法
CN109346085A (zh) 一种基于声纹识别的监狱监管平台
CN105679323B (zh) 一种号码发现方法及系统
CN113314150A (zh) 基于语音数据的情绪识别方法、装置及存储介质
CN102411929A (zh) 声纹认证系统及其实现方法
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
CN109493882A (zh) 一种诈骗电话语音自动标注系统及方法
CN109104534A (zh) 一种提高外呼机器人意图检测准确率、召回率的系统
CN100570712C (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN115102789A (zh) 一种反通信网络诈骗研判预警拦截综合平台
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140806