CN114067834A - 一种不良前导音识别方法、装置、存储介质和计算机设备 - Google Patents

一种不良前导音识别方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN114067834A
CN114067834A CN202010752821.6A CN202010752821A CN114067834A CN 114067834 A CN114067834 A CN 114067834A CN 202010752821 A CN202010752821 A CN 202010752821A CN 114067834 A CN114067834 A CN 114067834A
Authority
CN
China
Prior art keywords
probability
voice data
preamble
mean vector
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010752821.6A
Other languages
English (en)
Inventor
于乐
张卫强
袁捷
张峰
李祥军
江为强
邱勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
China Mobile Communications Group Co Ltd
Original Assignee
Tsinghua University
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, China Mobile Communications Group Co Ltd filed Critical Tsinghua University
Priority to CN202010752821.6A priority Critical patent/CN114067834A/zh
Publication of CN114067834A publication Critical patent/CN114067834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供了一种不良前导音识别方法、装置、存储介质和计算机设备。通过根据获取的多个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音的准确性。

Description

一种不良前导音识别方法、装置、存储介质和计算机设备
【技术领域】
本发明涉及通信技术领域,尤其涉及一种不良前导音识别方法、装置、存储 介质和计算机设备。
【背景技术】
随着电信业务的发展,一些不良电话也随之出现,比如骚扰电话、诈骗电话 等,严重地干扰了正常的业务,影响了人们正常的生活。一般不良电话在开头会 有一段固定的前导音,有的是录制好的语音,有的是特定的音乐。如果能高效地 检测这些前导音可以为识别不良电话提供有效线索,从而达到提前防范不良电话 的目的。
目前不良前导音识别技术常使用模板匹配的方法,但随着管控能力的增强, 不良电话也出现了一些对抗性手段,比如将不良电话的前导音进行剪辑等操作, 这样很容易绕过现有的模板匹配方法,降低了识别不良前导音的准确性。
【发明内容】
有鉴于此,本发明实施例提供了一种不良前导音识别方法、装置、存储介质 和计算机设备,用以提高识别不良前导音的准确性。
一方面,本发明实施例提供了一种不良前导音识别方法,包括:
根据获取的多个语音数据生成每个语音数据对应的多维特征向量;
根据多个所述多维特征向量生成每个语音数据对应的前导音概率;
从多个所述前导音概率中提取概率最大值,所述概率最大值包括最大的前导 音概率;
判断所述概率最大值是否大于设定门限;
若判断出所述概率最大值大于设定门限,则将所述概率最大值对应的语音数 据的前导音设置为不良前导音。
可选地,所述根据获取的多个语音数据生成每个语音数据对应的多维特征向 量包括:
获取每个所述语音数据对应的一个或多个模板;
通过语音活动检测算法确定每个所述模板对应的所述语音数据的起点位置;
从每个所述起点位置开始在每个所述模板对应的语音数据上设置一个或多 个设定长度的首尾相连的矩形窗;
从每个所述矩形窗中提取所述矩形窗对应的所述语音数据的语音片段;
计算每个所述语音片段对应的多维梅尔频率倒谱系数特征值;
将每个所述多维梅尔频率倒谱系数特征值首尾相接,生成每个语音数据对应 的多维特征向量。
可选地,所述根据多个所述多维特征向量生成每个语音数据对应的前导音概 率包括:
根据多个所述多维特征向量计算初始均值向量和初始协方差矩阵;
通过平滑估计算法对初始均值向量进行计算,生成均值向量;
通过平滑估计算法对初始协方差矩阵进行计算,生成协方差矩阵;
根据所述多个多维特征向量、所述均值向量和所述协方差矩阵,生成每个语 音数据对应的前导音概率。
可选地,所述根据所述多个多维特征向量、所述均值向量和所述协方差矩阵, 生成每个语音数据对应的前导音概率包括:
通过公式p(x)=N(x|μ,Σ)对多个所述多维特征向量、所述均值向量和所述协方差矩阵进行计算,生成多个前导音概率,其中,p(x)为所述前导音概率,x为 所述多维特征向量,μ为所述均值向量,Σ为所述协方差矩阵。
可选地,所述通过平滑估计算法对初始均值向量进行计算,生成均值向量包 括:
通过公式
Figure BDA0002610576600000031
对初始均值向量进行计算,生成均值向量,其中,μ为 所述均值向量,μ0为所述初始均值向量,xi为第i个多维特征向量,N为模板的 个数,s为起点位置总数。
可选地,所述通过平滑估计算法对初始协方差矩阵进行计算,生成协方差矩 阵包括:
通过公式
Figure BDA0002610576600000032
对初始协方差矩阵进行计算,生成协方差矩阵,其中,μ为所述均值向量,μ0为所述初始均值向量,xi为第i个多 维特征向量,N为模板的个数,s为起点位置总数,Σ0为所述初始协方差矩阵。
可选地,还包括:
若判断出所述概率最大值小于或等于设定门限,则将所述概率最大值对应的 语音数据的前导音设置为良好前导音。
另一方面,本发明实施例提供了一种不良前导音识别装置,包括:
第一生成模块,用于根据获取的多个语音数据生成每个语音数据对应的多维 特征向量;
第二生成模块,用于根据多个所述多维特征向量生成每个语音数据对应的前 导音概率;
提取模块,用于从多个所述前导音概率中提取概率最大值,所述概率最大值 包括最大的前导音概率;
判断模块,用于判断所述概率最大值是否大于设定门限;
第一设置模块,用于若判断模块判断出所述概率最大值大于设定门限,则将 所述概率最大值对应的语音数据的前导音设置为不良前导音。
另一方面,本发明实施例提供了一种存储介质,包括:所述存储介质包括存 储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述不良前 导音识别方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所 述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行, 其特征在于,所述程序指令被处理器加载并执行时实现上述不良前导音识别方法 的步骤。
本发明实施例提供的不良前导音识别方法的技术方案中,通过根据获取的多 个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成 每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最 大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率 最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导 音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门 限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前 导音的准确性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根 据这些附图获得其它的附图。
图1为本发明实施例提供的一种不良前导音识别方法的流程图;
图2为本发明实施例提供的另一种不良前导音识别方法的流程图;
图3为根据获取的多个语音数据生成每个语音数据对应的多维特征向量的 流程图;
图4为根据多个多维特征向量生成每个语音数据对应的前导音概率的流程 图;
图5为本发明实施例提供的一种起点位置设置方法的示意图;
图6为本发明实施例提供的不良前导音识别结果折线统计图;
图7为本发明实施例提供的良好前导音识别结果折线统计图;
图8为本发明实施例提供的一种不良前导音识别装置的结构示意图;
图9为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细 描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下 所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在 限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、 “所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系, 表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲 和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是 一种“或”的关系。
相关技术中,通常基于电话号码的特征来识别不良电话,基于电话号码的特 征来分析该电话号码是否为不良电话存在诸多问题。例如,基于电话号码的特征 仅能够分析出不良电话的电话号码特征,不能够对电话内容进行分析。当主叫终 端能够任意修改主叫电话号码的情况下,基于电话号码的特征来识别不良电话的 方法不能够准确地识别出不良电话,也不能准确地识别出不良前导音。
另一种相关技术中,根据语音识别方法来识别不良前导音。根据语音识别方 法来识别不良前导音的方法对语音识别的准确性要求较高,常使用语音转文字技 术,而语音转文字技术不能准确地将语音转化为文字,因此,根据语音识别方法 来识别不良前导音不能够准确地识别出不良前导音。
为解决相关技术中的技术问题,本发明实施例提供了一种不良前导音识别方 法。图1为本发明实施例提供的一种不良前导音识别方法的流程图,如图1所示, 该方法包括:
步骤101、根据获取的多个语音数据生成每个语音数据对应的多维特征向量。
本发明实施例中,各步骤由服务器执行。
本发明实施例中,步骤101之前包括:获取多个语音数据。语音数据包括不 良语音数据或良好语音数据。不良语音数据包括骚扰电话的语音数据或诈骗电话 的语音数据。良好语音数据包括正常通话的语音数据。
步骤102、根据多个多维特征向量生成每个语音数据对应的前导音概率。
本步骤中,根据多个多维特征向量生成均值向量和协方差矩阵,并根据多个 多维特征向量、均值向量和协方差矩阵,生成每个语音数据对应的前导音概率。
步骤103、从多个前导音概率中提取概率最大值,概率最大值包括最大的前 导音概率。
步骤104、判断概率最大值是否大于设定门限。
本发明实施例中,设定门限能够根据实际情况进行设置。
本发明实施例中,若判断出概率最大值大于设定门限,则表明概率最大值对 应的语音数据的前导音为不良前导音;若判断出概率最大值小于或等于设定门限, 则表明概率最大值对应的语音数据的前导音为良好前导音。
步骤105、若判断出概率最大值大于设定门限,则将概率最大值对应的语音 数据的前导音设置为不良前导音。
本实施例提供的不良前导音识别方法的技术方案中,通过根据获取的多个语 音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个 语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值 包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大 值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。 本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的 概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音 的准确性。
本发明实施例提供了另一种不良前导音识别方法。图2为本发明实施例提供 的另一种不良前导音识别方法的流程图,如图2所示,该方法包括:
步骤201、根据获取的多个语音数据生成每个语音数据对应的多维特征向量。
本发明实施例中,各步骤由服务器执行。
本发明实施例中,步骤201之前包括:获取多个语音数据。语音数据包括不 良语音数据或良好语音数据。不良语音数据包括骚扰电话的语音数据或诈骗电话 的语音数据。良好语音数据包括正常通话的语音数据。
本发明实施例中,图3为根据获取的多个语音数据生成每个语音数据对应的 多维特征向量的流程图,如图3所示,步骤201具体包括:
步骤2011、获取每个语音数据对应的一个或多个模板。
作为一种可选方案,语音数据包括电话销售语音数据或诈骗语音数据,模板 包括电话销售语音模板或诈骗模板,当语音数据包括电话销售语音数据或诈骗语 音数据,模板包括电话销售语音模板或诈骗模板时,该语音数据对应于电话销售 语音模板或诈骗模板。
本发明实施例中,作为一种可选方案,模板可以根据语音数据的前导音来设 置。一个模板可对应一个前导音或一组前导音。
其中,一组前导音可包括多个前导音,多个前导音之间具备一定的差异性, 但多个前导音为相似的前导音,作为一种可选方案,一组前导音中不同的前导音 具备差异内容,其中,差异内容包括设定数量个文字,设定数量小于或等于设定 阈值,其中,设定阈值能够根据实际情况设置。例如:设定数量包括2,则在一 个前导音中差异内容包括电脑,在另一个前导音中差异内容包括手机。
本发明实施例中,模板包括电话销售模板,前导音包括电话销售前导音,一 个电话销售模板可对应于一个电话销售前导音或者一组电话销售前导音。
步骤2012、通过语音活动检测算法确定每个模板对应的语音数据的起点位 置。
本发明实施例中,每个模板对应的语音数据的起点位置的数量包括一个或多 个。
当每个模板对应的语音数据的起点位置的数量包括一个时,通过语音活动检 测算法确定每个模板对应的语音数据的起点位置。
当每个模板对应的语音数据的起点位置的数量包括多个时,通过语音活动检 测算法确定每个模板对应的语音数据的起点位置,并对该起点位置进行滑动,生 成多个起点位置。
图5为本发明实施例提供的一种起点位置设置方法的示意图,如图5所示, 通过语音活动检测(Voice Activity Detection,简称VAD)算法确定每个模板对应 的语音数据的起点位置。
作为一种可选方案,通过VAD算法得到起始位置,然后将通过VAD算法得 到的起始位置进行滑动,得到多个新的起始位置。例如:将通过VAD算法得到 的起始位置向前滑动40个采样点;将通过VAD算法得到的起始位置向后滑动40 个采样点;将通过VAD算法得到的起始位置向前滑动80个采样点;将通过VAD 算法得到的起始位置向后滑动80个采样点;将通过VAD算法得到的起始位置向 前滑动120个采样点;将通过VAD算法得到的起始位置向后滑动120个采样点; 将通过VAD算法得到的起始位置向后滑动120个采样点;将通过VAD算法得到 的起始位置向前滑动160个采样点;将通过VAD算法得到的起始位置向后滑动 160个采样点,共生成8个新的起始位置。
本发明实施例中,通过VAD算法得到1个起始位置,通过对起始位置进行 滑动得到8个新的起始位置,共生成9个起始位置,即起始位置的总数为9。
本发明实施例中,若向前滑动超过了语音数据的原始起点,则在语音数据的 原始起点前面补零。
步骤2013、从每个起点位置开始在每个模板对应的语音数据上设置一个或多 个设定长度的首尾相连的矩形窗。
例如:如图5所示,设定长度包括1000个采样点。从每个起点位置开始在 语音数据上设置8个1000个采样点的首尾相连的矩形窗,8个矩形窗包括窗1、 窗2……窗8。
本发明实施例中,1000个采样点相当于语音数据中的0.125秒。
步骤2014、从每个矩形窗中提取矩形窗对应的语音数据的语音片段。
本步骤中,将每个矩形窗乘以每个矩形窗对应的信号,从而提取出矩形窗对 应的语音数据的语音片段。
步骤2015、计算每个语音片段对应的多维梅尔频率倒谱系数特征值。
具体地,对每个语音片段进行预加重处理,生成每个语音片段对应的预加重 语音片段;对每个预加重语音片段进行分帧处理,生成每个预加重语音片段对应 的多个分帧语音片段;将每个分帧语音片段乘以汉明窗,生成窗语音片段;对窗 语音片段进行快速傅里叶变换,生成每个分帧语音片段的频谱;将每个分帧语音 片段的频谱输入三角带通滤波器以输出每个频谱的对数能量;通过经离散余弦变 换算法对每个对数能量进行计算,生成每个对数能量对应的多维梅尔频率倒谱系 数特征值。
作为一种可选方案,计算每个语音片段对应的8维梅尔频率倒谱系数特征值。
步骤2016、将每个多维梅尔频率倒谱系数特征值首尾相接,生成每个语音数 据对应的多维特征向量。
例如:将8个8维梅尔频率倒谱系数特征值首尾相接,生成每个语音数据对 应的64维特征向量。
本发明实施例中,若前导音相同的语音数据对应N个模板,则步骤201中生 成9N个64维特征向量。
步骤202、根据多个多维特征向量生成每个语音数据对应的前导音概率。
本发明实施例中,图4为根据多个多维特征向量生成每个语音数据对应的前 导音概率的流程图,如图4所示,步骤202具体包括:
步骤2021、根据多个多维特征向量计算初始均值向量和初始协方差矩阵。
具体地,通过公式
Figure BDA0002610576600000101
对多个多维特征向量进行计算,生成初始均值向 量,其中,μ0为初始均值向量,xi为第i个多维特征向量,L为多维特征向量的 总数。
具体地,通过公式
Figure BDA0002610576600000102
对多个多维特征向量进行计算,生 成初始协方差矩阵,其中,Σ0为初始协方差矩阵,μ0为初始均值向量,xi为第 i个多维特征向量,L为多维特征向量的总数。
步骤2022、通过平滑估计算法对初始均值向量进行计算,生成均值向量。
具体地,通过公式
Figure BDA0002610576600000103
对初始均值向量进行计算,生成均值向量,其 中,μ为均值向量,μ0为初始均值向量,xi为第i个多维特征向量,N为模板的 个数,s为起点位置总数。
本发明实施例中,作为一种可选方案,s=9。
步骤2023、通过平滑估计算法对初始协方差矩阵进行计算,生成协方差矩阵。
具体地,通过公式
Figure BDA0002610576600000104
对初始协方差矩阵进行计算,生成协方差矩阵,其中,μ为均值向量,μ0为初始均值向量,xi为第i个多 维特征向量,N为模板的个数,s为起点位置总数,Σ0为初始协方差矩阵。
本发明实施例中,由于实际操作中模板的数目可能不多,最少时仅为1,而 多维特征向量的维数为64,如果直接从9N个多维特征向量中估计协方差矩阵会 导致矩阵奇异,即矩阵行列式的值为0:
Figure BDA0002610576600000111
这样将无法按高斯分布求解概率密度。
本发明实施例中,采用Laplace平滑技术,对初始协方差矩阵进行插值,有 效地解决了矩阵奇异的问题。
步骤2024、根据多个多维特征向量、均值向量和协方差矩阵,生成每个语音 数据对应的前导音概率。
具体地,通过公式p(x)=N(x|μ,Σ)对多个多维特征向量、均值向量和协方差矩阵进行计算,生成多个前导音概率,其中,p(x)为前导音概率,x为多维特征 向量,μ为均值向量,Σ为协方差矩阵。
本发明实施例中,计算出的前导音概率满足高斯分布的特征。
步骤203、从多个前导音概率中提取概率最大值,概率最大值包括最大的前 导音概率。
步骤204、判断概率最大值是否大于设定门限,若是,执行步骤205;若否, 执行步骤206。
本发明实施例中,设定门限能够根据实际情况进行设置。
本发明实施例中,若判断出概率最大值大于设定门限,则表明概率最大值对 应的语音数据的前导音为不良前导音;若判断出概率最大值小于或等于设定门限, 则表明概率最大值对应的语音数据的前导音为良好前导音。
步骤205、将概率最大值对应的语音数据的前导音设置为不良前导音。
步骤206、将概率最大值对应的语音数据的前导音设置为良好前导音。
本发明实施例中,图6为本发明实施例提供的不良前导音识别结果折线统计 图,如图6所示,该折线统计图的横轴为测试次数,纵轴为查全率或准确率。横 轴的测试次数分为七次,图6中测试周期为一周,每间隔一周根据这一周获取的 语音数据测试一次,第一次的准确率为100%,查全率为96.70%;第二次的准确 率为100%,查全率为99.60%;第三次的准确率为100%,查全率为90%;第四 次的准确率为100%,查全率为73.95%;第五次的准确率为100%,查全率为 70.58%;第六次的准确率为100%,查全率为84.04%;第七次的准确率为100%, 查全率为89.32%。根据50万条语音数据按照本发明实施例提供的不良前导音识 别方法进行测试,能够识别出不良前导音的准确率为100%,查全率为86.31%, 能够准确地识别出不良前导音。
本发明实施例中,图7为本发明实施例提供的良好前导音识别结果折线统计 图,如图7所示,该折线统计图的横轴为测试次数,纵轴为查全率或准确率。横 轴的测试次数分为七次,图7中测试周期为一周,每间隔一周根据这一周获取的 语音数据测试一次,第一次的准确率为100%,查全率为87.50%;第二次的准确 率为100%,查全率为89%;第三次的准确率为99%,查全率为84%;第四次的 准确率为100%,查全率为80.82%;第五次的准确率为100%,查全率为89.40%; 第六次的准确率为100%,查全率为89.60%;第七次的准确率为100%,查全率 为87.23%。根据50万条语音数据按照本发明实施例提供的不良前导音识别方法 进行测试,能够识别出良好前导音的准确率为99.86%,查全率为86.79%,能够准确地识别出良好前导音。本发明实施例中,根据50万条语音数据按照本发明 实施例提供的不良前导音识别方法进行测试,50万条语音数据能够识别出不良前 导音的准确率为99.93%,总体查全率为86.55%,能够准确地识别出不良前导音。
本发明实施例中,通过1万个语音数据进行试验,能够得到:根据相关技术 中模板匹配的方法来识别不良前导音,用时16.5秒,准确率81%;根据相关技术 中语音识别的方法来识别不良前导音,用时2160秒,准确率95%;根据本发明 实施例提供的技术方法来识别不良前导音,用时17秒,准确率97%。从上述数 据中能够得出,本发明实施例提供的技术方法的准确率最高。
另外,本发明实施例提供的不良前导音识别方法已在全网范围上线,覆盖全 国31省,服务近10亿用户。自2018年6月上线以来,累计接收全量疑似骚扰 电话73万件,自动识别出56万条,识别准确率达99.93%,节约审核人员80% 以上。相应地,审核人员减少了23人。按照审核人员成本10.9万元/人/年计算, 审核成本已有效节约251万(10.9万元/人/年*23人=251万元)。本发明实施 例提供的技术方案有效地节省了人员成本。
本实施例提供的不良前导音识别方法的技术方案中,通过根据获取的多个语 音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个 语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值 包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大 值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。 本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的 概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音 的准确性。
本发明实施例提供的技术方案,根据事先采集好的前导音模板,提取语音片 段并采用平滑方式计算出多维特征向量、均值向量或协方差矩阵,从而可以高效 准确地进行不良电话的识别与检测。
本发明实施例提供的技术方案不但可以应对较大的模板剪辑等对抗手段,而 且速度比基于语音识别的方法快几个数量级,非常适用于超大规模不良电话前导 音识别。既大大提高了处理速度,又兼顾了内容动态变化情况下的精度,可高效 识别各种不良电话。
本发明实施例提供的技术方案采用前导音建模,可进行高效而准确的识别不 良前导音,采用前移和后移语音起点,可以得到多个多维特征向量,从而可稳健 地估计出均值向量和协方差矩阵,采用高斯模型建模,可以计算出前导音概率, 具有明确的物理意义和可解释性。
本发明实施例提供了一种不良前导音识别装置。图8为本发明实施例提供的 一种不良前导音识别装置的结构示意图,如图8所示,该装置包括:第一生成模 块11、第二生成模块12、提取模块13、判断模块14和第一设置模块15。
第一生成模块11用于根据获取的多个语音数据生成每个语音数据对应的多 维特征向量。
第二生成模块12用于根据多个多维特征向量生成每个语音数据对应的前导 音概率。
提取模块13用于从多个前导音概率中提取概率最大值,概率最大值包括最 大的前导音概率。
判断模块14用于判断概率最大值是否大于设定门限。
第一设置模块15用于若判断模块14判断出概率最大值大于设定门限,则将 概率最大值对应的语音数据的前导音设置为不良前导音。
本发明实施例中,第一生成模块11具体包括:获取子模块111、确定子模块 112、设置子模块113、提取子模块114、计算子模块115和第一生成子模块116。
获取子模块111用于获取每个语音数据对应的一个或多个模板。
确定子模块112用于通过语音活动检测算法确定每个模板对应的语音数据的 起点位置。
设置子模块113用于从每个起点位置开始在每个模板对应的语音数据上设置 一个或多个设定长度的首尾相连的矩形窗。
提取子模块114用于从每个矩形窗中提取矩形窗对应的语音数据的语音片段。
计算子模块115用于计算每个语音片段对应的多维梅尔频率倒谱系数特征值。
第一生成子模块116用于将每个多维梅尔频率倒谱系数特征值首尾相接,生 成每个语音数据对应的多维特征向量。
本发明实施例中,第二生成模块12具体包括:第二生成子模块121、第三生 成子模块122、第四生成子模块123和第五生成子模块124。
第二生成子模块121用于根据多个多维特征向量计算初始均值向量和初始协 方差矩阵。
第三生成子模块122用于通过平滑估计算法对初始均值向量进行计算,生成 均值向量。
第四生成子模块123用于通过平滑估计算法对初始协方差矩阵进行计算,生 成协方差矩阵。
第五生成子模块124用于根据多个多维特征向量、均值向量和协方差矩阵, 生成每个语音数据对应的前导音概率。
本发明实施例中,第五生成子模块124具体用于通过公式p(x)=N(x|μ,Σ)对多个多维特征向量、均值向量和协方差矩阵进行计算,生成多个前导音概率,其中, p(x)为前导音概率,x为多维特征向量,μ为均值向量,Σ为协方差矩阵。
本发明实施例中,第三生成子模块122具体用于通过公式
Figure BDA0002610576600000151
对初始 均值向量进行计算,生成均值向量,其中,μ为均值向量,μ0为初始均值向量, xi为第i个多维特征向量,N为模板的个数,s为起点位置总数。
本发明实施例中,第四生成子模块123具体用于通过公式
Figure RE-GDA0002665846480000152
对初始协方差矩阵进行计算,生成协方差矩阵,其 中,μ为均值向量,μ0为初始均值向量,xi为第i个多维特征向量,N为模板的 个数,s为起点位置总数,Σ0为初始协方差矩阵。
本发明实施例中,该装置还包括:第二设置模块16。
第二设置模块16用于若判断模块14判断出概率最大值小于或等于设定门 限,则将概率最大值对应的语音数据的前导音设置为良好前导音。
本发明实施例提供的不良前导音识别方法的技术方案中,通过根据获取的多 个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成 每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最 大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率 最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导 音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门 限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前 导音的准确性。
本实施例提供的不良前导音识别装置可用于实现上述图1和图2中的不良前 导音识别方法,具体描述可参见上述不良前导音识别方法的实施例,此处不再重 复描述。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程 序运行时控制存储介质所在设备执行上述不良前导音识别方法的实施例的各步 骤,具体描述可参见上述不良前导音识别方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存 储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加 载并执行时实现上述不良前导音识别方法的实施例的各步骤,具体描述可参见上 述不良前导音识别方法的实施例。
图9为本发明实施例提供的一种计算机设备的示意图。如图9所示,该实施 例的计算机设备20包括:处理器21、存储器22以及存储在存储22中并可在处 理器21上运行的计算机程序23,该计算机程序23被处理器21执行时实现实施 例中的应用于不良前导音识别方法,为避免重复,此处不一一赘述。或者,该计 算机程序被处理器21执行时实现实施例中应用于不良前导音识别装置中各模型 /单元的功能,为避免重复,此处不一一赘述。
计算机设备20包括,但不仅限于,处理器21、存储器22。本领域技术人员 可以理解,图9仅仅是计算机设备20的示例,并不构成对计算机设备20的限 定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件, 例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以 是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成 电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管 逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是 任何常规的处理器等。
存储器22可以是计算机设备20的内部存储单元,例如计算机设备20的硬 盘或内存。存储器22也可以是计算机设备20的外部存储设备,例如计算机设备 20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器22还可以既包括计 算机设备20的内部存储单元也包括外部存储设备。存储器22用于存储计算机程 序以及计算机设备所需的其他程序和数据。存储器22还可以用于暂时地存储已 经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的 系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在 此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例 如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分 方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征 可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通 信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性, 机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单 元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可 以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来 实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也 可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。 上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的 形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读 取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使 得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器 (Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包 括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储 器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的 介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明 的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保 护的范围之内。

Claims (10)

1.一种不良前导音识别方法,其特征在于,包括:
根据获取的多个语音数据生成每个语音数据对应的多维特征向量;
根据多个所述多维特征向量生成每个语音数据对应的前导音概率;
从多个所述前导音概率中提取概率最大值,所述概率最大值包括最大的前导音概率;
判断所述概率最大值是否大于设定门限;
若判断出所述概率最大值大于设定门限,则将所述概率最大值对应的语音数据的前导音设置为不良前导音。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的多个语音数据生成每个语音数据对应的多维特征向量包括:
获取每个所述语音数据对应的一个或多个模板;
通过语音活动检测算法确定每个所述模板对应的所述语音数据的起点位置;
从每个所述起点位置开始在每个所述模板对应的语音数据上设置一个或多个设定长度的首尾相连的矩形窗;
从每个所述矩形窗中提取所述矩形窗对应的所述语音数据的语音片段;
计算每个所述语音片段对应的多维梅尔频率倒谱系数特征值;
将每个所述多维梅尔频率倒谱系数特征值首尾相接,生成每个语音数据对应的多维特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据多个所述多维特征向量生成每个语音数据对应的前导音概率包括:
根据多个所述多维特征向量计算初始均值向量和初始协方差矩阵;
通过平滑估计算法对所述初始均值向量进行计算,生成均值向量;
通过平滑估计算法对所述初始协方差矩阵进行计算,生成协方差矩阵;
根据所述多个多维特征向量、所述均值向量和所述协方差矩阵,生成每个语音数据对应的前导音概率。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个多维特征向量、所述均值向量和所述协方差矩阵,生成每个语音数据对应的前导音概率包括:
通过公式p(x)=N(x|μ,Σ)对多个所述多维特征向量、所述均值向量和所述协方差矩阵进行计算,生成多个前导音概率,其中,p(x)为所述前导音概率,x为所述多维特征向量,μ为所述均值向量,Σ为所述协方差矩阵。
5.根据权利要求3所述的方法,其特征在于,所述通过平滑估计算法对初始均值向量进行计算,生成均值向量包括:
通过公式
Figure FDA0002610576590000021
对初始均值向量进行计算,生成均值向量,其中,μ为所述均值向量,μ0为所述初始均值向量,xi为第i个多维特征向量,N为模板的个数,s为起点位置总数。
6.根据权利要求3所述的方法,其特征在于,所述通过平滑估计算法对初始协方差矩阵进行计算,生成协方差矩阵包括:
通过公式
Figure FDA0002610576590000022
对初始协方差矩阵进行计算,生成协方差矩阵,其中,μ为所述均值向量,μ0为所述初始均值向量,xi为第i个多维特征向量,N为模板的个数,s为起点位置总数,Σ0为所述初始协方差矩阵。
7.根据权利要求1所述的方法,其特征在于,还包括:
若判断出所述概率最大值小于或等于设定门限,则将所述概率最大值对应的语音数据的前导音设置为良好前导音。
8.一种不良前导音识别装置,其特征在于,包括:
第一生成模块,用于根据获取的多个语音数据生成每个语音数据对应的多维特征向量;
第二生成模块,用于根据多个所述多维特征向量生成每个语音数据对应的前导音概率;
提取模块,用于从多个所述前导音概率中提取概率最大值,所述概率最大值包括最大的前导音概率;
判断模块,用于判断所述概率最大值是否大于设定门限;
第一设置模块,用于若判断模块判断出所述概率最大值大于设定门限,则将所述概率最大值对应的语音数据的前导音设置为不良前导音。
9.一种存储介质,其特征在于,包括:所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的不良前导音识别方法。
10.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的不良前导音识别方法的步骤。
CN202010752821.6A 2020-07-30 2020-07-30 一种不良前导音识别方法、装置、存储介质和计算机设备 Pending CN114067834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010752821.6A CN114067834A (zh) 2020-07-30 2020-07-30 一种不良前导音识别方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010752821.6A CN114067834A (zh) 2020-07-30 2020-07-30 一种不良前导音识别方法、装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN114067834A true CN114067834A (zh) 2022-02-18

Family

ID=80226628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010752821.6A Pending CN114067834A (zh) 2020-07-30 2020-07-30 一种不良前导音识别方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN114067834A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0932143A2 (en) * 1998-01-23 1999-07-28 Pioneer Electronic Corporation Pattern recognition using gaussian mixtures based hidden markov models
JP2004325921A (ja) * 2003-04-25 2004-11-18 Casio Comput Co Ltd 音声認識装置、方法、及びプログラム
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
JP2010054588A (ja) * 2008-08-26 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2010191252A (ja) * 2009-02-19 2010-09-02 Toyota Motor Corp 音声認識装置、音声認識方法
US20130089303A1 (en) * 2011-10-10 2013-04-11 Wei Jiang Video concept classification using audio-visual grouplets
CN107680602A (zh) * 2017-08-24 2018-02-09 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN109377983A (zh) * 2018-10-18 2019-02-22 深圳壹账通智能科技有限公司 一种基于语音交互的骚扰电话拦截方法及相关设备
CN110414543A (zh) * 2018-04-28 2019-11-05 中国移动通信集团有限公司 一种电话号码危险级别的判别方法、设备以及计算机存储介质
US20200035247A1 (en) * 2018-07-26 2020-01-30 Accenture Global Solutions Limited Machine learning for authenticating voice
CN111447327A (zh) * 2020-03-16 2020-07-24 宇龙计算机通信科技(深圳)有限公司 诈骗电话的识别方法、装置、存储介质及终端

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0932143A2 (en) * 1998-01-23 1999-07-28 Pioneer Electronic Corporation Pattern recognition using gaussian mixtures based hidden markov models
JP2004325921A (ja) * 2003-04-25 2004-11-18 Casio Comput Co Ltd 音声認識装置、方法、及びプログラム
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
JP2010054588A (ja) * 2008-08-26 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2010191252A (ja) * 2009-02-19 2010-09-02 Toyota Motor Corp 音声認識装置、音声認識方法
US20130089303A1 (en) * 2011-10-10 2013-04-11 Wei Jiang Video concept classification using audio-visual grouplets
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN107680602A (zh) * 2017-08-24 2018-02-09 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN110414543A (zh) * 2018-04-28 2019-11-05 中国移动通信集团有限公司 一种电话号码危险级别的判别方法、设备以及计算机存储介质
US20200035247A1 (en) * 2018-07-26 2020-01-30 Accenture Global Solutions Limited Machine learning for authenticating voice
CN109377983A (zh) * 2018-10-18 2019-02-22 深圳壹账通智能科技有限公司 一种基于语音交互的骚扰电话拦截方法及相关设备
CN111447327A (zh) * 2020-03-16 2020-07-24 宇龙计算机通信科技(深圳)有限公司 诈骗电话的识别方法、装置、存储介质及终端

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
US8155953B2 (en) Method and apparatus for discriminating between voice and non-voice using sound model
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN110047490A (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN110556126B (zh) 语音识别方法、装置以及计算机设备
CN113327626B (zh) 语音降噪方法、装置、设备及存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109658943B (zh) 一种音频噪声的检测方法、装置、存储介质和移动终端
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN107123432A (zh) 一种自匹配Top‑N音频事件识别信道自适应方法
CN111739542A (zh) 一种特征声音检测的方法、装置及设备
EP1023718B1 (en) Pattern recognition using multiple reference models
CN111161713A (zh) 一种语音性别识别方法、装置及计算设备
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN115083423B (zh) 语音鉴别的数据处理方法和装置
CN113191787A (zh) 电信数据的处理方法、装置电子设备及存储介质
EP3816996B1 (en) Information processing device, control method, and program
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
CN114067834A (zh) 一种不良前导音识别方法、装置、存储介质和计算机设备
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
CN111883141B (zh) 一种文本半相关的声纹识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination