CN109599117A - 一种音频数据识别方法及人声语音防重放识别系统 - Google Patents

一种音频数据识别方法及人声语音防重放识别系统 Download PDF

Info

Publication number
CN109599117A
CN109599117A CN201811354662.3A CN201811354662A CN109599117A CN 109599117 A CN109599117 A CN 109599117A CN 201811354662 A CN201811354662 A CN 201811354662A CN 109599117 A CN109599117 A CN 109599117A
Authority
CN
China
Prior art keywords
audio data
vocal print
sample
print feature
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811354662.3A
Other languages
English (en)
Inventor
曾志先
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811354662.3A priority Critical patent/CN109599117A/zh
Publication of CN109599117A publication Critical patent/CN109599117A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及声纹识别技术领域,提供了一种音频数据识别方法,所述方法包含步骤:获取用户输入的音频数据;从所述音频数据中截取出预设长度的数据片段;将所述数据片段转换为声纹特征;基于预设GRU神经网络识别模型对所述声纹特征进行识别,确定所述声纹特征属于真实人声语音或重放录音。通过本发明所提供的方法可准确识别真实人声语音及重放录音,可对用户输入的音频数据进行防重放识别,防止恶意攻击。此外,本发明还提供一种人声语音防重放识别系统。

Description

一种音频数据识别方法及人声语音防重放识别系统
技术领域
本发明涉及音频识别技术领域,尤其涉及一种音频数据识别方法及一种人声语音防重放识别系统。
背景技术
声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别。
随着计算机技术的发展,声纹识别技术已广泛应用于银行、金融、安防等领域,该技术有成本低,效率高的特点。
随着应用越来越广泛,也发生了一些问题,包含声纹识别技术容易遭受录音重放/语音合成/语音生成/语音转换等技术的攻击,导致识别系统将非真实说话人的语音判断为说话人的语音,从而导致应用系统被非法入侵,而带来无法预期的损失。
如何准确的识别真实说话人的语音和录音,已成为声纹识别技术的一个重要发展方向。
发明内容
为了正确识别真实说话人的语音和录音,本发明提供了一种音频数据识别方法,所述方法包含步骤:
获取用户输入的音频数据;
从所述音频数据中截取出预设长度的数据片段;
将所述数据片段转换为声纹特征;
基于预设GRU神经网络识别模型对所述声纹特征进行识别,确定所述声纹特征属于真实人声语音或重放录音。
在一实施中,所述从所述音频数据中截取出预设长度的数据片段具体包含从所述音频数据中截取出3秒时长的所述数据片段。
在一实施中,所述将所述数据片段转换为声纹特征具体包含:
基于python_speech_features工具将所述数据片段转为40维的MFCC声纹特征。
在一实施中,所述预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法实现。
在一实施中,所述预设GRU神经网络识别模型的构建方法包含:
收集训练样本,其中包含正样本及负样本;
分别对所述样本进行预处理;
将所述预处理后的样本作为输入层对所述预设GRU神经网络识别模型进行迭代训练,其中,所述训练具体包括:
获得所述输入层经过所述循环神经网络算法计算后得到的输出层;
基于归一化指数函数将输出层转为概率;
通过所述概率与预设阈值的关系确定识别结果。
在一实施中,所述收集训练样本具体包含:采集真实人声语音,作为所述正样本;对所述真实人声语音进行录制,作为所述负样本。
在一实施中,所述分别对所述样本进行预处理包含:从所述样本中截取出预设长度的数据片段;将所述数据片段转换为声纹特征;对所述声纹特征进行标准化处理。
在一实施中,所述对声纹特征进行标准化处理具体包含:基于下列算式计算所述声纹特征的标准值:(原数值-平均值)/标准差)。
本发明实施例所提供的音频识别方法通过对用户输入的音频数据进行片段截取,并特征化,再基于预设GRU神经网络识别模型对特征进行识别,以确定用户输入的音频数据是真实人声语音还是重放录音。预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法(Recurrent Neural network,RNN)实现,可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,更符合音频数据识别的需求,可保证识别结果的准确性,更进一步的,通过同样的方式对样本和待识别音频数据进行截取和标准化处理,保证待识别音频数据的输入格式与训练样本相同,去除了一定的数据噪音,更加提升识别的精准度。
基于同样的发明构思,本发明还提供了一种人声语音防重放识别系统,所述系统包含:音频采集终端,用于采集待识别的音频数据;识别模块,基于上述的音频数据识别方法对所述音频数据进行识别,并输出识别结果。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1绘示本发明一实施例所提供的预设GRU神经网络识别模型构建方法流程图;
图2绘示本发明一实施例所提供的一种音频数据识别方法流程图;
图3绘示本发明另一实施例所提供的人声语音防重放识别系统结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明实施例提供了一种音频数据识别方法,具体包含步骤:获取用户输入的音频数据;从所述音频数据中截取出预设长度的数据片段;将所述数据片段转换为声纹特征;基于预设GRU(Gated Recurrent Unit)神经网络识别模型对所述声纹特征进行识别,确定所述声纹特征属于真实人声语音或重放录音。可准确的识别出用户输入的音频数据是真实人声语音还是重放录音,从而提升声纹识别技术的应用安全性。
本发明实施例中主要是基于神经网络模型来对音频数据进行具体的识别,首先,对本发明实施例中所使用的预设GRU神经网络识别模型进行说明。
请参照图1,图1绘示本发明一实施例所提供的预设GRU神经网络识别模型构建方法流程图。
如图1所示,所述构建方法具体包含步骤:
步骤101,收集训练样本。
训练样本可由正样本及负样本构成,其中,正样本是指真实人声语音,负样本则可以是对正样本中的真实人声语音进行录制所得到的录音。正样本与负样本的数量比为1:2,例如,准备10000个语音作为正样本,20000个对应的录音作为负样本。
值得注意的是,正样本可来自于应用系统所采集的真实用户的语音,那么负样本则为基于该些真实用户语音进行录制后得到的录音。通过直接基于真实用户的语音所获取的训练样本对所述模型进行训练,可使得模型的识别结果更贴近于实际的应用场景,在一定程度上可提升识别准确率。
步骤102,分别对所述样本进行预处理。
由于采集到的样本可能存在一定的差异,例如音频时长不同、数据类型不同等,故可对样本进行统一的预处理。具体可包含:从所述样本中截取出预设长度的数据片段,并将所述数据片段转换为声纹特征。
在一较佳实施例中,可从样本中截取出3秒时长的数据片段,因为随机数字串等方式的路由时长大概在4-5秒左右,所以为了保证能够取到在时长内的音频片段,可取3秒。如果样本不足3秒,则会放空白段进去将该样本补足3秒,以获得统一长度的样本数据。
在获得了各样本的数据片段之后,可通过python_speech_features工具将该些数值形式的数据片段转为40维的MFCC声纹特征。其中,MFCC,是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
接着,可对该些MFCC声纹特征进行标准化处理,以去除噪音数据。
所述对声纹特征进行标准化处理具体可包含:基于下列算式计算所述声纹特征的标准值:
标准值=(原数值-平均值)/标准差)。
其中,原数值是指MFCC声纹特征值,基于该些原数值,可通过numpy的mean方法来计算平均值,以及通过numpy的std方法计算标准差。
步骤103,将所述预处理后的样本作为输入层对所述预设GRU神经网络识别模型进行迭代训练。
本发明实施例的预设GRU神经网络识别模型可基于3层GRU结构的循环神经网络算法(Recurrent Neural network,RNN)实现。因为RNN可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,而音频数据恰好就是建立在时序关系上面的,故基于RNN来实现GRU神经网络识别模型,更符合实际需求,识别结果更加准确。
所述训练过程具体可包括:将步骤102预处理完的正、负样本作为输入层,经过循环神经网络算法计算后得到的输出层;基于归一化指数函数SoftMax将输出层转为概率;通过所述概率与预设阈值的关系确定识别结果。
具体而言,使用3层GRU结构的RNN循环神经网络算法,设置隐藏层神经元个数300,输出两个数值,第一个数值是当前样本是真实人声语音的分数,第二个数值是当前样本为重放录音的分数。
然后,通过SoftMax将输出层的两个数值转为概率,概率的意义为当前样本是真实用户语音的概率为多少,为重放录音的概率是多少,SoftMax计算方式用意在于可以将RNN循环网络输出的数值转为[0-1]的范围中,并可以根据概率值来作为判断结果;最后,将样本为重放录音的概率取出来,设置阈值为0.5,如果音频数据为重放录音的概率大于0.5,那么这个样本则判断为重放录音。
在实际的迭代过程中,可将80%样本作为训练集,20%的样本作为测试集,使用交叉熵损失来作为损失函数,然后通过Adam算法来优化损失值,总共迭代训练200次。再通过测试集进行验证,保证准确率。
通过上述方法构建的预设GRU神经网络识别模型可用于识别采集到的音频数据是真实用户语音和重放录音。该预设GRU神经网络识别模型可应用于具体的应用系统中,以防止恶意的录音攻击。基于该预设GRU神经网络识别模型可实现本发明实施例所提供的音频数据识别方法。
请参照图2,图2绘示本发明一实施例所提供的一种音频数据识别方法流程图。
如图2所示,所述方法具体包含以下步骤:
步骤201,获取用户输入的音频数据。
具体可通过语音采集设备接收用户输入的音频数据。
步骤202,从所述音频数据中截取出预设长度的数据片段。
为了提升识别模型的准确度,可将从音频数据中截取出预处理样本的同样长度,例如,上述的3秒长度,同样的,若音频数据不足3秒,则会放空白段进去将该段音频数据补足3秒。
值得注意的是,音频数据的截取方式与样本片段的截取方式应保持一致,从而保证用于识别的数据格式与样本一致,提升识别准确性。
步骤203,将所述数据片段转换为声纹特征。
在获得了音频数据的数据片段之后,可通过python_speech_features工具将该些数值形式的数据片段转为40维的MFCC声纹特征。其中,MFCC,是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
接着,可对该些MFCC声纹特征进行标准化处理,以去除噪音数据。
所述对声纹特征进行标准化处理具体可包含:基于下列算式计算所述声纹特征的标准值:
标准值=(原数值-平均值)/标准差)。
其中,原数值是指MFCC声纹特征值,基于该些原数值,可通过numpy的mean方法来计算平均值,以及通过numpy的std方法计算标准差。
同样的,通过与样本预处理方法相同的方式对待识别数据进行处理,使得数据格式保持一致,提升识别的准确率。
步骤204,基于预设GRU神经网络识别模型对所述声纹特征进行识别,确定所述声纹特征属于真实人声语音或重放录音。
将声纹特征输入至预设GRU神经网络识别模型进行识别,其中预设GRU神经网络识别模型是基于上述构建方法生成的。
本发明实施例所提供的音频识别方法通过对用户输入的音频数据进行片段截取,并特征化,再基于预设GRU神经网络识别模型对特征进行识别,以确定用户输入的音频数据是真实人声语音还是重放录音。预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法(Recurrent Neural network,RNN)实现,可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,更符合音频数据识别的需求,可保证识别结果的准确性,更进一步的,通过同样的方式对样本和待识别音频数据进行截取和标准化处理,保证待识别音频数据的输入格式与训练样本相同,去除了一定的数据噪音,更加提升识别的精准度。
基于上述音频数据识别方法,本发明还提供了一种人声语音防重放识别系统。
请参照图3,图3绘示本发明另一实施例所提供的人声语音防重放识别系统结构示意图。
如图3所示,所述系统包含:
音频采集终端310,用于采集待识别的音频数据,并将音频数据发送至识别模块320。
识别模块320,接收音频采集终端310发送的音频数据,并基于图2所示实施例所提供的音频数据识别方法,对所述音频数据进行识别,并输出识别结果。
本发明实施例所提供人声语音防重放识别系统可对用户输入的音频信息进行防重放识别,即防止通过重放录音对系统进行攻击,保障应用系统的安全性。
本领域技术人员可以理解,实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述各实施方式是实现本发明的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种音频数据识别方法,其特征在于,所述方法包含步骤:
获取用户输入的音频数据;
从所述音频数据中截取出预设长度的数据片段;
将所述数据片段转换为声纹特征;
基于预设GRU神经网络识别模型对所述声纹特征进行识别,确定所述声纹特征属于真实人声语音或重放录音。
2.如权利要求1所述的方法,其特征在于,所述从所述音频数据中截取出预设长度的数据片段具体包含从所述音频数据中截取出3秒时长的所述数据片段。
3.如权利要求1所述的方法,其特征在于,所述将所述数据片段转换为声纹特征具体包含:
基于python_speech_features工具将所述数据片段转为40维的MFCC声纹特征。
4.如权利要求1所述的方法,其特征在于,所述预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法实现。
5.如权利要求4所述的方法,其特征在于,所述预设GRU神经网络识别模型的构建方法包含:
收集训练样本,其中包含正样本及负样本;
分别对所述样本进行预处理;
将所述预处理后的样本作为输入层对所述预设GRU神经网络识别模型进行迭代训练,其中,所述训练具体包括:
获得所述输入层经过所述循环神经网络算法计算后得到的输出层;
基于归一化指数函数将输出层转为概率;
通过所述概率与预设阈值的关系确定识别结果。
6.如权利要求5所述的方法,其特征在于,所述收集训练样本具体包含:
采集真实人声语音,作为所述正样本;
对所述真实人声语音进行录制,作为所述负样本。
7.如权利要求5所述的方法,其特征在于,所述分别对所述样本进行预处理包含:
从所述样本中截取出预设长度的数据片段;
将所述数据片段转换为声纹特征;
对所述声纹特征进行标准化处理。
8.如权利要求7所述的方法,其特征在于,所述对声纹特征进行标准化处理具体包含:基于下列算式计算所述声纹特征的标准值:
(原数值-平均值)/标准差)。
9.一种人声语音防重放识别系统,其特征在于,所述系统包含:
音频采集终端,用于采集待识别的音频数据;
识别模块,基于权利要求1至8中任一项所述的音频数据识别方法对所述音频数据进行识别,并输出识别结果。
CN201811354662.3A 2018-11-14 2018-11-14 一种音频数据识别方法及人声语音防重放识别系统 Pending CN109599117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354662.3A CN109599117A (zh) 2018-11-14 2018-11-14 一种音频数据识别方法及人声语音防重放识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354662.3A CN109599117A (zh) 2018-11-14 2018-11-14 一种音频数据识别方法及人声语音防重放识别系统

Publications (1)

Publication Number Publication Date
CN109599117A true CN109599117A (zh) 2019-04-09

Family

ID=65958604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354662.3A Pending CN109599117A (zh) 2018-11-14 2018-11-14 一种音频数据识别方法及人声语音防重放识别系统

Country Status (1)

Country Link
CN (1) CN109599117A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110931020A (zh) * 2019-12-11 2020-03-27 北京声智科技有限公司 一种语音检测方法及装置
CN110942776A (zh) * 2019-10-31 2020-03-31 厦门快商通科技股份有限公司 一种基于gru的音频防拼接检测方法及系统
CN111145763A (zh) * 2019-12-17 2020-05-12 厦门快商通科技股份有限公司 一种基于gru的音频中的人声识别方法及系统
CN111667836A (zh) * 2020-06-19 2020-09-15 南京大学 基于深度学习的文本无关多标号说话人识别方法
CN111933180A (zh) * 2020-06-28 2020-11-13 厦门快商通科技股份有限公司 音频拼接检测方法、系统、移动终端及存储介质
WO2020238046A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN113869486A (zh) * 2021-06-07 2021-12-31 四川大学华西医院 基于循环神经网络的语音重放监测方法
CN114627881A (zh) * 2022-04-01 2022-06-14 陈晶 一种基于人工智能的语音呼叫处理方法及系统
CN117612573A (zh) * 2023-11-22 2024-02-27 深圳市蓝鲸智联科技股份有限公司 一种检测i2s-tdm录音通道偏移的测试方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254559A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 基于声纹的身份认证系统及方法
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
US20180247643A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254559A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 基于声纹的身份认证系统及方法
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
US20180247643A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238046A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110942776A (zh) * 2019-10-31 2020-03-31 厦门快商通科技股份有限公司 一种基于gru的音频防拼接检测方法及系统
CN110931020B (zh) * 2019-12-11 2022-05-24 北京声智科技有限公司 一种语音检测方法及装置
CN110931020A (zh) * 2019-12-11 2020-03-27 北京声智科技有限公司 一种语音检测方法及装置
CN111145763A (zh) * 2019-12-17 2020-05-12 厦门快商通科技股份有限公司 一种基于gru的音频中的人声识别方法及系统
CN111667836A (zh) * 2020-06-19 2020-09-15 南京大学 基于深度学习的文本无关多标号说话人识别方法
CN111933180A (zh) * 2020-06-28 2020-11-13 厦门快商通科技股份有限公司 音频拼接检测方法、系统、移动终端及存储介质
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN113869486A (zh) * 2021-06-07 2021-12-31 四川大学华西医院 基于循环神经网络的语音重放监测方法
CN114627881A (zh) * 2022-04-01 2022-06-14 陈晶 一种基于人工智能的语音呼叫处理方法及系统
CN114627881B (zh) * 2022-04-01 2022-10-04 上海财安金融服务集团股份有限公司 一种基于人工智能的语音呼叫处理方法及系统
CN117612573A (zh) * 2023-11-22 2024-02-27 深圳市蓝鲸智联科技股份有限公司 一种检测i2s-tdm录音通道偏移的测试方法
CN117612573B (zh) * 2023-11-22 2024-09-27 深圳市蓝鲸智联科技股份有限公司 一种检测i2s-tdm录音通道偏移的测试方法

Similar Documents

Publication Publication Date Title
CN109599117A (zh) 一种音频数据识别方法及人声语音防重放识别系统
Jahangir et al. Text-independent speaker identification through feature fusion and deep neural network
CN107610707B (zh) 一种声纹识别方法及装置
WO2017162017A1 (zh) 语音数据处理方法、装置和存储介质
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
CN107731233B (zh) 一种基于rnn的声纹识别方法
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
WO2021042537A1 (zh) 语音识别认证方法及系统
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN103971700A (zh) 语音监控方法及装置
CN109448759A (zh) 一种基于气爆音的抗语音认证欺骗攻击检测方法
Arif et al. Voice spoofing countermeasure for logical access attacks detection
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN110942776B (zh) 一种基于gru的音频防拼接检测方法及系统
CN109658921A (zh) 一种语音信号处理方法、设备及计算机可读存储介质
CN107945793A (zh) 一种语音激活检测方法及装置
Dawood et al. A robust voice spoofing detection system using novel CLS-LBP features and LSTM
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN114677634B (zh) 面签识别方法、装置、电子设备及存储介质
CN109448732A (zh) 一种数字串语音处理方法及装置
CN109065026A (zh) 一种录音控制方法及装置
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN117253490A (zh) 一种基于Conformer的说话人验证方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication