CN114041184A - 欺骗检测装置、欺骗检测方法和计算机可读存储介质 - Google Patents

欺骗检测装置、欺骗检测方法和计算机可读存储介质 Download PDF

Info

Publication number
CN114041184A
CN114041184A CN201980097898.XA CN201980097898A CN114041184A CN 114041184 A CN114041184 A CN 114041184A CN 201980097898 A CN201980097898 A CN 201980097898A CN 114041184 A CN114041184 A CN 114041184A
Authority
CN
China
Prior art keywords
spectrogram
spectrograms
channel
different types
multichannel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980097898.XA
Other languages
English (en)
Inventor
王琼琼
李功益
越仲孝文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN114041184A publication Critical patent/CN114041184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

一种欺骗检测装置(100),其包括多通道频谱图创建单元(10)和评估单元(40)。多通道频谱图创建单元(10)从语音数据提取不同类型的频谱图并整合不同类型的频谱图以创建多通道频谱图。评估单元(40)通过将创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估创建的多通道频谱图,并将其分类为真实的或欺骗的。

Description

欺骗检测装置、欺骗检测方法和计算机可读存储介质
技术领域
本发明涉及一种从语音中检测欺骗的装置和方法,以及存储用于实现这些的程序的计算机可读存储介质。
背景技术
说话人识别是指从其声音识别人。自动说话人识别(ASV)为个人身份验证提供了灵活的生物识别解决方案。它已经越来越多地应用于取证、基于电话的服务,诸如电话银行、呼叫中心以及许多大众市场的消费产品。
但是,ASV技术的适用性取决于对故意规避(称为欺骗)的弹性。与任何其他生物识别技术一样,ASV容易受到欺骗。已确认的针对ASV的欺骗攻击包括模拟、重放、文本到语音的语音合成和声音转换(例如,NPL 1)。欺诈者可以使用欺骗攻击来渗透使用生物识别技术保护的系统或服务。
因此,需要使用反欺骗技术来确保ASV在生物特征认证中的实用性。具有高斯混合模型(GMM)的恒定Q倒谱系数(CQCC:Constant Q Cepstral coefficient)特征是ASV中欺骗检测的标准系统。最近,通过直接使用常数Q变换(CQT)频谱图(从中提取CQCC特征)以及深度神经网络(DNN)(尤其是卷积神经网络(CNN)),已经实现了更高的精度。
[引用列表]
[非专利文献]
[NPL 1]
Galina Lavrentyeva,et al.“Audio replay attack detection with deeplearning frameworks”,INTERSPEECH 2017,August 20-24,2017(加林娜Lavrentyeva等。“使用深度学习框架进行音频重放攻击检测”,INTERSPEECH 2017,2017年8月20-24日)。
发明内容
[技术问题]
CQT将时域信号x(n)变换到时频域,以便频率区间的中心频率在几何上间隔开并且品质因数Q(即每个窗口的中心频率与带宽之比)保持恒定。因此,CQT对低频具有更好的频率分辨率,对高频具有更好的时间分辨率。CQT反映了人类听觉系统的分辨率,且被认为在欺骗检测中工作良好。
但是,其高分辨率设置或低分辨率设置有时会导致误识别,尤其是在评估中的条件与训练数据不同的情况下。
本发明的目的的一个示例是解决上述问题,并提供欺骗检测装置、欺骗检测方法和计算机可读记录介质,其能够通过在说话者欺骗检测中使用从语音获得的多个频谱图来抑制误识别。
[对于问题的解决方案]
为实现上述目的,根据本发明一个方面的欺骗检测装置包括:
多通道频谱图创建装置,其从语音数据提取不同类型的频谱图,并整合不同类型的频谱图来创建多通道频谱图,
评估装置,其通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将它分类为真实或欺骗的。
为实现上述目的,根据本发明一个方面的欺骗检测方法包括:
(a)从语音数据提取不同类型的频谱图,并整合不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将述创建的多通道频谱图分类为真实或欺骗的步骤。
为实现上述目的,根据本发明又一方面的计算机可读记录介质中记录有程序,该程序包括指令,该指令使计算机执行:
(a)从语音数据提取不同类型的频谱图,并整合不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将述创建的多通道频谱图分类为真实或欺骗的步骤。
[发明的有益效果]
如上所述,根据本发明,可以通过在说话者欺骗检测中使用从语音获得的多个频谱图来抑制误识别。
附图说明
附图与详细描述一起用于解释发明的欺骗检测方法的原理。附图是为了说明而不限制该技术的应用。
图1是示意性地示出了根据本发明实施例的欺骗检测装置的配置的框图。
图2描绘了图示根据本发明实施例的欺骗检测装置的详细配置的示例性框图。
图3是图示根据本发明实施例的多通道频谱图创建单元的示例的框图。
图4是图示根据本发明实施例的多通道频谱图创建单元的另一示例的框图。
图5是示出了根据本发明实施例的欺骗检测装置的操作阶段的图,图5(a)示出了训练阶段,且图5(b)示出了欺骗检测阶段。
图6描绘了图示根据本发明实施例的欺骗检测装置的整个操作示例的流程图。
图7示出了根据本发明实施例的欺骗装置的训练阶段的具体操作的流程图。
图8是示出了根据本发明实施例的欺骗检测阶段的具体操作的流程图。
图9描绘了图示根据本发明实施例的多通道频谱图创建单元的操作示例的流程图。
图10描绘了图示根据本发明实施例的多通道频谱图创建单元的另一操作示例的流程图。
图11是示出实现本发明的实施例的欺骗检测装置的计算机的示例的框图。
具体实施方式
下面将参考附图描述本发明的每个示例实施例。以下详细说明仅是本质上示例性的,并不意欲限制本发明或本发明的应用和用途。此外,无意受本发明的前述背景或以下详细描述中提出的任何理论的束缚。
(发明内容)
本发明是将CQT和快速傅立叶变换(FFT)频谱图融合,以作为神经网络中的多通道输入,以便相互补充,且保证欺骗检测系统的健壮性。
根据本发明,本发明的欺骗检测装置、方法和程序可以为欺骗检测提供更准确和健壮的语音话语的表示。这是因为本发明提供了一种新的多频谱图的融合作为多通道频谱图,使得DNN可以从所有频谱图中自动了解有效信息。
(实施例)
下面参照附图详细描述本发明的示例性实施例。
设备配置
首先,将使用图1描述根据本实施例1的欺骗检测装置100的配置。图1是示意性地示出了根据本发明实施例的欺骗检测装置的配置的框图。
如图1所示,本实施例的欺骗检测装置包括多通道频谱图创建单元10和评估单元40。多通道频谱图创建单元10从语音数据提取不同类型的频谱图。并且,多通道频谱图创建单元10整合不同类型的频谱图以创建多通道频谱图。
评估单元通过将生成的多通道频谱图应用于分类器来评估创建的多通道频谱图。分类器是使用被标记的多通道频谱图作为训练数据构建的。评估单元将创建的多通道频谱图分类为真实的或欺骗的。
因此,在本实施例中,将通过整合多种类型的频谱图获得的多通道频谱图应用于分类器进行评估。因此,根据本实施例,在说话人识别中的欺骗检测中抑制了误识别的发生。
随后,将参考图2至图4更具体地描述根据实施例的欺骗检测装置的配置。图2描绘了图示根据本发明实施例的欺骗检测装置的详细配置的示例性框图。
如图2所示,在本实施例中,欺骗检测装置100除了上述多通道频谱图创建单元10和评估单元40之外,还包括分类器训练单元20和存储单元30。
如上所述,多通道频谱图创建单元10为每个语音数据输入创建多通道频谱图。在此,将参照图3和图4详细描述多通道频谱图创建单元10的配置。
图3是图示根据本发明实施例的多通道频谱图创建单元的示例的框图。在图3中,多通道频谱图创建单元10包括CQT提取单元11、FFT提取单元12、重采样单元13a、重采样单元13b和频谱图堆叠单元14。
CQT提取单元11从输入语音数据提取CQT频谱图。FFT提取单元12从输入语音数据提取FFT频谱图。相同语音数据的FFT频谱图和CQT频谱图通过控制它们的提取参数而具有相同的帧数(称为时间维度)。
FFT频谱图和CQT频谱图的频率维度往往互不相同。重采样单元13a对CQT频谱图进行重采样,以使得频率维度等于指定数目。重采样单元13b对FFT频谱图进行重采样,以使得频率维度等于相同的指定数目。指定的数目可以与提取的CQT频谱图或FFT频谱图的频率维度相同。在这种情况下,提取的具有与指定数目相同的频率维度的频谱图不经过重采样单元。频谱图堆叠单元14将来自重采样单元13a和13b的相同大小的频谱图堆叠成2通道频谱图,并输出到下一个。
图4是图示根据本发明实施例的多通道频谱图创建单元的另一示例的框图。在图4中,多通道频谱图创建单元10包括CQT提取单元11、FFT提取单元、零填充单元15a、零填充单元15b和频谱图堆叠单元14。
CQT提取单元11从输入语音数据提取CQT频谱图。FFT提取单元12从输入语音数据提取FFT频谱图。FFT频谱图和CQT频谱图通过控制它们的提取参数而具有相同的帧数。
FFT频谱图和CQT频谱图的频率采样数往往互不相同。零填充单元15a向CQT频谱图填充零,即,放置额外的零元素,以便具有等于指定数目的频率维度。零填充单元15b向FFT频谱图填充零以具有等于相同指定数目的频率维度。指定数目可以与提取的CQT频谱图或FFT频谱图的频率维度相同。在这种情况下,具有与指定数目相同的频率维数的提取的频谱图不会经过零填充单元。频谱图堆叠单元14将来自15a和15b的重采样频谱图堆叠成2通道频谱图,并输出到下一个。
本实施例中的欺骗检测装置的操作由训练阶段和欺骗检测阶段两个阶段构成。图5是示出了根据本发明实施例的欺骗检测装置的操作阶段的图,图5(a)示出了训练阶段,且图5(b)示出了欺骗检测阶段。
如图5所示,在训练阶段,分类器训练单元20使多声道频谱图创建单元10从要采样的语音数据创建多声道频谱图。进一步地,分类器训练单元20使用作为训练数据的与语音数据对应的标签和创建的多声道频谱图来构建分类器。分类器训练单元20将创建的分类器参数存储在存储单元30中。下面将描述细节。
在图5(a)的训练阶段,图2或图3所示的多通道频谱图生成单元10生成多通道频谱图后,将它们连同作为训练数据的对应的“真实”或“欺骗”标签输入到分类器训练单元20中。分类器训练单元20训练分类器,并将学习到的分类器的参数存储到存储单元30中。例如,卷积神经网络(CNN)是分类器的一个选项。分类器训练单元20计算存储单元30中的CNN参数。
在CNN分类器的一个示例中,CNN具有一个输入层、一个输出层和多个隐藏层。输出层包含两个节点,即“真实”节点和“欺骗”节点。为了训练这样的CNN分类器,分类器训练单元20将来自多通道频谱图创建单元10的多通道频谱图传递到输入层。
分类器训练单元20还将标签“真实”或“欺骗”传递给CNN的输出层。这里,“真实”和“欺骗”分别以诸如[0,1]和[1,0]的二维向量的形式呈现给输出层。然后它训练CNN并获得隐藏层的参数并将它们存储在存储单元30中。
我们还可以将输出节点的数量设置为1,其中,输出可以表示训练数据是否是“欺骗”的。在这种情况下,“真实”和“欺骗”分别表示为标量0和1。
在图5(b)的欺骗检测阶段,多通道频谱图创建单元10为测试语音数据输入创建多通道频谱图。图3和图4中的多通道频谱图创建单元10的两个示例与训练阶段相同。评估单元40根据其参数存储在存储单元30中的预训练分类器对来自10的测试语音数据的多通道频谱图进行评估,并输出欺骗分数。将欺骗分数与预定阈值进行比较。如果分数更大,则测试数据被评估为“欺骗”语音,否则为“真实”语音。
在CNN分类器的示例中,评估单元40从分类器存储器30中读取CNN的隐藏层的参数。评估单元40将来自多通道频谱图创建单元10的多通道频谱图传递到输入层。评估单元40获得在输出层中的“欺骗”节点的后验作为分数。
装置的操作
将参照图6至图10描述根据本发明实施例的欺骗检测装置100执行的操作。在以下描述中将根据需要参考图1至图5。此外,在第一实施例中,通过使欺骗检测装置运行来实现欺骗检测方法。因此,下面对欺骗检测装置100执行的操作的描述将代替对实施例的欺骗检测方法的描述。
将参考图6描述根据本实施例的欺骗检测装置100的整个操作。图6描绘了图示根据本发明实施例的欺骗检测装置的整个操作示例的流程图。如图6中所示,欺骗检测装置100的整个操作包括训练阶段(步骤A01)和欺骗检测阶段(步骤A02)的操作。然而,这示出了示例,可以连续执行训练和欺骗检测的操作或可以插入时间间隔,或者可以与其他训练操作一起执行欺骗检测的操作。
首先,如图6中所示,欺骗检测装置100执行训练阶段。在训练阶段,多通道频谱图创建单元10为每个语音数据输入创建多声道频谱图,分类器训练单元20训练分类器并将分类器的参数存储在分类器参数存储器30中(步骤A01)。
接着,欺骗检测装置100执行欺骗检测阶段。在欺骗检测阶段,多通道频谱图创建单元10为语音数据输入创建多通道频谱图并将其输入到评估单元40(步骤A02)。
参照图7具体描述训练阶段。图7描述了示出根据本发明实施例的欺骗装置的训练阶段的具体操作的流程图。
首先,如图7中所示,多通道频谱图创建单元10读取语音数据(步骤B01)。然后,多通道频谱图创建单元10从输入语音数据创建多通道频谱图(步骤B02)。
接下来,分类器训练单元20读取对应的标签“真实/欺骗”(步骤B03)。分类器训练单元20训练分类器(步骤B04)。最后,分类器训练单元20将训练后的分类器的参数存储到存储单元30中(步骤B05)。
参照图8具体描述欺骗检测阶段。图8是示出了根据本发明实施例的欺骗检测阶段的具体操作的流程图。
首先,评估单元40在训练阶段读取存储在存储单元30中的分类器参数(步骤C01)。接下来,多通道频谱图创建单元10读取输入语音数据(步骤C02)。然后多通道频谱图创建单元10从输入语音数据创建多通道频谱图(步骤C03)。最后,评估单元40获得欺骗分数(C04)。
多通道频谱图创建单元10具有如图3和图4所示的两个示例。它们的具体操作分别如图9和图10的流程图所示。
图9描绘了图示根据本发明实施例的多通道频谱图创建单元(参见图3)的操作示例的流程图。对于训练阶段和欺骗检测阶段中的两个输入,CQT提取单元11提取CQT频谱图(步骤D01),FFT提取单元12提取FFT频谱图(步骤D02)。
接着,重采样单元13a重采样CQT频谱图,使得频率维度等于指定维度(步骤D03)。接下来,重采样单元13b对FFT频谱图进行重采样,使得频率维度等于指定维度(步骤D04)。最后,频谱图堆叠单元14堆叠重采样的CQT和FFT频谱图(步骤D05)。
图10描绘了图示根据本发明实施例的多通道频谱图创建单元(参见图4)的另一操作示例的流程图。对于训练阶段和欺骗检测阶段的两个输入,CQT提取单元11提取CQT频谱图(步骤E01),FFT提取单元12提取FFT频谱图(步骤E02)。
接下来,零填充单元15a将零填充到CQT频谱图,使得频率维度等于指定维度(步骤E03)。零填充15b将零填充到FFT频谱图,使得频率维度等于指定维度(步骤E04)。最后,频谱图堆叠单元14堆叠零填充的CQT和FFT频谱图(步骤E05)。
示例实施例的效果
在本实施例中,将不同类型的频谱图(例如FFT和CQT)融合为多通道3D频谱图,以相互补充。它利用了反映在人类听觉系统中的分辨率的CQT,但是也解决了其缺乏健壮性的问题。因此,本发明的实施例可以为欺骗检测提供更准确和健壮的语音话语的表示。
变型例
用相同的框图(图1-2)和流程图(图6-8)描述本发明的另一个示例。在该示例中,多通道频谱图创建单元10连接不同类型的频谱图,而不是堆叠它们,从而创建多通道频谱图。提取的频谱图(诸如FFT和CQT)可以直接用于本示例中,而无需更改其大小。
程序
本实施例的程序只要是使计算机执行图6所示的步骤A01~A02、图7所示的步骤B01~B05、图8所示的步骤C01~C04的程序即可。本发明实施例的欺骗检测装置100和欺骗检测方法可以通过在计算机上安装程序并执行该程序来实现。在这种情况下,计算机的处理器用作多通道频谱图创建单元10、分类器训练单元20和评估单元40,并执行处理。
根据本发明实施例的程序可以由使用多个计算机构建的计算机系统来执行。在这种情况下,例如,每台计算机可以充当多通道频谱图创建单元10、分类器训练单元20和评估单元40中的不同的一个。
物理配置
下面参考图11描述通过执行本实施例的程序实现欺骗检测装置的计算机。图11是示出实现根据本发明的实施例的欺骗检测装置的计算机的一个示例的框图。
如图11所示,计算机110包括CPU(中央处理单元)111、主存储器112、存储设备113、输入接口114、显示控制器115、数据读写器116和通信接口117。这些单元经由总线121连接以便能够相互进行数据通信。除了CPU 111外或代替CPU 111,计算机110可以包括图形处理单元(GPU)或现场可编程门阵列(FPGA)。
CPU 111通过将存储在存储设备113中的根据本实施例的程序(代码)扩展到主存储器112并以预定顺序执行它们来执行各种计算。主存储器112通常是诸如DRAM(动态随机存取存储器)之类的易失性存储设备。此外,以存储在计算机可读存储介质120中的状态提供根据本实施例的程序。注意,根据本实施例的程序可以分布在经由通信接口117连接的因特网上,
此外,除了硬盘驱动器之外,存储设备113的具体示例还包括诸如闪存之类的半导体存储设备。输入接口114在CPU 111与输入装置118(诸如键盘或鼠标)之间进行数据传输。显示控制器115连接到显示设备119并控制显示设备118上的显示。
数据读写器116调解CPU 111和存储介质120之间的数据传输,从存储介质120读出程序,并将计算机110执行的处理结果写入存储介质120中。通信接口17调解CPU 111和另一台计算机之间的数据传输。
此外,存储介质120的具体示例包括诸如CF(Compact Flash(注册商标))和SD(Secure Digital)的通用半导体存储设备、诸如软盘的磁存储介质和诸如CD-ROM(光盘只读存储器)的光存储介质。
根据本示例性实施例的欺骗检测装置100还可以使用与各种组件相对应的硬件项目来实现,而不是使用其中安装有程序的计算机来实现。此外,欺骗检测装置100的一部分可以通过程序来实现,而欺骗检测装置100的其余部分可以通过硬件来实现。
上述实施例可以部分或全部由以下附记1至21来表达,但不限于以下附记1至21。
(附记1)
一种欺骗检测装置,包括:
多通道频谱图创建装置,其从语音数据提取不同类型的频谱图,并整合不同类型的频谱图来创建多通道频谱图,
评估装置,其通过将创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估创建的多通道频谱图,并将它分类为真实或欺骗的。
(附记2)
根据附记1所述的欺骗检测装置,还包括:
分类器训练装置,其使多通道频谱图创建装置从要采样的语音数据创建多通道频谱图,并使用创建的多通道频谱图和与语音数据对应的标签作为训练数据来构建分类器。
(附记3)
根据附记1或2的欺骗检测装置,
其中,多通道频谱图创建装置通过堆叠不同类型的频谱图整合它们。
(附记4)
根据附记1或2的欺骗检测装置,
其中,多通道频谱图创建装置通过连结不同类型的频谱图来整合它们。
(附记5)
根据附记1至4中的任一项所述的欺骗检测装置,
其中,多通道频谱图创建装置在创建多通道频谱图之前,将不同类型的频谱图重采样为相同大小。
(附记6)
根据附记1至4中的任一项所述的欺骗检测装置,
其中,多通道频谱图创建装置在创建多通道频谱图之前,将不同类型的频谱图零填充成相同大小。
(附记7)
根据附记1至6中的任一项所述的欺骗检测装置,
其中,不同类型的频谱图包括FFT频谱图和CQT频谱图。
(附记8)
一种欺骗检测方法,包括:
(a)从语音数据中提取不同类型的频谱图,并整合不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估所创建的多通道频谱图,并将所创建的多通道频谱图分类为真实或欺骗的步骤。
(附记9)
根据附记8所述的欺骗检测方法,还包括:
(c)使多通道频谱图创建装置从要采样的语音数据中创建多通道频谱图并使用创建的多通道频谱图和与语音数据对应的标签作为训练数据构建分类器的步骤。
(附记10)
根据附记8或9的欺骗检测方法,
其中,步骤(a)中,通过堆叠不同类型的频谱图整合它们。
(附记11)
根据附记8或9的欺骗检测方法,
其中,在步骤(a)中,通过连结不同类型的频谱图来整合它们。
(附记12)
根据附记8至11中任一项的欺骗检测方法,
其中,步骤(a)中,在创建多通道频谱图之前,将不同类型的频谱图重采样为相同大小。
(附记13)
根据附记8至11中的任一项的欺骗检测方法,
其中,步骤(a)中,在创建多通道频谱图之前,将不同类型的频谱图零填充成相同大小。
(附记14)
根据附记8至13中的任一项的欺骗检测方法,
其中,在步骤(a)中,不同类型的频谱图包括FFT频谱图和CQT频谱图。
(附记15)
一种存储程序的计算机可读存储介质,该程序包括命令,该命令使计算机执行:
(a)从语音数据提取不同类型的频谱图,并且整合不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估所创建的多通道频谱图,并将所创建的多通道频谱图分类为真实或欺骗的的步骤。
(附记16)
根据附记15的计算机可读存储介质,
其中,该程序还包括使计算机执行以下步骤的命令:(c)使多通道频谱图创建装置从要采样的语音数据创建多通道频谱图并使用创建的多通道频谱图和与语音数据对应的标签作为训练数据构建分类器的步骤。
(附记17)
根据附记15或16的计算机可读存储介质,
其中,步骤(a)中,通过堆叠不同类型的频谱图整合它们。
(附记18)
根据附记15或16的计算机可读存储介质,
其中,在步骤(a)中,通过连结不同类型的频谱图来整合它们。
(附记19)
根据附记15至18中的任一项所述的计算机可读存储介质,
其中,步骤(a)中,在创建多通道频谱图之前,将不同类型的频谱图重采样为相同大小。
(附记20)
根据附记15至18中的任一项所述的计算机可读存储介质,
其中,步骤(a)中,在创建多通道频谱图之前,将不同类型的频谱图零填充成相同大小。
(附记21)
根据附记15至20中的任一项所述的计算机可读存储介质,
其中,在步骤(a)中,不同类型的频谱图包括FFT频谱图和CQT频谱图。
以上,参照实施例对本申请的发明进行了说明,但本申请的发明不限于上述实施例。在本申请的发明的范围内,可以对本申请的发明的配置和细节进行本领域技术人员能够理解的各种变化。
[工业适用性]
如上所述,根据本发明,可以通过在说话者欺骗检测中使用从语音获得的多个频谱图来抑制误识别。本发明可用于例如说话人验证的领域中。
[附图标记列表]
10 多通道频谱图创建单元
11 CQT提取单元
12 FFT提取单元
13a 重采样单元
13b 重采样单元
14 频谱图堆叠单元。
15a 零填充单元
15b 零填充单元
20 分类器训练单元
30 存储单元
40 评价单元
100 欺骗检测装置
110 计算机
111 CPU
112 主存储器
113 存储设备
114 输入接口
115 显示控制器
116 数据读写器
117 通信接口
118 输入设备
119 显示装置
120 存储介质
121 总线

Claims (9)

1.一种欺骗检测装置,包括:
多通道频谱图创建装置,所述多通道频谱图创建装置从语音数据提取不同类型的频谱图,并整合所述不同类型的频谱图以创建多通道频谱图,
评估装置,所述评估装置通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据而构建的分类器来评估所创建的多通道频谱图,并且将所创建的多通道频谱图分类为真实或欺骗的。
2.根据权利要求1所述的欺骗检测装置,还包括:
分类器训练装置,所述分类器训练装置使所述多通道频谱图创建装置从要被采样的所述语音数据创建多通道频谱图,并且使用所创建的多通道频谱图和与所述语音数据对应的标签作为训练数据来构建所述分类器。
3.根据权利要求1或2所述的欺骗检测装置,其中,
所述多通道频谱图创建装置通过堆叠所述不同类型的频谱图来整合所述不同类型的频谱图。
4.根据权利要求1或2所述的欺骗检测装置,其中,
所述多通道频谱图创建装置通过连结所述不同类型的频谱图来整合所述不同类型的频谱图。
5.根据权利要求1至4中的任一项所述的欺骗检测装置,其中,
所述多通道频谱图创建装置在创建所述多通道频谱图之前,将所述不同类型的频谱图重采样为相同大小。
6.根据权利要求1至4中的任一项所述的欺骗检测装置,其中,
所述多通道频谱图创建装置在创建所述多通道频谱图之前,将所述不同类型的频谱图零填充成相同大小。
7.根据权利要求1至6中的任一项所述的欺骗检测装置,其中,
所述不同类型的频谱图包括FFT频谱图和CQT频谱图。
8.一种欺骗检测方法,包括:
(a)从语音数据提取不同类型的频谱图,并且整合所述不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据而构建的分类器来评估所创建的多通道频谱图,并且将所创建的多通道频谱图分类为真实或欺骗的步骤。
9.一种存储有程序的计算机可读存储介质,所述程序包括命令,所述命令使计算机执行:
(a)从语音数据提取不同类型的频谱图,并且整合所述不同类型的频谱图以创建多通道频谱图的步骤,
(b)通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据而构建的分类器来评估所创建的多通道频谱图,并且将所创建的多通道频谱图分类为真实或欺骗的步骤。
CN201980097898.XA 2019-06-28 2019-06-28 欺骗检测装置、欺骗检测方法和计算机可读存储介质 Pending CN114041184A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/025893 WO2020261552A1 (en) 2019-06-28 2019-06-28 Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
CN114041184A true CN114041184A (zh) 2022-02-11

Family

ID=74061553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980097898.XA Pending CN114041184A (zh) 2019-06-28 2019-06-28 欺骗检测装置、欺骗检测方法和计算机可读存储介质

Country Status (6)

Country Link
US (1) US11798564B2 (zh)
EP (1) EP3991168A4 (zh)
JP (1) JP7396376B2 (zh)
CN (1) CN114041184A (zh)
BR (1) BR112021025892A2 (zh)
WO (1) WO2020261552A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114041184A (zh) * 2019-06-28 2022-02-11 日本电气株式会社 欺骗检测装置、欺骗检测方法和计算机可读存储介质
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
EP2661746B1 (en) * 2011-01-05 2018-08-01 Nokia Technologies Oy Multi-channel encoding and/or decoding
EP3208770B1 (en) * 2014-10-15 2022-05-04 Nec Corporation Impersonation detection device, impersonation detection method, and recording medium
US9501568B2 (en) 2015-01-02 2016-11-22 Gracenote, Inc. Audio matching based on harmonogram
CN106485192B (zh) * 2015-09-02 2019-12-06 富士通株式会社 用于图像识别的神经网络的训练方法和装置
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
JP7006592B2 (ja) * 2016-06-16 2022-01-24 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US10096321B2 (en) * 2016-08-22 2018-10-09 Intel Corporation Reverberation compensation for far-field speaker recognition
US20190279644A1 (en) 2016-09-14 2019-09-12 Nec Corporation Speech processing device, speech processing method, and recording medium
JP2018051945A (ja) * 2016-09-29 2018-04-05 三星ダイヤモンド工業株式会社 ダイヤモンドツール及びそのスクライブ方法
AU2018226844B2 (en) * 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US20200323484A1 (en) * 2017-12-14 2020-10-15 Vocalis Health Method and system for screening for covid-19 with a vocal biomarker
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
EP3608918B1 (en) * 2018-08-08 2024-05-22 Tata Consultancy Services Limited Parallel implementation of deep neural networks for classifying heart sound signals
US11222641B2 (en) * 2018-10-05 2022-01-11 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
US11030292B2 (en) * 2018-12-11 2021-06-08 Advanced New Technologies Co., Ltd. Authentication using sound based monitor detection
KR20200119377A (ko) * 2019-03-25 2020-10-20 삼성전자주식회사 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
CN114041184A (zh) * 2019-06-28 2022-02-11 日本电气株式会社 欺骗检测装置、欺骗检测方法和计算机可读存储介质
US11276410B2 (en) * 2019-09-13 2022-03-15 Microsoft Technology Licensing, Llc Convolutional neural network with phonetic attention for speaker verification
WO2021075063A1 (en) * 2019-10-18 2021-04-22 Nec Corporation Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
US20230020631A1 (en) * 2021-07-01 2023-01-19 The Florida State University Research Foundation, Inc. Ear canal deformation based continuous user identification system using ear wearables
US20230053026A1 (en) * 2021-08-12 2023-02-16 SmileDirectClub LLC Systems and methods for providing displayed feedback when using a rear-facing camera

Also Published As

Publication number Publication date
WO2020261552A1 (en) 2020-12-30
JP7396376B2 (ja) 2023-12-12
US11798564B2 (en) 2023-10-24
BR112021025892A2 (pt) 2022-02-08
EP3991168A1 (en) 2022-05-04
JP2022546663A (ja) 2022-11-07
US20220358934A1 (en) 2022-11-10
EP3991168A4 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
Boles et al. Voice biometrics: Deep learning-based voiceprint authentication system
US11862176B2 (en) Reverberation compensation for far-field speaker recognition
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
JP2019522810A (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
CN107274906A (zh) 语音信息处理方法、装置、终端及存储介质
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
KR20200080681A (ko) 음성 합성 방법 및 장치
JP7367862B2 (ja) ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
Saranya et al. Decision-level Feature Switching as a Paradigm for Replay Attack Detection.
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
US11611581B2 (en) Methods and devices for detecting a spoofing attack
CN114041184A (zh) 欺骗检测装置、欺骗检测方法和计算机可读存储介质
US20220375476A1 (en) Speaker authentication system, method, and program
Weng et al. The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge
CN109545226B (zh) 一种语音识别方法、设备及计算机可读存储介质
Al Marzuqi et al. Device activation based on voice recognition using Mel frequency cepstral coefficients (MFCC’s) algorithm
WO2018154372A1 (en) Sound identification utilizing periodic indications
Cai et al. Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
US20210256970A1 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
Wang et al. Using multi-resolution feature maps with convolutional neural networks for anti-spoofing in ASV
Lou et al. A Deep One-Class Learning Method for Replay Attack Detection.
Saranya et al. An approach to detect replay attack in automatic speaker verification system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination