CN112634942B - 一种手机录音原始性的鉴定方法、存储介质及设备 - Google Patents

一种手机录音原始性的鉴定方法、存储介质及设备 Download PDF

Info

Publication number
CN112634942B
CN112634942B CN202011607015.6A CN202011607015A CN112634942B CN 112634942 B CN112634942 B CN 112634942B CN 202011607015 A CN202011607015 A CN 202011607015A CN 112634942 B CN112634942 B CN 112634942B
Authority
CN
China
Prior art keywords
mobile phone
data set
recording
audio
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011607015.6A
Other languages
English (en)
Other versions
CN112634942A (zh
Inventor
梅思玉
黄继武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011607015.6A priority Critical patent/CN112634942B/zh
Publication of CN112634942A publication Critical patent/CN112634942A/zh
Application granted granted Critical
Publication of CN112634942B publication Critical patent/CN112634942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种手机录音原始性的鉴定方法、存储介质及设备,方法包括步骤:获取手机原始录音,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音;构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征;根据所述特征以及分类器构建二分类器;从所述手机原始录音以及手机编辑录音中分别选出部分数据作为训练数据集和测试数据集;采用所述训练数据集和所述测试数据集对所述二分类器分别进行训练和测试,得到训练后二分类器;将待测手机录音输入所述训练后二分类器中,输出鉴定结果。本发明提供的方法能够准确识别出手机录音是否被音频编辑软件处理过。

Description

一种手机录音原始性的鉴定方法、存储介质及设备
技术领域
本发明涉及多媒体信息安全与取证领域,特别涉及一种手机录音原始性的鉴定方法、存储介质及设备。
背景技术
随着当今时代科技的不断发展,功能丰富、操作简便的音频编辑软件不胜枚举,诸如Adobe Audition,Cooledit,Goldwave等。人们可以通过这些处理工具轻松地对音频信号实现多种功能的处理,比如拼接,删除和插入等,这些操作很可能改变音频信号的语义。另外滤波,混响,去噪等处理功能可以实现对音频的美化和修饰等作用,它们不会使语义发生改变。这些编辑软件的操作在满足大众的娱乐和兴趣需求的同时,也带来了许多的问题。比如,有人将篡改的音频用作法律证据,可能会威胁到受害人的利益,影响法庭的公正性审判。再者,通过某种滤波功能可以抹除掉音频拼接或者删除的痕迹,为司法鉴定带来更大的挑战。另外,一些不法分子利用变调操作模拟出特定人的声音进行电话诈骗,给人们的生命和财产安全造成了极大地威胁,因此对录音的原始性检测具有非常的重要的意义。而且,现在每个人都会随身带有手机,需要录音时,打开来就可以录音。相对于录音笔来说,手机录音会更为方便和常用,这使得手机录音的原始性检测变得尤为重要。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种手机录音原始性的鉴定方法、存储介质及设备,旨在解决现有技术无法高效准确地鉴定手机录音是否为原始音频的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种手机录音原始性的鉴定方法,其中,包括步骤:
获取手机原始录音,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音;
基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征;
根据所述特征以及分类器构建二分类器;
将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集;
采用所述训练数据集和所述测试数据集对所述二分类器分别进行训练和测试,得到训练后二分类器;
将待测手机录音输入所述训练后二分类器中,输出鉴定结果。
所述手机录音原始性的鉴定方法,其中,所述手机原始录音包括oppo手机MP3格式录音、小米手机MP3格式录音、华为手机M4A格式录音以及iPhone手机M4A格式录音。
所述手机录音原始性的鉴定方法,其中,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音的步骤包括:
将每个手机原始录音导入音频编辑软件,并将所述音频编辑软件的参数设置为和手机原始录音的参数一致,所述音频编辑软件的参数包括码率、音频格式、采样率和声道;
将所述音频编辑软件的输出音频进行保存,得到手机编辑录音。
所述手机录音原始性的鉴定方法,其中,所述音频编辑软件包括Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge。
所述手机录音原始性的鉴定方法,其中,基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征步骤包括:
对于手机原始录音和手机编辑录音中的每个音频片段,直接计算出时域中的Markov转移概率,公式如下:
Figure BDA0002866168280000021
其中,f指的是长度为N的输入音频信号,i和j分别设置为-6到+6范围内的13个整数;
对于手机原始录音和手机编辑录音中的每个音频片段,使用第一统计矩和第二统计矩来模拟音频帧的内部属性,并使用协方差矩阵来模拟相邻音频帧的内部属性,获取基于Mel频域的特征。
所述手机录音原始性的鉴定方法,其中,所述使用第一统计矩和第二统计矩来模拟音频帧的内部属性,并使用协方差矩阵来模拟相邻音频帧的内部属性,获取基于Mel频域的特征的步骤包括:
由输入音频信号f计算二阶差分信号
Figure BDA0002866168280000022
Figure BDA0002866168280000023
式中t=1,2,…,N-1,N是音频片段的长度;
将得到的
Figure BDA0002866168280000024
分成K帧,每个帧的持续时间设置为0.025s,两个相邻帧之间重叠0.010s;
使用由M个三角形滤波器设计的Mel滤波器组对每帧信号的功率谱进行滤波;
对滤波后的信号进行离散余弦变换(DCT),得到L维MFCC,其中L<M;
对差分信号
Figure BDA0002866168280000031
的每个频率区间,提取一个13×K的MFCCs矩阵,其中K依赖于输入
Figure BDA0002866168280000032
的长度,采用R1,R2,…,R13表示结果矩阵的行向量;
计算13行MFCC系数的均值和方差,得到26维特征,计算公式为:
E(Ri),V(Ri),i=1,2,…,13
式中E(X)和V(X)分别表示向量X的均值和方差;
计算任意两行MFCC系数向量之间的相关系数,得到78维特征(13×12/2=78),其计算公式如下:
Figure BDA0002866168280000033
式中,ρX,Y和Cov(X,Y)分别表示X和Y之间的相关系数和协方差,σX表示X的标准差;
从Mel频率域的4个频率子带中得到每个音频片段的416维特征集。
所述手机录音原始性的鉴定方法,其中,所述分类器为Ensemble分类器。
所述手机录音原始性的鉴定方法,其中,将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集的步骤包括:
将所述正样本数据集按照设备划分成若干组语音数据集;
当训练数据集和测试数据集来自同一部手机语音数据集时,作为手机匹配测试;
当训练数据集和测试数据集来自几部相同型号手机语音数据集时,作为型号匹配测试;
当训练数据集和测试数据集来自同一品牌不同型号手机语音数据集时,作为型号不匹配测试;
当训练数据集和测试数据集来自不同品牌手机语音数据集时,作为品牌不匹配测试。
一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明所述手机录音原始性的鉴定方法中的步骤。
一种手机录音原始性的鉴定设备,其中,包括处理器,适于实现各指令;以及存储介质,适于存储多条指令,所述指令适于由处理器加载并执行本发明所述手机录音原始性的鉴定方法中的步骤。
有益效果:本发明基于实际中会利用音频编辑软件对手机录音进行处理的情况,构建了一个基于时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征能够捕捉音频编辑软件压缩时留下的痕迹,从而准确识别出手机录音是否被音频编辑软件处理过。本发明不仅能够有效地检测来自相同手机设备的录音是否经过音频编辑软件处理,还能够有效地检测来自同一型号不同手机设备的录音是否经过音频编辑软件处理,以及来自同种品牌不同型号的手机设备的录音是否经过音频编辑软件处理,这对于涉及音频取证领域具有重要意义。
附图说明
图1为本发明一种手机录音原始性的鉴定方法较佳实施例的流程图。
图2为本发明特征提取的流程框图。
图3为本发明原始语音(左)和Goldwave处理后音频(右)的波形图。
图4为本发明原始音频(左)和Adobe Audition处理后音频(右)的频谱图。
图5为本发明一种手机录音原始性的鉴定设备的原理图。
具体实施方式
本发明提供一种手机录音原始性的鉴定方法、存储介质及设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
数字语音认证技术可分为主动认证和被动认证两类。典型的主动认证技术包括数字水印和数字签名。这两种方法都需要事先对语音附加额外的信息,认证时从语音中提取相应信息,然后与事先附加信息进行匹配判别。而在实际的应用中,更多的情况下不可能获得有效的附加信息,因此主动认证方法有很大局限性。这种情况下,就需要借助于被动式的认证技术。数字语音的被动认证技术不需要任何附加的信息,而是在得到待鉴别的数字语音后,依靠数字语音数据本身的某些属性来鉴别其是否真实和完整。
目前,手机录音广泛存在于我们的生活中。当手机录音作为证据时,其原始性(真实性)鉴别至关重要。判别录音是否经过编辑软件处理,可以判断手机录音的原始性和真实性,并为结论提供判断依据。
音频篡改者无论通过什么方式篡改视频,最后一步都需要用该软件或者音频格式转换软件的音频压缩方法对音频进行压缩。对与一般用户而言,篡改音频都会借助某种音频编辑软件对音频进行篡改,篡改完成后通过该软件或者音频格式转换软件压缩成原始格式的音频。如果能构造一个特征提取器捕获到这些差异,并利用机器学习,就可以鉴定这些差异,从而对音频的原始性进行判断。
基于此,本发明提供了一种手机录音原始性的鉴定方法,如图1所示,其包括步骤:
S10、获取手机原始录音,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音;
S20、基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征;
S30、根据所述特征以及分类器构建二分类器;
S40、将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集;
S50、采用所述训练数据集和所述测试数据集对所述二分类器分别进行训练和测试,得到训练后二分类器;
S60、将待测手机录音输入所述训练后二分类器中,输出鉴定结果。
本实施例基于音频编辑软件的压缩痕迹,构建基于时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征,使用集成分类器训练出二分类器,通过提取该特征可以有效鉴别几种常见手机品牌的两种录音格式(MP3和M4A)的手机录音是否经过音频编辑软件处理,进而可以判断该手机录音的原始性。本实施例不仅能够有效地检测来自相同手机设备的录音是否经过音频编辑软件处理,还能够有效地检测来自同一型号不同手机设备的录音是否经过音频编辑软件处理,以及来自同种品牌不同型号的手机设备的录音是否经过音频编辑软件处理。本发明可以为手机录音原始性鉴定提供一种计算机程序化的辅助手段,该方法还可以推广到识别其它音频编辑软件,在司法和刑侦取证方面有着广阔的应用场景,这对于涉及音频取证领域具有重要意义。
在一些实施方式中,所述手机原始录音包括oppo手机MP3格式录音、小米手机MP3格式录音、华为手机M4A格式录音以及iPhone手机M4A格式录音,总共四类原始音频数据库。其中,其中oppo手机录音为固定码率的MP3格式,小米手机录音为可变码率MP3格式,华为手机录音为148kbps的M4A格式,iPhone手机录音为64kbps的M4A格式。
在一些实施方式中,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音的步骤包括:将每个手机原始录音导入音频编辑软件,并将所述音频编辑软件的参数设置为和手机原始录音的参数一致,所述音频编辑软件的参数包括码率、音频格式、采样率和声道;将所述音频编辑软件的输出音频进行保存,得到手机编辑录音。
具体来讲,所述音频编辑软件包括Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge。对于MP3格式的手机录音,先把每个手机原始录音导入音频编辑软件,然后把音频编辑软件的参数(码率,音频格式,采样率,声道)设置为和原始手机录音参数一样,最后把音频编辑软件的音频保存输出,得到手机编辑录音。对于M4A格式的手机录音,分为148kbps和64kbps两种情况,这两种情况都可以先把每个手机原始录音导入音频编辑软件(Adobe Audition、Cooledit、Goldwave、WavePad、Adacity或SoundForge),编辑完成后,以wav格式保存输出,然后将保存的音频导入音频格式转换软件(格式工厂,Freemake,xrecode2或音频转换专家),把参数(码率,音频格式,采样率,声道)设置为和手机原始录音参数一样,最后把音频格式转换软件的音频保存输出,得到手机编辑录音。对于148kbps的手机录音来说,还可以用Goldwave和WavePad这两种音频编辑软件按照上述MP3格式的构造方式输出。
在一些实施方式中,如图2所示,基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征步骤包括:对于手机原始录音和手机编辑录音中的每个音频片段,直接计算出时域中的Markov转移概率,公式如下:
Figure BDA0002866168280000061
其中,f指的是长度为N的输入音频信号,i和j分别设置为-6到+6范围内的13个整数,可获得每个音频的169维(13×13=169)的特征;对于手机原始录音和手机编辑录音中的每个音频片段,使用第一统计矩和第二统计矩来模拟音频帧的内部属性,并使用协方差矩阵来模拟相邻音频帧的内部属性,获取基于Mel频域的特征。
在本实施例中,如图2所示,获取基于Mel频域的特征的步骤包括:
第一步,由输入音频信号f计算二阶差分信号
Figure BDA0002866168280000062
Figure BDA0002866168280000071
式中t=1,2,…,N-1,N是音频片段的长度;
第二步,将得到的
Figure BDA0002866168280000072
分成K帧,每个帧的持续时间设置为0.025s,两个相邻帧之间重叠0.010s;使用由M个三角形滤波器设计的Mel滤波器组对每帧信号的功率谱进行滤波;对滤波后的信号进行离散余弦变换(DCT),得到L维MFCC,其中L<M,作为举例,M是40,L是13,(包括12维梅尔倒谱系数以及一维对数能量),即对每个音频信号,提取13×K的特征矩阵。由于音频内容的复杂性和音频编辑软件处理的多样性,我们对音频信号的不同频率子带来提取特征,以增加特征的多样性。在本实施例中,考虑了四个截止频率间隔,包括[0,fs/2],[1/4×fs/2,fs/2],[2/4×fs/2,fs/2],[3/4×fs/2,fs/2],其中fs是输入音频的采样率;
第三步,对于第二步中差分信号
Figure BDA0002866168280000073
的每个频率区间,提取一个13×K的MFCCs矩阵,其中K依赖于输入
Figure BDA0002866168280000074
的长度,采用R1,R2,…,R13表示结果矩阵的行向量;对13×K的MFCCs矩阵进一步提取统计特征,首先计算13行MFCC系数的均值和方差,得到(13×2=26)26维特征,计算公式为:E(Ri),V(Ri),i=1,2,…,13,式中E(X)和V(X)分别表示向量X的均值和方差;然后,计算任意两行MFCC系数向量之间的相关系数,得到78维特征(13×12/2=78),其计算公式如下:
Figure BDA0002866168280000075
式中,ρX,Y和Cov(X,Y)分别表示X和Y之间的相关系数和协方差,σX表示X的标准差。
第四步,从Mel频率域的4个频率子带中得到每个音频片段的416维((26+78)×4=416)特征集。加上时域提取的169维特征,本实施例能够从每个音频片段中提取得到585维的特征集。
在一些实施方式中,构建基于时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征,对所述特征进行训练,使用集成分类器训练出二分类器。
本实施例中,所有软件处理音频最后均需要通过软件压缩编码把音频保存输出。即使不做任何处理操作,仅仅是另存,也会因为重压缩的原因而留下音频编辑软件本身的痕迹。如图3所示,给出了一段手机录音在经过GoldWave保存之后的波形变化,可以看出,音频编辑软件会对音频的前面进行补零,因此可以利用时域的Markov转移概率来捕捉此差异。如图4展示了原始音频和Adobe Audition保存之后的频谱图,在频域上我们可以看到,音频编辑软件会在某种程度上改变语音信号的频谱特性,并且此过程对高频部分影响较大,因此可以先对语音信号求二阶差分来提取音频中的高频成分,再利用MFCC来捕捉此差异。
在本实施例中,所述分类器为Ensemble分类器,所述Ensemble分类器采用通过随机子空间和装袋法的实现的整体分类框架。在此框架中,Ensemble分类器由几个线性判别分析分类器组成,它是在特征空间的随机选择子空间上用所有训练样本的随机选择子集进行训练。因此,训练每一个线性判别分类器的计算复杂度特别低。足够多的线性判别分类器组合在一起,分类效果较好。该集成分类器可以通过低训练复杂度来实现相当的性能,因此适合高维特征。
在一些实施方式中,将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集。采用所述训练数据集和所述测试数据集对所述二分类器分别进行训练和测试,得到训练后二分类器;将待测手机录音输入所述训练后二分类器中,输出鉴定结果,实现手机录音原始性的鉴定。
在本实施例中,将所述正样本数据集按照设备划分成若干组语音数据集;当训练数据集和测试数据集来自同一部手机语音数据集时,作为手机匹配测试;当训练数据集和测试数据集来自几部相同型号手机语音数据集时,作为型号匹配测试;当训练数据集和测试数据集来自同一品牌不同型号手机语音数据集时,作为型号不匹配测试;当训练数据集和测试数据集来自不同品牌手机语音数据集时,作为品牌不匹配测试。
基于上述测试,本实施例不仅能够有效地检测来自相同手机设备的录音是否经过音频编辑软件处理,还能够有效地检测来自同一型号不同手机设备的录音是否经过音频编辑软件处理,以及来自同种品牌不同型号的手机设备的录音是否经过音频编辑软件处理。
下面通过一具体实施例对本发明一种手机录音原始性的鉴定方法做进一步的解释说明:
1、提供实验样本并对实验样本进行预处理:
1)、原始音频:如表1所示,列出了具体的录音设备型号及其在本章中对应的编号。录制原始录音时,考虑到有的手机设备所采集的数据要用做训练数据集,所以部分手机的录制时间会长一些,具体每部手机的录制时间由表1给出。为了充分模拟真实环境下的录音过程,在五种环境下录制语音,录音环境分别为会议室,宿舍,楼梯间,阳台,大厅。
2)、MP3(固定码率)负样本:用Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge这六种常见的音频编辑软件处理oppo手机原始录音,得到相应的6种混合负样本。
3)、MP3(可变码率)负样本:用Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge这六种常见的音频编辑软件处理小米手机原始录音,得到相应的6种混合负样本;
4)、M4A(148kbps)负样本:用Goldwave和WavePad直接处理或者用用AdobeAudition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge这六种常见的音频编辑软件和四种音频格式转换软件共同处理华为手机原始录音,得到相应的26(2+6*4)种混合负样本。
5)、M4A(64kbps)负样本:用Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge这六种常见的音频编辑软件和四种音频格式转换软件共同处理iPhone手机原始录音,得到相应的24(6*4)种混合负样本。
表1录音设备的名称及对应的编号和录制时间
Figure BDA0002866168280000091
Figure BDA0002866168280000101
因此,实验样本包含五类音频,每类音频的具体数量有表2给出。在进行特征提取之前,先用静音检测算法对原始语音和处理音频进行去静音的操作,因为每段音频为2s,时间比较短,没办法保证在录制的过程中一直有人说话,去静音的操作能减少一些静音样本的干扰。
表2实验数据集的划分
Figure BDA0002866168280000102
2、训练样本和测试样本设置:
如表2所示,本实施例将数据库按照设备划分成了8组语音数据集,当训练数据和测试数据来自同一部手机语音数据集时,本实施例将其称之为手机匹配测试;当训练数据和测试数据来自几部相同型号的不同手机语音数据集时,本实施例将其称之为型号匹配测试;当训练数据和测试数据来自同一品牌不同型号手机语音数据集时,本实施例将其称之为型号不匹配测试;当训练数据和测试数据来自不同品牌手机语音数据集时,本实施例将其称之为品牌不匹配测试。在手机匹配测试中,本实施例设计了三组实验,第一组为用Data-1训练和用Data-1测试;第二组为用Data-3训练和用Data-3测试;第三组为用Data-5训练和用Data-5测试,训练与测试数据平分。在型号匹配测试中,本实施例设计了四组实验,第一组为用Data-2训练和用Data-2测试;第二组为用Data-4训练和用Data-4测试;第三组为用Data-6训练和用Data-6测试;第四组为用Data-7训练和用Data-7测试。在型号不匹配测试中,本实施例设计了四组实验,第一组为用Data-1训练和用Data-2测试;第二组为用Data-3训练和用Data-4测试;第三组为用Data-6训练和用Data-5测试;第四组为用Data-7训练和用Data-8测试。在品牌不匹配测试中,本实施例设计了两组实验,第一组为用Data-2训练和用Data-4测试;第二组为用Data-4训练和用Data-2测试。
3、测试结果:
测试结果如表3所示:
表3训练与测试数据集的不同情况的检测结果
Figure BDA0002866168280000111
表3列出了上述的训练与测试数据集的四种不同情况下的实验结果。从表3中可以看出本发明在检测手机录音是否被音频编辑软件处理过的问题上能达到不错的效果,基本上都有97%以上的准确率。当条件越来越苛刻的时候,性能方面会有略微的下降。在手机匹配测试中,由于训练和测试数据集来自于同一部手机,手机的硬件条件都一样,本实施例方法的性能都有99%以上,最高的可达到99.99%。为了防止手机录音数据集过拟合的问题,本实施例进行了型号匹配测试和型号不匹配测试,可以看出,测试数据集的设备在训练数据集里出现过,本实施例方法基本上还是有99%的效果,而测试数据集的设备没有在训练数据集里出现过,虽然会欧略微的下降,但也能取得97.50%以上的性能。最后本实施例还进行了跨品牌的实验,在品牌不匹配测试中,本实施例分别用Oppo手机的数据集训练来测试小米手机的数据集和用小米手机的数据集训练来测试Oppo手机的数据集,分别取得了99.07%和98.63%的准确率,说明对于MP3格式的录音,即使是录制数据集的手机品牌不同,本实施例的方法依然能够有效的检测被常用音频编辑软件编辑过的处理语音。
在一些实施方式中,还提供一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明所述手机录音原始性的鉴定方法中的步骤。
在一些实施方式中,还提供一种手机录音原始性的鉴定设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
综上所述,本发明基于实际中会利用音频编辑软件对手机录音进行处理的情况,构建了一个基于时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征能够捕捉音频编辑软件压缩时留下的痕迹,从而准确识别出手机录音是否被音频编辑软件处理过。本发明不仅能够有效地检测来自相同手机设备的录音是否经过音频编辑软件处理,还能够有效地检测来自同一型号不同手机设备的录音是否经过音频编辑软件处理,以及来自同种品牌不同型号的手机设备的录音是否经过音频编辑软件处理。这对于涉及音频取证领域具有重要意义。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种手机录音原始性的鉴定方法,其特征在于,包括步骤:
获取手机原始录音,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音;
基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征;
基于所述手机原始录音和手机编辑录音,构建时域Markov转移概率、MFCC和MFCC协方差矩阵结合的特征步骤包括:
对于手机原始录音和手机编辑录音中的每个音频片段,直接计算出时域中的Markov转移概率,公式如下:
Figure FDA0003523402140000011
其中,f指的是长度为N的输入音频信号,i和j分别设置为-6到+6范围内的13个整数;
对于手机原始录音和手机编辑录音中的每个音频片段,使用第一统计矩和第二统计矩来模拟音频帧的内部属性,并使用协方差矩阵来模拟相邻音频帧的内部属性,获取基于Mel频域的特征;
所述使用第一统计矩和第二统计矩来模拟音频帧的内部属性,并使用协方差矩阵来模拟相邻音频帧的内部属性,获取基于Mel频域的特征的步骤包括:
由输入音频信号f计算二阶差分信号
Figure FDA0003523402140000012
Figure FDA0003523402140000013
式中t=1,2,…,N-1,N是音频片段的长度;
将得到的
Figure FDA0003523402140000021
分成K帧,每个帧的持续时间设置为0.025s,两个相邻帧之间重叠0.010s;
使用由M个三角形滤波器设计的Mel滤波器组对每帧信号的功率谱进行滤波;
对滤波后的信号进行离散余弦变换(DCT),得到L维MFCC,其中L<M;
对差分信号
Figure FDA0003523402140000022
的每个频率区间,提取一个13×K的MFCCs矩阵,其中K依赖于输入
Figure FDA0003523402140000023
的长度,采用R1,R2,…,R13表示结果矩阵的行向量;
计算13行MFCC系数的均值和方差,得到26维特征,计算公式为:
E(Ri),V(Ri),i=1,2,…,13
式中E(X)和V(X)分别表示向量X的均值和方差;
计算任意两行MFCC系数向量之间的相关系数,得到78维特征,其计算公式如下:
Figure FDA0003523402140000024
式中,ρX,Y和Cov(X,Y)分别表示X和Y之间的相关系数和协方差,σX表示X的标准差;
从Mel频率域的4个频率子带中得到每个音频片段的416维特征集;
根据所述特征以及分类器构建二分类器;
将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集;
采用所述训练数据集和所述测试数据集对所述二分类器分别进行训练和测试,得到训练后二分类器;
将待测手机录音输入所述训练后二分类器中,输出鉴定结果。
2.根据权利要求1所述手机录音原始性的鉴定方法,其特征在于,所述手机原始录音包括oppo手机MP3格式录音、小米手机MP3格式录音、华为手机M4A格式录音以及iPhone手机M4A格式录音。
3.根据权利要求1所述手机录音原始性的鉴定方法,其特征在于,将所述手机原始录音导入音频编辑软件,输出得到手机编辑录音的步骤包括:
将每个手机原始录音导入音频编辑软件,并将所述音频编辑软件的参数设置为和手机原始录音的参数一致,所述音频编辑软件的参数包括码率、音频格式、采样率和声道;
将所述音频编辑软件的输出音频进行保存,得到手机编辑录音。
4.根据权利要求1所述手机录音原始性的鉴定方法,其特征在于,所述音频编辑软件包括Adobe Audition、Cooledit、Goldwave、WavePad、Adacity和Sound Forge。
5.根据权利要求1所述手机录音原始性的鉴定方法,其特征在于,所述分类器为Ensemble分类器。
6.根据权利要求1所述手机录音原始性的鉴定方法,其特征在于,将所述手机原始录音以及手机编辑录音分别作为正样本数据集和负样本数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为训练数据集,从所述正样本数据集和负样本数据集中分别选出部分数据作为测试数据集的步骤包括:
将所述正样本数据集按照设备划分成若干组语音数据集;
当训练数据集和测试数据集来自同一部手机语音数据集时,作为手机匹配测试;
当训练数据集和测试数据集来自几部相同型号手机语音数据集时,作为型号匹配测试;
当训练数据集和测试数据集来自同一品牌不同型号手机语音数据集时,作为型号不匹配测试;
当训练数据集和测试数据集来自不同品牌手机语音数据集时,作为品牌不匹配测试。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任一所述手机录音原始性的鉴定方法中的步骤。
8.一种手机录音原始性的鉴定设备,其特征在于,包括处理器,适于实现各指令;以及计算机可读存储介质,适于存储多条指令,所述指令适于由处理器加载并执行权利要求1-6任一所述手机录音原始性的鉴定方法中的步骤。
CN202011607015.6A 2020-12-28 2020-12-28 一种手机录音原始性的鉴定方法、存储介质及设备 Active CN112634942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011607015.6A CN112634942B (zh) 2020-12-28 2020-12-28 一种手机录音原始性的鉴定方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011607015.6A CN112634942B (zh) 2020-12-28 2020-12-28 一种手机录音原始性的鉴定方法、存储介质及设备

Publications (2)

Publication Number Publication Date
CN112634942A CN112634942A (zh) 2021-04-09
CN112634942B true CN112634942B (zh) 2022-05-17

Family

ID=75286561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011607015.6A Active CN112634942B (zh) 2020-12-28 2020-12-28 一种手机录音原始性的鉴定方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112634942B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN110120218A (zh) * 2019-04-29 2019-08-13 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN111178204A (zh) * 2019-12-20 2020-05-19 深圳大学 一种视频数据编辑识别方法、装置、智能终端及存储介质
CN111916059A (zh) * 2020-07-01 2020-11-10 深圳大学 一种基于深度学习的平滑语音检测方法、装置及智能设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10034005B2 (en) * 2015-06-05 2018-07-24 Sony Corporation Banding prediction for video encoding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN110120218A (zh) * 2019-04-29 2019-08-13 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN111178204A (zh) * 2019-12-20 2020-05-19 深圳大学 一种视频数据编辑识别方法、装置、智能终端及存储介质
CN111916059A (zh) * 2020-07-01 2020-11-10 深圳大学 一种基于深度学习的平滑语音检测方法、装置及智能设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Detection of Speech Smoothing on Very Short Clips;Qi Yan.et al;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20190930;第14卷(第9期);第2441-2453页 *

Also Published As

Publication number Publication date
CN112634942A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN108039176B (zh) 一种防录音攻击的声纹认证方法、装置及门禁系统
Hanilci et al. Recognition of brand and models of cell-phones from recorded speech signals
Luo et al. Detection of double compressed AMR audio using stacked autoencoder
WO2017162017A1 (zh) 语音数据处理方法、装置和存储介质
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
Aggarwal et al. Cellphone identification using noise estimates from recorded audio
CN110378228A (zh) 面审视频数据处理方法、装置、计算机设备和存储介质
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN113223536B (zh) 声纹识别方法、装置及终端设备
WO2021042537A1 (zh) 语音识别认证方法及系统
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
Zou et al. Source cell phone verification from speech recordings using sparse representation
CN108364656B (zh) 一种用于语音重放检测的特征提取方法及装置
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
Hadoltikar et al. Optimization of MFCC parameters for mobile phone recognition from audio recordings
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
Shen et al. Rars: Recognition of audio recording source based on residual neural network
CN111916059B (zh) 一种基于深度学习的平滑语音检测方法、装置及智能设备
CN112151038B (zh) 语音重放攻击检测方法、装置、可读存储介质及电子设备
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN112634942B (zh) 一种手机录音原始性的鉴定方法、存储介质及设备
Delgado et al. Impact of bandwidth and channel variation on presentation attack detection for speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant