CN111640445A - 音频差异检测方法、装置、设备及可读存储介质 - Google Patents
音频差异检测方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111640445A CN111640445A CN202010405107.XA CN202010405107A CN111640445A CN 111640445 A CN111640445 A CN 111640445A CN 202010405107 A CN202010405107 A CN 202010405107A CN 111640445 A CN111640445 A CN 111640445A
- Authority
- CN
- China
- Prior art keywords
- audio
- difference
- comparison
- preset
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000010586 diagram Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音频差异检测方法、装置、设备及可读存储介质,所述音频差异检测方法通过获取用于对比标准音频与对照音频的基准信息,便于有效地将两类音频进行比较;根据基准信息自动将标准音频与对照音频的语音波形图进行重叠比较,使得用户能够快速实现对两类音频的波形图的有效对比,提高了音频比较操作的效率,同时也提升了用户体验;通过进一步确定两类音频的相似等级,并单独输出差异部分以及具体的差异数据,使得用户能够快速获取到两类音频差异的详细信息,进一步提高了对于音频差异信息获取的效率。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种音频差异检测方法、装置、设备及可读存储介质。
背景技术
随着科学技术的发展和硬件计算能力的大幅提升,音频识别技术的发展也日臻完善,并广泛应用到了各个领域。在公安侦查领域,通常需要对疑似音频进行对比。办案人员在对比鉴定的过程中,通常需要反复听辨对比音频的差异部分。然而通过人为对于对比音频的语音图谱进行直观比较,或是直接辨听对比音频的方式都太过繁琐,难以快速确定对比音频间的差异,从而导致了音频差异对比效率低下的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种音频差异检测方法,旨在解决音频差异对比效率低下的技术问题。
为实现上述目的,本发明提供一种音频差异检测方法,所述音频差异检测方法应用于音频差异检测设备,所述音频差异检测方法包括以下步骤:
接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
可选地,所述预设阈值包括预设第一阈值和预设第二阈值,
所述根据预设阈值确定所述标准音频与对照音频的相似等级的步骤包括:
判断所述第一语音波形图与第二语音波形图的重叠率是否超出预设第一阈值;
若未超出预设第一阈值,则确定所述相似等级为低度相似;
若超出预设第一阈值,则判断是否超出预设第二阈值,其中,预设第一阈值小于预设第二阈值;
若未超出预设第二阈值,则确定所述相似等级为中度相似。
可选地,所述判断是否超出预设第二阈值的步骤之后,还包括:
若超出预设第二阈值,则对所述标准音频与对照音频进行快速傅里叶变换,分别生成第一语谱图与第二语谱图;
比较所述第一语谱图与第二语谱图并得到特征差异,判断所述特征差异是否满足预设语谱特征条件;
若不满足,则确定所述相似等级为高度相似;
若满足,则将所述对照音频标记为所述标准音频的翻录音频。
可选地,所述判断所述第一语谱图与第二语谱图之间的特征差异是否满足预设语谱特征条件的步骤包括:
判断所述第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值;
若达到预设第三阈值,则判定所述特征差异满足预设语谱特征条件;
若未达到预设第三阈值,则判定所述特征差异不满足预设语谱特征条件。
可选地,所述输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据的步骤包括:
截取并显示所述第一语音波形图与第二语音波形图的差异部分对照图;
获取所述第一语音波形图与第二语音波形图之间的幅值差值以及时间差值,将所述幅值差值以及时间差值对应显示在所述差异部分对照图中,其中所述差异数据包括所述幅值差值和所述时间差值。
可选地,所述根据预设阈值确定所述标准音频与对照音频的相似等级的步骤之后,还包括:
将所述标准音频与对照音频中关于所述差异部分对照图对应的目标音频部分进行截取,并将所述目标音频部分与所述差异部分对照图关联。
可选地,所述获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图的步骤之前,还包括:
对所述标准音频与对照音频进行降噪处理。
此外,为实现上述目的,本发明还提供一种音频差异检测装置,所述音频差异检测装置包括:
音频信息获取模型,用于接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
语音波形对比模块,用于获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
相似等级确定模块,用于确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
进一步地,所述相似等级确定模块包括:
第一阈值判断单元,用于判断所述第一语音波形图与第二语音波形图的重叠率是否超出预设第一阈值;
低度相似判定单元,用于若未超出预设第一阈值,则确定所述相似等级为低度相似;
第二阈值判断单元,用于若超出预设第一阈值,则判断是否超出预设第二阈值,其中,预设第一阈值小于预设第二阈值;
中度相似判定单元,用于若未超出预设第二阈值,则确定所述相似等级为中度相似。
进一步地,所述相似等级确定模块包括:
语谱图像生成单元,用于若超出预设第二阈值,则对所述标准音频与对照音频进行快速傅里叶变换,分别生成第一语谱图与第二语谱图;
语谱特征判断单元,用于比较所述第一语谱图与第二语谱图并得到特征差异,判断所述特征差异是否满足预设语谱特征条件;
高度相似判定单元,用于若不满足,则确定所述相似等级为高度相似;
翻录音频判定单元,用于若满足,则将所述对照音频标记为所述标准音频的翻录音频。
进一步地,所述相似等级确定模块包括:
第三阈值判断单元,用于判断所述第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值;
条件满足判定单元,用于若达到预设第三阈值,则判定所述特征差异满足预设语谱特征条件;
条件不满判定单元,用于若未达到预设第三阈值,则判定所述特征差异不满足预设语谱特征条件。
进一步地,所述相似等级确定模块包括:
差异对照显示单元,用于截取并显示所述第一语音波形图与第二语音波形图的差异部分对照图;
差异数值显示单元,用于获取所述第一语音波形图与第二语音波形图之间的幅值差值以及时间差值,将所述幅值差值以及时间差值对应显示在所述差异部分对照图中,其中所述差异数据包括所述幅值差值和所述时间差值。
进一步地,所述音频差异检测装置还包括:
差异音频关联模块,用于将所述标准音频与对照音频中关于所述差异部分对照图对应的目标音频部分进行截取,并将所述目标音频部分与所述差异部分对照图关联。
进一步地,所述语音波形对比模块还包括:
音频降噪单元,用于对所述标准音频与对照音频进行降噪处理。
此外,为实现上述目的,本发明还提供一种音频差异检测设备,所述音频差异检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频差异检测程序,所述音频差异检测程序被所述处理器执行时实现如上述的音频差异检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有音频差异检测程序,所述音频差异检测程序被处理器执行时实现如上述的音频差异检测方法的步骤。
本发明提供一种音频差异检测方法、装置、设备及计算机可读存储介质。所述音频差异检测方法通过接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。通过上述方式,本发明通过获取用于对比标准音频与对照音频的基准信息,便于有效地将两类音频进行比较;根据基准信息自动将标准音频与对照音频的语音波形图进行重叠比较,使得用户能够一键实现对两类音频的波形图的有效对比,提高了音频比较操作的效率,同时也提升了用户体验;通过进一步确定两类音频的相似等级,并单独输出差异部分以及具体的差异数据,使得用户能够快速获取到两类音频差异的详细信息,进一步提高了对于音频差异信息获取的效率,从而解决了音频差异对比效率低下的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明音频差异检测方法第一实施例的流程示意图;
图3为本发明音频差异检测方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频差异检测程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的音频差异检测程序,并执行以下操作:
接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
判断所述第一语音波形图与第二语音波形图的重叠率是否超出预设第一阈值;
若未超出预设第一阈值,则确定所述相似等级为低度相似;
若超出预设第一阈值,则判断是否超出预设第二阈值,其中,预设第一阈值小于预设第二阈值;
若未超出预设第二阈值,则确定所述相似等级为中度相似。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
若超出预设第二阈值,则对所述标准音频与对照音频进行快速傅里叶变换,分别生成第一语谱图与第二语谱图;
比较所述第一语谱图与第二语谱图并得到特征差异,判断所述特征差异是否满足预设语谱特征条件;
若不满足,则确定所述相似等级为高度相似;
若满足,则将所述对照音频标记为所述标准音频的翻录音频。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
判断所述第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值;
若达到预设第三阈值,则判定所述特征差异满足预设语谱特征条件;
若未达到预设第三阈值,则判定所述特征差异不满足预设语谱特征条件。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
截取并显示所述第一语音波形图与第二语音波形图的差异部分对照图;
获取所述第一语音波形图与第二语音波形图之间的幅值差值以及时间差值,将所述幅值差值以及时间差值对应显示在所述差异部分对照图中,其中所述差异数据包括所述幅值差值和所述时间差值。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
将所述标准音频与对照音频中关于所述差异部分对照图对应的目标音频部分进行截取,并将所述目标音频部分与所述差异部分对照图关联。
进一步地,处理器1001可以调用存储器1005中存储的音频差异检测程序,还执行以下操作:
对所述标准音频与对照音频进行降噪处理。
基于上述硬件结构,提出本发明音频差异检测方法的各个实施例。
随着科学技术的发展和硬件计算能力的大幅提升,音频识别技术的发展也日臻完善,并广泛应用到了各个领域。在公安侦查领域,通常需要对疑似音频进行对比。办案人员在对比鉴定的过程中,通常需要反复听辨对比音频的差异部分。然而通过人为对对比音频的语音图谱进行直观比较,或是直接辨听对比音频的方式都太过繁琐,难以快速确定对比音频间的差异,从而导致了音频差异对比效率低下的技术问题。
为解决上述问题,本发明提供一种音频差异检测方法,即获取用于对比标准音频与对照音频的基准信息,便于有效地将两类音频进行比较;根据基准信息自动将标准音频与对照音频的语音波形图进行重叠比较,使得用户能够一键实现对两类音频的波形图的有效对比,提高了音频比较操作的效率,同时也提升了用户体验;通过进一步确定两类音频的相似等级,并单独输出差异部分以及具体的差异数据,使得用户能够快速获取到两类音频差异的详细信息,进一步提高了对于音频差异信息获取的效率,从而解决了音频差异对比效率低下的技术问题。所述音频差异检测方法应用于终端。
参照图2,图2为音频差异检测方法第一实施例的流程示意图。
本发明第一实施例提供一种音频差异检测方法,所述音频差异检测方法包括以下步骤:
步骤S10,接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
在本实施例中,音频对比指令用于在终端上创建音频对比任务,将以标准音频为基准,将对照音频与其进行比较。该指令可由用户根据实际情况实时向终端发起,也可由终端根据预设程序自动发起。对照音频的数量可为一个也可为多个,本实施例对此不做具体限定。标准音频可由用户指定,也可由终端根据预设程序自动确定。需要说明的是,一次音频对比任务可指定唯一一个标准音频,也可指定不同音频作为标准音频进行多次比较,得到多份比较结果。基准信息用于确定标准音频与对照音频的对比起始位置,可为指定时间点或指定音节等。具体地,用户当前向计算机导入一个时长均为5分23秒的音频,与另一个时长为5分钟的音频。其中时长为5分钟的音频疑似时长为5分23秒音频的翻录音频。为进一步确认音频的有关信息,用户在计算机中创建一音频对比任务,也即是向计算机发送一音频对比指令。计算机接收到这一音频对比指令,获取该指令中时长为5分23秒的标准音频,时长为5分钟的对照音频与指定比较起始时间点。
步骤S20,获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
在本实施例中,语音波形图为语音信号的时域波形图,时域波形图横坐标为时间,纵坐标为振幅。第一语音波形图为标准音频的语音信号所对应的时域波形图,第二语音波形图为对照音频的语音信号所对应的时域波形图。具体地,沿用步骤S10中具体实施例中的设定。计算机可借助软件工具快速绘制出当前音频对比任务中时长5分23秒的标准音频与时长5分钟的对照音频分别对应的第一语音波形图与第二语音波形图,此技术为现有技术手段,在此不做赘述。计算机根据用户指定的两个音频的起始时间点作为基准,将第一语音波形图与第二语音波形图重叠,将两幅图像中的差异部分突出显示。例如,第一语音波形图与第二语音波形图存在三段波形差异,分别为从1分38秒至1分49秒的一段,3分42秒至3分47秒的一段以及4分17秒至4分22秒的一段。计算机可将这三段差异部分放大并用不同颜色突出显示,放大比例与显示颜色可根据实际情况设置,并可由用户自主调节,本实施例对此不做具体限定。
步骤S30,确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
在本实施例中,预设阈值用于判定对照音频对于标准音频而言的相似等级,可设置多个阈值便于细分多个相似等级。为便于判断,通常将阈值设定为百分比的形式。相似等级包含多个等级设置,例如可设置为低度相似、中度相似、高度相似等,可根据实际情况灵活设定,本实施例对比不做具体限定。差异部分由可为波形图片段对照图的形式显示,差异数据可包括差异百分比,差异幅值、差异时长等。具体地,设定相似等级分为低度相似、中度相似与高度相似三个等级,低度相似所对应阈值为30%,中度相似所对应阈值为60%,高度相似所对应阈值为90%,且沿用步骤S20中具体实施例中的设定。计算机将第一语音波形图与第二语音波形图中1分38秒至1分49秒,3分42秒至3分47秒以及4分17秒至4分22秒这三个差异时间段所对应的波形图片段自动截取并按照时间先后顺序生成差异波形图片段对照图,该对照图中还可具体在每对波形图片段的下方显示出具体起止时间、差异百分比,差异幅值与差异时长等,以便用户快速了解到更为具体的差异信息。
在本实施例中,通过接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。通过上述方式,本发明通过获取用于对比标准音频与对照音频的基准信息,便于有效地将两类音频进行比较;根据基准信息自动将标准音频与对照音频的语音波形图进行重叠比较,使得用户能够一键实现对两类音频的波形图的有效对比,提高了音频比较操作的效率,同时也提升了用户体验;通过进一步确定两类音频的相似等级,并单独输出差异部分以及具体的差异数据,使得用户能够快速获取到两类音频差异的详细信息,进一步提高了对于音频差异信息获取的效率,从而解决了音频差异对比效率低下的技术问题。
参照图2,图2为音频差异检测方法第二实施例的流程示意图。
基于上述图2所示的第一实施例,提出本发明音频差异检测方法的第二实施例。在本实施例中,步骤S30包括:
步骤S31,判断所述第一语音波形图与第二语音波形图的重叠率是否超出预设第一阈值;
在本实施例中,需要说明的是,设定相似等级分为由低到高分为三级:低度相似、中度相似和高度相似。预设第一阈值用于判定第一语音波形图与第二语音波形图的相似等级是否为低度相似,可根据实际情况灵活设置,本实施例对此不做具体限定。具体地,设定第一预设阈值为30%。计算机得到第一语音波形图与第二语音波形图的重叠率,判断该重叠率是否超出预设第一阈值30%。
步骤S32,若未超出预设第一阈值,则确定所述相似等级为低度相似;
在本实施例中,若终端判定第一语音波形图与第二语音波形图的重叠率未超出预设第一阈值。具体地,若用户想要判断对照音频是否为标准音频的翻录音频。计算机获取到的实际重叠率为25%,未达到30%,则可判定对照音频对于标准音频的相似等级为低度相似,排除对照音频是翻录音频的可能性。
步骤S33,若超出预设第一阈值,则判断是否超出预设第二阈值,其中,预设第一阈值小于预设第二阈值;
在本实施例中,若终端判定第一语音波形图与第二语音波形图的重叠率超出预设第一阈值,则还需进一步判断该重叠率是否还超出预设第二阈值。预设第二阈值用于判定对照音频对于标准音频的相似等级是否为中度相似,根据实际情况灵活设置,本实施例对此不做具体限定。需要说明的是,预设第二阈值一定大于预设第一阈值。具体地,设定预设第一阈值为30%,预设第二阈值为60%。
步骤S34,若未超出预设第二阈值,则确定所述相似等级为中度相似。
在本实施例中,若终端判定第一语音波形图与第二语音波形图的重叠率虽大于预设第一阈值但未超出预设第二阈值,则可确定相似等级为中度相似。具体地,若用户想要判断对照音频是否为标准音频的翻录音频。计算机获取到的实际重叠率为45%,超出了预设第一阈值30%,但未达到预设第二阈值60%,则可判定对照音频对于标准音频的相似等级为中度相似,同样排除对照音频是翻录音频的可能性。
进一步地,在本实施例中,步骤S33之后,还包括:
步骤S35,若超出预设第二阈值,则对所述标准音频与对照音频进行快速傅里叶变换,分别生成第一语谱图与第二语谱图;
在本实施例中,语谱图的横坐标为时间,纵坐标为频率,坐标点值为语音数据能量,也即能量值,通过颜色深浅表示能量值大小。第一语谱图为标准音频的语音信号所对应的语谱图,第二语谱图为对照音频的语音信号所对应的语谱图。若终端判定第一语音波形图与第二语音波形图的重叠率超出预设第二阈值,因时域上所能了解到的信息有限,故还需通过频域上的特征对标准音频与对照音频的相似度进行更为详细的判断,以保证相似等级判定的准确性。要想获取到语音信号的频域信息,需要先对语音信号进行快速傅里叶变换(FFT,Fast Fourier Transformation)。具体根据语音信号生成对应的语谱图的步骤为现有技术,在此不做赘述。
步骤S36,比较所述第一语谱图与第二语谱图并得到特征差异,判断所述特征差异是否满足预设语谱特征条件;
在本实施例中,预设语谱特征条件可为能量差值是否达到预设阈值,或是共振峰边缘频率的同步率是否达到预设阈值等。特征差异可为能量值差异、共振峰频率差异等。计算机通过将第一语谱图与第二语谱图基于上述基准信息进行重叠对比,获取到第一语谱图与第二语谱图的特征差异,判断特征差异是否满足预设语谱特征条件。
步骤S37,若不满足,则确定所述相似等级为高度相似;
在本实施例中,若计算机判定第一语谱图与第二语谱图之间的特征差异特征差异不满足预设语谱特征条件,则可判定对照音频对于标准音频的相似等级为高度相似。
步骤S38,若满足,则将所述对照音频标记为所述标准音频的翻录音频。
在本实施例中,若计算机判定第一语谱图与第二语谱图之间的特征差异特征差异满足预设语谱特征条件,则可判定对照音频与标准音频的相似度已满足翻录音频的标准,将对照音频标记为标准音频的翻录音频。
进一步地,图中未示的,在本实施例中,步骤S36包括:
步骤a,判断所述第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值;
在本实施例中,预设第三阈值因应用于频域,与应用于时域的预设第一阈值以及预设第二阈值并无限定的大小关系,可根据实际情况灵活设置,本实施例对此不做具体限定。共振峰是指在声音的频谱中能量相对集中的一些区域,声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质,而在计算机音乐中,它们是决定音色和音质的重要参数,故可选用共振峰的相关参数来对音频的相似程度进行判断。计算机判断第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值,例如90%。其中,共振峰边缘频率可包括共振峰上边缘频率与下边缘频率。
步骤b,若达到预设第三阈值,则判定所述特征差异满足预设语谱特征条件;
在本实施例中,若计算机判定第一语谱图与第二语谱图之间的共振峰边缘频率的同步率达到预设第三阈值,则可判定第一语谱图与第二语谱图之间的特征差异满足预设语谱特征条件。
步骤c,若未达到预设第三阈值,则判定所述特征差异不满足预设语谱特征条件。
在本实施例中,若计算机判定第一语谱图与第二语谱图之间的共振峰边缘频率的同步率未达到预设第三阈值,则可判定第一语谱图与第二语谱图之间的特征差异不满足预设语谱特征条件。
在本实施例中,进一步通过设置第一阈值和第二阈值从音频的时域信息中判断对照音频对于标准音频的具体相似等级,使得为用户快速直观地提供了定性的相似度判断,提高了相似度判断的效率;通过获取音频的频域信息,并设置第三阈值,使得更加精确地对音频的相似程度进行判断,提高了音频相似度判断的准确性;通过以共振峰的相关信息为依据设置语谱特征条件,进一步提高了音频相似度判断的准确性。
进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明音频差异检测方法的第三实施例。在本实施例中,步骤S30包括:
步骤d,截取并显示所述第一语音波形图与第二语音波形图的差异部分对照图;
在本实施例中,计算机截取第一语音波形图与第二语音波形图中的差异波形图片段,将标准音频的对应部分显示在上方,下方按照按照横轴时间线对齐,将各组对照图按时间先后顺序依次排列,以便用户观看。
步骤e,获取所述第一语音波形图与第二语音波形图之间的幅值差值以及时间差值,将所述幅值差值以及时间差值对应显示在所述差异部分对照图中,其中所述差异数据包括所述幅值差值和所述时间差值。
在本实施例中,上述差异数据为幅值差值与时间差值。计算机经计算获取第一语音波形图与第二语音波形图之间的幅值差值与时间差值,并将此幅值差值与时间差值对应显示在差异部分对照图中,以便用户对照分析。
进一步地,在本实施例中,步骤S30之后,还包括:
步骤f,将所述标准音频与对照音频中关于所述差异部分对照图对应的目标音频部分进行截取,并将所述目标音频部分与所述差异部分对照图关联。
在本实施例中,计算机单独截取出标准音频与对照音频的差异音频片段,并与上述差异部分对照图对应关联,便于用户在点击差异部分对照图时直接辨听对应音频片段。
进一步地,在本实施例中,步骤S20之前,还包括:
步骤g,对所述标准音频与对照音频进行降噪处理。
在本实施例中,在生成对应语音波形图之前,计算机可先使用卷积神经网络模型(CNN,Convolutional Neural Network)对标准音频与对照音频进行降噪处理,以减小误差。
在本实施例中,进一步通过单独截取生成差异部分对照图,并同时显示详细的差异数据,使得用户能够更直观快速地获取到标准音频与对照音频的差异信息,进一步提高差异判断效率;通过将差异部分对照图与对应音频片段进行关联,使得用户能够在点击差异部分对照图时直接辨听对应音频片段,接节省了用户的辨听时间;通过在生成语音波形图之前先对标准音频与对照音频进行降噪,排除了噪音的干扰,提高了最终获取到的差异结果的准确性。
本发明还提供一种音频差异检测装置,所述音频差异检测装置包括:
音频信息获取模型,用于接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
语音波形对比模块,用于获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
相似等级确定模块,用于确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
本发明还提供一种音频差异检测设备。
所述音频差异检测设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频差异检测程序,其中所述音频差异检测程序被所述处理器执行时,实现如上所述的音频差异检测方法的步骤。
其中,所述音频差异检测程序被执行时所实现的方法可参照本发明音频差异检测方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有音频差异检测程序,所述音频差异检测程序被处理器执行时实现如上所述的音频差异检测方法的步骤。
其中,所述音频差异检测程序被执行时所实现的方法可参照本发明音频差异检测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种音频差异检测方法,其特征在于,所述音频差异检测方法包括:
接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
2.如权利要求1所述的音频差异检测方法,其特征在于,所述预设阈值包括预设第一阈值和预设第二阈值,
所述根据预设阈值确定所述标准音频与对照音频的相似等级的步骤包括:
判断所述第一语音波形图与第二语音波形图的重叠率是否超出预设第一阈值;
若未超出预设第一阈值,则确定所述相似等级为低度相似;
若超出预设第一阈值,则判断是否超出预设第二阈值,其中,预设第一阈值小于预设第二阈值;
若未超出预设第二阈值,则确定所述相似等级为中度相似。
3.如权利要求2所述的音频差异检测方法,其特征在于,所述判断是否超出预设第二阈值的步骤之后,还包括:
若超出预设第二阈值,则对所述标准音频与对照音频进行快速傅里叶变换,分别生成第一语谱图与第二语谱图;
比较所述第一语谱图与第二语谱图并得到特征差异,判断所述特征差异是否满足预设语谱特征条件;
若不满足,则确定所述相似等级为高度相似;
若满足,则将所述对照音频标记为所述标准音频的翻录音频。
4.如权利要求3所述的音频差异检测方法,其特征在于,所述判断所述第一语谱图与第二语谱图之间的特征差异是否满足预设语谱特征条件的步骤包括:
判断所述第一语谱图与第二语谱图之间的共振峰边缘频率的同步率是否达到预设第三阈值;
若达到预设第三阈值,则判定所述特征差异满足预设语谱特征条件;
若未达到预设第三阈值,则判定所述特征差异不满足预设语谱特征条件。
5.如权利要求1所述的音频差异检测方法,其特征在于,所述确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据的步骤包括:
截取并显示所述第一语音波形图与第二语音波形图的差异部分对照图;
获取所述第一语音波形图与第二语音波形图之间的幅值差值以及时间差值,将所述幅值差值以及时间差值对应显示在所述差异部分对照图中,其中所述差异数据包括所述幅值差值和所述时间差值。
6.如权利要求5所述的音频差异检测方法,其特征在于,所述根据预设阈值确定所述标准音频与对照音频的相似等级的步骤之后,还包括:
将所述标准音频与对照音频中关于所述差异部分对照图对应的目标音频部分进行截取,并将所述目标音频部分与所述差异部分对照图关联。
7.如权利要求1所述的音频差异检测方法,其特征在于,所述获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图的步骤之前,还包括:
对所述标准音频与对照音频进行降噪处理。
8.一种音频差异检测装置,其特征在于,所述音频差异检测装置包括:
音频信息获取模型,用于接收音频对比指令,获取基于所述音频对比指令确定的标准音频、对照音频与基准信息;
语音波形对比模块,用于获取所述标准音频与对照音频分别对应的第一语音波形图与第二语音波形图,并基于所述基准信息对所述第一语音波形图与第二语音波形图进行重叠对比;
相似等级确定模块,用于确定并输出所述第一语音波形图与第二语音波形图的差异部分以及对应的差异数据,根据预设阈值确定所述标准音频与对照音频的相似等级。
9.一种音频差异检测设备,其特征在于,所述音频差异检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频差异检测程序,所述音频差异检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频差异检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有音频差异检测程序,所述音频差异检测程序被处理器执行时实现如权利要求1至7中任一项所述的音频差异检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405107.XA CN111640445A (zh) | 2020-05-13 | 2020-05-13 | 音频差异检测方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405107.XA CN111640445A (zh) | 2020-05-13 | 2020-05-13 | 音频差异检测方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111640445A true CN111640445A (zh) | 2020-09-08 |
Family
ID=72332034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405107.XA Pending CN111640445A (zh) | 2020-05-13 | 2020-05-13 | 音频差异检测方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111640445A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192494A (zh) * | 2021-04-15 | 2021-07-30 | 辽宁石油化工大学 | 一种英语语言智能识别和输出系统和方法 |
CN114429770A (zh) * | 2022-04-06 | 2022-05-03 | 北京普太科技有限公司 | 一种被测设备的声音数据测试方法及装置 |
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107516534A (zh) * | 2017-08-31 | 2017-12-26 | 广东小天才科技有限公司 | 一种语音信息的比对方法、装置及终端设备 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
JP2019123604A (ja) * | 2018-01-18 | 2019-07-25 | 株式会社Pfu | 重送検出装置、重送検出方法及び制御プログラム |
CN110164454A (zh) * | 2019-05-24 | 2019-08-23 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
CN110827853A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 语音特征信息提取方法、终端及可读存储介质 |
-
2020
- 2020-05-13 CN CN202010405107.XA patent/CN111640445A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107516534A (zh) * | 2017-08-31 | 2017-12-26 | 广东小天才科技有限公司 | 一种语音信息的比对方法、装置及终端设备 |
JP2019123604A (ja) * | 2018-01-18 | 2019-07-25 | 株式会社Pfu | 重送検出装置、重送検出方法及び制御プログラム |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN110164454A (zh) * | 2019-05-24 | 2019-08-23 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
CN110827853A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 语音特征信息提取方法、终端及可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192494A (zh) * | 2021-04-15 | 2021-07-30 | 辽宁石油化工大学 | 一种英语语言智能识别和输出系统和方法 |
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
CN114429770A (zh) * | 2022-04-06 | 2022-05-03 | 北京普太科技有限公司 | 一种被测设备的声音数据测试方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640445A (zh) | 音频差异检测方法、装置、设备及可读存储介质 | |
US11715446B2 (en) | Music classification method and beat point detection method, storage device and computer device | |
US8027743B1 (en) | Adaptive noise reduction | |
US9942652B2 (en) | Terminal device and information output method | |
CN107247572B (zh) | 音频播放方法、终端及计算机可读存储介质 | |
CN109474879B (zh) | 麦克风测试方法、装置及存储介质 | |
CN106161705A (zh) | 音频设备测试方法及装置 | |
US9992355B2 (en) | Diagnostic apparatus, diagnostic system, and non-transitory computer readable medium | |
CN108292509B (zh) | 终端装置、诊断系统、诊断方法以及程序 | |
WO2018129869A1 (zh) | 声纹验证方法和装置 | |
WO2017104146A1 (ja) | 診断装置、診断システム、診断方法およびプログラム | |
CN110931019B (zh) | 公安语音数据采集方法、装置、设备和计算机存储介质 | |
CN112420049A (zh) | 数据处理方法、装置及存储介质 | |
US9377990B2 (en) | Image edited audio data | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
US10089397B2 (en) | Diagnostic device, diagnostic system, diagnostic method, and non-transitory computer-readable medium | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
US20150073787A1 (en) | Voice filtering method, apparatus and electronic equipment | |
CN106375566A (zh) | 一种手机的使用方法、装置及终端 | |
CN111640421B (zh) | 语音对比方法、装置、设备及计算机可读存储介质 | |
CN109841232B (zh) | 音乐信号中音符位置的提取方法和装置及存储介质 | |
CN111627416A (zh) | 音频噪声消除方法、装置、设备和存储介质 | |
JP6307814B2 (ja) | 基音可視化装置、基音可視化方法およびプログラム | |
CN105448301B (zh) | 一种基于声纹识别的音频处理方法及系统 | |
CN115728382A (zh) | 水果成熟度检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |
|
RJ01 | Rejection of invention patent application after publication |