CN115331684A - 一种解决非线性延时问题的音频比对设备 - Google Patents
一种解决非线性延时问题的音频比对设备 Download PDFInfo
- Publication number
- CN115331684A CN115331684A CN202210969628.7A CN202210969628A CN115331684A CN 115331684 A CN115331684 A CN 115331684A CN 202210969628 A CN202210969628 A CN 202210969628A CN 115331684 A CN115331684 A CN 115331684A
- Authority
- CN
- China
- Prior art keywords
- audio
- comparison
- time
- frequency
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 238000009432 framing Methods 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 12
- 238000003909 pattern recognition Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000008054 signal transmission Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 238000009331 sowing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/14—Transforming into visible information by displaying frequency domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/29—Arrangements for monitoring broadcast services or broadcast-related services
- H04H60/32—Arrangements for monitoring conditions of receiving stations, e.g. malfunction or breakdown of receiving stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/56—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/58—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
Abstract
本发明公开了一种解决非线性延时问题的音频比对设备,涉及音频处理技术领域。本发明包括如下步骤:步骤S1:音频输入;步骤S2:前端预处理;步骤S3:分帧;步骤S4:时频变换;步骤S5:特征值提取;步骤S6:建立特征值模型,进行时间延迟计算;步骤S7:输出对比监测结果。本发明通过提取出待比对音频的一段音频的声音特征,从样本音频特征里头找到最匹配的声音特征,再利用图形识别技术实现音频的比对,可以监测转播发射以后解调出来的空收信号内容,提高监测播放节目质量,预防插播、错播、劣播现象。
Description
技术领域
本发明属于音频处理技术领域,特别是涉及一种解决非线性延时问题的音频比对设备。
背景技术
在广播电台系统中加入了音频比对监测功能模块,不仅可以监测所有节目的主备路音频信号源,节传链路传输中的音频信号,也可以监测转播发射以后解调出来的空收信号,通过对信号源信号和解调信号的比对,预防插播、错播、劣播的现象,对信号不一致、节目质量等进行实时比对、监测、报警,更全面地掌握节目传输发射环节链路中首末两端的信号传输与播出情况,做到高效、可靠、精细的信号异常识别。
现采用嵌入式音频比对设备对主路卫星信号与主路光纤信号进行比对,对入机信号与开路信号进行比对,进行音频信号采集、信号解调、特征比对、延时处理、数据分析,同时精确检测多组广播信号的相似度和音频特征,有效识别和防止错播、插播、空播等异常播出。采用模拟/数字音频原数据直接比对,减少编码解码失真,提高监测精度,以及解决远程应用中的信号传输丢包、网络传输延时、带宽等问题。
由于广播电台广播节目信号传输链路复杂,信号广播类型多样,因此当前存在一定的缺陷和不足:
(1)不能监测转播发射以后解调出来的空收信号内容;(2)不能预防插播、错播、劣播现象;(3)信号不一致时,难以实时监测播放节目质量;(4)针对节目传输发射环节链路中首末两端的信号传输与播出情况难以做出有效识别;(5)人工监测大大降低效率与可靠性。
发明内容
本发明的目的在于提供一种解决非线性延时问题的音频比对设备,通过自动将样本音频和待对比音频进行实时特征比对和时间延迟计算,输出比对检测结果,解决了现有的广播电台广播节目容易出现插播、错播和劣播的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种解决非线性延时问题的音频比对设备,包括如下步骤:
步骤S1:音频输入;
步骤S2:前端预处理;
步骤S3:分帧;
步骤S4:时频变换;
步骤S5:特征值提取;
步骤S6:建立特征值模型,进行时间延迟计算;
步骤S7:输出对比监测结果。
作为一种优选的技术方案,所述步骤S1中,音频通过DSP主芯片嵌入式前端输入;所述音频包括样本音频和待比对音频。
作为一种优选的技术方案,所述步骤S2中,预处理包括A/D转换码率、采样率调整滤波和PCM音频格式数据单声道处理,用于将模拟信号离散化并转化成对应的格式。
作为一种优选的技术方案,所述步骤S3中,将转化的音频格式的帧长为10-500ms。
作为一种优选的技术方案,所述步骤S4中,时频变换采用DFT技术,用于将音频信号从时域转变为频域。
作为一种优选的技术方案,所述步骤S5中,采用声谱图位图识别平坦测度后将特征对于时间的高阶导数,引入到信号模型中。
作为一种优选的技术方案,所述步骤S6中,时间延迟计算采用二元谱法统计哈希表中,以分量方式获得一系列特征向量,产生标准化位图进行相识度比较。
本发明具有以下有益效果:
(1)本发明通过提取出待比对音频的一段音频的声音特征,从样本音频特征里头找到最匹配的声音特征,再利用图形识别技术实现音频的比对,可以监测转播发射以后解调出来的空收信号内容,提高监测播放节目质量,预防插播、错播、劣播现象;
(2)本发明通过针对节目传输发射环节链路中首末两端的信号传输与播出情况做出有效识别,所有结果以机器视觉展示,不需要复杂的人工操作,大大降低监测成本,增加监测数据准确性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种解决非线性延时问题的音频比对设备原理框图;
图2为本发明特征值提取模块示意图;
图3为语音信号时域波形图;
图4为音频波形声谱图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种解决非线性延时问题的音频比对设备,包括如下步骤:
步骤S1:音频输入;音频通过DSP主芯片嵌入式前端输入;所述音频包括样本音频和待比对音频;
步骤S2:前端预处理;预处理包括A/D转换码率、采样率调整滤波和PCM音频格式数据单声道处理,用于将模拟信号离散化并转化成对应的格式;
步骤S3:分帧;将转化的音频格式的帧长为10-500ms;
步骤S4:时频变换;时频变换采用DFT技术,用于将音频信号从时域转变为频域;
步骤S5:特征值提取;采用声谱图位图识别平坦测度后将特征对于时间的高阶导数,引入到信号模型中;
步骤S6:建立特征值模型,进行时间延迟计算;时间延迟计算采用二元谱法统计哈希表中,以分量方式获得一系列特征向量,产生标准化位图进行相识度比较;
步骤S7:输出对比监测结果,主要输出一对音频相识度、质量估计和信道延迟时间等。
本实施例的一个具体应用为:
如图2所示,描述的前端性能包括一些转换信号的模式,其作用在于方便进行特征提取。特征值建模模块记录最后的特征表现形式,包括向量、向量轨迹、码本、HMM声音类别等的一系列索引、一组错误校验码或者是广播中音乐或者人声意义上的高级属性。提取出待比对音频的一段音频的声音特征,从样本音频特征里头找到最匹配的声音特征,再利用图形识别技术实现音频的比对。
如图3所述为语音信号时域波形图,可以通过把原始音频在其上应用傅里叶变化(或者快速傅里叶变换)来得到这种图。声谱图的横轴x为时间,纵轴y为对应时间点频率的大小,用颜色表示幅度z即得到信号的时频分布。声谱图是一种用来表征音频特性的图像,它从图像的角度将语音信号特征具体化、形象化,从而在音频分类与识别领域中发挥一定的作用。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (7)
1.一种解决非线性延时问题的音频比对设备,其特征在于,包括如下步骤:
步骤S1:音频输入;
步骤S2:前端预处理;
步骤S3:分帧;
步骤S4:时频变换;
步骤S5:特征值提取;
步骤S6:建立特征值模型,进行时间延迟计算;
步骤S7:输出对比监测结果。
2.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S1中,音频通过DSP主芯片嵌入式前端输入;所述音频包括样本音频和待比对音频。
3.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S2中,预处理包括A/D转换码率、采样率调整滤波和PCM音频格式数据单声道处理,用于将模拟信号离散化并转化成对应的格式。
4.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S3中,将转化的音频格式的帧长为10-500ms。
5.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S4中,时频变换采用DFT技术,用于将音频信号从时域转变为频域。
6.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S5中,采用声谱图位图识别平坦测度后将特征对于时间的高阶导数,引入到信号模型中。
7.根据权利要求1所述的一种解决非线性延时问题的音频比对设备,其特征在于,所述步骤S6中,时间延迟计算采用二元谱法统计哈希表中,以分量方式获得一系列特征向量,产生标准化位图进行相识度比较。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969628.7A CN115331684A (zh) | 2022-08-12 | 2022-08-12 | 一种解决非线性延时问题的音频比对设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969628.7A CN115331684A (zh) | 2022-08-12 | 2022-08-12 | 一种解决非线性延时问题的音频比对设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331684A true CN115331684A (zh) | 2022-11-11 |
Family
ID=83924197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210969628.7A Pending CN115331684A (zh) | 2022-08-12 | 2022-08-12 | 一种解决非线性延时问题的音频比对设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331684A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169694A (zh) * | 2010-02-26 | 2011-08-31 | 华为技术有限公司 | 生成心理声学模型的方法及装置 |
CN103401953A (zh) * | 2013-07-18 | 2013-11-20 | 东南大学 | 一种基于双层结构的端到端的语音通信节点寻址方法 |
CN105897360A (zh) * | 2016-05-18 | 2016-08-24 | 国家新闻出版广电总局监管中心 | 一种广播质量和效果判别方法及系统 |
CN107749300A (zh) * | 2017-09-15 | 2018-03-02 | 苏州市福川科技有限公司 | 基于内容的音频比对系统 |
CN112017674A (zh) * | 2020-08-04 | 2020-12-01 | 杭州联汇科技股份有限公司 | 一种基于音频特征检测广播音频信号中噪声的方法 |
-
2022
- 2022-08-12 CN CN202210969628.7A patent/CN115331684A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169694A (zh) * | 2010-02-26 | 2011-08-31 | 华为技术有限公司 | 生成心理声学模型的方法及装置 |
CN103401953A (zh) * | 2013-07-18 | 2013-11-20 | 东南大学 | 一种基于双层结构的端到端的语音通信节点寻址方法 |
CN105897360A (zh) * | 2016-05-18 | 2016-08-24 | 国家新闻出版广电总局监管中心 | 一种广播质量和效果判别方法及系统 |
CN107749300A (zh) * | 2017-09-15 | 2018-03-02 | 苏州市福川科技有限公司 | 基于内容的音频比对系统 |
CN112017674A (zh) * | 2020-08-04 | 2020-12-01 | 杭州联汇科技股份有限公司 | 一种基于音频特征检测广播音频信号中噪声的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8606385B2 (en) | Method for qualitative evaluation of a digital audio signal | |
CN101510424B (zh) | 基于语音基元的语音编码与合成方法及系统 | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
Rix | Perceptual speech quality assessment-a review | |
CN111641799B (zh) | 一种视频会议系统及其音频质量诊断方法 | |
CN110148418B (zh) | 一种场景记录分析系统、方法及其装置 | |
CN104732972A (zh) | 一种基于分组统计的hmm声纹识别签到方法及系统 | |
CN103594083A (zh) | 通过电视伴音自动识别电视节目的技术 | |
CN111107284B (zh) | 一种视频字幕实时生成系统及生成方法 | |
KR101044160B1 (ko) | 두 개의 정보 신호들을 시간적으로 정렬시키기 위해 정보를 결정하는 장치 | |
CN113205831A (zh) | 一种基于数据集的乐音乐器声音中音高和时值的提取方法 | |
CN103426439A (zh) | 一种广播电视音频信号内容一致性检测方法 | |
CN115331684A (zh) | 一种解决非线性延时问题的音频比对设备 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
CN113223487B (zh) | 一种信息识别方法及装置、电子设备和存储介质 | |
CN111179972A (zh) | 一种基于深度学习的人声检测算法 | |
CN112908305B (zh) | 一种提升语音识别准确性的方法和设备 | |
CN111354365B (zh) | 一种纯语音数据采样率识别方法、装置、系统 | |
Rahdari et al. | An ensemble learning model for single-ended speech quality assessment using multiple-level signal decomposition method | |
CN115442273B (zh) | 一种基于语音识别的音频传输完整性监控方法和装置 | |
CN116311538B (zh) | 一种分布式音视频处理系统 | |
CN113488074B (zh) | 一种用于检测合成语音的二维时频特征生成方法 | |
CN105897360A (zh) | 一种广播质量和效果判别方法及系统 | |
CN117789767A (zh) | 一种音频采集设备的测试方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |